面向深度學(xué)習(xí)圖像分類的GPU并行方法研究
計(jì)算機(jī)工程
頁數(shù): 10 2022-03-24
摘要: 針對深度學(xué)習(xí)圖像分類場景中多GPU并行后傳輸效率低的問題,提出一種低時(shí)間復(fù)雜度的Ring All Reduce改進(jìn)算法。通過分節(jié)點(diǎn)間隔配對原則優(yōu)化數(shù)據(jù)傳輸流程,緩解傳統(tǒng)參數(shù)服務(wù)器并行結(jié)構(gòu)的帶寬損耗?;跀?shù)據(jù)并行難以支撐大規(guī)模網(wǎng)絡(luò)參數(shù)及加速延緩的問題,根據(jù)深度學(xué)習(xí)主干網(wǎng)絡(luò)所包含的權(quán)重參數(shù)低于全連接層權(quán)重參數(shù)、同步開銷小、全連接層權(quán)重大與梯度傳輸開銷過高等特點(diǎn),提出GPU混合并行優(yōu)... (共10頁)