面向異構(gòu)分布式機(jī)器學(xué)習(xí)的動(dòng)態(tài)自適應(yīng)并行加速方法
智能系統(tǒng)學(xué)報(bào)
頁(yè)數(shù): 9 2023-06-01
摘要: 分布式機(jī)器學(xué)習(xí)因其優(yōu)越的并行能力成為人工智能領(lǐng)域復(fù)雜模型訓(xùn)練的常用技術(shù)。然而,GPU升級(jí)換代非???,異構(gòu)集群環(huán)境下的分布式機(jī)器學(xué)習(xí)成為數(shù)據(jù)中心、研究機(jī)構(gòu)面臨的新常態(tài)。異構(gòu)節(jié)點(diǎn)之間訓(xùn)練速度的差異使得現(xiàn)有并行方法難以平衡同步等待和陳舊梯度的影響,從而顯著降低模型整體訓(xùn)練效率。針對(duì)該問(wèn)題,提出了一種基于節(jié)點(diǎn)狀態(tài)的動(dòng)態(tài)自適應(yīng)并行方法 (dynamic adaptive synchron...