深度學(xué)習(xí)容器云平臺(tái)下的GPU共享調(diào)度系統(tǒng)
計(jì)算機(jī)科學(xué)
頁(yè)數(shù): 6 2023-04-10
摘要: 近年來,容器由于具有輕量級(jí)以及高可擴(kuò)展性,逐漸替代了虛擬機(jī),被廣泛應(yīng)用于深度學(xué)習(xí)云平臺(tái)中。但目前深度學(xué)習(xí)云平臺(tái)在GPU資源管理上依然存在著不足,主要表現(xiàn)為由于容器編排技術(shù)的限制,多個(gè)容器無(wú)法共享使用GPU資源,而對(duì)于一些小規(guī)模模型的訓(xùn)練任務(wù)和推理任務(wù),單個(gè)任務(wù)并不能充分利用整張GPU卡的計(jì)算資源。當(dāng)前的獨(dú)占模式會(huì)導(dǎo)致昂貴的GPU資源的浪費(fèi),降低資源效率和服務(wù)可用性。針對(duì)這一問題...