基于多智能體強(qiáng)化學(xué)習(xí)的協(xié)同目標(biāo)分配
系統(tǒng)工程與電子技術(shù)
頁數(shù): 9 2022-08-23
摘要: 針對傳統(tǒng)方法難以適用于動態(tài)不確定環(huán)境下的大規(guī)模協(xié)同目標(biāo)分配問題,提出一種基于多智能體強(qiáng)化學(xué)習(xí)的協(xié)同目標(biāo)分配模型及訓(xùn)練方法。通過對相關(guān)概念和數(shù)學(xué)模型的描述,將協(xié)同目標(biāo)分配轉(zhuǎn)化為多智能體協(xié)作問題。聚焦于頂層分配策略的學(xué)習(xí),構(gòu)建了策略評分模型和策略推理模型,采用Advantage Actor-Critic算法進(jìn)行策略優(yōu)化。仿真實驗結(jié)果表明,所提方法能夠準(zhǔn)確刻畫作戰(zhàn)單元之間的協(xié)同演化內(nèi)...