當(dāng)前位置:首頁 > 實(shí)用文檔 > 自動化技術(shù) > 正文

融合認(rèn)知行為模型的深度強(qiáng)化學(xué)習(xí)框架及算法

控制與決策 頁數(shù): 10 2022-07-12
摘要: 面對高維連續(xù)狀態(tài)空間或稀疏獎勵等復(fù)雜任務(wù)時,僅依靠深度強(qiáng)化學(xué)習(xí)算法從零學(xué)習(xí)最優(yōu)策略十分困難,如何將已有知識表示為人與學(xué)習(xí)型智能體之間相互可理解的形式,并有效地加速策略收斂仍是一個難題.對此,提出一種融合認(rèn)知行為模型的深度強(qiáng)化學(xué)習(xí)框架,將領(lǐng)域內(nèi)先驗(yàn)知識建模為基于信念-愿望-意圖(beliefdesire-intention, BDI)的認(rèn)知行為模型,用于引導(dǎo)智能體策略學(xué)習(xí).基于此...

開通會員,享受整站包年服務(wù)立即開通 >
科技文檔