結(jié)合PPO和蒙特卡洛樹搜索的斗地主博弈模型
摘要: 斗地主是一種典型的非完備信息博弈,由于具有多人博弈、動作空間龐大、合作與競爭并存等決策需求,單一的蒙特卡洛樹搜索在應(yīng)用時(shí)存在效率低的問題。為提升蒙特卡洛樹搜索的策略效果和搜索效率,提出一種基于近端策略優(yōu)化(proximal policy optimization, PPO)算法結(jié)合蒙特卡洛樹搜索的斗地主博弈模型。利用PPO算法學(xué)習(xí)斗地主中的牌局和策略信息,訓(xùn)練出可根據(jù)當(dāng)前局面提... (共8頁)
開通會員,享受整站包年服務(wù)