安全強化學習綜述
自動化學報
頁數(shù): 23 2023-09-15
摘要: 強化學習(Reinforcement learning, RL)在圍棋、視頻游戲、導航、推薦系統(tǒng)等領(lǐng)域均取得了巨大成功.然而,許多強化學習算法仍然無法直接移植到真實物理環(huán)境中.這是因為在模擬場景下智能體能以不斷試錯的方式與環(huán)境進行交互,從而學習最優(yōu)策略.但考慮到安全因素,很多現(xiàn)實世界的應(yīng)用則要求限制智能體的隨機探索行為.因此,安全問題成為強化學習從模擬到現(xiàn)實的一個重要挑戰(zhàn).近年...