逆向強(qiáng)化學(xué)習(xí)研究綜述
軟件學(xué)報(bào)
頁(yè)數(shù): 32 2023-04-06
摘要: 逆向強(qiáng)化學(xué)習(xí)(inverse reinforcement learning, IRL)也稱為逆向最優(yōu)控制(inverse optimal control, IOC),是強(qiáng)化學(xué)習(xí)和模仿學(xué)習(xí)領(lǐng)域的一種重要研究方法,該方法通過(guò)專家樣本求解獎(jiǎng)賞函數(shù),并根據(jù)所得獎(jiǎng)賞函數(shù)求解最優(yōu)策略,以達(dá)到模仿專家策略的目的.近年來(lái),逆向強(qiáng)化學(xué)習(xí)在模仿學(xué)習(xí)領(lǐng)域取得了豐富的研究成果,已廣泛應(yīng)用于汽車導(dǎo)航、路...