本發(fā)明實施例提供一種強(qiáng)化學(xué)習(xí)方法、裝置、電子設(shè)備及存儲介質(zhì),所述方法包括:確定智能體在執(zhí)行完當(dāng)前執(zhí)行動作后的觀測狀態(tài),作為下一觀測狀態(tài);基于預(yù)先設(shè)定的觀測狀態(tài)與規(guī)則狀態(tài)的映射關(guān)系,確定下一觀測狀態(tài)對應(yīng)的下一規(guī)則狀態(tài);基于預(yù)先設(shè)定的智能體執(zhí)行策略和下一規(guī)則狀態(tài),確定智能體的下一執(zhí)行動作,并基于下一規(guī)則狀態(tài)和下一執(zhí)行動作確定下一行動效用值;基于下一行動效用值,更新智能體的當(dāng)前行動效用值,直至滿足預(yù)先設(shè)定的交互終止條件。本發(fā)明實施例提供的強(qiáng)化學(xué)習(xí)方法、裝置、電子設(shè)備及存儲介質(zhì),行動效用值的計算量大幅減少,縮減了計算維度,提升了強(qiáng)化學(xué)習(xí)效率。
聲明:
“強(qiáng)化學(xué)習(xí)方法、裝置、電子設(shè)備及存儲介質(zhì)” 該技術(shù)專利(論文)所有權(quán)利歸屬于技術(shù)(論文)所有人。僅供學(xué)習(xí)研究,如用于商業(yè)用途,請聯(lián)系該技術(shù)所有人。
我是此專利(論文)的發(fā)明人(作者)