本申請實施例公開一種基于強化學習的聯(lián)合決策方法及裝置。所述方法包括A1、通過演說家?評論家網(wǎng)絡的演說家網(wǎng)絡根據(jù)輸入的環(huán)境狀態(tài)觀測值,輸出決策變量的動作概率分布;A2、通過所述演說家?評論家網(wǎng)絡的評論家網(wǎng)絡根據(jù)輸入的環(huán)境狀態(tài)觀測值,輸出當前狀態(tài)的價值估計;A3、根據(jù)所述決策變量的動作概率分布和所述當前狀態(tài)的價值估計,得到優(yōu)勢函數(shù)的估計值;A4、使用所述演說家?評論家網(wǎng)絡和基于所述優(yōu)勢函數(shù)的策略梯度算法,利用過往的內容訪問數(shù)據(jù)進行訓練,得到深度強化學習的模型,從而實現(xiàn)輸出聯(lián)合決策策略。所述裝置可實現(xiàn)所述方法。本申請實施例可在不需要先驗信息的情況下最大化使用者的長期利益。
聲明:
“基于強化學習的聯(lián)合決策方法及裝置” 該技術專利(論文)所有權利歸屬于技術(論文)所有人。僅供學習研究,如用于商業(yè)用途,請聯(lián)系該技術所有人。
我是此專利(論文)的發(fā)明人(作者)