本申請(qǐng)?zhí)峁┮环N基于多Agent環(huán)境的深度強(qiáng)化學(xué)習(xí)算法、設(shè)備和存儲(chǔ)介質(zhì),涉及深度強(qiáng)化學(xué)習(xí)算法技術(shù)領(lǐng)域;通過(guò)步驟S101、利用Agent中的目標(biāo)網(wǎng)絡(luò),基于初始狀態(tài)信息和動(dòng)作信息,確定時(shí)間差分;步驟S102、根據(jù)預(yù)設(shè)的遮蓋率,對(duì)初始狀態(tài)信息進(jìn)行隨機(jī)遮蓋,得到目標(biāo)狀態(tài)信息,利用Agent中的預(yù)測(cè)網(wǎng)絡(luò),以及時(shí)間差分,確定誤差值;步驟S103:基于誤差值,以及自適應(yīng)修改參數(shù),對(duì)Agent中的預(yù)測(cè)網(wǎng)絡(luò)和目標(biāo)網(wǎng)絡(luò)各自對(duì)應(yīng)的加權(quán)值進(jìn)行更新;步驟S104:重復(fù)步驟S102和步驟S103預(yù)設(shè)次數(shù),確定目標(biāo)加權(quán)值,從而確定目標(biāo)深度強(qiáng)化學(xué)習(xí)模型。具有保證了樣本學(xué)習(xí)效率,并通過(guò)自適應(yīng)修改參數(shù)對(duì)深度強(qiáng)化學(xué)習(xí)模型中的Agent進(jìn)行迭代更新,以提高收斂速度的效果。
聲明:
“基于多Agent環(huán)境的深度強(qiáng)化學(xué)習(xí)算法、設(shè)備和存儲(chǔ)介質(zhì)” 該技術(shù)專(zhuān)利(論文)所有權(quán)利歸屬于技術(shù)(論文)所有人。僅供學(xué)習(xí)研究,如用于商業(yè)用途,請(qǐng)聯(lián)系該技術(shù)所有人。
我是此專(zhuān)利(論文)的發(fā)明人(作者)