本發(fā)明提供一種基于多智能體協(xié)作系統(tǒng)的深度強(qiáng)化學(xué)習(xí)方法和裝置,涉及人工智能技術(shù)領(lǐng)域,所述方法包括:在一次深度強(qiáng)化學(xué)習(xí)中,基于預(yù)先構(gòu)建的深度強(qiáng)化學(xué)習(xí)網(wǎng)絡(luò)和當(dāng)前觀測(cè)數(shù)據(jù)獲取多智能體協(xié)作系統(tǒng)對(duì)應(yīng)協(xié)作圖的當(dāng)前分配調(diào)整動(dòng)作,基于當(dāng)前分配調(diào)整動(dòng)作獲取當(dāng)前獎(jiǎng)懲數(shù)據(jù),基于當(dāng)前獎(jiǎng)懲數(shù)據(jù)優(yōu)化深度強(qiáng)化學(xué)習(xí)網(wǎng)絡(luò),重復(fù)執(zhí)行上述步驟,直至達(dá)到預(yù)設(shè)收斂條件或者達(dá)到預(yù)設(shè)學(xué)習(xí)次數(shù);通過(guò)多次深度強(qiáng)化學(xué)習(xí)更新協(xié)作圖的當(dāng)前分配調(diào)整動(dòng)作,而不更新智能體的實(shí)際動(dòng)作,以簡(jiǎn)化深度強(qiáng)化學(xué)習(xí)的步驟,實(shí)現(xiàn)在深度強(qiáng)化學(xué)習(xí)獎(jiǎng)勵(lì)稀疏的情況下,快速地進(jìn)行多次深度強(qiáng)化學(xué)習(xí)積累更多的獎(jiǎng)勵(lì),從而提高深度強(qiáng)化學(xué)習(xí)網(wǎng)絡(luò)的訓(xùn)練效率以及收斂速度慢。
聲明:
“基于多智能體協(xié)作系統(tǒng)的深度強(qiáng)化學(xué)習(xí)方法和裝置” 該技術(shù)專(zhuān)利(論文)所有權(quán)利歸屬于技術(shù)(論文)所有人。僅供學(xué)習(xí)研究,如用于商業(yè)用途,請(qǐng)聯(lián)系該技術(shù)所有人。
我是此專(zhuān)利(論文)的發(fā)明人(作者)