本申請?zhí)峁┮环N基于多智體強(qiáng)化學(xué)習(xí)的心智理論模型實(shí)現(xiàn)方法及裝置,該方法包括:基于心智理論模型建立原始聯(lián)合心智模型網(wǎng)絡(luò)以預(yù)測多個(gè)己方智能體的友方智能體的意圖特征信息;建立多智體強(qiáng)化學(xué)習(xí)的任務(wù)場景結(jié)合意圖特征信息,分級建模場景任務(wù)的主目標(biāo)及其子目標(biāo);通過主目標(biāo)的收斂后的主目標(biāo)實(shí)現(xiàn)算法和子目標(biāo)的規(guī)則化子目標(biāo)實(shí)現(xiàn)算法收集待使用數(shù)據(jù),以對原始聯(lián)合心智模型網(wǎng)絡(luò)進(jìn)行訓(xùn)練,通過目標(biāo)聯(lián)合心智模型網(wǎng)絡(luò)預(yù)測當(dāng)前己方智能體的意圖信息并將其添加至多智體算法的輸入信息,實(shí)現(xiàn)己方智能體的協(xié)同。本申請實(shí)施例提供的基于多智體強(qiáng)化學(xué)習(xí)的心智理論模型實(shí)現(xiàn)方法結(jié)合多智體強(qiáng)化學(xué)習(xí)、心智理論模型和任務(wù)場景,提升了多智能體的協(xié)同效果。
聲明:
“基于多智體強(qiáng)化學(xué)習(xí)的心智理論模型實(shí)現(xiàn)方法及裝置” 該技術(shù)專利(論文)所有權(quán)利歸屬于技術(shù)(論文)所有人。僅供學(xué)習(xí)研究,如用于商業(yè)用途,請聯(lián)系該技術(shù)所有人。
我是此專利(論文)的發(fā)明人(作者)