本申請(qǐng)公開一種多智能體策略預(yù)測(cè)方法及裝置;本申請(qǐng)與人工智能的機(jī)器學(xué)習(xí)領(lǐng)域相關(guān),可以獲取多個(gè)智能體交互環(huán)境的訓(xùn)練數(shù)據(jù),以及獲取多個(gè)智能體交互環(huán)境的隱變量概率分布;根據(jù)多個(gè)智能體交互環(huán)境的隱變量概率分布,確定訓(xùn)練數(shù)據(jù)的至少一個(gè)目標(biāo)隱變量;將訓(xùn)練數(shù)據(jù)和目標(biāo)隱變量輸入強(qiáng)化學(xué)習(xí)模型,以得到多個(gè)智能體交互環(huán)境的結(jié)構(gòu)因子概率分布;將訓(xùn)練數(shù)據(jù)及其對(duì)應(yīng)的目標(biāo)結(jié)構(gòu)因子輸入強(qiáng)化學(xué)習(xí)模型,得到訓(xùn)練數(shù)據(jù)對(duì)應(yīng)的動(dòng)作策略、以及動(dòng)作策略的獎(jiǎng)勵(lì)信息;基于訓(xùn)練數(shù)據(jù)、目標(biāo)結(jié)構(gòu)因子、動(dòng)作策略、以及動(dòng)作策略的獎(jiǎng)勵(lì)信息,對(duì)強(qiáng)化學(xué)習(xí)模型進(jìn)行訓(xùn)練,以通過訓(xùn)練后的強(qiáng)化學(xué)習(xí)模型對(duì)多個(gè)智能體進(jìn)行動(dòng)作策略預(yù)測(cè)。
聲明:
“多智能體策略預(yù)測(cè)方法及裝置” 該技術(shù)專利(論文)所有權(quán)利歸屬于技術(shù)(論文)所有人。僅供學(xué)習(xí)研究,如用于商業(yè)用途,請(qǐng)聯(lián)系該技術(shù)所有人。
我是此專利(論文)的發(fā)明人(作者)