本申請?zhí)峁┮环N對戰(zhàn)游戲中強(qiáng)化學(xué)習(xí)模型的訓(xùn)練方法及裝置,屬于計(jì)算機(jī)技術(shù)領(lǐng)域,涉及人工智能和計(jì)算機(jī)視覺技術(shù)。方法包括:獲取目標(biāo)對戰(zhàn)模型以及所述目標(biāo)對戰(zhàn)模型的相近對手模型,所述相近對手模型為與所述目標(biāo)對戰(zhàn)模型的等級評分之差小于評分閾值的歷史對戰(zhàn)模型,所述等級評分用于評價(jià)模型的對戰(zhàn)能力;基于對戰(zhàn)雙方的對戰(zhàn)狀態(tài)特征,分別確定所述目標(biāo)對戰(zhàn)模型的預(yù)測操作以及所述相近對手模型的預(yù)測操作;利用所述目標(biāo)對戰(zhàn)模型以及所述相近對手模型分別控制對戰(zhàn)雙方執(zhí)行預(yù)測操作以進(jìn)行對戰(zhàn);確定對戰(zhàn)中所述目標(biāo)對戰(zhàn)模型的操作價(jià)值;基于所述對戰(zhàn)狀態(tài)特征、所述預(yù)測操作以及所述操作價(jià)值訓(xùn)練所述目標(biāo)對戰(zhàn)模型。
聲明:
“對戰(zhàn)游戲中強(qiáng)化學(xué)習(xí)模型的訓(xùn)練方法及裝置” 該技術(shù)專利(論文)所有權(quán)利歸屬于技術(shù)(論文)所有人。僅供學(xué)習(xí)研究,如用于商業(yè)用途,請聯(lián)系該技術(shù)所有人。
我是此專利(論文)的發(fā)明人(作者)