本發(fā)明提出基于AlphaGo Zero改進(jìn)的國際象棋博弈方法,擴(kuò)展了AlphaGo Zero方法在人機(jī)博弈領(lǐng)域的應(yīng)用范圍,屬于機(jī)器人科技娛樂領(lǐng)域。其包括以下步驟:采用能有效避免梯度彌散并能夠獲得最優(yōu)位置收斂的CNN、ResNet以及全連接層在內(nèi)的混合網(wǎng)絡(luò)結(jié)構(gòu),并使用一個(gè)訓(xùn)練網(wǎng)絡(luò)同時(shí)輸出策略與估值;2)采用強(qiáng)化學(xué)習(xí)策略,通過使用自我博弈(Self?Play)產(chǎn)生的數(shù)據(jù)進(jìn)行訓(xùn)練,解決序貫結(jié)構(gòu)的數(shù)據(jù)訓(xùn)練規(guī)模較大的問題,在博弈過程中進(jìn)行模型優(yōu)化;3)神經(jīng)網(wǎng)絡(luò)訓(xùn)練優(yōu)化模型,定義損失函數(shù)并選擇相應(yīng)的優(yōu)化器進(jìn)行向減小損失方向的迭代更新;4)網(wǎng)絡(luò)模型評(píng)估,使用訓(xùn)練一段時(shí)間后的新模型與訓(xùn)練前的模型進(jìn)行對(duì)弈,根據(jù)勝負(fù)局?jǐn)?shù)獲取當(dāng)前模型的性能以判定是否進(jìn)行模型的迭代;5)采用第三方軟件進(jìn)行可視化交互博弈測(cè)試與評(píng)估。
聲明:
“基于AlphaGo Zero改進(jìn)的國際象棋博弈方法” 該技術(shù)專利(論文)所有權(quán)利歸屬于技術(shù)(論文)所有人。僅供學(xué)習(xí)研究,如用于商業(yè)用途,請(qǐng)聯(lián)系該技術(shù)所有人。
我是此專利(論文)的發(fā)明人(作者)