本發(fā)明實(shí)施例提供了一種基于認(rèn)知的智能體強(qiáng)化學(xué)習(xí)方法、裝置、系統(tǒng)、計(jì)算機(jī)設(shè)備及計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)。屬于機(jī)器學(xué)習(xí)技術(shù)領(lǐng)域,智能體通過獲取外部環(huán)境反饋的當(dāng)前狀態(tài);根據(jù)當(dāng)前狀態(tài),通過動(dòng)作預(yù)測(cè)器預(yù)測(cè)其它智能體在本回合中將會(huì)采取的預(yù)測(cè)動(dòng)作;根據(jù)預(yù)測(cè)動(dòng)作及當(dāng)前狀態(tài),通過動(dòng)作評(píng)估器對(duì)候選動(dòng)作表中包含的第一預(yù)設(shè)候選動(dòng)作進(jìn)行評(píng)估,并結(jié)合預(yù)設(shè)策略選擇出自身智能體在本回合中將采取的評(píng)估動(dòng)作;發(fā)送評(píng)估動(dòng)作至外部環(huán)境,以使外部環(huán)境根據(jù)評(píng)估動(dòng)作和其它智能體的實(shí)際動(dòng)作確定交互結(jié)果;接收外部環(huán)境返回的交互結(jié)果;根據(jù)交互結(jié)果,更新動(dòng)作預(yù)測(cè)器和動(dòng)作評(píng)估器以實(shí)現(xiàn)自身智能體強(qiáng)化學(xué)習(xí),由于評(píng)估動(dòng)作具有針對(duì)性,提高了應(yīng)對(duì)的準(zhǔn)確性。
聲明:
“基于認(rèn)知的智能體強(qiáng)化學(xué)習(xí)方法、裝置、系統(tǒng)、計(jì)算機(jī)設(shè)備及存儲(chǔ)介質(zhì)” 該技術(shù)專利(論文)所有權(quán)利歸屬于技術(shù)(論文)所有人。僅供學(xué)習(xí)研究,如用于商業(yè)用途,請(qǐng)聯(lián)系該技術(shù)所有人。
我是此專利(論文)的發(fā)明人(作者)