用于選擇要由與環(huán)境交互的代理執(zhí)行的動(dòng)作的方法、系統(tǒng)和裝置。一種方法包括維護(hù)將每個(gè)觀測(cè)?動(dòng)作對(duì)映射到相應(yīng)的返回的返回?cái)?shù)據(jù),每個(gè)觀測(cè)?動(dòng)作對(duì)中的動(dòng)作是由代理響應(yīng)于觀測(cè)?動(dòng)作對(duì)中的觀測(cè)而執(zhí)行的動(dòng)作,并且由每個(gè)觀測(cè)?動(dòng)作對(duì)映射到的相應(yīng)返回是由代理執(zhí)行觀測(cè)?動(dòng)作對(duì)中的動(dòng)作所產(chǎn)生的返回;接收當(dāng)前觀測(cè);確定當(dāng)前觀測(cè)值是否與在返回?cái)?shù)據(jù)中識(shí)別到的任何觀測(cè)相匹配;以及響應(yīng)于確定當(dāng)前觀測(cè)與在返回?cái)?shù)據(jù)中識(shí)別到的第一觀測(cè)相匹配,使用由返回?cái)?shù)據(jù)中包括第一觀測(cè)的觀測(cè)?動(dòng)作對(duì)映射到的返回來(lái)選擇要由代理執(zhí)行的動(dòng)作。
聲明:
“用于強(qiáng)化學(xué)習(xí)代理的無(wú)模型控制” 該技術(shù)專(zhuān)利(論文)所有權(quán)利歸屬于技術(shù)(論文)所有人。僅供學(xué)習(xí)研究,如用于商業(yè)用途,請(qǐng)聯(lián)系該技術(shù)所有人。
我是此專(zhuān)利(論文)的發(fā)明人(作者)