包括在計算機(jī)存儲介質(zhì)上編碼的、用于使用強(qiáng)化學(xué)習(xí)來選擇動作名單的計算機(jī)程序的方法、系統(tǒng)和裝置。其中一種方法包括接收表征環(huán)境當(dāng)前狀態(tài)的觀測;通過使用深度神經(jīng)網(wǎng)絡(luò)處理所述觀測和多個候選動作名單來選擇動作名單,其中每個候選動作名單包括來自動作集合的相應(yīng)多個動作,并且其中深度神經(jīng)網(wǎng)絡(luò)被配置為對于每個動作名單處理觀測和該候選動作名單中的動作以生成該候選動作名單的名單Q值,該值是響應(yīng)于觀測從提供給動作選擇器的所述候選動作名單產(chǎn)生的長期獎勵的估計;以及響應(yīng)于觀測將選擇的動作名單提供給動作選擇器。
聲明:
“使用強(qiáng)化學(xué)習(xí)選擇動作名單” 該技術(shù)專利(論文)所有權(quán)利歸屬于技術(shù)(論文)所有人。僅供學(xué)習(xí)研究,如用于商業(yè)用途,請聯(lián)系該技術(shù)所有人。
我是此專利(論文)的發(fā)明人(作者)