一種用于開發(fā)強化學(xué)習(xí)系統(tǒng)的框架及方法,其特征在于它是由與外部環(huán)境交互的學(xué)習(xí)者接口、表示環(huán)境狀態(tài)的狀態(tài)接口、系統(tǒng)通過執(zhí)行部件執(zhí)行動作的動作接口、基本的測試環(huán)境等部分組成框架,然后利用框架開發(fā)強化學(xué)習(xí)系統(tǒng),其中學(xué)習(xí)者接口通過狀態(tài)接口獲取環(huán)境狀態(tài),經(jīng)過學(xué)習(xí)更新內(nèi)部狀態(tài)并做出決策,調(diào)用動作接口作用于環(huán)境,同時提供了本研究組提出的新的基于量子理論的多機器人強化學(xué)習(xí)算法實現(xiàn)作為實例演示。開發(fā)人員只需要按照一定步驟實現(xiàn)相應(yīng)的接口即可完成機器人或其他智能裝置學(xué)習(xí)模塊的開發(fā)。本發(fā)明可移植性高,可以在眾多平臺運行,可與其他機器人系統(tǒng)框架結(jié)合使用,大大降低了學(xué)習(xí)算法編寫的復(fù)雜度,方法簡單。
聲明:
“用于開發(fā)強化學(xué)習(xí)系統(tǒng)的框架及方法” 該技術(shù)專利(論文)所有權(quán)利歸屬于技術(shù)(論文)所有人。僅供學(xué)習(xí)研究,如用于商業(yè)用途,請聯(lián)系該技術(shù)所有人。
我是此專利(論文)的發(fā)明人(作者)