本發(fā)明公開了一種基于策略選項(xiàng)的分層強(qiáng)化學(xué)習(xí)方法和裝置,所述方法包括:構(gòu)建高層策略網(wǎng)絡(luò)、低層策略網(wǎng)絡(luò)和評價(jià)網(wǎng)絡(luò);從仿真環(huán)境,獲取狀態(tài)軌跡;基于狀態(tài)軌跡和策略在線算法的學(xué)習(xí)過程,對高層策略網(wǎng)絡(luò)、低層策略網(wǎng)絡(luò)和評價(jià)網(wǎng)絡(luò)的參數(shù)進(jìn)行更新;根據(jù)更新參數(shù)后的高層策略網(wǎng)絡(luò)、低層策略網(wǎng)絡(luò)和評價(jià)網(wǎng)絡(luò),生成更新后的策略模型,并對更新后的策略模型進(jìn)行測試。本發(fā)明實(shí)施例的基于策略選項(xiàng)的分層強(qiáng)化學(xué)習(xí)方法,能夠在仿真環(huán)境中從零開始學(xué)習(xí)動(dòng)作和高層策略,且性能穩(wěn)定、數(shù)據(jù)使用效率高。
聲明:
“基于策略選項(xiàng)的分層強(qiáng)化學(xué)習(xí)方法和裝置” 該技術(shù)專利(論文)所有權(quán)利歸屬于技術(shù)(論文)所有人。僅供學(xué)習(xí)研究,如用于商業(yè)用途,請聯(lián)系該技術(shù)所有人。
我是此專利(論文)的發(fā)明人(作者)