本發(fā)明公開了一種基于虛擬場景訓練的機器人模仿學習方法。所述方法包括以下步驟:根據具體任務設計機器人模型和虛擬交互環(huán)境;采集和整理專家數據集;根據具體任務確定狀態(tài)取值空間S和動作取值空間A,根據狀態(tài)取值空間S和動作取值空間A確定策略生成器網絡和判別器網絡的結構;從策略生成器采樣數據,設計參數更新策略,結合專家數據集采用對抗訓練方法交替訓練策略生成器和判別器,直到判別器收斂至鞍點;對由訓練得到的策略生成器和判別器組成的網絡模型進行測試,將真實的環(huán)境狀態(tài)作為策略生成器輸入獲得動作輸出。本發(fā)明采用判別學習一個價值回報函數,繞過大量復雜且計算量高的逆強化學習的中間步驟,學習過程更加簡潔高效。
聲明:
“基于虛擬場景訓練的機器人模仿學習方法” 該技術專利(論文)所有權利歸屬于技術(論文)所有人。僅供學習研究,如用于商業(yè)用途,請聯系該技術所有人。
我是此專利(論文)的發(fā)明人(作者)