本發(fā)明提供了一種基于強化學(xué)習(xí)的機器人導(dǎo)航避障任務(wù)實現(xiàn)方法及系統(tǒng),包括:將導(dǎo)航任務(wù)建模為馬爾可夫過程,為強化學(xué)習(xí)方法設(shè)計狀態(tài)空間、動作空間及獎勵函數(shù),確定完成任務(wù)的指標(biāo);分析控制屏障函數(shù)的約束條件,調(diào)整參數(shù),訓(xùn)練得到參數(shù)化的控制屏障函數(shù);利用建模步驟中設(shè)計的狀態(tài)空間、動作空間及獎勵函數(shù),并調(diào)整強化學(xué)習(xí)算法中的超參數(shù),訓(xùn)練得到策略網(wǎng)絡(luò);根據(jù)學(xué)習(xí)到的控制屏障函數(shù),修改策略網(wǎng)絡(luò)的輸出,同時收集數(shù)據(jù),更新控制屏障函數(shù);通過預(yù)測屏蔽控制,對危險動作施加噪聲,使智能體偏離預(yù)定軌跡,使訓(xùn)練過程安全。本發(fā)明基于強化學(xué)習(xí)的框架,整合了可證明的有效控制屏障函數(shù),以確保學(xué)習(xí)過程中的安全探索。
聲明:
“基于強化學(xué)習(xí)的機器人導(dǎo)航避障任務(wù)實現(xiàn)方法及系統(tǒng)” 該技術(shù)專利(論文)所有權(quán)利歸屬于技術(shù)(論文)所有人。僅供學(xué)習(xí)研究,如用于商業(yè)用途,請聯(lián)系該技術(shù)所有人。
我是此專利(論文)的發(fā)明人(作者)