本發(fā)明具體涉及一種基于深度安全強(qiáng)化學(xué)習(xí)的機(jī)器人無地圖導(dǎo)航方法,具體包括:初始化訓(xùn)練環(huán)境,設(shè)計(jì)移動機(jī)器人獎(jiǎng)勵(lì)函數(shù)和安全風(fēng)險(xiǎn)代價(jià)函數(shù);利用傳感器檢測的圖像信息和激光雷達(dá)信息,結(jié)合移動機(jī)器人的目標(biāo)信息和運(yùn)動信息,將各狀態(tài)信息進(jìn)行處理后經(jīng)Actor網(wǎng)絡(luò)輸出決策動作到機(jī)器人,機(jī)器人執(zhí)行Actor網(wǎng)絡(luò)輸出的動作,從環(huán)境中得到下一時(shí)刻新的狀態(tài)觀測及獎(jiǎng)勵(lì)信息,將機(jī)器人與環(huán)境交互得到的經(jīng)驗(yàn)存入經(jīng)驗(yàn)池,定期更新網(wǎng)絡(luò)參數(shù);判斷是否訓(xùn)練結(jié)束,將訓(xùn)練好的模型應(yīng)用于真實(shí)移動機(jī)器人進(jìn)行導(dǎo)航。本發(fā)明基于演員?評論家?安全(ACS)框架的深度安全強(qiáng)化學(xué)習(xí),通過引入約束性策略優(yōu)化(CPO)算法,提升了強(qiáng)化學(xué)習(xí)用于無地圖導(dǎo)航任務(wù)的安全性。
聲明:
“基于深度安全強(qiáng)化學(xué)習(xí)的機(jī)器人無地圖導(dǎo)航方法” 該技術(shù)專利(論文)所有權(quán)利歸屬于技術(shù)(論文)所有人。僅供學(xué)習(xí)研究,如用于商業(yè)用途,請聯(lián)系該技術(shù)所有人。
我是此專利(論文)的發(fā)明人(作者)