本發(fā)明公開一種動態(tài)環(huán)境下基于深度強(qiáng)化學(xué)習(xí)的移動機(jī)器人避碰規(guī)劃方法,屬于移動機(jī)器人導(dǎo)航技術(shù)領(lǐng)域。本發(fā)明通過激光測距儀采集原始數(shù)據(jù),將原始數(shù)據(jù)處理后作為神經(jīng)網(wǎng)絡(luò)的輸入,建立LSTM神經(jīng)網(wǎng)絡(luò),通過A3C算法,神經(jīng)網(wǎng)絡(luò)輸出相應(yīng)參數(shù),經(jīng)過處理獲得機(jī)器人每一步的動作。本發(fā)明無需對環(huán)境進(jìn)行建模,更加適用于未知障礙物環(huán)境,采用actor?critic框架與時間差分算法,實現(xiàn)低方差的同時更適用于連續(xù)動作空間,實現(xiàn)邊訓(xùn)練邊學(xué)習(xí)的效果。設(shè)計具有艏向轉(zhuǎn)角限制的連續(xù)動作空間,且采用4個線程并行學(xué)習(xí)訓(xùn)練,與一般深度強(qiáng)化學(xué)習(xí)方法相比,大大提高學(xué)習(xí)訓(xùn)練時間,減少樣本相關(guān)性,保障探索空間的高利用性與探索策略的多樣性,從而提升算法收斂性、穩(wěn)定性以及避障成功率。
聲明:
“動態(tài)環(huán)境下基于深度強(qiáng)化學(xué)習(xí)的移動機(jī)器人避碰規(guī)劃方法” 該技術(shù)專利(論文)所有權(quán)利歸屬于技術(shù)(論文)所有人。僅供學(xué)習(xí)研究,如用于商業(yè)用途,請聯(lián)系該技術(shù)所有人。
我是此專利(論文)的發(fā)明人(作者)