本發(fā)明屬于移動(dòng)機(jī)器人導(dǎo)航技術(shù)領(lǐng)域,具體涉及一種靜態(tài)環(huán)境下基于深度強(qiáng)化學(xué)習(xí)的移動(dòng)機(jī)器人避碰規(guī)劃方法。本發(fā)明使用激光測(cè)距儀采集原始數(shù)據(jù),將處理后的數(shù)據(jù)作為A3C算法的狀態(tài)S,通過(guò)構(gòu)建A3C?LSTM神經(jīng)網(wǎng)絡(luò),將狀態(tài)S作為網(wǎng)絡(luò)輸入,通過(guò)A3C算法,神經(jīng)網(wǎng)絡(luò)輸出相應(yīng)參數(shù),利用參數(shù)通過(guò)正態(tài)分布選擇移動(dòng)機(jī)器人每一步執(zhí)行的動(dòng)作。本發(fā)明無(wú)需對(duì)環(huán)境進(jìn)行建模,通過(guò)深度強(qiáng)化學(xué)習(xí)算法最終實(shí)現(xiàn)移動(dòng)機(jī)器人成功在復(fù)雜靜態(tài)障礙物環(huán)境下避障。本發(fā)明設(shè)計(jì)具有轉(zhuǎn)艏約束的連續(xù)動(dòng)作空間模型,且采用多線程異步學(xué)習(xí),與一般深度強(qiáng)化學(xué)習(xí)方法相比,大大提高學(xué)習(xí)訓(xùn)練時(shí)間,減少樣本相關(guān)性,保障探索空間的高利用性與探索策略的多樣性,提升算法收斂性、穩(wěn)定性以及避障成功率。
聲明:
“靜態(tài)環(huán)境下基于深度強(qiáng)化學(xué)習(xí)的移動(dòng)機(jī)器人避碰規(guī)劃方法” 該技術(shù)專(zhuān)利(論文)所有權(quán)利歸屬于技術(shù)(論文)所有人。僅供學(xué)習(xí)研究,如用于商業(yè)用途,請(qǐng)聯(lián)系該技術(shù)所有人。
我是此專(zhuān)利(論文)的發(fā)明人(作者)