本發(fā)明提供的基于深度強(qiáng)化學(xué)習(xí)的機(jī)器人行走控制方法,設(shè)置獎(jiǎng)勵(lì)機(jī)制;構(gòu)建多專家神經(jīng)網(wǎng)絡(luò);所述多專家神經(jīng)網(wǎng)絡(luò)包括一個(gè)頂層網(wǎng)絡(luò)和至少一個(gè)底層網(wǎng)絡(luò);利用所述獎(jiǎng)勵(lì)機(jī)制和采集的樣本數(shù)據(jù)對(duì)頂層網(wǎng)絡(luò)進(jìn)行訓(xùn)練;在機(jī)器人運(yùn)行過(guò)程中,頂層網(wǎng)絡(luò)根據(jù)訓(xùn)練結(jié)果和機(jī)器人實(shí)時(shí)測(cè)量到的數(shù)據(jù)對(duì)底層網(wǎng)絡(luò)的輸出進(jìn)行融合,并根據(jù)融合結(jié)果輸出控制指令,將所述控制指令發(fā)送給機(jī)器人,控制機(jī)器人中關(guān)節(jié)的電機(jī)。該方法可以在不同的專家網(wǎng)絡(luò)之間進(jìn)行連續(xù)切換,增加了組合的多樣性,改善現(xiàn)有機(jī)器人運(yùn)動(dòng)步態(tài)非對(duì)稱、非自然的缺陷。該方法將人類動(dòng)作捕捉獲得的行走步態(tài)作為訓(xùn)練學(xué)習(xí)的參考對(duì)象,能讓多專家神經(jīng)網(wǎng)絡(luò)更快地收斂到像人一樣自然的周期性對(duì)稱行走策略。
聲明:
“基于深度強(qiáng)化學(xué)習(xí)的機(jī)器人行走控制方法、系統(tǒng)及介質(zhì)” 該技術(shù)專利(論文)所有權(quán)利歸屬于技術(shù)(論文)所有人。僅供學(xué)習(xí)研究,如用于商業(yè)用途,請(qǐng)聯(lián)系該技術(shù)所有人。
我是此專利(論文)的發(fā)明人(作者)