一種基于強(qiáng)化學(xué)習(xí)和好奇心的迷宮機(jī)器人路徑規(guī)劃方法,屬于移動(dòng)機(jī)器人技術(shù)領(lǐng)域。該模型以強(qiáng)化學(xué)習(xí)為基礎(chǔ),包括Q?learning算法,好奇心算法,以及回溯強(qiáng)化。其中,好奇心算法包括一個(gè)BP網(wǎng)絡(luò),聯(lián)想記憶網(wǎng)絡(luò)和內(nèi)部獎(jiǎng)勵(lì)三部分。算法首先感知所在節(jié)點(diǎn)以及狀態(tài);隨后根據(jù)好奇心算法進(jìn)行好奇心獎(jiǎng)勵(lì)計(jì)算,而后根據(jù)Q?learning算法更新公式計(jì)算Q值;選擇動(dòng)作;發(fā)生狀態(tài)轉(zhuǎn)移;到達(dá)目的地后進(jìn)行回溯強(qiáng)化;重復(fù)以上過(guò)程直至學(xué)習(xí)到最短路徑。本發(fā)明引入基于預(yù)測(cè)誤差的好奇機(jī)制,使得算法對(duì)未知環(huán)境有更好的探索能力,同時(shí)也降低了重復(fù)探索的次數(shù),減少了學(xué)習(xí)過(guò)程中的尋路時(shí)間。使得機(jī)器人在迷宮中能更好更快地尋得最優(yōu)解。
聲明:
“基于強(qiáng)化學(xué)習(xí)和好奇心的迷宮機(jī)器人路徑規(guī)劃方法” 該技術(shù)專利(論文)所有權(quán)利歸屬于技術(shù)(論文)所有人。僅供學(xué)習(xí)研究,如用于商業(yè)用途,請(qǐng)聯(lián)系該技術(shù)所有人。
我是此專利(論文)的發(fā)明人(作者)