一種基于強(qiáng)化學(xué)習(xí)的水下機(jī)器人避障路徑規(guī)劃方法,首先對(duì)水下機(jī)器人的能耗模型以及動(dòng)力學(xué)模型,水下洋流場(chǎng)景模型進(jìn)行建模;其次將水下機(jī)器人對(duì)到達(dá)路徑點(diǎn)的能耗與時(shí)長(zhǎng)最小化問(wèn)題建模為抽象的馬爾可夫決策過(guò)程;將當(dāng)前水下機(jī)器人的觀測(cè)信息通過(guò)抽象網(wǎng)絡(luò)轉(zhuǎn)到隱藏層成為隱藏狀態(tài),將隱藏狀態(tài)和想采取的動(dòng)作通過(guò)轉(zhuǎn)移預(yù)測(cè)網(wǎng)絡(luò)映射至下一隱藏向量和預(yù)測(cè)獎(jiǎng)勵(lì),另外策略網(wǎng)絡(luò)通過(guò)給定的隱藏向量選擇采取的動(dòng)作以及當(dāng)前局面的總獎(jiǎng)勵(lì),在這個(gè)場(chǎng)景中即為到達(dá)目標(biāo)點(diǎn)。通過(guò)水下機(jī)器人與環(huán)境的不斷交互學(xué)習(xí)環(huán)境模型,得到即時(shí)獎(jiǎng)勵(lì)改進(jìn)神經(jīng)網(wǎng)絡(luò)。最后將訓(xùn)練好的策略網(wǎng)絡(luò)部署到水下機(jī)器人中。
聲明:
“基于強(qiáng)化學(xué)習(xí)的水下機(jī)器人避障路徑規(guī)劃方法” 該技術(shù)專利(論文)所有權(quán)利歸屬于技術(shù)(論文)所有人。僅供學(xué)習(xí)研究,如用于商業(yè)用途,請(qǐng)聯(lián)系該技術(shù)所有人。
我是此專利(論文)的發(fā)明人(作者)