本發(fā)明公開了一種機器人運動控制方法、機器人、計算機裝置和存儲介質(zhì),機器人運動控制方法包括對獎勵值訓(xùn)練集和獎勵值測試集進行孿生學(xué)習(xí),獲得最優(yōu)獎勵值,根據(jù)最優(yōu)獎勵值、動作集合、轉(zhuǎn)移概率集合以及機器人在第一時刻的反饋量,通過逆向強化學(xué)習(xí)算法進行求解,根據(jù)求解結(jié)果控制機器人在第二時刻的動作等步驟。本發(fā)明能夠在對工作環(huán)境先驗知識不足的情況下,輸出最優(yōu)獎勵值,使得逆向強化學(xué)習(xí)算法能夠基于最優(yōu)獎勵值尋找最優(yōu)動作策略,以提高尋找最優(yōu)動作策略的速度,使機器人能在先驗知識不足的情況下快速適應(yīng)復(fù)雜的環(huán)境,提高控制精度以及靈活性,實現(xiàn)對機器人進行緊急避障以及全局路徑最優(yōu)規(guī)劃等控制。本發(fā)明廣泛應(yīng)用于機器人技術(shù)領(lǐng)域。
聲明:
“機器人運動控制方法、機器人、計算機裝置和存儲介質(zhì)” 該技術(shù)專利(論文)所有權(quán)利歸屬于技術(shù)(論文)所有人。僅供學(xué)習(xí)研究,如用于商業(yè)用途,請聯(lián)系該技術(shù)所有人。
我是此專利(論文)的發(fā)明人(作者)