本發(fā)明公開一種機器人自主學(xué)習(xí)方法、裝置、設(shè)備及存儲介質(zhì),該方法包括:基于預(yù)先構(gòu)建的虛擬環(huán)境,獲取由虛擬環(huán)境自動生成的環(huán)境參數(shù);根據(jù)環(huán)境參數(shù),通過深度學(xué)習(xí)模型生成訓(xùn)練數(shù)據(jù);根據(jù)訓(xùn)練數(shù)據(jù),采用分層強化學(xué)習(xí)框架生成至少一個機器人技能;根據(jù)待執(zhí)行任務(wù)確定機器人的狀態(tài)空間,基于狀態(tài)空間,采用變分推理方法預(yù)測待執(zhí)行任務(wù)的潛在技能向量,潛在技能向量與至少一個機器人技能中的其中一個機器人技能具有一一對應(yīng)的關(guān)系;根據(jù)機器人技能和潛在技能向量,采用強化學(xué)習(xí)算法獲得用于完成待執(zhí)行任務(wù)的機器人控制策略。本發(fā)明在面對不同類型的任務(wù)時,無需重復(fù)針對不同類型的任務(wù)對機器人進行技能訓(xùn)練,提高了機器人進行自主學(xué)習(xí)的泛化性。
聲明:
“機器人自主學(xué)習(xí)方法、裝置、設(shè)備及存儲介質(zhì)” 該技術(shù)專利(論文)所有權(quán)利歸屬于技術(shù)(論文)所有人。僅供學(xué)習(xí)研究,如用于商業(yè)用途,請聯(lián)系該技術(shù)所有人。
我是此專利(論文)的發(fā)明人(作者)