本申請?zhí)峁┮环N基于分層深度強化學習模型的機器人行為決策方法及設(shè)備,本申請通過模擬人腦的分層組織機理,提出了一個解決機器人稀疏獎勵問題的深度分層強化學習模型,該模型包括頂層模塊和底層模塊兩部分。在機器人環(huán)境認知的過程中,當其處于稀疏獎勵的環(huán)境中時,上層模塊根據(jù)智能體與環(huán)境的交互情況,為底層模塊設(shè)定子目標,同時,上層模塊可以感知環(huán)境并預測智能體的狀態(tài)轉(zhuǎn)移。此外,預測獎勵和獎勵增益被添加到該深度分層強化學習模型中來加速底層模塊的學習速度,在底層模塊中,設(shè)計了一個降維網(wǎng)絡(luò)來編碼和映射狀態(tài)信息,因此,該深度分層強化學習模型可以有效解決智能體的稀疏獎勵問題。
聲明:
“基于分層深度強化學習模型的機器人行為決策方法及設(shè)備” 該技術(shù)專利(論文)所有權(quán)利歸屬于技術(shù)(論文)所有人。僅供學習研究,如用于商業(yè)用途,請聯(lián)系該技術(shù)所有人。
我是此專利(論文)的發(fā)明人(作者)