本發(fā)明屬于無人集群協(xié)同技術(shù)領(lǐng)域,具體涉及一種基于多智能體分層強(qiáng)化學(xué)習(xí)的弱觀測條件下無人集群協(xié)同方法。本發(fā)明首先對環(huán)境進(jìn)行狀態(tài)定義,然后按照POMDP模型對狀態(tài)空間進(jìn)行定義,包括觀察集合以及觀察函數(shù),再隨機(jī)初始化一個(gè)由一系列概率值分布的信念狀態(tài),同時(shí)根據(jù)傳統(tǒng)強(qiáng)化學(xué)習(xí)思想,設(shè)置狀態(tài)轉(zhuǎn)移函數(shù)、立即回報(bào)函數(shù)、折扣率、探索率等;然后采用基于MAXQ算法的分層強(qiáng)化學(xué)習(xí)框架,將無人集群的任務(wù)分層,達(dá)到對復(fù)雜的任務(wù)進(jìn)行分而治之的目的,降低集群的參數(shù)維度,有效緩解計(jì)算機(jī)存儲不足和計(jì)算繁瑣的壓力,提高強(qiáng)化學(xué)習(xí)效率和精度。本發(fā)明能夠保證多個(gè)智能體參與協(xié)同任務(wù)時(shí)保持更高的效率和更好的協(xié)同效果。
聲明:
“基于多智能體分層強(qiáng)化學(xué)習(xí)的弱觀測條件下無人集群協(xié)同方法” 該技術(shù)專利(論文)所有權(quán)利歸屬于技術(shù)(論文)所有人。僅供學(xué)習(xí)研究,如用于商業(yè)用途,請聯(lián)系該技術(shù)所有人。
我是此專利(論文)的發(fā)明人(作者)