本發(fā)明涉及一種基于狀態(tài)觀測與經(jīng)驗池的非線性多智能體一致性方法,屬于計算機領(lǐng)域。首先在跟隨者對領(lǐng)導(dǎo)者狀態(tài)無法獲取的場景下,使用反步法和動態(tài)面控制法為每個智能體設(shè)計了全維觀測器來觀測領(lǐng)導(dǎo)者的狀態(tài)。之后,一致性問題就轉(zhuǎn)換成了每個跟隨者對各自的領(lǐng)導(dǎo)者狀態(tài)觀測器的最優(yōu)跟蹤問題。下一步針對控輸入受非對稱飽和約束定義了一個非二次代價函數(shù)來處理,然后定義新的增廣系統(tǒng)下的最優(yōu)控制問題,并使用強化學(xué)習(xí)策略算法來迭代求解,并分析了策略迭代下解的穩(wěn)定性和最優(yōu)性。對于最優(yōu)控制的HJB方程難以直接求解的困難,本發(fā)明利用神經(jīng)網(wǎng)絡(luò)良好的逼近性質(zhì),使用actor?critic框架進(jìn)行求解。
聲明:
“基于狀態(tài)觀測與經(jīng)驗池的非線性多智能體一致性方法” 該技術(shù)專利(論文)所有權(quán)利歸屬于技術(shù)(論文)所有人。僅供學(xué)習(xí)研究,如用于商業(yè)用途,請聯(lián)系該技術(shù)所有人。
我是此專利(論文)的發(fā)明人(作者)