一種飛行器雙延遲深度確定性策略梯度姿態(tài)控制方法,屬于飛行器控制技術(shù)領(lǐng)域。方法如下:建立飛行器動(dòng)力學(xué)模型形成強(qiáng)化學(xué)習(xí)環(huán)境;初始化強(qiáng)化學(xué)習(xí)交互環(huán)境、智能體及最大步數(shù);獲得飛行器的控制量作為動(dòng)作量;計(jì)算動(dòng)作量對(duì)應(yīng)的獎(jiǎng)勵(lì)函數(shù)值及下一個(gè)觀測(cè)量,組合形成經(jīng)驗(yàn)數(shù)據(jù)記錄至經(jīng)驗(yàn)回放區(qū);對(duì)智能體參數(shù)進(jìn)行調(diào)整完成一輪強(qiáng)化學(xué)習(xí);輸出飛行器控制量燃料空氣混合比與升降舵偏角。本發(fā)明是一種高精度、自適應(yīng)的飛行器智能控制方法,通過(guò)雙延遲深度確定性策略梯度方法進(jìn)行強(qiáng)化學(xué)習(xí),實(shí)現(xiàn)弱依賴(lài)于模型的最優(yōu)姿態(tài)控制器設(shè)計(jì),僅需要飛行器的基本模型,模型中各參數(shù)量不需完全精確給出,從而減弱了控制系統(tǒng)設(shè)計(jì)對(duì)于模型的依賴(lài)程度。
聲明:
“飛行器雙延遲深度確定性策略梯度姿態(tài)控制方法” 該技術(shù)專(zhuān)利(論文)所有權(quán)利歸屬于技術(shù)(論文)所有人。僅供學(xué)習(xí)研究,如用于商業(yè)用途,請(qǐng)聯(lián)系該技術(shù)所有人。
我是此專(zhuān)利(論文)的發(fā)明人(作者)