本發(fā)明涉及一種基于Dueling DQN的虛實融合一二級分離模型參數(shù)優(yōu)化方法,屬于航天器設(shè)計參數(shù)優(yōu)化技術(shù)領(lǐng)域。本發(fā)明使用BP神經(jīng)網(wǎng)絡(luò)訓(xùn)練的代理模型替代火箭一二級分離系統(tǒng)物理仿真模型,可以快速地生成數(shù)據(jù)、完成預(yù)測。使用Dueling DQN深度強(qiáng)化學(xué)習(xí)對火箭一二級分離系統(tǒng)結(jié)構(gòu)參數(shù)進(jìn)行優(yōu)化,將Q值函數(shù)分解為價值函數(shù)和優(yōu)勢函數(shù),考慮狀態(tài)單獨的影響,使網(wǎng)絡(luò)更易收斂。相比傳統(tǒng)啟發(fā)式算法,深度強(qiáng)化學(xué)習(xí)搜索更細(xì)致,迭代次數(shù)更多,優(yōu)化結(jié)果更優(yōu),深度網(wǎng)絡(luò)可以積累智能體在可行解空間里的搜索經(jīng)驗,對于結(jié)構(gòu)相同的問題大大提升了其拓展性和泛化能力,對于新的數(shù)據(jù)可以在已經(jīng)訓(xùn)練過的基礎(chǔ)上在進(jìn)行訓(xùn)練,減少再次開發(fā)的成本和時間,通過歷史經(jīng)驗減少訓(xùn)練消耗的時間。
聲明:
“基于Dueling DQN的虛實融合一二級分離模型參數(shù)優(yōu)化方法” 該技術(shù)專利(論文)所有權(quán)利歸屬于技術(shù)(論文)所有人。僅供學(xué)習(xí)研究,如用于商業(yè)用途,請聯(lián)系該技術(shù)所有人。
我是此專利(論文)的發(fā)明人(作者)