本發(fā)明涉及一種基于DPPO的虛實(shí)融合柵格舵模型參數(shù)優(yōu)化方法,屬于航天器設(shè)計(jì)參數(shù)優(yōu)化技術(shù)領(lǐng)域。本發(fā)明使用BP神經(jīng)網(wǎng)絡(luò)訓(xùn)練的代理模型替代柵格舵系統(tǒng)物理仿真模型,可以快速地生成數(shù)據(jù)、完成預(yù)測(cè),使用Adams物理仿真模型預(yù)測(cè)20000組數(shù)據(jù)需要耗時(shí)越20小時(shí),使用代理模型僅需1.6秒。使用DPPO深度強(qiáng)化學(xué)習(xí)對(duì)柵格舵系統(tǒng)參數(shù)進(jìn)行優(yōu)化,在計(jì)算梯度時(shí)通過(guò)更新前后地參數(shù)對(duì)比,限制更新步長(zhǎng),解決了基于行為地強(qiáng)化學(xué)習(xí)的步長(zhǎng)敏感問(wèn)題,使得訓(xùn)練更易收斂。同時(shí),使用分布式的方式,用多組線程與環(huán)境交互,產(chǎn)生訓(xùn)練數(shù)據(jù),在提升數(shù)據(jù)收集速度的同時(shí),降低了網(wǎng)絡(luò)間的相關(guān)性,使得訓(xùn)練更容易收斂,更易實(shí)現(xiàn)對(duì)柵格舵系統(tǒng)的參數(shù)優(yōu)化。
聲明:
“基于DPPO的虛實(shí)融合柵格舵模型參數(shù)優(yōu)化方法” 該技術(shù)專利(論文)所有權(quán)利歸屬于技術(shù)(論文)所有人。僅供學(xué)習(xí)研究,如用于商業(yè)用途,請(qǐng)聯(lián)系該技術(shù)所有人。
我是此專利(論文)的發(fā)明人(作者)