本發(fā)明提供了一種基于元強(qiáng)化學(xué)習(xí)并行訓(xùn)練算法的無人機(jī)飛行決策方法,首先構(gòu)建無人機(jī)飛行控制模型;然后依據(jù)馬爾科夫決策過程構(gòu)建無人機(jī)飛行決策的狀態(tài)空間、動(dòng)作空間和獎(jiǎng)勵(lì)函數(shù);接下來構(gòu)建存放元強(qiáng)化學(xué)習(xí)算法訓(xùn)練樣本數(shù)據(jù)的多任務(wù)經(jīng)驗(yàn)池;再定義元強(qiáng)化學(xué)習(xí)算法參數(shù)并在多個(gè)環(huán)境并行訓(xùn)練實(shí)現(xiàn)無人機(jī)元強(qiáng)化學(xué)習(xí)決策模型;最后隨機(jī)初始化新的飛行環(huán)境和無人機(jī)狀態(tài),測(cè)試基于元強(qiáng)化學(xué)習(xí)算法的無人機(jī)飛行決策模型,評(píng)價(jià)飛行決策性能。本發(fā)明通過在多個(gè)環(huán)境中對(duì)策略進(jìn)行訓(xùn)練以解決SAC算法泛化性能不足的問題,能夠整體優(yōu)化無人機(jī)飛行決策策略,在新的環(huán)境中經(jīng)過少步訓(xùn)練便可以收斂,能夠有效提升策略的泛化能力和通用性。
聲明:
“基于元強(qiáng)化學(xué)習(xí)并行訓(xùn)練算法的無人機(jī)飛行決策方法” 該技術(shù)專利(論文)所有權(quán)利歸屬于技術(shù)(論文)所有人。僅供學(xué)習(xí)研究,如用于商業(yè)用途,請(qǐng)聯(lián)系該技術(shù)所有人。
我是此專利(論文)的發(fā)明人(作者)