本發(fā)明公開(kāi)一種基于模仿學(xué)習(xí)和強(qiáng)化學(xué)習(xí)算法的無(wú)人機(jī)飛行控制方法:創(chuàng)建無(wú)人機(jī)飛行仿真環(huán)境模擬器;定義飛行的基本動(dòng)作集合;根據(jù)飛行基本動(dòng)作將軌跡數(shù)據(jù)進(jìn)行分類(lèi);對(duì)于每個(gè)飛行動(dòng)作,利用模仿學(xué)習(xí)學(xué)出從飛行基本動(dòng)作到原始動(dòng)作的映射網(wǎng)絡(luò)參數(shù);統(tǒng)計(jì)每個(gè)基本動(dòng)作的最小連續(xù)行動(dòng)數(shù)量;構(gòu)建上層的強(qiáng)化學(xué)習(xí)網(wǎng)絡(luò),并將最小連續(xù)行動(dòng)數(shù)量作為飛機(jī)動(dòng)作不一致性的懲罰p加入;在模擬器中,獲取當(dāng)前的觀測(cè)信息和獎(jiǎng)勵(lì),使用pDQN算法,選取對(duì)應(yīng)飛行基本動(dòng)作;將飛機(jī)自身的狀態(tài)信息輸入到飛行基本行動(dòng)對(duì)應(yīng)的模仿學(xué)習(xí)神經(jīng)網(wǎng)絡(luò)中,輸出模擬器的原始行動(dòng);將得到的原始行動(dòng)輸入到模擬器中獲取下個(gè)時(shí)刻的觀測(cè)和獎(jiǎng)勵(lì);使用pDQN算法進(jìn)行訓(xùn)練,直到上層的策略網(wǎng)絡(luò)收斂。
聲明:
“基于模仿學(xué)習(xí)和強(qiáng)化學(xué)習(xí)算法的無(wú)人機(jī)飛行控制方法” 該技術(shù)專(zhuān)利(論文)所有權(quán)利歸屬于技術(shù)(論文)所有人。僅供學(xué)習(xí)研究,如用于商業(yè)用途,請(qǐng)聯(lián)系該技術(shù)所有人。
我是此專(zhuān)利(論文)的發(fā)明人(作者)