本發(fā)明實施例公開一種基于強化學(xué)習(xí)的目標追蹤的訓(xùn)練方法、追蹤方法。本發(fā)明實施例的基于強化學(xué)習(xí)的目標追蹤訓(xùn)練方法,在傳統(tǒng)ppo算法的策略網(wǎng)絡(luò)損失函數(shù)上增加正則項對狀態(tài)價值函數(shù)估計器網(wǎng)絡(luò)和策略網(wǎng)絡(luò)進行訓(xùn)練,強化學(xué)習(xí)的訓(xùn)練過程分為兩個階段,在第一階段訓(xùn)練強化學(xué)習(xí)前期的策略,在第二階段只采集設(shè)置好的閾值距離之內(nèi)的數(shù)據(jù)進行訓(xùn)練,使近距離下的控制更加精確。本發(fā)明利用強化學(xué)習(xí)的方法不需要顯式的預(yù)測未來時刻目標的加速度,只要知道了高速目標歷史時刻的加速度狀態(tài),利用仿真環(huán)境中大量數(shù)據(jù)的訓(xùn)練以及正確的訓(xùn)練方法,可訓(xùn)練出一個合理的追擊策略。解決了目標追蹤的模型給出的加速度波動過大以及最終的訓(xùn)練精度不夠的問題。
聲明:
“基于強化學(xué)習(xí)的目標追蹤的訓(xùn)練方法、追蹤方法” 該技術(shù)專利(論文)所有權(quán)利歸屬于技術(shù)(論文)所有人。僅供學(xué)習(xí)研究,如用于商業(yè)用途,請聯(lián)系該技術(shù)所有人。
我是此專利(論文)的發(fā)明人(作者)