本發(fā)明涉及追捕技術(shù)分析技術(shù)領域,具體是涉及用于形成追捕策略的強化學習模型訓練方法和訓練裝置。本發(fā)明逃跑者的控制量并不是確定性的,而是根據(jù)追捕者的信息給出的控制量,即逃跑者與追捕者進行了交互,這與實際追捕過程中逃跑者會根據(jù)追捕者的信息而做出相應的逃跑策略上的改變是一致的,追捕強化學習模型再根據(jù)改變之后的逃跑策略而給出追捕者的追捕策略。如此往復地對追捕強化學習模型進行訓練,這樣等到的已訓練追捕強化學習模型應用到實際追逃過程中,即便逃跑者針對追捕者改變了逃跑策略,追捕者依然能夠精準地實現(xiàn)對逃跑者的追捕,從而增加了已訓練的追捕強化學習模型的魯棒性。
聲明:
“用于形成追捕策略的強化學習模型訓練方法和訓練裝置” 該技術(shù)專利(論文)所有權(quán)利歸屬于技術(shù)(論文)所有人。僅供學習研究,如用于商業(yè)用途,請聯(lián)系該技術(shù)所有人。
我是此專利(論文)的發(fā)明人(作者)