本發(fā)明的公開了一種基于神經(jīng)元覆蓋率的深度強化學習魯棒訓練方法和裝置,包括以下步驟:(1)搭建智能駕駛環(huán)境,從智能駕駛環(huán)境中采集狀態(tài)數(shù)據(jù)對深度強化學習模型訓練,直到達到設(shè)定回報值為止;(2)利用訓練好的深度強化學習模型在環(huán)境中運行,提取多輪的狀態(tài)動作對;(3)構(gòu)建用于根據(jù)歷史狀態(tài)動作對序列預測未來時刻狀態(tài)動作對序列的預測器和用于對狀態(tài)動作對進行質(zhì)量分類的分類器,并利用提取的狀態(tài)動作對訓練預測器和分類器;(4)依據(jù)定義的對抗采樣策略,根據(jù)狀態(tài)動作對質(zhì)量采樣狀態(tài)動作對并進行深度強化學習模型的再訓練,以提高深度強化學習模型的魯棒性。
聲明:
“基于神經(jīng)元覆蓋率的深度強化學習魯棒訓練方法和裝置” 該技術(shù)專利(論文)所有權(quán)利歸屬于技術(shù)(論文)所有人。僅供學習研究,如用于商業(yè)用途,請聯(lián)系該技術(shù)所有人。
我是此專利(論文)的發(fā)明人(作者)