本發(fā)明公開(kāi)了一種面向強(qiáng)化學(xué)習(xí)的檢測(cè)防御異常數(shù)據(jù)方法和裝置,包括以下步驟:采集場(chǎng)景a下小車(chē)正常駕駛狀態(tài)作為樣本數(shù)據(jù),對(duì)樣本數(shù)據(jù)采用PCA降維處理,得到前n個(gè)特征值的累計(jì)貢獻(xiàn)率α以及變換矩陣P;基于DDPG算法建立場(chǎng)景a下自動(dòng)駕駛訓(xùn)練模型,預(yù)訓(xùn)練自動(dòng)駕駛訓(xùn)練模型,將狀態(tài)轉(zhuǎn)換過(guò)程存入經(jīng)驗(yàn)回放緩沖區(qū)D;采集場(chǎng)景a下自動(dòng)駕駛訓(xùn)練模型訓(xùn)練過(guò)程中的狀態(tài)s
t,利用變換矩陣P對(duì)狀態(tài)s
t降維處理,計(jì)算前n個(gè)特征值的累計(jì)貢獻(xiàn)率α’;若||α?α’||≥∈,則判定s
t異常,向?qū)?yīng)的獎(jiǎng)勵(lì)值r
t增加懲罰項(xiàng)
并將更新后的狀態(tài)轉(zhuǎn)換過(guò)程存儲(chǔ)在經(jīng)驗(yàn)回放緩沖區(qū)D中;根據(jù)更新后的獎(jiǎng)勵(lì)值計(jì)算損失函數(shù),利用損失函數(shù)更新主網(wǎng)絡(luò)的參數(shù)。
聲明:
“面向強(qiáng)化學(xué)習(xí)的檢測(cè)防御異常數(shù)據(jù)方法和裝置” 該技術(shù)專(zhuān)利(論文)所有權(quán)利歸屬于技術(shù)(論文)所有人。僅供學(xué)習(xí)研究,如用于商業(yè)用途,請(qǐng)聯(lián)系該技術(shù)所有人。
我是此專(zhuān)利(論文)的發(fā)明人(作者)