本發(fā)明公開了一種面向深度強(qiáng)化學(xué)習(xí)模型的特征過濾防御方法,包括:(1)針對(duì)生成連續(xù)行為的DDPG模型,包括actor網(wǎng)絡(luò)和critic網(wǎng)絡(luò),其中,所述actor網(wǎng)絡(luò)包括動(dòng)作估計(jì)網(wǎng)絡(luò)和動(dòng)作實(shí)現(xiàn)網(wǎng)絡(luò),所述critic網(wǎng)絡(luò)包括狀態(tài)估計(jì)網(wǎng)絡(luò)和狀態(tài)實(shí)現(xiàn)網(wǎng)絡(luò),對(duì)所述深度強(qiáng)化學(xué)習(xí)模型DDPG進(jìn)行預(yù)訓(xùn)練,并將預(yù)訓(xùn)練階段的當(dāng)前狀態(tài)、行為、獎(jiǎng)勵(lì)值以及下一狀態(tài)保存在緩存區(qū);(2)訓(xùn)練自編碼器,并利用訓(xùn)練好的自編碼器的編碼器對(duì)輸入狀態(tài)進(jìn)行特征過濾,獲得過濾后的輸入狀態(tài)對(duì)應(yīng)的特征圖,并保存到緩存區(qū);(3)對(duì)預(yù)訓(xùn)練后的DDPG模型中的卷積核進(jìn)行剪枝,利用剪枝后的DPG模型進(jìn)行動(dòng)作預(yù)測(cè),輸出并執(zhí)行預(yù)測(cè)動(dòng)作。
聲明:
“面向深度強(qiáng)化學(xué)習(xí)模型的特征過濾防御方法” 該技術(shù)專利(論文)所有權(quán)利歸屬于技術(shù)(論文)所有人。僅供學(xué)習(xí)研究,如用于商業(yè)用途,請(qǐng)聯(lián)系該技術(shù)所有人。
我是此專利(論文)的發(fā)明人(作者)