本發(fā)明公開(kāi)了一種基于模仿學(xué)習(xí)的深度強(qiáng)化學(xué)習(xí)智能滲透測(cè)試方法及裝置,該方法包括:(1)獲取專家樣本數(shù)據(jù),其中專家樣本數(shù)據(jù)為后滲透成功時(shí)的狀態(tài)動(dòng)作對(duì);(2)利用A3C算法對(duì)智能體進(jìn)行訓(xùn)練,其中所述智能體作為滲透測(cè)試中的模擬攻擊者;(3)將智能體訓(xùn)練過(guò)程中由A3C算法中actor網(wǎng)絡(luò)生成的第一狀態(tài)動(dòng)作對(duì)與專家樣本數(shù)據(jù)中的第二狀態(tài)動(dòng)作對(duì)放入GAIL的discriminator網(wǎng)絡(luò)中,進(jìn)行discriminator網(wǎng)絡(luò)的訓(xùn)練;(4)根據(jù)discriminator網(wǎng)絡(luò)訓(xùn)練后自身輸出的折扣獎(jiǎng)勵(lì)與critic網(wǎng)絡(luò)輸出的value,構(gòu)造優(yōu)勢(shì)函數(shù)并利用所述優(yōu)勢(shì)函數(shù)更新A3C算法中的actor網(wǎng)絡(luò);(5)重復(fù)步驟(2)?(4),直至訓(xùn)練回合結(jié)束;(6)將訓(xùn)練后的智能體設(shè)置在需要進(jìn)行滲透測(cè)試的網(wǎng)絡(luò)環(huán)境中,以進(jìn)行滲透測(cè)試。
聲明:
“基于模仿學(xué)習(xí)的深度強(qiáng)化學(xué)習(xí)智能滲透測(cè)試方法及裝置” 該技術(shù)專利(論文)所有權(quán)利歸屬于技術(shù)(論文)所有人。僅供學(xué)習(xí)研究,如用于商業(yè)用途,請(qǐng)聯(lián)系該技術(shù)所有人。
我是此專利(論文)的發(fā)明人(作者)