本發(fā)明提供了一種基于主動強化學(xué)習(xí)的裝備目標(biāo)識別方法及人機智能體,通過獲取目標(biāo)單元的時間態(tài)勢,并進(jìn)行特征向量編碼,輸入神經(jīng)網(wǎng)絡(luò)模型進(jìn)行訓(xùn)練,在每個時間點模型自動推斷是否需要引入人類經(jīng)驗指導(dǎo)進(jìn)行學(xué)習(xí)訓(xùn)練,并得到每個目標(biāo)單元在各時間步的目標(biāo)預(yù)測結(jié)果及一個時間片段的目標(biāo)分類結(jié)果,最后根據(jù)獎賞值對網(wǎng)絡(luò)模型進(jìn)行更新。本發(fā)明通過將人類經(jīng)驗指導(dǎo)引入機器的目標(biāo)分類學(xué)習(xí)中,根據(jù)訓(xùn)練數(shù)據(jù)的模型輸出結(jié)果自動推斷出如何識別目標(biāo)類別,經(jīng)實驗驗證,在引入人類經(jīng)驗指導(dǎo)的模型訓(xùn)練后,可以實現(xiàn)更精確的目標(biāo)分類,大大減少了人力消耗。
聲明:
“基于主動強化學(xué)習(xí)的裝備目標(biāo)識別方法及人機智能體” 該技術(shù)專利(論文)所有權(quán)利歸屬于技術(shù)(論文)所有人。僅供學(xué)習(xí)研究,如用于商業(yè)用途,請聯(lián)系該技術(shù)所有人。
我是此專利(論文)的發(fā)明人(作者)