本發(fā)明涉及一種基于強(qiáng)化學(xué)習(xí)的異常用電判決系統(tǒng)及方法,該判決系統(tǒng)為用于異常用電判決的DRQN(Deep Recurrent Q Network,深度循環(huán)Q網(wǎng)絡(luò)模型)模型,Q網(wǎng)絡(luò)模型以當(dāng)前的狀態(tài)和當(dāng)前選擇的動作作為輸入和輸出,以狀態(tài)作為判決指標(biāo)確定當(dāng)前回合的獎懲值;在Q網(wǎng)絡(luò)模型訓(xùn)練達(dá)到設(shè)定次數(shù)時,將target Q網(wǎng)絡(luò)模型的網(wǎng)絡(luò)參數(shù)同步為Q網(wǎng)絡(luò)模型的網(wǎng)絡(luò)參數(shù);將待測的用電概率序列輸入到訓(xùn)練好的DRQN模型中,以狀態(tài)作為待測的用電概率序列的動態(tài)閾值,根據(jù)動態(tài)閾值判斷用電是否異常,以當(dāng)前的狀態(tài)作為判決指標(biāo)確定獎懲值,并將該當(dāng)前的狀態(tài)作為動態(tài)閾值,因此該系統(tǒng)能夠根據(jù)實時的用戶的電力數(shù)據(jù)來更新閾值,從而能夠有效提升跨用戶場景的泛化能力。
聲明:
“基于強(qiáng)化學(xué)習(xí)的異常用電判決系統(tǒng)及方法” 該技術(shù)專利(論文)所有權(quán)利歸屬于技術(shù)(論文)所有人。僅供學(xué)習(xí)研究,如用于商業(yè)用途,請聯(lián)系該技術(shù)所有人。
我是此專利(論文)的發(fā)明人(作者)