本發(fā)明涉及一種基于深度強化學(xué)習(xí)的電網(wǎng)實時自適應(yīng)決策方法,包括如下步驟:步驟1、將新型電力系統(tǒng)機組自適應(yīng)調(diào)度問題建模為馬爾科夫決策過程;步驟2、研究SAC算法的基礎(chǔ)原理,求解使得步驟1中MDP模型累計獎勵值最大的策略;步驟3、設(shè)計基于IL中行為克隆的神經(jīng)網(wǎng)絡(luò)預(yù)訓(xùn)練方案,模擬專家經(jīng)驗,優(yōu)化原始動作空間,提出IL?SAC算法,并基于IL?SAC算法以及105個真實電網(wǎng)場景數(shù)據(jù)訓(xùn)練相應(yīng)的電網(wǎng)優(yōu)化調(diào)度智能體,在測試時該智能體應(yīng)對不同的電網(wǎng)場景數(shù)據(jù)能夠輸出實時決策方案,實現(xiàn)新型電網(wǎng)系統(tǒng)的智能調(diào)控。本發(fā)明能夠?qū)崟r地輸出電網(wǎng)調(diào)度策略。
聲明:
“基于深度強化學(xué)習(xí)的電網(wǎng)實時自適應(yīng)決策方法” 該技術(shù)專利(論文)所有權(quán)利歸屬于技術(shù)(論文)所有人。僅供學(xué)習(xí)研究,如用于商業(yè)用途,請聯(lián)系該技術(shù)所有人。
我是此專利(論文)的發(fā)明人(作者)