本發(fā)明公開了一種基于強化學(xué)習(xí)的電力系統(tǒng)缺陷物資智能調(diào)度方法,包括,定義強化學(xué)習(xí)中的狀態(tài)、決策、轉(zhuǎn)移方程、獎勵函數(shù)及物資倉儲動態(tài)調(diào)度問題中的需求和目標(biāo);利用馬爾科夫決策過程解決所述物資倉儲動態(tài)調(diào)度問題;羅列針對電網(wǎng)缺陷物資的Bellman方程并選擇求解策略;將所述Bellman方程修改為數(shù)據(jù)驅(qū)動在線更新的形式,基于ε貪婪策略確定調(diào)度行動。本發(fā)明提出了基于馬爾科夫隨機過程和強化學(xué)習(xí)求解電力系統(tǒng)應(yīng)急物資的聯(lián)合控制和調(diào)度問題,且“端到端”算法不預(yù)測需求,直接做出庫存控制和調(diào)度決策;同時在真實數(shù)據(jù)集上得到了驗證,有很好的收斂性和增益,證明了方法的可用性與實踐價值。
聲明:
“基于強化學(xué)習(xí)的電力系統(tǒng)缺陷物資智能調(diào)度方法” 該技術(shù)專利(論文)所有權(quán)利歸屬于技術(shù)(論文)所有人。僅供學(xué)習(xí)研究,如用于商業(yè)用途,請聯(lián)系該技術(shù)所有人。
我是此專利(論文)的發(fā)明人(作者)