本發(fā)明提供一種基于區(qū)塊鏈和強化學習的空調(diào)控制方法及其系統(tǒng),該方法包括在空調(diào)啟動或正常運行時,基于接收到的控制指令和狀態(tài)參數(shù)s,根據(jù)獎勵機制產(chǎn)生在當前狀態(tài)下的執(zhí)行獎勵;設定時間窗口Ti,判斷當前時間是否在時間窗口Ti內(nèi),若判斷結果為是,則直接啟動強化學習的計算任務,并輸出預測動作a;若判斷結果為否,則判斷是否有其他Master節(jié)點發(fā)送的計算任務,如是,則啟動計算任務;由區(qū)塊鏈節(jié)點記錄當前狀態(tài)、獎勵和動作,并將動作傳遞給空調(diào),至此完成一輪計算任務。該系統(tǒng)應用于上述的方法。本發(fā)明應用于空調(diào)的節(jié)能控制領域,用以解決目前現(xiàn)有技術中存在的訓練困難、穩(wěn)定性差、浪費計算資源、消耗電力等各種問題。
聲明:
“基于區(qū)塊鏈和強化學習的空調(diào)控制方法及其系統(tǒng)” 該技術專利(論文)所有權利歸屬于技術(論文)所有人。僅供學習研究,如用于商業(yè)用途,請聯(lián)系該技術所有人。
我是此專利(論文)的發(fā)明人(作者)