本發(fā)明提出一種基于模型預(yù)測與深度強(qiáng)化學(xué)習(xí)的熱水系統(tǒng)控制方法,該方法將監(jiān)督學(xué)習(xí)與近端策略優(yōu)化方法進(jìn)行結(jié)合,用于控制隨機(jī)行為居住者的熱水系統(tǒng)。首先,所提方法中的監(jiān)督學(xué)習(xí)包括循環(huán)門控單元、深度神經(jīng)網(wǎng)絡(luò)判別器和時間序列預(yù)測模塊。輸入政策信息與行為信息,來預(yù)測未來一天居住者行為,并輸出未來一天近端策略優(yōu)化方法接入熱水系統(tǒng)的概率。若概率小于閾值,則采用兩點(diǎn)控制策略并繼續(xù)訓(xùn)練智能體;反之,則采用近端策略優(yōu)化方法。其次,所提方法中的近端策略優(yōu)化方法能學(xué)習(xí)隨機(jī)的居住者行為,無需特定調(diào)整即能應(yīng)用在各種不同的居住場合,該方法能直接用于居住者家居,減少所需設(shè)備的安裝與調(diào)試的時間,并且該方法的整體框架解釋性比較優(yōu)異。
聲明:
“基于模型預(yù)測與深度強(qiáng)化學(xué)習(xí)的熱水系統(tǒng)控制方法” 該技術(shù)專利(論文)所有權(quán)利歸屬于技術(shù)(論文)所有人。僅供學(xué)習(xí)研究,如用于商業(yè)用途,請聯(lián)系該技術(shù)所有人。
我是此專利(論文)的發(fā)明人(作者)