本公開提供了一種強(qiáng)化學(xué)習(xí)模型的訓(xùn)練方法、能耗確定方法和裝置,涉及人工智能領(lǐng)域,具體為強(qiáng)化學(xué)習(xí)、深度學(xué)習(xí)、物聯(lián)網(wǎng)等技術(shù)領(lǐng)域,適用于能耗預(yù)測場景。強(qiáng)化學(xué)習(xí)模型的訓(xùn)練方法包括:將歷史能耗數(shù)據(jù)和多個(gè)目標(biāo)模型的模型能力數(shù)據(jù),輸入待訓(xùn)練的強(qiáng)化學(xué)習(xí)模型的第一子模型,輸出與多個(gè)目標(biāo)模型相關(guān)聯(lián)的權(quán)重;利用待訓(xùn)練的強(qiáng)化學(xué)習(xí)模型的第二子模型,基于權(quán)重確定用于評價(jià)第一子模型的評價(jià)值;基于評價(jià)值,調(diào)整第一子模型的模型參數(shù)和第二子模型的模型參數(shù),得到經(jīng)訓(xùn)練的強(qiáng)化學(xué)習(xí)模型。
聲明:
“強(qiáng)化學(xué)習(xí)模型的訓(xùn)練方法、能耗確定方法和裝置” 該技術(shù)專利(論文)所有權(quán)利歸屬于技術(shù)(論文)所有人。僅供學(xué)習(xí)研究,如用于商業(yè)用途,請聯(lián)系該技術(shù)所有人。
我是此專利(論文)的發(fā)明人(作者)