本發(fā)明公開了一種基于積分強化學(xué)習(xí)的核電功率跟蹤控制方法,包括:初始策略選取,相關(guān)參數(shù)初始化,初始功率點與期望功率點選取;開啟全局迭代,開啟局部迭代,利用策略迭代積分強化學(xué)習(xí)算法訓(xùn)練評價網(wǎng)絡(luò),修正網(wǎng)絡(luò)權(quán)值,其中評價網(wǎng)絡(luò)用來近似跟蹤誤差性能指標(biāo)函數(shù),并利用該評價網(wǎng)絡(luò)權(quán)值評測當(dāng)前跟蹤誤差控制系統(tǒng)的性能,通過執(zhí)行流程選擇最優(yōu)控制策略,最小化一次全局迭代的總成本;判斷當(dāng)前局部迭代是否完成,若否,則返回局部迭代,否則更新迭代性能指標(biāo)函數(shù)和跟蹤控制律,以獲得最優(yōu)跟蹤控制策略;全局策略迭代完成,得到最優(yōu)跟蹤控制策略,跟蹤到期望功率點,計算總成本。由此,本發(fā)明可以不斷地學(xué)習(xí)、調(diào)整當(dāng)前策略跟蹤到期望功率點。
聲明:
“基于積分強化學(xué)習(xí)的核電功率跟蹤控制方法” 該技術(shù)專利(論文)所有權(quán)利歸屬于技術(shù)(論文)所有人。僅供學(xué)習(xí)研究,如用于商業(yè)用途,請聯(lián)系該技術(shù)所有人。
我是此專利(論文)的發(fā)明人(作者)