一種基于強(qiáng)化學(xué)習(xí)的多時(shí)間尺度系統(tǒng)最優(yōu)跟蹤控制方法,涉及一種工業(yè)過程設(shè)計(jì)控制方法,本發(fā)明應(yīng)用奇異攝動(dòng)理論和強(qiáng)化學(xué)習(xí)技術(shù)在有限時(shí)域內(nèi)解決具有耦合子系統(tǒng)的多時(shí)間尺度大系統(tǒng)的最優(yōu)跟蹤控制問題;本發(fā)明一個(gè)突出貢獻(xiàn)是開發(fā)一種基于數(shù)據(jù)驅(qū)動(dòng)的強(qiáng)化學(xué)習(xí)方法,用于多時(shí)間尺度未知大系統(tǒng)最優(yōu)跟蹤控制;為此,首先利用奇異攝動(dòng)理論將多時(shí)間尺度跟蹤問題分解為慢子系統(tǒng)的線性二次型跟蹤問題和快子系統(tǒng)的動(dòng)態(tài)博弈問題;然后,在此基礎(chǔ)上,提出了一種僅利用系統(tǒng)實(shí)時(shí)測量數(shù)據(jù)分布式非策略積分強(qiáng)化學(xué)習(xí)算法來尋找分布式復(fù)合反饋控制器;因此,運(yùn)行指標(biāo)可通過一種近似最優(yōu)的方法來跟蹤其規(guī)定的目標(biāo)值,實(shí)現(xiàn)多時(shí)間尺度系統(tǒng)以最優(yōu)的方式達(dá)到跟蹤控制效果。
聲明:
“基于強(qiáng)化學(xué)習(xí)的多時(shí)間尺度系統(tǒng)最優(yōu)跟蹤控制方法” 該技術(shù)專利(論文)所有權(quán)利歸屬于技術(shù)(論文)所有人。僅供學(xué)習(xí)研究,如用于商業(yè)用途,請(qǐng)聯(lián)系該技術(shù)所有人。
我是此專利(論文)的發(fā)明人(作者)