本發(fā)明公開了基于并行優(yōu)勢(shì)動(dòng)作評(píng)價(jià)的強(qiáng)化學(xué)習(xí)自適應(yīng)PID控制方法,包括設(shè)置采樣周期,A2C算法的線程個(gè)數(shù)n,初始化網(wǎng)絡(luò)參數(shù);根據(jù)當(dāng)前狀態(tài)誤差,利用狀態(tài)轉(zhuǎn)換器構(gòu)造第i個(gè)智能體的輸入狀態(tài)向量;利用RBF網(wǎng)絡(luò)同時(shí)實(shí)現(xiàn)第i個(gè)智能體策略函數(shù)和值函數(shù)的學(xué)習(xí),參數(shù)值修正后計(jì)算系統(tǒng)輸出,并觀測(cè)下一采樣時(shí)間系統(tǒng)誤差ei(t+1),計(jì)算獎(jiǎng)勵(lì)函數(shù)ri(t);判斷是否更新參數(shù),數(shù)據(jù)總量達(dá)到batch size,停止采樣,輸出狀態(tài)估計(jì)值并更新權(quán)值,將n個(gè)智能體上傳的梯度匯總并求平均,更新Global Net參數(shù),Global Net傳遞給Actor(i)和Critic(i)新的權(quán)值;迭代重復(fù),輸出算法的最優(yōu)解。通過本發(fā)明提供的方法,可以有效的克服大超調(diào),非線性和滯后性對(duì)PID控制器帶來(lái)的影響。
聲明:
“基于并行優(yōu)勢(shì)動(dòng)作評(píng)價(jià)的強(qiáng)化學(xué)習(xí)自適應(yīng)PID控制方法” 該技術(shù)專利(論文)所有權(quán)利歸屬于技術(shù)(論文)所有人。僅供學(xué)習(xí)研究,如用于商業(yè)用途,請(qǐng)聯(lián)系該技術(shù)所有人。
我是此專利(論文)的發(fā)明人(作者)