本發(fā)明公開了一種聚合物品牌切換的控制方法,包括:獲得離線優(yōu)化軌跡作為系統(tǒng)行為的觀測樣本集;利用決策樹的非參數(shù)建模方法基于所述觀測樣本集建立Q函數(shù)的學(xué)習(xí)模型;基于所述Q函數(shù)的學(xué)習(xí)模型獲得最優(yōu)控制策略并予以實施;收集歷史操作軌跡補充到所述觀測樣本集中,并重復(fù)以上步驟,直到停止學(xué)習(xí)。本發(fā)明基于動態(tài)批次強化學(xué)習(xí)的優(yōu)點,根據(jù)觀測到的樣本數(shù)據(jù),借助決策樹的建模方法,學(xué)習(xí)Q函數(shù)并從中得到平穩(wěn)的閉環(huán)最優(yōu)策略。
聲明:
“聚合物品牌切換的控制方法” 該技術(shù)專利(論文)所有權(quán)利歸屬于技術(shù)(論文)所有人。僅供學(xué)習(xí)研究,如用于商業(yè)用途,請聯(lián)系該技術(shù)所有人。
我是此專利(論文)的發(fā)明人(作者)