提供了用于優(yōu)化用于以軌跡為中心的強化學(xué)習(xí)的系統(tǒng)的局部控制策略的控制器??刂破靼▓?zhí)行以下步驟:使用在使用初始隨機控制策略執(zhí)行的試錯實驗期間收集的數(shù)據(jù)的集合,來學(xué)習(xí)系統(tǒng)的隨機預(yù)測模型;估計相關(guān)聯(lián)的平均預(yù)測和不確定性;在當(dāng)前時間步驟使用控制輸入時,使用經(jīng)過學(xué)習(xí)的隨機系統(tǒng)模型確定系統(tǒng)與標(biāo)稱系統(tǒng)狀態(tài)的偏差的局部集合;確定具有最壞情況偏差的系統(tǒng)狀態(tài);確定穩(wěn)健性約束的梯度;使用非線性規(guī)劃來提供并求解穩(wěn)健策略優(yōu)化問題,以獲得系統(tǒng)軌跡并且同時穩(wěn)定局部策略;根據(jù)求解的優(yōu)化問題更新控制數(shù)據(jù);以及經(jīng)由接口輸出更新后的控制數(shù)據(jù)。
聲明:
“用于以軌跡為中心的基于模型的強化學(xué)習(xí)的穩(wěn)健優(yōu)化的系統(tǒng)及方法” 該技術(shù)專利(論文)所有權(quán)利歸屬于技術(shù)(論文)所有人。僅供學(xué)習(xí)研究,如用于商業(yè)用途,請聯(lián)系該技術(shù)所有人。
我是此專利(論文)的發(fā)明人(作者)