按照各種實(shí)施方式,描述了一種用于訓(xùn)練受控系統(tǒng)的控制裝置的方法,其中該控制裝置具有調(diào)節(jié)裝置和按照控制策略來工作的執(zhí)行器。該方法具有:通過該調(diào)節(jié)裝置來產(chǎn)生控制行動,其中每個(gè)控制行動都通過如下方式來被產(chǎn)生:檢測說明受控系統(tǒng)的狀態(tài)的測量參量,按照該控制策略來確定執(zhí)行器的針對所檢測到的測量參量的修正項(xiàng),使用針對所檢測到的測量參量的修正項(xiàng)來使所檢測到的測量參量適配,并且通過將經(jīng)適配的測量參量作為實(shí)際值輸送給該調(diào)節(jié)裝置來產(chǎn)生該控制行動。該方法還具有:通過強(qiáng)化學(xué)習(xí)來訓(xùn)練該控制策略,以使通過所產(chǎn)生的控制行動來實(shí)現(xiàn)的收益最大化。
聲明:
“用于訓(xùn)練受控系統(tǒng)的控制裝置的方法” 該技術(shù)專利(論文)所有權(quán)利歸屬于技術(shù)(論文)所有人。僅供學(xué)習(xí)研究,如用于商業(yè)用途,請聯(lián)系該技術(shù)所有人。
我是此專利(論文)的發(fā)明人(作者)