本申請實施例適用于人工智能技術(shù)領(lǐng)域,提供了一種決策模型訓練方法、裝置、終端設(shè)備及存儲介質(zhì),該方法包括:獲取仿真系統(tǒng)處于任一故障下的第一狀態(tài)信息;仿真系統(tǒng)為基于真實系統(tǒng)的運行產(chǎn)線環(huán)境預(yù)先搭建的虛擬系統(tǒng);將第一狀態(tài)信息輸入至初始決策模型中,得到初始決策模型預(yù)測的目標恢復動作;獲取仿真系統(tǒng)執(zhí)行目標恢復動作后的第二狀態(tài)信息,以及仿真系統(tǒng)的系統(tǒng)健康度;將第一狀態(tài)信息、目標恢復動作、第二狀態(tài)信息以及系統(tǒng)健康度作為一組仿真經(jīng)驗數(shù)據(jù);根據(jù)仿真經(jīng)驗數(shù)據(jù),對初始決策模型進行強化學習訓練,得到目標決策模型。采用上述方法訓練決策模型可以提高模型的訓練效率。
聲明:
“決策模型訓練方法、裝置、終端設(shè)備及存儲介質(zhì)” 該技術(shù)專利(論文)所有權(quán)利歸屬于技術(shù)(論文)所有人。僅供學習研究,如用于商業(yè)用途,請聯(lián)系該技術(shù)所有人。
我是此專利(論文)的發(fā)明人(作者)