本發(fā)明提出一種基于強化學習的監(jiān)護預警方法及系統(tǒng),包括:根據實時輸入的時序監(jiān)護數據,預測所述時序監(jiān)護數據與不良事件標簽的關聯(lián)關系,創(chuàng)建決策環(huán)境;對所述智能體決策動作進行建模;所述智能體根據當前時刻輸入的時序監(jiān)護數據選擇決策動作;所述決策環(huán)境根據所述決策動作輸出響應信息,其中,所述響應信息包括環(huán)境狀態(tài)和決策動作的獎懲值;將所述環(huán)境狀態(tài)輸入預先構建深度強化學習框架,獲取智能體所有可選決策動作中期望值最高的動作作為所述智能體下一次動作決策的輸出;根據前述步驟進行智能體與決策環(huán)境交互直到滿足結束條件,輸出預測結果;本發(fā)明通過強化學習,實時監(jiān)護目標對象情況,提高問題處理的及時性。
聲明:
“基于強化學習的監(jiān)護預警方法及系統(tǒng)” 該技術專利(論文)所有權利歸屬于技術(論文)所有人。僅供學習研究,如用于商業(yè)用途,請聯(lián)系該技術所有人。
我是此專利(論文)的發(fā)明人(作者)