本發(fā)明提出了基于深度強化學習的盾構最優(yōu)自主掘進控制方法。深度強化學習決策模塊根據(jù)觀測到的反饋的傳感器實測參數(shù),地質前勘測量的參數(shù)以及從獎勵函數(shù)模塊反饋的獎勵函數(shù)值處理獲得總推進力期望值和刀盤扭矩期望值;最優(yōu)控制模塊處理輸出總推進力實際值和刀盤扭矩實際值;獎勵函數(shù)模塊生成獎勵函數(shù)值,反饋到通過深度強化學習決策模塊;最優(yōu)控制模塊輸出的總推進力實際值和刀盤扭矩實際值施加到盾構機上,通過盾構環(huán)境交互模塊處理獲得經(jīng)過盾構環(huán)境交互后的傳感器實測參數(shù)。本發(fā)明減輕盾構司機的工作量,能夠實現(xiàn)完全自主控制的基礎上提升綜合掘進性能,同時實現(xiàn)掘進參數(shù)的智能決策與長期綜合掘進性能的多目標動態(tài)優(yōu)化,顯著提高綜合掘進性能。
聲明:
“基于深度強化學習的盾構最優(yōu)自主掘進控制方法” 該技術專利(論文)所有權利歸屬于技術(論文)所有人。僅供學習研究,如用于商業(yè)用途,請聯(lián)系該技術所有人。
我是此專利(論文)的發(fā)明人(作者)