在一個實施方式中,系統(tǒng)生成多個驅(qū)動駕駛場景來訓(xùn)練強化學(xué)習(xí)(RL)代理并重放每個驅(qū)動駕駛場景以通過以下操作訓(xùn)練RL代理:將RL算法應(yīng)用于驅(qū)動駕駛場景的初始狀態(tài),以從ADV的多個離散的控制/動作選項中確定多個控制動作,以達到基于多個離散的軌跡狀態(tài)選項的多個軌跡狀態(tài),對于每個控制/動作確定通過RL算法的回報預(yù)測,確定軌跡狀態(tài)的判斷分?jǐn)?shù),并基于判斷分?jǐn)?shù)更新RL代理。
聲明:
“使用強化學(xué)習(xí)來加速自動駕駛車輛的軌跡規(guī)劃的離線代理” 該技術(shù)專利(論文)所有權(quán)利歸屬于技術(shù)(論文)所有人。僅供學(xué)習(xí)研究,如用于商業(yè)用途,請聯(lián)系該技術(shù)所有人。
我是此專利(論文)的發(fā)明人(作者)