提供了采用基于空間和時間注意力的分層車道變換策略的深度強(qiáng)化學(xué)習(xí)來控制自主車輛的系統(tǒng)和方法。執(zhí)行器?評價網(wǎng)絡(luò)架構(gòu)包括:執(zhí)行器網(wǎng)絡(luò),其處理從環(huán)境接收的圖像數(shù)據(jù)以將車道變換策略作為分層動作的集合來學(xué)習(xí);以及評價網(wǎng)絡(luò),其評估車道變換策略以計算損失和梯度來預(yù)測動作值函數(shù)(Q),其用于驅(qū)動學(xué)習(xí)車道變換策略以及更新其參數(shù)。執(zhí)行器?評價網(wǎng)絡(luò)架構(gòu)實施空間注意力模塊以選擇圖像數(shù)據(jù)中重要的相關(guān)區(qū)域,以及時間注意力模塊以學(xué)習(xí)要應(yīng)用于過去的圖像數(shù)據(jù)幀的時間注意力權(quán)重,從而指示在決定選擇哪個車道變換策略時的相對重要性。
聲明:
“用于控制自主車輛的分層車道變換策略的基于空間和時間注意力的深度強(qiáng)化學(xué)習(xí)” 該技術(shù)專利(論文)所有權(quán)利歸屬于技術(shù)(論文)所有人。僅供學(xué)習(xí)研究,如用于商業(yè)用途,請聯(lián)系該技術(shù)所有人。
我是此專利(論文)的發(fā)明人(作者)