本發(fā)明涉及提供強化學習代理和用其控制自主交通工具的方法和裝置。與使用強化學習代理來控制自主交通工具相關(guān)的方法包括多個訓(xùn)練會話,其中該代理與環(huán)境交互,多個訓(xùn)練會話分別具有不同初始值并且產(chǎn)生取決于狀態(tài)(s)和動作(a)的狀態(tài)動作分位數(shù)函數(shù)方法進一步包括第一不確定性估計,其基于針對狀態(tài)動作對評估的多個狀態(tài)動作分位數(shù)函數(shù)的平均數(shù)的、與相對于分位數(shù)τ的變異性相關(guān)的變異性測量和第二不確定性估計,其基于針對狀態(tài)動作對評估的所述多個狀態(tài)動作分位數(shù)函數(shù)的、與集合變異性相關(guān)的變異性測量狀態(tài)動作對可以與在執(zhí)行之前驗證的試驗性決策相對應(yīng),或與代理對指導(dǎo)附加訓(xùn)練的可能決策相對應(yīng)。
聲明:
“提供強化學習代理和用其控制自主交通工具的方法和裝置” 該技術(shù)專利(論文)所有權(quán)利歸屬于技術(shù)(論文)所有人。僅供學習研究,如用于商業(yè)用途,請聯(lián)系該技術(shù)所有人。
我是此專利(論文)的發(fā)明人(作者)