實施方式利用深度強化學習來訓練策略神經(jīng)網(wǎng)絡,該策略神經(jīng)網(wǎng)絡參數(shù)化策略,以用于基于當前狀態(tài)來確定機器人動作。這些實施方式中的一些從同時操作的多個機器人收集經(jīng)驗數(shù)據(jù)。每個機器人在作為對執(zhí)行任務的每次探索并且各自在情節(jié)期間基于策略網(wǎng)絡和策略網(wǎng)絡的當前策略參數(shù)被引導的情節(jié)的迭代執(zhí)行期間生成經(jīng)驗數(shù)據(jù)的實例。所收集的經(jīng)驗數(shù)據(jù)在情節(jié)期間生成,并用于通過基于一批所收集的經(jīng)驗數(shù)據(jù)迭代地更新策略網(wǎng)絡的策略參數(shù)來訓練策略網(wǎng)絡。此外,在由機器人執(zhí)行的多個情節(jié)中的每一個情節(jié)的執(zhí)行之前,可以提供(或檢索)當前更新的策略參數(shù),以供情節(jié)的執(zhí)行時利用。
聲明:
“機器人操縱的深度強化學習” 該技術專利(論文)所有權利歸屬于技術(論文)所有人。僅供學習研究,如用于商業(yè)用途,請聯(lián)系該技術所有人。
我是此專利(論文)的發(fā)明人(作者)