本發(fā)明提出的用于智能無(wú)人系統(tǒng)的基于評(píng)論家和雙經(jīng)驗(yàn)池的深度確定性策略梯度強(qiáng)化學(xué)習(xí)方法及設(shè)備,屬于人工智能應(yīng)用技術(shù)領(lǐng)域,主要包括:確定所述智能無(wú)人系統(tǒng)的智能體的觀測(cè)空間和動(dòng)作空間大小,構(gòu)建行動(dòng)者actor模塊與評(píng)論家critic模塊;創(chuàng)建所述critic模塊中的多個(gè)評(píng)論家子模塊;創(chuàng)建雙經(jīng)驗(yàn)池的環(huán)形數(shù)組數(shù)據(jù)結(jié)構(gòu);進(jìn)行所述actor模塊與critic模塊的參數(shù)梯度更新與訓(xùn)練過(guò)程,在達(dá)到了最大的迭代次數(shù)或者滿足終止條件后訓(xùn)練過(guò)程結(jié)束。本發(fā)明能夠提供一種更高穩(wěn)定性和更高性能的強(qiáng)化學(xué)習(xí)方法,使得智能體的性能表現(xiàn)得到有效提升。
聲明:
“基于評(píng)論家和雙經(jīng)驗(yàn)池的深度確定性策略梯度學(xué)習(xí)方法” 該技術(shù)專(zhuān)利(論文)所有權(quán)利歸屬于技術(shù)(論文)所有人。僅供學(xué)習(xí)研究,如用于商業(yè)用途,請(qǐng)聯(lián)系該技術(shù)所有人。
我是此專(zhuān)利(論文)的發(fā)明人(作者)