本發(fā)明公開了基于模型的高樣本率深度強(qiáng)化學(xué)習(xí)的無人設(shè)備控制方法,包括:獲取軌跡數(shù)據(jù),并將軌跡數(shù)據(jù)存入環(huán)境緩沖池中;對環(huán)境狀態(tài)轉(zhuǎn)移模型進(jìn)行更新;進(jìn)行多步交互軌跡預(yù)測生成預(yù)測數(shù)據(jù),并將預(yù)測數(shù)據(jù)存入模型緩沖池;對Actor?Critic策略模型進(jìn)行更新;持續(xù)迭代更新環(huán)境狀態(tài)轉(zhuǎn)移模型和Actor?Critic策略模型直至當(dāng)前策略性能達(dá)到預(yù)期要求。本發(fā)明采用基于模型的深度強(qiáng)化學(xué)習(xí)的方法,構(gòu)建一個(gè)環(huán)境狀態(tài)轉(zhuǎn)移模型來模擬無人設(shè)備與外界環(huán)境的交互,從而急劇減少無人設(shè)備與真實(shí)環(huán)境的交互次數(shù),并且由環(huán)境狀態(tài)轉(zhuǎn)移模型產(chǎn)生的數(shù)據(jù)能夠?qū)o人設(shè)備行進(jìn)控制策略進(jìn)行有效的優(yōu)化,使得對無人設(shè)備的控制變得高效。
聲明:
“基于模型的高樣本率深度強(qiáng)化學(xué)習(xí)的無人設(shè)備控制方法” 該技術(shù)專利(論文)所有權(quán)利歸屬于技術(shù)(論文)所有人。僅供學(xué)習(xí)研究,如用于商業(yè)用途,請聯(lián)系該技術(shù)所有人。
我是此專利(論文)的發(fā)明人(作者)