本發(fā)明公開了一種基于深度強化學(xué)習(xí)的綠籬修剪機器人智能協(xié)同控制方法,包括以下步驟:建立綠籬修剪機器人MDP深度強化學(xué)習(xí)模型;搭建深度神經(jīng)網(wǎng)絡(luò)框架;設(shè)計改進(jìn)PPO算法的策略網(wǎng)絡(luò)目標(biāo)函數(shù)與值函數(shù)網(wǎng)絡(luò)目標(biāo)函數(shù);根據(jù)最大化策略網(wǎng)絡(luò)目標(biāo)獎勵函數(shù)與最小化值函數(shù)網(wǎng)絡(luò)目標(biāo)函數(shù)均方誤差原則,采用改進(jìn)的PPO算法訓(xùn)練深度神經(jīng)網(wǎng)絡(luò);采用改進(jìn)自適應(yīng)學(xué)習(xí)率的Adam自適應(yīng)梯度算法優(yōu)化目標(biāo)函數(shù),經(jīng)過重復(fù)更新迭代,得到綠籬修剪機器人訓(xùn)練模型的最優(yōu)策略,通過輸入最新狀態(tài)數(shù)據(jù),即可預(yù)測輸出最優(yōu)動作,輸出移動底盤與修剪機械臂的控制指令。本發(fā)明不需要對綠籬修剪機器人進(jìn)行物理建模,避免了因模型不精確而帶來的控制誤差,避免算法陷入局部最優(yōu)解,加快了算法的更新效率,同時提高了控制算法的泛化能力。
聲明:
“基于深度強化學(xué)習(xí)的綠籬修剪機器人智能協(xié)同控制方法” 該技術(shù)專利(論文)所有權(quán)利歸屬于技術(shù)(論文)所有人。僅供學(xué)習(xí)研究,如用于商業(yè)用途,請聯(lián)系該技術(shù)所有人。
我是此專利(論文)的發(fā)明人(作者)