本發(fā)明是一種基于深度強(qiáng)化學(xué)習(xí)的無(wú)人系統(tǒng)集群控制方法。本發(fā)明涉及無(wú)人系統(tǒng)集群控制技術(shù)領(lǐng)域,本發(fā)明為了解決現(xiàn)有無(wú)人系統(tǒng)集群控制方法環(huán)境適應(yīng)性差的問(wèn)題。本發(fā)明包括:在無(wú)人系統(tǒng)集群中,每個(gè)無(wú)人系統(tǒng)分別探測(cè)環(huán)境信息;將環(huán)境信息分為目標(biāo)信息、障礙信息以及其他無(wú)人系統(tǒng)狀態(tài)信息;對(duì)獲得的信息分別進(jìn)行標(biāo)準(zhǔn)化處理;將標(biāo)準(zhǔn)化處理的信息通過(guò)深度神經(jīng)網(wǎng)絡(luò)處理,得到選擇動(dòng)作的概率值;根據(jù)得到的概率值選擇動(dòng)作,觀測(cè)新的環(huán)境信息并獲得動(dòng)作評(píng)價(jià)值;收集所有無(wú)人系統(tǒng)與環(huán)境交互的數(shù)據(jù)訓(xùn)練深度神經(jīng)網(wǎng)絡(luò);利用訓(xùn)練好的深度神經(jīng)網(wǎng)絡(luò)進(jìn)行無(wú)人系統(tǒng)集群控制。本發(fā)明用于無(wú)人系統(tǒng)集群控制技術(shù)領(lǐng)域。
聲明:
“基于深度強(qiáng)化學(xué)習(xí)的無(wú)人系統(tǒng)集群控制方法” 該技術(shù)專(zhuān)利(論文)所有權(quán)利歸屬于技術(shù)(論文)所有人。僅供學(xué)習(xí)研究,如用于商業(yè)用途,請(qǐng)聯(lián)系該技術(shù)所有人。
我是此專(zhuān)利(論文)的發(fā)明人(作者)