本發(fā)明公開了一種基于多智能體強(qiáng)化學(xué)習(xí)的無人機(jī)網(wǎng)絡(luò)協(xié)同快跳頻方法,具體為:輸入無人機(jī)網(wǎng)絡(luò)環(huán)境,每對無人機(jī)初始化自身Q表以及最優(yōu)先驗(yàn)動作分布估計、互信息懲罰項(xiàng)系數(shù)和動作狀態(tài)對出現(xiàn)次數(shù);在當(dāng)前時隙中,每對無人機(jī)根據(jù)上一時隙生成的動作選擇傳輸信道,傳輸完成后得到環(huán)境反饋的獎勵;每對無人機(jī)觀測環(huán)境的當(dāng)前狀態(tài),再與其它無人機(jī)對交互當(dāng)前狀態(tài)下各個動作的Q值得到全局Q值,根據(jù)互信息正則化soft Q?learning算法中的行為策略生成動作;每對無人機(jī)更新自身Q表以及各個參量;當(dāng)達(dá)到訓(xùn)練回合的最大步數(shù)時,重新輸入無人機(jī)網(wǎng)絡(luò)環(huán)境開始下一回合。本發(fā)明實(shí)現(xiàn)了所有無人機(jī)對的總吞吐量性能的提升,為無人機(jī)網(wǎng)絡(luò)提供了通信保障。
聲明:
“基于多智能體強(qiáng)化學(xué)習(xí)的無人機(jī)網(wǎng)絡(luò)協(xié)同快跳頻方法” 該技術(shù)專利(論文)所有權(quán)利歸屬于技術(shù)(論文)所有人。僅供學(xué)習(xí)研究,如用于商業(yè)用途,請聯(lián)系該技術(shù)所有人。
我是此專利(論文)的發(fā)明人(作者)