一種基于多智能體深度強化學習的無人機網(wǎng)絡懸停位置優(yōu)化方法,首先對無人機對地通信場景中的信道模型、覆蓋模型和能量損耗模型進行建模;將無人機對地通信網(wǎng)絡的吞吐量最大化問題建模為局部可觀察馬爾科夫決策過程;通過無人機與環(huán)境的不斷交互獲取局部觀測信息和瞬時獎勵,并基于這些信息進行集中式的訓練,得到分布式的策略網(wǎng)絡;將策略網(wǎng)絡部署到每個無人機中,每個無人機可以基于自身的局部觀測信息得到移動方向和移動距離決策,調(diào)整懸停位置,進行分布式協(xié)作。本發(fā)明還將比例公平調(diào)度和無人機能耗損失信息引入到瞬時獎勵函數(shù)中,在提高吞吐量的同時保證無人機對地面用戶服務的公平性,并減少能耗損失,使無人機集群能夠適應動態(tài)環(huán)境。
聲明:
“基于多智能體深度強化學習的無人機網(wǎng)絡懸停位置優(yōu)化方法” 該技術專利(論文)所有權利歸屬于技術(論文)所有人。僅供學習研究,如用于商業(yè)用途,請聯(lián)系該技術所有人。
我是此專利(論文)的發(fā)明人(作者)