本發(fā)明涉及多智能體強化學(xué)習(xí)領(lǐng)域,為在博弈均衡狀態(tài)分析的基礎(chǔ)上,針對博弈雙方動態(tài)交互的特點,對雙方策略優(yōu)化方法進行改進,本發(fā)明,強化學(xué)習(xí)非零和非合作多智能體安全通信功率控制方法;步驟如下:建立無線網(wǎng)絡(luò)干擾?抗干擾通信博弈框架;訓(xùn)練階段動態(tài)博弈的功率控制,方法如下:在強化學(xué)習(xí)的訓(xùn)練階段,采用合作式的訓(xùn)練方式;在強化學(xué)習(xí)的感知階段,干擾機直接獲得一定誤差下基站的發(fā)射信號強度信息,發(fā)射機則根據(jù)用戶反饋的信號與干擾加噪聲比SINR來估計干擾機干擾功率,執(zhí)行下一次動作選擇;對抗雙方在訓(xùn)練階段反復(fù)進行該過程,直到所有智能體收益基本保持均衡為止,達到收斂。本發(fā)明主要應(yīng)用于雷達、干擾機設(shè)計制造場合。
聲明:
“強化學(xué)習(xí)非零和非合作多智能體安全通信功率控制方法” 該技術(shù)專利(論文)所有權(quán)利歸屬于技術(shù)(論文)所有人。僅供學(xué)習(xí)研究,如用于商業(yè)用途,請聯(lián)系該技術(shù)所有人。
我是此專利(論文)的發(fā)明人(作者)