基于強化學習的5G NR下行調度時延優(yōu)化系統(tǒng),是根據(jù)實際場景存在的狀態(tài)非完全可觀測情形,將基站下行調度過程建模為一個部分可觀測馬爾可夫控制問題,并通過Actor?Critic強化學習算法框架來解決。具體包括:網(wǎng)絡監(jiān)控模塊,用于負責采集下行調度器的相關輸入;資源調度器模塊,用于通過仿真器模擬基站細粒度調度過程;POMDP構建模塊,用于將每個時隙的狀態(tài)處理為部分可觀測狀態(tài),并建立針對不同時間尺度任務的智能體;核心控制器模塊,用于幫助POMDP構建模塊完成針對不同時間尺度任務的智能體在每個時隙的動作策略制定;場景自適應模塊,作為輔助模塊為核心控制器提供更科學高效的決策,并且通過流量時空預測來指導算法更好地進行多小區(qū)調度場景下的負載均衡。
聲明:
“基于強化學習的5G NR下行調度時延優(yōu)化系統(tǒng)” 該技術專利(論文)所有權利歸屬于技術(論文)所有人。僅供學習研究,如用于商業(yè)用途,請聯(lián)系該技術所有人。
我是此專利(論文)的發(fā)明人(作者)