本發(fā)明提出一種基于深度強(qiáng)化學(xué)習(xí)的實(shí)時(shí)分布式無線網(wǎng)絡(luò)調(diào)度方法和系統(tǒng),包括:獲取由多個(gè)接入點(diǎn)和用戶節(jié)點(diǎn)組成的無線網(wǎng)絡(luò);在測(cè)試階段的每個(gè)時(shí)隙,接入點(diǎn)根據(jù)部分?jǐn)?shù)據(jù)流對(duì)應(yīng)的發(fā)送隊(duì)列信息,得到各數(shù)據(jù)流的狀態(tài),同時(shí)獲取之前對(duì)無線信道的歷史觀測(cè)信息將數(shù)據(jù)流的狀態(tài)和歷史觀測(cè)信息輸入至決策模型,接入點(diǎn)執(zhí)行決策模型輸出結(jié)果對(duì)應(yīng)的調(diào)度決策;在訓(xùn)練階段,網(wǎng)絡(luò)中存在的全局決策模型獲取所有數(shù)據(jù)流的狀態(tài)信息,并給出每個(gè)接入點(diǎn)的最優(yōu)決策動(dòng)作,接入點(diǎn)執(zhí)行專家網(wǎng)絡(luò)給出的最優(yōu)決策動(dòng)作,同時(shí)將部分?jǐn)?shù)據(jù)流的狀態(tài),信道的歷史觀測(cè)信息,最優(yōu)調(diào)度決策動(dòng)作作為交互信息存儲(chǔ)至各自的經(jīng)驗(yàn)回放池中,從各自的經(jīng)驗(yàn)回放池中抽取經(jīng)驗(yàn),訓(xùn)練更新當(dāng)前決策模型。
聲明:
“基于深度強(qiáng)化學(xué)習(xí)的實(shí)時(shí)分布式無線網(wǎng)絡(luò)調(diào)度方法和系統(tǒng)” 該技術(shù)專利(論文)所有權(quán)利歸屬于技術(shù)(論文)所有人。僅供學(xué)習(xí)研究,如用于商業(yè)用途,請(qǐng)聯(lián)系該技術(shù)所有人。
我是此專利(論文)的發(fā)明人(作者)