本發(fā)明公開了一種基于深度強化學(xué)習(xí)的實時擁塞控制方法,涉及計算機網(wǎng)絡(luò)與人工智能的交叉領(lǐng)域。該方法包括構(gòu)建仿真網(wǎng)絡(luò),在仿真網(wǎng)絡(luò)中按照設(shè)定的每回合時間長度,來構(gòu)建數(shù)據(jù)傳輸程序;初始化強化學(xué)習(xí)智能體及內(nèi)部神經(jīng)網(wǎng)絡(luò),采集網(wǎng)絡(luò)統(tǒng)計信息及動作滯后時間以訓(xùn)練滯后預(yù)測模型,接著固定滯后預(yù)測模型,用強化學(xué)習(xí)算法訓(xùn)練神經(jīng)網(wǎng)絡(luò),最后將神經(jīng)網(wǎng)絡(luò)模型部署至目標(biāo)網(wǎng)絡(luò)環(huán)境中,讓智能體能根據(jù)當(dāng)前的網(wǎng)絡(luò)狀態(tài)數(shù)據(jù)動態(tài)地調(diào)整擁塞控制窗口的大小,在數(shù)據(jù)傳輸過程中取得更高的吞吐量和更低的往返時延。本發(fā)明以擴展?fàn)顟B(tài)空間和單獨預(yù)測滯后時間的方式解決了應(yīng)用深度強化學(xué)習(xí)至擁塞控制時的動作滯后問題,可以兼顧擁塞控制效果和較高的網(wǎng)絡(luò)性能。
聲明:
“基于深度強化學(xué)習(xí)的實時擁塞控制方法” 該技術(shù)專利(論文)所有權(quán)利歸屬于技術(shù)(論文)所有人。僅供學(xué)習(xí)研究,如用于商業(yè)用途,請聯(lián)系該技術(shù)所有人。
我是此專利(論文)的發(fā)明人(作者)