本發(fā)明公開了一種基于多智能體深度強(qiáng)化學(xué)習(xí)的TCP擁塞控制方法及裝置。所述方法包括:在傳輸控制協(xié)議TCP中,通過設(shè)置連續(xù)的統(tǒng)計(jì)區(qū)間,將多流競爭瓶頸鏈路的擁塞控制問題建模為馬爾可夫博弈過程,并利用深度強(qiáng)化學(xué)習(xí),用神經(jīng)網(wǎng)絡(luò)表示表示TCP的擁塞控制策略,在一個模擬環(huán)境中訓(xùn)練出最優(yōu)的擁塞控制策略,從根本上解決傳統(tǒng)啟發(fā)式擁塞控制算法在動態(tài)多變的網(wǎng)絡(luò)環(huán)境中的適應(yīng)性問題及公平性問題。本發(fā)明方法使用在線變點(diǎn)檢測技術(shù)劃分統(tǒng)計(jì)區(qū)間,采用Actor?Critic深度強(qiáng)化學(xué)習(xí)框架,對多個智能體并行聯(lián)合訓(xùn)練,直接對TCP擁塞控制進(jìn)行建模和學(xué)習(xí),從而生成一個最優(yōu)的擁塞控制策略。
聲明:
“基于多智能體深度強(qiáng)化學(xué)習(xí)的TCP擁塞控制方法及裝置” 該技術(shù)專利(論文)所有權(quán)利歸屬于技術(shù)(論文)所有人。僅供學(xué)習(xí)研究,如用于商業(yè)用途,請聯(lián)系該技術(shù)所有人。
我是此專利(論文)的發(fā)明人(作者)