本發(fā)明公開了一種基于多智能體強(qiáng)化學(xué)習(xí)的無線充電設(shè)備協(xié)作任務(wù)卸載策略,使用Q?Learning算法以及神經(jīng)網(wǎng)絡(luò)來學(xué)習(xí)多個(gè)移動(dòng)設(shè)備如何在有限的計(jì)算資源和電量資源環(huán)境下進(jìn)行協(xié)作任務(wù)卸載。本發(fā)明首次將多用戶協(xié)作任務(wù)卸載建模為部分可觀測馬爾可夫決策過程(POMDP)的問題表述,視每個(gè)智能體為相互獨(dú)立的學(xué)習(xí)者,提出了一種在無線充電D2D網(wǎng)絡(luò)環(huán)境下基于多智能體深度確定性策略梯度(MADDPG)的協(xié)作任務(wù)執(zhí)行方案(CACTE),其目標(biāo)是使多個(gè)移動(dòng)設(shè)備彼此有效地協(xié)作,從而執(zhí)行更多任務(wù),獲得更高的長期回報(bào)。并且,將本發(fā)明提出的策略與其他策略在不同實(shí)驗(yàn)參數(shù)下進(jìn)行對比,證明了本發(fā)明所提出策略的有效性。
聲明:
“基于多智能體強(qiáng)化學(xué)習(xí)的無線充電設(shè)備協(xié)作任務(wù)卸載策略” 該技術(shù)專利(論文)所有權(quán)利歸屬于技術(shù)(論文)所有人。僅供學(xué)習(xí)研究,如用于商業(yè)用途,請聯(lián)系該技術(shù)所有人。
我是此專利(論文)的發(fā)明人(作者)