本發(fā)明公開了一種基于概率轉(zhuǎn)移深度強(qiáng)化學(xué)習(xí)的無線物聯(lián)網(wǎng)資源分配方法,該方法將決策agent分布式地放在每一個(gè)邊緣服務(wù)器中,這樣每個(gè)agent僅需要對(duì)其所服務(wù)的用戶進(jìn)行決策即可,極大程度地減小了決策變量空間,還降低了決策時(shí)延,同時(shí)提出一種基于分布式部分可觀測(cè)馬爾科夫決策過程的服務(wù)遷移模型,克服了因?yàn)槊總€(gè)agent所能觀測(cè)的狀態(tài)信息有限,使得決策不能達(dá)到最優(yōu)解的問題。
聲明:
“基于概率轉(zhuǎn)移深度強(qiáng)化學(xué)習(xí)的無線物聯(lián)網(wǎng)資源分配方法” 該技術(shù)專利(論文)所有權(quán)利歸屬于技術(shù)(論文)所有人。僅供學(xué)習(xí)研究,如用于商業(yè)用途,請(qǐng)聯(lián)系該技術(shù)所有人。
我是此專利(論文)的發(fā)明人(作者)