根據(jù)一方面,提供了一種訓(xùn)練策略的計算機實現(xiàn)的方法,該策略供通信網(wǎng)絡(luò)中的強化學(xué)習(xí)(RL)代理(406)使用,其中,RL代理(406)用于根據(jù)該策略優(yōu)化通信網(wǎng)絡(luò)的相應(yīng)小區(qū)(404)中的一個或多個小區(qū)參數(shù),該方法包括:(i)為通信網(wǎng)絡(luò)中的多個小區(qū)(404)中的每一個小區(qū)部署(1001)相應(yīng)的RL代理(408),該多個小區(qū)(404)包括彼此相鄰的小區(qū),每個相應(yīng)的RL代理(408)具有策略的第一次迭代;(ii)根據(jù)策略的第一次迭代操作(1003)每個所部署(408)的RL代理,以調(diào)整或維持相應(yīng)小區(qū)(404)中的一個或多個小區(qū)參數(shù);(iii)接收(1005)與該多個小區(qū)(404)中的每一個小區(qū)的操作相關(guān)的測量;以及(iv)基于所接收的與該多個小區(qū)(404)中的每一個小區(qū)的操作相關(guān)的測量來確定(1007)策略的第二次迭代。
聲明:
“用于優(yōu)化小區(qū)參數(shù)的策略” 該技術(shù)專利(論文)所有權(quán)利歸屬于技術(shù)(論文)所有人。僅供學(xué)習(xí)研究,如用于商業(yè)用途,請聯(lián)系該技術(shù)所有人。
我是此專利(論文)的發(fā)明人(作者)