本發(fā)明公開(kāi)了一種多時(shí)間尺度的多智能體強(qiáng)化學(xué)習(xí)方法及裝置,其中,方法包括以下步驟:獲取智能體間的關(guān)聯(lián)拓?fù)浣Y(jié)構(gòu);基于關(guān)聯(lián)拓?fù)浣Y(jié)構(gòu)使得相鄰的智能體之間相互觀測(cè)狀態(tài)、動(dòng)作及收益;根據(jù)觀測(cè)狀態(tài)、動(dòng)作及收益進(jìn)行多智能體強(qiáng)化學(xué)習(xí),更新多時(shí)間尺度的多智能體強(qiáng)化學(xué)習(xí)模型。該方法可以有效降低通訊復(fù)雜度和求解復(fù)雜度,更加符合現(xiàn)實(shí)應(yīng)用的需求,且能夠處理更加一般的問(wèn)題,具有更加廣泛的適用性,能夠處理更多的實(shí)際應(yīng)用問(wèn)題。
聲明:
“多時(shí)間尺度的多智能體強(qiáng)化學(xué)習(xí)方法及裝置” 該技術(shù)專利(論文)所有權(quán)利歸屬于技術(shù)(論文)所有人。僅供學(xué)習(xí)研究,如用于商業(yè)用途,請(qǐng)聯(lián)系該技術(shù)所有人。
我是此專利(論文)的發(fā)明人(作者)