本發(fā)明公開了一種多智能體強(qiáng)化學(xué)習(xí)方法及系統(tǒng),設(shè)計(jì)了中心化教師模塊與去中心化學(xué)生模塊的多智能體強(qiáng)化學(xué)習(xí)框架,在滿足中心化訓(xùn)練和去中心化執(zhí)行的條件的基礎(chǔ)上,解耦了解決獎(jiǎng)勵(lì)分配和局部觀測(cè)問(wèn)題的模塊,使得模型訓(xùn)練效率提升。此外,該框架具有普適性,即它可以用于一切基于中心化訓(xùn)練去中心化執(zhí)行范式提出來(lái)的方法。同時(shí),基于本發(fā)明上述方案,在主流的合作多智能體強(qiáng)化學(xué)習(xí)環(huán)境星際爭(zhēng)霸2中進(jìn)行實(shí)驗(yàn),實(shí)驗(yàn)結(jié)果表明本發(fā)明上述方案在性能和訓(xùn)練效率上都超過(guò)了現(xiàn)有方法。
聲明:
“多智能體強(qiáng)化學(xué)習(xí)方法及系統(tǒng)” 該技術(shù)專利(論文)所有權(quán)利歸屬于技術(shù)(論文)所有人。僅供學(xué)習(xí)研究,如用于商業(yè)用途,請(qǐng)聯(lián)系該技術(shù)所有人。
我是此專利(論文)的發(fā)明人(作者)