本發(fā)明公開了一種基于多智能體強化學習的交通組織方案優(yōu)化方法,改進了MADDPG中的Actor網(wǎng)絡(luò),基于生滅過程改進了Critic網(wǎng)絡(luò)中的經(jīng)驗庫,使用早高峰最大車流設(shè)作為智能體回報指標,使用軌跡數(shù)據(jù)訓練最大熵逆強化學習模型作為多智能體的回報機制,基于此設(shè)計出強化學習的回報函數(shù);本發(fā)明方法實現(xiàn)了對當前城市交通組織方案進行優(yōu)化,通過對當前交通數(shù)據(jù)進行分析,找出導致交通擁堵的原因,本方法能夠很好的適應(yīng)和快速找出最優(yōu)方案,為交警專家提供了交通輔導意見,并為智慧城市打下基礎(chǔ)。
聲明:
“基于多智能體強化學習的交通組織方案優(yōu)化方法” 該技術(shù)專利(論文)所有權(quán)利歸屬于技術(shù)(論文)所有人。僅供學習研究,如用于商業(yè)用途,請聯(lián)系該技術(shù)所有人。
我是此專利(論文)的發(fā)明人(作者)