本發(fā)明公開(kāi)了一種基于記憶網(wǎng)絡(luò)的深度強(qiáng)化學(xué)習(xí)交通信號(hào)控制方法,包括:1、建立基于DQN算法的交通信號(hào)燈控制主網(wǎng)絡(luò)和目標(biāo)值網(wǎng)絡(luò);主網(wǎng)絡(luò)將t時(shí)刻狀態(tài)值st輸入LSTM中得到t+1時(shí)刻預(yù)測(cè)狀態(tài)值合并st和并輸入全連接網(wǎng)絡(luò),得到預(yù)測(cè)Q值的最大值和對(duì)應(yīng)動(dòng)作2、初始化算法參數(shù),采集路況信息建立狀態(tài)值st;3、將st輸入主網(wǎng)絡(luò)得到預(yù)測(cè)Q值取最大值的動(dòng)作采用1?ε策略選擇動(dòng)作at;4、執(zhí)行動(dòng)作at并計(jì)算獎(jiǎng)勵(lì)rt和狀態(tài)st+1;5、在經(jīng)驗(yàn)池中隨機(jī)抽樣B個(gè)記錄,通過(guò)最小化損失函數(shù)訓(xùn)練主網(wǎng)絡(luò)參數(shù);6、定時(shí)更新目標(biāo)值網(wǎng)絡(luò)參數(shù),根據(jù)當(dāng)前路況更新st,跳轉(zhuǎn)至步驟3繼續(xù)執(zhí)行。該方法根據(jù)當(dāng)前路況以及對(duì)當(dāng)前路況的預(yù)測(cè)來(lái)計(jì)算Q值,能夠更精確地對(duì)交通信號(hào)進(jìn)行控制。
聲明:
“基于記憶網(wǎng)絡(luò)的深度強(qiáng)化學(xué)習(xí)交通信號(hào)控制方法” 該技術(shù)專利(論文)所有權(quán)利歸屬于技術(shù)(論文)所有人。僅供學(xué)習(xí)研究,如用于商業(yè)用途,請(qǐng)聯(lián)系該技術(shù)所有人。
我是此專利(論文)的發(fā)明人(作者)