一種基于強(qiáng)化學(xué)習(xí)的超啟發(fā)算法的車輛路徑優(yōu)化方法,包括以下步驟:步驟1車輛路徑問題分析;步驟2初始化;步驟3經(jīng)驗(yàn)池、序列池存儲(chǔ);步驟4解的接受保留;步驟5判斷經(jīng)驗(yàn)池容量,容量足夠則進(jìn)入步驟8學(xué)習(xí),未滿,則進(jìn)入步驟6;步驟6選擇Action;步驟7保留最優(yōu)解;步驟8選擇學(xué)習(xí)樣本,并初始化神經(jīng)網(wǎng)絡(luò);步驟9神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)更新;步驟10更新目標(biāo)值網(wǎng)絡(luò);步驟11判斷學(xué)習(xí)結(jié)束情況,學(xué)習(xí)未結(jié)束,則進(jìn)入步驟8繼續(xù)學(xué)習(xí)更新;反之,則進(jìn)入步驟6選擇Action,返回主循環(huán);步驟12程序結(jié)束,輸出車輛路徑距離最優(yōu)值及最優(yōu)值路徑序列。本發(fā)明提供了一種高層選擇策略為強(qiáng)化學(xué)習(xí)的超啟發(fā)算法的車輛路徑優(yōu)化方法。
聲明:
“基于強(qiáng)化學(xué)習(xí)的超啟發(fā)算法的車輛路徑優(yōu)化方法” 該技術(shù)專利(論文)所有權(quán)利歸屬于技術(shù)(論文)所有人。僅供學(xué)習(xí)研究,如用于商業(yè)用途,請(qǐng)聯(lián)系該技術(shù)所有人。
我是此專利(論文)的發(fā)明人(作者)