本發(fā)明實(shí)施例涉及強(qiáng)化學(xué)習(xí)技術(shù)領(lǐng)域,具體涉及路徑規(guī)劃模型的訓(xùn)練、路徑規(guī)劃方法、裝置及電子設(shè)備,其中,所述訓(xùn)練方法包括:獲取樣本數(shù)據(jù)以及剩余決策次數(shù),所述樣本數(shù)據(jù)包括當(dāng)前時(shí)刻的環(huán)境狀態(tài)以及損失計(jì)算參數(shù);將當(dāng)前時(shí)刻的環(huán)境狀態(tài)以及剩余決策次數(shù)輸入路徑規(guī)劃模型,并利用剩余決策次數(shù)對路徑規(guī)劃模型預(yù)測結(jié)果中的非空動(dòng)作進(jìn)行約束,以輸出當(dāng)前時(shí)刻的執(zhí)行動(dòng)作并更新所述剩余決策次數(shù),所述路徑規(guī)劃模型是基于強(qiáng)化學(xué)習(xí)模型建立的;根據(jù)當(dāng)前時(shí)刻的執(zhí)行動(dòng)作以及損失計(jì)算參數(shù)進(jìn)行損失函數(shù)的計(jì)算,并基于計(jì)算結(jié)果更新路徑規(guī)劃模型的參數(shù),以確定目標(biāo)路徑規(guī)劃模型。將決策次數(shù)作為約束條件,使得訓(xùn)練得到的目標(biāo)路徑規(guī)劃模型能夠應(yīng)用在決策次數(shù)受限的場景下。
聲明:
“路徑規(guī)劃模型的訓(xùn)練、路徑規(guī)劃方法、裝置及電子設(shè)備” 該技術(shù)專利(論文)所有權(quán)利歸屬于技術(shù)(論文)所有人。僅供學(xué)習(xí)研究,如用于商業(yè)用途,請聯(lián)系該技術(shù)所有人。
我是此專利(論文)的發(fā)明人(作者)