本發(fā)明涉及人工智能技術(shù)領(lǐng)域,尤其是涉及一種基于適應(yīng)度預(yù)測(cè)的強(qiáng)化學(xué)習(xí)模型訓(xùn)練方法及其系統(tǒng)。本方法中,需要先獲取輸入?yún)?shù),并根據(jù)輸入?yún)?shù)計(jì)算得到真實(shí)適應(yīng)度原始值,再對(duì)輸入?yún)?shù)進(jìn)行降維處理,并基于適應(yīng)度預(yù)測(cè)網(wǎng)絡(luò)對(duì)降維處理后的輸入?yún)?shù)進(jìn)行適應(yīng)度預(yù)測(cè),得到預(yù)測(cè)適應(yīng)度值,進(jìn)一步,從輸入?yún)?shù)中篩選得到目標(biāo)參數(shù),再進(jìn)一步,對(duì)目標(biāo)參數(shù)進(jìn)行處理得到策略執(zhí)行動(dòng)作,從而對(duì)目標(biāo)環(huán)境進(jìn)行檢測(cè),獲取環(huán)境參數(shù),最終基于環(huán)境參數(shù)對(duì)強(qiáng)化學(xué)習(xí)模型進(jìn)行優(yōu)化訓(xùn)練,得到訓(xùn)練好的強(qiáng)化學(xué)習(xí)模型。本發(fā)明通過適應(yīng)度預(yù)測(cè)網(wǎng)絡(luò)在適應(yīng)度評(píng)估之前預(yù)先過濾掉明顯不適應(yīng)目標(biāo)環(huán)境的輸入?yún)?shù),減少了強(qiáng)化學(xué)習(xí)模型進(jìn)行適應(yīng)度評(píng)估所耗費(fèi)的算力資源以及時(shí)長(zhǎng)。
聲明:
“基于適應(yīng)度預(yù)測(cè)的強(qiáng)化學(xué)習(xí)模型訓(xùn)練方法及其系統(tǒng)” 該技術(shù)專利(論文)所有權(quán)利歸屬于技術(shù)(論文)所有人。僅供學(xué)習(xí)研究,如用于商業(yè)用途,請(qǐng)聯(lián)系該技術(shù)所有人。
我是此專利(論文)的發(fā)明人(作者)