本發(fā)明公開了一種基于動態(tài)獎勵的強(qiáng)化學(xué)習(xí)深空探測器自主任務(wù)規(guī)劃方法及系統(tǒng),方法包括定義深空探測器任務(wù)規(guī)劃強(qiáng)化學(xué)習(xí)參數(shù);構(gòu)建智能體交互環(huán)境;構(gòu)建策略網(wǎng)絡(luò);訓(xùn)練策略網(wǎng)絡(luò);利用訓(xùn)練好的策略網(wǎng)絡(luò)執(zhí)行任務(wù)規(guī)劃。本發(fā)明把深空探測任務(wù)規(guī)劃中的時(shí)間約束、資源約束和時(shí)序約束融合在深空探測器任務(wù)規(guī)劃強(qiáng)化學(xué)習(xí)模型的訓(xùn)練過程中,可保證深空探測器任務(wù)規(guī)劃過程中滿足多種約束,增強(qiáng)了深空探測器智能體對復(fù)雜環(huán)境的適應(yīng)性,同時(shí)動態(tài)獎勵算法將資源約束、時(shí)間約束和時(shí)序約束融合在一起構(gòu)建了即時(shí)獎勵模型,并據(jù)此定義損失函數(shù)更新策略梯度,在保證多約束條件的前提下加快了深空探測器自主任務(wù)規(guī)劃強(qiáng)化學(xué)習(xí)模型的收斂速度,減小了偏差,提高了自主任務(wù)規(guī)劃質(zhì)量。
聲明:
“基于動態(tài)獎勵的強(qiáng)化學(xué)習(xí)深空探測器自主任務(wù)規(guī)劃方法及系統(tǒng)” 該技術(shù)專利(論文)所有權(quán)利歸屬于技術(shù)(論文)所有人。僅供學(xué)習(xí)研究,如用于商業(yè)用途,請聯(lián)系該技術(shù)所有人。
我是此專利(論文)的發(fā)明人(作者)