本發(fā)明涉及一種基于深度強(qiáng)化學(xué)習(xí)的飛行器探測(cè)傳感器資源調(diào)度方法,屬于計(jì)算機(jī)應(yīng)用技術(shù)領(lǐng)域,該方法為調(diào)度模型構(gòu)建、調(diào)度策略的離線訓(xùn)練和飛行器探測(cè)資源調(diào)度的在線決策三個(gè)步驟。飛行器探測(cè)資源調(diào)度模型的構(gòu)建是在考慮各類(lèi)調(diào)度影響因素的前提下,將飛行器探測(cè)資源調(diào)度過(guò)程抽象為馬爾可夫決策過(guò)程,明確調(diào)度問(wèn)題中的要素在馬爾可夫決策模型中的具體表示;調(diào)度策略的離線訓(xùn)練是在深度強(qiáng)化學(xué)習(xí)理論的基礎(chǔ)上建立Critic與Actor網(wǎng)絡(luò),將飛行器探測(cè)調(diào)度環(huán)境與其馬爾可夫決策模型交互過(guò)程中獲取的數(shù)據(jù)作為網(wǎng)絡(luò)輸入進(jìn)行網(wǎng)絡(luò)參數(shù)的更新與策略的訓(xùn)練。本發(fā)明有效提高了探測(cè)資源調(diào)度的自主決策能力,并解決飛行器探測(cè)過(guò)程中資源分配不合理的問(wèn)題。
聲明:
“基于深度強(qiáng)化學(xué)習(xí)的飛行器探測(cè)傳感器資源調(diào)度方法” 該技術(shù)專(zhuān)利(論文)所有權(quán)利歸屬于技術(shù)(論文)所有人。僅供學(xué)習(xí)研究,如用于商業(yè)用途,請(qǐng)聯(lián)系該技術(shù)所有人。
我是此專(zhuān)利(論文)的發(fā)明人(作者)