一種實現(xiàn)并行任務(wù)調(diào)度的多任務(wù)強化學習方法,基于異步優(yōu)勢表演者批評家算法實現(xiàn),包括下列操作步驟:(1)對算法模型進行設(shè)置操作以更好的解決并行多任務(wù)調(diào)度問題,包括設(shè)置狀態(tài)空間、設(shè)置動作空間、設(shè)置獎勵定義;(2)對算法網(wǎng)絡(luò)進行如下改進:用深度神經(jīng)網(wǎng)絡(luò)來表示策略函數(shù)和值函數(shù);全局網(wǎng)絡(luò)由輸入層、共享子網(wǎng)絡(luò)和輸出子網(wǎng)絡(luò)構(gòu)成;(3)設(shè)置算法的新?lián)p失函數(shù);(4)利用采集觀測的并行任務(wù)調(diào)度數(shù)據(jù),訓練算法網(wǎng)絡(luò),算法收斂后,將所述算法網(wǎng)絡(luò)用于并行任務(wù)調(diào)度。
聲明:
“實現(xiàn)并行任務(wù)調(diào)度的多任務(wù)強化學習方法” 該技術(shù)專利(論文)所有權(quán)利歸屬于技術(shù)(論文)所有人。僅供學習研究,如用于商業(yè)用途,請聯(lián)系該技術(shù)所有人。
我是此專利(論文)的發(fā)明人(作者)