本發(fā)明公開了一種基于深度強化學習的分布式阻塞流水車間調(diào)度方法及系統(tǒng),屬于分布式阻塞流水線調(diào)度領域,該方法將一個車間視為一個智能體,每個智能體包括四個深度強化學習網(wǎng)絡:Actor、Critic、targetActor和targetCritic,通過對智能體的訓練獲得Actor的最優(yōu)網(wǎng)絡參數(shù),使得Actor能夠?qū)χ悄荏w是否接收待調(diào)度新工件做出使得所有智能體內(nèi)所有工件總完成時間偏差最小的最優(yōu)決策;從而在線決策時,只需對Actor輸入智能體的當前觀測值,即可輸出使得所有智能體內(nèi)所有工件總完成時間偏差最小的最優(yōu)決策動作。本發(fā)明為基于數(shù)據(jù)驅(qū)動的科學決策,決策效率高,適用于各種加工場景,兼容性強。
聲明:
“基于深度強化學習的分布式阻塞流水車間調(diào)度方法及系統(tǒng)” 該技術專利(論文)所有權利歸屬于技術(論文)所有人。僅供學習研究,如用于商業(yè)用途,請聯(lián)系該技術所有人。
我是此專利(論文)的發(fā)明人(作者)