本發(fā)明公開了一種基于強化學(xué)習(xí)的廢舊手機目標拆解序列優(yōu)化方法,首先分析待拆解手機零件之間的約束關(guān)系,建立四元組混合圖,在此基礎(chǔ)上搭建手機目標拆解的環(huán)境,確定當前的手機拆解狀態(tài)以及后續(xù)可行的拆解動作,然后將廢舊手機目標拆解序列問題用馬爾科夫決策過程形式化,在此基礎(chǔ)上對獎懲函數(shù)賦值并建立狀態(tài)?動作?獎勵值矩陣,利用狀態(tài)?動作?獎勵值矩陣對Q?learning算法中的Q函數(shù)進行訓(xùn)練,最終利用訓(xùn)練后的Q函數(shù)和形式化后的拆解目標函數(shù)進行搜尋,得到拆解至目標零件的最優(yōu)拆解序列。本發(fā)明以四元組混合圖為基礎(chǔ)搭建了更容易編譯的強化學(xué)習(xí)環(huán)境,并且將無模型的強化學(xué)習(xí)算法用于廢舊手機目標拆解序列問題,降低了模型構(gòu)建的困難。
聲明:
“基于強化學(xué)習(xí)的廢舊手機目標拆解序列優(yōu)化方法” 該技術(shù)專利(論文)所有權(quán)利歸屬于技術(shù)(論文)所有人。僅供學(xué)習(xí)研究,如用于商業(yè)用途,請聯(lián)系該技術(shù)所有人。
我是此專利(論文)的發(fā)明人(作者)