本公開提供了一種基于強(qiáng)化學(xué)習(xí)的測試數(shù)據(jù)生成方法,可以應(yīng)用于人工智能技術(shù)領(lǐng)域。該方法包括:根據(jù)預(yù)設(shè)數(shù)據(jù)規(guī)則生成輸入數(shù)據(jù),所述預(yù)設(shè)數(shù)據(jù)規(guī)則為銀行金融系統(tǒng)數(shù)據(jù)規(guī)則;將所述輸入數(shù)據(jù)輸入預(yù)設(shè)強(qiáng)化學(xué)習(xí)模型進(jìn)行訓(xùn)練直至測試覆蓋率達(dá)到預(yù)設(shè)閾值;確定測試覆蓋率達(dá)到預(yù)設(shè)閾值時(shí)的最大Q值,所述Q值為預(yù)設(shè)強(qiáng)化學(xué)習(xí)模型的狀態(tài)動(dòng)作網(wǎng)絡(luò)參數(shù),所述狀態(tài)動(dòng)作網(wǎng)絡(luò)參數(shù)用于表征按照指定策略執(zhí)行目標(biāo)操作后得到的獎(jiǎng)懲值之和;輸出所述最大Q值對(duì)應(yīng)的目標(biāo)操作鏈;以及根據(jù)所述目標(biāo)操作鏈確定目標(biāo)測試數(shù)據(jù)。本公開還提供了一種基于強(qiáng)化學(xué)習(xí)的測試數(shù)據(jù)生成裝置、設(shè)備、存儲(chǔ)介質(zhì)和程序產(chǎn)品。
聲明:
“基于強(qiáng)化學(xué)習(xí)的測試數(shù)據(jù)生成方法及裝置” 該技術(shù)專利(論文)所有權(quán)利歸屬于技術(shù)(論文)所有人。僅供學(xué)習(xí)研究,如用于商業(yè)用途,請聯(lián)系該技術(shù)所有人。
我是此專利(論文)的發(fā)明人(作者)