本發(fā)明公開了一種基于強化學習的風控模型構(gòu)建方法及裝置,屬于個人信貸風控技術(shù)領(lǐng)域。所述方法包括:接收用戶信貸請求,獲取風控決策需要的數(shù)據(jù),進行驗證;對數(shù)據(jù)進行處理,構(gòu)建狀態(tài)向量,并根據(jù)狀態(tài)向量和預定義的動作空間,結(jié)合強化學習模型,生成回報預測網(wǎng)絡(luò);計算得到動作空間中每個動作實施后的預測回報,并采用預設(shè)的搜索策略選擇期望回報最大的動作并實施;根據(jù)用戶的實際還款結(jié)果,計算動作實施后的真實回報,并根據(jù)真實回報和預測回報,以回報最大化為目標,對回報預測網(wǎng)絡(luò)的參數(shù)進行更新。本發(fā)明可使風控模型優(yōu)化目標與商業(yè)目標一致,并且能夠迅速應(yīng)對行業(yè)或者市場的變化。
聲明:
“基于強化學習的風控模型構(gòu)建方法及裝置” 該技術(shù)專利(論文)所有權(quán)利歸屬于技術(shù)(論文)所有人。僅供學習研究,如用于商業(yè)用途,請聯(lián)系該技術(shù)所有人。
我是此專利(論文)的發(fā)明人(作者)