本公開提供了基于深度強(qiáng)化學(xué)習(xí)對銀行風(fēng)險(xiǎn)定價(jià)的優(yōu)化方法,對動作值函數(shù)網(wǎng)絡(luò)參數(shù)和策略網(wǎng)絡(luò)參數(shù)進(jìn)行初始化;通過現(xiàn)有初始化的網(wǎng)絡(luò)與銀行模擬環(huán)境進(jìn)行交互,完成初始化經(jīng)驗(yàn)回放;通過均勻分布在經(jīng)驗(yàn)回放池中采樣,獲取訓(xùn)練樣本;通過動作值函數(shù)網(wǎng)絡(luò)和策略網(wǎng)絡(luò)的損失函數(shù)對當(dāng)前網(wǎng)絡(luò)的參數(shù)進(jìn)行更新;經(jīng)過多輪訓(xùn)練,通過預(yù)設(shè)的更新方式,將當(dāng)前網(wǎng)絡(luò)的參數(shù)復(fù)制到目標(biāo)網(wǎng)絡(luò)中以完成對銀行風(fēng)險(xiǎn)定價(jià)的優(yōu)化操作。該方法能夠用沙盤模擬平臺的仿真銀行模擬環(huán)境,基于深度強(qiáng)化學(xué)習(xí)算法進(jìn)行模型訓(xùn)練,得到可應(yīng)用于真實(shí)銀行經(jīng)營和場景的模型,并推測出系統(tǒng)性風(fēng)險(xiǎn)約束下銀行最優(yōu)的風(fēng)險(xiǎn)定價(jià)。本公開還涉及基于深度強(qiáng)化學(xué)習(xí)對銀行風(fēng)險(xiǎn)定價(jià)的優(yōu)化裝置。
聲明:
“基于深度強(qiáng)化學(xué)習(xí)對銀行風(fēng)險(xiǎn)定價(jià)的優(yōu)化方法和裝置” 該技術(shù)專利(論文)所有權(quán)利歸屬于技術(shù)(論文)所有人。僅供學(xué)習(xí)研究,如用于商業(yè)用途,請聯(lián)系該技術(shù)所有人。
我是此專利(論文)的發(fā)明人(作者)