一種方法(500)包括,獲得訓練樣本(102)的集合。在多個訓練迭代的每個訓練迭代期間,該方法包括,從訓練樣本的集合中采樣訓練樣本的批次。該方法包括,對于每個訓練樣本,使用數(shù)據(jù)值估計器(120)來確定選擇概率(106)。訓練樣本的選擇概率是基于數(shù)據(jù)值估計器的估計器參數(shù)值(122)。該方法還包括,基于每個訓練樣本的選擇概率從訓練樣本的批次中選擇訓練樣本的子集,以及使用具有訓練樣本的子集的預測器模型(142)來確定性能測量(144)。該方法還包括,基于性能測量來調(diào)整預測器模型的模型參數(shù)值(143),以及基于性能測量來更新數(shù)據(jù)值估計器的估計器參數(shù)值。
聲明:
“使用強化學習的數(shù)據(jù)評估” 該技術專利(論文)所有權利歸屬于技術(論文)所有人。僅供學習研究,如用于商業(yè)用途,請聯(lián)系該技術所有人。
我是此專利(論文)的發(fā)明人(作者)