本說明書實(shí)施例提供一種更新業(yè)務(wù)預(yù)測模型的方法和裝置,其中業(yè)務(wù)預(yù)測模型包括通過強(qiáng)化學(xué)習(xí)實(shí)現(xiàn)的智能體。方法包括:獲取業(yè)務(wù)請求,根據(jù)業(yè)務(wù)請求確定環(huán)境的狀態(tài)特征;將狀態(tài)特征輸入智能體,智能體根據(jù)第一策略參數(shù)下的策略函數(shù),確定對應(yīng)的業(yè)務(wù)響應(yīng)作為當(dāng)前動作。然后,向環(huán)境輸出業(yè)務(wù)響應(yīng),基于環(huán)境反饋確定當(dāng)前獎勵。接著,根據(jù)狀態(tài)特征,當(dāng)前動作和當(dāng)前獎勵,以損失函數(shù)最小化為目標(biāo),確定更新后的第二策略參數(shù),其中損失函數(shù)與第一目標(biāo)項(xiàng)負(fù)相關(guān),所述第一目標(biāo)項(xiàng)包括,采用混合高斯模型GMM,將第二策略參數(shù)下的策略函數(shù)表示為K個高斯分布的組合的第一表達(dá)式;于是,可以用第二策略參數(shù)下的策略函數(shù),更新智能體。
聲明:
“更新業(yè)務(wù)預(yù)測模型的方法及裝置” 該技術(shù)專利(論文)所有權(quán)利歸屬于技術(shù)(論文)所有人。僅供學(xué)習(xí)研究,如用于商業(yè)用途,請聯(lián)系該技術(shù)所有人。
我是此專利(論文)的發(fā)明人(作者)