本申請實施例提供了一種響應(yīng)消息輸出方法、裝置、存儲介質(zhì)和電子設(shè)備,所述響應(yīng)信息輸出方法,所述方法包括:獲得當前節(jié)點的信息;將所述當前節(jié)點的信息輸入響應(yīng)節(jié)點預(yù)測模型,以確定所述當前節(jié)點對應(yīng)的目標響應(yīng)節(jié)點;輸出所述目標響應(yīng)節(jié)點的信息;其中,所述響應(yīng)節(jié)點預(yù)測模型是根據(jù)不同節(jié)點之間的轉(zhuǎn)移關(guān)系,對預(yù)設(shè)模型進行多次強化學(xué)習(xí)訓(xùn)練所得到的模型,每次強化學(xué)習(xí)訓(xùn)練的獎勵值是根據(jù)所述預(yù)設(shè)模型本次預(yù)測的響應(yīng)節(jié)點與預(yù)設(shè)期望響應(yīng)節(jié)點之間的匹配度確定的。在模型針對每次輸入而得到的輸出結(jié)果的基礎(chǔ)上,對模型施加即時獎懲,以使模型根據(jù)獲得的即時獎懲進行迭代更新,從而提高強化學(xué)習(xí)的效率。
聲明:
“響應(yīng)信息輸出方法、裝置、電子設(shè)備及可讀存儲介質(zhì)” 該技術(shù)專利(論文)所有權(quán)利歸屬于技術(shù)(論文)所有人。僅供學(xué)習(xí)研究,如用于商業(yè)用途,請聯(lián)系該技術(shù)所有人。
我是此專利(論文)的發(fā)明人(作者)