本發(fā)明公開了一種博弈對話中基于對話歷史和強(qiáng)化學(xué)習(xí)的多輪對話方法,屬于智能體和強(qiáng)化學(xué)習(xí)模型領(lǐng)域。該方法包括如下步驟:首先將多輪對話作為一個(gè)有限重復(fù)博弈的過程,存儲已經(jīng)結(jié)束的完整多輪對話,構(gòu)建既往對話歷史信息庫;然后在一個(gè)新的多輪對話中,基于記憶網(wǎng)絡(luò)構(gòu)建對手行動估計(jì)模型,用當(dāng)前對話已經(jīng)進(jìn)行的輪次去檢索對話歷史信息庫,通過多步估計(jì)產(chǎn)生對手下一步策略的估計(jì)向量;最后基于編碼?解碼模型融合當(dāng)前對話的信息和估計(jì)向量,做出下一步的應(yīng)答。本發(fā)明在多輪對話過程中,將既往對話歷史的估計(jì)向量和當(dāng)前對話歷史的回應(yīng)向量進(jìn)行融合,能夠更充分地利用了歷史信息,使得對話機(jī)器人(智能體)具備更高的適應(yīng)性、做出更好的應(yīng)答。
聲明:
“博弈對話中基于對話歷史和強(qiáng)化學(xué)習(xí)的多輪對話方法” 該技術(shù)專利(論文)所有權(quán)利歸屬于技術(shù)(論文)所有人。僅供學(xué)習(xí)研究,如用于商業(yè)用途,請聯(lián)系該技術(shù)所有人。
我是此專利(論文)的發(fā)明人(作者)