一種對抗場景下的對手模型構建方法及存儲介質,該方法包括將整體環(huán)境模型區(qū)分為對手智能體狀態(tài)表示模型和對手智能體狀態(tài)轉移模型:其中對手智能體狀態(tài)表示模型利用編碼器構造,將高維空間中的訓練數據映射到低維空間,保持原始數據網絡結構的低維節(jié)點的抽象壓縮表示,使得較大相似度的節(jié)點具有類似的向量表示;對手智能體狀態(tài)預測模型采用解碼器結合深度強化學習網絡構造,在低維潛在空間生成未來狀態(tài)的預測表示;利用對手智能體狀態(tài)類數據和動作類數據對模型進行學習訓練,當達到訓練目標或者收斂后,利用變分自編碼器的生成模塊,在隱空間對下一時刻狀態(tài)預測并輸出。
聲明:
“對抗場景下的對手模型構建方法及存儲介質” 該技術專利(論文)所有權利歸屬于技術(論文)所有人。僅供學習研究,如用于商業(yè)用途,請聯(lián)系該技術所有人。
我是此專利(論文)的發(fā)明人(作者)