在傳統(tǒng)的策略搜索強化學習方法中,為了快速得到有效的策略,策略模型一般都是為特定任務專門設定的低維空間策略模型,而這種策略模型在實際應用表現(xiàn)力十分有限,泛化能力差,很難適應其他的任務。根據(jù)以上問題,本發(fā)明提出一種具有自適應能力的高效強化學習策略模型,所提出的策略模型以感知狀態(tài)的低維表示及智能體對自身行動所引發(fā)的環(huán)境變化的預測作為策略的輸入。這種策略所建立的策略模型具有較高的泛化能力,即使任務發(fā)生了細微變化,智能體仍然能夠根據(jù)自身對未來的預測進行自適應地調(diào)整策略,從而得到泛化能力強的高效策略。
聲明:
“具有自適應能力的高效強化學習策略模型” 該技術(shù)專利(論文)所有權(quán)利歸屬于技術(shù)(論文)所有人。僅供學習研究,如用于商業(yè)用途,請聯(lián)系該技術(shù)所有人。
我是此專利(論文)的發(fā)明人(作者)