本發(fā)明公開了一種用強化學習算法對酒店客房進行收益管理的方法,包括狀態(tài)、智能體、動作和回報;一個所述智能體每次從環(huán)境中獲取一個狀態(tài)數(shù)據(jù),作為它對當前環(huán)境狀態(tài)的認知,以及一組可執(zhí)行的動作,所述智能體根據(jù)狀態(tài)從一組動作中采取一個動作進行執(zhí)行,執(zhí)行之后所述環(huán)境返回一個回報;所述狀態(tài)指收益管理系統(tǒng)能夠獲取到的各種酒店運營數(shù)據(jù);所述動作指客房的定價和超售量。本發(fā)明采用強化學習算法訓練模型替代了傳統(tǒng)收益管理系統(tǒng)中手工編制的數(shù)學模型,降低軟件成本,提高預測準確度的效果,利用歷史數(shù)據(jù)和在線數(shù)據(jù)訓練模型,使其達到某種優(yōu)化目標,相比傳統(tǒng)方法的人工建模無需高深的領(lǐng)域知識,并對各種情況有著更廣泛的適應性。
聲明:
“用強化學習算法對酒店客房進行收益管理的方法” 該技術(shù)專利(論文)所有權(quán)利歸屬于技術(shù)(論文)所有人。僅供學習研究,如用于商業(yè)用途,請聯(lián)系該技術(shù)所有人。
我是此專利(論文)的發(fā)明人(作者)