本發(fā)明公開了一種基于混合分層強化學習的網約車調度方法,包括以下步驟:將網約車調度過程構建為馬爾科夫過程;基于所述網約車調度過程提取時間信息、司機分布和訂單分布進行仿真處理,構建司機與訂單的時空分布矩陣;構建混合分層模型,所述混合分層學習高層決策和低層決策,為司機匹配訂單獲得調度結果;將所述調度結果進行存儲和學習,計算出所述高層決策和低層決策的獎勵,更新模型;所述混合分層模型進行測試,獲得訂單響應率和訂單收益,完成網約車調度。本發(fā)明利用分層強化學習實現了網約車調度的多層次目標學習,并使用混合模塊聯合多層決策,使得網約車能更高效的完成訂單。
聲明:
“基于混合分層強化學習的網約車調度方法” 該技術專利(論文)所有權利歸屬于技術(論文)所有人。僅供學習研究,如用于商業(yè)用途,請聯系該技術所有人。
我是此專利(論文)的發(fā)明人(作者)