本發(fā)明公開了一種基于圖像隱變量概率模型的分布式強(qiáng)化學(xué)習(xí)社交導(dǎo)航方法。本發(fā)明通過引入圖像隱變量概率預(yù)測模型替代傳統(tǒng)的決定性預(yù)測模型,一方面增強(qiáng)模型的合理性,使得預(yù)測更逼近于存在隨機(jī)性的行人運(yùn)動模型,另一方面通過增強(qiáng)模型的探索能力來進(jìn)一步加強(qiáng)策略性能,避免過擬合。同時,本發(fā)明通過圖像序列解耦移動機(jī)器人自身運(yùn)動來實(shí)現(xiàn)動態(tài)障礙物的判別,省去了存在不穩(wěn)定性的高層行人檢測模塊,可以實(shí)現(xiàn)效果良好的遷移。另外,本發(fā)明設(shè)計(jì)了策略共享的多智能體仿真環(huán)境來模擬行人動態(tài)環(huán)境,增強(qiáng)仿真與真實(shí)人群交互的相似程度。環(huán)境中多智能體同步進(jìn)行數(shù)據(jù)采集,因此訓(xùn)練時間可以得到進(jìn)一步縮減。
聲明:
“基于圖像隱變量概率模型的分布式強(qiáng)化學(xué)習(xí)社交導(dǎo)航方法” 該技術(shù)專利(論文)所有權(quán)利歸屬于技術(shù)(論文)所有人。僅供學(xué)習(xí)研究,如用于商業(yè)用途,請聯(lián)系該技術(shù)所有人。
我是此專利(論文)的發(fā)明人(作者)