本申請公開了一種視頻數(shù)據(jù)處理方法、裝置、電子設(shè)備和計算機可讀介質(zhì)。該方法包括:基于預(yù)設(shè)的獎勵預(yù)測模型,對視頻數(shù)據(jù)中,執(zhí)行主體執(zhí)行目標任務(wù)時的任務(wù)環(huán)境進行特征提取,生成任務(wù)環(huán)境的分布激勵;基于預(yù)設(shè)的強化學習模型,根據(jù)任務(wù)環(huán)境,生成任務(wù)指令,根據(jù)任務(wù)指令指導(dǎo)執(zhí)行主體執(zhí)行目標任務(wù),得到任務(wù)結(jié)果;基于預(yù)設(shè)的獎勵評估函數(shù),對任務(wù)結(jié)果進行評估,生成任務(wù)激勵,并根據(jù)任務(wù)激勵,對獎勵預(yù)測模型的參數(shù)進行調(diào)整;根據(jù)分布激勵,對強化學習模型的參數(shù)進行調(diào)整。籍此,通過強化學習模型生成的任務(wù)激勵對獎勵預(yù)測模型的參數(shù)進行調(diào)整,優(yōu)化獎勵預(yù)測模型;通過獎勵預(yù)測模型生成的分布激勵對強化學習模型的參數(shù)進行調(diào)整,優(yōu)化強化學習模型。
聲明:
“視頻數(shù)據(jù)處理方法、裝置、電子設(shè)備和計算機可讀介質(zhì)” 該技術(shù)專利(論文)所有權(quán)利歸屬于技術(shù)(論文)所有人。僅供學習研究,如用于商業(yè)用途,請聯(lián)系該技術(shù)所有人。
我是此專利(論文)的發(fā)明人(作者)