本發(fā)明涉及目標(biāo)搜索技術(shù)領(lǐng)域,具體涉及訓(xùn)練動(dòng)作規(guī)劃模型及目標(biāo)搜索的方法,方法包括:獲取當(dāng)前測(cè)試圖像、目標(biāo)對(duì)象以及當(dāng)前步數(shù);獲取預(yù)測(cè)的邊界框以及目標(biāo)對(duì)象的邊界框;基于預(yù)測(cè)的邊界框以及目標(biāo)對(duì)象的邊界框的大小關(guān)系,確定當(dāng)前動(dòng)作規(guī)劃的獎(jiǎng)賞;將當(dāng)前測(cè)試圖像、目標(biāo)對(duì)象以及當(dāng)前步數(shù)輸入動(dòng)作規(guī)劃模型,預(yù)測(cè)出下一步動(dòng)作的概率分布及其對(duì)應(yīng)的獎(jiǎng)賞;根據(jù)當(dāng)前動(dòng)作規(guī)劃的獎(jiǎng)賞、下一步動(dòng)作的概率分布以其對(duì)應(yīng)的獎(jiǎng)賞,對(duì)策略網(wǎng)絡(luò)以及價(jià)值網(wǎng)絡(luò)的進(jìn)行強(qiáng)化學(xué)習(xí)。在預(yù)測(cè)的邊界框以及目標(biāo)對(duì)象的實(shí)際邊界框的基礎(chǔ)上,確定當(dāng)前動(dòng)作規(guī)劃的獎(jiǎng)賞;利用預(yù)測(cè)結(jié)果對(duì)策略網(wǎng)絡(luò)以及價(jià)值網(wǎng)絡(luò)進(jìn)行強(qiáng)化學(xué)習(xí),以使得策略網(wǎng)絡(luò)以及價(jià)值網(wǎng)絡(luò)達(dá)到最優(yōu),具有較高的搜索效率。
聲明:
“訓(xùn)練動(dòng)作規(guī)劃模型的方法及目標(biāo)搜索方法” 該技術(shù)專利(論文)所有權(quán)利歸屬于技術(shù)(論文)所有人。僅供學(xué)習(xí)研究,如用于商業(yè)用途,請(qǐng)聯(lián)系該技術(shù)所有人。
我是此專利(論文)的發(fā)明人(作者)