本發(fā)明公開了一種基于隨機(jī)微分方程的連續(xù)性強(qiáng)化學(xué)習(xí)模型構(gòu)造系統(tǒng)及方法,包括動(dòng)作微分構(gòu)造模塊、環(huán)境狀態(tài)微分構(gòu)造模塊、基礎(chǔ)模型存在性檢驗(yàn)?zāi)K、基礎(chǔ)模型構(gòu)造模塊、值估計(jì)器構(gòu)造模塊、環(huán)境狀態(tài)估計(jì)器構(gòu)造模塊和動(dòng)作策略生成器構(gòu)造模塊;值估計(jì)器構(gòu)造模塊包含值估計(jì)器優(yōu)化函數(shù)構(gòu)造模塊、Q函數(shù)更新模塊和未來獎(jiǎng)勵(lì)估計(jì)模塊;環(huán)境狀態(tài)估計(jì)器構(gòu)造模塊包含環(huán)境狀態(tài)估計(jì)器優(yōu)化函數(shù)構(gòu)造模塊、環(huán)境狀態(tài)估計(jì)器優(yōu)化器附加目標(biāo)函數(shù)構(gòu)造模塊、未來環(huán)境狀態(tài)預(yù)測(cè)模塊和環(huán)境狀態(tài)參數(shù)計(jì)算模塊。應(yīng)用本發(fā)明所構(gòu)造得到的強(qiáng)化學(xué)習(xí)模型,能夠?qū)崿F(xiàn)對(duì)動(dòng)作增量的計(jì)算,保證動(dòng)作的連續(xù)性,并能夠適用于連續(xù)物理系統(tǒng)的實(shí)際控制。
聲明:
“基于隨機(jī)微分方程的連續(xù)性強(qiáng)化學(xué)習(xí)模型構(gòu)造系統(tǒng)及方法” 該技術(shù)專利(論文)所有權(quán)利歸屬于技術(shù)(論文)所有人。僅供學(xué)習(xí)研究,如用于商業(yè)用途,請(qǐng)聯(lián)系該技術(shù)所有人。
我是此專利(論文)的發(fā)明人(作者)