本發(fā)明公開(kāi)了一種基于強(qiáng)化學(xué)習(xí)的神經(jīng)網(wǎng)絡(luò)自適應(yīng)分布式并行訓(xùn)練方法,為大規(guī)模復(fù)雜神經(jīng)網(wǎng)絡(luò)的切分和調(diào)度提供最優(yōu)化解決方案。本發(fā)明首先分析神經(jīng)網(wǎng)絡(luò)模型結(jié)構(gòu)和計(jì)算屬性對(duì)執(zhí)行性能的影響,在此基礎(chǔ)上提取包括計(jì)算代價(jià)、通信代價(jià)和內(nèi)存使用率等性能因子,構(gòu)建能夠全面體現(xiàn)分布式訓(xùn)練性能的多維性能評(píng)價(jià)模型,提高并行策略綜合性能;其次利用前饋網(wǎng)絡(luò)根據(jù)算子屬性特征實(shí)現(xiàn)算子自適應(yīng)分組,確定并行度,減小搜索空間的同時(shí)實(shí)現(xiàn)了端到端的策略搜索;最后基于重要性采樣,采用近端策略梯度迭代優(yōu)化強(qiáng)化學(xué)習(xí)模型,搜索最優(yōu)切分和調(diào)度策略,擴(kuò)展策略網(wǎng)絡(luò)離線學(xué)習(xí)能力,提高算法平穩(wěn)性、收斂速率以及策略搜索性能。
聲明:
“基于強(qiáng)化學(xué)習(xí)的神經(jīng)網(wǎng)絡(luò)自適應(yīng)分布式并行訓(xùn)練方法” 該技術(shù)專利(論文)所有權(quán)利歸屬于技術(shù)(論文)所有人。僅供學(xué)習(xí)研究,如用于商業(yè)用途,請(qǐng)聯(lián)系該技術(shù)所有人。
我是此專利(論文)的發(fā)明人(作者)