本發(fā)明公開了一種資源高效與服務(wù)質(zhì)量感知的推理服務(wù)系統(tǒng)自適應(yīng)調(diào)度方法,包括:深度學(xué)習(xí)模型自動選擇模塊利用協(xié)同過濾方法預(yù)測推理工作負(fù)載在不同深度學(xué)習(xí)模型上運(yùn)行的推理性能;深度學(xué)習(xí)模型自動選擇模塊利用貪婪算法選擇滿足用戶服務(wù)質(zhì)量需求的最優(yōu)深度學(xué)習(xí)模型,并將最優(yōu)深度學(xué)習(xí)模型部署至容器中為推理服務(wù)系統(tǒng)中的推理工作負(fù)載服務(wù);協(xié)同管理模塊利用深度強(qiáng)化學(xué)習(xí)方法,根據(jù)推理工作負(fù)載的動態(tài)變化,協(xié)同地調(diào)整GPU資源分配和批量大小設(shè)置,本發(fā)明可根據(jù)用戶的需求自動地選擇深度學(xué)習(xí)模型,可根據(jù)推理工作負(fù)載的動態(tài)變化協(xié)同地調(diào)整GPU資源的分配和批量大小的設(shè)置。
聲明:
“資源高效與服務(wù)質(zhì)量感知的推理服務(wù)系統(tǒng)自適應(yīng)調(diào)度方法” 該技術(shù)專利(論文)所有權(quán)利歸屬于技術(shù)(論文)所有人。僅供學(xué)習(xí)研究,如用于商業(yè)用途,請聯(lián)系該技術(shù)所有人。
我是此專利(論文)的發(fā)明人(作者)