本發(fā)明公開了一種基于群體博弈的多智能體交互方法及系統(tǒng),所述方法包括:初始化智能體強(qiáng)化學(xué)習(xí)所需的預(yù)設(shè)參數(shù),初始化智能體的Q表,并初始化學(xué)習(xí)周期;獲取常微分方程的求解閾值,并將常微分方程的求解閾值進(jìn)行衰減處理;初始化系統(tǒng)狀態(tài),采用貪婪策略選取智能體的聯(lián)合動作;每個智能體執(zhí)行所選取的動作,并接收觀測樣本和獎勵;構(gòu)建基于智能體的Q表的群體博弈,利用基于繼承的BNN群體博弈動態(tài)算法求解近似均衡策略;智能體基于得到的期望獎勵更新Q表。本發(fā)明不需要精確求解每個階段博弈的均衡策略,以相對較低的計算復(fù)雜度求得近似均衡,通過設(shè)計常微分方程求解加速機(jī)制,實(shí)現(xiàn)均衡復(fù)雜度和均衡精度的最優(yōu)權(quán)衡,以及多智能體系統(tǒng)的最優(yōu)性能。
聲明:
“基于群體博弈的多智能體交互方法及系統(tǒng)” 該技術(shù)專利(論文)所有權(quán)利歸屬于技術(shù)(論文)所有人。僅供學(xué)習(xí)研究,如用于商業(yè)用途,請聯(lián)系該技術(shù)所有人。
我是此專利(論文)的發(fā)明人(作者)