馬麗新,劉 晨,劉 磊
(河海大學(xué) 理學(xué)院,南京211100)
多自主體系統(tǒng)的分布式協(xié)同控制廣泛存在于自然界中,如魚(yú)群、蜂群、鳥(niǎo)群等,近年來(lái),在生物系統(tǒng)、傳感器網(wǎng)絡(luò)、無(wú)人機(jī)編隊(duì)、機(jī)器人團(tuán)隊(duì)、水下機(jī)器人[1-4]等領(lǐng)域被大范圍應(yīng)用.一致性是多自主體系統(tǒng)分布式協(xié)同控制的基本問(wèn)題之一,即多自主體在某種適當(dāng)?shù)膮f(xié)議下收斂到一個(gè)共同的狀態(tài).2002年,系統(tǒng)與控制領(lǐng)域的學(xué)者Fax 和Murray 首次運(yùn)用控制理論的觀點(diǎn)證明,通過(guò)對(duì)每個(gè)智能體設(shè)計(jì)僅僅依賴(lài)個(gè)體間局部信息交互的分布式控制協(xié)議,就能驅(qū)動(dòng)整個(gè)多智能體系統(tǒng)完成狀態(tài)一致的控制目標(biāo),并推導(dǎo)出一致性條件[5].后又有眾多學(xué)者針對(duì)多自主體系統(tǒng)的一致性展開(kāi)了研究[6-9].
由于分?jǐn)?shù)階微積分是整數(shù)階微積分的推廣,而且近年來(lái)越來(lái)越多的研究表明:眾多實(shí)際系統(tǒng)運(yùn)用分?jǐn)?shù)階模型才能反映出其更好的性質(zhì)(黏彈性、記憶與遺傳特性等).所以,分?jǐn)?shù)階系統(tǒng)的相關(guān)研究引起國(guó)內(nèi)外學(xué)者的廣泛關(guān)注.隨著分?jǐn)?shù)階系統(tǒng)逐漸被重視,節(jié)點(diǎn)帶有分?jǐn)?shù)階動(dòng)力學(xué)網(wǎng)絡(luò)系統(tǒng)的一致性逐漸成為當(dāng)下的熱點(diǎn)問(wèn)題之一,可參考文獻(xiàn)[10-12].
隨著網(wǎng)絡(luò)技術(shù)的發(fā)展,考慮到通信帶寬、資源利用率等問(wèn)題,Astrom 等在文獻(xiàn)[13]中提出事件觸發(fā)控制技術(shù)以減少信息傳遞與調(diào)整控制器的次數(shù).2009年,Dimarogonas 等[14]將事件觸發(fā)機(jī)制引入到了多智能體系統(tǒng).2014年,Xu 等[15]提出事件觸發(fā)控制策略來(lái)研究分?jǐn)?shù)階多自主體系統(tǒng)的一致性問(wèn)題.2017年,Wang 等[16]研究了基于指數(shù)型事件觸發(fā)策略下的非線性分?jǐn)?shù)階多自主體系統(tǒng)的主-從一致性.此外,間歇控制策略因具有減少控制器持續(xù)運(yùn)作時(shí)間的功能,對(duì)于解決實(shí)際工程上控制器設(shè)備限制等問(wèn)題上有一定優(yōu)勢(shì),近年來(lái)被越來(lái)越多的學(xué)者應(yīng)用到分?jǐn)?shù)階多自主體系統(tǒng)的一致性控制問(wèn)題上[17-19].為發(fā)揮這兩種控制策略的優(yōu)勢(shì),部分學(xué)者將兩者有機(jī)整合,提出基于間歇策略的事件觸發(fā)機(jī)制[20-22].
2005年,Ren 等[23]提出了一個(gè)開(kāi)放性問(wèn)題:如何設(shè)計(jì)一個(gè)分布式協(xié)議,在使得多智能體系統(tǒng)達(dá)到一致性的前提下,又能夠優(yōu)化某些性能指標(biāo).針對(duì)整數(shù)階多自主體系統(tǒng),Zhang 等[24]基于強(qiáng)化學(xué)習(xí)方法研究了離散時(shí)間多自主體系統(tǒng)的最優(yōu)一致性控制問(wèn)題.Zhao 等[25]利用自適應(yīng)動(dòng)態(tài)規(guī)劃技術(shù),提出了一種具有擾動(dòng)的未知非線性多智能體系統(tǒng)的事件觸發(fā)一致性跟蹤控制策略.Dong 等[26]研究了帶有控制約束的連續(xù)時(shí)間系統(tǒng)的事件觸發(fā)自適應(yīng)動(dòng)態(tài)規(guī)劃方法.劉晨等[27]研究了基于事件觸發(fā)策略的多自主體系統(tǒng)的最優(yōu)主-從一致性.
相對(duì)整數(shù)階,分?jǐn)?shù)階微積分的分析工具不夠完善,HJB 方程求解困難,其最優(yōu)一致性尚未被充分研究.因此,本文的主要目的就是進(jìn)一步填補(bǔ)空白,采用強(qiáng)化學(xué)習(xí)中的actor-critic 算法研究分?jǐn)?shù)階多自主體系統(tǒng)的最優(yōu)主-從一致性,設(shè)計(jì)基于周期間歇事件觸發(fā)策略的強(qiáng)化學(xué)習(xí)算法結(jié)構(gòu).
分?jǐn)?shù)階微分有多種定義方式,常用的是Riemann-Liouville 型(簡(jiǎn)稱(chēng)R-L 型)分?jǐn)?shù)階微分、Caputo 型分?jǐn)?shù)階微分以及Grünwald-Letnikov 型分?jǐn)?shù)階微分等.R-L 型分?jǐn)?shù)階微分在數(shù)學(xué)上有很好的性質(zhì),但相比而言,Caputo 型分?jǐn)?shù)階微分的初值物理意義明確,很早就得到了廣泛的應(yīng)用[28].本文中分?jǐn)?shù)階多自主體系統(tǒng)的動(dòng)力模型均由Caputo 型分?jǐn)?shù)階微分描述.下面介紹Caputo 型分?jǐn)?shù)階微分的定義、一階逼近以及基本性質(zhì).
定義1[28]Caputo 型分?jǐn)?shù)階微分算子定義:
其中 α >0,n=[α]+1.
根據(jù)文獻(xiàn)[29-31],當(dāng)0 <α<1,函數(shù)x(t)∈C2[t0,tf]時(shí),可得到Caputo 型微分算子的一階展開(kāi)式逼近:
其中
定義2[28]f(t),g(t)∈C1[a,b],α>0,β>0,則
考慮帶有領(lǐng)導(dǎo)者的分?jǐn)?shù)階多自主體系統(tǒng):
其中階數(shù) 0 <α<1,x0(t)=(x01(t),x02(t),···,x0n(t))T∈Rn表示領(lǐng)導(dǎo)者的狀態(tài),xi(t)=(xi1(t),xi2(t),···,xin(t))T∈Rn表示第i個(gè)自主體的狀態(tài),ui(t) 表示第i個(gè)自主體的控制輸入,f:R×Rn→Rn是連續(xù)可微的向量函數(shù).
定義3若對(duì)任意的初始狀態(tài)xi(t0),可找到ui(t)使得 l imt→∞‖xi(t)?x0(t)‖=0,則稱(chēng)該分?jǐn)?shù)階多自主體系統(tǒng)(2)可達(dá)到主-從一致,對(duì)?i=1,2,3,···,N.
定義第i個(gè)追隨者與領(lǐng)導(dǎo)者之間的狀態(tài)誤差如下:
將領(lǐng)導(dǎo)者和各追隨者均看作節(jié)點(diǎn),得到節(jié)點(diǎn)集v={0,1,2,···,N}.對(duì)稱(chēng)矩陣A=(aij)N×N,aij≥0表示各追隨者間的通訊情況,aij>0表示i節(jié)點(diǎn)與j節(jié)點(diǎn)有通訊,反之,i,j節(jié) 點(diǎn)間無(wú)信息流通.進(jìn)而用Ni={j∈v|aij≠0}來(lái)表示節(jié)點(diǎn)i的相鄰節(jié)點(diǎn)集合.對(duì)角矩陣B=(bi)N×N表示領(lǐng)導(dǎo)者(0 節(jié)點(diǎn))與各追隨者間的通訊情況,bi>0代表0節(jié)點(diǎn)與i節(jié)點(diǎn)有交流,反之沒(méi)有.
則全局狀態(tài)誤差可表示為
其中 ?為Kronecker 乘積符)號(hào),x(t)=(xT1,xT2,···,xTN)T∈RnN表示全局狀態(tài)向量,x~0(t)=(xT0,xT0,···,xT0)T∈RnN.定義度矩陣則Laplace 矩陣L=D?A.
注1因?yàn)镠為正定陣,所以δ(t)→0 等價(jià)于x(t)→(t),即xi(t)→x0(t),i=1,2,···,N,代表系統(tǒng)達(dá)到主-從一致.
針對(duì)分?jǐn)?shù)階多自主體系統(tǒng)(2),本文不僅考慮如何讓系統(tǒng)達(dá)到主-從一致,還考慮在系統(tǒng)達(dá)到主-從一致的過(guò)程中的能量消耗,因此引入性能指標(biāo)的概念.
定義第i個(gè)自主體的性能指標(biāo)為
其中P(δi)=δTi(t)Qiδi(t)是過(guò)程代價(jià),與一致性性能相關(guān),度量了系統(tǒng)在達(dá)到一致性過(guò)程中的一致偏差,代表的是“運(yùn)動(dòng)能量”;W(ui,uj)=uTi(t)Riui(t)+是控制代價(jià),代表的是“控制能量”,Qi≥0,Ri>0,Rj>0.
本文的目的是對(duì)于每個(gè)自主體i,找到合適的控制器ui(t),uj(t),使得系統(tǒng)(2)在達(dá)到主-從一致的同時(shí)性能指標(biāo)最?。?/p>
由式(6)得自主體i的Lyapunov 方程為
另外,由Caputo 型微分算子一階逼近式(1)和系統(tǒng)動(dòng)力模型(2)得
其中
與ui無(wú)關(guān).
則方程(7)等價(jià)于
根據(jù)Bellman 最優(yōu)性原理可得第i個(gè)自主體的最優(yōu)控制為
對(duì)于分?jǐn)?shù)階多自主體系統(tǒng)(2),設(shè)計(jì)周期間歇反饋控制器:
其中0 ≤ρ ≤1為休息率,相對(duì)地,1?ρ為工作率,T為控制周期,k=0,1,2,3,···.
在周期間歇的基礎(chǔ)上考慮集中式事件觸發(fā)策略.設(shè)第k個(gè)周期內(nèi)的觸發(fā)時(shí)刻集合為{tk1,t2k,t3k,···,tkm,···},則整個(gè)過(guò)程的事件觸發(fā)時(shí)刻序列可表示為{t10,t20,t30,···,tm0,···,t1k,tk2,t3k,···,tmk,···}.若在第k個(gè)周期 [kT,(k+1)T)上已知tmk,則下一觸發(fā)時(shí)刻tmk+1由下式給出:
其中e(t)=(eT1(t),eT2(t),···,eTN(t))T為全局狀態(tài)測(cè)量誤差,ei(t)=δi(tkm)?δi(t)表示第i個(gè)自主體狀態(tài)測(cè)量誤差.
考慮到周期間歇事件觸發(fā)策略,自主體i的誤差動(dòng)力學(xué)可寫(xiě)為如下分段形式:
其中ui(tmk)表示(tmk,tmk+1)區(qū)間內(nèi)i自主體的控制輸入.
注2式(13)中事件觸發(fā)條件g(e(t),δ(t),θ,t)可根據(jù)具體一致性種類(lèi)和控制策略來(lái)設(shè)計(jì).針對(duì)分?jǐn)?shù)階多自主體系統(tǒng)的事件觸發(fā)條件大致可分為三類(lèi):依賴(lài)于狀態(tài)[26]、依賴(lài)于指數(shù)函數(shù)[16]、依賴(lài)于狀態(tài)和指數(shù)函數(shù)的混合[20].
注3周期間歇事件觸發(fā)策略?xún)H在工作區(qū)間[kT,(k+1?ρ)T],k∈N 內(nèi)采用事件觸發(fā)策略,在其他時(shí)間段不對(duì)系統(tǒng)施加控制.當(dāng)ρ=0 時(shí),此策略退化為事件觸發(fā)控制策略;當(dāng)ρ=1時(shí),此策略退化為事件觸發(fā)脈沖控制策略.
Actor-critic 算法是強(qiáng)化學(xué)習(xí)中的一種算法,簡(jiǎn)要原理是actor 來(lái)做動(dòng)作,critic 對(duì)actor 做出的動(dòng)作給予評(píng)價(jià).評(píng)價(jià)分為獎(jiǎng)勵(lì)、懲罰兩種.actor 通過(guò)得到的評(píng)價(jià)不斷調(diào)整自己的動(dòng)作以得到更多的獎(jiǎng)勵(lì).下面用critic 網(wǎng)絡(luò)擬合性能指標(biāo)函數(shù),actor 網(wǎng)絡(luò)擬合控制器ui(t).算法整體框架詳見(jiàn)文后附錄.
根據(jù)式(5),確定critic 網(wǎng)絡(luò)的輸入Zci(t)必須包含的信息由actor 網(wǎng)絡(luò)生成).對(duì)于第i個(gè)自主體,網(wǎng)絡(luò)擬合的性能指標(biāo)為
其中Yci(t)表示輸入層到隱含層的權(quán)重,Wci(t)表示隱含層到輸出層的權(quán)重,ψc(·)為激活函數(shù).
由式(7)可得
進(jìn)而
因?yàn)榫W(wǎng)絡(luò)擬合存在重構(gòu)誤差,所以定義critic 網(wǎng)絡(luò)的誤差函數(shù):
Critic 網(wǎng)絡(luò)訓(xùn)練的目的為:選擇合適的Yci(t),Wci(t) 使得Eci(t)=盡量小.
當(dāng)達(dá)到周期間歇事件觸發(fā)閾值時(shí),使用梯度下降法對(duì)網(wǎng)絡(luò)權(quán)重進(jìn)行更新,否則權(quán)重不更新,具體更新方式如下:
其中 βci為學(xué)習(xí)率.
與critic 網(wǎng)絡(luò)類(lèi)似,actor 網(wǎng)絡(luò)同樣采用三層的網(wǎng)絡(luò)結(jié)構(gòu).對(duì)于第i個(gè)自主體,以 δi(t)作為actor 網(wǎng)絡(luò)的輸入,得到網(wǎng)絡(luò)擬合的控制器為
其中Yai(t)表示輸入層到隱含層的權(quán)重,Wai(t)表示隱含層到輸出層的權(quán)重,ψa(·)為激活函數(shù).
無(wú)論是critic 網(wǎng)絡(luò)還是actor 網(wǎng)絡(luò),最終目標(biāo)是找到合適的控制器(t)使得系統(tǒng)達(dá)到主-從一致時(shí)性能指標(biāo)最 小(理想目標(biāo)是Uc=0),所以定義actor 網(wǎng)絡(luò)的誤差函數(shù)為
Actor 網(wǎng)絡(luò)訓(xùn)練的目的為:選擇合適的Yai(t),Wai(t)使得Eai(t)=(t)盡量小.
Actor 網(wǎng)絡(luò)的權(quán)值更新方法與critic 網(wǎng)絡(luò)類(lèi)似,具體公式如下:
其中 βai為學(xué)習(xí)率.
注4本文將分?jǐn)?shù)階微分的一階導(dǎo)近似展開(kāi)式(1)和文獻(xiàn)[27]中整數(shù)階多自主體系統(tǒng)的事件觸發(fā)自適應(yīng)動(dòng)態(tài)規(guī)劃算法有機(jī)整合,進(jìn)一步考慮了間歇策略,針對(duì)分?jǐn)?shù)階多自主體系統(tǒng)的最優(yōu)主-從一致性,設(shè)計(jì)了基于周期間歇事件觸發(fā)的強(qiáng)化學(xué)習(xí)算法.
例1考慮帶有1 個(gè)領(lǐng)導(dǎo)者,3 個(gè)追隨者的分?jǐn)?shù)階多自主體系統(tǒng),網(wǎng)絡(luò)拓?fù)鋱D如圖1.
圖1 多自主體系統(tǒng)網(wǎng)絡(luò)拓?fù)鋱D(1 個(gè)領(lǐng)導(dǎo)者,3 個(gè)追隨者)Fig.1 The net topology of the multi-agent system (1 leader,3 followers)
選取 α=0.95,A=[0 1 0;1 0 1;0 1 0],B=[1 0 0;0 0 0;0 0 0]f(xi)=?2sin(xi)+tanh(xi),i=0,1,2,3,初始狀態(tài)x0(0)=5,x1(0)=?3,x2(0)=?1,x3(0)=2.8,時(shí)間步長(zhǎng)h=0.001 s.若無(wú)任何控制器作用,各自主體的軌跡如圖2.
圖2 無(wú)控制器作用時(shí),各自主體的狀態(tài)軌跡(1 個(gè)領(lǐng)導(dǎo)者,3 個(gè)追隨者)Fig.2 State trajectories of each agent without controllers (1 leader,3 followers)
設(shè)置基于周期間歇的事件觸發(fā)策略:T=3.5 s,ρ≈0.143,g(t)=e(t)?θδ(t),取 θ=0.06,權(quán)值矩陣的初值在區(qū)間[-0.025,0.025]中隨機(jī)選取,并歸一化處理,其他網(wǎng)絡(luò)參數(shù)設(shè)置如表1.
表1 網(wǎng)絡(luò)參數(shù)設(shè)置Table 1 Values of networks’ parameters
在該策略控制作用下的數(shù)值仿真結(jié)果如圖3~5 所示.圖3為各自主體的狀態(tài)軌跡圖,表示系統(tǒng)約在10 s 達(dá)到主-從一致的狀態(tài).圖4為全局狀態(tài)測(cè)量誤差 ||e(t)||及事件觸發(fā)閾值的變化曲線,可看出在接近9 s的時(shí)候||e(t)||便趨于0.圖5為基于周期間歇的事件觸發(fā)時(shí)刻圖,描述了在0~18 s 中事件觸發(fā)時(shí)刻的具體分布:0~3 s,3.5~6.5 s,7~10 s,10.5~13.5 s,14~17 s,17.5~18 s為控制器工作時(shí)間;3~3.5 s,6.5~7 s,10~10.5 s,13.5~14 s,17~17.5 s為控制器休息時(shí)間.
圖3 各自主體的狀態(tài)軌跡(1 個(gè)領(lǐng)導(dǎo)者,3 個(gè)追隨者)Fig.3 State trajectories of each agent (1 leader,3 followers)
圖4 ‖e(t)‖及觸發(fā)閾值變化曲線(1 個(gè)領(lǐng)導(dǎo)者,3 個(gè)追隨者)Fig.4 The error and the trigger threshold (1 leader,3 followers)
圖5 周期間歇事件觸發(fā)時(shí)刻分布Fig.5 The event-trigger moment distribution of periodic intermittence
注5本文將間歇的事件觸發(fā)機(jī)制有機(jī)整合起來(lái),研究了分?jǐn)?shù)階多自主體系統(tǒng)的最優(yōu)主-從一致性.目前該方向僅有少量成果.文獻(xiàn)[20]采用了間歇事件觸發(fā)策略,對(duì)分?jǐn)?shù)階多自主體系統(tǒng)進(jìn)行了有界性分析,對(duì)于一致性的研究尚未有文獻(xiàn)涉及.
例2考慮帶有1 個(gè)領(lǐng)導(dǎo)者,4 個(gè)追隨者的分?jǐn)?shù)階多自主體系統(tǒng),拓?fù)浣Y(jié)構(gòu)如圖6.
圖6 多自主體系統(tǒng)網(wǎng)絡(luò)拓?fù)鋱D(1 個(gè)領(lǐng)導(dǎo)者,4 個(gè)追隨者)Fig.6 The net topology of the multi-agent system (1 leader,4 followers)
選取α=0.86,A=[0 1 0 1;1 0 1 0;0 1 0 0;1 0 0 0],B=[1 0 0 0;0 0 0 0;0 0 0 0;0 0 0 1],f(xi)=tanh(0.01xi)?2cos(xi),i=0,1,2,3,4,初始狀態(tài)x0(0)=5,x1(0)=4,x2(0)=3,x3(0)=2,x4(0)=6,時(shí)間步長(zhǎng)h=0.001 s.若無(wú)任何控制器作用,各自主體的軌跡如圖7所示.
圖7 無(wú)控制器作用時(shí),各自主體的狀態(tài)軌跡(1 個(gè)領(lǐng)導(dǎo)者,4 個(gè)追隨者)Fig.7 State trajectories of each agent without controllers (1 leader,4 followers)
設(shè)置基于周期間歇的事件觸發(fā)策略:ρ=0,g(t)=‖e(t)‖?e?0.5θt,即事件觸發(fā)策略.選取參數(shù)θ=1.9,其他網(wǎng)絡(luò)參數(shù)如同例1.數(shù)值仿真結(jié)果如圖8~10 所示.圖8為本文所設(shè)計(jì)控制器作用下各自主體的狀態(tài)軌跡圖.由圖8看出,系統(tǒng)在不到3 s的時(shí)間內(nèi)就達(dá)到了主-從一致.圖9為全局狀態(tài)測(cè)量誤差‖e(t)‖及事件觸發(fā)閾值的變化曲線,其表明系統(tǒng)誤差在慢慢變小,并在3 s 后非常接近于0.圖10為事件觸發(fā)時(shí)刻圖,描述了0~12 s 內(nèi)事件觸發(fā)的具體時(shí)刻分布,觸發(fā)40 次.
圖8 各自主體的狀態(tài)軌跡(1 個(gè)領(lǐng)導(dǎo)者,4 個(gè)追隨者)Fig.8 State trajectories of each agent (1 leader,4 followers)
圖9 ||e(t)||及觸發(fā)閾值變化曲線(1 個(gè)領(lǐng)導(dǎo)者,4 個(gè)追隨者)Fig.9 The error and the trigger threshold (1 leader,4 followers)
圖10 事件觸發(fā)時(shí)刻分布Fig.10 The event-trigger moment distribution
注6圖11展示了文獻(xiàn)[16]中控制器作用下各自主體的狀態(tài)軌跡.對(duì)比圖8和圖11,網(wǎng)絡(luò)擬合控制器將系統(tǒng)趨于一致的速度提高了不止1 s.圖12為文獻(xiàn)[16]控制器下系統(tǒng)達(dá)到主-從一致過(guò)程中的全局狀態(tài)測(cè)量誤差變化情況.圖13為事件觸發(fā)時(shí)刻圖,描述了0~12 s 內(nèi)事件觸發(fā)的具體時(shí)刻分布,觸發(fā)104 次.通過(guò)圖10和圖13可明顯看出,在系統(tǒng)達(dá)到主-從一致的過(guò)程中本文所設(shè)計(jì)控制器作用下的事件觸發(fā)次數(shù)較少,一定程度上減少了通訊成本.
圖11 文獻(xiàn)[16]控制器下,各自主體的狀態(tài)軌跡圖Fig.11 State trajectories of each agent under ref.[16]
圖12 ||e(t)||及觸發(fā)閾值變化曲線Fig.12 The error ||e(t)|| and the trigger threshold
圖13 事件觸發(fā)時(shí)刻分布Fig.13 The event-trigger moment distribution
本文借助分?jǐn)?shù)階微分的一階近似逼近和強(qiáng)化學(xué)習(xí)中的actor-critic 算法,研究了在控制器周期間歇時(shí),分?jǐn)?shù)階多自主體系統(tǒng)在事件觸發(fā)策略下的最優(yōu)主-從一致性問(wèn)題,最終設(shè)計(jì)出基于actor-critic 算法的控制策略,并通過(guò)仿真驗(yàn)證了其有效性.
附 錄
Actor-critic 近似最優(yōu)控制算法整體框架如下:
輸入:actor 模型πWai,Yai(δi),critic 模型VWci,Yci(xi,ui,uj),i=1,2,···,N.
1 Fori=1,2,···,N
2 初始化狀態(tài)xi,得到初始 δi,初始化參數(shù)Wai,Yai,Wci,Yci
3 End for
4 Fort∈[kT,(k+1)T)
5 Ift∈[kT,(k+1?ρ)T],即控制器處于工作時(shí)間
6 Fori=1,2,···,N
7 遵循策略πWai,Yai(δi),得到控制ui
8 在ui的作用下,自主體i得到新?tīng)顟B(tài)x′i以 及回報(bào)ri=Vi
9 End for
10 計(jì)算全局狀態(tài)誤差δ(t)=(δT1(t),δT2(t),···,δTN(t))T
11 全局狀態(tài)測(cè)量誤差e(t)=(eT1(t),eT2(t),···,eTN(t))T
12 If 系統(tǒng)達(dá)到事件觸發(fā)條件的閾值:g(e(t),δ(t),θ,β,t)≥0
13 Fori=1,2,···,N
14 If 自主體i的神經(jīng)網(wǎng)絡(luò)滿足網(wǎng)絡(luò)誤差閾值
15 更新網(wǎng)絡(luò)權(quán)重,得到新的策略πW′ai,Yai(δi)
16Wai←Wai+βai?aiπWai,Yai(δi)
17Yai←Yai+βai?aiπWai,Yai(δi)
18Wci←Wci+βci?ciVWci,Yci(xi,ui,uj)
19Yci←Yci+βci?ciVWci,Yci(xi,ui,uj)
20 End if
21 End for
22 End if
23 Else,即控制器處于休息時(shí)間
24 Fori=1,2,···,N
25 根據(jù)ui=0時(shí)的狀態(tài)方程計(jì)算得出自主體i的新?tīng)顟B(tài)x′i
26 End for
27 End if
28 End for