基于actor-critic算法的分?jǐn)?shù)階多自主體系統(tǒng)最優(yōu)主-從一致性控制*

2022-02-18 00:38:20馬麗新

應(yīng)用數(shù)學(xué)和力學(xué) 2022年1期

馬麗新，劉晨，劉磊

（河海大學(xué) 理學(xué)院，南京211100）

引言

多自主體系統(tǒng)的分布式協(xié)同控制廣泛存在于自然界中，如魚(yú)群、蜂群、鳥(niǎo)群等,近年來(lái)，在生物系統(tǒng)、傳感器網(wǎng)絡(luò)、無(wú)人機(jī)編隊(duì)、機(jī)器人團(tuán)隊(duì)、水下機(jī)器人[1-4]等領(lǐng)域被大范圍應(yīng)用.一致性是多自主體系統(tǒng)分布式協(xié)同控制的基本問(wèn)題之一，即多自主體在某種適當(dāng)?shù)膮f(xié)議下收斂到一個(gè)共同的狀態(tài).2002年，系統(tǒng)與控制領(lǐng)域的學(xué)者Fax 和Murray 首次運(yùn)用控制理論的觀點(diǎn)證明，通過(guò)對(duì)每個(gè)智能體設(shè)計(jì)僅僅依賴(lài)個(gè)體間局部信息交互的分布式控制協(xié)議，就能驅(qū)動(dòng)整個(gè)多智能體系統(tǒng)完成狀態(tài)一致的控制目標(biāo)，并推導(dǎo)出一致性條件[5].后又有眾多學(xué)者針對(duì)多自主體系統(tǒng)的一致性展開(kāi)了研究[6-9].

由于分?jǐn)?shù)階微積分是整數(shù)階微積分的推廣，而且近年來(lái)越來(lái)越多的研究表明：眾多實(shí)際系統(tǒng)運(yùn)用分?jǐn)?shù)階模型才能反映出其更好的性質(zhì)(黏彈性、記憶與遺傳特性等）.所以，分?jǐn)?shù)階系統(tǒng)的相關(guān)研究引起國(guó)內(nèi)外學(xué)者的廣泛關(guān)注.隨著分?jǐn)?shù)階系統(tǒng)逐漸被重視,節(jié)點(diǎn)帶有分?jǐn)?shù)階動(dòng)力學(xué)網(wǎng)絡(luò)系統(tǒng)的一致性逐漸成為當(dāng)下的熱點(diǎn)問(wèn)題之一,可參考文獻(xiàn)[10-12].

隨著網(wǎng)絡(luò)技術(shù)的發(fā)展，考慮到通信帶寬、資源利用率等問(wèn)題，Astrom 等在文獻(xiàn)[13]中提出事件觸發(fā)控制技術(shù)以減少信息傳遞與調(diào)整控制器的次數(shù).2009年，Dimarogonas 等[14]將事件觸發(fā)機(jī)制引入到了多智能體系統(tǒng).2014年，Xu 等[15]提出事件觸發(fā)控制策略來(lái)研究分?jǐn)?shù)階多自主體系統(tǒng)的一致性問(wèn)題.2017年，Wang 等[16]研究了基于指數(shù)型事件觸發(fā)策略下的非線性分?jǐn)?shù)階多自主體系統(tǒng)的主-從一致性.此外，間歇控制策略因具有減少控制器持續(xù)運(yùn)作時(shí)間的功能，對(duì)于解決實(shí)際工程上控制器設(shè)備限制等問(wèn)題上有一定優(yōu)勢(shì)，近年來(lái)被越來(lái)越多的學(xué)者應(yīng)用到分?jǐn)?shù)階多自主體系統(tǒng)的一致性控制問(wèn)題上[17-19].為發(fā)揮這兩種控制策略的優(yōu)勢(shì)，部分學(xué)者將兩者有機(jī)整合，提出基于間歇策略的事件觸發(fā)機(jī)制[20-22].

2005年，Ren 等[23]提出了一個(gè)開(kāi)放性問(wèn)題：如何設(shè)計(jì)一個(gè)分布式協(xié)議，在使得多智能體系統(tǒng)達(dá)到一致性的前提下，又能夠優(yōu)化某些性能指標(biāo).針對(duì)整數(shù)階多自主體系統(tǒng)，Zhang 等[24]基于強(qiáng)化學(xué)習(xí)方法研究了離散時(shí)間多自主體系統(tǒng)的最優(yōu)一致性控制問(wèn)題.Zhao 等[25]利用自適應(yīng)動(dòng)態(tài)規(guī)劃技術(shù)，提出了一種具有擾動(dòng)的未知非線性多智能體系統(tǒng)的事件觸發(fā)一致性跟蹤控制策略.Dong 等[26]研究了帶有控制約束的連續(xù)時(shí)間系統(tǒng)的事件觸發(fā)自適應(yīng)動(dòng)態(tài)規(guī)劃方法.劉晨等[27]研究了基于事件觸發(fā)策略的多自主體系統(tǒng)的最優(yōu)主-從一致性.

相對(duì)整數(shù)階，分?jǐn)?shù)階微積分的分析工具不夠完善，HJB 方程求解困難，其最優(yōu)一致性尚未被充分研究.因此，本文的主要目的就是進(jìn)一步填補(bǔ)空白，采用強(qiáng)化學(xué)習(xí)中的actor-critic 算法研究分?jǐn)?shù)階多自主體系統(tǒng)的最優(yōu)主-從一致性，設(shè)計(jì)基于周期間歇事件觸發(fā)策略的強(qiáng)化學(xué)習(xí)算法結(jié)構(gòu).

1 預(yù)備知識(shí)

分?jǐn)?shù)階微分有多種定義方式，常用的是Riemann-Liouville 型(簡(jiǎn)稱(chēng)R-L 型)分?jǐn)?shù)階微分、Caputo 型分?jǐn)?shù)階微分以及Grünwald-Letnikov 型分?jǐn)?shù)階微分等.R-L 型分?jǐn)?shù)階微分在數(shù)學(xué)上有很好的性質(zhì)，但相比而言,Caputo 型分?jǐn)?shù)階微分的初值物理意義明確，很早就得到了廣泛的應(yīng)用[28].本文中分?jǐn)?shù)階多自主體系統(tǒng)的動(dòng)力模型均由Caputo 型分?jǐn)?shù)階微分描述.下面介紹Caputo 型分?jǐn)?shù)階微分的定義、一階逼近以及基本性質(zhì).

定義1[28]Caputo 型分?jǐn)?shù)階微分算子定義：

其中 α >0,n=[α]+1.

根據(jù)文獻(xiàn)[29-31]，當(dāng)0 <α<1,函數(shù)x(t)∈C2[t0,tf]時(shí)，可得到Caputo 型微分算子的一階展開(kāi)式逼近：

其中

定義2[28]f(t),g(t)∈C1[a,b],α>0,β>0,則

2 問(wèn)題描述

2.1 模型描述

考慮帶有領(lǐng)導(dǎo)者的分?jǐn)?shù)階多自主體系統(tǒng)：

其中階數(shù) 0 <α<1,x0(t)=(x01(t),x02(t),···,x0n(t))T∈Rn表示領(lǐng)導(dǎo)者的狀態(tài)，xi(t)=(xi1(t),xi2(t),···,xin(t))T∈Rn表示第i個(gè)自主體的狀態(tài)，ui(t) 表示第i個(gè)自主體的控制輸入，f:R×Rn→Rn是連續(xù)可微的向量函數(shù).

定義3若對(duì)任意的初始狀態(tài)xi(t0)，可找到ui(t)使得 l imt→∞‖xi(t)?x0(t)‖=0，則稱(chēng)該分?jǐn)?shù)階多自主體系統(tǒng)(2)可達(dá)到主-從一致，對(duì)?i=1,2,3,···,N.

定義第i個(gè)追隨者與領(lǐng)導(dǎo)者之間的狀態(tài)誤差如下：

將領(lǐng)導(dǎo)者和各追隨者均看作節(jié)點(diǎn)，得到節(jié)點(diǎn)集v={0,1,2,···,N}.對(duì)稱(chēng)矩陣A=(aij)N×N,aij≥0表示各追隨者間的通訊情況，aij>0表示i節(jié)點(diǎn)與j節(jié)點(diǎn)有通訊，反之，i,j節(jié) 點(diǎn)間無(wú)信息流通.進(jìn)而用Ni={j∈v|aij≠0}來(lái)表示節(jié)點(diǎn)i的相鄰節(jié)點(diǎn)集合.對(duì)角矩陣B=(bi)N×N表示領(lǐng)導(dǎo)者(0 節(jié)點(diǎn))與各追隨者間的通訊情況，bi>0代表0節(jié)點(diǎn)與i節(jié)點(diǎn)有交流，反之沒(méi)有.

則全局狀態(tài)誤差可表示為

其中 ?為Kronecker 乘積符)號(hào)，x(t)=(xT1,xT2,···,xTN)T∈RnN表示全局狀態(tài)向量，x～0(t)=(xT0,xT0,···,xT0)T∈RnN.定義度矩陣則Laplace 矩陣L=D?A.

注1因?yàn)镠為正定陣，所以δ(t)→0 等價(jià)于x(t)→(t)，即xi(t)→x0(t),i=1,2,···,N，代表系統(tǒng)達(dá)到主-從一致.

針對(duì)分?jǐn)?shù)階多自主體系統(tǒng)(2)，本文不僅考慮如何讓系統(tǒng)達(dá)到主-從一致，還考慮在系統(tǒng)達(dá)到主-從一致的過(guò)程中的能量消耗，因此引入性能指標(biāo)的概念.

定義第i個(gè)自主體的性能指標(biāo)為

其中P(δi)=δTi(t)Qiδi(t)是過(guò)程代價(jià)，與一致性性能相關(guān)，度量了系統(tǒng)在達(dá)到一致性過(guò)程中的一致偏差，代表的是“運(yùn)動(dòng)能量”；W(ui,uj)=uTi(t)Riui(t)+是控制代價(jià)，代表的是“控制能量”，Qi≥0,Ri>0,Rj>0.

本文的目的是對(duì)于每個(gè)自主體i，找到合適的控制器ui(t),uj(t)，使得系統(tǒng)(2)在達(dá)到主-從一致的同時(shí)性能指標(biāo)最?。?/p>

由式(6)得自主體i的Lyapunov 方程為

另外，由Caputo 型微分算子一階逼近式(1)和系統(tǒng)動(dòng)力模型(2)得

其中

與ui無(wú)關(guān).

則方程(7)等價(jià)于

根據(jù)Bellman 最優(yōu)性原理可得第i個(gè)自主體的最優(yōu)控制為

2.2 周期間歇事件觸發(fā)策略

對(duì)于分?jǐn)?shù)階多自主體系統(tǒng)(2)，設(shè)計(jì)周期間歇反饋控制器：

其中0 ≤ρ ≤1為休息率，相對(duì)地，1?ρ為工作率，T為控制周期，k=0,1,2,3,···.

在周期間歇的基礎(chǔ)上考慮集中式事件觸發(fā)策略.設(shè)第k個(gè)周期內(nèi)的觸發(fā)時(shí)刻集合為{tk1,t2k,t3k,···,tkm,···}，則整個(gè)過(guò)程的事件觸發(fā)時(shí)刻序列可表示為{t10,t20,t30,···,tm0,···,t1k,tk2,t3k,···,tmk,···}.若在第k個(gè)周期 [kT,(k+1)T)上已知tmk，則下一觸發(fā)時(shí)刻tmk+1由下式給出：

其中e(t)=(eT1(t),eT2(t),···,eTN(t))T為全局狀態(tài)測(cè)量誤差,ei(t)=δi(tkm)?δi(t)表示第i個(gè)自主體狀態(tài)測(cè)量誤差.

考慮到周期間歇事件觸發(fā)策略，自主體i的誤差動(dòng)力學(xué)可寫(xiě)為如下分段形式：

其中ui(tmk)表示(tmk,tmk+1)區(qū)間內(nèi)i自主體的控制輸入.

注2式(13)中事件觸發(fā)條件g(e(t),δ(t),θ,t)可根據(jù)具體一致性種類(lèi)和控制策略來(lái)設(shè)計(jì).針對(duì)分?jǐn)?shù)階多自主體系統(tǒng)的事件觸發(fā)條件大致可分為三類(lèi)：依賴(lài)于狀態(tài)[26]、依賴(lài)于指數(shù)函數(shù)[16]、依賴(lài)于狀態(tài)和指數(shù)函數(shù)的混合[20].

注3周期間歇事件觸發(fā)策略?xún)H在工作區(qū)間[kT,(k+1?ρ)T],k∈N 內(nèi)采用事件觸發(fā)策略，在其他時(shí)間段不對(duì)系統(tǒng)施加控制.當(dāng)ρ=0 時(shí)，此策略退化為事件觸發(fā)控制策略；當(dāng)ρ=1時(shí)，此策略退化為事件觸發(fā)脈沖控制策略.

3 基于actor-critic 算法的近似最優(yōu)控制

Actor-critic 算法是強(qiáng)化學(xué)習(xí)中的一種算法，簡(jiǎn)要原理是actor 來(lái)做動(dòng)作，critic 對(duì)actor 做出的動(dòng)作給予評(píng)價(jià).評(píng)價(jià)分為獎(jiǎng)勵(lì)、懲罰兩種.actor 通過(guò)得到的評(píng)價(jià)不斷調(diào)整自己的動(dòng)作以得到更多的獎(jiǎng)勵(lì).下面用critic 網(wǎng)絡(luò)擬合性能指標(biāo)函數(shù)，actor 網(wǎng)絡(luò)擬合控制器ui(t).算法整體框架詳見(jiàn)文后附錄.

3.1 Critic 網(wǎng)絡(luò)設(shè)計(jì)

根據(jù)式(5)，確定critic 網(wǎng)絡(luò)的輸入Zci(t)必須包含的信息由actor 網(wǎng)絡(luò)生成）.對(duì)于第i個(gè)自主體，網(wǎng)絡(luò)擬合的性能指標(biāo)為

其中Yci(t)表示輸入層到隱含層的權(quán)重，Wci(t)表示隱含層到輸出層的權(quán)重，ψc(·)為激活函數(shù).

由式(7)可得

進(jìn)而

因?yàn)榫W(wǎng)絡(luò)擬合存在重構(gòu)誤差，所以定義critic 網(wǎng)絡(luò)的誤差函數(shù)：

Critic 網(wǎng)絡(luò)訓(xùn)練的目的為：選擇合適的Yci(t),Wci(t) 使得Eci(t)=盡量小.

當(dāng)達(dá)到周期間歇事件觸發(fā)閾值時(shí)，使用梯度下降法對(duì)網(wǎng)絡(luò)權(quán)重進(jìn)行更新，否則權(quán)重不更新，具體更新方式如下：

其中 βci為學(xué)習(xí)率.

3.2 Actor 網(wǎng)絡(luò)設(shè)計(jì)

與critic 網(wǎng)絡(luò)類(lèi)似，actor 網(wǎng)絡(luò)同樣采用三層的網(wǎng)絡(luò)結(jié)構(gòu).對(duì)于第i個(gè)自主體，以 δi(t)作為actor 網(wǎng)絡(luò)的輸入，得到網(wǎng)絡(luò)擬合的控制器為

其中Yai(t)表示輸入層到隱含層的權(quán)重，Wai(t)表示隱含層到輸出層的權(quán)重，ψa(·)為激活函數(shù).

無(wú)論是critic 網(wǎng)絡(luò)還是actor 網(wǎng)絡(luò)，最終目標(biāo)是找到合適的控制器(t)使得系統(tǒng)達(dá)到主-從一致時(shí)性能指標(biāo)最小（理想目標(biāo)是Uc=0），所以定義actor 網(wǎng)絡(luò)的誤差函數(shù)為

Actor 網(wǎng)絡(luò)訓(xùn)練的目的為：選擇合適的Yai(t),Wai(t)使得Eai(t)=(t)盡量小.

Actor 網(wǎng)絡(luò)的權(quán)值更新方法與critic 網(wǎng)絡(luò)類(lèi)似，具體公式如下：

其中 βai為學(xué)習(xí)率.

注4本文將分?jǐn)?shù)階微分的一階導(dǎo)近似展開(kāi)式(1)和文獻(xiàn)[27]中整數(shù)階多自主體系統(tǒng)的事件觸發(fā)自適應(yīng)動(dòng)態(tài)規(guī)劃算法有機(jī)整合，進(jìn)一步考慮了間歇策略，針對(duì)分?jǐn)?shù)階多自主體系統(tǒng)的最優(yōu)主-從一致性，設(shè)計(jì)了基于周期間歇事件觸發(fā)的強(qiáng)化學(xué)習(xí)算法.

4 數(shù)值仿真

例1考慮帶有1 個(gè)領(lǐng)導(dǎo)者，3 個(gè)追隨者的分?jǐn)?shù)階多自主體系統(tǒng)，網(wǎng)絡(luò)拓?fù)鋱D如圖1.

圖1 多自主體系統(tǒng)網(wǎng)絡(luò)拓?fù)鋱D(1 個(gè)領(lǐng)導(dǎo)者，3 個(gè)追隨者)Fig.1 The net topology of the multi-agent system (1 leader,3 followers)

選取 α=0.95,A=[0 1 0;1 0 1;0 1 0],B=[1 0 0;0 0 0;0 0 0]f(xi)=?2sin(xi)+tanh(xi),i=0,1,2,3，初始狀態(tài)x0(0)=5,x1(0)=?3,x2(0)=?1,x3(0)=2.8，時(shí)間步長(zhǎng)h=0.001 s.若無(wú)任何控制器作用，各自主體的軌跡如圖2.

圖2 無(wú)控制器作用時(shí)，各自主體的狀態(tài)軌跡(1 個(gè)領(lǐng)導(dǎo)者，3 個(gè)追隨者)Fig.2 State trajectories of each agent without controllers (1 leader,3 followers)

設(shè)置基于周期間歇的事件觸發(fā)策略：T=3.5 s,ρ≈0.143,g(t)=e(t)?θδ(t)，取 θ=0.06，權(quán)值矩陣的初值在區(qū)間[-0.025,0.025]中隨機(jī)選取，并歸一化處理，其他網(wǎng)絡(luò)參數(shù)設(shè)置如表1.

表1 網(wǎng)絡(luò)參數(shù)設(shè)置Table 1 Values of networks’ parameters

在該策略控制作用下的數(shù)值仿真結(jié)果如圖3～5 所示.圖3為各自主體的狀態(tài)軌跡圖，表示系統(tǒng)約在10 s 達(dá)到主-從一致的狀態(tài).圖4為全局狀態(tài)測(cè)量誤差 ||e(t)||及事件觸發(fā)閾值的變化曲線，可看出在接近9 s的時(shí)候||e(t)||便趨于0.圖5為基于周期間歇的事件觸發(fā)時(shí)刻圖，描述了在0～18 s 中事件觸發(fā)時(shí)刻的具體分布：0～3 s，3.5～6.5 s，7～10 s，10.5～13.5 s，14～17 s，17.5～18 s為控制器工作時(shí)間;3～3.5 s，6.5～7 s，10～10.5 s，13.5～14 s，17～17.5 s為控制器休息時(shí)間.

圖3 各自主體的狀態(tài)軌跡(1 個(gè)領(lǐng)導(dǎo)者，3 個(gè)追隨者)Fig.3 State trajectories of each agent (1 leader,3 followers)

圖4 ‖e(t)‖及觸發(fā)閾值變化曲線(1 個(gè)領(lǐng)導(dǎo)者，3 個(gè)追隨者)Fig.4 The error and the trigger threshold (1 leader,3 followers)

圖5 周期間歇事件觸發(fā)時(shí)刻分布Fig.5 The event-trigger moment distribution of periodic intermittence

注5本文將間歇的事件觸發(fā)機(jī)制有機(jī)整合起來(lái)，研究了分?jǐn)?shù)階多自主體系統(tǒng)的最優(yōu)主-從一致性.目前該方向僅有少量成果.文獻(xiàn)[20]采用了間歇事件觸發(fā)策略，對(duì)分?jǐn)?shù)階多自主體系統(tǒng)進(jìn)行了有界性分析，對(duì)于一致性的研究尚未有文獻(xiàn)涉及.

例2考慮帶有1 個(gè)領(lǐng)導(dǎo)者，4 個(gè)追隨者的分?jǐn)?shù)階多自主體系統(tǒng)，拓?fù)浣Y(jié)構(gòu)如圖6.

圖6 多自主體系統(tǒng)網(wǎng)絡(luò)拓?fù)鋱D(1 個(gè)領(lǐng)導(dǎo)者，4 個(gè)追隨者)Fig.6 The net topology of the multi-agent system (1 leader,4 followers)

選取α=0.86,A=[0 1 0 1;1 0 1 0;0 1 0 0;1 0 0 0],B=[1 0 0 0;0 0 0 0;0 0 0 0;0 0 0 1]，f(xi)=tanh(0.01xi)?2cos(xi),i=0,1,2,3,4，初始狀態(tài)x0(0)=5,x1(0)=4,x2(0)=3,x3(0)=2,x4(0)=6,時(shí)間步長(zhǎng)h=0.001 s.若無(wú)任何控制器作用，各自主體的軌跡如圖7所示.

圖7 無(wú)控制器作用時(shí)，各自主體的狀態(tài)軌跡(1 個(gè)領(lǐng)導(dǎo)者，4 個(gè)追隨者)Fig.7 State trajectories of each agent without controllers (1 leader,4 followers)

設(shè)置基于周期間歇的事件觸發(fā)策略：ρ=0，g(t)=‖e(t)‖?e?0.5θt，即事件觸發(fā)策略.選取參數(shù)θ=1.9，其他網(wǎng)絡(luò)參數(shù)如同例1.數(shù)值仿真結(jié)果如圖8～10 所示.圖8為本文所設(shè)計(jì)控制器作用下各自主體的狀態(tài)軌跡圖.由圖8看出，系統(tǒng)在不到3 s的時(shí)間內(nèi)就達(dá)到了主-從一致.圖9為全局狀態(tài)測(cè)量誤差‖e(t)‖及事件觸發(fā)閾值的變化曲線，其表明系統(tǒng)誤差在慢慢變小，并在3 s 后非常接近于0.圖10為事件觸發(fā)時(shí)刻圖，描述了0～12 s 內(nèi)事件觸發(fā)的具體時(shí)刻分布，觸發(fā)40 次.

圖8 各自主體的狀態(tài)軌跡(1 個(gè)領(lǐng)導(dǎo)者，4 個(gè)追隨者)Fig.8 State trajectories of each agent (1 leader,4 followers)

圖9 ||e(t)||及觸發(fā)閾值變化曲線(1 個(gè)領(lǐng)導(dǎo)者，4 個(gè)追隨者)Fig.9 The error and the trigger threshold (1 leader,4 followers)

圖10 事件觸發(fā)時(shí)刻分布Fig.10 The event-trigger moment distribution

注6圖11展示了文獻(xiàn)[16]中控制器作用下各自主體的狀態(tài)軌跡.對(duì)比圖8和圖11，網(wǎng)絡(luò)擬合控制器將系統(tǒng)趨于一致的速度提高了不止1 s.圖12為文獻(xiàn)[16]控制器下系統(tǒng)達(dá)到主-從一致過(guò)程中的全局狀態(tài)測(cè)量誤差變化情況.圖13為事件觸發(fā)時(shí)刻圖，描述了0～12 s 內(nèi)事件觸發(fā)的具體時(shí)刻分布，觸發(fā)104 次.通過(guò)圖10和圖13可明顯看出，在系統(tǒng)達(dá)到主-從一致的過(guò)程中本文所設(shè)計(jì)控制器作用下的事件觸發(fā)次數(shù)較少，一定程度上減少了通訊成本.

圖11 文獻(xiàn)[16]控制器下，各自主體的狀態(tài)軌跡圖Fig.11 State trajectories of each agent under ref.[16]

圖12 ||e(t)||及觸發(fā)閾值變化曲線Fig.12 The error ||e(t)|| and the trigger threshold

圖13 事件觸發(fā)時(shí)刻分布Fig.13 The event-trigger moment distribution

5 總結(jié)

本文借助分?jǐn)?shù)階微分的一階近似逼近和強(qiáng)化學(xué)習(xí)中的actor-critic 算法，研究了在控制器周期間歇時(shí)，分?jǐn)?shù)階多自主體系統(tǒng)在事件觸發(fā)策略下的最優(yōu)主-從一致性問(wèn)題，最終設(shè)計(jì)出基于actor-critic 算法的控制策略，并通過(guò)仿真驗(yàn)證了其有效性.

附錄

Actor-critic 近似最優(yōu)控制算法整體框架如下：

輸入：actor 模型πWai,Yai(δi)，critic 模型VWci,Yci(xi,ui,uj)，i=1,2,···,N.

1 Fori=1,2,···,N

2 初始化狀態(tài)xi，得到初始 δi，初始化參數(shù)Wai,Yai,Wci,Yci

3 End for

4 Fort∈[kT,(k+1)T)

5 Ift∈[kT,(k+1?ρ)T]，即控制器處于工作時(shí)間

6 Fori=1,2,···,N

7 遵循策略πWai,Yai(δi)，得到控制ui

8 在ui的作用下，自主體i得到新?tīng)顟B(tài)x′i以及回報(bào)ri=Vi

9 End for

10 計(jì)算全局狀態(tài)誤差δ(t)=(δT1(t),δT2(t),···,δTN(t))T

11 全局狀態(tài)測(cè)量誤差e(t)=(eT1(t),eT2(t),···,eTN(t))T

12 If 系統(tǒng)達(dá)到事件觸發(fā)條件的閾值：g(e(t),δ(t),θ,β,t)≥0

13 Fori=1,2,···,N

14 If 自主體i的神經(jīng)網(wǎng)絡(luò)滿足網(wǎng)絡(luò)誤差閾值

15 更新網(wǎng)絡(luò)權(quán)重，得到新的策略πW′ai,Yai(δi)

16Wai←Wai+βai?aiπWai,Yai(δi)

17Yai←Yai+βai?aiπWai,Yai(δi)

18Wci←Wci+βci?ciVWci,Yci(xi,ui,uj)

19Yci←Yci+βci?ciVWci,Yci(xi,ui,uj)

20 End if

21 End for

22 End if

23 Else，即控制器處于休息時(shí)間

24 Fori=1,2,···,N

25 根據(jù)ui=0時(shí)的狀態(tài)方程計(jì)算得出自主體i的新?tīng)顟B(tài)x′i

26 End for

27 End if

28 End for

99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看