• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      基于actor-critic算法的分?jǐn)?shù)階多自主體系統(tǒng)最優(yōu)主-從一致性控制*

      2022-02-18 00:38:20馬麗新
      關(guān)鍵詞:間歇領(lǐng)導(dǎo)者一致性

      馬麗新,劉 晨,劉 磊

      (河海大學(xué) 理學(xué)院,南京211100)

      引 言

      多自主體系統(tǒng)的分布式協(xié)同控制廣泛存在于自然界中,如魚(yú)群、蜂群、鳥(niǎo)群等,近年來(lái),在生物系統(tǒng)、傳感器網(wǎng)絡(luò)、無(wú)人機(jī)編隊(duì)、機(jī)器人團(tuán)隊(duì)、水下機(jī)器人[1-4]等領(lǐng)域被大范圍應(yīng)用.一致性是多自主體系統(tǒng)分布式協(xié)同控制的基本問(wèn)題之一,即多自主體在某種適當(dāng)?shù)膮f(xié)議下收斂到一個(gè)共同的狀態(tài).2002年,系統(tǒng)與控制領(lǐng)域的學(xué)者Fax 和Murray 首次運(yùn)用控制理論的觀點(diǎn)證明,通過(guò)對(duì)每個(gè)智能體設(shè)計(jì)僅僅依賴(lài)個(gè)體間局部信息交互的分布式控制協(xié)議,就能驅(qū)動(dòng)整個(gè)多智能體系統(tǒng)完成狀態(tài)一致的控制目標(biāo),并推導(dǎo)出一致性條件[5].后又有眾多學(xué)者針對(duì)多自主體系統(tǒng)的一致性展開(kāi)了研究[6-9].

      由于分?jǐn)?shù)階微積分是整數(shù)階微積分的推廣,而且近年來(lái)越來(lái)越多的研究表明:眾多實(shí)際系統(tǒng)運(yùn)用分?jǐn)?shù)階模型才能反映出其更好的性質(zhì)(黏彈性、記憶與遺傳特性等).所以,分?jǐn)?shù)階系統(tǒng)的相關(guān)研究引起國(guó)內(nèi)外學(xué)者的廣泛關(guān)注.隨著分?jǐn)?shù)階系統(tǒng)逐漸被重視,節(jié)點(diǎn)帶有分?jǐn)?shù)階動(dòng)力學(xué)網(wǎng)絡(luò)系統(tǒng)的一致性逐漸成為當(dāng)下的熱點(diǎn)問(wèn)題之一,可參考文獻(xiàn)[10-12].

      隨著網(wǎng)絡(luò)技術(shù)的發(fā)展,考慮到通信帶寬、資源利用率等問(wèn)題,Astrom 等在文獻(xiàn)[13]中提出事件觸發(fā)控制技術(shù)以減少信息傳遞與調(diào)整控制器的次數(shù).2009年,Dimarogonas 等[14]將事件觸發(fā)機(jī)制引入到了多智能體系統(tǒng).2014年,Xu 等[15]提出事件觸發(fā)控制策略來(lái)研究分?jǐn)?shù)階多自主體系統(tǒng)的一致性問(wèn)題.2017年,Wang 等[16]研究了基于指數(shù)型事件觸發(fā)策略下的非線性分?jǐn)?shù)階多自主體系統(tǒng)的主-從一致性.此外,間歇控制策略因具有減少控制器持續(xù)運(yùn)作時(shí)間的功能,對(duì)于解決實(shí)際工程上控制器設(shè)備限制等問(wèn)題上有一定優(yōu)勢(shì),近年來(lái)被越來(lái)越多的學(xué)者應(yīng)用到分?jǐn)?shù)階多自主體系統(tǒng)的一致性控制問(wèn)題上[17-19].為發(fā)揮這兩種控制策略的優(yōu)勢(shì),部分學(xué)者將兩者有機(jī)整合,提出基于間歇策略的事件觸發(fā)機(jī)制[20-22].

      2005年,Ren 等[23]提出了一個(gè)開(kāi)放性問(wèn)題:如何設(shè)計(jì)一個(gè)分布式協(xié)議,在使得多智能體系統(tǒng)達(dá)到一致性的前提下,又能夠優(yōu)化某些性能指標(biāo).針對(duì)整數(shù)階多自主體系統(tǒng),Zhang 等[24]基于強(qiáng)化學(xué)習(xí)方法研究了離散時(shí)間多自主體系統(tǒng)的最優(yōu)一致性控制問(wèn)題.Zhao 等[25]利用自適應(yīng)動(dòng)態(tài)規(guī)劃技術(shù),提出了一種具有擾動(dòng)的未知非線性多智能體系統(tǒng)的事件觸發(fā)一致性跟蹤控制策略.Dong 等[26]研究了帶有控制約束的連續(xù)時(shí)間系統(tǒng)的事件觸發(fā)自適應(yīng)動(dòng)態(tài)規(guī)劃方法.劉晨等[27]研究了基于事件觸發(fā)策略的多自主體系統(tǒng)的最優(yōu)主-從一致性.

      相對(duì)整數(shù)階,分?jǐn)?shù)階微積分的分析工具不夠完善,HJB 方程求解困難,其最優(yōu)一致性尚未被充分研究.因此,本文的主要目的就是進(jìn)一步填補(bǔ)空白,采用強(qiáng)化學(xué)習(xí)中的actor-critic 算法研究分?jǐn)?shù)階多自主體系統(tǒng)的最優(yōu)主-從一致性,設(shè)計(jì)基于周期間歇事件觸發(fā)策略的強(qiáng)化學(xué)習(xí)算法結(jié)構(gòu).

      1 預(yù)備知識(shí)

      分?jǐn)?shù)階微分有多種定義方式,常用的是Riemann-Liouville 型(簡(jiǎn)稱(chēng)R-L 型)分?jǐn)?shù)階微分、Caputo 型分?jǐn)?shù)階微分以及Grünwald-Letnikov 型分?jǐn)?shù)階微分等.R-L 型分?jǐn)?shù)階微分在數(shù)學(xué)上有很好的性質(zhì),但相比而言,Caputo 型分?jǐn)?shù)階微分的初值物理意義明確,很早就得到了廣泛的應(yīng)用[28].本文中分?jǐn)?shù)階多自主體系統(tǒng)的動(dòng)力模型均由Caputo 型分?jǐn)?shù)階微分描述.下面介紹Caputo 型分?jǐn)?shù)階微分的定義、一階逼近以及基本性質(zhì).

      定義1[28]Caputo 型分?jǐn)?shù)階微分算子定義:

      其中 α >0,n=[α]+1.

      根據(jù)文獻(xiàn)[29-31],當(dāng)0 <α<1,函數(shù)x(t)∈C2[t0,tf]時(shí),可得到Caputo 型微分算子的一階展開(kāi)式逼近:

      其中

      定義2[28]f(t),g(t)∈C1[a,b],α>0,β>0,則

      2 問(wèn)題描述

      2.1 模型描述

      考慮帶有領(lǐng)導(dǎo)者的分?jǐn)?shù)階多自主體系統(tǒng):

      其中階數(shù) 0 <α<1,x0(t)=(x01(t),x02(t),···,x0n(t))T∈Rn表示領(lǐng)導(dǎo)者的狀態(tài),xi(t)=(xi1(t),xi2(t),···,xin(t))T∈Rn表示第i個(gè)自主體的狀態(tài),ui(t) 表示第i個(gè)自主體的控制輸入,f:R×Rn→Rn是連續(xù)可微的向量函數(shù).

      定義3若對(duì)任意的初始狀態(tài)xi(t0),可找到ui(t)使得 l imt→∞‖xi(t)?x0(t)‖=0,則稱(chēng)該分?jǐn)?shù)階多自主體系統(tǒng)(2)可達(dá)到主-從一致,對(duì)?i=1,2,3,···,N.

      定義第i個(gè)追隨者與領(lǐng)導(dǎo)者之間的狀態(tài)誤差如下:

      將領(lǐng)導(dǎo)者和各追隨者均看作節(jié)點(diǎn),得到節(jié)點(diǎn)集v={0,1,2,···,N}.對(duì)稱(chēng)矩陣A=(aij)N×N,aij≥0表示各追隨者間的通訊情況,aij>0表示i節(jié)點(diǎn)與j節(jié)點(diǎn)有通訊,反之,i,j節(jié) 點(diǎn)間無(wú)信息流通.進(jìn)而用Ni={j∈v|aij≠0}來(lái)表示節(jié)點(diǎn)i的相鄰節(jié)點(diǎn)集合.對(duì)角矩陣B=(bi)N×N表示領(lǐng)導(dǎo)者(0 節(jié)點(diǎn))與各追隨者間的通訊情況,bi>0代表0節(jié)點(diǎn)與i節(jié)點(diǎn)有交流,反之沒(méi)有.

      則全局狀態(tài)誤差可表示為

      其中 ?為Kronecker 乘積符)號(hào),x(t)=(xT1,xT2,···,xTN)T∈RnN表示全局狀態(tài)向量,x~0(t)=(xT0,xT0,···,xT0)T∈RnN.定義度矩陣則Laplace 矩陣L=D?A.

      注1因?yàn)镠為正定陣,所以δ(t)→0 等價(jià)于x(t)→(t),即xi(t)→x0(t),i=1,2,···,N,代表系統(tǒng)達(dá)到主-從一致.

      針對(duì)分?jǐn)?shù)階多自主體系統(tǒng)(2),本文不僅考慮如何讓系統(tǒng)達(dá)到主-從一致,還考慮在系統(tǒng)達(dá)到主-從一致的過(guò)程中的能量消耗,因此引入性能指標(biāo)的概念.

      定義第i個(gè)自主體的性能指標(biāo)為

      其中P(δi)=δTi(t)Qiδi(t)是過(guò)程代價(jià),與一致性性能相關(guān),度量了系統(tǒng)在達(dá)到一致性過(guò)程中的一致偏差,代表的是“運(yùn)動(dòng)能量”;W(ui,uj)=uTi(t)Riui(t)+是控制代價(jià),代表的是“控制能量”,Qi≥0,Ri>0,Rj>0.

      本文的目的是對(duì)于每個(gè)自主體i,找到合適的控制器ui(t),uj(t),使得系統(tǒng)(2)在達(dá)到主-從一致的同時(shí)性能指標(biāo)最?。?/p>

      由式(6)得自主體i的Lyapunov 方程為

      另外,由Caputo 型微分算子一階逼近式(1)和系統(tǒng)動(dòng)力模型(2)得

      其中

      與ui無(wú)關(guān).

      則方程(7)等價(jià)于

      根據(jù)Bellman 最優(yōu)性原理可得第i個(gè)自主體的最優(yōu)控制為

      2.2 周期間歇事件觸發(fā)策略

      對(duì)于分?jǐn)?shù)階多自主體系統(tǒng)(2),設(shè)計(jì)周期間歇反饋控制器:

      其中0 ≤ρ ≤1為休息率,相對(duì)地,1?ρ為工作率,T為控制周期,k=0,1,2,3,···.

      在周期間歇的基礎(chǔ)上考慮集中式事件觸發(fā)策略.設(shè)第k個(gè)周期內(nèi)的觸發(fā)時(shí)刻集合為{tk1,t2k,t3k,···,tkm,···},則整個(gè)過(guò)程的事件觸發(fā)時(shí)刻序列可表示為{t10,t20,t30,···,tm0,···,t1k,tk2,t3k,···,tmk,···}.若在第k個(gè)周期 [kT,(k+1)T)上已知tmk,則下一觸發(fā)時(shí)刻tmk+1由下式給出:

      其中e(t)=(eT1(t),eT2(t),···,eTN(t))T為全局狀態(tài)測(cè)量誤差,ei(t)=δi(tkm)?δi(t)表示第i個(gè)自主體狀態(tài)測(cè)量誤差.

      考慮到周期間歇事件觸發(fā)策略,自主體i的誤差動(dòng)力學(xué)可寫(xiě)為如下分段形式:

      其中ui(tmk)表示(tmk,tmk+1)區(qū)間內(nèi)i自主體的控制輸入.

      注2式(13)中事件觸發(fā)條件g(e(t),δ(t),θ,t)可根據(jù)具體一致性種類(lèi)和控制策略來(lái)設(shè)計(jì).針對(duì)分?jǐn)?shù)階多自主體系統(tǒng)的事件觸發(fā)條件大致可分為三類(lèi):依賴(lài)于狀態(tài)[26]、依賴(lài)于指數(shù)函數(shù)[16]、依賴(lài)于狀態(tài)和指數(shù)函數(shù)的混合[20].

      注3周期間歇事件觸發(fā)策略?xún)H在工作區(qū)間[kT,(k+1?ρ)T],k∈N 內(nèi)采用事件觸發(fā)策略,在其他時(shí)間段不對(duì)系統(tǒng)施加控制.當(dāng)ρ=0 時(shí),此策略退化為事件觸發(fā)控制策略;當(dāng)ρ=1時(shí),此策略退化為事件觸發(fā)脈沖控制策略.

      3 基于actor-critic 算法的近似最優(yōu)控制

      Actor-critic 算法是強(qiáng)化學(xué)習(xí)中的一種算法,簡(jiǎn)要原理是actor 來(lái)做動(dòng)作,critic 對(duì)actor 做出的動(dòng)作給予評(píng)價(jià).評(píng)價(jià)分為獎(jiǎng)勵(lì)、懲罰兩種.actor 通過(guò)得到的評(píng)價(jià)不斷調(diào)整自己的動(dòng)作以得到更多的獎(jiǎng)勵(lì).下面用critic 網(wǎng)絡(luò)擬合性能指標(biāo)函數(shù),actor 網(wǎng)絡(luò)擬合控制器ui(t).算法整體框架詳見(jiàn)文后附錄.

      3.1 Critic 網(wǎng)絡(luò)設(shè)計(jì)

      根據(jù)式(5),確定critic 網(wǎng)絡(luò)的輸入Zci(t)必須包含的信息由actor 網(wǎng)絡(luò)生成).對(duì)于第i個(gè)自主體,網(wǎng)絡(luò)擬合的性能指標(biāo)為

      其中Yci(t)表示輸入層到隱含層的權(quán)重,Wci(t)表示隱含層到輸出層的權(quán)重,ψc(·)為激活函數(shù).

      由式(7)可得

      進(jìn)而

      因?yàn)榫W(wǎng)絡(luò)擬合存在重構(gòu)誤差,所以定義critic 網(wǎng)絡(luò)的誤差函數(shù):

      Critic 網(wǎng)絡(luò)訓(xùn)練的目的為:選擇合適的Yci(t),Wci(t) 使得Eci(t)=盡量小.

      當(dāng)達(dá)到周期間歇事件觸發(fā)閾值時(shí),使用梯度下降法對(duì)網(wǎng)絡(luò)權(quán)重進(jìn)行更新,否則權(quán)重不更新,具體更新方式如下:

      其中 βci為學(xué)習(xí)率.

      3.2 Actor 網(wǎng)絡(luò)設(shè)計(jì)

      與critic 網(wǎng)絡(luò)類(lèi)似,actor 網(wǎng)絡(luò)同樣采用三層的網(wǎng)絡(luò)結(jié)構(gòu).對(duì)于第i個(gè)自主體,以 δi(t)作為actor 網(wǎng)絡(luò)的輸入,得到網(wǎng)絡(luò)擬合的控制器為

      其中Yai(t)表示輸入層到隱含層的權(quán)重,Wai(t)表示隱含層到輸出層的權(quán)重,ψa(·)為激活函數(shù).

      無(wú)論是critic 網(wǎng)絡(luò)還是actor 網(wǎng)絡(luò),最終目標(biāo)是找到合適的控制器(t)使得系統(tǒng)達(dá)到主-從一致時(shí)性能指標(biāo)最 小(理想目標(biāo)是Uc=0),所以定義actor 網(wǎng)絡(luò)的誤差函數(shù)為

      Actor 網(wǎng)絡(luò)訓(xùn)練的目的為:選擇合適的Yai(t),Wai(t)使得Eai(t)=(t)盡量小.

      Actor 網(wǎng)絡(luò)的權(quán)值更新方法與critic 網(wǎng)絡(luò)類(lèi)似,具體公式如下:

      其中 βai為學(xué)習(xí)率.

      注4本文將分?jǐn)?shù)階微分的一階導(dǎo)近似展開(kāi)式(1)和文獻(xiàn)[27]中整數(shù)階多自主體系統(tǒng)的事件觸發(fā)自適應(yīng)動(dòng)態(tài)規(guī)劃算法有機(jī)整合,進(jìn)一步考慮了間歇策略,針對(duì)分?jǐn)?shù)階多自主體系統(tǒng)的最優(yōu)主-從一致性,設(shè)計(jì)了基于周期間歇事件觸發(fā)的強(qiáng)化學(xué)習(xí)算法.

      4 數(shù)值仿真

      例1考慮帶有1 個(gè)領(lǐng)導(dǎo)者,3 個(gè)追隨者的分?jǐn)?shù)階多自主體系統(tǒng),網(wǎng)絡(luò)拓?fù)鋱D如圖1.

      圖1 多自主體系統(tǒng)網(wǎng)絡(luò)拓?fù)鋱D(1 個(gè)領(lǐng)導(dǎo)者,3 個(gè)追隨者)Fig.1 The net topology of the multi-agent system (1 leader,3 followers)

      選取 α=0.95,A=[0 1 0;1 0 1;0 1 0],B=[1 0 0;0 0 0;0 0 0]f(xi)=?2sin(xi)+tanh(xi),i=0,1,2,3,初始狀態(tài)x0(0)=5,x1(0)=?3,x2(0)=?1,x3(0)=2.8,時(shí)間步長(zhǎng)h=0.001 s.若無(wú)任何控制器作用,各自主體的軌跡如圖2.

      圖2 無(wú)控制器作用時(shí),各自主體的狀態(tài)軌跡(1 個(gè)領(lǐng)導(dǎo)者,3 個(gè)追隨者)Fig.2 State trajectories of each agent without controllers (1 leader,3 followers)

      設(shè)置基于周期間歇的事件觸發(fā)策略:T=3.5 s,ρ≈0.143,g(t)=e(t)?θδ(t),取 θ=0.06,權(quán)值矩陣的初值在區(qū)間[-0.025,0.025]中隨機(jī)選取,并歸一化處理,其他網(wǎng)絡(luò)參數(shù)設(shè)置如表1.

      表1 網(wǎng)絡(luò)參數(shù)設(shè)置Table 1 Values of networks’ parameters

      在該策略控制作用下的數(shù)值仿真結(jié)果如圖3~5 所示.圖3為各自主體的狀態(tài)軌跡圖,表示系統(tǒng)約在10 s 達(dá)到主-從一致的狀態(tài).圖4為全局狀態(tài)測(cè)量誤差 ||e(t)||及事件觸發(fā)閾值的變化曲線,可看出在接近9 s的時(shí)候||e(t)||便趨于0.圖5為基于周期間歇的事件觸發(fā)時(shí)刻圖,描述了在0~18 s 中事件觸發(fā)時(shí)刻的具體分布:0~3 s,3.5~6.5 s,7~10 s,10.5~13.5 s,14~17 s,17.5~18 s為控制器工作時(shí)間;3~3.5 s,6.5~7 s,10~10.5 s,13.5~14 s,17~17.5 s為控制器休息時(shí)間.

      圖3 各自主體的狀態(tài)軌跡(1 個(gè)領(lǐng)導(dǎo)者,3 個(gè)追隨者)Fig.3 State trajectories of each agent (1 leader,3 followers)

      圖4 ‖e(t)‖及觸發(fā)閾值變化曲線(1 個(gè)領(lǐng)導(dǎo)者,3 個(gè)追隨者)Fig.4 The error and the trigger threshold (1 leader,3 followers)

      圖5 周期間歇事件觸發(fā)時(shí)刻分布Fig.5 The event-trigger moment distribution of periodic intermittence

      注5本文將間歇的事件觸發(fā)機(jī)制有機(jī)整合起來(lái),研究了分?jǐn)?shù)階多自主體系統(tǒng)的最優(yōu)主-從一致性.目前該方向僅有少量成果.文獻(xiàn)[20]采用了間歇事件觸發(fā)策略,對(duì)分?jǐn)?shù)階多自主體系統(tǒng)進(jìn)行了有界性分析,對(duì)于一致性的研究尚未有文獻(xiàn)涉及.

      例2考慮帶有1 個(gè)領(lǐng)導(dǎo)者,4 個(gè)追隨者的分?jǐn)?shù)階多自主體系統(tǒng),拓?fù)浣Y(jié)構(gòu)如圖6.

      圖6 多自主體系統(tǒng)網(wǎng)絡(luò)拓?fù)鋱D(1 個(gè)領(lǐng)導(dǎo)者,4 個(gè)追隨者)Fig.6 The net topology of the multi-agent system (1 leader,4 followers)

      選取α=0.86,A=[0 1 0 1;1 0 1 0;0 1 0 0;1 0 0 0],B=[1 0 0 0;0 0 0 0;0 0 0 0;0 0 0 1],f(xi)=tanh(0.01xi)?2cos(xi),i=0,1,2,3,4,初始狀態(tài)x0(0)=5,x1(0)=4,x2(0)=3,x3(0)=2,x4(0)=6,時(shí)間步長(zhǎng)h=0.001 s.若無(wú)任何控制器作用,各自主體的軌跡如圖7所示.

      圖7 無(wú)控制器作用時(shí),各自主體的狀態(tài)軌跡(1 個(gè)領(lǐng)導(dǎo)者,4 個(gè)追隨者)Fig.7 State trajectories of each agent without controllers (1 leader,4 followers)

      設(shè)置基于周期間歇的事件觸發(fā)策略:ρ=0,g(t)=‖e(t)‖?e?0.5θt,即事件觸發(fā)策略.選取參數(shù)θ=1.9,其他網(wǎng)絡(luò)參數(shù)如同例1.數(shù)值仿真結(jié)果如圖8~10 所示.圖8為本文所設(shè)計(jì)控制器作用下各自主體的狀態(tài)軌跡圖.由圖8看出,系統(tǒng)在不到3 s的時(shí)間內(nèi)就達(dá)到了主-從一致.圖9為全局狀態(tài)測(cè)量誤差‖e(t)‖及事件觸發(fā)閾值的變化曲線,其表明系統(tǒng)誤差在慢慢變小,并在3 s 后非常接近于0.圖10為事件觸發(fā)時(shí)刻圖,描述了0~12 s 內(nèi)事件觸發(fā)的具體時(shí)刻分布,觸發(fā)40 次.

      圖8 各自主體的狀態(tài)軌跡(1 個(gè)領(lǐng)導(dǎo)者,4 個(gè)追隨者)Fig.8 State trajectories of each agent (1 leader,4 followers)

      圖9 ||e(t)||及觸發(fā)閾值變化曲線(1 個(gè)領(lǐng)導(dǎo)者,4 個(gè)追隨者)Fig.9 The error and the trigger threshold (1 leader,4 followers)

      圖10 事件觸發(fā)時(shí)刻分布Fig.10 The event-trigger moment distribution

      注6圖11展示了文獻(xiàn)[16]中控制器作用下各自主體的狀態(tài)軌跡.對(duì)比圖8和圖11,網(wǎng)絡(luò)擬合控制器將系統(tǒng)趨于一致的速度提高了不止1 s.圖12為文獻(xiàn)[16]控制器下系統(tǒng)達(dá)到主-從一致過(guò)程中的全局狀態(tài)測(cè)量誤差變化情況.圖13為事件觸發(fā)時(shí)刻圖,描述了0~12 s 內(nèi)事件觸發(fā)的具體時(shí)刻分布,觸發(fā)104 次.通過(guò)圖10和圖13可明顯看出,在系統(tǒng)達(dá)到主-從一致的過(guò)程中本文所設(shè)計(jì)控制器作用下的事件觸發(fā)次數(shù)較少,一定程度上減少了通訊成本.

      圖11 文獻(xiàn)[16]控制器下,各自主體的狀態(tài)軌跡圖Fig.11 State trajectories of each agent under ref.[16]

      圖12 ||e(t)||及觸發(fā)閾值變化曲線Fig.12 The error ||e(t)|| and the trigger threshold

      圖13 事件觸發(fā)時(shí)刻分布Fig.13 The event-trigger moment distribution

      5 總 結(jié)

      本文借助分?jǐn)?shù)階微分的一階近似逼近和強(qiáng)化學(xué)習(xí)中的actor-critic 算法,研究了在控制器周期間歇時(shí),分?jǐn)?shù)階多自主體系統(tǒng)在事件觸發(fā)策略下的最優(yōu)主-從一致性問(wèn)題,最終設(shè)計(jì)出基于actor-critic 算法的控制策略,并通過(guò)仿真驗(yàn)證了其有效性.

      附 錄

      Actor-critic 近似最優(yōu)控制算法整體框架如下:

      輸入:actor 模型πWai,Yai(δi),critic 模型VWci,Yci(xi,ui,uj),i=1,2,···,N.

      1 Fori=1,2,···,N

      2 初始化狀態(tài)xi,得到初始 δi,初始化參數(shù)Wai,Yai,Wci,Yci

      3 End for

      4 Fort∈[kT,(k+1)T)

      5 Ift∈[kT,(k+1?ρ)T],即控制器處于工作時(shí)間

      6 Fori=1,2,···,N

      7 遵循策略πWai,Yai(δi),得到控制ui

      8 在ui的作用下,自主體i得到新?tīng)顟B(tài)x′i以 及回報(bào)ri=Vi

      9 End for

      10 計(jì)算全局狀態(tài)誤差δ(t)=(δT1(t),δT2(t),···,δTN(t))T

      11 全局狀態(tài)測(cè)量誤差e(t)=(eT1(t),eT2(t),···,eTN(t))T

      12 If 系統(tǒng)達(dá)到事件觸發(fā)條件的閾值:g(e(t),δ(t),θ,β,t)≥0

      13 Fori=1,2,···,N

      14 If 自主體i的神經(jīng)網(wǎng)絡(luò)滿足網(wǎng)絡(luò)誤差閾值

      15 更新網(wǎng)絡(luò)權(quán)重,得到新的策略πW′ai,Yai(δi)

      16Wai←Wai+βai?aiπWai,Yai(δi)

      17Yai←Yai+βai?aiπWai,Yai(δi)

      18Wci←Wci+βci?ciVWci,Yci(xi,ui,uj)

      19Yci←Yci+βci?ciVWci,Yci(xi,ui,uj)

      20 End if

      21 End for

      22 End if

      23 Else,即控制器處于休息時(shí)間

      24 Fori=1,2,···,N

      25 根據(jù)ui=0時(shí)的狀態(tài)方程計(jì)算得出自主體i的新?tīng)顟B(tài)x′i

      26 End for

      27 End if

      28 End for

      猜你喜歡
      間歇領(lǐng)導(dǎo)者一致性
      關(guān)注減污降碳協(xié)同的一致性和整體性
      公民與法治(2022年5期)2022-07-29 00:47:28
      間歇供暖在散熱器供暖房間的應(yīng)用
      煤氣與熱力(2022年4期)2022-05-23 12:44:46
      注重教、學(xué)、評(píng)一致性 提高一輪復(fù)習(xí)效率
      IOl-master 700和Pentacam測(cè)量Kappa角一致性分析
      閉目塞聽(tīng),才是領(lǐng)導(dǎo)者的第一大忌
      真誠(chéng)是領(lǐng)導(dǎo)者的最高境界
      管群間歇散熱的土壤溫度響應(yīng)與恢復(fù)特性
      基于事件觸發(fā)的多智能體輸入飽和一致性控制
      金圣節(jié)能清凈劑 節(jié)能減排領(lǐng)導(dǎo)者
      間歇精餾分離喹啉和異喹啉的模擬
      西乌| 武邑县| 芷江| 招远市| 栾川县| 安图县| 盐津县| 招远市| 新乡市| 西贡区| 西峡县| 镇赉县| 平安县| 辽源市| 深州市| 叙永县| 寿阳县| 察隅县| 沁源县| 广宁县| 五常市| 信丰县| 平舆县| 千阳县| 屏边| 定州市| 新郑市| 广安市| 隆安县| 陇西县| 太白县| 霍山县| 泰来县| 辽宁省| 瑞昌市| 凉城县| 阿城市| 贡嘎县| 治县。| 巴青县| 崇阳县|