• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      一類離散動態(tài)系統(tǒng)基于事件的迭代神經(jīng)控制

      2022-01-10 07:38:28
      工程科學(xué)學(xué)報 2022年3期
      關(guān)鍵詞:代價評判狀態(tài)

      王 鼎

      1) 北京工業(yè)大學(xué)信息學(xué)部,北京 100124 2) 計算智能與智能系統(tǒng)北京市重點實驗室,北京 100124 3) 智慧環(huán)保北京實驗室,北京100124 4) 北京人工智能研究院,北京 100124

      在許多數(shù)值計算過程中, 神經(jīng)網(wǎng)絡(luò)都被視為一種能夠用于參數(shù)學(xué)習(xí)和函數(shù)逼近的重要方法.解決非線性最優(yōu)反饋控制問題的關(guān)鍵在于如何求解復(fù)雜的Hamilton-Jacobi-Bellman (HJB)方程. 由于缺乏解析策略, 文獻[1]構(gòu)造了基于神經(jīng)網(wǎng)絡(luò)的自適應(yīng)評判算法來獲取滿意的數(shù)值結(jié)果. 近年來,基于自適應(yīng)評判結(jié)構(gòu)的控制系統(tǒng)設(shè)計受到很多關(guān)注, 在解決優(yōu)化調(diào)節(jié), 跟蹤控制, 魯棒鎮(zhèn)定, 干擾抑制, 零和博弈等方面取得不少成果[2-11]. 當(dāng)考慮實現(xiàn)過程時, 自適應(yīng)評判有三種基本類型的技術(shù), 包括啟發(fā)式動態(tài)規(guī)劃(Heuristic dynamic programming,HDP), 二次啟發(fā)式規(guī)劃(Dual HDP, DHP)和全局二次啟發(fā)式規(guī)劃(Globalized DHP, GDHP)[1]. 近年來,離散時間情形下的迭代自適應(yīng)評判結(jié)構(gòu)已被分別用以處理包含HDP[12], DHP[13]和GDHP[14]結(jié)構(gòu)的近似最優(yōu)調(diào)節(jié)問題. 進而, 目標導(dǎo)向型迭代HDP設(shè)計的理論分析也在文獻[15]中給出. 文獻[16]提出一種用于離散時間未知非仿射非線性系統(tǒng)的在線學(xué)習(xí)最優(yōu)控制方法, 并著重強調(diào)基于數(shù)據(jù)的自適應(yīng)評判設(shè)計過程. 需要注意的是, 上述這些自適應(yīng)評判算法是利用基于時間的更新方法來實現(xiàn)的,所設(shè)計的控制器在每個時刻都進行更新, 存在著一定的資源浪費現(xiàn)象.

      與經(jīng)典的時間驅(qū)動機制相比, 基于事件的方法已經(jīng)成為提高資源利用效率的先進工具. 它不僅能夠用于傳統(tǒng)的反饋鎮(zhèn)定[17]和容錯控制[18], 而且已經(jīng)在憶阻系統(tǒng)的脈沖控制中得到應(yīng)用[19]. 針對傳統(tǒng)時間驅(qū)動模式存在通信資源浪費的問題[20],文獻[21]討論了事件驅(qū)動環(huán)境下的神經(jīng)控制實現(xiàn)方法. 值得注意的是, 在基于事件的控制框架中,一般根據(jù)指定的觸發(fā)條件來更新控制信號. 文獻[22]給出一種基于廣義模糊雙曲模型的非零和博弈事件觸發(fā)設(shè)計. 另一方面, 基于文獻[23]的工作, Dong等[24]針對非線性離散時間系統(tǒng)提出一種基于事件的HDP算法. 文獻[25]則針對約束非線性系統(tǒng)基于事件的最優(yōu)控制設(shè)計進行了擴展研究. 文獻[26]設(shè)計一種實時事件驅(qū)動自適應(yīng)評判控制器, 并將其應(yīng)用于實際的電力系統(tǒng)中. 然而, 關(guān)于離散動態(tài)系統(tǒng), 目前基于事件的迭代自適應(yīng)評判控制的研究成果還比較少.

      基于以上背景, 本文提出一種適用于離散時間最優(yōu)調(diào)節(jié)問題的事件驅(qū)動迭代神經(jīng)網(wǎng)絡(luò)策略.通過收斂性分析和HDP實現(xiàn), 得到基于事件環(huán)境下的迭代自適應(yīng)評判算法. 然后為基于事件的離散時間動態(tài)系統(tǒng)設(shè)計一個實用的觸發(fā)條件. 眾所周知, 迭代自適應(yīng)評判方法在學(xué)習(xí)近似最優(yōu)控制方面具有重要意義, 而事件驅(qū)動機制在通信資源利用方面優(yōu)勢明顯. 因此, 將這兩種機制結(jié)合起來,可以得到一種有效的離散時間非線性系統(tǒng)的事件驅(qū)動迭代神經(jīng)控制方法. 也就是說, 通過本文的研究, 迭代自適應(yīng)評判控制和事件驅(qū)動控制的應(yīng)用范圍都將得到擴大.

      在本文中,R是 所有實數(shù)的集合. Rn是所有n維實向量組成的歐氏空間. 設(shè) Ω 是 Rn的一個緊集并且Ψ(Ω)是上容許控制律的集合. Rn×m是所有n×m維實矩陣組成的空間. ‖ ·‖是 Rn中向量的向量范數(shù)或Rn×m中矩陣的矩陣范數(shù).In是n×n維的單位矩陣.N 代表所有非負整數(shù)的集合, 即 {0 ,1,2,...}. 上標“T”代表轉(zhuǎn)置操作.

      1 問題描述

      本文考慮由下式描述的一類離散時間非線性動態(tài)系統(tǒng):

      式中,x(k)∈Rn是狀態(tài)變量,u(k)∈Rm是控制輸入,f(·)和g(·)是可微的并且有f(0)=0. 通常令x(0)作為初始狀態(tài). 假設(shè)f+gu在 包含原點的集合 Ω ?Rn上是Lipschitz連續(xù)的. 此外,假設(shè)系統(tǒng)(1)可以在集合Ω上借助一個狀態(tài)反饋控制律u(k)=μ(x(k))來鎮(zhèn)定.

      A(i+1)(x(k))-A(i)(x(k)), 最終可以得到.

      即有

      考慮到 ζ (x(sj))的容許性. 可知對于任意的迭代指標i, 都有A(i+1)(x(k))≤J成立. 由于式(11)中的迭代代價函數(shù)J(i+1)(x(k))包含了最小化運算, 可以進一步得到J(i+1)(x(k))≤A(i+1)(x(k))≤J. 于是, 考慮到代價函數(shù)的非負性, 可以得到 0 ≤J(i)(x(k))≤J ,i∈ N.證畢.

      定理2迭代代價函數(shù)序列 {J(i)}是非減的, 即

      證明. 為了方便起見, 定義一個新的序列{B(i)}且初始值B(0)(·)=0. 該序列中的元素更新方式如下:

      則有

      因此, 可以得到對于任意i∈N, 都有成立, 這樣就完成了數(shù)學(xué)歸納證明.

      考慮到式(11)中代價函數(shù)J(i)(x(k))的導(dǎo)出方式, 則有J(i)(x(k))≤B(i)(x(k)). 因此, 最終得到不等式J(i)(x(k))≤B(i)(x(k))≤J(i+1)(x(k)). 證畢.

      根據(jù)定理1和定理2, 迭代代價函數(shù)序列{J(i)}是收斂的. 令當(dāng)i→∞時的迭代代價函數(shù)為J(∞).考慮式(11)且根據(jù)定理2的結(jié)論, 則有

      當(dāng)i→ ∞時, 進一步有

      反之, 根據(jù)式(11)和定理2, 有下式成立:

      當(dāng)i→ ∞時, 可得對于任意的 μ (x(sj)), 都有

      于是, 可得

      綜合式(20)和(23),最終得到

      比較式(7)和(24), 可以得到迭代序列 {J(i)}的極限, 即J(∞), 正是代價函數(shù)的最優(yōu)值. 因此, 有成 立 . 同 理 , 當(dāng)i→ ∞時, 也有成立, 這可以看做一個推論.

      2.2 基于神經(jīng)網(wǎng)絡(luò)的HDP技術(shù)實現(xiàn)

      在實現(xiàn)迭代自適應(yīng)評判算法時, 需要建立兩個神經(jīng)網(wǎng)絡(luò), 即評判網(wǎng)絡(luò)和執(zhí)行網(wǎng)絡(luò), 分別用于輸出近似代價函數(shù)和近似控制律.

      評判網(wǎng)絡(luò)輸出迭代代價函數(shù)的近似值, 即

      結(jié)合式(12), 訓(xùn)練誤差準則為

      這里涉及的權(quán)重矩陣更新方式為

      式中, ηc>0是評判網(wǎng)絡(luò)的學(xué)習(xí)率,l是內(nèi)循環(huán)的迭代指標. 其中是權(quán)重矩陣的第l次迭代值.

      執(zhí)行網(wǎng)絡(luò)輸出迭代控制函數(shù)的近似值, 即

      值得注意的是, 執(zhí)行網(wǎng)絡(luò)的輸入是基于事件的狀態(tài)x(sj), 這與傳統(tǒng)評判網(wǎng)絡(luò)的輸入(基于時間的狀態(tài))不同. 學(xué)習(xí)過程的誤差準則為

      其中, 根據(jù)式(10)可以直接計算 μ(i)(x(sj)). 相似地,執(zhí)行網(wǎng)絡(luò)的權(quán)重更新算法為

      式中, ηa> 0是需要設(shè)計的學(xué)習(xí)率參數(shù).

      為清楚起見, 圖1給出離散時間非線性系統(tǒng)基于事件的迭代HDP控制的結(jié)構(gòu)簡圖. 其中, 實線代表信號流向, 虛線是兩個神經(jīng)網(wǎng)絡(luò)的反向傳播路徑. 值得注意的是, 狀態(tài)信息被傳遞到基于事件的模塊用于轉(zhuǎn)換信號狀態(tài), 傳遞到被控對象用于更新系統(tǒng)狀態(tài), 傳遞到評判網(wǎng)絡(luò)用于計算代價函數(shù). 因此, 系統(tǒng)狀態(tài)組件包含三個重要角色.

      圖1 離散動態(tài)系統(tǒng)基于事件的迭代HDP框架簡圖Fig.1 Simple diagram of the event-based iterative heuristic dynamic programming (HDP) framework with discrete dynamic plants

      2.3 事件觸發(fā)條件設(shè)計

      為了確定非線性離散動態(tài)系統(tǒng)的具體事件觸發(fā)條件, 這里給出文獻[23-25]中使用的如下假設(shè). 值得注意的是, 根據(jù)式(3),x(k+1)是關(guān)于x(k)和e(k)的函數(shù).

      假設(shè)1范數(shù)不等式成立, 其中,x(k+1)由式(3)給出, 這里的正常數(shù) β ∈(0,0.5).

      定理3如果假設(shè)1成立, 則觸發(fā)條件

      能夠保證基于事件的控制器設(shè)計的可用性.

      證明.考慮到式(3)給出的動態(tài)系統(tǒng)和假設(shè)1,可以得到

      使用同樣的方法, 易知

      然后, 結(jié)合式(32)和式(33), 則有

      利用e(sj)=0, 并如同式(34)一樣擴展 ||e(k)||, 最終可以得到

      定理3提出的觸發(fā)條件與假設(shè)1中的采樣狀態(tài)和預(yù)先指定的常數(shù)密切相關(guān), 因此并不是唯一的. 這個條件是本文提出的事件驅(qū)動迭代自適應(yīng)評判控制框架的設(shè)計基礎(chǔ). 為了表明觸發(fā)條件的作用, 圖2給出了執(zhí)行迭代HDP算法之后的事件驅(qū)動控制實現(xiàn), 其中,是已獲得的近似最優(yōu)控制器, 也就是用于事件驅(qū)動設(shè)計的實際控制律.圖2的藍色虛線代表下一步迭代的狀態(tài), 要與當(dāng)前的狀態(tài)區(qū)分. 當(dāng)觸發(fā)條件得以滿足時(轉(zhuǎn)向“Y”), 控制信號仍然保持之前的值然而, 當(dāng)觸發(fā)條件不被滿足時(轉(zhuǎn)向“N”), 控制信號將通過執(zhí)行網(wǎng)絡(luò)更新成為經(jīng)過零階保持器的作用之后, 事件驅(qū)動控制信號或中 的一 個將 被轉(zhuǎn) 換成最 終就 可以應(yīng)用于原始被控系統(tǒng).

      圖2 執(zhí)行迭代HDP算法之后的事件驅(qū)動控制實現(xiàn)過程Fig.2 Event-based control implementation process after conducting the iterative HDP algorithm

      3 仿真研究

      本節(jié)給出將基于事件迭代自適應(yīng)評判方法應(yīng)用到一些特定動態(tài)系統(tǒng)的仿真研究, 以驗證近似最優(yōu)控制性能.

      例1考慮質(zhì)量彈簧阻尼器系統(tǒng)的離散化形式[24]

      式中, 狀態(tài)向量為x(k)=[x1(k),x2(k)]T, 控制變量是u(k). 為了解決基于事件的最優(yōu)調(diào)節(jié)問題, 代價函數(shù)中的效用參數(shù)分別選為Q=0.01I2和P=I.

      通過將網(wǎng)絡(luò)結(jié)構(gòu)預(yù)先分別設(shè)定為2-8-1(輸入層, 隱藏層, 輸出層神經(jīng)元的個數(shù))和2-8-1, 然后根據(jù)式(27)和式(30)在迭代框架中訓(xùn)練評判網(wǎng)絡(luò)和執(zhí)行網(wǎng)絡(luò). 在訓(xùn)練過程中, 選擇初始狀態(tài)x(0)=[1,0.5]T并且取學(xué)習(xí)率為 ηc= ηa=0.1. 評判網(wǎng)絡(luò)和執(zhí)行網(wǎng)絡(luò)的初始權(quán)重分別在 [- 0.1,0.1]和 [- 0.5,0.5]中隨機選取. 特別地, 需要將基于事件的機制應(yīng)用于執(zhí)行網(wǎng)絡(luò). 采用迭代HDP算法進行290輪迭代, 每輪迭代設(shè)定2000次訓(xùn)練. 如果達到預(yù)先指定的精度 ? =10-6, 就結(jié)束評判網(wǎng)絡(luò)和執(zhí)行網(wǎng)絡(luò)的訓(xùn)練, 即獲得滿意的學(xué)習(xí)效果. 圖3給出了迭代代價函數(shù)的收斂趨勢, 也驗證了定理1和定理2中的陳述.

      圖3 迭代代價函數(shù)的收斂性(例1)Fig.3 Convergence of the iterative cost function (Example 1)

      在基于事件的控制設(shè)計中, 令 β =0.1并且指定觸發(fā)閾值表達式(36)具體如下:

      為了與傳統(tǒng)時間驅(qū)動方法進行比較, 執(zhí)行兩種情況, 即事件驅(qū)動模式和時間驅(qū)動模式下的迭代HDP算法, 其中情況1(Case1)是本文提出的事件驅(qū)動模式, 情況2(Case2)是文獻[12]中提出的傳統(tǒng)時間驅(qū)動模式. 圖4給出了應(yīng)用事件驅(qū)動迭代自適應(yīng)評判方法時的狀態(tài)響應(yīng), 其中也給出了應(yīng)用傳統(tǒng)迭代HDP算法時的狀態(tài)軌跡. 這里, 可以清楚地看到, 正如傳統(tǒng)的迭代HDP算法一樣, 基于事件情況下的系統(tǒng)狀態(tài)也能夠最終收斂到零向量.順便指出, 觸發(fā)閾值的變化曲線如圖5所示, 它隨著系統(tǒng)狀態(tài)的變化也趨于零. 此外, 與傳統(tǒng)的迭代HDP算法相比, 基于事件方法的控制曲線呈階梯狀, 如圖6所示. 在仿真中, 基于時間情形下的控制輸入更新了500個時間步, 然而在基于事件情況下, 僅僅需要222個時間步, 對應(yīng)的驅(qū)動時刻間隔如圖7所示. 因此, 這就驗證了基于事件的迭代自適應(yīng)評判方法的優(yōu)越之處, 即通信資源的利用效率確實得以提高.

      圖4 兩種情況下的狀態(tài)軌跡(例1)Fig.4 State trajectory of the two cases (Example 1)

      圖5 觸發(fā)閾值(例1)Fig.5 Triggering threshold (Example 1)

      圖6 兩種情況下的控制輸入(例1)Fig.6 Control input of the two cases (Example 1)

      圖7 驅(qū)動時刻間隔(例1)Fig.7 Triggering interval (Example 1)

      例2這里引入非線性因素, 考慮如下離散時間非線性系統(tǒng)

      式中, 狀態(tài)向量為x(k)=[x1(k),x2(k)]T, 控制變量是u(k). 為了解決事件驅(qū)動最優(yōu)控制問題, 這里除了P=2I,x(0)=[1,-1]T, 以及在 [- 1,1]中隨機選擇執(zhí)行網(wǎng)絡(luò)的初始權(quán)值之外, 其他主要參數(shù)的設(shè)置都與例1一樣. 在進行300輪迭代運算之后, 代價函數(shù)的收斂性如圖8所示. 與文獻[24]不同的是, 本文的方法可以很好地觀察迭代代價函數(shù)的收斂性.當(dāng)關(guān)注值函數(shù)學(xué)習(xí)過程時, 對收斂性能的觀測就很有意義. 實際上, 這也是事件驅(qū)動環(huán)境下離散動態(tài)系統(tǒng)迭代自適應(yīng)評判算法的優(yōu)點之一.

      圖8 迭代代價函數(shù)的收斂性(例2)Fig.8 Convergence of the iterative cost function (Example 2)

      分別考慮基于事件和基于時間的控制模式, 圖9給出兩種情況下的狀態(tài)軌跡. 可以看到, 圖9中的兩條軌跡非常接近, 都具有很好的穩(wěn)定效果. 此外,觸發(fā)閾值和控制輸入分別如圖10和圖11所示. 與狀態(tài)曲線不同, 兩種情況下的控制軌跡具有明顯區(qū)別. 在這個例子中, 基于時間和基于事件框架的控制輸入分別更新了300次和85次, 這里的驅(qū)動時刻間隔如圖12所示. 也就是說, 事件驅(qū)動結(jié)構(gòu)使得控制信號更新次數(shù)下降了71.67%. 上述仿真結(jié)果表明, 基于事件的設(shè)計策略在保持較好穩(wěn)定性能的前提下, 可以有效地減少控制信號的更新次數(shù).

      圖9 兩種情況下的狀態(tài)軌跡(例2)Fig.9 State trajectory of the two cases (Example 2)

      圖10 觸發(fā)閾值(例2)Fig.10 Triggering threshold (Example 2)

      圖11 兩種情況下的控制輸入(例2)Fig.11 Control input of the two cases (Example 2)

      圖12 驅(qū)動時刻間隔(例2)Fig.12 Triggering interval (Example 2)

      4 結(jié)論

      本文提出一種基于事件的迭代神經(jīng)控制方法,用以解決離散動態(tài)系統(tǒng)的最優(yōu)調(diào)節(jié)問題. 通過收斂性分析, 神經(jīng)網(wǎng)絡(luò)實現(xiàn)和觸發(fā)閾值設(shè)計, 構(gòu)造基于事件迭代自適應(yīng)評判算法的完整框架. 通過仿真研究, 驗證了事件驅(qū)動迭代神經(jīng)控制方法的優(yōu)越性能.

      猜你喜歡
      代價評判狀態(tài)
      交流與評判
      狀態(tài)聯(lián)想
      基于學(xué)習(xí)的魯棒自適應(yīng)評判控制研究進展
      生命的另一種狀態(tài)
      愛的代價
      海峽姐妹(2017年12期)2018-01-31 02:12:22
      代價
      熱圖
      家庭百事通(2016年3期)2016-03-14 08:07:17
      堅持是成功前的狀態(tài)
      山東青年(2016年3期)2016-02-28 14:25:52
      詩歌評判與詩歌創(chuàng)作
      成熟的代價
      铜川市| 顺昌县| 徐水县| 新乐市| 正安县| 高尔夫| 美姑县| 开平市| 清镇市| 通辽市| 拉孜县| 都江堰市| 禹城市| 彰化市| 玉林市| 克山县| 新巴尔虎右旗| 嘉祥县| 昌平区| 灵山县| 青龙| 双柏县| 长治县| 宜章县| 鹰潭市| 鹿邑县| 游戏| 高碑店市| 江安县| 大渡口区| 迁西县| 新巴尔虎右旗| 云梦县| 宜兰市| 绵竹市| 且末县| 株洲县| 南木林县| 瓮安县| 玉田县| 上思县|