• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      基于強(qiáng)化學(xué)習(xí)的部分線性離散時(shí)間系統(tǒng)的最優(yōu)輸出調(diào)節(jié)

      2022-09-30 12:43:42龐文硯范家璐LEWISFrankLeroy
      自動(dòng)化學(xué)報(bào) 2022年9期
      關(guān)鍵詞:調(diào)節(jié)規(guī)劃算法

      龐文硯 范家璐 姜 藝 LEWIS Frank Leroy

      輸出調(diào)節(jié)問題是一種對(duì)于線性和非線性動(dòng)態(tài)系統(tǒng),設(shè)計(jì)反饋控制器從而使系統(tǒng)實(shí)現(xiàn)漸近跟蹤和干擾抑制的問題[1-5].輸出調(diào)節(jié)問題的顯著特征則是參考輸入和干擾由已知的外系統(tǒng)自主微分或差分方產(chǎn)生的[5].目前,已有學(xué)者研究了連續(xù)時(shí)間系統(tǒng)的輸出調(diào)節(jié)問題[6-8].文獻(xiàn)[5]對(duì)線性和非線性連續(xù)時(shí)間系統(tǒng)的輸出調(diào)節(jié)問題給出了解決框架.文獻(xiàn)[6]研究了一類加入瞬態(tài)性能概念的輸出調(diào)節(jié)問題,詳細(xì)研究了可解性條件和調(diào)節(jié)器結(jié)構(gòu)等問題.而文獻(xiàn)[5-6]都需要在系統(tǒng)的動(dòng)態(tài)模型參數(shù)已知的情況下,解決其輸出調(diào)節(jié)問題.

      強(qiáng)化學(xué)習(xí)作為一種機(jī)器學(xué)習(xí)方法,是以目標(biāo)為導(dǎo)向的學(xué)習(xí)工具,其中智能體或是決策者通過與環(huán)境交互為最優(yōu)化長(zhǎng)期獎(jiǎng)勵(lì)來學(xué)習(xí)控制策略[9-11],可主要解決控制領(lǐng)域中的最優(yōu)控制問題,其中包括最優(yōu)調(diào)節(jié),最優(yōu)跟蹤以及最優(yōu)協(xié)同問題.最優(yōu)控制問題是一類通過使得代價(jià)函數(shù)或性能指標(biāo)達(dá)到最優(yōu)而為動(dòng)態(tài)系統(tǒng)尋找控制律的問題.典型的最優(yōu)控制問題是需要系統(tǒng)的模型參數(shù)完全已知,問題的求解是離線的,其不能適應(yīng)動(dòng)態(tài)系統(tǒng)中模型參數(shù)的變化和不確定性,因此數(shù)據(jù)驅(qū)動(dòng)的強(qiáng)化學(xué)習(xí)方法也就應(yīng)運(yùn)而生,廣泛應(yīng)用于解決離散時(shí)間和連續(xù)時(shí)間不確定系統(tǒng)的最優(yōu)控制問題.文獻(xiàn)[12]利用數(shù)據(jù)驅(qū)動(dòng)的強(qiáng)化學(xué)習(xí)方法利用沿著系統(tǒng)的數(shù)據(jù)解決了線性系統(tǒng)的最優(yōu)跟蹤問題,又因?yàn)橄到y(tǒng)的狀態(tài)數(shù)據(jù)往往難以獲得,文獻(xiàn)[13]提出僅利用輸入輸出數(shù)據(jù),利用強(qiáng)化學(xué)習(xí)中的策略迭代和值迭代算法在線尋得最優(yōu)控制律從而實(shí)現(xiàn)最優(yōu)跟蹤.這2 篇文獻(xiàn)是針對(duì)于線性系統(tǒng),文獻(xiàn)[14]則針對(duì)于非線性系統(tǒng),采用基于Actor-Critic 結(jié)構(gòu)的強(qiáng)化學(xué)習(xí)方法數(shù)據(jù)驅(qū)動(dòng)在線學(xué)習(xí)跟蹤哈密頓-雅可比-貝爾曼方程(Hamilton-Jacobi-Bellman,HJB),從而解決最優(yōu)跟蹤問題.由于H無窮問題也可看作是一種最優(yōu)控制問題,主要是分別找出最優(yōu)反饋控制律和最優(yōu)擾動(dòng)控制律的一類問題,因此強(qiáng)化學(xué)習(xí)也應(yīng)用于該問題的解決.針對(duì)于H無窮控制問題,對(duì)于線性系統(tǒng)模型參數(shù)未知的文獻(xiàn)[15],該文采用強(qiáng)化學(xué)習(xí)離線策略控制方法進(jìn)行解決,并證明了探測(cè)噪聲會(huì)對(duì)在線策略迭代算法產(chǎn)生影響使獲得參數(shù)不準(zhǔn)確,而則不會(huì)對(duì)離線的策略迭代算法產(chǎn)生影響,同時(shí)證明了離線策略迭代算法的收斂性.文獻(xiàn)[16]則對(duì)于未知的非線性系統(tǒng),采用強(qiáng)化學(xué)習(xí)的離線策略方法學(xué)習(xí)跟蹤哈密頓-雅可比-艾薩克方程方程(Hamilton-Jacobi-Isaac,HJI)的解,在不知道系統(tǒng)模型參數(shù)的情況下解決了H無窮跟蹤控制問題,并給出所提算法的收斂性.數(shù)據(jù)驅(qū)動(dòng)的強(qiáng)化學(xué)習(xí)方法還可應(yīng)用于無線網(wǎng)絡(luò)環(huán)境下的控制問題,文獻(xiàn)[17]就針對(duì)于離散時(shí)間的網(wǎng)絡(luò)系統(tǒng)利用沿著系統(tǒng)軌跡的數(shù)據(jù)實(shí)現(xiàn)網(wǎng)絡(luò)控制系統(tǒng)的最優(yōu)跟蹤問題.數(shù)據(jù)驅(qū)動(dòng)的強(qiáng)化學(xué)習(xí)方法近年來解決了線性與非線性系統(tǒng)、連續(xù)和離散系統(tǒng)、傳統(tǒng)狀態(tài)空間控制和網(wǎng)絡(luò)控制系統(tǒng)、利用沿系統(tǒng)軌跡數(shù)據(jù)和利用輸入輸出數(shù)據(jù)等的最優(yōu)控制問題.

      前文提到傳統(tǒng)的輸出調(diào)節(jié)問題都是基于系統(tǒng)的模型參數(shù)即模型已知的前提下求解輸出調(diào)節(jié)問題.而文獻(xiàn)[7-8]則是在系統(tǒng)模型參數(shù)不確定的情況下利用數(shù)據(jù)驅(qū)動(dòng)的方法解決輸出調(diào)節(jié)問題.在文獻(xiàn)[7-8]中,對(duì)于連續(xù)時(shí)間系統(tǒng)分別采用近似動(dòng)態(tài)規(guī)劃和魯棒近似動(dòng)態(tài)規(guī)劃的方法解決了線性系統(tǒng)和部分線性系統(tǒng)的最優(yōu)輸出調(diào)節(jié)問題.由于強(qiáng)化學(xué)習(xí)是解決最優(yōu)控制問題的有力工具,前述也有許多學(xué)者采用了強(qiáng)化學(xué)習(xí)方法解決最優(yōu)跟蹤問題,現(xiàn)在另外考慮外部系統(tǒng)的干擾,把強(qiáng)化學(xué)習(xí)應(yīng)用到解決最優(yōu)輸出調(diào)節(jié)問題中.文獻(xiàn)[18]將文獻(xiàn)[7]中利用數(shù)據(jù)驅(qū)動(dòng)方法求解線性連續(xù)時(shí)間系統(tǒng)的最優(yōu)輸出調(diào)節(jié)問題拓展到線性離散時(shí)間系統(tǒng)中.本文則是針對(duì)部分線性的離散時(shí)間系統(tǒng),在具有模型參數(shù)未知的情況下,利用基于強(qiáng)化學(xué)習(xí)的離線策略更新方法數(shù)據(jù)驅(qū)動(dòng)求解最優(yōu)輸出調(diào)節(jié)問題.

      本文將數(shù)據(jù)驅(qū)動(dòng)的強(qiáng)化學(xué)習(xí)方法與最優(yōu)輸出調(diào)節(jié)問題相結(jié)合.主要貢獻(xiàn)如下: 針對(duì)于存在線性干擾和非線性不確定性的部分離散時(shí)間系統(tǒng)的最優(yōu)輸出調(diào)節(jié)問題,提出基于強(qiáng)化學(xué)習(xí)的離線策略更新算法.該方法不需要知道系統(tǒng)的模型參數(shù),只利用測(cè)量數(shù)據(jù)在線求解即可實(shí)現(xiàn)對(duì)最優(yōu)輸出調(diào)節(jié)控制律的自適應(yīng)學(xué)習(xí),即可應(yīng)對(duì)系統(tǒng)模型參數(shù)的變化,且提出的方法不僅可以抑制線性的外部干擾并且對(duì)動(dòng)態(tài)非線性不確定性存在魯棒性保證漸近跟蹤.并運(yùn)用了小增益定理說明了本文提出的方法可以保證閉環(huán)系統(tǒng)的穩(wěn)定性.

      本文結(jié)構(gòu)如下: 第1 節(jié)介紹離散時(shí)間部分線性系統(tǒng)的最優(yōu)輸出調(diào)節(jié)問題.提出最優(yōu)輸出調(diào)節(jié)問題中的兩個(gè)優(yōu)化問題,分別為靜態(tài)優(yōu)化問題和動(dòng)態(tài)優(yōu)化問題;然后將該離散時(shí)間系統(tǒng)轉(zhuǎn)化為誤差系統(tǒng),通過證明誤差系統(tǒng)的全局漸近穩(wěn)定性以推出原系統(tǒng)的最優(yōu)輸出調(diào)節(jié)問題的可解性.第2 節(jié)針對(duì)具有線性外部干擾和非線性不確定性的部分線性離散時(shí)間系統(tǒng),提出離線策略更新算法利用在線數(shù)據(jù)求解動(dòng)態(tài)規(guī)劃問題,并基于動(dòng)態(tài)規(guī)劃問題的解,用數(shù)據(jù)驅(qū)動(dòng)的方法解靜態(tài)規(guī)劃問題以此解決其最優(yōu)輸出調(diào)節(jié)問題.第3 節(jié)提供仿真結(jié)果驗(yàn)證本文方法的有效性,并進(jìn)行對(duì)比實(shí)驗(yàn),比較性能指標(biāo)突顯本文方法的優(yōu)越性.第4 節(jié)為結(jié)束語.

      符號(hào)說明及概念介紹.R+表 示非負(fù)實(shí)數(shù)集,Rn×m表示n×m維矩陣,Rn即 Rn×1,Z+表示非負(fù)整數(shù)集,?表示克羅內(nèi)克積,vec 為矩陣的拉直運(yùn)算,把矩陣按照列的順序一列接一列的組成一個(gè)長(zhǎng)向量,trace 表示矩陣的跡,Id 表示恒等函數(shù),?表示函數(shù)的復(fù)合運(yùn)算,f?g表示函數(shù)f和g的復(fù)合函數(shù),即f?g(x)=f(g(x)),λmax(λmin)表示矩陣的最大(最小) 特征值,|x|表示向量x的歐幾里得范數(shù),‖A‖表示矩陣A誘導(dǎo)歐幾里得范數(shù),xT表示向量x的轉(zhuǎn)置.‖u‖表示 s upk>0|u(k)|.

      K類函數(shù)[19].該類函數(shù)為一個(gè)嚴(yán)格遞增連續(xù)函數(shù)α: R+→R+且α(0)=0,其可以表示為α∈K.

      K∞類函數(shù)[19].一個(gè)函數(shù)為K類函數(shù),當(dāng)s →∞時(shí)α(s)→∞,那么該類函數(shù)是K∞類函數(shù),其可以表示為α∈K∞.

      KL類函數(shù)[19].一個(gè)連續(xù)函數(shù)β: R+×R+→R+.如果對(duì)于每個(gè)特定的t∈R+,β(·,t)均是一個(gè)K類函數(shù),并且對(duì)于每個(gè)特定的s>0,β(s,·)遞減并滿足 l imt→∞β(s,t)=0,那么就稱β為KL類函數(shù),并表示為β∈KL.

      1 控制問題描述

      1.1 離散時(shí)間部分線性系統(tǒng)被控對(duì)象

      考慮一組離散時(shí)間部分線性系統(tǒng):

      1.2 輸出調(diào)節(jié)問題中的兩個(gè)規(guī)劃問題

      受文獻(xiàn)[7-8,18]啟示,對(duì)于最優(yōu)輸出調(diào)節(jié)問題的求解,可拆分成兩個(gè)規(guī)劃問題,分別為受約束的靜態(tài)規(guī)劃問題和動(dòng)態(tài)規(guī)劃問題.通過解靜態(tài)規(guī)劃問題1可以確定輸出調(diào)節(jié)器方程的解X*,U*,解動(dòng)態(tài)規(guī)劃問題2 可以確定最優(yōu)反饋控制增益K*,則可得到最優(yōu)控制器u*(k)=-K*(x(k)-X*v(k))+U*v(k).

      問題1.靜態(tài)規(guī)劃問題

      通過解下面的靜態(tài)規(guī)劃問題確定線性調(diào)節(jié)器方程的唯一解(X,U)

      式中,Q=QT>0,R=RT>0.式(13)有約束的規(guī)劃問題等價(jià)于下面的形式:

      下面先介紹當(dāng)系統(tǒng)模型參數(shù)已知的情況下,靜態(tài)規(guī)劃問題的解,即是線性調(diào)節(jié)器方程的解,并將靜態(tài)規(guī)劃問題1 重新改寫形式.此部分為第二部分?jǐn)?shù)據(jù)驅(qū)動(dòng)求解靜態(tài)規(guī)劃問題做鋪墊.

      且 Λ21是非奇異矩陣.

      將式(18)進(jìn)行展開計(jì)算,并把χ中的調(diào)節(jié)器方程的解 ve c(X) 和 ve c(U)分離出來,可以得到式(19).

      定理1.通過解式(19),可得線性調(diào)節(jié)器方程的解(X,U):

      問題2.動(dòng)態(tài)規(guī)劃問題

      解決如下問題來確定最優(yōu)反饋增益K*:

      時(shí)停止,否則j←j+1 返回2).ε是一個(gè)數(shù)值很小的正數(shù).

      注3.動(dòng)態(tài)規(guī)劃問題的求解是針對(duì)于線性系統(tǒng),即不考慮系統(tǒng)存在非線性不確定性時(shí),求得的最優(yōu)反饋增益.第1.3 節(jié)對(duì)該最優(yōu)反饋控制器對(duì)非線性不確定性是否存在魯棒性,即是否可以全局漸近鎮(zhèn)定誤差系統(tǒng)(10)~ (12)進(jìn)行說明.

      1.3 系統(tǒng)最優(yōu)輸出調(diào)節(jié)問題的可解性

      本節(jié)將原系統(tǒng)最優(yōu)輸出調(diào)節(jié)問題的可解性轉(zhuǎn)化為誤差系統(tǒng)的全局漸近穩(wěn)定性,通過提出兩個(gè)定理進(jìn)行說明.定理1 說明了最優(yōu)輸出調(diào)節(jié)控制器使得閉環(huán)誤差系統(tǒng)是全局漸近穩(wěn)定的,定理2 說明了原系統(tǒng)的最優(yōu)輸出調(diào)節(jié)問題是可解的.

      成立時(shí),關(guān)聯(lián)的誤差系統(tǒng)在原點(diǎn)處全局漸近穩(wěn)定.□

      注7.子系統(tǒng)中的輸入-輸出增益,是子系統(tǒng)中輸入-輸出增益.當(dāng)兩個(gè)子系統(tǒng)都是強(qiáng)無界能觀和輸入輸出穩(wěn)定的,且在輸入輸出穩(wěn)定小增益條件成立下,兩個(gè)子系統(tǒng)的輸出都趨于零,那么由xˉ 子系統(tǒng)的輸入狀態(tài)穩(wěn)定性質(zhì)和子系統(tǒng)的零偏差強(qiáng)無界能觀性質(zhì),可以知道兩個(gè)關(guān)聯(lián)系統(tǒng)的狀態(tài)也是趨于零的.

      原系統(tǒng)最優(yōu)輸出調(diào)節(jié)問題的可解性得以證明后,下部分將對(duì)該最優(yōu)控制器進(jìn)行學(xué)習(xí).第2 節(jié)針對(duì)于具有未知系統(tǒng)模型參數(shù)的離散時(shí)間的部分線性系統(tǒng),用基于強(qiáng)化學(xué)習(xí)的數(shù)據(jù)驅(qū)動(dòng)方法,利用測(cè)量數(shù)據(jù)在線求解其最優(yōu)輸出調(diào)節(jié)問題.

      2 數(shù)據(jù)驅(qū)動(dòng)在線求解最優(yōu)輸出調(diào)節(jié)問題

      強(qiáng)化學(xué)習(xí)中學(xué)習(xí)的方式分為離線策略學(xué)習(xí)算法和在線策略學(xué)習(xí)算法兩種.離線策略更新算法中的行為策略和目標(biāo)策略不是同一策略,行為策略用于產(chǎn)生數(shù)據(jù),目標(biāo)策略則是被評(píng)估和提高的策略.而在線策略算法則是行為與目標(biāo)策略一致.本文提出一個(gè)僅利用在線數(shù)據(jù)基于強(qiáng)化學(xué)習(xí)的離線策略的數(shù)據(jù)驅(qū)動(dòng)方法,用于求解離散時(shí)間部分線性系統(tǒng)的最優(yōu)輸出調(diào)節(jié)問題.由于本文系統(tǒng)的模型參數(shù)是未知的,首先求解動(dòng)態(tài)規(guī)劃問題求得最優(yōu)反饋增益,然后基于動(dòng)態(tài)規(guī)劃問題的解,本文提出一種數(shù)據(jù)驅(qū)動(dòng)方法,在無法獲取系統(tǒng)模型參數(shù)的情況下在線求解靜態(tài)規(guī)劃問題的解.

      2.1 數(shù)據(jù)驅(qū)動(dòng)求解動(dòng)態(tài)優(yōu)化問題

      寫出k+1 時(shí)刻的值函數(shù)減去k時(shí)刻的值函數(shù),將式(32)代入,可得:

      為將上式的數(shù)據(jù)與矩陣參數(shù)進(jìn)行分離,將式(34)各項(xiàng)用克羅內(nèi)克積和矩陣的拉直運(yùn)算進(jìn)行表示,即根據(jù)aTWb=(aT?bT)vec(W),可得上式對(duì)應(yīng)的各式可以等價(jià)的表示如下:

      因此,式(34)可以用式(35)的形式表示為:

      為了對(duì)參數(shù)矩陣進(jìn)行學(xué)習(xí),將式(36) 寫成式(41)的形式,則需定義待求的參數(shù)矩陣如式(37)和數(shù)據(jù)組(38)和(39)如下,式(38)收集的是式(36)中等式右邊的t組數(shù)據(jù)組成數(shù)據(jù)向量式(39)收集的是式(36)中等式左邊的t組數(shù)據(jù)組成數(shù)據(jù)矩陣

      2.2 數(shù)據(jù)驅(qū)動(dòng)求解靜態(tài)優(yōu)化問題

      前面已經(jīng)介紹了當(dāng)模型參數(shù)已知時(shí),受約束的靜態(tài)規(guī)劃問題應(yīng)如何求解,并將原靜態(tài)規(guī)劃問題1的形式重新改寫.在此基礎(chǔ)上,下面提出數(shù)據(jù)驅(qū)動(dòng)的拉格朗日乘子法來求解式(20)這個(gè)受約束的靜態(tài)規(guī)劃問題.該方法無需知道系統(tǒng)的模型參數(shù),僅使用測(cè)量的數(shù)據(jù).

      為避免需要知道系統(tǒng)準(zhǔn)確的模型參數(shù),根據(jù)動(dòng)態(tài)規(guī)劃問題的解來求得靜態(tài)規(guī)劃問題的解.通過解動(dòng)態(tài)規(guī)劃問題可以求得定義如下:

      3 仿真實(shí)驗(yàn)

      本節(jié)首先建立一個(gè)仿真實(shí)驗(yàn),來說明本文方法的有效性;然后進(jìn)行對(duì)比實(shí)驗(yàn),用本文方法與對(duì)比方法進(jìn)行仿真實(shí)驗(yàn),用評(píng)價(jià)指標(biāo)結(jié)果說明本文方法的優(yōu)越性.

      3.1 仿真實(shí)驗(yàn)參數(shù)選擇

      考慮下面這個(gè)離散時(shí)間的部分線性系統(tǒng):

      3.2 仿真結(jié)果

      在仿真實(shí)驗(yàn)中,算法2 經(jīng)過迭代學(xué)習(xí)4 次收斂,得到Pj+1=[35.8976 0.7433;0.7433 4.0401] 和增益Kj+1=[-0.3475 0.9987].學(xué)到最優(yōu)增益后找調(diào)節(jié)器方程最優(yōu)解為X=[4.281×10-17-1;-1.139-2.997]和U=[0.6888 1.9995].從而得到L=[-0.4486-0.6461].

      仿真結(jié)果見圖1~ 5.圖1 給出了算法2 的系統(tǒng)輸出、參考輸入和跟蹤誤差,圖2 給出了控制輸入.由圖1 可知,魯棒最優(yōu)輸出調(diào)節(jié)控制器在由如圖3 系統(tǒng)干擾和存在非線性不確定的情況下,仍可使得y(k) 跟蹤參考輸入r(k).圖4 給出了在學(xué)習(xí)階段P和K收斂到最優(yōu)值的收斂情況,由圖4 可知,通過4 次的迭代學(xué)習(xí)就可以求出最優(yōu)的P和K.圖5給出了誤差系統(tǒng)的狀態(tài),圖5 說明了誤差系統(tǒng)在原點(diǎn)處是全局漸近穩(wěn)定的,同時(shí)也表明閉環(huán)系統(tǒng)的穩(wěn)定性.在仿真結(jié)果中,跟蹤誤差從100 步之后明顯減小;從第120 步起,跟蹤誤差的最大數(shù)量級(jí)為10-9,控制輸入中存在的動(dòng)態(tài)非線性不確定性的大小從第10 步起的最大數(shù)量級(jí)為 1 0-9,說明跟蹤效果好,且對(duì)于動(dòng)態(tài)的非線性不確定性有良好的魯棒性.仿真結(jié)果表明,本文算法在模型參數(shù)未知、存在干擾和輸入中存在非線性不確定情況下,只利用系統(tǒng)數(shù)據(jù),就可以實(shí)現(xiàn)具有魯棒性的最優(yōu)輸出調(diào)節(jié)控制.

      圖1 系統(tǒng)輸出與參考軌跡及跟蹤誤差Fig.1 Trajectories of system output and reference and tracking error

      圖2 控制輸入軌跡Fig.2 The control input trajectory

      圖3 系統(tǒng)干擾Fig.3 The disturbance of system

      圖4 學(xué)習(xí)階段 P 和 K 的收斂情況Fig.4 The convergence of P ,K during learning phase

      圖5 誤差系統(tǒng)狀態(tài)軌跡Fig.5 The error system state trajectory

      3.3 對(duì)比實(shí)驗(yàn)

      對(duì)比實(shí)驗(yàn)1 采用本文提出的魯棒最優(yōu)輸出調(diào)節(jié)的方法來跟蹤參考信號(hào),且滿足本文的假設(shè)條件.對(duì)比實(shí)驗(yàn)2 是文獻(xiàn)[12]的方法,在模型參數(shù)未知時(shí)采用Q-學(xué)習(xí)的方法解決線性最優(yōu)二次跟蹤問題來跟蹤參考信號(hào).2 個(gè)對(duì)比實(shí)驗(yàn)的未知模型參數(shù)和參考信號(hào)相同,不同的是對(duì)比實(shí)驗(yàn)1 還在控制輸入中加入了非線性不確定性.對(duì)比實(shí)驗(yàn)仿真結(jié)果見圖6~ 7.

      圖6 對(duì)比實(shí)驗(yàn)1 仿真結(jié)果圖Fig.6 The result of comparison experiment 1

      對(duì)比實(shí)驗(yàn)1 模型為:

      圖7 對(duì)比實(shí)驗(yàn)2 仿真結(jié)果圖Fig.7 The result of comparison experiment 2

      本文用絕對(duì)誤差積分(Integral absolute error,IAE) 和均方根誤差(Root mean square error,RMSE)兩個(gè)指標(biāo)[18,26-29]來評(píng)價(jià)本仿真實(shí)驗(yàn)的控制效果,結(jié)果見表1.

      表1 對(duì)比實(shí)驗(yàn)評(píng)價(jià)指標(biāo)Table 1 Performance index of comparison experiment

      由圖6~ 7 可知,對(duì)比實(shí)驗(yàn)1 和2 都能較好地跟蹤設(shè)定值.對(duì)比實(shí)驗(yàn)1 相較于對(duì)比實(shí)驗(yàn)2 還增加了非線性不確定性,又從表1 可知,對(duì)比實(shí)驗(yàn)1 的跟蹤性能指標(biāo)較對(duì)比實(shí)驗(yàn)2 更好,這也說明了本文提出算法的優(yōu)越性.

      4 結(jié)束語

      本文提出一個(gè)基于強(qiáng)化學(xué)習(xí)的數(shù)據(jù)驅(qū)動(dòng)算法,用于解具有未知模型參數(shù)的離散時(shí)間部分線性系統(tǒng)的最優(yōu)輸出調(diào)節(jié)問題.首先將原系統(tǒng)的輸出調(diào)節(jié)問題的可解性轉(zhuǎn)化為誤差系統(tǒng)的全局漸近穩(wěn)定問題,給出了原問題的可解性說明;然后在未知系統(tǒng)模型參數(shù)的條件下,利用在線數(shù)據(jù)利用基于強(qiáng)化學(xué)習(xí)的數(shù)據(jù)驅(qū)動(dòng)的離線策略算法求解最優(yōu)反饋控制律,并給出該算法的收斂性說明.該控制律可以完成系統(tǒng)的干擾抑制和漸近跟蹤且對(duì)于系統(tǒng)中存在的非線性不確定性存在魯棒性.仿真結(jié)果驗(yàn)證了本文方法的有效性,通過對(duì)比實(shí)驗(yàn)和性能指標(biāo)的比較,說明了本文所提方法的優(yōu)越性.與跟蹤問題相比,本文方法不僅可以實(shí)現(xiàn)跟蹤,當(dāng)系統(tǒng)本身存在干擾時(shí),同時(shí)可以抑制干擾達(dá)到閉環(huán)系統(tǒng)的穩(wěn)定性.本文方法與完全線性系統(tǒng)的輸出調(diào)節(jié)問題相比,對(duì)輸入中存在的動(dòng)態(tài)非線性不確定性存在魯棒性.本文將數(shù)據(jù)驅(qū)動(dòng)的強(qiáng)化學(xué)習(xí)方法和小增益原理進(jìn)行結(jié)合,該方法可實(shí)現(xiàn)魯棒強(qiáng)化學(xué)習(xí),從而也為更多控制問題的解決提供了思路.

      猜你喜歡
      調(diào)節(jié)規(guī)劃算法
      方便調(diào)節(jié)的課桌
      2016年奔馳E260L主駕駛座椅不能調(diào)節(jié)
      基于MapReduce的改進(jìn)Eclat算法
      Travellng thg World Full—time for Rree
      進(jìn)位加法的兩種算法
      規(guī)劃引領(lǐng)把握未來
      快遞業(yè)十三五規(guī)劃發(fā)布
      商周刊(2017年5期)2017-08-22 03:35:26
      多管齊下落實(shí)規(guī)劃
      一種改進(jìn)的整周模糊度去相關(guān)算法
      可調(diào)節(jié)、可替換的takumi鋼筆
      安化县| 厦门市| 平武县| 虞城县| 敦化市| 汾阳市| 台江县| 珲春市| 温州市| 怀集县| 依兰县| 岳阳县| 孟连| 潮安县| 石河子市| 德保县| 平顺县| 桃江县| 宁陕县| 精河县| 大连市| 洪湖市| 荔浦县| 瑞丽市| 玉树县| 神池县| 阳新县| 永德县| 和田县| 武清区| 霸州市| 南陵县| 新营市| 葵青区| 安塞县| 罗平县| 白玉县| 怀化市| 始兴县| 南城县| 武功县|