• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      基于博弈論的信息物理系統(tǒng)在FDI攻擊下的控制

      2021-01-20 09:42:16李慶奎
      河南科學(xué) 2020年12期
      關(guān)鍵詞:最優(yōu)控制攻擊者增益

      王 羽, 李慶奎

      (北京信息科技大學(xué)自動(dòng)化學(xué)院,北京 100192)

      信息物理系統(tǒng)(Cyber-Physical System,CPS)是將3C技術(shù)(計(jì)算、通信、控制)與現(xiàn)代物理設(shè)備完美結(jié)合,通過嵌入式計(jì)算機(jī)對(duì)物理過程進(jìn)行感知和控制的智能系統(tǒng)[1]. 與傳統(tǒng)控制系統(tǒng)相比,CPS更加可靠、高效、實(shí)時(shí)協(xié)同. 但因?yàn)镃PS中有大量用于通信的設(shè)施和IT組件,所以CPS更容易遭受網(wǎng)絡(luò)攻擊[2-3].

      CPS的網(wǎng)絡(luò)攻擊主要分為兩類:完整性攻擊和可用性攻擊[4]. 完整性攻擊是指通過篡改傳輸數(shù)據(jù)包中的信息,以降低系統(tǒng)可靠性和安全性的攻擊方式[5]. 可用性攻擊則可阻斷CPS各部分之間數(shù)據(jù)、控制命令的正常傳輸,使某些服務(wù)被暫停甚至使系統(tǒng)癱瘓. 虛假數(shù)據(jù)注入(False Data Injection,F(xiàn)DI)攻擊是一種完整性攻擊方式,通過劫持物理設(shè)備(傳感器、控制器等)或者網(wǎng)絡(luò)信道,向系統(tǒng)注入錯(cuò)誤或無用但存在安全隱患的數(shù)據(jù)信息,破壞數(shù)據(jù)的完整性,導(dǎo)致系統(tǒng)失去穩(wěn)定甚至崩潰[6]. 與其他網(wǎng)絡(luò)攻擊相比,F(xiàn)DI攻擊更加巧妙、復(fù)雜并具有更高的隱蔽性. 針對(duì)信息物理系統(tǒng)FDI攻擊的研究大致可以分為以下三類[7].

      第一類,F(xiàn)DI攻擊的可行性分析、實(shí)現(xiàn)路徑和方法研究. 文獻(xiàn)[8]研究了攻擊不被檢測的基本條件,給出了系統(tǒng)可被攻擊的傳感器的最小數(shù)量,以確保攻擊的隱蔽性;文獻(xiàn)[9]在所有傳感器數(shù)據(jù)可觀且可以被攻擊者修改的情況下,提出了一種對(duì)遠(yuǎn)程狀態(tài)估計(jì)器發(fā)起線性欺騙性攻擊的策略,該策略可以成功通過卡方檢測器的監(jiān)測;文獻(xiàn)[10]將攻擊者的控制目標(biāo)表示為一個(gè)二次型值函數(shù),通過求解約束優(yōu)化問題來尋找最優(yōu)攻擊策略.

      第二類,從防御角度出發(fā)制定系統(tǒng)保護(hù)機(jī)制、入侵檢測機(jī)制并降低攻擊影響. 文獻(xiàn)[11-12]采用卡爾曼濾波器來估計(jì)狀態(tài)變量,并設(shè)計(jì)了相應(yīng)的檢測器來發(fā)現(xiàn)未知傳感器子集上的攻擊信號(hào),但都過于關(guān)注誤差的統(tǒng)計(jì)特性而忽略了CPS的高速采樣特性. 基于此,文獻(xiàn)[13]將歐氏檢測器、卡方檢測器以及卡爾曼濾波器結(jié)合起來設(shè)計(jì)了針對(duì)智能電網(wǎng)系統(tǒng)的安全框架,該方法可以克服以上缺點(diǎn)但只適用于電網(wǎng)電壓信號(hào)模型;文獻(xiàn)[14]借助線性二次型控制理論,開發(fā)了最優(yōu)自適應(yīng)切換策略通過來抵御稀疏的傳感器-執(zhí)行器攻擊策略.

      第三類,研究攻擊-防御對(duì)抗策略. 這類研究的目的是揭示網(wǎng)絡(luò)攻擊方的行為特征及量測系統(tǒng)的脆弱點(diǎn),為量測系統(tǒng)的安全防護(hù)工作提供參考依據(jù)[15]. 網(wǎng)絡(luò)攻防對(duì)抗的本質(zhì)可以抽象為攻防雙方相互博弈的過程. 現(xiàn)有網(wǎng)絡(luò)攻防博弈策略研究文獻(xiàn)甚少,且大多集中于網(wǎng)絡(luò)安全領(lǐng)域[16-18],很少有關(guān)于物理系統(tǒng)的控制安全分析. 文獻(xiàn)[19]從網(wǎng)絡(luò)安全的角度出發(fā),提出了一種基于非合作、完整信息的博弈主動(dòng)防御模型,通過解決不同系統(tǒng)狀態(tài)下的納什均衡,實(shí)現(xiàn)最佳防御策略. 不足之處在于在網(wǎng)絡(luò)對(duì)抗中使用完全信息靜態(tài)博弈模型,與實(shí)際的應(yīng)用場景不夠貼切. 文獻(xiàn)[20]以電力CPS為背景,建立了三層動(dòng)態(tài)攻防博弈模型,并用遍歷思想結(jié)合遺傳算法求解該方案. 但該方法只適用于電網(wǎng)負(fù)荷數(shù)據(jù)被攻擊的情況,不適用于一般的線性模型.

      與上述文獻(xiàn)的研究側(cè)重點(diǎn)不同,本文著重考慮FDI攻擊對(duì)控制系統(tǒng)的影響,采用攻防博弈模型研究控制安全問題. H∞范數(shù)被廣泛用于描述控制對(duì)信號(hào)的抑制程度. 針對(duì)受FDI攻擊的信息物理系統(tǒng),在設(shè)計(jì)控制器時(shí)首先建立H∞目標(biāo)函數(shù)和約束條件. 借助最優(yōu)控制的理論和方法,將H∞問題抽象為二人零和博弈問題并求出其均衡解. 通過納什均衡設(shè)計(jì)狀態(tài)反饋控制器,使系統(tǒng)在保持魯棒穩(wěn)定性的前提下最大限度地降低攻擊對(duì)狀態(tài)的影響,獲得最優(yōu)的性能指標(biāo). 而后對(duì)系統(tǒng)矩陣未知的情況展開研究,設(shè)計(jì)無模型狀態(tài)反饋Q學(xué)習(xí)算法,利用系統(tǒng)的量測數(shù)據(jù)在線求解最優(yōu)控制策略和最壞情形攻擊策略. 使系統(tǒng)在沒有動(dòng)力學(xué)知識(shí)的情況下,控制性能達(dá)到最優(yōu). 最后通過算例仿真證明了提出方法的可行性.

      1 問題描述

      1.1 系統(tǒng)模型

      考慮FDI攻擊下的線性時(shí)不變信息物理系統(tǒng):

      其中,xk∈Rn,uk∈Rm1分別是k 時(shí)刻的系統(tǒng)狀態(tài)變量和控制輸入信號(hào),ak∈Rm2是攻擊者在有限時(shí)間[0,T]內(nèi)向系統(tǒng)注入的攻擊向量,且ak∈L2[0,∞) . 矩陣(A,B,C)是未知恒定的具有適當(dāng)維數(shù)的系統(tǒng)矩陣.

      假設(shè)1 FDI攻擊者具備以下幾點(diǎn)攻擊能力:

      1)攻擊者知道系統(tǒng)(1)的線性結(jié)構(gòu),但無法獲取參數(shù)矩陣(A,B,C)的準(zhǔn)確值.

      2)攻擊者可以獲取控制信號(hào)uk和狀態(tài)信息xk.

      3)攻擊者可以產(chǎn)生一個(gè)無約束的攻擊信號(hào)ak對(duì)傳感器發(fā)起虛假數(shù)據(jù)注入攻擊.

      為了保障CPS的安全,本文采用H∞范數(shù)來評(píng)價(jià)CPS對(duì)攻擊的魯棒性.

      定義1 H∞控制的目標(biāo)是:

      1)找到合適的控制輸入使得系統(tǒng)(1)在ak=0 的情況下漸近穩(wěn)定;

      2)當(dāng)攻擊者發(fā)起攻擊即ak≠0 時(shí)滿足

      式中,Q 和R 是正定對(duì)稱的權(quán)重矩陣,γ ≥0 為給定的衰減因子. 上式是反映系統(tǒng)對(duì)攻擊的魯棒性評(píng)價(jià). γ 越小,說明系統(tǒng)對(duì)攻擊的抑制效果越好.

      基于式(2),首先對(duì)系統(tǒng)(1)定義一個(gè)性能指標(biāo)函數(shù):

      對(duì)于容許的控制輸入和外部攻擊信號(hào)定義如下值函數(shù):

      假設(shè)2 (A,B)是能控的,(A, Q)是能觀的.

      1.2 將H∞控制問題轉(zhuǎn)化為二人零和博弈問題

      H∞控制問題可看作是一個(gè)零和博弈問題,其中參與者包含控制器和FDI攻擊信號(hào),控制輸入的目標(biāo)是盡可能減小指標(biāo)函數(shù),而攻擊信號(hào)的目標(biāo)則是最大化指標(biāo)函數(shù). 因此,這個(gè)過程可表示為

      且滿足

      注1 式(14)~(16)是二人零和博弈問題(5)的解,并且保證了當(dāng)攻擊ak≠0 時(shí)系統(tǒng)滿足H∞指標(biāo)(2).式(17)是保證系統(tǒng)穩(wěn)定的充分條件.

      1.3 無模型狀態(tài)反饋Q學(xué)習(xí)算法

      在這一節(jié)中,將提出無模型Q 學(xué)習(xí)算法在線求解在系統(tǒng)矩陣(A,B,E)未知時(shí)的最優(yōu)控制策略增益L*和最壞情形攻擊策略增益K*.

      仿照式(8)的形式定義Q 函數(shù):

      將式(1)代入式(18)并將其寫成矩陣形式:

      式中,

      當(dāng)系統(tǒng)矩陣已知時(shí),令式(19)的一階偏導(dǎo)滿足?Q(xk,uk,ak)/?uk=0,?Q(xk,uk,ak)/?ak=0 即可求出最優(yōu)控制增益L*和最壞情形攻擊增益K*的解:

      注2 式(21)、(22)中最優(yōu)控制策略增益L*和最壞情形攻擊策略增益K*的解由參數(shù)矩陣H 的元素構(gòu)成,而矩陣H 的元素又由系統(tǒng)矩陣(A,B,E)構(gòu)成. 當(dāng)系統(tǒng)矩陣(A,B,E)未知時(shí),無法通過對(duì)式(19)求一階偏導(dǎo)從而求出最優(yōu)控制策略增益L*和最壞情形攻擊策略增益K*.

      因此,下面將借助強(qiáng)化學(xué)習(xí)中的Q學(xué)習(xí)算法,利用系統(tǒng)的量測數(shù)據(jù)在線學(xué)習(xí)出參數(shù)矩陣H 的值.

      根據(jù)值方程(8)和Q 方程的定義式(18)可知:

      式(18)則可以表示為:

      基于式(24)定義貝爾曼時(shí)間差分誤差:

      接下來將用式(21)、(22)、(25)驅(qū)動(dòng)無模型Q 學(xué)習(xí)算法. 算法包括策略評(píng)估和策略改進(jìn)兩步,其中策略評(píng)估步驟將控制策略、攻擊策略固定,對(duì)參數(shù)矩陣H 進(jìn)行估計(jì);策略更新步驟則利用第一步計(jì)算出的矩陣H,改進(jìn)控制策略、攻擊策略. 算法具體步驟如表1所示.

      表1 無模型狀態(tài)反饋Q學(xué)習(xí)算法Tab.1 Model-free state feedback Q-learning algorithm

      在策略評(píng)估階段,利用最小二乘法估計(jì)參數(shù)矩陣H. 根據(jù)克羅內(nèi)克積,式(26)可化為

      代入到式(29)中可得到

      2 算例仿真

      在本節(jié)中,將用F-16飛機(jī)自動(dòng)駕駛儀來驗(yàn)證所提算法的有效性,系統(tǒng)的動(dòng)力學(xué)方程為

      圖1 F-16飛機(jī)狀態(tài)xi 的響應(yīng)曲線Fig.1 State response of F-16 aircraft state xi

      圖2 參數(shù)矩陣H 的誤差響應(yīng)曲線Fig.2 Error response of parameter matrix H

      圖3 不同初始條件下F-16飛機(jī)狀態(tài)xi 的響應(yīng)曲線Fig.3 State response of F-16 aircraft state xi under different initial conditions

      圖4 不同初始條件下參數(shù)矩陣H 的誤差響應(yīng)曲線Fig.4 Error response of parameter matrix H under different initial conditions

      3 結(jié)語

      本文利用二人零和博弈的思想,研究了信息物理系統(tǒng)在系統(tǒng)矩陣未知且受FDI攻擊影響下的H∞控制問題. 首先對(duì)系統(tǒng)提出魯棒穩(wěn)定性的要求,建立二次型H∞目標(biāo)函數(shù),而后將H∞控制問題轉(zhuǎn)化為二人零和博弈問題,并推導(dǎo)出最優(yōu)控制策略和最壞情形攻擊策略. 最后,設(shè)計(jì)在線無模型狀態(tài)反饋Q學(xué)習(xí)算法求出最優(yōu)控制策略和最壞情形攻擊策略. 仿真結(jié)果驗(yàn)證了該方法行之有效,考慮到同時(shí)具有擾動(dòng)和攻擊的CPS會(huì)更加貼切實(shí)際情形,可以作為下一步的研究方向.

      猜你喜歡
      最優(yōu)控制攻擊者增益
      基于微分博弈的追逃問題最優(yōu)策略設(shè)計(jì)
      基于增益調(diào)度與光滑切換的傾轉(zhuǎn)旋翼機(jī)最優(yōu)控制
      條件平均場隨機(jī)微分方程的最優(yōu)控制問題
      基于單片機(jī)的程控增益放大器設(shè)計(jì)
      電子制作(2019年19期)2019-11-23 08:41:36
      帶跳躍平均場倒向隨機(jī)微分方程的線性二次最優(yōu)控制
      基于Multisim10和AD603的程控增益放大器仿真研究
      電子制作(2018年19期)2018-11-14 02:37:02
      Timoshenko梁的邊界最優(yōu)控制
      正面迎接批判
      愛你(2018年16期)2018-06-21 03:28:44
      采用最優(yōu)控制無功STATCOM 功率流的解決方案
      有限次重復(fù)博弈下的網(wǎng)絡(luò)攻擊行為研究
      桐庐县| 汾阳市| 泰安市| 扎囊县| 边坝县| 云龙县| 读书| 山西省| 广宗县| 西和县| 德令哈市| 马山县| 泗洪县| 禄劝| 武山县| 绥芬河市| 遂川县| 临泉县| 利津县| 白水县| 从江县| 枞阳县| 明星| 象山县| 册亨县| 始兴县| 新邵县| 鹿泉市| 泰来县| 合山市| 济南市| 张家港市| 阳谷县| 乳源| 达孜县| 额尔古纳市| 巫溪县| 桂阳县| 昔阳县| 社旗县| 柳州市|