王 羽, 李慶奎
(北京信息科技大學(xué)自動(dòng)化學(xué)院,北京 100192)
信息物理系統(tǒng)(Cyber-Physical System,CPS)是將3C技術(shù)(計(jì)算、通信、控制)與現(xiàn)代物理設(shè)備完美結(jié)合,通過嵌入式計(jì)算機(jī)對(duì)物理過程進(jìn)行感知和控制的智能系統(tǒng)[1]. 與傳統(tǒng)控制系統(tǒng)相比,CPS更加可靠、高效、實(shí)時(shí)協(xié)同. 但因?yàn)镃PS中有大量用于通信的設(shè)施和IT組件,所以CPS更容易遭受網(wǎng)絡(luò)攻擊[2-3].
CPS的網(wǎng)絡(luò)攻擊主要分為兩類:完整性攻擊和可用性攻擊[4]. 完整性攻擊是指通過篡改傳輸數(shù)據(jù)包中的信息,以降低系統(tǒng)可靠性和安全性的攻擊方式[5]. 可用性攻擊則可阻斷CPS各部分之間數(shù)據(jù)、控制命令的正常傳輸,使某些服務(wù)被暫停甚至使系統(tǒng)癱瘓. 虛假數(shù)據(jù)注入(False Data Injection,F(xiàn)DI)攻擊是一種完整性攻擊方式,通過劫持物理設(shè)備(傳感器、控制器等)或者網(wǎng)絡(luò)信道,向系統(tǒng)注入錯(cuò)誤或無用但存在安全隱患的數(shù)據(jù)信息,破壞數(shù)據(jù)的完整性,導(dǎo)致系統(tǒng)失去穩(wěn)定甚至崩潰[6]. 與其他網(wǎng)絡(luò)攻擊相比,F(xiàn)DI攻擊更加巧妙、復(fù)雜并具有更高的隱蔽性. 針對(duì)信息物理系統(tǒng)FDI攻擊的研究大致可以分為以下三類[7].
第一類,F(xiàn)DI攻擊的可行性分析、實(shí)現(xiàn)路徑和方法研究. 文獻(xiàn)[8]研究了攻擊不被檢測的基本條件,給出了系統(tǒng)可被攻擊的傳感器的最小數(shù)量,以確保攻擊的隱蔽性;文獻(xiàn)[9]在所有傳感器數(shù)據(jù)可觀且可以被攻擊者修改的情況下,提出了一種對(duì)遠(yuǎn)程狀態(tài)估計(jì)器發(fā)起線性欺騙性攻擊的策略,該策略可以成功通過卡方檢測器的監(jiān)測;文獻(xiàn)[10]將攻擊者的控制目標(biāo)表示為一個(gè)二次型值函數(shù),通過求解約束優(yōu)化問題來尋找最優(yōu)攻擊策略.
第二類,從防御角度出發(fā)制定系統(tǒng)保護(hù)機(jī)制、入侵檢測機(jī)制并降低攻擊影響. 文獻(xiàn)[11-12]采用卡爾曼濾波器來估計(jì)狀態(tài)變量,并設(shè)計(jì)了相應(yīng)的檢測器來發(fā)現(xiàn)未知傳感器子集上的攻擊信號(hào),但都過于關(guān)注誤差的統(tǒng)計(jì)特性而忽略了CPS的高速采樣特性. 基于此,文獻(xiàn)[13]將歐氏檢測器、卡方檢測器以及卡爾曼濾波器結(jié)合起來設(shè)計(jì)了針對(duì)智能電網(wǎng)系統(tǒng)的安全框架,該方法可以克服以上缺點(diǎn)但只適用于電網(wǎng)電壓信號(hào)模型;文獻(xiàn)[14]借助線性二次型控制理論,開發(fā)了最優(yōu)自適應(yīng)切換策略通過來抵御稀疏的傳感器-執(zhí)行器攻擊策略.
第三類,研究攻擊-防御對(duì)抗策略. 這類研究的目的是揭示網(wǎng)絡(luò)攻擊方的行為特征及量測系統(tǒng)的脆弱點(diǎn),為量測系統(tǒng)的安全防護(hù)工作提供參考依據(jù)[15]. 網(wǎng)絡(luò)攻防對(duì)抗的本質(zhì)可以抽象為攻防雙方相互博弈的過程. 現(xiàn)有網(wǎng)絡(luò)攻防博弈策略研究文獻(xiàn)甚少,且大多集中于網(wǎng)絡(luò)安全領(lǐng)域[16-18],很少有關(guān)于物理系統(tǒng)的控制安全分析. 文獻(xiàn)[19]從網(wǎng)絡(luò)安全的角度出發(fā),提出了一種基于非合作、完整信息的博弈主動(dòng)防御模型,通過解決不同系統(tǒng)狀態(tài)下的納什均衡,實(shí)現(xiàn)最佳防御策略. 不足之處在于在網(wǎng)絡(luò)對(duì)抗中使用完全信息靜態(tài)博弈模型,與實(shí)際的應(yīng)用場景不夠貼切. 文獻(xiàn)[20]以電力CPS為背景,建立了三層動(dòng)態(tài)攻防博弈模型,并用遍歷思想結(jié)合遺傳算法求解該方案. 但該方法只適用于電網(wǎng)負(fù)荷數(shù)據(jù)被攻擊的情況,不適用于一般的線性模型.
與上述文獻(xiàn)的研究側(cè)重點(diǎn)不同,本文著重考慮FDI攻擊對(duì)控制系統(tǒng)的影響,采用攻防博弈模型研究控制安全問題. H∞范數(shù)被廣泛用于描述控制對(duì)信號(hào)的抑制程度. 針對(duì)受FDI攻擊的信息物理系統(tǒng),在設(shè)計(jì)控制器時(shí)首先建立H∞目標(biāo)函數(shù)和約束條件. 借助最優(yōu)控制的理論和方法,將H∞問題抽象為二人零和博弈問題并求出其均衡解. 通過納什均衡設(shè)計(jì)狀態(tài)反饋控制器,使系統(tǒng)在保持魯棒穩(wěn)定性的前提下最大限度地降低攻擊對(duì)狀態(tài)的影響,獲得最優(yōu)的性能指標(biāo). 而后對(duì)系統(tǒng)矩陣未知的情況展開研究,設(shè)計(jì)無模型狀態(tài)反饋Q學(xué)習(xí)算法,利用系統(tǒng)的量測數(shù)據(jù)在線求解最優(yōu)控制策略和最壞情形攻擊策略. 使系統(tǒng)在沒有動(dòng)力學(xué)知識(shí)的情況下,控制性能達(dá)到最優(yōu). 最后通過算例仿真證明了提出方法的可行性.
考慮FDI攻擊下的線性時(shí)不變信息物理系統(tǒng):
其中,xk∈Rn,uk∈Rm1分別是k 時(shí)刻的系統(tǒng)狀態(tài)變量和控制輸入信號(hào),ak∈Rm2是攻擊者在有限時(shí)間[0,T]內(nèi)向系統(tǒng)注入的攻擊向量,且ak∈L2[0,∞) . 矩陣(A,B,C)是未知恒定的具有適當(dāng)維數(shù)的系統(tǒng)矩陣.
假設(shè)1 FDI攻擊者具備以下幾點(diǎn)攻擊能力:
1)攻擊者知道系統(tǒng)(1)的線性結(jié)構(gòu),但無法獲取參數(shù)矩陣(A,B,C)的準(zhǔn)確值.
2)攻擊者可以獲取控制信號(hào)uk和狀態(tài)信息xk.
3)攻擊者可以產(chǎn)生一個(gè)無約束的攻擊信號(hào)ak對(duì)傳感器發(fā)起虛假數(shù)據(jù)注入攻擊.
為了保障CPS的安全,本文采用H∞范數(shù)來評(píng)價(jià)CPS對(duì)攻擊的魯棒性.
定義1 H∞控制的目標(biāo)是:
1)找到合適的控制輸入使得系統(tǒng)(1)在ak=0 的情況下漸近穩(wěn)定;
2)當(dāng)攻擊者發(fā)起攻擊即ak≠0 時(shí)滿足
式中,Q 和R 是正定對(duì)稱的權(quán)重矩陣,γ ≥0 為給定的衰減因子. 上式是反映系統(tǒng)對(duì)攻擊的魯棒性評(píng)價(jià). γ 越小,說明系統(tǒng)對(duì)攻擊的抑制效果越好.
基于式(2),首先對(duì)系統(tǒng)(1)定義一個(gè)性能指標(biāo)函數(shù):
對(duì)于容許的控制輸入和外部攻擊信號(hào)定義如下值函數(shù):
假設(shè)2 (A,B)是能控的,(A, Q)是能觀的.
H∞控制問題可看作是一個(gè)零和博弈問題,其中參與者包含控制器和FDI攻擊信號(hào),控制輸入的目標(biāo)是盡可能減小指標(biāo)函數(shù),而攻擊信號(hào)的目標(biāo)則是最大化指標(biāo)函數(shù). 因此,這個(gè)過程可表示為
且滿足
注1 式(14)~(16)是二人零和博弈問題(5)的解,并且保證了當(dāng)攻擊ak≠0 時(shí)系統(tǒng)滿足H∞指標(biāo)(2).式(17)是保證系統(tǒng)穩(wěn)定的充分條件.
在這一節(jié)中,將提出無模型Q 學(xué)習(xí)算法在線求解在系統(tǒng)矩陣(A,B,E)未知時(shí)的最優(yōu)控制策略增益L*和最壞情形攻擊策略增益K*.
仿照式(8)的形式定義Q 函數(shù):
將式(1)代入式(18)并將其寫成矩陣形式:
式中,
當(dāng)系統(tǒng)矩陣已知時(shí),令式(19)的一階偏導(dǎo)滿足?Q(xk,uk,ak)/?uk=0,?Q(xk,uk,ak)/?ak=0 即可求出最優(yōu)控制增益L*和最壞情形攻擊增益K*的解:
注2 式(21)、(22)中最優(yōu)控制策略增益L*和最壞情形攻擊策略增益K*的解由參數(shù)矩陣H 的元素構(gòu)成,而矩陣H 的元素又由系統(tǒng)矩陣(A,B,E)構(gòu)成. 當(dāng)系統(tǒng)矩陣(A,B,E)未知時(shí),無法通過對(duì)式(19)求一階偏導(dǎo)從而求出最優(yōu)控制策略增益L*和最壞情形攻擊策略增益K*.
因此,下面將借助強(qiáng)化學(xué)習(xí)中的Q學(xué)習(xí)算法,利用系統(tǒng)的量測數(shù)據(jù)在線學(xué)習(xí)出參數(shù)矩陣H 的值.
根據(jù)值方程(8)和Q 方程的定義式(18)可知:
式(18)則可以表示為:
基于式(24)定義貝爾曼時(shí)間差分誤差:
接下來將用式(21)、(22)、(25)驅(qū)動(dòng)無模型Q 學(xué)習(xí)算法. 算法包括策略評(píng)估和策略改進(jìn)兩步,其中策略評(píng)估步驟將控制策略、攻擊策略固定,對(duì)參數(shù)矩陣H 進(jìn)行估計(jì);策略更新步驟則利用第一步計(jì)算出的矩陣H,改進(jìn)控制策略、攻擊策略. 算法具體步驟如表1所示.
表1 無模型狀態(tài)反饋Q學(xué)習(xí)算法Tab.1 Model-free state feedback Q-learning algorithm
在策略評(píng)估階段,利用最小二乘法估計(jì)參數(shù)矩陣H. 根據(jù)克羅內(nèi)克積,式(26)可化為
令
代入到式(29)中可得到
在本節(jié)中,將用F-16飛機(jī)自動(dòng)駕駛儀來驗(yàn)證所提算法的有效性,系統(tǒng)的動(dòng)力學(xué)方程為
圖1 F-16飛機(jī)狀態(tài)xi 的響應(yīng)曲線Fig.1 State response of F-16 aircraft state xi
圖2 參數(shù)矩陣H 的誤差響應(yīng)曲線Fig.2 Error response of parameter matrix H
圖3 不同初始條件下F-16飛機(jī)狀態(tài)xi 的響應(yīng)曲線Fig.3 State response of F-16 aircraft state xi under different initial conditions
圖4 不同初始條件下參數(shù)矩陣H 的誤差響應(yīng)曲線Fig.4 Error response of parameter matrix H under different initial conditions
本文利用二人零和博弈的思想,研究了信息物理系統(tǒng)在系統(tǒng)矩陣未知且受FDI攻擊影響下的H∞控制問題. 首先對(duì)系統(tǒng)提出魯棒穩(wěn)定性的要求,建立二次型H∞目標(biāo)函數(shù),而后將H∞控制問題轉(zhuǎn)化為二人零和博弈問題,并推導(dǎo)出最優(yōu)控制策略和最壞情形攻擊策略. 最后,設(shè)計(jì)在線無模型狀態(tài)反饋Q學(xué)習(xí)算法求出最優(yōu)控制策略和最壞情形攻擊策略. 仿真結(jié)果驗(yàn)證了該方法行之有效,考慮到同時(shí)具有擾動(dòng)和攻擊的CPS會(huì)更加貼切實(shí)際情形,可以作為下一步的研究方向.