李軍 李韜
計(jì)算機(jī)、網(wǎng)絡(luò)通信和控制技術(shù)作為近30年來信息技術(shù)產(chǎn)業(yè)發(fā)展的核心和動(dòng)力,引起了人類社會(huì)生活的巨大變革.然而,人與自然萬物,以及改造自然的機(jī)器之間,尚缺乏有效地交互協(xié)同的作用方式,需要統(tǒng)一的混合系統(tǒng)框架,通過對(duì)質(zhì)量流、能量流、信息流的協(xié)調(diào)管控,推動(dòng)計(jì)算機(jī)、網(wǎng)絡(luò)通信和控制技術(shù)的協(xié)同變革和演進(jìn)融合.在這一背景下,信息物理系統(tǒng)(Cyber-physical systems,CPS)[1-3]應(yīng)運(yùn)而生.信息物理系統(tǒng)這一概念是由美國科學(xué)家Gill于2006年在美國國家科學(xué)基金委員會(huì)上提出的[4],被認(rèn)為有望成為繼計(jì)算機(jī)、互聯(lián)網(wǎng)之后世界信息技術(shù)的第三次浪潮,其核心是3Cs(Computation,communication,control)的融合.智能電網(wǎng)作為一種信息物理系統(tǒng)[5],將3Cs技術(shù)融合貫穿于發(fā)電、輸電、配電和用電四大環(huán)節(jié),用以提升電網(wǎng)的各項(xiàng)性能指標(biāo),包括穩(wěn)定性、有效性、可靠性、安全性等.對(duì)于發(fā)電環(huán)節(jié)而言,由于風(fēng)能、太陽能等可再生能源的接入,導(dǎo)致了電網(wǎng)系統(tǒng)的不確定性增大,影響了電網(wǎng)的穩(wěn)定性.CPS可以協(xié)調(diào)多能源介質(zhì)的生產(chǎn)、存儲(chǔ)和使用,確保電網(wǎng)穩(wěn)定運(yùn)行,實(shí)現(xiàn)安全節(jié)能優(yōu)化目標(biāo).在輸電環(huán)節(jié),CPS可以幫助構(gòu)建輸電線路智能化無人機(jī)巡檢,精確導(dǎo)航與控制技術(shù)、長距離實(shí)時(shí)穩(wěn)定通信技術(shù)和計(jì)算中心實(shí)時(shí)數(shù)據(jù)分析,確保線路巡檢診斷精確可靠.在智能配電環(huán)節(jié),融合了3Cs技術(shù)的智能電表通過與配電側(cè)的互聯(lián),給用戶提供實(shí)時(shí)電價(jià),以實(shí)現(xiàn)負(fù)載優(yōu)化調(diào)度.在用電環(huán)節(jié),CPS及相關(guān)技術(shù)可以準(zhǔn)確預(yù)測(cè)用戶用電消費(fèi)行為及需求,實(shí)時(shí)感知、計(jì)算并響應(yīng)調(diào)控用電變化,實(shí)現(xiàn)全系統(tǒng)的智能優(yōu)化和精準(zhǔn)控制,極大地提高了電力的安全生產(chǎn)和消費(fèi)的效率[6-7].
智能電網(wǎng)承諾提供更高的效率和可靠性,以及更節(jié)約的配電和輸電的方法.這些提升方法依賴于新技術(shù)和電力網(wǎng)絡(luò)中心建立的互聯(lián)機(jī)制,同時(shí)也依賴于不同組件的合作和大量的數(shù)據(jù)分析.隨著新技術(shù)和更容易獲取的能源數(shù)據(jù)的使用,智能電網(wǎng)將受到多種攻擊的威脅,安全性變得尤為重要.智能電網(wǎng)可分為網(wǎng)絡(luò)基礎(chǔ)設(shè)施和物理基礎(chǔ)設(shè)施[8-9]兩個(gè)主要組件.網(wǎng)絡(luò)基礎(chǔ)設(shè)施包括服務(wù)器、數(shù)據(jù)庫、人機(jī)接口(Human machine interface,HMI)、遠(yuǎn)程終端設(shè)備(Remote terminal unite,RTU)、可編程邏輯控制器(Programmable logic controller,PLC)以及監(jiān)測(cè)控制和數(shù)據(jù)采集(Supervisory control and data acquisition,SCADA)系統(tǒng)等.物理基礎(chǔ)設(shè)施包括負(fù)責(zé)發(fā)電、輸電、配電、用電的物理設(shè)備等.對(duì)應(yīng)于智能電網(wǎng)的這兩個(gè)主要組件,攻擊者有網(wǎng)絡(luò)攻擊和物理攻擊兩種類型.網(wǎng)絡(luò)攻擊者通過攻擊智能電網(wǎng)的網(wǎng)絡(luò)系統(tǒng),獲得未經(jīng)授權(quán)的特權(quán)來控制物理過程的功能.物理攻擊者通過攻擊智能電網(wǎng)的物理設(shè)備,導(dǎo)致電網(wǎng)在發(fā)電、輸電、配電、用電等環(huán)節(jié)中斷以及電力系統(tǒng)拓?fù)浣Y(jié)構(gòu)的改變等[10-11].當(dāng)系統(tǒng)受到攻擊時(shí),若系統(tǒng)管理員(防護(hù)者)事先不確定攻擊者的類型,則無法給出最優(yōu)防護(hù)策略.針對(duì)這種問題,本文提出了一種貝葉斯序貫博弈模型,可以確定攻擊者的類型,從而選擇最優(yōu)防護(hù)策略,為系統(tǒng)管理員及時(shí)提供決策分析,保持智能電網(wǎng)的安全運(yùn)行.
目前對(duì)于智能電網(wǎng)的安全性研究大部分關(guān)注的是網(wǎng)絡(luò)安全方面,包括智能電網(wǎng)的安全需求、目標(biāo)、可能存在的漏洞、攻擊和解決方案等[12-13].由于智能電網(wǎng)在網(wǎng)絡(luò)方面容易受到攻擊,導(dǎo)致系統(tǒng)運(yùn)行不可靠,對(duì)消費(fèi)者和公司都造成危害,所以智能電網(wǎng)的分布式通信、普適計(jì)算和傳感技術(shù)都需要一個(gè)安全的網(wǎng)絡(luò)框架.孫秋野等[14]指出,能源互聯(lián)網(wǎng)作為一個(gè)融合信息系統(tǒng)與物理能源系統(tǒng)的綜合復(fù)雜網(wǎng)絡(luò),控制優(yōu)化相對(duì)復(fù)雜,且因與互聯(lián)網(wǎng)的相似性,使得能源互聯(lián)網(wǎng)信息物理安全將成為網(wǎng)絡(luò)研究熱點(diǎn)問題之一.Luo等[15]研究了虛假數(shù)據(jù)注入攻擊下,大規(guī)模智能電網(wǎng)系統(tǒng)的網(wǎng)絡(luò)安全問題,提出了一種基于觀測(cè)器的算法,通過使用實(shí)時(shí)同步相量測(cè)量來檢測(cè)和隔離網(wǎng)絡(luò)攻擊.Yan等[16]對(duì)智能電網(wǎng)的通信安全進(jìn)行了研究,總結(jié)了智能電網(wǎng)通信過程中的網(wǎng)絡(luò)安全需求和漏洞,并調(diào)查了當(dāng)前網(wǎng)絡(luò)安全解決方案.Hasan等[17]研究了資源受限的智能電網(wǎng)中的網(wǎng)絡(luò)安全規(guī)劃問題,為能源SCADA系統(tǒng)提出了一個(gè)基于中心的信任系統(tǒng)配置方案,利用中心性測(cè)量提升安全保護(hù).Mo等[18]考慮了如何結(jié)合物理系統(tǒng)安全和網(wǎng)絡(luò)安全建立一個(gè)科學(xué)的信息物理安全系統(tǒng),確保智能電網(wǎng)安全運(yùn)行.雖然單一網(wǎng)絡(luò)攻擊和單一物理攻擊方面的安全性研究已經(jīng)取得顯著成績,但是對(duì)于同時(shí)存在網(wǎng)絡(luò)攻擊和物理攻擊的混合攻擊情形,現(xiàn)有的研究還比較缺乏.
近年來使用博弈論分析智能電網(wǎng)安全的研究越來越多[19].Hewett等[20]在攻擊者和安全管理者之間構(gòu)建了雙人非零和的完全信息動(dòng)態(tài)博弈,通過逆向歸納法求出納什均衡解.當(dāng)系統(tǒng)遭遇攻擊時(shí),防護(hù)者根據(jù)納什均衡解能夠及時(shí)地做出準(zhǔn)確的決策.Maharjan等[21]提出了一種公用事業(yè)公司和終端用戶之間的斯塔克伯格博弈方法,分析了智能電網(wǎng)的需求響應(yīng)管理,最大化事業(yè)公司的收入和每個(gè)用戶的收益.Ma等[22]利用多動(dòng)態(tài)博弈策略分析電力市場中的擁塞攻擊.攻擊者通過擁塞攻擊減少攜帶測(cè)量信息的信道數(shù)量來操縱區(qū)域邊際價(jià)格,從而獲得盈利.防護(hù)者能夠保證采用有限數(shù)量的信道就可以進(jìn)行信息交付.Sanjab等[23]研究了智能電網(wǎng)中多個(gè)數(shù)據(jù)注入攻擊者和一個(gè)電網(wǎng)防護(hù)者之間的博弈,利用分布式學(xué)習(xí)算法求解博弈的均衡解,最大化攻擊者的收益,最小化防護(hù)者的損失.博弈論分析智能電網(wǎng)的安全,實(shí)際上就是研究攻擊者和防護(hù)者之間的相互作用,通過求解博弈均衡解來預(yù)測(cè)個(gè)體的行為[24].袁勇等[25]研究了一類帶有時(shí)間偏好的單邊雙類型不完全信息輪流出價(jià)議價(jià)模型,運(yùn)用單階段偏離法則分析了議價(jià)博弈的合并均衡與分離均衡,并證明了議價(jià)博弈將唯一地實(shí)現(xiàn)合并均衡.針對(duì)高級(jí)計(jì)量基礎(chǔ)設(shè)施(Advanced metering infrastructure,AMI)網(wǎng)絡(luò)中的分布式拒絕服務(wù)攻擊,Wang等[26]將蜜罐技術(shù)(Honeypot technology)引入AMI網(wǎng)絡(luò)中作為誘餌系統(tǒng)來檢測(cè)和收集攻擊信息,分析了攻擊者和防御者之間的相互作用,并為雙方推導(dǎo)出最佳策略.
以上針對(duì)智能電網(wǎng)安全性的研究,大都沒有考慮同時(shí)存在網(wǎng)絡(luò)攻擊和物理攻擊兩種類型攻擊者的情形.針對(duì)系統(tǒng)管理員(防護(hù)者)如何確定攻擊者的類型,從而選擇最優(yōu)防護(hù)策略的安全問題,本文提出一種貝葉斯序貫博弈模型來確定攻擊者的類型,從而選擇最優(yōu)防護(hù)策略,為系統(tǒng)管理員(防護(hù)者)及時(shí)地提供決策分析.首先,對(duì)事先不確定類型的攻擊者和防護(hù)者構(gòu)建靜態(tài)貝葉斯博弈模型.通過海薩尼轉(zhuǎn)換,使得防護(hù)者知道攻擊者類型的概率分布,將不完全信息博弈轉(zhuǎn)換成完全信息博弈進(jìn)行分析.防護(hù)者以μ的概率知道攻擊者類型是網(wǎng)絡(luò)攻擊,其中μ可以通過智能電網(wǎng)的網(wǎng)絡(luò)組件和物理組件占整個(gè)電網(wǎng)系統(tǒng)的比值計(jì)算.經(jīng)過貝葉斯博弈分析,可以根據(jù)攻擊者類型為網(wǎng)絡(luò)攻擊的概率和貝葉斯納什均衡解,確定攻擊者的類型.其次,考慮了攻擊者和防護(hù)者之間的序貫博弈模型,能夠有效地幫助防護(hù)者進(jìn)行決策分析.利用逆向歸納法分別對(duì)兩種類型的攻擊者和防護(hù)者之間的序貫博弈樹進(jìn)行分析,根據(jù)均衡路徑選擇最優(yōu)策略.通過貝葉斯博弈和序貫博弈樹分析,確定攻擊者的類型,并且根據(jù)均衡路徑可以得到攻擊者的相對(duì)最優(yōu)攻擊策略和防護(hù)者的相對(duì)最優(yōu)防護(hù)策略,為保證智能電網(wǎng)的安全運(yùn)行提供參考.
本文結(jié)構(gòu)安排如下:第1節(jié)介紹兩種類型攻擊者和防護(hù)者之間的靜態(tài)貝葉斯博弈模型,通過海薩尼轉(zhuǎn)換將不完全信息博弈轉(zhuǎn)換成完全信息博弈,通過貝葉斯博弈模型的分析,確定攻擊者的類型;第2節(jié)介紹序貫博弈的模型和求解均衡路徑的數(shù)值算法;第3節(jié)給出兩種類型攻擊者和防護(hù)者之間的數(shù)值算法分析,根據(jù)求解的均衡路徑得出攻擊者的最優(yōu)攻擊策略和防護(hù)者的最優(yōu)防護(hù)策略;第4節(jié)是對(duì)全文的總結(jié)和對(duì)未來研究的展望.
用G表示一個(gè)博弈:如G有n個(gè)博弈方,每個(gè)博弈方的全部可選策略的集合稱為“策略空間”,分別用S1,···,Sn表示.sij∈Si表示博弈方i的第j個(gè)策略,其中j可以取有限個(gè)值(有限策略博弈),也可以取無限個(gè)值(無限策略博弈);博弈方i的收益用Ui表示,Ui是各博弈方策略的多元函數(shù).n個(gè)博弈方的標(biāo)準(zhǔn)式博弈G通常記為G={S1,···,Sn;U1,···,Un}[27].
當(dāng)系統(tǒng)受到攻擊時(shí),不同類型的攻擊者獲得的收益不同,防護(hù)者對(duì)于攻擊者的收益沒有準(zhǔn)確的認(rèn)識(shí),所以是不完全信息博弈.本文首先研究兩種類型攻擊者和防護(hù)者之間的雙人非合作靜態(tài)貝葉斯博弈.入侵檢測(cè)系統(tǒng)對(duì)于智能電網(wǎng)的安全防護(hù)有著重要作用,當(dāng)系統(tǒng)受到攻擊時(shí),可以有效地檢測(cè)到攻擊,從而系統(tǒng)防護(hù)者可以及時(shí)地選擇防護(hù)策略.為了能夠更好地防護(hù)智能電網(wǎng)的安全,電網(wǎng)的每個(gè)組件都應(yīng)該配備一個(gè)入侵檢測(cè)系統(tǒng),并且入侵檢測(cè)系統(tǒng)保持運(yùn)行狀態(tài).從系統(tǒng)使用的角度來看,永遠(yuǎn)在線運(yùn)行并不是一個(gè)有效的選擇,因?yàn)橹悄茈娋W(wǎng)的網(wǎng)絡(luò)組件通常是資源受限的[28].靜態(tài)貝葉斯博弈模型可以幫助系統(tǒng)防護(hù)者進(jìn)行決策分析,提升入侵檢測(cè)系統(tǒng)的檢測(cè)效率.
用Mi表示攻擊者,θ表示攻擊者的類型,θ=1表示網(wǎng)絡(luò)攻擊,θ=0表示物理攻擊,每個(gè)類型的策略包括{攻擊,不攻擊}.Mj表示系統(tǒng)防護(hù)者,它的策略包括{防護(hù),不防護(hù)}.α表示入侵檢測(cè)系統(tǒng)的檢測(cè)率;β表示誤報(bào)率;ω表示防護(hù)者的安全值;cic>0表示網(wǎng)絡(luò)攻擊的成本;cip>0表示物理攻擊的成本;cd>0表示防護(hù)者的成本,其中α,β∈[0,1].
假設(shè)1.防護(hù)者的安全值ω滿足
在資源受限的網(wǎng)絡(luò)中,防護(hù)者安全值是系統(tǒng)受保護(hù)的能源資產(chǎn),防護(hù)成本可以根據(jù)系統(tǒng)采取防護(hù)策略的能量消耗來確定,攻擊成本可以根據(jù)攻擊者采取攻擊策略的能量消耗來確定.若ω不滿足假設(shè)1,那么攻擊者就沒有動(dòng)機(jī)采取攻擊策略,防護(hù)者也沒有動(dòng)機(jī)采取防護(hù)策略.當(dāng)θ=1時(shí),攻擊者類型為網(wǎng)絡(luò)攻擊,攻擊者和防護(hù)者的策略組合為(攻擊,不防護(hù))時(shí),攻擊者成功攻擊了系統(tǒng),系統(tǒng)防護(hù)者的損失為ω,即攻擊者的收益為ω-cic,防護(hù)者的收益為-ω.策略組合為(攻擊,防護(hù))時(shí),防護(hù)者的收益是檢測(cè)到攻擊的期望收益減去防護(hù)成本,即αω-(1-α)ω-cd=(2α-1)ω-cd,其中1-α表示入侵檢測(cè)系統(tǒng)的漏檢率.另外,攻擊者的收益是防護(hù)者損失的收益減去攻擊成本,即(1-2α)ω-cic.策略組合為(不攻擊,防護(hù))時(shí),由于入侵檢測(cè)系統(tǒng)的誤報(bào)產(chǎn)生損失值-βω,所以防護(hù)者的收益為-βω-cd,攻擊者的收益為0,如表1所示.其中收益組合的前半部分表示攻擊者的收益,后半部分表示防護(hù)者的收益.當(dāng)θ=0時(shí),攻擊者類型為物理攻擊,同理可以求解出攻擊者和防護(hù)者的收益情況,如表2所示.
不同類型的攻擊者和防護(hù)者之間相互作用,得出的均衡解可能不同.防護(hù)者對(duì)于攻擊者類型的知識(shí)不能準(zhǔn)確了解,屬于不完全信息博弈.在1967年之前,信息不完全的情況,博弈論是無法解決的,因?yàn)楫?dāng)你還不知道對(duì)手為何物時(shí),無法選擇自己的最優(yōu)策略.在1967年,海薩尼(Harsanyi)提出了海薩尼轉(zhuǎn)換的方法[27],將不完全信息博弈轉(zhuǎn)換成完全但不完美信息博弈,防護(hù)者知道攻擊者兩種類型的分布概率,從而進(jìn)行分析.
表1 攻擊者類型為網(wǎng)絡(luò)攻擊Table 1 The type of attacker is a cyber attack
攻擊者的類型包括網(wǎng)絡(luò)攻擊(Cyber attack)和物理攻擊(Physical attack),每個(gè)類型的策略包括{攻擊(Attack),不攻擊(No attack)}.防護(hù)者的策略包括{防護(hù)(Defend),不防護(hù)(No defend)},N是一個(gè)決定攻擊類型的自然節(jié)點(diǎn).根據(jù)表1和表2的收益矩陣可得出貝葉斯博弈的擴(kuò)展式,如圖1所示.防護(hù)者有概率μ知道攻擊者的類型是網(wǎng)絡(luò)攻擊,并且博弈雙方是理性的,攻擊者希望獲得最大的收益,防護(hù)者希望損失最小.
圖1 貝葉斯博弈的擴(kuò)展式Fig.1 The Bayesian game in an extensive form
定義1.占優(yōu)策略[27].用si1和si2表示博弈方i的兩個(gè)可行策略,如果對(duì)其他博弈方可能的策略組合s-i,博弈方i選擇si1的收益大于選擇si2的收益,即Ui1(si1,s-i)≥Ui2(si2,s-i),則稱si1為相對(duì)于si2的占優(yōu)策略.
定義2.貝葉斯納什均衡[27].n人不完全信息靜態(tài)博弈G={S1,···,Sn;θ1,···,θn;p1,···,pn;U1,···,Un}的純策略貝葉斯納什均衡是一個(gè)類型依存戰(zhàn)略組合, 其中每個(gè)參與人i在給定自己的類型θi和其他參與人類型依存戰(zhàn)略的情況下最大化自己的期望效用函數(shù)Ui. 若, 戰(zhàn)略對(duì)于所有的組合是一個(gè)純策略的貝葉斯納什均衡.若博弈方i的策略空間為{si1,···,sik},那么概率分布pi=(pi1,···,pik)稱為i的一個(gè)混合策略,其中pik=p(sik)是博弈方i選擇策略sik的概率,0≤pij≤1,j=1,···,k,并且pi1+···+pik=1.如果對(duì)于所有的i的期望效用,, 那么混合戰(zhàn)略組合p?=是一個(gè)混合策略的貝葉斯納什均衡.
定理1.納什均衡的存在性[29].在n個(gè)博弈方參與的標(biāo)準(zhǔn)博弈G={S1,···,Sn;U1,···,Un}中,如果n是有限的,且每個(gè)博弈方的策略集合Si也是有限的,則該博弈至少存在一個(gè)納什均衡,均衡可能包含混合策略.
用(X;Y)表示攻擊者的純策略,((X;Y),Z,μ)表示貝葉斯納什均衡,其中X表示攻擊者類型為網(wǎng)絡(luò)攻擊的策略,Y表示攻擊者類型為物理攻擊的策略,Z表示防護(hù)者策略,μ表示攻擊者類型為網(wǎng)絡(luò)攻擊的概率.
兩種類型的攻擊者的純策略包含了四種情況:(攻擊;攻擊)、(攻擊;不攻擊)、(不攻擊;攻擊)、(不攻擊;不攻擊).當(dāng)攻擊者類型不確定時(shí),我們通過貝葉斯博弈的擴(kuò)展式(圖1),可以計(jì)算出攻擊者純策略組合下的防護(hù)者的期望收益,其中防護(hù)者采取防護(hù)策略的期望收益表示為E(d),采取不防護(hù)策略的期望收益表示為E(nd).攻擊者類型為網(wǎng)絡(luò)攻擊時(shí),采取攻擊策略的期望收益為Ec(a),采取不攻擊的期望收益為Ec(na).攻擊者類型為物理攻擊時(shí),采取攻擊策略的期望收益為Ep(a),采取不攻擊的期望收益為Ep(na).當(dāng)E(d)=E(nd)時(shí),可以求出混合策略中攻擊均衡策略的概率;當(dāng)Ec(a)=Ec(na)和Ep(a)=Ep(na)時(shí),可以求出混合策略中防護(hù)均衡策略的概率.對(duì)兩種類型攻擊者和防護(hù)者之間的雙人非合作靜態(tài)貝葉斯博弈,本文有如下定理.
定理2.若假設(shè)1成立,當(dāng)攻擊者的純策略為(攻擊;攻擊)和(不攻擊;不攻擊)時(shí),不存在純策略的貝葉斯納什均衡和混合策略的貝葉斯納什均衡.
證明.
1)當(dāng)攻擊者的純策略為(攻擊;攻擊)時(shí),防護(hù)者采取防護(hù)策略的期望收益為
防護(hù)者采取不防護(hù)策略的期望收益為
此時(shí),防護(hù)者的純策略{防護(hù),不防護(hù)}的期望收益都與μ無關(guān).所以((攻擊;攻擊),防護(hù))和((攻擊;攻擊),不防護(hù))都不是純策略的貝葉斯納什均衡和混合策略的貝葉斯納什均衡.
2)當(dāng)攻擊者的純策略為(不攻擊;不攻擊)時(shí),防護(hù)者采取防護(hù)策略的期望收益為
防護(hù)者采取不防護(hù)策略的期望收益為
此時(shí),防護(hù)者的純策略{防護(hù),不防護(hù)}期望收益都與μ無關(guān).并且E(d)<E(nd),防護(hù)者采取的占優(yōu)策略是不防護(hù),然而攻擊者采取相應(yīng)的最優(yōu)策略是(攻擊;攻擊).所以((不攻擊;不攻擊),不防護(hù))不是純策略的貝葉斯納什均衡和混合策略的貝葉斯納什均衡.□
定理3.若假設(shè)1成立,當(dāng)μ>(βω+cd)/((2α+β)ω)時(shí),在cic<(1-2α)ω<cip的情況下,存在純策略的貝葉斯納什均衡,此時(shí)攻擊者的類型為網(wǎng)絡(luò)攻擊;當(dāng)μ ≤(βω+cd)/((2α+β)ω)時(shí),存在混合策略的貝葉斯納什均衡,此時(shí)攻擊者的類型為網(wǎng)絡(luò)攻擊.
證明.
1)當(dāng)攻擊者的純策略為(攻擊;不攻擊)時(shí),防護(hù)者采取防護(hù)策略的期望收益為
防護(hù)者采取不防護(hù)策略的期望收益為
當(dāng)μ>(βω+cd)/((2α+β)ω)時(shí),E(d)>E(nd),防護(hù)者采取的占優(yōu)策略是防護(hù).假設(shè)cic<(1-2α)ω<cip,攻擊者采取相應(yīng)的最優(yōu)策略是(攻擊;不攻擊).因此當(dāng)μ>(βω+cd)/((2α+β)ω)和cic<(1-2α)ω<cip時(shí),((攻擊;不攻擊),防護(hù),μ)是純策略的貝葉斯納什均衡,否則不存在.當(dāng)μ≤(βω+cd)/((2α+β)ω)時(shí),E(d)<E(nd),防護(hù)者采取的占優(yōu)策略是不防護(hù).然而攻擊者采取相應(yīng)的最優(yōu)策略是(攻擊;攻擊),所以((攻擊;不攻擊),不防護(hù),μ)不是純策略的貝葉斯納什均衡.
2)在攻擊者的純策略為(攻擊;不攻擊)的情況下,當(dāng)μ ≤(βω+cd)/((2α+β)ω)時(shí),不存在純策略的貝葉斯納什均衡,由定理1可知,博弈存在混合策略的貝葉斯納什均衡.假設(shè)攻擊者的類型為網(wǎng)絡(luò)攻擊時(shí),采取攻擊策略的概率為p1,采取不攻擊策略的概率為1-p1;攻擊者的類型為物理攻擊時(shí),采取不攻擊策略.防護(hù)者采取防護(hù)的概率q1,不防護(hù)的概率為1-q1.
防護(hù)者采取防護(hù)策略的期望收益為
防護(hù)者采取不防護(hù)策略的期望收益為
攻擊者的類型為網(wǎng)絡(luò)攻擊,采取攻擊的期望收益為
攻擊者的類型為網(wǎng)絡(luò)攻擊,采取不攻擊的期望收益為
當(dāng)E(d)=E(nd)時(shí),可以得出攻擊者類型為網(wǎng)絡(luò)攻擊時(shí),采取攻擊均衡策略的概率為. 當(dāng) Ec(a)=Ec(na)時(shí),可以得出防護(hù)者采取防護(hù)均衡策略的概率2αω.由此可知,當(dāng)μ≤(βω+cd)/((2α+β)ω)時(shí)((以的概率攻擊;不攻擊),以的概率防護(hù),μ)是混合策略的貝葉斯納什均衡.□
定理4.若假設(shè)1成立,當(dāng)μ<(2αω-cd)/((2α+β)ω)時(shí),在cip<(1-2α)ω<cic的情況下,存在純策略的貝葉斯納什均衡,此時(shí)攻擊者的類型為物理攻擊;當(dāng)μ≥(2αω-cd)/((2α+β)ω)時(shí),存在混合策略的貝葉斯納什均衡,此時(shí)攻擊者的類型為物理攻擊.
證明.
1)當(dāng)攻擊者的純策略為(不攻擊;攻擊)時(shí),防護(hù)者采取防護(hù)策略的期望收益為
防護(hù)者采取不防護(hù)策略的期望收益為
當(dāng)μ<(2αω-cd)/((2α+β)ω)時(shí),E(d)>E(nd),防護(hù)者采取的占優(yōu)策略是防護(hù).假設(shè)cip<(1-2α)ω<cic,攻擊者采取相應(yīng)的最優(yōu)策略是(不攻擊;攻擊).因此當(dāng)μ <(2αω-cd)/((2α+β)ω)和cip<(1-2α)ω<cic時(shí)((不攻擊;攻擊),防護(hù),μ)是純策略的貝葉斯納什均衡,否則不存在.當(dāng)μ≥(2αω-cd)/((2α+β)ω)時(shí),E(d)<E(nd),防護(hù)者采取的占優(yōu)策略是不防護(hù).然而攻擊者采取相應(yīng)的最優(yōu)策略是(攻擊;攻擊),所以((不攻擊;攻擊),不防護(hù),μ)不是純策略的貝葉斯納什均衡.
2)在攻擊者的純策略為(不攻擊;攻擊)的情況下,當(dāng)μ≥(2αω-cd)/((2α+β)ω)時(shí),不存在純策略的貝葉斯納什均衡,由定理1可知,博弈存在混合策略的貝葉斯納什均衡.假設(shè)攻擊者類型為物理攻擊,采取攻擊策略的概率為p2,采取不攻擊策略的概率為1-p2;攻擊者類型為網(wǎng)絡(luò)攻擊時(shí)采取不攻擊策略.防護(hù)者采取防護(hù)策略的概率q2,采取不防護(hù)策略的概率為1-q2.
防護(hù)者采取防護(hù)策略的期望收益為
防護(hù)者采取不防護(hù)策略的期望收益為
攻擊者類型物理攻擊時(shí),采取攻擊策略的期望收益為
攻擊者類型物理攻擊時(shí),采取不攻擊策略的期望收益為
當(dāng)E(d)=E(nd)時(shí),可以得出攻擊者類型為物理攻擊時(shí),采取攻擊均衡策略的概率為.當(dāng)時(shí),可以得出防護(hù)者采取防護(hù)均衡策略的概率.由此可知,當(dāng)μ≥(2αω-cd)/((2α+β)ω)時(shí),((不攻擊;以的概率攻擊),以的概率防護(hù),μ)是混合策略的貝葉斯納什衡.□
靜態(tài)貝葉斯博弈模型廣泛地應(yīng)用于多攻擊者類型的網(wǎng)絡(luò)中,例如DOS攻擊(Denial of service attacks),路由中斷攻擊(Routing disruption attacks).為了能夠更好地防護(hù)智能電網(wǎng)的安全,入侵檢測(cè)系統(tǒng)總是保持運(yùn)行狀態(tài).從系統(tǒng)使用的角度來看,持續(xù)運(yùn)行并不是一個(gè)最有效的選擇,因?yàn)殡娋W(wǎng)的網(wǎng)絡(luò)組件通常是資源受限的.靜態(tài)貝葉斯博弈模型可以根據(jù)貝葉斯納什均衡解幫助系統(tǒng)防護(hù)者進(jìn)行決策分析,提升入侵檢測(cè)系統(tǒng)的檢測(cè)效率.由定理3和定理4可知,本文根據(jù)攻擊者類型為網(wǎng)絡(luò)攻擊的概率和貝葉斯納什均衡解,可以確定攻擊者的類型.對(duì)于攻擊者類型不確定的問題,可以通過智能電網(wǎng)的網(wǎng)絡(luò)組件占整個(gè)電網(wǎng)系統(tǒng)的比例來計(jì)算攻擊者類型為網(wǎng)絡(luò)攻擊的概率.
關(guān)于智能電網(wǎng)的網(wǎng)絡(luò)安全和物理安全的研究,分別是網(wǎng)絡(luò)攻擊和防護(hù)者、物理攻擊和防護(hù)者之間的一個(gè)雙人博弈;當(dāng)攻擊者的類型確定時(shí),博弈方對(duì)另外一方的特征、戰(zhàn)略空間及支付函數(shù)有準(zhǔn)確的知識(shí),是一個(gè)完全信息的博弈;攻擊者和防護(hù)者輪流選擇策略,是一個(gè)連續(xù)的博弈;因此攻擊者和防護(hù)者之間的博弈是一個(gè)雙人完全信息下的序貫博弈[19].對(duì)于序貫博弈,通常使用博弈樹的方法進(jìn)行分析.樹形圖稱為博弈的擴(kuò)展式,表明所有博弈方可選擇的所有可能策略,并給出博弈的所有可能的收益結(jié)果.攻擊者和防護(hù)者之間依次輪流選擇策略,當(dāng)前狀態(tài)的收益只依賴于上一個(gè)狀態(tài)的收益,這反映了收益行為是一個(gè)馬爾科夫過程(Markov process)[30].
用Uh(S,a)表示當(dāng)前狀態(tài)博弈方S的收益情況,那么當(dāng)前收益是上一狀態(tài)的收益Uh-1(S,a')加上行為函數(shù)收益A(S,a,d),計(jì)算公式為
其中,d表示博弈樹的深度,a表示博弈方S的行為策略,由于攻擊者和防護(hù)者是輪流采取策略,所以a'表示博弈方S的對(duì)手的策略.若行為函數(shù)收益中的a是攻擊者的策略,當(dāng)博弈方S為攻擊者時(shí),它會(huì)獲得一個(gè)線性的增益影響;當(dāng)博弈方S為防護(hù)者時(shí),它會(huì)有指數(shù)級(jí)的損失影響.若a是防護(hù)者的策略,當(dāng)博弈方S為攻擊者時(shí),它沒有收益;當(dāng)博弈方S為防護(hù)者時(shí),它會(huì)有線性的增益影響,如表3所示.
表3 行為函數(shù)收益Table 3 The payoffof the behavioral function
下面計(jì)算策略a對(duì)博弈方產(chǎn)生的影響函數(shù)Impact(a),它由智能電網(wǎng)的保密性(Confidentiality)、完整性(Integrity)、可用性(Availability)和安全性(Safety)組成,分別用C(a),I(a),A(a),SF(a)表示,并且根據(jù)重要性賦予的權(quán)值分別為ωC,ωI,ωA,ωSF.其中Impact(a)定義如下:
為了能夠?qū)Υ_定類型的攻擊者和防護(hù)者之間的序貫博弈進(jìn)行分析,本文提出了一種數(shù)值算法,通過逆向歸納法對(duì)序貫博弈模型的博弈樹進(jìn)行分析.將博弈樹的每個(gè)決策結(jié)點(diǎn)看成一個(gè)子博弈的初始結(jié)點(diǎn),每個(gè)決策結(jié)點(diǎn)和它的后續(xù)分支構(gòu)成一個(gè)子博弈.在每個(gè)子博弈中求出納什均衡,這些納什均衡的戰(zhàn)略組合是子博弈精煉納什均衡.如果一個(gè)博弈有幾個(gè)子博弈,一個(gè)特定的納什均衡決定了原博弈樹上唯一的路徑,這條路徑稱為均衡路徑.為了求解子博弈精煉納什均衡,通過逆向歸納法從最后一個(gè)子博弈開始,依次向前求解每個(gè)子博弈的納什均衡.根據(jù)博弈樹的均衡路徑,可以得出博弈雙方的最優(yōu)策略,以下是數(shù)值算法的步驟:
算法1.數(shù)值算法
步驟1.設(shè)置初值:
步驟2.構(gòu)建博弈樹:
每個(gè)決策節(jié)點(diǎn)表示攻擊者和防護(hù)者的輪次,每條分支表示攻擊者和防護(hù)者的策略;博弈樹的高度為d.
步驟3.收益值:
根據(jù)式(18)求出策略a的Impact(a);根據(jù)式(17)和表3可以求出博弈樹每個(gè)決策節(jié)點(diǎn)的收益值,初始收益值都為(0,0),前者為攻擊者的收益,后者為防護(hù)者的收益.
步驟4.迭代:
經(jīng)過靜態(tài)貝葉斯博弈模型分析后,攻擊者的類型確定,接下來分別對(duì)兩種類型的攻擊者和防護(hù)者進(jìn)行序貫博弈數(shù)值算法分析,通過算法求出均衡路徑,根據(jù)均衡路徑可以得出攻擊者的最優(yōu)攻擊策略和防護(hù)者的最優(yōu)防護(hù)策略.
隨著新技術(shù)的應(yīng)用和更容易獲取的能源數(shù)據(jù)的使用,智能電網(wǎng)有可能受到多種漏洞和攻擊的威脅.為了能夠清晰地了解攻擊者的策略,下面介紹三種網(wǎng)絡(luò)攻擊和三種物理攻擊.
1)網(wǎng)絡(luò)類型的攻擊者:攻擊智能電網(wǎng)的網(wǎng)絡(luò)組件.
干擾攻擊(Jamming):智能電網(wǎng)的通信系統(tǒng)較容易受到攻擊,例如拒絕服務(wù)攻擊.干擾攻擊作為拒絕服務(wù)攻擊的一種,干擾和阻塞了系統(tǒng)組件之間的信息交換、數(shù)據(jù)測(cè)量和控制輸入,對(duì)數(shù)據(jù)的完整性造成了損害[31].
竊聽攻擊(Eavesdropping):對(duì)手可以通過監(jiān)控網(wǎng)絡(luò)流量來獲取敏感信息,披露智能電網(wǎng)控制結(jié)構(gòu)以及未來的價(jià)格信息,從而導(dǎo)致用戶隱私泄露.這種竊聽可以用來收集更多的信息,進(jìn)行更多的犯罪.例如,攻擊者可以收集和檢查網(wǎng)絡(luò)流量,從通信模式中推斷出信息,甚至加密的通信也容易受到流量分析的攻擊.
數(shù)據(jù)注入攻擊(Data injection):攻擊者向目標(biāo)地區(qū)當(dāng)前或者未來的價(jià)格中注入虛假信息,使得地區(qū)的電力需求變化而造成損失,以及將錯(cuò)誤的電表信息發(fā)送給智能電網(wǎng)公司,造成公司的經(jīng)濟(jì)損失.數(shù)據(jù)注入攻擊也會(huì)改變電力市場的狀態(tài)估計(jì)值,通過電網(wǎng)拓?fù)涞闹R(shí),可以看出在當(dāng)今的監(jiān)控和數(shù)據(jù)采集(SCADA)系統(tǒng)中,錯(cuò)誤的數(shù)據(jù)注入攻擊可以繞開不良數(shù)據(jù)檢測(cè)[32].
2)物理類型的攻擊者:攻擊智能電網(wǎng)的物理組件.
恐怖襲擊(Terrorist):第一起恐怖襲擊事件發(fā)生在2014年的也門,襲擊者發(fā)射火箭摧毀輸電塔,造成也門全國停電和2400萬人受傷[11].再如狙擊手攻擊美國加利福尼亞州輸電變電站的電力系統(tǒng)變壓器,改變電力系統(tǒng)的拓?fù)浣Y(jié)構(gòu),導(dǎo)致了直接停電并引發(fā)連鎖故障[33].
盜竊攻擊(Steal):攻擊者盜竊銅線和金屬設(shè)備,損害了電網(wǎng)的完整性,造成大片區(qū)域的停電事故.例如,盜竊造成了美國西弗吉尼亞州3000人的停電事故[11].
自然災(zāi)害攻擊(Natural disaster):自然災(zāi)害會(huì)損害智能電網(wǎng)的物理設(shè)備,造成大片區(qū)域的停電,顯示了智能電網(wǎng)組件的物理暴露和不可靠性的影響.樹木的過度生長和倒塌也會(huì)對(duì)電網(wǎng)輸電線路造成攻擊,例如過度生長的樹木造成了美國俄亥俄州北部5000萬人的大面積停電[34].
為了保證智能電網(wǎng)安全、可擴(kuò)展和可靠地運(yùn)行,各國提出了一些框架和指導(dǎo)方針[35].美國國家標(biāo)準(zhǔn)與技術(shù)研究院提出,為了智能電網(wǎng)的安全,應(yīng)滿足三個(gè)安全需求:保密性(Confidentiality)、完整性(Integrity)和可用性(Availability).由于智能電網(wǎng)組件的不同性質(zhì),以及與物理世界的直接互動(dòng),安全性(Safety)要求也是至關(guān)重要的.美國2004年2月出版的《聯(lián)邦信息和信息系統(tǒng)安全分類標(biāo)準(zhǔn)》(Federal information processing standard 199,FIPS 199)對(duì)每個(gè)安全需求都規(guī)定了低、中、高影響級(jí).由于安全性的重要性,本文也規(guī)定了低、中、高影響級(jí).對(duì)于智能電網(wǎng)的網(wǎng)絡(luò)安全,數(shù)據(jù)的完整性是最重要的,其次是數(shù)據(jù)的可用性,最后是保密性和安全性.本文假設(shè)網(wǎng)絡(luò)安全需求的權(quán)值分別為ωI=0.4,ωA=0.3,ωC=0.2,ωSF=0.1.網(wǎng)絡(luò)攻擊中的干擾攻擊(Jamming)、竊聽攻擊(Eavesdropping)、數(shù)據(jù)注入攻擊(Data injection)分別用acj,ace和acd表示,其中acno表示不攻擊策略.智能電網(wǎng)的防護(hù)者也會(huì)采取相應(yīng)的策略,例如密鑰管理(Key management)、干擾防護(hù) (Jamming defense),用d〈km,jd〉表示,其中dcno表示不防護(hù)策略.根據(jù)這些網(wǎng)絡(luò)攻擊對(duì)智能電網(wǎng)的影響,確定攻擊策略的影響級(jí),其中影響級(jí)低、中、高分別用l,m,h表示(l<m<h).根據(jù)式(18)可計(jì)算出行為策略a的影響函數(shù),如表4所示.網(wǎng)絡(luò)攻擊者和防護(hù)者之間進(jìn)行序貫博弈,通過數(shù)值算法對(duì)網(wǎng)絡(luò)攻擊的序貫博弈樹進(jìn)行分析,博弈雙方輪流采取行動(dòng),通常是攻擊者先采取行動(dòng).
假設(shè)攻擊者第一階段采取的策略為{ace,acno},第二階段采取策略{acj,acd};防護(hù)者采取的策略為{d〈km,jd〉,dcno}.博弈樹的收益結(jié)果根據(jù)式(17)和表3進(jìn)行計(jì)算,表示為(攻擊者收益,防護(hù)者收益),其中根節(jié)點(diǎn)的初始收益為(0,0),實(shí)心圓表示攻擊者輪次,空心圓表示防護(hù)者輪次.網(wǎng)絡(luò)攻擊的序貫博弈樹如圖2所示.
首先從博弈樹高度為2的最左側(cè)子博弈開始,比較收益(1.6l+m+1.4h,-(0.3l+0.3m+0.4h)3-0.1l+1.1m)和(1.3l+m+1.7h,-(0.2l+0.3m+0.5h)3-0.1l+1.1m),此時(shí)是攻擊者輪次,并且1.6l+m+1.4h<1.3l+m+1.7h,所以攻擊者的最優(yōu)策略是acd,收益為(1.3l+m+1.7h,-(0.2l+0.3m+0.5h)3-0.1l+1.1m).同理可以求出博弈樹高度為2的其余三個(gè)子博弈的最優(yōu)策略和收益分別為acd和(1.3l+m+1.7h,-(0.2l+0.3m+0.5h)3-0.7l-0.1m-0.2h),acd和(0.6l+0.9m+1.5h,-(0.2l+0.3m+0.5h)3+0.6l+1.2m+0.2h),acd和(0.6l+0.9m+1.5h,-(0.2l+0.3m+0.5h)3).
其次從博弈樹高度為1的左側(cè)子博弈分析,比較收益(1.3l+m+1.7h,-(0.2l+0.3m+0.5h)3-0.1l+1.1m)和(1.3l+m+1.7h,-(0.2l+0.3m+0.5h)3-0.7l-0.1m-0.2h),此時(shí)是防護(hù)者的輪次,并且-(0.2l+0.3m+0.5h)3-0.1l+1.1m>-(0.2l+0.3m+0.5h)3-0.7l-0.1m-0.2h,所以防護(hù)者采取防護(hù)策略d〈km,jd〉,收益為(1.3l+m+1.7h,-(0.2l+0.3m+0.5h)3-0.1l+1.1m).同理可求出博弈樹高度為1的右側(cè)子博弈最優(yōu)策略和收益為d〈km,jd〉和 (0.6l+0.9m+1.5h,-(0.2l+0.3m+0.5h)3+0.6l+1.2m+0.2h).
最后對(duì)博弈樹高度為0的子博弈進(jìn)行分析,比較收益(1.3l+m+1.7h,-(0.2l+0.3m+0.5h)3-0.1l+1.1m)和(0.6l+0.9m+1.5h,-(0.2l+0.3m+0.5h)3+0.6l+1.2m+0.2h),此時(shí)是攻擊者輪次,并且1.3l+m+1.7h>0.6l+0.9m+1.5h,所以攻擊者采取ace,收益為(1.3l+m+1.7h,-(0.2l+0.3m+0.5h)3-0.1l+1.1m).
經(jīng)過分析,攻擊者的類型為網(wǎng)絡(luò)攻擊時(shí),博弈樹的均衡路徑如圖2所示,攻擊者的最優(yōu)策略是ace和acd,防護(hù)者的最優(yōu)策略是d〈km,jd〉.
智能電網(wǎng)遭受物理攻擊時(shí),也會(huì)對(duì)網(wǎng)絡(luò)造成影響,例如攻擊智能電表會(huì)導(dǎo)致用戶數(shù)據(jù)丟失,使得電網(wǎng)公司損失利益.所以影響函數(shù)Impact(a)也是由智能電網(wǎng)的保密性(Confidentiality)、完整性(Integrity)、可用性(Availability)、安全性(Safety)組成.對(duì)于智能電網(wǎng)的物理設(shè)備的安全,完整性(Integrity)和可用性(Availability)同時(shí)重要,其次是保密性(Confidentiality)、安全性(Safety).本文根據(jù)物理安全需求的重要性來分配權(quán)值,分別為ωI=0.4,ωA=0.4,ωC=0.1,ωSF=0.1.物理攻擊中的恐怖襲擊(Terrorist)、盜竊攻擊(Steal)、自然災(zāi)害攻擊(Natural disaster)分別用apt,aps和apn表示,其中apno表示不攻擊策略.智能電網(wǎng)的防護(hù)者也會(huì)采取相應(yīng)的策略,例如意外事故分析(Contingency analysis)、監(jiān)控物理訪問(Monitor physical access),用d〈ca,mp〉表示,其中dpno表示不防護(hù)策略.根據(jù)式(18)可計(jì)算出行為策略a的影響函數(shù),如表5所示.
圖2 網(wǎng)絡(luò)攻擊的序貫博弈樹Fig.2 The sequential game tree for cyber attacks
假設(shè)攻擊者第一階段采取的策略為{aps,apno},第二階段采取策略{apn,apt};防護(hù)者采取的策略為{d〈ca,mp〉,dpno}.博弈樹的收益結(jié)果根據(jù)式(17)和表3進(jìn)行計(jì)算,表示為(攻擊者收益,防護(hù)者收益),其中根節(jié)點(diǎn)的初始收益為(0,0),實(shí)心圓表示攻擊者輪次,空心圓表示防護(hù)者輪次.物理攻擊的序貫博弈樹如圖3所示.通過數(shù)值算法對(duì)物理攻擊的序貫博弈樹進(jìn)行分析,求出均衡路徑.
首先從博弈樹高度為2的最左側(cè)子博弈開始,比較收益(1.1l+2.9m,-(0.1l+0.9m)3-0.6l+1.6m)和(1.1l+0.2m+2.7h,-(0.1l+0.9h)3-0.6l+1.6m),此時(shí)是攻擊者的輪次,并且1.1l+0.2m+2.7h>1.1l+2.9m,所以攻擊者的最優(yōu)策略是apt,收益為(1.1l+0.2m+2.7h,-(0.1l+0.9h)3-0.6l+1.6m).同理求出其余博弈樹高度為2的子博弈最優(yōu)策略和收益分別為apt和(1.1l+0.2m+2.7h,-(0.1l+0.9h)3-0.8l-0.2m),apt和(0.3l+2.7h,-(0.1l+0.9h)3+0.2l+1.8m),apt和(0.3l+2.7h,-(0.1l+0.9h)3).
圖3 物理攻擊的序貫博弈樹Fig.3 The sequential game tree for physical attacks
表4 行為策略a的影響函數(shù)(網(wǎng)絡(luò)攻擊)Table 4 The payoffof the behavioral function(cyber attack)
表5 行為策略a的影響函數(shù)(物理攻擊)Table 5 The payoffof the behavioral function(physical attack)
其次對(duì)博弈樹高度為1的左側(cè)子博弈分析,比較收益(1.1l+0.2m+2.7h,-(0.1l+0.9h)3-0.6l+1.6m)和(1.1l+0.2m+2.7h,-(0.1l+0.9h)3-0.8l-0.2m),此時(shí)是防護(hù)者輪次,并且-(0.1l+0.9h)3-0.6l+1.6m>-(0.1l+0.9h)3-0.8l-0.2m,所以防護(hù)者采取的最優(yōu)策略為d〈ca,mp〉,收益為(1.1l+0.2m+2.7h,-(0.1l+0.9h)3-0.6l+1.6m).同理求出博弈樹高度為1的右側(cè)子博弈的最優(yōu)策略和收益為d〈ca,mp〉和 (0.3l+2.7h,-(0.1l+0.9h)3+0.2l+1.8m).
最后對(duì)博弈樹高度為0的子博弈進(jìn)行分析,比較收益(1.1l+0.2m+2.7h,-(0.1l+0.9h)3-0.6l+1.6m)和(0.3l+2.7h,-(0.1l+0.9h)3+0.2l+1.8m),此時(shí)是攻擊者輪次,并且1.1l+0.2m+2.7h>0.3l+2.7h,所以攻擊者采取的最優(yōu)策略為aps,收益為(1.1l+0.2m+2.7h,-(0.1l+0.9h)3-0.6l+1.6m).
經(jīng)過分析,攻擊者的類型為物理攻擊時(shí),博弈樹的均衡路徑如圖3所示,攻擊者的最優(yōu)策略是aps和apt,防護(hù)者的最優(yōu)策略是d〈ca,mp〉.
本文針對(duì)智能電網(wǎng)的防護(hù)者如何確定攻擊者類型,進(jìn)而選擇最優(yōu)防護(hù)策略的安全問題,提出了一種貝葉斯序貫博弈模型,為系統(tǒng)防護(hù)者及時(shí)提供決策分析.首先,通過靜態(tài)貝葉斯博弈模型分析,根據(jù)貝葉斯納什均衡解和攻擊者類型為網(wǎng)絡(luò)攻擊的概率,確定攻擊者的類型.其次,通過逆向歸納法對(duì)確定類型的攻擊者和防護(hù)者之間的序貫博弈博弈樹進(jìn)行分析,根據(jù)均衡路徑選擇博弈雙方的最優(yōu)策略.通過對(duì)攻擊者和防護(hù)者的靜態(tài)貝葉斯博弈和序貫博弈樹分析,解決了防護(hù)者不確定攻擊者類型的安全問題,并且根據(jù)均衡路徑得出了攻擊者的最優(yōu)攻擊策略和防護(hù)者的最優(yōu)防護(hù)策略,為保證智能電網(wǎng)的安全運(yùn)行提供了參考.下一步值得進(jìn)一步探討的問題包括建立和分析攻擊者和防護(hù)者之間的動(dòng)態(tài)貝葉斯博弈模型,以及擴(kuò)展序貫博弈模型中的行為函數(shù)收益公式等.