伍 文,楊發(fā)亮,張兆忠,劉長(zhǎng)樂
(解放軍93936部隊(duì),銀川 750025)
基于三方動(dòng)態(tài)博弈模型的網(wǎng)絡(luò)生存防御策略優(yōu)化配置
伍 文,楊發(fā)亮,張兆忠,劉長(zhǎng)樂
(解放軍93936部隊(duì),銀川 750025)
針對(duì)網(wǎng)絡(luò)攻防環(huán)境中防御方以提高系統(tǒng)生存能力為目的所進(jìn)行的最優(yōu)生存防御策略的選取問題,提出了一種基于完全信息動(dòng)態(tài)博弈理論的生存防御策略優(yōu)化配置算法。將惡意攻擊方、故障意外事件及防御方作為博弈的參與人,提出了一種混合戰(zhàn)略模式下的三方動(dòng)態(tài)博弈模型,對(duì)博弈的主要信息要素進(jìn)行了說明,以混合戰(zhàn)略納什均衡理論為基礎(chǔ),將原納什均衡條件式的表達(dá)式轉(zhuǎn)化為可計(jì)算數(shù)值結(jié)果的表達(dá)式,并據(jù)此增加了近似的概念,最后,將提出的模型和近似納什均衡求解算法應(yīng)用到一個(gè)網(wǎng)絡(luò)實(shí)例中,結(jié)果證明了模型和算法的可行性和有效性。
網(wǎng)絡(luò)可生存性,策略選取,動(dòng)態(tài)博弈,納什均衡,粒子群
計(jì)算機(jī)網(wǎng)絡(luò)在金融、醫(yī)療、交通、軍事、通信等領(lǐng)域發(fā)揮重大作用的同時(shí),也遭受著來自各方面的威脅。各種網(wǎng)絡(luò)安全、生存技術(shù)被開發(fā)以提高系統(tǒng)抵御威脅的能力。已有的可生存技術(shù)有IP重路由、服務(wù)動(dòng)態(tài)配置、冗余、備份等[1]。但這些技術(shù)主要是針對(duì)威脅的、被動(dòng)的、孤立的防御策略,沒有形成統(tǒng)一戰(zhàn)線;依賴人為選取策略,時(shí)效性低,也沒有綜合考慮成本因素;且部分技術(shù)功能交叉,造成了資源的浪費(fèi)[2]??傊狈σ惶仔兄行У慕y(tǒng)一調(diào)配機(jī)制使得這些技術(shù)的功能得到最大發(fā)揮。網(wǎng)絡(luò)生存防御策略優(yōu)化配置算法,是從策略層面考慮的生存防御措施,能夠利用已有的安全及可生存性技術(shù),動(dòng)態(tài)優(yōu)化配置網(wǎng)絡(luò)的各種生存資源,有效提高網(wǎng)絡(luò)的主動(dòng)防御能力[3-4]。
文獻(xiàn)[5]將故障、意外事件作為非理性攻擊者納入到博弈體系中,與攻擊者、防御者共同構(gòu)成博弈的參與方,建立一種三方完全信息生存動(dòng)態(tài)博弈模型,提出了網(wǎng)絡(luò)生存防御純策略優(yōu)化配置算法。本文在此基礎(chǔ)之上,給出了一種網(wǎng)絡(luò)生存防御混合策略優(yōu)化配置算法。混合策略情況下,動(dòng)態(tài)博弈參與人不是確定地選擇行動(dòng)空間中的某一策略,而是以一定的概率選擇該策略予以指導(dǎo)行動(dòng)。選擇混合策略的目的是給其他參與人造成不確定性,這樣盡管其他參與人知道選擇某個(gè)特定純策略的概率是多少,但是并不能猜透實(shí)際上會(huì)選擇哪個(gè)純策略?;旌喜呗韵啾燃儾呗栽趹?yīng)用上更具靈活性。
建立的三方動(dòng)態(tài)博弈模型如圖1所示,
A.參與人:三方博弈參與者為攻擊者、故障意外事件及防御者。攻擊者指人為惡意攻擊一方,具備分析決策能力,可理性判斷應(yīng)該采取的行動(dòng)。故障意外事件為非理性攻擊者,發(fā)生具有隨機(jī)性,服從一定的分布,不具備理性分析能力。作為特殊的博弈參與人,故障意外事件是由外在自然觸發(fā),以觸發(fā)概率值作為輸入。防御者則通過實(shí)施各種防御策略達(dá)到對(duì)網(wǎng)絡(luò)保護(hù)的目的。
B.行動(dòng)次序:動(dòng)態(tài)博弈參與人的行動(dòng)次序是序貫的,各參與人依次采取行動(dòng)。不同的行動(dòng)順序會(huì)產(chǎn)生不同的博弈結(jié)果。根據(jù)各參與人的決策順序確定博弈模型的行動(dòng)次序。
C.行動(dòng)空間:行動(dòng)空間是依據(jù)參與人的策略集,在每一個(gè)行動(dòng)點(diǎn)的可選行動(dòng)集。三方博弈中,對(duì)于攻擊者,在攻擊初始的行動(dòng)空間AAo包括攻擊者可選的攻擊類型,可選的攻擊對(duì)象等,在攻擊進(jìn)行中的行動(dòng)空間AAg包括繼續(xù)攻擊、停止攻擊、停留觀察等策略;對(duì)于防御方的行動(dòng)空間AS包括防御者針對(duì)各種攻擊的容忍、恢復(fù)等策略;對(duì)于故障、意外事件,其行動(dòng)空間AFo包括故障、意外事件的類型、位置等信息,AFg包括繼續(xù)破壞、停止破壞等信息,與攻擊者不同的是,其行動(dòng)空間是非理性的,具體行動(dòng)由故障、意外造成的實(shí)際影響確定。
D.信息集:博弈理論中信息是參與人有關(guān)其他參與人特征和行動(dòng)的知識(shí)。根據(jù)博弈參與人所掌握的信息,將博弈擴(kuò)展式上的所有決策結(jié)分割成不同的集合,這些集合稱為信息集,對(duì)一個(gè)參與人的同一個(gè)信息集,后一個(gè)參與人無法區(qū)分博弈進(jìn)入該集合的哪一個(gè)決策結(jié)。對(duì)于完美信息動(dòng)態(tài)博弈,信息集都是單點(diǎn)集[6]。
E.收益:在動(dòng)態(tài)博弈中,收益是指在特定的序貫行動(dòng)組合下參與人得到的效用水平。收益量化是博弈中一個(gè)非常重要的問題,其準(zhǔn)確性直接決定博弈結(jié)果的準(zhǔn)確性?;旌蠎?zhàn)略動(dòng)態(tài)博弈參與人的收益是參與人純策略收益組成的期望收益,下面給出計(jì)算方法[7]。
其中,φ為所有路徑組成的集合。
這里需要說明一下的是,三方動(dòng)態(tài)博弈模型中,攻擊者的收益包括攻擊者的自身收益和非理性攻擊者的額外收益。故障意外事件是由自然觸發(fā)的,不以獲得收益為目的。
F.擴(kuò)展式表示:動(dòng)態(tài)博弈擴(kuò)展式是以樹型結(jié)構(gòu)將動(dòng)態(tài)博弈過程形象直觀地表示出來。給出三方博弈的擴(kuò)展式示意圖如圖2所示,“1”表示故障,“2”表示攻擊者,“3”表示防御者。
有限n人非合作混合戰(zhàn)略動(dòng)態(tài)博弈中[8],混合戰(zhàn)略組合是一個(gè)納什均衡,如果對(duì)于所有的 i=1,2,…,n,滿足:
式(2)給出的納什均衡定義是以條件的方式給出。對(duì)于一個(gè)復(fù)雜的博弈問題,給出一個(gè)結(jié)果可輕易判斷該結(jié)果是否為納什均衡值,但是難以從式(2)直接求解得到納什均衡值。因此,首先將式(2)轉(zhuǎn)化為易于計(jì)算的形式。
式(3)將得到一個(gè)確定的值,而非式(2)中僅為一個(gè)判定過程。
式(4)是以一定的近似找到接近納什均衡的一組解,近似程度根據(jù)實(shí)際需要確定,近似程度由γ確定,γ越大,越接近納什均衡,當(dāng)γ=100時(shí),得到的γ%近似納什均衡與式(3)給出的納什均衡一致。
采用粒子群算法對(duì)提出的三方動(dòng)態(tài)模型進(jìn)行求解,具體求解過程在文獻(xiàn)[9]中已經(jīng)做過描述,這里不再贅述。
采用如圖3所示的網(wǎng)絡(luò)環(huán)境進(jìn)行模擬實(shí)驗(yàn)分析。
理性攻擊者通過外網(wǎng)對(duì)內(nèi)網(wǎng)的各個(gè)節(jié)點(diǎn)進(jìn)行攻擊,以破壞內(nèi)部網(wǎng)絡(luò)的可用性作為目的,內(nèi)網(wǎng)布置有各種生存措施阻擋外來威脅對(duì)系統(tǒng)網(wǎng)絡(luò)造成的傷害,非理性攻擊者(例如,軟硬件故障)的發(fā)生是隨機(jī),可人為統(tǒng)計(jì)其概率數(shù)據(jù)。三方動(dòng)態(tài)博弈模型的建立是以網(wǎng)絡(luò)在容忍、恢復(fù)階段的生存對(duì)抗為背景的(將網(wǎng)絡(luò)的生存過程分為抵抗,檢測(cè),容忍恢復(fù)3個(gè)階段)。對(duì)博弈參與者策略的分析如表1所示:
表1 參與者策略表
首先以網(wǎng)絡(luò)中單個(gè)設(shè)備為研究對(duì)象來構(gòu)建三方動(dòng)態(tài)博弈模型和進(jìn)行混合戰(zhàn)略納什均衡的計(jì)算。針對(duì)圖3中節(jié)點(diǎn)1Web服務(wù)器,某管理員在了解各方策略的前提下,設(shè)計(jì)了攻擊者、防御者及故障事件的三方動(dòng)態(tài)博弈模型如下頁圖4所示,根據(jù)其經(jīng)驗(yàn)給出了各博弈路徑的攻防雙方的收益值。該模型分為兩個(gè)部分,用虛線分開,虛線上和虛線下的部分分別為Web服務(wù)器故障和無故障情況下的動(dòng)態(tài)博弈模型。在后續(xù)的仿真中,將分別計(jì)算兩種情況下的近似納什均衡。
下頁圖4中,加方框的決策結(jié)為理性攻擊者與防御者需要做決策的點(diǎn),與其連接的后續(xù)行動(dòng)被選取的概率值即為混合戰(zhàn)略納什均衡的求解對(duì)象,這些決策結(jié)分別被標(biāo)識(shí)為a~e,其后續(xù)行動(dòng)的概率值分別表示為σa1、σa2、σb1、σb2......,以此類推(見圖 4)。其中σx1+σx2=1,x表示a~e。未加方框的決策結(jié)包含兩種情況,一種為故障意外事件,其行動(dòng)策略的概率值是在算法運(yùn)行前根據(jù)實(shí)際掌握數(shù)據(jù)給定;一種為理性攻擊者,但其后續(xù)行動(dòng)只有一個(gè)。
首先計(jì)算Web服務(wù)器無故障情況下的納什均衡,設(shè)置仿真參數(shù) c1=c2=1,ωmax=0.9,ωmin=0.6,取粒子群規(guī)模m=10,根據(jù)文獻(xiàn)[9]中的算法計(jì)算得到納什均衡結(jié)果為:
對(duì)圖4進(jìn)行分析,觀察其收益函數(shù),不論在什么情況下,理性攻擊者采取DoS攻擊、繼續(xù)攻擊均會(huì)得到相比其他策略更高的收益,因此沒有理由選取其他策略而放棄策略DoS攻擊和繼續(xù)攻擊;同理,防御者沒有理由不選取容忍和動(dòng)態(tài)修復(fù)策略,雙方均會(huì)以更可能高的概率(概率值為1)來選擇這4個(gè)策略。因此,分析得到的納什均衡結(jié)果與納什均衡求解算法計(jì)算得到的納什均衡一致,該仿真驗(yàn)證了基于粒子群的納什均衡求解算法的正確性。
在獲知納什均衡結(jié)果的前提下,對(duì)Web服務(wù)器無故障情況下的γ%近似納什均衡進(jìn)行分析,圖5給出了近似程度γ隨迭代次數(shù)增加的變化過程。
迭代次數(shù)在25次以下時(shí),γ的值起伏比較大,但整體趨勢(shì)向納什均衡點(diǎn)靠近;當(dāng)?shù)螖?shù)在25~43次之間時(shí),γ的值明顯趨近納什均衡點(diǎn),但結(jié)果不穩(wěn)定,將該階段稱為γ%近似偽納什均衡階段,該階段γ最小的取值γmin=97.94,最大值γmax=100,平均值γavg=99.65,可以看出該階段的納什均衡結(jié)果已經(jīng)非常近似真正的納什均衡結(jié)果;當(dāng)?shù)螖?shù)在43次以上時(shí),γ已經(jīng)很穩(wěn)定地取值為100,該階段計(jì)算得到的數(shù)值結(jié)果即為納什均衡結(jié)果。經(jīng)過比對(duì)γ%近似納什均衡階段和納什均衡階段的數(shù)值可以得出:γ%近似納什均衡可以以更小的代價(jià)得到一近似納什均衡結(jié)果,該結(jié)果與納什均衡非常接近,與真實(shí)的納什均衡具有相同的應(yīng)用價(jià)值。
圖6給出了程序運(yùn)行時(shí)間隨著迭代次數(shù)的變化趨勢(shì),從圖6可以看出,隨著迭代次數(shù)的遞增,計(jì)算納什均衡消耗的時(shí)間也不斷增加,在γ%近似偽納什均衡階段,需要消耗的最少時(shí)間ta=1.964 0 s,而在納什均衡階段,需要消耗的最少時(shí)間tb=3.699 5 s。計(jì)算γ%近似納什均衡相比計(jì)算納什均衡時(shí)間節(jié)省了約為一半。
在圖5中γ%近似偽納什均衡階段選取4組納什均衡結(jié)果在圖7中表示出來,從圖中可以看出這4組值均非常接近真實(shí)的納什均衡結(jié)果。因此,γ%近似納什均衡概念的提出在確保結(jié)果有效的前提下節(jié)省了計(jì)算資源,這在實(shí)際網(wǎng)絡(luò)策略選擇應(yīng)用中節(jié)省了決策時(shí)間,使得決策反映速度得到了提高。
當(dāng)收益計(jì)算過程考慮的因素更加復(fù)雜,例如增加代價(jià)的計(jì)算,而不是僅僅行動(dòng)即獲益的思路,那么通過分析是無法獲知納什均衡結(jié)果的,而要依賴復(fù)雜的算法來求解。在Web服務(wù)器有故障情況的納什均衡計(jì)算中,考慮該情況。
在Web服務(wù)器有故障情況下的納什均衡計(jì)算中,粒子群算法的仿真參數(shù)與無故障情況下相同,迭代進(jìn)行60次,得到4組不同故障場(chǎng)景下的納什均衡仿真結(jié)果如表2所示。
表2中,當(dāng)故障持續(xù)概率為100%時(shí),攻擊方將選擇分別以100%和73.07%的概率選擇DoS攻擊n1和繼續(xù)攻擊策略,防御方將分別以100%和75%的概率選擇容忍和動(dòng)態(tài)修復(fù)策略,此時(shí)該近似納什均衡結(jié)果以99.99%的近似程度近似于納什均衡。當(dāng)故障持續(xù)概率降為80%,DoS攻擊n1的概率σa1與防御方容忍的概率σc1幾乎保持不變,而繼續(xù)攻擊的概率σd1由73.07%增加為92.43%,這是由于攻擊方由故障獲得的額外收益減少,則需提高其繼續(xù)攻擊的概率以增加其收益值。防御方減少選擇動(dòng)態(tài)修復(fù)策略的概率為63.51%,使得故障持續(xù)率降低、攻擊方繼續(xù)攻擊率增加的情況下防御方具有最佳收益值。當(dāng)故障持續(xù)概率繼續(xù)降低為50%,30%時(shí),攻擊方只有將繼續(xù)攻擊的概率提高至100%,才能保證其收益值最佳,此時(shí)防御方也只有以100%的概率選取動(dòng)態(tài)修復(fù)策略時(shí)得到最佳收益值。
表2 納什均衡仿真結(jié)果
由于考慮了多個(gè)攻擊對(duì)象,模型的復(fù)雜度將遠(yuǎn)遠(yuǎn)超過單個(gè)攻擊對(duì)象時(shí)的模型復(fù)雜度,簡(jiǎn)化攻防策略,省略相似的攻防過程得到三方動(dòng)態(tài)博弈模型如圖8所示。
當(dāng)攻擊者的攻擊對(duì)象為多個(gè)網(wǎng)絡(luò)設(shè)備時(shí),攻擊者在發(fā)起攻擊時(shí)沒有確定攻擊對(duì)象,那么在建立三方動(dòng)態(tài)博弈模型時(shí)攻擊者的攻擊初始策略包含兩個(gè)方面的內(nèi)容,分別為攻擊哪一個(gè)對(duì)象以及以什么方式攻擊,以圖3所示攻防模型為例,攻擊者可選的攻擊對(duì)象為節(jié)點(diǎn)n1、n2以及n3,可選的攻擊方式有DoS攻擊以及木馬攻擊。
三方動(dòng)態(tài)博弈模型的建立是納什均衡求解最基礎(chǔ)也是最關(guān)鍵的部分,在給出完整的模型后,根據(jù)第2節(jié)中描述的粒子群算法求解納什均衡,僅以n1故障情況下的博弈模型為例進(jìn)行說明,仿真參數(shù)為:c1=c2=1,ωmax=0.9,ωmin=0.6,m=40,迭代 100 次得到納什均衡結(jié)果如下
該納什均衡結(jié)果與真實(shí)的納什均衡結(jié)果的近似程度為99.99%,攻防雙方按照該納什均衡的結(jié)果選取策略將會(huì)得到最佳的收益。
針對(duì)網(wǎng)絡(luò)攻防對(duì)抗中生存防御策略的優(yōu)化配置問題,提出了一種混合策略模式下基于三方動(dòng)態(tài)博弈的網(wǎng)絡(luò)攻防對(duì)抗模型。將提出的模型應(yīng)用到一個(gè)網(wǎng)絡(luò)實(shí)例中,對(duì)其策略選擇過程進(jìn)行分析,分別建立了單個(gè)攻擊對(duì)象和多個(gè)攻擊對(duì)象情況下的三方動(dòng)態(tài)博弈模型,將兩種情況下仿真得到的納什均衡結(jié)果與實(shí)際的納什均衡結(jié)果進(jìn)行對(duì)比分析,均驗(yàn)證了所提理論的有效性和實(shí)用性。
[1]李黎,鄭慶華,管曉宏.基于有限資源提升網(wǎng)絡(luò)可生存性的拓?fù)渲貥?gòu)方法[J].物理學(xué)報(bào),2014,63(17):1-11.
[2]LIN Y S,CHEN P Y,CHEN Q T.Resource allocation strategies to maximize network survivability considering of average DOD[C]//Proc of 9th International Conference on Distributed Computing and Artificial Intelligence.Berlin:Springer Berlin Heidelberg,2012:751-758.
[3]林旺群,王慧,劉家紅,等.基于非合作動(dòng)態(tài)博弈的網(wǎng)絡(luò)安全主動(dòng)防御技術(shù)研究[J].計(jì)算機(jī)研究與發(fā)展,2011,48(2):306-316.
[4]ZHAO L R,MEI S E,ZHONG W J.Optimal configuration of firewall,IDS and vulnerability scan by game theory[J].Journal of Southeast University(English Edition),2011,27(2):144-147.
[5]伍文,孟相如,馬志強(qiáng),等.三方動(dòng)態(tài)博弈網(wǎng)絡(luò)可生存性策略選擇[J].應(yīng)用科學(xué)學(xué)報(bào),2014,25(4):205-208.
[6]梁霄,孟相如,陳鐸龍,等.基于隨機(jī)博弈模型的網(wǎng)絡(luò)可生存性跟蹤評(píng)估[J].火力與指揮控制,2013,38(9):32-36.
[7]KAMHOUA C A,KWIAT K A,PARK J S.Surviving in cyberspace:a game theoretic approach[J].Journal of Communications,2012,7(6):436-450.
[8]FRIHAUF P,KRSTIC M,BASAR T.Nash equilibrium seeking in noncooperative games[J].IEEE Transaction on Automatic Control,2012,57(5):1192-1207.
[9]伍文,孟相如,康巧燕,等.粒子群算法求解混合戰(zhàn)略近似 納 什 均 衡 [J]. 計(jì) 算 機(jī) 應(yīng) 用 研 究 ,2014,31(8):2302-2329.
Strategy Optimizing Selection of Network Survivability Based on Three Players’Dynamic Game Model
WU Wen,YANG Fa-liang,ZHANG Zhao-zhong,LIU Chang-le
(Unit 93936 of PLA,Yinchuan 750025,China)
A strategy optimizing selection algorithm for network survivable defense based on complete information dynamic game theory is proposed.It is to improve the network survivability in attack and defense process as viewed from optimizing the strategy combination.A three players’dynamic game model is given,the players respectively are attacker,accident and defender.The main elements of dynamic game are explained.A new mixed strategy Nash equilibrium theory is brought forward on the basis of classical Nash equilibrium.The expression of Nash equilibrium is no longer a qualification but a result led to values,which brought the concept of approximation.At last,the given model and algorithm are applied to a real network,the experimental results show that the model and algorithm are feasible and effective.
network survivability,strategy selection,dynamic game,nash equilibrium,particle swarm algorithm
TP393
A
10.3969/j.issn.1002-0640.2017.11.39
1002-0640(2017)11-0181-05
2016-09-21
2016-11-25
伍 文(1985- ),女,陜西西安人,博士。研究方向:網(wǎng)絡(luò)可生存性。