有限次重復(fù)博弈下的網(wǎng)絡(luò)攻擊行為研究

2015-11-01 10:09:34彭偉劉曉明彭輝余沛毅

指揮與控制學(xué)報(bào) 2015年4期

彭偉劉曉明彭輝余沛毅

近年來(lái),各國(guó)一直在尋求一種體系對(duì)體系、多波次對(duì)多波次以及快速變化的策略集合條件下的攻防技術(shù)[1].美國(guó)人最先將博弈理論和博弈模型引入到計(jì)算機(jī)網(wǎng)絡(luò)攻防對(duì)抗的研究之中,并產(chǎn)生了廣泛的反響.

南加州理工大學(xué)的TEAMCORE研究小組一直致力于安全博弈領(lǐng)域的研究,其負(fù)責(zé)人Tambe[2]提出用Stackelberg Game Model來(lái)解決安全博弈中的一些安全防御問(wèn)題,該模型也被用于網(wǎng)絡(luò)安全領(lǐng)域中,取得了一定的效果.2014年,其成員Rong Yang的博士論文中用改進(jìn)的隨機(jī)最優(yōu)響應(yīng)(Quantal Response,QR)模型來(lái)建模網(wǎng)絡(luò)對(duì)抗中人類對(duì)手行為[3?4],并用實(shí)驗(yàn)數(shù)據(jù)來(lái)訓(xùn)練行為模型以估計(jì)模型的參數(shù),該模型在實(shí)際的網(wǎng)絡(luò)防御中取得了良好的效果,不過(guò)該模型只適用于標(biāo)準(zhǔn)形式的博弈,即一次性的網(wǎng)絡(luò)對(duì)抗,對(duì)多回合的網(wǎng)絡(luò)攻防并不適用.

Camerer等長(zhǎng)期從事博弈領(lǐng)域的認(rèn)知模型研究,并提出一種自動(dòng)調(diào)節(jié)的經(jīng)驗(yàn)權(quán)重吸引(Experience-Weighted Attraction,EWA)學(xué)習(xí)模型[5?7],該模型綜合了信念學(xué)習(xí)和強(qiáng)化學(xué)習(xí)的優(yōu)勢(shì),在一些經(jīng)典的重復(fù)博弈案例中表現(xiàn)出了較好的預(yù)測(cè)能力.

我國(guó)網(wǎng)絡(luò)攻防技術(shù)研究起步較晚,博弈論用于網(wǎng)絡(luò)攻防的研究相對(duì)國(guó)外要少一些.哈爾濱工業(yè)大學(xué)的姜偉博士[8]在2010年的博士論文中提出了一種基于攻防隨機(jī)博弈模型的防御策略選取算法.該方法旨在刻畫(huà)網(wǎng)絡(luò)安全攻防矛盾動(dòng)態(tài)變化,為攻防雙方在多個(gè)攻防狀態(tài)動(dòng)態(tài)尋找最優(yōu)攻防策略,不過(guò)該模型停留在算法層次上.

網(wǎng)絡(luò)攻防博弈在很多情況下雙方的較量并不是一次性的,而是多次的.所以也需要從有限次重復(fù)博弈的角度來(lái)對(duì)攻擊方的行為進(jìn)行建模.

在有限次重復(fù)博弈人類行為研究方面,主要采用強(qiáng)化學(xué)習(xí)、信念學(xué)習(xí)、EWA學(xué)習(xí)等3種學(xué)習(xí)模型.這3種模型具有各自的優(yōu)缺點(diǎn)[9?10]:信念學(xué)習(xí)模型沒(méi)有考慮自己的策略行動(dòng)對(duì)其他參與者的影響,因而不能較好地反映重復(fù)博弈的動(dòng)態(tài)過(guò)程;強(qiáng)化模型只是簡(jiǎn)單地對(duì)成功或者失敗的經(jīng)驗(yàn)進(jìn)行強(qiáng)化,沒(méi)有考慮未被采用的策略,適應(yīng)性稍差;EWA學(xué)習(xí)模型則考慮了過(guò)去成功和失敗經(jīng)驗(yàn)對(duì)博弈決策的影響.

1 網(wǎng)絡(luò)攻防的策略分析

1.1 攻擊者的策略分析

攻擊者可以選擇多種策略進(jìn)行攻擊,通常的攻擊策略有如下幾種:

1)Speed,攻擊者希望快速攻擊使得自己迅速得手,即在防御者發(fā)現(xiàn)或作出反應(yīng)之前就取得成功.

2)Stealth:攻擊者選擇隱藏自己避免被發(fā)現(xiàn).

3)Deception:攻擊者欺騙防御者,使得防御者在錯(cuò)誤防御中浪費(fèi)資源.

4)Random:用隨機(jī)方式進(jìn)行攻擊.

5)Least resistance:攻擊者用最簡(jiǎn)單經(jīng)濟(jì)的方式攻擊.

1.2 防御者的策略分析

防御者在防御過(guò)程中采取的策略如下:

1)Dissuasion:采取勸說(shuō)的方法.

2)Prevention:建立虛假資源防止攻擊者攻擊或誘騙攻擊者攻擊無(wú)價(jià)值的目標(biāo).

3)Prevention:防御者建立防護(hù)體系來(lái)預(yù)防攻擊.

4)Repair:通過(guò)檢測(cè)發(fā)現(xiàn)系統(tǒng)中的漏洞,采取修復(fù)的方法來(lái)降低風(fēng)險(xiǎn).

5)Exploitation:判定攻擊方的防御是否存在漏洞,從防御轉(zhuǎn)為主動(dòng)攻擊.

在網(wǎng)絡(luò)攻防的過(guò)程中,假定我方是防御者,那么如何能夠正確地預(yù)見(jiàn)攻擊者未來(lái)可能的行為在網(wǎng)絡(luò)防御中變得非常重要,下面將重點(diǎn)討論攻擊者行為模型的構(gòu)建.

2 攻擊者的行為分析

國(guó)外的學(xué)者在標(biāo)準(zhǔn)形式的博弈(一次性博弈)中對(duì)人的理性進(jìn)行了分級(jí)[11].本文在理性分級(jí)的基礎(chǔ)上,對(duì)網(wǎng)絡(luò)攻擊者再次進(jìn)行劃分,即追求長(zhǎng)遠(yuǎn)利益的攻擊者和追求短期利益的攻擊者.按照這兩個(gè)原則劃分后,實(shí)際上可以將攻擊者分為4類.從直覺(jué)上來(lái)說(shuō),這4類攻擊者的行為模型應(yīng)該是有差別的,因此,需要正確地對(duì)這4類人進(jìn)行建模.

將攻擊者分成4類,分別構(gòu)建4類攻擊者的決策行為模型.具體如下:

1)對(duì)于思考等級(jí)低且追求長(zhǎng)期利益的攻擊者(長(zhǎng)遠(yuǎn)近視攻擊者),這類攻擊者不僅會(huì)根據(jù)過(guò)去的歷史經(jīng)驗(yàn)來(lái)學(xué)習(xí),也會(huì)把未來(lái)的因素考慮到其中,因此借鑒EWA學(xué)習(xí)方法來(lái)建模.

2)對(duì)于思考等級(jí)高且追求長(zhǎng)期利益的攻擊者(長(zhǎng)遠(yuǎn)老練攻擊者),這類攻擊者被稱之為Sophistication,他們有教授(Teaching)的能力,能夠引導(dǎo)和帶動(dòng)其他參與者進(jìn)行學(xué)習(xí),因此,建立這類攻擊者的行為模型時(shí)應(yīng)考慮他們的Teaching能力.

3)對(duì)于思考等級(jí)低且追求短期利益的攻擊者(短期近視攻擊者),借鑒增強(qiáng)學(xué)習(xí)的方法來(lái)建模,即這類攻擊者只會(huì)根據(jù)過(guò)去的歷史經(jīng)驗(yàn)來(lái)學(xué)習(xí)和做決策.

4)對(duì)于思考等級(jí)高且追求短期利益的攻擊者(短期老練攻擊者),運(yùn)用隨機(jī)最優(yōu)響應(yīng)均衡(Quantal Response Equilibrium,QRE)[11?12]的相關(guān)理論來(lái)進(jìn)行建模.

3 攻擊者行為模型的構(gòu)建

根據(jù)上面的分類,假定短期者的比例為s,短期老練者的比例為sp,那么短期近視者的比例為s(1?p);同理假設(shè)長(zhǎng)遠(yuǎn)者的比例為1?s,那么長(zhǎng)遠(yuǎn)老練者的比例為(1?s)q,則長(zhǎng)遠(yuǎn)近視者的比例為(1?s)(1?q).

其他符號(hào)說(shuō)明:

λLM:長(zhǎng)遠(yuǎn)近視攻擊者的理性級(jí)別;

λLS:長(zhǎng)遠(yuǎn)老練攻擊者的理性級(jí)別;

λSM:短期近視攻擊者的理性級(jí)別;

λSS:短期老練攻擊者的理性級(jí)別;

其中λLM,λLS,λSM,λSS的取值在(0,+∞)之間,值越大,代表理性級(jí)別越高.

假設(shè)目前攻防雙方所處的輪次為t輪,那么需要重點(diǎn)求解在t+1輪,各種類型的攻擊者會(huì)采用什么樣的策略.

3.1 長(zhǎng)遠(yuǎn)近視攻擊者的行為模型

長(zhǎng)遠(yuǎn)近視攻擊者不僅會(huì)根據(jù)過(guò)去的歷史經(jīng)驗(yàn)來(lái)學(xué)習(xí),也會(huì)把未來(lái)的因素考慮到其中,因此,本文借鑒了Ho,Camerer和Chong等人提出的EWA模型[5].

EWA學(xué)習(xí)模型的基本思路:假設(shè)有n個(gè)博弈參與者,參與者用i來(lái)表示,i=1,2,···n.參與者i有mi種策略,其策略空間用Si,即是個(gè)體策略空間組成的博弈策略空間,第i個(gè)參與者第k個(gè)策略(用表示)的初始魅力值為(0),參與者和其他博弈參與者在t時(shí)期選擇的策略分別為si(t)和s?i(t),參與者i選擇策略si(t)的收益值為πi((t)),其第k個(gè)策略t時(shí)期魅力值為(t),t時(shí)期的經(jīng)驗(yàn)權(quán)重為N(t),(t)和N(t)都是隨著時(shí)間發(fā)生變化(或更新).t時(shí)期的策略魅力值(t)是由上一期經(jīng)驗(yàn)權(quán)重N(t?1)和選擇策略的當(dāng)期收益值πi((t))來(lái)負(fù)責(zé)更新.Camerer等人將策略魅力值的(t)和經(jīng)驗(yàn)權(quán)重的更新方程構(gòu)建如下:

其中,φ是魅力值衰退系數(shù),博弈中隨著對(duì)手、環(huán)境不同或者遺忘等原因?qū)е虏呗缘挠行韵陆?φ在0～1之間取值.

I(.)是指標(biāo)函數(shù),取值為1或者0,如果si(t)和相等,則I取值為1,反之為0.

δ是被放棄收益的權(quán)重,δ取值在0～1之間.

ρ是魅力值增長(zhǎng)控制系數(shù),模型用ρ表示不同模型對(duì)博弈學(xué)習(xí)過(guò)程策略魅力值增長(zhǎng)的影響.ρ取值在0～1之間.

在網(wǎng)絡(luò)攻防博弈中,參與博弈的實(shí)際上只有兩方,即攻擊者和防御者,現(xiàn)在我們重點(diǎn)要求的是攻擊者的可能策略.攻擊者選取的策略為上文中列出的5種(甚至更多)之一.φ,δ,ρ的取值根據(jù)實(shí)際的案例來(lái)確定.在完成魅力值的計(jì)算以后,還需要確定攻擊者在t+1輪究竟選取哪種攻擊策略.此時(shí),可以根據(jù)logit規(guī)則來(lái)確定,即:

式(2)給出了攻擊者各種策略的選擇概率,在實(shí)際應(yīng)用時(shí)策略的選擇根據(jù)各種策略的選擇概率而確定,通常是概率越大,選擇的概率越高.下面其他3個(gè)模型類似.

3.2 長(zhǎng)遠(yuǎn)老練攻擊者的行為模型

長(zhǎng)遠(yuǎn)老練攻擊者會(huì)將剩下輪次中的總收益最大化,這也是他們跟短期老練攻擊者的顯著區(qū)別.

攻擊者i選擇k策略的收益結(jié)構(gòu)如下:

Vi(t+1|r(t+1))代表博弈過(guò)程中t+1輪次后所有剩下輪次的預(yù)先估計(jì)值(基于防御者的后驗(yàn)信念來(lái)確定的).其值可以根據(jù)下列公式來(lái)確定.

其中,Kt≡{kt,kt+1,···,kT}.

最終,攻擊者各種策略的選擇概率由下列公式來(lái)確定:

3.3 短期近視攻擊者的行為模型

這類攻擊者的特點(diǎn)是根據(jù)過(guò)去的歷史經(jīng)驗(yàn)來(lái)學(xué)習(xí),因此,采用自適應(yīng)的學(xué)習(xí)模型比較合適.對(duì)于這類攻擊者,其策略主要是根據(jù)前面多輪次的經(jīng)驗(yàn)來(lái)選擇的,因此,可以采用強(qiáng)化學(xué)習(xí)模型.實(shí)際的模型以3.1節(jié)的模型為基礎(chǔ),當(dāng)δ=0,ρ=1,N(0)=1時(shí),EWA模型退化為強(qiáng)化學(xué)習(xí)模型.此時(shí),

在此基礎(chǔ)上,攻擊者的策略選擇依然是以logit規(guī)則來(lái)確定,即:

3.4 短期老練攻擊者的行為模型

短期老練攻擊者會(huì)追求短期內(nèi)的最高收益,因此,其攻擊行為模型可以參考QRE來(lái)建立.其策略選擇模型如下:

其中πi((t))代表第i個(gè)攻擊者選擇k策略時(shí)的收益值.

以上4個(gè)行為模型都是根據(jù)logit規(guī)則給出的,如果(t+1)的值越大,那么說(shuō)明攻擊者i在第t+1輪選擇k策略的概率就越高.

4 參數(shù)估計(jì)

λLM,λLS,λSM,λSS分別代表各種類型攻擊者的理性級(jí)別,根據(jù)先前的假設(shè),老練攻擊者的理性級(jí)別比近視攻擊者的理性級(jí)別高;長(zhǎng)遠(yuǎn)攻擊者比短期攻擊者的理性級(jí)別高.在觀察和分析200次的實(shí)際網(wǎng)絡(luò)攻防中網(wǎng)絡(luò)攻擊者的攻擊行為數(shù)據(jù)之后,我們給出的估計(jì)是λLS和λSS在(2.5,4)之間,λLM和λSM在(0.5,2)之間.

根據(jù)200次實(shí)際攻防數(shù)據(jù)的統(tǒng)計(jì)分析,大致估算出短期攻擊者的比例為70%?80%,長(zhǎng)期攻擊者的比例為20%?30%.4種類型攻擊者的實(shí)際比例如下:

1)短期近視攻擊者的比例為50%～60%;

2)短期老練攻擊者的比例為15%～25%;

3)長(zhǎng)期近視攻擊者的比例為15%～20%;

4)長(zhǎng)期老練攻擊者的比例為4%～9%.

φ,δ,ρ的取值跟具體的應(yīng)用案例有關(guān)系,在本文的試驗(yàn)中φ取0.2,δ取0.25,ρ取0.7.

5 試驗(yàn)分析

我們用另外100組實(shí)際網(wǎng)絡(luò)攻防的數(shù)據(jù)對(duì)建立的行為模型進(jìn)行了分析,比較對(duì)象是單純的QRE模型和強(qiáng)化學(xué)習(xí)(Reinforcement Learning,RL)模型,分別比較了在博弈多次之后的預(yù)測(cè)準(zhǔn)度.

表1 3種行為模型的預(yù)測(cè)準(zhǔn)確度對(duì)比

根據(jù)表1的試驗(yàn)數(shù)據(jù),當(dāng)博弈的輪次比較小的時(shí)候,QRE的預(yù)測(cè)準(zhǔn)度比較高,但是隨著輪次的增加,QRE的準(zhǔn)度并沒(méi)有明顯增加;強(qiáng)化學(xué)習(xí)和我們的行為模型在博弈輪次較低時(shí),預(yù)測(cè)準(zhǔn)度稍低,隨著博弈次數(shù)的增加,預(yù)測(cè)準(zhǔn)度也增大,我們給出的行為模型在博弈次數(shù)到10次以后,預(yù)測(cè)準(zhǔn)度要明顯的高于強(qiáng)化學(xué)習(xí)模型.

6 結(jié)論

本文所構(gòu)建的攻擊者行為模型比較適合博弈輪次比較多的情況.實(shí)際的網(wǎng)絡(luò)攻防博弈過(guò)程中,作為防御者而言,對(duì)手究竟是哪種類型的攻擊者一開(kāi)始并不明確,因?yàn)閿吃诎堤?在實(shí)際運(yùn)用時(shí),可以根據(jù)之前設(shè)定的比例來(lái)假定攻擊者屬于哪種類型.由于初始判斷不一定準(zhǔn)確,在最前面的幾輪博弈中可能會(huì)產(chǎn)生一些誤差,為了提高效率,還可以采用其他方法,比如聲譽(yù)模型等,根據(jù)前幾輪攻擊者的攻擊特點(diǎn)來(lái)判斷攻擊者的真實(shí)類型,從而更有效地提高預(yù)測(cè)的準(zhǔn)度.

99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看