基于專(zhuān)家系統(tǒng)的高級(jí)持續(xù)性威脅云端檢測(cè)博弈

2017-11-07 10:11:26呂世超石志強(qiáng)孫利民

計(jì)算機(jī)研究與發(fā)展 2017年10期

胡晴呂世超石志強(qiáng) 孫利民肖亮

1(中國(guó)科學(xué)院大學(xué)網(wǎng)絡(luò)空間安全學(xué)院北京 100049) 2(物聯(lián)網(wǎng)信息安全技術(shù)北京市重點(diǎn)實(shí)驗(yàn)室(中國(guó)科學(xué)院信息工程研究所) 北京 100093) 3(廈門(mén)大學(xué)通信工程系福建廈門(mén) 361005) (huqing@iie．a(chǎn)c．cn)

2017-06-10；

2017-08-01

國(guó)家重點(diǎn)研發(fā)計(jì)劃項(xiàng)目(2016YFB0800202)；國(guó)防基礎(chǔ)科研計(jì)劃項(xiàng)目(JCKY2016602B001)；國(guó)家自然科學(xué)基金項(xiàng)目(U1636120，61671396)；北京市科委科技計(jì)劃專(zhuān)項(xiàng)項(xiàng)目(Z161100002616032)；CCF啟明星辰鴻雁基金項(xiàng)目(2016-010) This work was supported by the National Key Research and Development Program of China (2016YFB0800202), the National Defense Basic Scientific Research Program of China (JCKY2016602B001), the National Natural Science Foundation of China (U1636120, 61671396), Beijing Municipal Science and Technology Commission Program (Z161100002616032), and the CCF-Venustech Hongyan Research Initiative (2016-010).

石志強(qiáng)(shizhiqiang@iie.ac.cn)

基于專(zhuān)家系統(tǒng)的高級(jí)持續(xù)性威脅云端檢測(cè)博弈

胡晴1,2呂世超1,2石志強(qiáng)1,2孫利民1,2肖亮3

1(中國(guó)科學(xué)院大學(xué)網(wǎng)絡(luò)空間安全學(xué)院北京 100049)2(物聯(lián)網(wǎng)信息安全技術(shù)北京市重點(diǎn)實(shí)驗(yàn)室(中國(guó)科學(xué)院信息工程研究所) 北京 100093)3(廈門(mén)大學(xué)通信工程系福建廈門(mén) 361005) (huqing@iie．a(chǎn)c．cn)

云計(jì)算系統(tǒng)是高級(jí)持續(xù)性威脅(advanced persistent threats, APT)的重要攻擊目標(biāo).自動(dòng)化的APT檢測(cè)器很難準(zhǔn)確發(fā)現(xiàn)APT攻擊，用專(zhuān)家系統(tǒng)對(duì)可疑行為進(jìn)行二次檢測(cè)可以減少檢測(cè)錯(cuò)誤.但是專(zhuān)家系統(tǒng)完成二次檢測(cè)需要花費(fèi)一段額外的時(shí)間，可能導(dǎo)致防御響應(yīng)延遲，而且專(zhuān)家系統(tǒng)本身也會(huì)產(chǎn)生誤判.在綜合考慮APT檢測(cè)器和專(zhuān)家系統(tǒng)的虛警率和漏報(bào)率的基礎(chǔ)上，用博弈論方法討論在云計(jì)算系統(tǒng)的APT檢測(cè)和防御中，利用專(zhuān)家系統(tǒng)進(jìn)行二次檢測(cè)的必要性.設(shè)計(jì)了一個(gè)基于專(zhuān)家系統(tǒng)的APT檢測(cè)方案，并提出一個(gè)ES -APT檢測(cè)博弈模型，推導(dǎo)其納什均衡，據(jù)此研究了專(zhuān)家系統(tǒng)對(duì)云計(jì)算系統(tǒng)安全性能的改善作用.此外，當(dāng)無(wú)法獲得APT攻擊模型時(shí)，提出了一種利用強(qiáng)化學(xué)習(xí)算法獲取最優(yōu)防御策略的方案.仿真結(jié)果表明：基于WoLF-PHC算法的動(dòng)態(tài)ES -APT檢測(cè)方案較之其他對(duì)照方案能夠提高防御者的效用和云計(jì)算系統(tǒng)的安全性.

高級(jí)持續(xù)性威脅；云安全；專(zhuān)家系統(tǒng)；博弈論；強(qiáng)化學(xué)習(xí)

隨著云計(jì)算技術(shù)的發(fā)展，越來(lái)越多的數(shù)據(jù)被上傳到云端，其中不乏金融、醫(yī)療、政務(wù)、通信、工業(yè)、農(nóng)業(yè)等關(guān)系到國(guó)計(jì)民生的重要數(shù)據(jù)，導(dǎo)致云計(jì)算系統(tǒng)成為高級(jí)持續(xù)性威脅(advanced persistent threats, APT)的主要攻擊目標(biāo).針對(duì)云計(jì)算系統(tǒng)的APT攻擊主要是為了竊取機(jī)密信息.在達(dá)到目的之前，APT攻擊者會(huì)反復(fù)嘗試，搜集大量目標(biāo)系統(tǒng)的資料，并根據(jù)目標(biāo)系統(tǒng)的防御情況不斷調(diào)整攻擊方案，直至成功[1].近年來(lái)，人們?cè)贏PT防御方面做了大量研究.但實(shí)際情況表明，由于APT攻擊不斷嘗試新的攻擊手段、大量利用0day漏洞且擅于隱藏和擦除痕跡，很難準(zhǔn)確檢測(cè)到APT攻擊.尤其是自動(dòng)化的APT檢測(cè)器，在工作過(guò)程中都會(huì)產(chǎn)生大量的虛警和漏報(bào).虛警會(huì)導(dǎo)致錯(cuò)誤的防御，給APT防御者帶來(lái)人力、物力、財(cái)力以及時(shí)間上的損失.漏報(bào)更是為APT攻擊繼續(xù)深入提供便利，增加了攻擊者竊密或?qū)崿F(xiàn)其他攻擊目的的機(jī)會(huì).

為了緩解APT檢測(cè)器的不準(zhǔn)確性帶來(lái)的危害，本文提出一種基于專(zhuān)家系統(tǒng)(expert system, ES)的APT攻擊檢測(cè)方案，簡(jiǎn)稱(chēng)ES -APT檢測(cè)方案.專(zhuān)家系統(tǒng)一般是指計(jì)算機(jī)程序系統(tǒng)，用人工智能技術(shù)和計(jì)算機(jī)技術(shù)來(lái)模擬人類(lèi)專(zhuān)家解決專(zhuān)業(yè)領(lǐng)域問(wèn)題[2].本文的專(zhuān)家系統(tǒng)是由計(jì)算機(jī)專(zhuān)家系統(tǒng)和多個(gè)人類(lèi)信息安全專(zhuān)家組成的多專(zhuān)家協(xié)作系統(tǒng).在ES -APT檢測(cè)方案中，APT防御者借助APT檢測(cè)器和專(zhuān)家系統(tǒng)對(duì)目標(biāo)系統(tǒng)進(jìn)行檢測(cè).APT檢測(cè)器持續(xù)掃描云計(jì)算系統(tǒng)，并根據(jù)防御者設(shè)置的時(shí)間間隔對(duì)所收集到的信息進(jìn)行綜合分析.當(dāng)APT檢測(cè)器報(bào)警時(shí)，觸發(fā)專(zhuān)家系統(tǒng)進(jìn)行二次檢測(cè)，如果專(zhuān)家系統(tǒng)確認(rèn)報(bào)警正確，則防御者采取措施阻斷APT攻擊，并修復(fù)由攻擊造成的損失.從APT檢測(cè)器報(bào)警到專(zhuān)家系統(tǒng)給出判斷所經(jīng)歷的時(shí)間稱(chēng)為響應(yīng)時(shí)間.在實(shí)際運(yùn)行中，專(zhuān)家系統(tǒng)的判斷也可能出錯(cuò).

針對(duì)已知攻擊模型的APT攻擊，本文根據(jù)ES -APT檢測(cè)方案提出一種ES -APT檢測(cè)博弈模型，以APT攻擊者和云計(jì)算系統(tǒng)的防御者為博弈的參與方.在該模型中，APT檢測(cè)器和專(zhuān)家系統(tǒng)的虛警率和漏報(bào)率是公共知識(shí).APT攻擊者的策略是選擇發(fā)動(dòng)攻擊的時(shí)機(jī)，防御者的策略是設(shè)置APT檢測(cè)器進(jìn)行綜合分析的時(shí)間間隔.求解該模型的納什均衡，可以得到防御者的最優(yōu)策略.

動(dòng)態(tài)的ES -APT檢測(cè)博弈則用來(lái)研究無(wú)法獲知APT攻擊的攻擊模型時(shí)APT防御者如何進(jìn)行防御決策.本文提出一種基于WoLF-PHC算法的防御策略?xún)?yōu)化方案，并用模擬仿真驗(yàn)證了該方案的可行性和提升APT防御者效用的能力.

本文的主要貢獻(xiàn)有3個(gè)方面：

1) 提出了一種ES -APT檢測(cè)方案來(lái)緩解APT檢測(cè)器的不準(zhǔn)確性帶來(lái)的危害，并基于該方案構(gòu)建了一個(gè)以APT攻擊者和防御者為參與人的ES -APT檢測(cè)博弈模型；

2) 推導(dǎo)了ES -APT檢測(cè)博弈的納什均衡，并用數(shù)值分析揭示了APT檢測(cè)器和專(zhuān)家系統(tǒng)的虛警率、漏報(bào)率，以及專(zhuān)家系統(tǒng)二次檢測(cè)造成的防御延遲對(duì)博弈雙方效用和云計(jì)算系統(tǒng)安全性的影響；

3) 在動(dòng)態(tài)博弈中，基于WoLF-PHC算法設(shè)計(jì)了一種防御策略?xún)?yōu)化方案，用模擬仿真驗(yàn)證了該方案的可行性，并對(duì)比了該方案和其他對(duì)照方案的性能.

1 相關(guān)工作

博弈論在網(wǎng)絡(luò)與信息安全相關(guān)領(lǐng)域應(yīng)用廣泛，涉及主動(dòng)防御[3]、安全協(xié)議[4]、隱私保護(hù)[5-6]和攻擊檢測(cè)[7]等.在APT檢測(cè)與防御方面，大量工作表明：博弈論是一種研究和解決APT攻擊問(wèn)題的有效方法.

文獻(xiàn)[8]提出了一種防御隱蔽攻擊的重復(fù)博弈框架FlipIt，研究了針對(duì)不同攻擊策略的占優(yōu)防御策略；文獻(xiàn)[9]基于FlipIt框架研究了當(dāng)APT攻防雙方的時(shí)間、成本等資源受限時(shí)的近似最優(yōu)防御策略，還提出了一個(gè)以防御者為主導(dǎo)者、攻擊者為追隨者的序貫博弈模型，設(shè)計(jì)了基于動(dòng)態(tài)規(guī)劃來(lái)獲取防御者的近似最優(yōu)策略的算法；文獻(xiàn)[10]考慮了隱蔽攻擊者逐步獲取資源而防御者只能部分消除攻擊立足點(diǎn)，且無(wú)法彌補(bǔ)任何已經(jīng)發(fā)生的信息泄漏的情形，并構(gòu)建博弈模型推導(dǎo)出最佳防御策略；文獻(xiàn)[11]和文獻(xiàn)[12]用前景理論論述了當(dāng)APT攻防雙方并非完全理性時(shí)，他們的主觀程度對(duì)雙方?jīng)Q策和效用的影響，設(shè)計(jì)了基于Q-learning的動(dòng)態(tài)防御方案；文獻(xiàn)[13]進(jìn)一步用累積前景理論對(duì)APT攻防博弈進(jìn)行了討論；文獻(xiàn)[14]分析了內(nèi)部泄密者和APT攻擊者的聯(lián)合威脅，給出了可能存在內(nèi)部泄密者時(shí)防御者的最優(yōu)策略；文獻(xiàn)[15]通過(guò)雙層博弈模型研究攻擊者與泄密者之間的交易以及攻擊者與防御者之間的博弈，并求解了子博弈完美均衡；文獻(xiàn)[16]用演化博弈論來(lái)捕捉長(zhǎng)期連續(xù)的APT攻擊行為，通過(guò)建立2個(gè)離散策略的APT防御博弈模型，研究了攻擊策略和防御策略的動(dòng)態(tài)穩(wěn)定性.

然而，以上研究均未涉及檢測(cè)APT攻擊時(shí)可能出現(xiàn)的虛警和漏報(bào).實(shí)際應(yīng)用中，在忽略APT檢測(cè)的不準(zhǔn)確性[17]的情況下做出的防御決策，可能會(huì)對(duì)防御效能產(chǎn)生負(fù)面影響.本文提出ES -APT檢測(cè)方案來(lái)提升APT檢測(cè)的性能，并基于此構(gòu)建APT攻擊者和無(wú)法準(zhǔn)確檢測(cè)到攻擊的防御者之間的博弈模型，從靜態(tài)和動(dòng)態(tài)2個(gè)方面為防御者提供更好的防御策略.

2 系統(tǒng)模型

本節(jié)介紹ES -APT檢測(cè)方案以及基于此方案的ES -APT檢測(cè)博弈的基本模型，并建立APT攻擊者和防御者的效用函數(shù).

2.1ES-APT檢測(cè)方案

ES -APT檢測(cè)方案如圖1所示.APT檢測(cè)器持續(xù)監(jiān)聽(tīng)云計(jì)算系統(tǒng)的各類(lèi)信息，并按防御者設(shè)定的檢測(cè)時(shí)間間隔對(duì)這段時(shí)間內(nèi)所監(jiān)測(cè)到的數(shù)據(jù)進(jìn)行綜合分析，判斷云計(jì)算系統(tǒng)是否已被攻擊.如果檢測(cè)器認(rèn)為系統(tǒng)沒(méi)有遭受攻擊，則防御者開(kāi)始部署下一次檢測(cè)時(shí)間間隔；反之，檢測(cè)器給出告警，同時(shí)觸發(fā)專(zhuān)家系統(tǒng).專(zhuān)家系統(tǒng)綜合考量檢測(cè)器收集的信息和其他與云計(jì)算系統(tǒng)相關(guān)的信息，進(jìn)一步辨別系統(tǒng)是否安全.只有專(zhuān)家系統(tǒng)確認(rèn)了攻擊確實(shí)發(fā)生，防御者才會(huì)采取防御措施對(duì)APT攻擊進(jìn)行阻斷.

Fig. 1 The scheme of detecting APT attacks with an expert system圖1 ES -APT檢測(cè)方案

2.2基本模型

ES -APT檢測(cè)博弈是一個(gè)非合作博弈，有2個(gè)參與人：1)手段高明、隱蔽性強(qiáng)的APT攻擊者；2)基于ES -APT檢測(cè)方案進(jìn)行防御的APT防御者.假設(shè)在一次博弈的起始點(diǎn)，云計(jì)算系統(tǒng)處于安全狀態(tài).攻擊者和防御者基于對(duì)APT檢測(cè)器和專(zhuān)家系統(tǒng)的虛警率、漏報(bào)率的考慮，在不知道對(duì)方如何決策的情況下，分別選擇攻擊時(shí)間y和檢測(cè)時(shí)間間隔x.攻擊者可以選擇y=0，即立刻攻擊，而防御者不能選擇x=0，因?yàn)锳PT檢測(cè)器根據(jù)0時(shí)間內(nèi)的信息不可能判斷是否存在攻擊.歸一化之后有y∈[0,1]，x∈(0,1].不論攻擊者采用何種手段進(jìn)行攻擊，從其發(fā)動(dòng)攻擊到攻擊生效都需要經(jīng)歷一段時(shí)間z，且z>0.假設(shè)APT檢測(cè)器和專(zhuān)家系統(tǒng)只能發(fā)現(xiàn)已經(jīng)生效的攻擊，其中APT檢測(cè)器在檢測(cè)時(shí)耗費(fèi)的時(shí)間可以忽略不計(jì)，專(zhuān)家系統(tǒng)用于二次檢測(cè)的耗時(shí)記為t.ES -APT檢測(cè)博弈中部分可能出現(xiàn)的攻防互動(dòng)情況如圖2所示.

Fig. 2 Illustration of an ES -APT detection game圖2 ES -APT檢測(cè)博弈示意圖

虛警是指系統(tǒng)未遭受攻擊時(shí)被認(rèn)為受到攻擊，漏報(bào)則是系統(tǒng)遭受攻擊后依然被認(rèn)為處于安全狀態(tài).若用S表示系統(tǒng)的真實(shí)狀態(tài)，s表示APT檢測(cè)器判定的系統(tǒng)狀態(tài)，s′表示專(zhuān)家系統(tǒng)復(fù)檢之后給出的系統(tǒng)狀態(tài)，下角標(biāo)0和1分別指代未受攻擊和受到攻擊，則APT檢測(cè)器的虛警率pm和漏報(bào)率pf分別為

pm=Pr(s0|S1)，

(1)

pf=Pr(s1|S0).

(2)

(3)

(4)

以上Pr(·|·)為條件概率.

APT攻擊者和防御者所爭(zhēng)奪的云計(jì)算系統(tǒng)具有一定的價(jià)值，記為C，其大小取決于該系統(tǒng)對(duì)攻擊者和防御者而言的重要性.C本為防御者所有，如果博弈的結(jié)局是云計(jì)算系統(tǒng)處于受攻擊狀態(tài)，則攻擊者從防御者處奪走這部分價(jià)值.

2.3效用函數(shù)

在推導(dǎo)效用函數(shù)之前，先給出一個(gè)度量ES -APT檢測(cè)博弈性能的指標(biāo)——安全率的定義.

定義1. 安全率.一次博弈中，云計(jì)算系統(tǒng)處于未受攻擊狀態(tài)的時(shí)間在博弈總時(shí)長(zhǎng)中所占的比率稱(chēng)為安全率，記為R.

在ES -APT檢測(cè)博弈中，APT防御者的效用由4部分組成：

1) 安全率帶來(lái)的收益；

2) 從設(shè)定的檢測(cè)時(shí)間間隔獲益，間隔越長(zhǎng)，APT檢測(cè)器收集的信息越多，越有利于APT檢測(cè)器和專(zhuān)家系統(tǒng)做出正確判斷，GD表示單位時(shí)間的獲益；

3) 修復(fù)云計(jì)算系統(tǒng)所需的開(kāi)銷(xiāo)CR；

4) 如果博弈的最后已生效的APT攻擊沒(méi)有被發(fā)現(xiàn)，防御者輸?shù)粼朴?jì)算系統(tǒng)價(jià)值C.

攻擊者的效用由3部分組成：

1) 安全率帶來(lái)的損失；

2) 發(fā)動(dòng)攻擊時(shí)要付出的攻擊成本CA；

3) 如果博弈的最后APT攻擊生效且沒(méi)有被阻斷，攻擊者獲得云計(jì)算系統(tǒng)價(jià)值C.

為了確定ES -APT檢測(cè)博弈中防御方的效用函數(shù)uD和攻擊方的效用函數(shù)uA，我們將所有參數(shù)進(jìn)行歸一化處理，并分類(lèi)討論博弈中所有可能出現(xiàn)的情況.從APT檢測(cè)器準(zhǔn)確性的角度，所有情況可歸為四大類(lèi)：檢測(cè)器正確判定系統(tǒng)未受攻擊、錯(cuò)誤判定系統(tǒng)受到攻擊、正確判定系統(tǒng)受到攻擊和錯(cuò)誤判定系統(tǒng)未受攻擊.

1) 檢測(cè)器正確判定系統(tǒng)未受攻擊

如圖2中序號(hào)為1(即字母下角標(biāo)為1)的博弈所示，該情況出現(xiàn)的前提條件是y+z>x，即在檢測(cè)器檢測(cè)之前，攻擊尚未生效，其出現(xiàn)的概率是1-pf.此時(shí)云計(jì)算系統(tǒng)的安全率為1，防御者不需要進(jìn)行修復(fù)操作，且不會(huì)失去C.這種情況下博弈雙方的效用分別為

uD1(x,y)=1+xGD,

(5)

uA1(x,y)=-1-I(y≤x)CA,

(6)

其中,I(·)為指示函數(shù)，括號(hào)內(nèi)條件為真時(shí)I(·)=1，否則I(·)=0.

2) 檢測(cè)器錯(cuò)誤判定系統(tǒng)受到攻擊

圖2中序號(hào)為2的博弈是檢測(cè)器錯(cuò)誤判定系統(tǒng)受到攻擊時(shí)，攻防雙方可能的交互情況之一.檢測(cè)器錯(cuò)誤判定系統(tǒng)受攻擊的前提條件是y+z>x，概率為pf.檢測(cè)器告警后，專(zhuān)家系統(tǒng)進(jìn)行復(fù)驗(yàn).考慮到專(zhuān)家系統(tǒng)復(fù)驗(yàn)耗時(shí)較長(zhǎng)，在其完成驗(yàn)證之前，原本沒(méi)有生效的APT攻擊可能會(huì)生效，所以云計(jì)算系統(tǒng)的安全率為min((y+z)(x+t)).

(7)

(8)

3) 檢測(cè)器正確判定系統(tǒng)受到攻擊

如圖2中序號(hào)為3的博弈所示，檢測(cè)器正確判定系統(tǒng)受到攻擊的前提條件是y+z≤x，即在檢測(cè)器檢測(cè)之前，攻擊已經(jīng)生效，其出現(xiàn)的概率是1-pm.此時(shí)檢測(cè)器會(huì)觸發(fā)專(zhuān)家系統(tǒng)進(jìn)行驗(yàn)證，考慮到專(zhuān)家系統(tǒng)的響應(yīng)時(shí)間，云計(jì)算系統(tǒng)的安全率為(y+z)(x+t).專(zhuān)家系統(tǒng)認(rèn)同檢測(cè)器的可能性是1-，否定的可能性是.如果攻擊被確認(rèn)，防御者將修復(fù)云計(jì)算系統(tǒng)；反之，云計(jì)算系統(tǒng)得不到修復(fù)，其價(jià)值被攻擊者奪走.該情況下防御者和攻擊者的效用分別為

(9)

(10)

4) 檢測(cè)器錯(cuò)誤判定系統(tǒng)未受攻擊

圖2中序號(hào)為4的博弈展現(xiàn)的是檢測(cè)器錯(cuò)誤判定系統(tǒng)未受攻擊的情況，其前提條件是y+z≤x，概率為pm.此時(shí)APT攻擊被APT檢測(cè)器漏掉，云計(jì)算系統(tǒng)被攻擊者控制，攻防雙方的效用為

(11)

(12)

綜合以上分析可知，防御者的效用函數(shù)為

uD(x,y)=I(y+z>x)[(1-pf)uD1+pfuD2]+
I(y+z≤x)[(1-pm)uD3+pmuD4],

(13)

攻擊者的效用函數(shù)為

uA(x,y)=I(y+z>x)[(1-pf)uA1+pfuA2]+
I(y+z≤x)[(1-pm)uA3+pmuA4].

(14)

將式(5)(7)(9)(11)代入式(13)，并整理可得:

uD(x,y)=xGD+I(y+z>x){1-pf+

(15)

同樣地，將式(6)(8)(10)(12)代入式(14)，并整理可以得到攻擊者的效用函數(shù)如下：

uA(x,y)=I(y+z>x){(1-pf)[-1-

(16)

類(lèi)似地，還可以得到安全率的表達(dá)式，如式(17)所示：

(17)

3 混合策略ES -APT檢測(cè)博弈

混合策略博弈是純策略博弈的擴(kuò)展.運(yùn)用混合策略可以增加博弈雙方行為的不確定性，增加對(duì)方準(zhǔn)確預(yù)測(cè)己方行動(dòng)的難度.本節(jié)詳細(xì)介紹混合策略ES -APT檢測(cè)博弈中攻防雙方的策略空間，求解混合策略均衡，并通過(guò)數(shù)值分析研究混合策略下ES -APT檢測(cè)方案的可行性和博弈的性能.

在混合策略ES -APT檢測(cè)博弈中，APT防御者從策略空間{mM}1≤m≤M中選擇檢測(cè)時(shí)間間隔x，APT攻擊者從策略空間{nN}0≤n≤N中選擇攻擊時(shí)間間隔y.混合策略是指攻防雙方各自按照一定概率，隨機(jī)地從策略空間中選擇一種純策略作為實(shí)際的行動(dòng)[18].因此，防御者的混合策略為α=[αm]1≤m≤M，其中αm=Pr(x=mM)是將APT檢測(cè)時(shí)間間隔設(shè)為x的概率；攻擊者的混合策略為β=[βn]0≤n≤N，其中βn=Pr(y=nN)是將攻擊時(shí)間間隔設(shè)為y的概率.由混合策略的定義知

一般而言，不論防御者還是攻擊者都無(wú)法準(zhǔn)確估算APT攻擊發(fā)起之后，需要多長(zhǎng)時(shí)間生效，亦即z是一個(gè)隨機(jī)值.為簡(jiǎn)便起見(jiàn)，以下把z看作常數(shù).

混合策略博弈中的效用函數(shù)為期望效用函數(shù).通過(guò)對(duì)式(15)和式(16)應(yīng)用期望效用函數(shù)理論，得到防御者與攻擊者的期望效用函數(shù)分別為

(18)

(19)

3.1混合策略納什均衡

用(α*,β*)表示混合策略ES -APT檢測(cè)博弈的納什均衡，有:

(20)

定理1. 如果式(21)的解存在，則式(21)中(α*,β*)是混合策略ES -APT檢測(cè)博弈的納什均衡:

(21)

其中,1≤m≤M，0≤n≤N，1ζ是一個(gè)ζ維的元素全為1的列向量.

證明. 式(20)是一個(gè)有約束條件的優(yōu)化問(wèn)題，其拉格朗日函數(shù)LD表示為

(22)

其卡羅什-庫(kù)恩-塔克(Karush-Kuhn-Tucker, KKT)條件為

(23)

將式(23)與式(18)和式(22)聯(lián)立可得:

(24)

求解式(24)即可得到式(21)中的第1行.類(lèi)似地，運(yùn)用KKT條件可求得式(21)中的第2行.證畢.

為了使以上結(jié)論更為直觀，我們?cè)谝?中討論了ES -APT檢測(cè)博弈混合策略均衡的一個(gè)簡(jiǎn)單實(shí)例.

引理1.M=2，N=1時(shí)，當(dāng)且僅當(dāng)條件I1和I2都成立時(shí)，式(25)和式(26)給出的(α*,β*)是混合策略ES -APT檢測(cè)博弈的唯一納什均衡.

(25)

(26)

條件是:

或：

(27)

或：

(28)

將式(15)(16)代入式(25)(26)求解知，當(dāng)M=2，N=1時(shí)，混合策略ES -APT檢測(cè)博弈有唯一納什均衡，由式(29)給出：

(29)

其中:

3.2數(shù)值分析

本節(jié)用數(shù)值分析對(duì)混合策略ES -APT檢測(cè)博弈的性能進(jìn)行研究，主要關(guān)注3個(gè)指標(biāo)：APT防御者的效用、APT攻擊者的效用和云計(jì)算系統(tǒng)的安全率.首先研究專(zhuān)家系統(tǒng)不參與決策時(shí)，APT檢測(cè)器的虛警率、漏報(bào)率對(duì)以上3個(gè)指標(biāo)的影響；然后分析專(zhuān)家系統(tǒng)參與決策時(shí)檢測(cè)器虛警率、漏報(bào)率的影響；最后討論專(zhuān)家系統(tǒng)的響應(yīng)時(shí)間、虛警率和漏報(bào)率對(duì)以上指標(biāo)的影響.為了達(dá)到更好的分析效果，本文選取的基本參數(shù)是GD=0.24,C=0.25,CR=0.1,CA=0.82.

Fig. 3 Performance of the static game over error rates of the APT detector without ES圖3 無(wú)專(zhuān)家系統(tǒng)時(shí)APT檢測(cè)器錯(cuò)誤率對(duì)靜態(tài)博弈的影響

圖3顯示了專(zhuān)家系統(tǒng)不參與檢測(cè)時(shí)，APT檢測(cè)器的漏報(bào)率和虛警率對(duì)混合策略ES -APT檢測(cè)博弈性能的影響.如圖3(a)所示，采用混合策略時(shí)，APT防御者的效用不受APT檢測(cè)器的漏報(bào)率影響，但隨檢測(cè)器虛警率的增加而降低，如檢測(cè)器虛警率從0增加到1時(shí)，防御者效用從1.12減少到1.02.圖3(b)表明APT攻擊者的效用不受檢測(cè)器虛警率影響，而漏報(bào)率的上升能讓攻擊者效用增加，如檢測(cè)器的漏報(bào)率從0增加到1時(shí)，攻擊者的效用增加10.3%.APT檢測(cè)器的漏報(bào)率和虛警率對(duì)云計(jì)算系統(tǒng)安全率的影響如圖3(c)所示.當(dāng)漏報(bào)率降低、虛警率增加時(shí)，安全率降低，尤其當(dāng)漏報(bào)率接近0、虛警率接近1時(shí)，云計(jì)算系統(tǒng)的安全率急劇下降.這是因?yàn)椋瑢?duì)攻擊者而言，虛警率越高，APT攻擊發(fā)動(dòng)之后、生效之前，因檢測(cè)器虛警而被防御者阻斷的可能性越大.為了盡可能多地竊取信息，APT攻擊者必須加快攻擊速度，讓攻擊盡可能在被檢測(cè)器正確發(fā)現(xiàn)之前生效，從而更長(zhǎng)時(shí)間控制系統(tǒng).對(duì)防御者而言，漏報(bào)率接近于0、虛警率接近于1意味著幾乎每次檢測(cè)時(shí)檢測(cè)器都會(huì)告警.為了減少虛警出現(xiàn)的次數(shù)，防御者會(huì)延長(zhǎng)檢測(cè)周期.也就是說(shuō)，在漏報(bào)率低虛警率高的情況下，攻擊者會(huì)加快攻擊速度，而防御者會(huì)延長(zhǎng)防御周期，從而導(dǎo)致安全率急劇下降.

Fig. 4 Performance difference of the static game over error rates of the APT detector between with and without ES圖4 有無(wú)專(zhuān)家系統(tǒng)情況下APT檢測(cè)器錯(cuò)誤率對(duì)靜態(tài)博弈影響之差

Fig. 5 Performance of the static game over the response time and error rates of ES圖5 專(zhuān)家系統(tǒng)性能對(duì)靜態(tài)博弈的影響

綜上所述，引入專(zhuān)家系統(tǒng)進(jìn)行二次檢測(cè)，可以緩解APT檢測(cè)器的虛警和漏報(bào)給防御者效用以及云計(jì)算系統(tǒng)安全率造成的負(fù)面影響，提升防御者效用并減少APT檢測(cè)器的虛警和漏報(bào)造成的安全率的波動(dòng).而為了使專(zhuān)家系統(tǒng)發(fā)揮更好的作用，必須提升專(zhuān)家系統(tǒng)的性能，減少響應(yīng)時(shí)間，降低其漏報(bào)率和誤報(bào)率.因此，在與APT攻擊者的對(duì)抗中，專(zhuān)家系統(tǒng)必須不斷學(xué)習(xí)，擴(kuò)充知識(shí)庫(kù)，對(duì)APT攻擊者的攻擊手段進(jìn)行深入研究，關(guān)注并預(yù)測(cè)新的攻擊方法，盡可能先于攻擊者發(fā)現(xiàn)0day漏洞等.

4 動(dòng)態(tài)ES -APT檢測(cè)博弈

APT攻擊者為了達(dá)到攻擊目的會(huì)不斷嘗試新的方法.因此，在實(shí)際中很多APT攻擊者的攻擊模型是未知的，其攻擊成本、攻擊生效時(shí)間等因素也不確定.為了應(yīng)對(duì)這種情況，我們用動(dòng)態(tài)ES -APT檢測(cè)博弈來(lái)分析攻擊者與防御者之間的行為交互，提出一種基于強(qiáng)化學(xué)習(xí)算法，即贏或加速學(xué)習(xí)策略爬山算法(win or learn faster policy hill-climbing, WoLF-PHC)的最優(yōu)決策方案.在動(dòng)態(tài)ES -APT檢測(cè)博弈中，防御者用基于WoLF-PHC的最優(yōu)決策方案來(lái)選擇防御策略.

策略爬山(policy hill-climbing, PHC)算法是Q-learning算法的擴(kuò)展，提升了其學(xué)習(xí)效率.而WoLF-PHC則通過(guò)將贏或加速學(xué)習(xí)(win or learn faster, WoLF)原則用到PHC算法上，進(jìn)一步提高了算法的收斂性[19].WoLF-PHC和Q-learning一樣是離策略算法，不依賴(lài)系統(tǒng)模型，且都通過(guò)式(30)更新質(zhì)量矩陣

(30)

其中,s是狀態(tài)，x是防御者的動(dòng)作，uD表示防御者的瞬時(shí)效用.在動(dòng)態(tài)ES -APT檢測(cè)博弈中，用攻擊的整個(gè)周期表示系統(tǒng)狀態(tài)，即s=y+z.最大Q值通過(guò)ε-greedy算法選取，即:

(31)

其中,ε∈(0,1)，通常是一個(gè)很小的正數(shù)，M是防御者策略空間中動(dòng)作的總個(gè)數(shù).

基于WoLF-PHC的動(dòng)態(tài)ES -APT檢測(cè)方案見(jiàn)算法1.

算法1. 基于WoLF-PHC的動(dòng)態(tài)ES -APT檢測(cè).

2) fork=1,2,3,… do

3) 更新?tīng)顟B(tài)s，s=y+z；

4) 對(duì)應(yīng)s，以概率π(s,x)選擇動(dòng)作x；

5) 依據(jù)x對(duì)云計(jì)算系統(tǒng)進(jìn)行檢測(cè)；

6) 觀察uD和接下來(lái)的狀態(tài)s，更新?tīng)顟B(tài)s；

7) 依據(jù)式(30)更新Q；

9) 通過(guò)π(s,x)←π(s,x)+Δ更新π(s,x),

10) end for

我們用基于Q-learning的動(dòng)態(tài)ES -APT檢測(cè)方案[20]作為對(duì)照，如算法2所示.

算法2. 基于Q-learning的動(dòng)態(tài)ES -APT檢測(cè).

1) 初始化所有參數(shù)：μ=0.75,γ=0.7,ε=0.1,y+z=0,Q(s,x)←0；

2) fork=1,2,3,… do

3) 更新?tīng)顟B(tài)s，s=y+z；

4) 通過(guò)式(31)選擇動(dòng)作x；

5) 依據(jù)x對(duì)云計(jì)算系統(tǒng)進(jìn)行檢測(cè)；

6) 觀察uD和接下來(lái)的狀態(tài)s，更新?tīng)顟B(tài)s；

7) 依據(jù)式(30)更新Q；

8) end for

5 模擬仿真

(32)

仿真結(jié)果如圖6所示.圖6(a)展示的是防御者的效用隨實(shí)驗(yàn)方案運(yùn)行次數(shù)的變化.基于WoLF-PHC動(dòng)態(tài)檢測(cè)方案，防御者的效用在15次之后收斂到1.125左右，400次的平均效用約為1.116.當(dāng)采用Q-learning方法時(shí)，防御者的效用在35次之后收斂到1.075左右，400次的平均效用約為1.064.Q-learning方法的平均效用比WoLF-PHC方法低大約4.9%，收斂速度也明顯較慢.基于ε-greedy算法，防御者的效用一直維持在0.995上下，其平均效用比WoLF-PHC低10.8%.

從圖6(b)可知，當(dāng)防御者基于WoLF-PHC部署動(dòng)態(tài)的ES -APT檢測(cè)方案時(shí)，云計(jì)算系統(tǒng)的安全率從0.860逐步上升到1，在算法運(yùn)行大約18次時(shí)收斂，整個(gè)400次運(yùn)行過(guò)程中安全率的平均值為0.994.基于Q-learning檢測(cè)算法，安全率最終能與WoLF-PHC達(dá)到同樣水平，400次的平均值為0.993，但是Q-learning算法收斂較慢，在大約30次左右收斂.而基于ε-greedy算法，安全率一開(kāi)始就能上升到0.90左右，但最終也只能維持在這個(gè)水平，其400次的平均值比WoLF-PHC檢測(cè)方案低約10%.

Fig. 6 Performance of the dynamic ES -APT detection game圖6 動(dòng)態(tài)ES -APT檢測(cè)博弈性能圖

從圖6結(jié)果可以看出，基于WoLF-PHC的動(dòng)態(tài)ES -APT檢測(cè)方案比Q-learning的收斂性好，而且與2種對(duì)照方案相比，能明顯提高防御者的效用和云計(jì)算系統(tǒng)的安全率.

6 總結(jié)

本文提出了一種基于專(zhuān)家系統(tǒng)的APT檢測(cè)方案，并在此基礎(chǔ)上建立了2種ES -APT檢測(cè)博弈，一個(gè)靜態(tài)博弈和一個(gè)動(dòng)態(tài)博弈，求解了靜態(tài)博弈的混合策略均衡，并用數(shù)值分析研究了其性能.數(shù)值分析結(jié)果顯示，雖然專(zhuān)家系統(tǒng)的響應(yīng)時(shí)間和虛警、漏報(bào)率對(duì)云計(jì)算系統(tǒng)的安全率以及攻擊者的效用有一定的負(fù)面影響，但總體來(lái)說(shuō)，基于專(zhuān)家系統(tǒng)的APT檢測(cè)方案能夠消除因APT檢測(cè)器的不準(zhǔn)確性造成的安全率和防御者效用的降低.通過(guò)提升專(zhuān)家系統(tǒng)的性能，可以更好地改善云計(jì)算系統(tǒng)的安全性能.在動(dòng)態(tài)博弈中，基于WoLF-PHC算法設(shè)計(jì)了一種ES -APT動(dòng)態(tài)檢測(cè)方案，并與基于Q-learning和ε-greedy算法的方法進(jìn)行了比較.仿真結(jié)果表明：在ES -APT動(dòng)態(tài)博弈中，基于WoLF-PHC的ES -APT動(dòng)態(tài)檢測(cè)方案能讓防御者優(yōu)化其策略，達(dá)到更好的防御效果.與Q-learning相比，WoLF-PHC能讓防御者更快地獲得其最優(yōu)策略.較之Q-learning和ε-greedy，WoLF-PHC能提高防御者的效用，同時(shí)也讓云計(jì)算系統(tǒng)的安全率更高.

[1] Cole E. Advanced Persistent Threat: Understanding the Danger and How to Protect Your Organization[M]. Rockland, Massachusetts: Syngress Publishing, 2012: 11-36

[2] Coombs M J, Bolc L. Expert System Applications[M]. Berlin: Springer, 1988: 55-63

[3] Lin Wangqun, Wang Hui, Liu Jiahong, et al. Research on active defense technology in network security based on non-cooperative dynamic game theory[J]. Journal of Computer Research and Development, 2011, 48(2): 306-316 (in Chinese)

(林旺群, 王慧, 劉家紅, 等. 基于非合作動(dòng)態(tài)博弈的網(wǎng)絡(luò)安全主動(dòng)防御技術(shù)研究[J]. 計(jì)算機(jī)研究與發(fā)展, 2011, 48(2): 306-316)

[4] Tian Youliang, Peng Changgen, Ma Jianfeng, et al. Game-theoretic mechanism for cryptographic protocol[J]. Journal of Computer Research and Development, 2014, 51(2): 344-352 (in Chinese)

(田有亮, 彭長(zhǎng)根, 馬建峰, 等. 安全協(xié)議的博弈論機(jī)制[J]. 計(jì)算機(jī)研究與發(fā)展, 2014, 51(2): 344-352)

[5] He Yunhua, Sun Limin, Yang Weidong, et al. A game theory-based analysis of data privacy in vehicular sensor networks[J]. International Journal of Distributed Sensor Networks, 2014, 10(1): 1-14

[6] He Yunhua, Sun Limin, Yang Weidong, et al. Privacy preserving for node trajectory in VSN: A game-theoretic analysis based approach[J]. Journal of Computer Research and Development, 2014, 51(11): 2483-2492 (in Chinese)

(何云華, 孫利民, 楊衛(wèi)東, 等. 基于博弈分析的車(chē)輛感知網(wǎng)絡(luò)節(jié)點(diǎn)軌跡隱私保護(hù)機(jī)制[J]. 計(jì)算機(jī)研究與發(fā)展, 2014, 51(11): 2483-2492)

[7] Wang Yichuan, Ma Jianfeng, Lu Di, et al. Game optimization for internal DDoS attack detection in cloud computing[J]. Journal of Computer Research and Development, 2015, 52(8): 1873-1882 (in Chinese)

(王一川, 馬建峰, 盧笛, 等. 面向云環(huán)境內(nèi)部DDoS攻擊檢測(cè)的博弈論優(yōu)化[J]. 計(jì)算機(jī)研究與發(fā)展, 2015, 52(8): 1873-1882)

[8] Marten V D, Ari J, Oprea A, et al. Flipit: The game of stealthy takeover[J]. Journal of Cryptology, 2013, 26(4): 655-713

[9] Zhang Ming, Zheng Zizhan, Shroff N B. A game theoretic model for defending against stealthy attacks with limited resources[C] //Proc of the 6th Decision and Game Theory for Security. Berlin: Springer, 2015: 93-112

[10] Farhang S, Grossklags J. Flipleakage: A game-theoretic approach to protect against stealthy attackers in the presence of information leakage[C] //Proc of the 7th Decision and Game Theory for Security. Berlin: Springer, 2016: 195-214

[11] Xu Dongjin, Li Yanda, Xiao Liang, et al. Prospect theoretic study of cloud storage defense against advanced persistent threats[C] //Proc of the 60th Global Communications Conf. Piscataway, NJ: IEEE, 2017: 1-6

[12] Xiao Liang, Xu Dongjin, Xie Caixia, et al. Cloud storage defense against advanced persistent threats: A prospect theoretic study[J]. IEEE Journal on Selected Areas in Communications, 2017, 35(3): 534-544

[13] Xu Dongjin, Xiao Liang, Mandayam N B, et al. Cumulative prospect theoretic study of a cloud storage defense game against advanced persistent threats[C] //Proc of the 36th IEEE Int Conf on Computer Communications (IEEE INFOCOM WKSHPS 2017). Piscataway, NJ: IEEE, 2017

[14] Hu Pengfei, Li Hongxing, Fu Hao, et al. Dynamic defense strategy against advanced persistent threat with insiders[C] //Proc of the 34th Int Conf on Computer Communications (IEEE INFOCOM 2015). Piscataway, NJ: IEEE, 2015: 747-755

[15] Feng Xiaotao, Zheng Zizhan, Hu Pengfei, et al. Stealthy attacks meets insider threats: A three-player game model[C] //Proc of the 34th Military Communications Conf (IEEE MILCOM 2015). Piscataway, NJ: IEEE 2015: 25-30

[16] Abass A, Xiao Liang, Mandayam N B, et al. Evolutionary game theoretic analysis of advanced persistent threats against cloud storage[J]. IEEE Access, 2017, 5(1): 8482-8491

[17] Xiao Liang, Li Yan, Han Guoan, et al. Phy-layer spoofing detection with reinforcement learning in wireless networks[J]. IEEE Trans on Vehicular Technology, 2016, 65(12): 10037-10047

[18] Osborne M J, Rubinstein A. A Course in Game Theory[M]. Cambridge, Massachusetts: MIT Press, 1994: 29-40

[19] Bowling M, Veloso M. Rational and convergent learning in stochastic games[C] //Proc of the 33rd Int Joint Conf on Artificial Intelligence. San Francisco: Margan Kaufmann, 2001: 1021-1026

[20] Hu Qing, Lü Shichao, Shi Zhiqiang, et al. Defense against advanced persistent threats with expert system for Internet of things[G] //LNCS 10251: Proc of the 12th Int Conf on Wireless Algorithms, Systems, and Applications. Berlin: Springer, 2017: 326-337

AdvancedPersistentThreatsDetectionGamewithExpertSystemforCloud

Hu Qing1,2, Lü Shichao1,2, Shi Zhiqiang1,2, Sun Limin1,2, and Xiao Liang3

1(SchoolofCyberSecurity,UniversityofChineseAcademyofSciences,Beijing100049)2(BeijingKeyLaboratoryofIOTInformationSecurityTechnology(InstituteofInformationEngineering,ChineseAcademyofSciences),Beijing100093)3(DepartmentofCommunicationEngineering,XiamenUniversity,Xiamen,Fujian361005)

Cloud computing systems are under threaten of advanced persistent threats (APT). It is hard for an autonomous detector to discover APT attacks accurately. The expert system (ES)can help to reduce detection errors via double-checking suspicious behaviors. However, it takes an extended period of time for the ES to recheck, which may lead to a defense delay. Besides, the ES makes mistakes too. In this paper, we discuss the necessity of the ES to participate in APT detection and defense for a cloud computing system by game theory, based on the consideration of miss detection rates and false alarm rates of both the APT detector and the ES. The ES -based APT detection method is designed, and the ES -APT game between an APT attacker and a defender is formulated. We derive its Nash equilibrium and analyze how the ES enhances the security of the cloud computing system. Also, the dynamic game is studied, in case that the APT attack model is unknowable. We present a reinforcement learning scheme for the cloud computing system with ES to get the optimal strategy. Simulation results show that, with the knowledge of the ES, both the defender’s utility and the cloud computing system’s security are improved compared with benchmark schemes.

advanced persistent threats (APT); cloud security; expert system (ES); game theory; reinforcement learning

TP393.08

HuQing, born in 1985. PhD candidate. Member of CCF. Her main research interests include advanced persistent threats and IOT security.

LüShichao, born in 1985. PhD candidate, engineer. Member of CCF. His main research interests include wireless communication systems security (lvshichao@iie.ac.cn).

ShiZhiqiang, born in 1970. PhD, senior engineer, PhD supervisor. Senior member of CCF. His main research interests include industrial control system security, cyber security, etc.

SunLiMin, born in 1966. PhD, professor, PhD supervisor. Senior member of CCF. His main research interests include IOT security, cyber security, etc (sunlimin@iie.ac.cn).

XiaoLiang, born in 1980. PhD, professor, PhD supervisor. Senior member of CCF. Her main research interests include network security, wireless communications, smart grids, etc (Lxiao@xmu.edu.cn).

99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

基于專(zhuān)家系統(tǒng)的高級(jí)持續(xù)性威脅云端檢測(cè)博弈

1 相關(guān)工作

2 系統(tǒng)模型

3 混合策略ES -APT檢測(cè)博弈

4 動(dòng)態(tài)ES -APT檢測(cè)博弈

5 模擬仿真

6 總 結(jié)

6 總結(jié)