基于最優(yōu)停止理論的網(wǎng)絡(luò)欺騙防御策略?xún)?yōu)化

2021-07-24 09:30:04呂德龍周小為

網(wǎng)絡(luò)安全與數(shù)據(jù)管理 2021年7期

呂德龍，翁溪，周小為

(1.陸軍工程大學(xué) 指揮控制工程學(xué)院，江蘇南京210007；2.江南計(jì)算技術(shù)研究所，江蘇無(wú)錫214083)

0 引言

近年來(lái)，網(wǎng)絡(luò)攻擊的數(shù)量和復(fù)雜性都在迅速增加[1-2]，攻擊者能夠利用多種攻擊載體(如零日漏洞、軟件配置中的缺陷和訪問(wèn)控制策略等)滲透到其目標(biāo)系統(tǒng)中。針對(duì)上述問(wèn)題，研究人員提出了許多解決辦法來(lái)增強(qiáng)網(wǎng)絡(luò)和信息系統(tǒng)的安全防護(hù)能力，典型的解決方案包括入侵防護(hù)[3]、系統(tǒng)加固[4]以及高級(jí)攻擊檢測(cè)和緩解等[5]。盡管這些傳統(tǒng)的安全措施在任何安全防護(hù)手段中都必不可少，但它們大多被動(dòng)響應(yīng)攻擊者的行為，缺乏在網(wǎng)絡(luò)殺傷鏈的早期就與攻擊者進(jìn)行交互的手段，導(dǎo)致防御方始終處于被動(dòng)地位。

網(wǎng)絡(luò)欺騙防御技術(shù)是為改變防御方被動(dòng)地位解決攻防不對(duì)稱(chēng)問(wèn)題[6]而引入的新思路，網(wǎng)絡(luò)欺騙防御技術(shù)通過(guò)在攻擊者必經(jīng)之路上構(gòu)造陷阱，混淆其攻擊目標(biāo)，使得攻擊者難以辨別信息系統(tǒng)外顯特征真假，陷入虛假系統(tǒng)探測(cè)和攻擊中，增加攻擊成本和代價(jià)，而且在受控的環(huán)境中可以記錄并追溯攻擊者的行為，最終實(shí)現(xiàn)保護(hù)網(wǎng)絡(luò)內(nèi)部的真實(shí)資產(chǎn)的目標(biāo)。

但是，防御者誘騙攻擊者的過(guò)程中也可能會(huì)被攻擊者獲取到過(guò)多的真實(shí)網(wǎng)絡(luò)特征，如何在有效地迷惑住對(duì)手的同時(shí)，確保信息收益最大化是亟需解決的一大問(wèn)題。為解決此問(wèn)題，本文結(jié)合欺騙防御和最優(yōu)停止理論，從防御者視角考慮，基于最優(yōu)停止理論，求解防御方最佳抑制攻擊時(shí)刻，實(shí)現(xiàn)最大化防御系統(tǒng)收益的目標(biāo)。

1 相關(guān)工作

20世紀(jì)80年代末，斯托爾[7]首次討論了如何利用欺騙技術(shù)來(lái)跟蹤入侵者，以確保計(jì)算機(jī)安全，并在此基礎(chǔ)上形成了蜜罐的概念。為了吸引潛在的攻擊者，蜜罐把自己偽裝成可能被利用的服務(wù)主機(jī)，通過(guò)收集和記錄攻擊者破壞蜜罐的方法，防御方可以使用學(xué)習(xí)到的知識(shí)來(lái)增強(qiáng)系統(tǒng)安全性。近年來(lái)，出現(xiàn)了不少利用欺騙技術(shù)[8-10]來(lái)迷惑或誤導(dǎo)攻擊者的技術(shù)手段。網(wǎng)絡(luò)欺騙防御技術(shù)可用于保護(hù)易受攻擊的業(yè)務(wù)系統(tǒng)，并因其自身的優(yōu)勢(shì)而受到了安全防御人員的關(guān)注。欺騙的概念在幾乎所有安全領(lǐng)域都以不同的形式出現(xiàn)，但欺騙防御技術(shù)一般是指在攻擊者與目標(biāo)系統(tǒng)交互時(shí)用作防御機(jī)制來(lái)欺騙攻擊者的技術(shù)。

欺騙防御不是在發(fā)現(xiàn)入侵者后，立刻驅(qū)逐攻擊者，而是使用構(gòu)建好的誘餌動(dòng)作來(lái)響應(yīng)攻擊者，例如虛假協(xié)議消息[11]、響應(yīng)延遲[12]、誘餌消息[13]等。在法國(guó)總統(tǒng)大選期間，馬克龍的團(tuán)隊(duì)被曝利用偽造文件創(chuàng)建了大量的虛假賬戶(hù)[14]，并將其與大量虛假信息混淆。通過(guò)將這些賬戶(hù)主動(dòng)暴露給攻擊者，成功防御了網(wǎng)絡(luò)釣魚(yú)攻擊等網(wǎng)絡(luò)攻擊手段。

文獻(xiàn)[15]構(gòu)建了基于陷阱的體系，防御方對(duì)監(jiān)控密碼、身份驗(yàn)證cookie、信用卡和文件等敏感數(shù)據(jù)進(jìn)行修改、重放等操作后作為誘餌數(shù)據(jù)注入到系統(tǒng)中，誘發(fā)攻擊者主動(dòng)攻擊，使得攻擊者暴露。不過(guò)此時(shí)又出現(xiàn)了新的問(wèn)題，即釋放敏感數(shù)據(jù)的標(biāo)準(zhǔn)是什么，何時(shí)停止釋放才能在取得最大收益的同時(shí)付出最小的代價(jià)。

對(duì)于網(wǎng)絡(luò)欺騙策略的決策問(wèn)題，目前有多種解決方案，文獻(xiàn)[16]將決策問(wèn)題建模為微分對(duì)策，從而得到網(wǎng)絡(luò)欺騙的動(dòng)態(tài)策略。文獻(xiàn)[17]對(duì)攻擊者和防御者之間的相互作用進(jìn)行了博弈理論的研究，利用不完全信息的非合作二人動(dòng)態(tài)博弈模型來(lái)模擬防御者和攻擊者之間的交互，確定符合完美貝葉斯均衡的策略即為最佳策略。

針對(duì)網(wǎng)絡(luò)欺騙防御的決策問(wèn)題，本文引入了最優(yōu)停止理論，最優(yōu)停止理論在網(wǎng)絡(luò)領(lǐng)域已經(jīng)有了很好的應(yīng)用，如黃羨飛[18]、彭穎[19]等人利用最優(yōu)停止理論解決了無(wú)線網(wǎng)絡(luò)中的數(shù)據(jù)傳輸效率問(wèn)題。網(wǎng)絡(luò)欺騙防御過(guò)程中的行為是隨著時(shí)間變化的，該特點(diǎn)與最優(yōu)停止理論是符合的，因此本文將欺騙防御過(guò)程中策略?xún)?yōu)化問(wèn)題轉(zhuǎn)變?yōu)樽顑?yōu)停止問(wèn)題的求解。

2 背景及問(wèn)題描述

2.1 系統(tǒng)模型

在網(wǎng)絡(luò)欺騙防御系統(tǒng)中，為了盡可能地欺騙對(duì)手，防御者需要在欺騙過(guò)程中適當(dāng)放置一些真實(shí)的、敏感的信息，讓對(duì)手誤以為防御方?jīng)]有檢測(cè)到他們的行動(dòng)進(jìn)而繼續(xù)對(duì)誘餌數(shù)據(jù)或在誘捕環(huán)境內(nèi)攻擊。本文研究防御方在已知攻擊者的情況下，在滿(mǎn)足防御總目標(biāo)的前提下，如何使平均信息泄露量最小化。

在網(wǎng)絡(luò)攻防中，可以將攻擊者的攻擊細(xì)化為單個(gè)行動(dòng)。攻擊者的每次行動(dòng)都會(huì)對(duì)防御系統(tǒng)產(chǎn)生影響。攻擊者每發(fā)起一次攻擊行動(dòng)，防御方就可以通過(guò)欺騙系統(tǒng)獲取到該攻擊行動(dòng)所竊取到的有用信息，即泄露的真實(shí)信息。假設(shè)欺騙系統(tǒng)可以對(duì)每次攻擊進(jìn)行分析得到其攻擊相關(guān)信息量為A，以及對(duì)應(yīng)泄露的真實(shí)信息量L。防御者需要在一輪攻擊中確定一個(gè)合適的時(shí)刻來(lái)抑制后續(xù)攻擊行動(dòng)，以確保自身利益最大化。一輪攻擊防御過(guò)程如圖1所示，若防御者未能選出最優(yōu)抑制時(shí)刻，將會(huì)遭受攻擊者的完整攻擊。

圖1 一輪攻擊防御過(guò)程

2.2 最優(yōu)停止理論

最優(yōu)停止理論是一個(gè)一般的數(shù)學(xué)模型，讓決策者可以在一個(gè)由時(shí)間或數(shù)量組成的隨機(jī)序列中，在合適的時(shí)刻做出相應(yīng)的決策行為，實(shí)現(xiàn)獲取最大的收益或付出最小的代價(jià)目標(biāo)。最優(yōu)停止理論問(wèn)題有如下對(duì)象定義：

(1)隨機(jī)變量X1，X2，…，并假設(shè)變量服從聯(lián)合分布；

(2)實(shí)值報(bào)酬或成本函數(shù)序列：y0，y1(x1)，y2(x1，x2)，…，y∞(x1，x2…)。

相關(guān)聯(lián)的停止規(guī)則是：在觀察到X1=x1，X2=x2，…，Xn=xn(n=1，2，…)后，決策者選擇停止觀察并接受已知收益或代價(jià)函數(shù)yn(x1，…，xn)，或者繼續(xù)觀察Xn+1。圖2展示了收益或代價(jià)函數(shù)Y隨隨機(jī)變量X的變化過(guò)程，其中，YN=yN(x1，…，xN)是表示在N時(shí)刻的收益或代價(jià)。如果不進(jìn)行任何觀察，決策者接受y0；如果不停止觀察，決策者接受y∞(x1，x2，…)。這個(gè)策略可以使決策者在最優(yōu)停止時(shí)刻N(yùn)(0≤N≤∞)得到最大化期望收益E[YN]或最小化期望代價(jià)E[YN]。其中，E[]表示期望值。當(dāng)n→∞，該最優(yōu)停止問(wèn)題則為無(wú)限范圍的問(wèn)題。但在實(shí)際中，n的值一般不會(huì)超過(guò)最大值Nm，此時(shí)該問(wèn)題變成有限范圍問(wèn)題，它是無(wú)限范圍問(wèn)題的特殊情況，可進(jìn)行反向歸納的方法求解，即從最大值Nm向最小值0進(jìn)行反向計(jì)算。

圖2 最優(yōu)停止問(wèn)題流程圖

2.3 網(wǎng)絡(luò)欺騙防御的最優(yōu)停止理論問(wèn)題

在欺騙防御過(guò)程中，防御者既需要為部分攻擊行為釋放真實(shí)信息來(lái)引誘對(duì)手持續(xù)發(fā)起攻擊直到主動(dòng)驅(qū)逐攻擊者，又需要盡可能少地泄露真實(shí)的信息。防御者可以通過(guò)欺騙系統(tǒng)持續(xù)觀察攻擊者的行為，并計(jì)算出攻擊行為所暴露出的信息，同時(shí)計(jì)算出該攻擊行為所竊取到的真實(shí)信息量。通過(guò)觀察的結(jié)果選擇最優(yōu)時(shí)刻抑制攻擊，以使信息收益最大化。因此該欺騙防御問(wèn)題可轉(zhuǎn)換為一個(gè)有限范圍的最優(yōu)停止問(wèn)題。

在網(wǎng)絡(luò)攻防中，攻擊者的一次攻擊包含多個(gè)操作行為，同時(shí)為了迷惑防御方，會(huì)對(duì)各攻擊行為進(jìn)行混淆，使防御方不能簡(jiǎn)單快速識(shí)別攻擊。對(duì)于防御方，為了盡可能獲取到更多的攻擊特征信息，需要適當(dāng)給攻擊者透露一些有效信息以激勵(lì)攻擊者做出進(jìn)一步動(dòng)作。同時(shí)，防御方不能無(wú)止境地泄露真實(shí)信息，泄露過(guò)多會(huì)帶來(lái)巨大安全隱患。因此，防御方通過(guò)對(duì)攻防信息的獲取，選擇最優(yōu)時(shí)刻停止觀察并抑制后續(xù)的攻擊行為，以使獲取到的總攻擊信息與泄露的總的真實(shí)信息量之比最大化，這是一個(gè)最優(yōu)停止策略問(wèn)題。圖3展示了網(wǎng)絡(luò)欺騙問(wèn)題和最優(yōu)停止問(wèn)題的各要素對(duì)應(yīng)關(guān)系。

圖3 問(wèn)題要素對(duì)應(yīng)關(guān)系

3 欺騙防御優(yōu)化策略

3.1 信息收益最大化問(wèn)題的構(gòu)建

在欺騙防御中，攻擊方進(jìn)行第n次攻擊時(shí)，定義觀察到的變量序列為Xn={An，Ln}，其中An表示攻擊者在第n次攻擊時(shí)所暴露的信息量，Ln表示欺騙防御系統(tǒng)在第n次攻擊時(shí)所泄露的信息量。攻擊行為信息量的度量可以根據(jù)攻擊行為類(lèi)型進(jìn)行量化，即計(jì)算一次攻擊中所包含的各個(gè)行為所對(duì)應(yīng)攻擊目的的概率。即攻擊行動(dòng)an對(duì)應(yīng)的攻擊信息量計(jì)算公式為：

同樣，泄露真實(shí)信息量則根據(jù)防御者在應(yīng)對(duì)攻擊時(shí)所使用的真實(shí)信息的重要性進(jìn)行度量。即攻擊行動(dòng)an所造成的真實(shí)信息泄露量為：

假設(shè)對(duì)一個(gè)目標(biāo)的攻擊一共包含M次行動(dòng)，N為防御者抑制后續(xù)攻擊行動(dòng)的時(shí)刻，則有1≤n≤N≤M。由此可知，第n次行動(dòng)后攻擊者所暴露的信息總量為，防御方泄露的真實(shí)信息量為那么，由攻擊信息總和與泄露信息總和相比可得表達(dá)式：

即需要根據(jù)式(3)確定如何獲取最大的信息比。

3.2 信息收益最大化問(wèn)題的求解

可以利用式(3)將如何獲取最大的信息比Rn轉(zhuǎn)換成一個(gè)面試問(wèn)題。面試問(wèn)題是如何在M個(gè)面試者中找出最優(yōu)秀者，即如何在這M次攻擊中找到最大信息比。首先需要按照秘書(shū)問(wèn)題來(lái)給定一個(gè)隨機(jī)變量yk(1≤k≤M)表示RN的絕對(duì)排名，當(dāng)yk=1時(shí)，表示在第k次觀察時(shí)得到的RN在M次觀察中最優(yōu)。由于本文的攻擊-欺騙過(guò)程是不可逆的，因此還要再給定一個(gè)隨機(jī)變量xj(1≤j≤k)來(lái)表示RN的相對(duì)排名，當(dāng)xj=1時(shí)表示第j次偵測(cè)的RN在相對(duì)觀察次數(shù)k中最優(yōu)。如果要使得第k次偵測(cè)的RN在xj是最優(yōu)值，可以得到第k次觀察時(shí)RN在xj的概率為：

對(duì)于r=1，…，M，有以下停止規(guī)則ξ(r)存在：前r-1次攻擊行動(dòng)都不作出抑制，然后對(duì)剩下的M-r+1次的攻擊進(jìn)行偵測(cè)分析，如果任何一次攻擊后的攻擊信息和與泄露信息和比值都比之前要大，那么就在此次攻擊動(dòng)作之后抑制后續(xù)攻擊動(dòng)作。前r-1次攻擊被選中的概率為0，假設(shè)從第r次攻擊開(kāi)始，偵測(cè)到第k次攻擊時(shí)信息量比值最大且被選中作為抑制后續(xù)攻擊的點(diǎn)，那么最大值被選中的概率為：

其中，第k次作為信息量比最大值并且被選中的攻擊，根據(jù)概率論的知識(shí)，可以化簡(jiǎn)為：第k次攻擊在最大值的前提下被選擇。因?yàn)樽畲笾抵挥幸粋€(gè)，所以它的概率為1/M。既然是最大值，那么最大值對(duì)應(yīng)的攻擊行為被選擇的概率大于其前后攻擊被選中的概率，所以有：

得到r的一般表達(dá)式，現(xiàn)要找出最優(yōu)解，等價(jià)于找到滿(mǎn)足以下條件最小的r值：

4 結(jié)論

網(wǎng)絡(luò)欺騙防御是網(wǎng)絡(luò)主動(dòng)防御的重要手段，但傳統(tǒng)的欺騙防御策略往往側(cè)重于如何更好地引誘攻擊者進(jìn)行攻擊，直至耗盡攻擊者的攻擊手段，而忽視了泄露過(guò)多信息可能帶來(lái)的安全隱患。為此，本文針對(duì)網(wǎng)絡(luò)欺騙防御系統(tǒng)中防守方的最佳抑制攻擊時(shí)刻的選擇進(jìn)行了分析，發(fā)現(xiàn)在攻擊信息量和與泄露信息量和之比的最大值時(shí)刻抑制對(duì)手后續(xù)攻擊，可使防御方的利益最大化。本文基于最優(yōu)停止理論構(gòu)建了信息最大化收益問(wèn)題模型，并做出了相應(yīng)假設(shè)和數(shù)學(xué)推導(dǎo)，求解出最優(yōu)解表達(dá)式。后續(xù)工作會(huì)根據(jù)不同攻擊行動(dòng)的分布模型，建立完備的信息量評(píng)價(jià)機(jī)制，同時(shí)對(duì)該最優(yōu)停止理論模型進(jìn)行實(shí)驗(yàn)評(píng)估。

99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看