范舒涵 王之梁 楊家海
摘? ?要:文章探究基于深度學(xué)習(xí)的事件預(yù)測(cè)模型ALEAP在WAF場(chǎng)景下的應(yīng)用情況,通過對(duì)校園網(wǎng)WAF系統(tǒng)日志數(shù)據(jù)的統(tǒng)計(jì)分析和事件嵌入分析,發(fā)現(xiàn)Web攻擊事件分布上的聚集性以及上下文之間的關(guān)聯(lián)性;通過WAF歷史日志數(shù)據(jù)對(duì)ALEAP模型進(jìn)行預(yù)訓(xùn)練,利用預(yù)訓(xùn)練模型預(yù)測(cè)下一個(gè)可能發(fā)生的Web攻擊事件,模型最終達(dá)到78%的預(yù)測(cè)準(zhǔn)確率,證實(shí)了ALEAP模型在該場(chǎng)景下的適用性,為網(wǎng)絡(luò)管理者實(shí)施防御策略提供可靠性參考依據(jù),同時(shí)也說明ALEAP模型在具有上下文關(guān)聯(lián)關(guān)系的安全日志事件預(yù)測(cè)方面的普適性。
關(guān)鍵詞:安全事件預(yù)測(cè);Web應(yīng)用防火墻;ALEAP
中圖分類號(hào): TP309.5? ? ? ? ? 文獻(xiàn)標(biāo)識(shí)碼:A
Abstract: This paper explores the application of ALEAP, a security event prediction model based on deep learning, in the WAF context. Web Application Firewall, or WAF in short, is a kind of middlebox for protecting Web application security. The WAF system logs of the data center of Tsinghua campus network are analyzed by statistical methods and the ALEAP is used to predict the next web attack event. ALEAP is proved effective in this scenario with as high accuracy as 78%. It also shows the universality of ALEAP in context-sensitive security log prediction.
Key words: security events prediction; Web application firewall; ALEAP
1 引言
隨著網(wǎng)絡(luò)滲透門檻的不斷降低,常規(guī)網(wǎng)絡(luò)攻擊事件如SQL注入、跨站腳本攻擊、會(huì)話劫持等頻頻發(fā)生。在過去,防火墻被視為企業(yè)安全保障的第一道防線,能在網(wǎng)絡(luò)層進(jìn)行數(shù)據(jù)包的有效阻斷。然而隨著越來越豐富多樣的Web應(yīng)用誕生,Web應(yīng)用成為主要被攻擊的目標(biāo)。傳統(tǒng)防火墻在阻止利用應(yīng)用程序漏洞進(jìn)攻方面卻無能為力。在大型組織中,許多Web應(yīng)用程序需要不同的安全策略來保護(hù)它們免受各種攻擊。因此,Web應(yīng)用防火墻(Web Application Firewall,WAF)[1]應(yīng)運(yùn)而生。
WAF通過執(zhí)行一系列針對(duì)HTTP、HTTPS的安全策略,為Web應(yīng)用程序提供保護(hù)。對(duì)于網(wǎng)絡(luò)安全管理人員來說,WAF能夠?qū)Σ糠志W(wǎng)絡(luò)協(xié)議通信流量進(jìn)行檢測(cè)識(shí)別,屏蔽常見的Web攻擊行為,阻止對(duì)Web應(yīng)用的非法訪問,增強(qiáng)Web應(yīng)用的安全性。不足在于,WAF通過對(duì)一系列網(wǎng)絡(luò)請(qǐng)求的內(nèi)容進(jìn)行規(guī)則模式匹配檢測(cè)出異常情況,是一種被動(dòng)的反應(yīng),是在異常行為發(fā)生后,對(duì)特定攻擊模式的反應(yīng)或者針對(duì)觀察到的現(xiàn)象進(jìn)行告警,無法預(yù)測(cè)可能發(fā)生的攻擊,進(jìn)一步為網(wǎng)絡(luò)安全管理人員提供防御意見和攻擊趨勢(shì)預(yù)警。
ALEAP[2]是在2019年提出的基于深度學(xué)習(xí)的安全事件預(yù)測(cè)模型,基于安全防護(hù)終端日志中的安全事件之間存在上下文關(guān)聯(lián),通過對(duì)歷史安全事件的攻擊模式學(xué)習(xí),預(yù)測(cè)下一個(gè)可能發(fā)生的安全事件。
通過對(duì)WAF數(shù)據(jù)觀察可知,WAF日志記錄中的Web攻擊事件之間同樣存在上下文關(guān)聯(lián)。因此,使用ALEAP對(duì)WAF日志數(shù)據(jù)進(jìn)行攻擊模式學(xué)習(xí),預(yù)測(cè)下一個(gè)可能發(fā)生的Web安全事件,使得網(wǎng)絡(luò)安全管理人員能夠提前采取防御措施,避免不必要的傷害是可行的。
本文基于對(duì)清華大學(xué)WAF防護(hù)系統(tǒng)日志數(shù)據(jù)的分析,探究ALEAP模型在該場(chǎng)景下的應(yīng)用效果,并對(duì)其性能進(jìn)行評(píng)估。
2 ALEAP模型
ALEAP模型是一個(gè)基于深度學(xué)習(xí)[3]的安全事件預(yù)測(cè)模型,適用于已知多種安全防護(hù)設(shè)備產(chǎn)生的警報(bào)日志,預(yù)測(cè)下一步可能發(fā)生的安全事件類型,在網(wǎng)絡(luò)管理者實(shí)施防御策略時(shí)提供可靠性參考依據(jù)。
2.1 研究的問題
ALEAP模型公式化描述為:
已知條歷史安全事件序列,其中表示輸入序列長(zhǎng)度,表示安全事件的事件嵌入向量維度,表示時(shí)刻的安全事件嵌入向量。
ALEAP旨在通過歷史數(shù)據(jù)的訓(xùn)練,學(xué)習(xí)歷史事件序列到下一個(gè)可能產(chǎn)生的安全事件類型的關(guān)系映射:
其中,,是需要學(xué)習(xí)的非線性映射關(guān)系。
2.2 ALEAP系統(tǒng)框架
ALEAP模型框架如圖1所示,包括數(shù)據(jù)預(yù)處理層、事件嵌入向量構(gòu)建層、基于注意力機(jī)制的LSTM模型學(xué)習(xí)層和預(yù)測(cè)層。在數(shù)據(jù)預(yù)處理層中,如圖1(a)所示,首先從多源安全警報(bào)中提取出數(shù)據(jù)特征,包括匿名計(jì)算機(jī)ID、時(shí)間戳、安全事件ID、安全事件描述等信息,而后從這些數(shù)據(jù)特征中提取“攻擊者、被攻擊者、攻擊行為、補(bǔ)充行為”四個(gè)特征組成四元組,構(gòu)建新型安全事件類型。在圖1(b)所示的嵌入層中,通過上下文關(guān)聯(lián)學(xué)習(xí),將安全事件類型嵌入到高維度的向量空間,用于反映事件之間的相似性和互異性。基于注意力機(jī)制[4]的深度學(xué)習(xí)模型如圖1(c)所示,編碼序列化的注意力機(jī)制能夠在所有事件序列中,自動(dòng)學(xué)習(xí)增加相關(guān)性高的隱藏狀態(tài)的權(quán)重,從而捕獲到長(zhǎng)期的事件序列依賴,以達(dá)到更高的預(yù)測(cè)準(zhǔn)確性。
3 ALEAP在WAF場(chǎng)景下的應(yīng)用
WAF通過對(duì)一系列網(wǎng)絡(luò)請(qǐng)求的內(nèi)容進(jìn)行規(guī)則模式匹配、行為分析,檢測(cè)出惡意行為,并做出相關(guān)動(dòng)作,包括阻斷、記錄、告警等,為Web應(yīng)用程序提供保護(hù)[5]。
通過對(duì)WAF日志的觀察可知,WAF日志中記錄了跨站腳本(Cross-site Scripting, XSS)、SQL注入攻擊、Web服務(wù)器漏洞攻擊等攻擊行為,針對(duì)某個(gè)攻擊,存在一定的攻擊鏈。比如,SQL注入主要攻擊步驟包括惡意掃描、在發(fā)送給SQL服務(wù)器的輸入?yún)?shù)中注入惡意可執(zhí)行代碼、SQL注入攻擊成功等。同時(shí)由于WAF規(guī)則設(shè)置的不同,對(duì)某些檢測(cè)到的攻擊流量采取阻塞的方式,因此這些被阻塞的攻擊事件之間存在攻擊嘗試鏈,比如存在PUT、OPTIONS、DELETE不同請(qǐng)求方式的連續(xù)HTTP訪問控制事件。由此可見,Web攻擊事件之間也存在著上下文聯(lián)系,滿足符合ALEAP模型的使用前提。
通過對(duì)WAF日志的統(tǒng)計(jì)分析、事件嵌入式分析和ALEAP模型的應(yīng)用,進(jìn)一步挖掘WAF數(shù)據(jù)的隱藏價(jià)值,探究其所在網(wǎng)絡(luò)環(huán)境態(tài)勢(shì)以及攻擊規(guī)律。
3.1 WAF日志數(shù)據(jù)統(tǒng)計(jì)分析
研究數(shù)據(jù)采自于清華大學(xué)WAF系統(tǒng)安全防護(hù)日志2019年11月21日至2019年11月27日時(shí)長(zhǎng)為一周的日志數(shù)據(jù),共計(jì)3,214,041條記錄,18種安全事件過濾規(guī)則。
3.1.1 基礎(chǔ)數(shù)據(jù)特征
(1)日志字段
采集到的WAF日志一共有個(gè)18字段,其中關(guān)鍵字段以及說明如表1所示。在對(duì)數(shù)據(jù)進(jìn)行處理的時(shí)候,需要根據(jù)站點(diǎn)ID對(duì)數(shù)據(jù)進(jìn)行分類,根據(jù)告警發(fā)生的時(shí)間排序,并主要關(guān)注于告警類型的變化。
(2)攻擊事件類型分布
本文研究的WAF日志中一共有18個(gè)事件類型,包括SQL注入攻擊、Web服務(wù)器漏洞攻擊等。事件分布情況如表2所示。
由表2可知,在該數(shù)據(jù)集中,最頻繁發(fā)生的攻擊是SQL注入、Web服務(wù)器漏洞攻擊以及遠(yuǎn)程文件包含攻擊。不同的事件類型歸屬于不同的攻擊階段,比如惡意掃描可以是跨站攻擊的前期準(zhǔn)備階段,SQL注入攻擊可能是服務(wù)器信息泄露的后續(xù)。不同事件之間存在一定的關(guān)聯(lián)性,也說明了Web應(yīng)用防火墻產(chǎn)生的數(shù)據(jù)符合ALEAP模型的應(yīng)用場(chǎng)景。
3.1.2 日志記錄特征
(1)重復(fù)性
清華校園網(wǎng)WAF系統(tǒng)日志數(shù)據(jù)針對(duì)一類警報(bào)類型,往往出現(xiàn)連續(xù)重復(fù)的日志記錄。通過對(duì)數(shù)據(jù)集的觀察可知,這些連續(xù)出現(xiàn)的警報(bào)類型相同的記錄并不完全相同,一般存在URI、Domain Name、HTTP Request Method三個(gè)字段的區(qū)別。因此,這些字段在區(qū)分不同的攻擊行為,構(gòu)建安全事件類型中起到重要作用。同時(shí)這也意味著,在發(fā)起Web攻擊時(shí),攻擊者通過改變攻擊路徑、攻擊對(duì)象和請(qǐng)求手段等方式進(jìn)行多種攻擊嘗試。
(2)關(guān)聯(lián)性
WAF對(duì)被檢測(cè)到的異常事件的處理手段主要包括三種:攔截、記錄但不攔截、放過,采用何種處理手段取決于規(guī)則對(duì)應(yīng)攻擊的危害性。如果是明顯攻擊,就配置攔截手段,可疑行為配置記錄但不攔截處理手段,正常行為采用放過的處理方式。
通過對(duì)采集到的日志數(shù)據(jù)進(jìn)行觀察,發(fā)現(xiàn)數(shù)據(jù)記錄中存在攔截、記錄但不攔截兩種處理手段。記錄但不攔截的處理方式可以記錄一個(gè)多步攻擊的攻擊鏈,攔截的處理方式意味著某些數(shù)據(jù)之間并不存在攻擊鏈行為。如表3所示。
從表中可以很明顯發(fā)現(xiàn)攻擊者在某次請(qǐng)求被攔截之后,還是針對(duì)同樣的攻擊發(fā)起了不同攻擊路徑、不同攻擊子對(duì)象、不同HTTP請(qǐng)求方式的攻擊嘗試,這些嘗試之間也存在一定的規(guī)律。比如攻擊路徑可能是在原來的路徑的基礎(chǔ)上添加新的根目錄,或者攻擊的域名和前一個(gè)域名之間享有同樣的一級(jí)、二級(jí)子域名。所以,針對(duì)WAF日志的預(yù)測(cè)模型訓(xùn)練可以學(xué)到兩類模式:Web攻擊鏈以及Web攻擊嘗試鏈。
3.2 事件嵌入分析
這一小節(jié)利用事件嵌入(Event Embedding)對(duì)WAF日志事件進(jìn)行深入分析。通過事件嵌入的使用,主要研究?jī)身?xiàng)內(nèi)容。
(1)探索安全日志事件上下文之間存在的內(nèi)在聯(lián)系。確認(rèn)向量近似度大的事件在語義上是相關(guān)的,從而證明事件嵌入被其他模型引入是有價(jià)值的。
(2)從全局上查看嵌入向量的空間分布以及聚合關(guān)系。
3.2.1 算法原理
事件嵌入來源于自然語言處理(Natural Language Processing, NLP)中適用的詞嵌入(Word Embedding)[6]。詞嵌入的訓(xùn)練原理就是利用一個(gè)深度學(xué)習(xí)框架將一個(gè)詞語映射到另一個(gè)空間,并且保證相似的詞語映射到相似方向,而且低維度、易訓(xùn)練。Word2vec[7]是詞嵌入中的一種,也是目前最廣泛的詞嵌入方法,其訓(xùn)練簡(jiǎn)單,具有速度快、易擴(kuò)展、效果好的特點(diǎn)。
在網(wǎng)絡(luò)安全領(lǐng)域中,安全日志事件之間存在著和自然語言處理領(lǐng)域的單詞之間同樣的上下文關(guān)系。所以,將單詞之間的關(guān)聯(lián)關(guān)系抽取方法類比到安全事件之間,用事件ID來代表某個(gè)安全事件,替換自然語言中的單個(gè)詞語,采用類似的詞嵌入方法對(duì)安全事件進(jìn)行向量表示,這個(gè)算法稱之為事件嵌入。
因此,本節(jié)采用事件嵌入方法對(duì)WAF攻擊的內(nèi)部關(guān)聯(lián)進(jìn)行深入機(jī)器學(xué)習(xí)和分析。
3.2.2 實(shí)驗(yàn)
本次實(shí)驗(yàn)的事件嵌入算法采用Word2Vec中的Skip-gram[8]模型進(jìn)行訓(xùn)練,選擇2019年11月21日至11月26日的數(shù)據(jù),最終產(chǎn)生每個(gè)事件的向量嵌入式表示。
主要實(shí)驗(yàn)共四個(gè)步驟。
(1)首先,對(duì)日志數(shù)據(jù)進(jìn)行預(yù)處理。將發(fā)生在同一天同一個(gè)目標(biāo)ID上的事件合并為一段連續(xù)事件序列,同時(shí)對(duì)完全重復(fù)的連續(xù)日志事件進(jìn)行合并,即只記錄一條數(shù)據(jù)。
(2)構(gòu)建新型安全事件ID。新型安全事件類型用以下五元組來表示:
每個(gè)安全事件類型對(duì)應(yīng)唯一ID。
(3)依次遍歷所有事件ID,以每個(gè)事件ID為中心事件,選擇其前后固定長(zhǎng)度范圍內(nèi)的事件ID作為模型輸入,利用Skip-gram模型進(jìn)行訓(xùn)練,訓(xùn)練擬合得到中心事件。其中,中心事件往前/后的固定長(zhǎng)度范圍被稱作訓(xùn)練窗口。
(4)最后把輸出層去除,選擇輸入權(quán)重矩陣作為最終采用的事件向量集合,同時(shí)用Numpy格式存儲(chǔ)。
通過多次實(shí)驗(yàn),選用以下參數(shù)作為最終采納的預(yù)訓(xùn)練向量模型參數(shù):生成向量維度為300,訓(xùn)練窗口為10,迭代次數(shù)為40,采用Negative Sample算法。
3.2.3 結(jié)果展示
為了進(jìn)一步研究生成的事件向量,本文通過計(jì)算嵌入式向量之間的相關(guān)性并利用Google Projector[9]對(duì)事件向量進(jìn)行可視化處理來深入研究?jī)?nèi)在規(guī)律。
(1)事件向量相關(guān)性
通過計(jì)算安全事件向量之間的余弦相似度,來量化向量之間的相關(guān)性。所謂余弦相似度,就是計(jì)算兩個(gè)向量在向量空間夾角的余弦值,如果值越大表示兩個(gè)向量越相近,如式(1)所示:
表4為通過Skip-gram方法訓(xùn)練生成日志事件向量后,與事件[166.111.7.8, 10.111.7.157, Web服務(wù)器漏洞攻擊,ap*.sc.tsinghua.edu.cn, POST]通過計(jì)算向量間的余弦相似度得到的結(jié)果。由表可知,和事件“Web服務(wù)器漏洞攻擊”相似度最高的前三個(gè)事件都擁有同樣的攻擊者、被攻擊對(duì)象、被攻擊域名和請(qǐng)求方式。同時(shí),通過對(duì)原始數(shù)據(jù)觀察可以發(fā)現(xiàn),與事件“Web服務(wù)器漏洞攻擊”相似度最高的事件“HTTP違背”的攻擊序列中,都存在連續(xù)地對(duì)不同域名的攻擊嘗試(例如,對(duì)www.m*.tsinghua.edu.cn,www.e*.tsinghua.edu.cn,www.c*.tsinghua.edu.cn等域名的連續(xù)攻擊)。由此可見,嵌入式事件向量表示反映了一部分事件之間的攻擊規(guī)律和關(guān)聯(lián)性。
(2)向量降維可視化
Google Projector是一個(gè)用戶交互式的可視化和高維數(shù)據(jù)分析的系統(tǒng),可用于探索數(shù)據(jù)集中的有價(jià)值方向。
本文通過將事件向量和事件標(biāo)簽分別上傳至Google Projector,生成如圖2所示的投影。
圖2是利用t-SNE[10]降維技術(shù)生成的嵌入式投影。t-SNE是一種流行的非線性降維技術(shù),由Hinton等人提出,基于SNE演變而來。SNE采用仿射變換,通過構(gòu)建一個(gè)高維度對(duì)象的概率分布,映射數(shù)據(jù)點(diǎn)到概率分布上,如果兩個(gè)對(duì)象越相似,被選擇的概率就越高。t-SNE使用對(duì)稱版的SNE,簡(jiǎn)化梯度公式,同時(shí)使用t分布代替高斯分布來表達(dá)兩點(diǎn)之間的相似度。
由圖2可知,事件被分為兩個(gè)部分。綠色虛線簇主要包含攻擊前期準(zhǔn)備事件,包括HTTP方式控制事件、遠(yuǎn)程文件包含、違規(guī)下載、惡意掃描等;橙色虛線簇包括各類攻擊:SQL注入攻擊、跨站攻擊、命令注入攻擊等。通過對(duì)選取的WAF事件向量表示的可視化處理,一方面說明了WAF日志事件主要包括攻擊鏈的兩個(gè)階段:前期準(zhǔn)備和攻擊執(zhí)行。在這兩個(gè)階段中,前期準(zhǔn)備的事件規(guī)模相對(duì)小,分布也相對(duì)集中,Web攻擊執(zhí)行階段中包含各類不同類型、不同模式的攻擊類別;另一方面也證實(shí)了事件向量可以很好地提取事件特征,表示事件間的關(guān)系。
(3)小結(jié)
通過上述研究,得到兩點(diǎn)結(jié)論。
1)清華校園網(wǎng)WAF系統(tǒng)日志事件主要可以分為2個(gè)團(tuán)簇,包括攻擊前期準(zhǔn)備階段和攻擊實(shí)施階段。同時(shí),攻擊前期準(zhǔn)備事件的類型數(shù)目小于攻擊實(shí)施事件類型數(shù),并且聚集性更大。
2)采用Word2Vec方式可以很好地反映安全事件之間的上下文關(guān)聯(lián)性和相似性,有利于后續(xù)預(yù)測(cè)算法的構(gòu)建。
3.3 ALEAP模型應(yīng)用
基于對(duì)WAF數(shù)據(jù)的基礎(chǔ)數(shù)據(jù)統(tǒng)計(jì)和分析觀察,發(fā)現(xiàn)WAF日志數(shù)據(jù)存在上下文關(guān)聯(lián),適合ALEAP模型的使用場(chǎng)景。同時(shí),對(duì)于WAF日志數(shù)據(jù)的預(yù)警,可以揭露特定網(wǎng)絡(luò)環(huán)境中的Web攻擊規(guī)律,對(duì)網(wǎng)絡(luò)管理員的提前防御起到很好的參考作用。因此,將對(duì)安全預(yù)測(cè)模型ALEAP在清華校園網(wǎng)WAF日志數(shù)據(jù)中的應(yīng)用做進(jìn)一步分析。
3.3.1 數(shù)據(jù)預(yù)處理
在3.1.2小節(jié)中提到WAF數(shù)據(jù)的特有規(guī)律,因此在ALEAP模型預(yù)處理的基礎(chǔ)上,需要針對(duì)其數(shù)據(jù)特征做出以下變種。
在構(gòu)建新的安全事件類型時(shí),由于在Web攻擊中,被攻擊的域名和HTTP請(qǐng)求方式是一個(gè)攻擊手段的重要特征,可以更好地區(qū)別不同的攻擊行為。因此,原模型的四元組[subject, object, action, other]中,需要用[domain, request_method]來具體表示other字段,也就是新的安全事件類型用五元組來表示:
最終生成86類新型日志事件。同時(shí),該安全事件類型與3.2.2小節(jié)安全事件向量構(gòu)建實(shí)驗(yàn)中輸入的事件類型保持一致。
3.3.2 實(shí)驗(yàn)結(jié)果
本文使用Python 3.6.6實(shí)現(xiàn)了所提出的方法,并采用了Skip-gram進(jìn)行安全事件嵌入向量生成。選擇2019年11月21日至2019年11月26日數(shù)據(jù)進(jìn)行訓(xùn)練,2019年11月27日至2019年11月28日數(shù)據(jù)進(jìn)行預(yù)測(cè),訓(xùn)練集和預(yù)測(cè)集比例大約為4:1。
通過多次對(duì)比實(shí)驗(yàn),本文選擇以下參數(shù)作為最佳解決方案:批大小為128,嵌入維數(shù)為300,隱藏維數(shù)為600,隱藏層數(shù)為2,初始學(xué)習(xí)率為0.001,學(xué)習(xí)率衰減為0.01,間隔大小為15,Dropout值為0,訓(xùn)練輪數(shù)上限為500,模型最終取得了78.25%的預(yù)測(cè)準(zhǔn)確率。
(1)輸入序列長(zhǎng)度對(duì)實(shí)驗(yàn)結(jié)果的影響
在實(shí)驗(yàn)中,本文主要針對(duì)不同的序列長(zhǎng)度大小做了對(duì)比實(shí)驗(yàn),結(jié)果如圖3所示。
可以看出,當(dāng)訓(xùn)練序列長(zhǎng)度小于15時(shí),隨著序列長(zhǎng)度的增大,預(yù)測(cè)結(jié)果越準(zhǔn)確,說明越長(zhǎng)的訓(xùn)練數(shù)據(jù)可以提供更多的攻擊相關(guān)的信息,對(duì)模型擬合起到促進(jìn)作用。當(dāng)序列長(zhǎng)度大于25時(shí),精確度呈下降趨勢(shì),說明當(dāng)訓(xùn)練窗口大于25時(shí),引入了不相關(guān)的數(shù)據(jù)。同時(shí)隨著訓(xùn)練序列增長(zhǎng),訓(xùn)練時(shí)長(zhǎng)也增大。綜合訓(xùn)練準(zhǔn)確率和訓(xùn)練代價(jià),本文選擇20為最佳訓(xùn)練序列長(zhǎng)度。
(2)預(yù)測(cè)結(jié)果分析
該模型在WAF數(shù)據(jù)中取得了78.25%的預(yù)測(cè)準(zhǔn)確率。通過對(duì)預(yù)測(cè)結(jié)果的觀察,發(fā)現(xiàn)兩點(diǎn)情況。
1)在預(yù)測(cè)正確時(shí),主要分為兩種情況。第一種是攻擊鏈預(yù)測(cè)成功。攻擊鏈預(yù)測(cè)成功示例如表5案例1所示。案例1通過歷史安全日志事件中惡意掃描、服務(wù)器信息泄露、遠(yuǎn)程文件包含等惡意行為成功預(yù)測(cè)出將要發(fā)生的XSS攻擊,此時(shí)可聯(lián)系網(wǎng)站開發(fā)者對(duì)網(wǎng)站進(jìn)行“查缺補(bǔ)漏”,過濾惡意代碼,對(duì)HTML進(jìn)行充分轉(zhuǎn)義。
預(yù)測(cè)正確的另一種情況是攻擊嘗試鏈預(yù)測(cè)成功,如表5案例2所示。通過對(duì)域名a*.tsinghua.edu.cn和zlsh.a*.tsinghua.edu.cn等的HTTP訪問控制事件的嘗試,ALEAP模型成功預(yù)測(cè)出了將對(duì)www.a*.singhua.edu.cn域名的HTTP訪問控制事件的發(fā)生。攻擊嘗試鏈路的預(yù)測(cè)成功能夠有效描繪攻擊鏈路和剖析攻擊意圖,更好地服務(wù)于網(wǎng)絡(luò)管理者對(duì)網(wǎng)絡(luò)態(tài)勢(shì)的直觀了解。
2)在預(yù)測(cè)錯(cuò)誤的情況下,有部分錯(cuò)誤情況雖然預(yù)測(cè)與實(shí)際不符,但是仍存在一定的關(guān)聯(lián)性。如表5案例3所示,預(yù)測(cè)事件是對(duì)域名www.m*.tsinghua.edu.cn發(fā)起的服務(wù)器信息泄露事件,而實(shí)際發(fā)生的事件是針對(duì)irb.m*.tsinghua.edu.cn的服務(wù)器信息泄漏事件。雖然受害域名預(yù)測(cè)錯(cuò)誤,但是攻擊事件類型預(yù)測(cè)成功,并且兩個(gè)域名只有第五級(jí)子域名的細(xì)微差別。說明該預(yù)測(cè)模型即使在預(yù)測(cè)錯(cuò)誤的情況下,也能在某種程度上提供有效信息。
由上可知,ALEAP模型在WAF日志數(shù)據(jù)場(chǎng)景中,能夠?qū)W到一定的攻擊模式或者攻擊嘗試模式,可以很好地在WAF攻擊場(chǎng)景下進(jìn)行安全事件預(yù)測(cè)。說明ALEAP適用于Web攻擊場(chǎng)景。
4 結(jié)束語
本文通過ALEAP模型在清華校園網(wǎng)WAF場(chǎng)景下的應(yīng)用,發(fā)現(xiàn)WAF數(shù)據(jù)本身存在的關(guān)聯(lián)性和聚集性,同時(shí),ALEAP在該場(chǎng)景下能到78%的預(yù)測(cè)準(zhǔn)確率,體現(xiàn)了ALEAP模型在具有上下文關(guān)聯(lián)關(guān)系的日志預(yù)測(cè)方面的普適性。
參考文獻(xiàn)
[1] Clincy V, Shahriar H. Web application firewall: Network security models and configuration[C]//2018 IEEE 42nd Annual Computer Software and Applications Conference (COMPSAC): volume 01. 2018: 835-836.
[2] Fan S, Wu S, Wang Z, et al. Aleap: Attention-based lstm with event embedding for attack projection[C]//2019 IEEE 38th International Performance Computing and Communications Conference(IPCCC). IEEE, 2019: 1-8.
[3] Deng L, Yu D, et al. Deep learning: methods and applications[J]. Foundations and Trends? in Signal Processing, 2014, 7(3–4):197-387.
[4] Bahdanau D, Cho K, Bengio Y. Neural machine translation by jointly learning to align and translate[J]. arXiv preprint arXiv:1409.0473, 2014.
[5] Ghanbari Z, Rahmani Y, Ghaffarian H, et al. Comparative approach to web application firewalls[C]//2015 2nd International Conference on Knowledge-Based Engineering and Innovation(KBEI). IEEE, 2015: 808-812.
[6] Bengio Y, Schwenk H, Senécal J S, et al. Neural probabilistic language models[M/OL].https://doi.org/10.1007/3-540-33486-6_6. Berlin, Heidelberg: Springer Berlin Heidelberg, 2006: 137-186.
[7] Goldberg Y, Levy O. word2vec explained: deriving mikolov et al.s negative-sampling word embedding method[J]. arXiv preprint arXiv:1402.3722, 2014.
[8] Mikolov T, Sutskever I, Chen K, et al. Distributed representations of words and phrases and their compositionality[C]//Advances in neural information processing systems. 2013: 3111-3119.
[9] Smilkov D, Thorat N, Nicholson C, et al. Embedding projector: Interactive visualization and interpretation of embeddings[J]. arXiv preprint arXiv:1611.05469, 2016.
[10] Maaten L v d, Hinton G. Visualizing data using t-sne[J]. Journal of machine learning research,2008, 9(Nov):2579-2605.
作者簡(jiǎn)介:
范舒涵(1995-),女,漢族,福建建甌人,清華大學(xué),在讀碩士;主要研究方向和關(guān)注領(lǐng)域:網(wǎng)絡(luò)安全、深度學(xué)習(xí)。
王之梁(1978-),男,漢族,遼寧大連人,清華大學(xué),博士,清華大學(xué)網(wǎng)絡(luò)科學(xué)與網(wǎng)絡(luò)空間研究院,副教授;主要研究方向和關(guān)注領(lǐng)域:互聯(lián)網(wǎng)體系結(jié)構(gòu)與協(xié)議、軟件定義網(wǎng)絡(luò)、網(wǎng)絡(luò)測(cè)量與安全。
楊家海(1966-),男,漢族,浙江云和人,清華大學(xué),博士,清華大學(xué)網(wǎng)絡(luò)科學(xué)與網(wǎng)絡(luò)空間研究院,教授;主要研究方向和關(guān)注領(lǐng)域:互聯(lián)網(wǎng)體系結(jié)構(gòu)與協(xié)議、網(wǎng)絡(luò)管理、網(wǎng)絡(luò)測(cè)量與安全。