, ,
(第二軍醫(yī)大學(xué) 基礎(chǔ)醫(yī)學(xué)部,上海 200433)
基于改進Apriori的網(wǎng)絡(luò)安全感知方法
陸江東,鄭奮,戴卓臣
(第二軍醫(yī)大學(xué)基礎(chǔ)醫(yī)學(xué)部,上海200433)
針對網(wǎng)絡(luò)安全態(tài)勢評估過程中存在數(shù)據(jù)源單一、實時性不強、準(zhǔn)確率不高的問題,提出一種基于改進關(guān)聯(lián)規(guī)則算法(Apriori算法)的網(wǎng)絡(luò)安全態(tài)勢感知方法;通過對數(shù)據(jù)的分析,發(fā)現(xiàn)在網(wǎng)絡(luò)中存在關(guān)于安全態(tài)勢的關(guān)聯(lián)規(guī)則;通過網(wǎng)絡(luò)攻擊影響熵值序列的分析,對關(guān)聯(lián)規(guī)則進行分類為空間正常和異常空間,進而對關(guān)聯(lián)規(guī)則進行聚類分析;根據(jù)聚類后的規(guī)則劃分網(wǎng)絡(luò)安全態(tài)勢等級;將改進后的算法應(yīng)用到網(wǎng)絡(luò)安全態(tài)勢感知當(dāng)中,實驗結(jié)果表明,該方法滿足了網(wǎng)絡(luò)安全危險預(yù)警和實時監(jiān)控的要求;改進的算法用于安全態(tài)勢感知是可行的、有效的。
網(wǎng)絡(luò)安全;關(guān)聯(lián)規(guī)則;Apriori算法;態(tài)勢感知
網(wǎng)絡(luò)安全態(tài)勢分析(NSSA)[1]是一門出現(xiàn)在網(wǎng)絡(luò)當(dāng)中的新興技術(shù),能夠輔助安全專家對自己的網(wǎng)絡(luò)進行實時、準(zhǔn)確地安全評估。但是,由于網(wǎng)絡(luò)安全的影響因素復(fù)雜多變,并且具有較大的不確定性,因此,構(gòu)建一種網(wǎng)絡(luò)安全態(tài)勢評估系統(tǒng)對網(wǎng)絡(luò)態(tài)勢進行評估和預(yù)測成為一項重要的研究問題。
針對這一問題,研究者們提出了多種解決方法。Tim Bass[2]建立了融合多傳感器數(shù)據(jù)的入侵檢測框架,并且將其應(yīng)用于新一代網(wǎng)絡(luò)態(tài)勢感知和入侵檢測系統(tǒng)中。后來,Jason Shifflet等[3]人也提出了類似的模型。2006年,美國國防部預(yù)研發(fā)展署在本年的研究中,對網(wǎng)絡(luò)態(tài)勢感知系統(tǒng)所要研究的目的和一些相關(guān)技術(shù)做了詳細的說明。陳秀真[4]等人通過研究提出了具有層次化的網(wǎng)絡(luò)安全威脅衡量方法。趙國生等人[5]通過研究提出了基于灰色關(guān)聯(lián)分析的網(wǎng)絡(luò)可生存性衡量方法,將灰理論應(yīng)用到網(wǎng)絡(luò)態(tài)勢感知中的態(tài)勢預(yù)測模型中。
然而,現(xiàn)有方法仍然存在諸多問題。這類算法依賴于Apriori算法[7-8],該算法有以下幾個主要問題:1)多次掃描不是頻繁項集的選項;2)進行候選間的自連接時,相同項目過多;3)未對數(shù)據(jù)庫中的記錄進行優(yōu)化,重復(fù)掃描無用記錄。因此,這類方法難以處理數(shù)據(jù)來源多樣的情景,在實踐中往往準(zhǔn)確率較低、實時性較差。
針對這類問題,本文對經(jīng)典的關(guān)聯(lián)規(guī)則算法(Apriori算法)進行改進,分別對候選項集的產(chǎn)生和判斷過程進行優(yōu)化,降低不必要的計算和存儲過程。 在此基礎(chǔ)上提出了一種新網(wǎng)絡(luò)安全態(tài)勢的感知模型。該模型首先生成信息熵序列。接著對序列進行離散化,并運用本文改進的Apriori算法進行關(guān)聯(lián)規(guī)則挖掘。然后對這些規(guī)則進行分類。最后根據(jù)分類后的關(guān)聯(lián)規(guī)則進行態(tài)勢風(fēng)險指數(shù)生成。
為驗證本文算法的有效性,通過在校園局域網(wǎng)上設(shè)計實驗,進行網(wǎng)絡(luò)安全監(jiān)測。實驗結(jié)果表明,本文提出的算法可以有效的達到實時監(jiān)測要求。
傳統(tǒng)的Apriori算法[7-8]面臨以下幾個主要問題:1)多次掃描不是頻繁項集的選項;2)進行候選間的自連接時,相同項目過多;3)未對數(shù)據(jù)庫中的記錄進行優(yōu)化,重復(fù)掃描無用記錄。針對這些問題,本文從候選集產(chǎn)生、頻繁項集判斷及數(shù)據(jù)庫操作3個方面對該算法進行改進。
1.1 候選項集產(chǎn)生過程的改進
從k項集生成k+1項時,由于Lk的自連接操作中會產(chǎn)生很多與k項集相同的候選項,只要在生成前進行判斷,如果兩個項集的前k-1項不同,則直接放棄對該記錄的計算,移置下一個記錄進行計算。
1.2 頻繁項集判斷過程的改進
首先,計算出|LK-1(ij)|,同時,計算出LK-1中所有事務(wù)項集的頻率;然后,計算頻率小于k+1的所有項集,即I’={i|<|LK-1(ij)| 1.3 數(shù)據(jù)庫的優(yōu)化 由于每次進行項集判斷時,會頻繁的對數(shù)據(jù)庫進行連接,這將消耗大量資源、浪費很多時間。這是本文通過對事務(wù)進行標(biāo)記,從而達到減少連接數(shù)據(jù)庫的目的。 1.4 算法步驟 第一步:設(shè)置最小支持度min_support和最小置信度min_confidence,連接數(shù)據(jù)庫,獲取1項集合的各種支持度,生成1項集合L1。 第二步:候選項集的產(chǎn)生。依據(jù)2.2節(jié)當(dāng)中所描述的改進方法,對第一步所產(chǎn)生的L1進行項集頻率的排序(升序或者降序均可),生成k-1項集Lk-1。 第三步:頻繁項集判斷。按照2.3節(jié)所描述的改進方法,獲取Lk-1中所有項集的頻率信息,記錄所有頻率小于k+1的項目I’={i|<|Lk-1(ij)| 第四步:添加標(biāo)記信息。根據(jù)2.4節(jié)所描述的改進方法,為不在Ck中的項集的事務(wù)添加標(biāo)記信息,比如用“1”表示,然后刪除標(biāo)記為“1”的所有項集,得到新的候選項集信息。 重復(fù)第二步到第五步的計算過程,當(dāng)所有事務(wù)均不能產(chǎn)生新的頻繁項集的時候,停止循環(huán)。得到的結(jié)果即挖掘出來的規(guī)則。通過與最小置信度min_confidence進行對比,得到有效的關(guān)聯(lián)規(guī)則。 圖1 基于改進Apriori算法的網(wǎng)絡(luò)安全態(tài)勢感知方法 網(wǎng)絡(luò)當(dāng)中受到的攻擊進行檢查和反饋的網(wǎng)絡(luò)安全態(tài)勢感知系統(tǒng)是加強網(wǎng)絡(luò)安全的一種手段。針對網(wǎng)絡(luò)安全態(tài)勢感知的要求,本文在改進的關(guān)聯(lián)規(guī)則的基礎(chǔ)上提出了一種新的網(wǎng)絡(luò)安全趨勢的預(yù)知模型,如圖1所示。該模型首先生成信息熵序列。接著對序列進行離散化,并運用本文改進的Apriori算法進行關(guān)聯(lián)規(guī)則挖掘。然后對這些規(guī)則進行分類。最后根據(jù)分類后的關(guān)聯(lián)規(guī)則進行態(tài)勢風(fēng)險指數(shù)生成。 2.1 網(wǎng)絡(luò)安全態(tài)勢感知的數(shù)據(jù)源分析 為了合理高效的使用收集到的網(wǎng)絡(luò)數(shù)據(jù),本文引入信息熵[6-8]這一概念及其技術(shù)。信息源被看作是一組隨機事件的集合,該集合具有不確定性和隨機性的特點。通信系統(tǒng)具有統(tǒng)計特征性,各個信息源信號出現(xiàn)的幾率就形成了信息熵。 將流經(jīng)某一個地址的不同類型事件進行分類,每一類視為一組隨機事件,那么,這樣運用信息理論的相關(guān)技術(shù)對這一系列隨機事件進行分析。假設(shè)p(xi)為某一隨機事件的概率分布,i=1,2,…n,那么信息熵表示為: (1) 而p(xi)由某一種測量數(shù)據(jù)中某個地址發(fā)生的次數(shù)ni進行計算: (2) 將NetFlow數(shù)據(jù)源與信息理論中的信息熵進行映射,形成新的數(shù)據(jù)源信息,下文的分析主要基于轉(zhuǎn)換后的數(shù)據(jù)源信息。 2.2 信息熵數(shù)據(jù)源的生成 要通過信息論算法[9]進行處理,首先要將NetFlow數(shù)據(jù)轉(zhuǎn)化為信息熵序列。網(wǎng)絡(luò)信息被視為與時間相關(guān)的函數(shù),將信息熵H假定為與時間t的函數(shù):H=f(t)。通過計算時間t0前所發(fā)生的信息熵時間序列規(guī)律,對時間t0以后的信息熵進行預(yù)測,從而達到對網(wǎng)絡(luò)的安全態(tài)勢感知。信息熵時間序列表示為: x={xi|xi∈R,i=1,2,…,L} 2.3 信息熵的離散化 信息熵序列[10]是一組連續(xù)的信息,即一組連續(xù)函數(shù),而在計算機當(dāng)中,連續(xù)值的形式不易于處理,故要進行離散化處理。離散化是一個將連續(xù)模型或者函數(shù)轉(zhuǎn)化為相同效果的離散值的過程。 2.4 關(guān)聯(lián)規(guī)則挖掘與分類 該步驟使用2.4節(jié)所描述的改進后的Apriori算法對3.2節(jié)所獲取的離散化后的數(shù)據(jù)源進行關(guān)聯(lián)規(guī)則的挖掘與分類。 首先,設(shè)置合理的最小支持度和最小置信度。設(shè)置信息要根據(jù)不同的網(wǎng)絡(luò)和不同安全級別進行設(shè)置。其次,在信息熵數(shù)據(jù)中應(yīng)用2.4節(jié)改進后的Apriori算法,對網(wǎng)絡(luò)安全態(tài)勢關(guān)聯(lián)規(guī)則進行挖掘,得到滿足關(guān)聯(lián)規(guī)則的最小可信度和最小支持度。然后,將關(guān)聯(lián)規(guī)則進行相關(guān)分類。劃分為正??臻g和異??臻g兩大類,主要的依據(jù):通過已知網(wǎng)絡(luò)攻擊的信息熵變化值進行類別判斷。 2.5 態(tài)勢的可視化 根據(jù)3.3節(jié)挖掘出來的關(guān)聯(lián)規(guī)則信息,雖然能夠很好的反應(yīng)網(wǎng)絡(luò)當(dāng)中的一些安全態(tài)勢,但是對于管理人員來說,這種數(shù)值化的信息不能很直觀的進行閱讀。故本文將已經(jīng)挖掘出來的關(guān)聯(lián)規(guī)則進行可視化表示。主要是通過對關(guān)聯(lián)規(guī)則進行等級劃分來實現(xiàn)。 要對已獲取的關(guān)聯(lián)規(guī)則進行網(wǎng)絡(luò)態(tài)勢進行劃分,首先定義出安全級別的劃分標(biāo)準(zhǔn)。3.3節(jié)描述了如何將關(guān)聯(lián)規(guī)則劃分為兩大類,即正??臻g和異常空間,但是,兩個級別顯然不能描述網(wǎng)絡(luò)當(dāng)前的狀態(tài),故還要進行更進一步的劃分。規(guī)定:若規(guī)則屬于正??臻g,認為網(wǎng)絡(luò)目前處于一個安全級別;若規(guī)則處于正??臻g,但對攻擊行為不能確定,則判定網(wǎng)絡(luò)風(fēng)險位于一個中等級別;否則,判定此時網(wǎng)絡(luò)風(fēng)險位于一個危險級別。根據(jù)以上描述,依據(jù)網(wǎng)絡(luò)的具體情況,定義不同級別的風(fēng)險指數(shù),即: 如果目前網(wǎng)絡(luò)處于安全級別,此時網(wǎng)絡(luò)的風(fēng)險指數(shù)值為0。如果某一時刻同時存在一種或一種以上的網(wǎng)絡(luò)攻擊,則風(fēng)險指數(shù)等于各種威脅度之和。網(wǎng)絡(luò)安全專家通過對不同的網(wǎng)絡(luò)定義來設(shè)定危險指數(shù)。根據(jù)風(fēng)險指數(shù),通過一些可視化軟件,生成描述風(fēng)險級別的可視化信息。根據(jù)可視化信息,網(wǎng)絡(luò)的安全管理人員將能夠更直觀、便利的發(fā)現(xiàn)網(wǎng)絡(luò)當(dāng)中存在的威脅,能夠依據(jù)這些可視化信息進行危險預(yù)測。 為了驗證本文提出的網(wǎng)絡(luò)安全態(tài)勢感知模型的實踐性和合理性,本文在實際環(huán)境中設(shè)計網(wǎng)絡(luò)安全監(jiān)測實驗。 3.1 實驗環(huán)境 實驗通過校園局域網(wǎng)進行安全性檢測。硬件設(shè)備包括Firewall,高性能千兆交換機,IDS系統(tǒng),另外有模塊化的多業(yè)務(wù)交換機和路由器[11]。所使用的設(shè)備均支持設(shè)定的SNMP、日志文件、NetFlow等多源數(shù)據(jù)源[12-14],滿足所提出模型數(shù)據(jù)源的要求。 3.2 實驗過程及結(jié)果分析 本文將所提出的在關(guān)聯(lián)規(guī)則基礎(chǔ)上的網(wǎng)絡(luò)安全態(tài)勢預(yù)知模型運用到網(wǎng)絡(luò)安全監(jiān)測中。首先進行NetFlow數(shù)據(jù)流量信息的收集,以便將其轉(zhuǎn)換為信息熵序列。在學(xué)校局域網(wǎng)中,取其中骨干網(wǎng)上面的一個節(jié)點Netflow數(shù)據(jù)進行分析,選擇7天中的2 000個數(shù)據(jù)作為我們的測試樣本點。通過3.1節(jié)描述的方法,生成信息熵序列,部分信息如圖2和圖3所示。 圖2 源IP地址的部分信息熵序列 圖3 目標(biāo)端口號的部分信息熵序列 根據(jù)經(jīng)驗,定義已知網(wǎng)絡(luò)攻擊對熵值序列的影響,如表1所示。 表1 已知網(wǎng)絡(luò)攻擊對熵值序列的影響 為了提高計算的效率,采用非均勻區(qū)間值離散化的方法,將每個信息熵序列分成5個區(qū)間A-E,每個區(qū)間的大小是不確定的。同時,對不同的序列,使用不同的序列號進行標(biāo)注以示區(qū)別,分別為數(shù)字1-5。 然后,采用3.3節(jié)提出的方法對該離散化后的信息熵數(shù)據(jù)進行基于Apriori算法的關(guān)聯(lián)規(guī)則挖掘。根據(jù)以往經(jīng)驗,設(shè)置最小支持度為0.01,最小置信度為0.02。通過計算,得到不同的項集信息,即不同項數(shù)的關(guān)聯(lián)規(guī)則信息。表2顯示了頻5-項集和相關(guān)的支持度計數(shù)結(jié)果。 表2 頻繁5-項集和支持度計數(shù) 通過選擇滿足最小置信度的項集,得到網(wǎng)絡(luò)安全態(tài)勢的感知信息,即將該實驗結(jié)果結(jié)合表1當(dāng)中的信息,對當(dāng)前網(wǎng)絡(luò)的安全狀態(tài)進行一個整體的評估。例如:{1A, 2B, 3C, 4B, 5E}的支持度為24,這個節(jié)點位置的目的端口地址熵值較大,但是目的地址的熵值相反,熵值非常小,由此可見,該節(jié)點的目的地址是比較聚集的,但是其目的端口卻是分散的,將其稱之為端口掃描攻擊模式。 為了管理員更直觀地了解當(dāng)前網(wǎng)絡(luò)的安全狀況,對網(wǎng)絡(luò)安全態(tài)勢進行可視化描述。根據(jù)3.4節(jié)所描述的方法,根據(jù)這些關(guān)聯(lián)規(guī)則對網(wǎng)絡(luò)態(tài)勢進行分級。網(wǎng)絡(luò)安全態(tài)勢感知的實時監(jiān)控信息如圖4所示。 可見,本文提出的方法可以在較短時間內(nèi)監(jiān)控網(wǎng)絡(luò)安全風(fēng)險。最多可以在10秒內(nèi)監(jiān)控到11級風(fēng)險。有效滿足網(wǎng)絡(luò)安全實時監(jiān)控的需求。 圖4 網(wǎng)絡(luò)安全態(tài)勢感知的實時監(jiān)控 本文提出一種基于改進關(guān)聯(lián)規(guī)則算法(Apriori算法)的網(wǎng)絡(luò)安全態(tài)勢感知方法。首先,該方法對所使用的數(shù)據(jù)源進行詳細的描述;然后,以Apriori算法為理論基礎(chǔ),對相應(yīng)的理論進行改善,得到改善后的Apriori算法。該算法通過對復(fù)雜項目集計數(shù)過程的中間結(jié)果進行過濾,把無效的數(shù)據(jù)進行刪除,以此減小數(shù)據(jù)庫規(guī)模。再者,基于改進的Apriori算法,給出了網(wǎng)絡(luò)安全態(tài)勢感知模型的具體實施步驟。最后,用實驗驗證了該框架的可行性并進行了結(jié)果分析。實驗結(jié)果表明,本文提出的基于關(guān)聯(lián)規(guī)則的網(wǎng)絡(luò)安全態(tài)勢感知模型能夠?qū)崿F(xiàn)了網(wǎng)絡(luò)安全實時監(jiān)控和危險預(yù)警的需求。 [1] 郭方方, 唐勻龍, 修龍亭, 等. 基于云計算的網(wǎng)絡(luò)安全態(tài)勢感知模型研究[J]. 計算機學(xué)報,2014,47(11):149-151. [2] Bass T. Intrusion detection system and multisensor data fusion: creating cyberspace situational awareness[J]. Communications of the ACM,2012,43(4):99-105. [3] Shifflet J. A technique independent fusion model for network intrusion detection[A]. Proceedings of the Midstates Conference on Undergraduate Research in Computer Science and Mathematics[C].2012,3(1):13-19. [4] 陳秀真,鄭慶華,管曉宏,等.層次化網(wǎng)絡(luò)安全威脅態(tài)勢量化評估方法[J].軟件學(xué)報, 2013, 17(4): 885-897. [5] 趙國生,王慧強,王 健.基于灰色關(guān)聯(lián)分析的網(wǎng)絡(luò)可生存性態(tài)勢評估研究[J].小型微型計算機系統(tǒng),2012, 27(10):156-864. [6] 楊啟昉,馬廣平.關(guān)聯(lián)規(guī)則挖掘Apriori算法的改進[J].計算機應(yīng)用,2012,28(12):217-218. [7] Shifflet J. A technique independent fusion model for network intrusion detection[A]. Proceedings of the Midstates Conference on Undergraduate Research in Computer Science and Mathematics[C].2013,3(1):13-19. [8] 張春生.改進的數(shù)據(jù)庫一次掃描快速Apriori算法[J].計算機工程與設(shè)計,2013,30(16):3811-3813. [9] Ling X, Ren A S. Analysis on factors affecting quantity safety of agricultural products based on DEMATEL method [J]. Science & Technology and Economy,2012.22(1): 65-68. [10] Sun B, Liu W, Tian D, et al. Application of time series date mining on security analysis[J].Journal of Jilin University: Information Science Edition,2013,28(3):270-274. [11] 劉華婷,郭仁祥,姜 浩.關(guān)聯(lián)規(guī)則挖掘Apriori算法的研究與改進[J].計算機應(yīng)用與軟件,2012,26(l):146-148. [12] Yu M, Hu M,Jin G,et al. Association rules algorithm applied to telecommunication network alarms [J]. Journal of Jilin University: Information Science Edition,2014, 281(3):264-269. [13] 錢光超,賈瑞玉,張 然,等.Apriori算法的一種優(yōu)化方法[J].計算機工程,2012,34(23):196-198. [14] Tang H Y, Zhan X Y. The research of the accessibility website design based log mining [J].Computer Knowledge and Technology,2013,7(4):3261-3262. NetworkSecuritySituationAwarenessMethodBasedonImprovedAprioriAlgorithm Lu Jiangdong, Zheng Fen, Dai Zhuochen (College of Basic Medical Sciences,Second Military Medical University,Shanghai 200433,China) For the existing problems that data source is single, real-time is not strong, the accuracy rate is not high in the process of network security situation assessment, a network security situation awareness method based on algorithm of association rules is proposed. Through the analysis of the data, association rules about the security situation in the network can be found; based on network attack effect of entropy sequence analysis, association rules are classified for the space of normal and abnormal, and then the cluster analysis to association rules is carried on. Levels of network security situation are divided according to the clustered rules, the improved algorithm is applied to network security situational awareness, experimental results show that, the model can meet the requirements of the network security hazard warning and real-time monitoring. The improved algorithm used for security situational awareness is feasible and effective. network security; association rule; Apriori algorithm; situation awareness 2017-04-26; 2017-05-11。 陸江東(1983-),男,江蘇鹽城人,碩士,講師,主要從事計算機教學(xué),數(shù)據(jù)挖掘方向的研究。 1671-4598(2017)10-0244-03 10.16526/j.cnki.11-4762/tp.2017.10.062 TP393 A2 新的網(wǎng)絡(luò)安全態(tài)勢感知方法
3 實驗與分析
4 結(jié)論