趙好好
摘? 要:在大數(shù)據(jù)時代,隨著計算機網(wǎng)絡技術的全面發(fā)展,網(wǎng)絡安全問題備受關注。入侵檢測技術的日趨成熟,已經(jīng)從簡單的靜態(tài)安全檢測發(fā)展到動態(tài)安全檢測,并在計算機安全防護領域占有一席之地。數(shù)據(jù)挖掘技術在智能獲取海量數(shù)據(jù)中的可用信息領域具備明顯優(yōu)勢。本文將相關技術引入到入侵檢測中,大幅度提高了入侵檢測的效率,并實現(xiàn)了智能化。
關鍵詞:數(shù)據(jù)挖掘? 網(wǎng)絡入侵? 入侵檢測? 網(wǎng)絡安全
中圖分類號:TP393.08;TP311.13? ? ? 文獻標識碼:A文章編號:1674-098X(2021)05(b)-0112-04
Application of Data Mining Technology in Network Intrusion Detection
ZHAO Haohao
(Henan Industry and Trade Vocational College, Zhengzhou, Henan Province, 451191 China)
Abstract: In the era of big data, with the all-round development of computer network technology, network security issues have attracted much attention. Intrusion detection technology has matured day by day, and it has developed from simple static security detection to dynamic security detection, and occupies a place in the field of computer security protection. Data mining technology has obvious advantages in the field of intelligently acquiring information available in massive data. This article introduces related technologies into intrusion detection, which greatly improves the efficiency of intrusion detection and realizes intelligence.
Key Words: Data mining; Network intrusion; Intrusion detection; Network security
在當今網(wǎng)絡時代,人們在享受飛速發(fā)展的網(wǎng)絡技術帶來便利的同時,也體驗到了全球資源共享產(chǎn)生的互動效應。與此同時,黑客和惡意攻擊者也常常會利用網(wǎng)絡自身的脆弱性進行各種形式的入侵,手段也更為復雜。隨著當今網(wǎng)絡發(fā)展的復雜化,計算機受到的攻擊行為難以捕捉,受到的安全威脅種類繁多,甚至攻擊的難度和頻率越來越大,給社會帶來的負面影響也越來越廣大。結果就是人們無法正常使用計算機和網(wǎng)絡,給他們的生活造成非常不利的影響,甚至可能會造成難以想像的經(jīng)濟損失。因此,如何創(chuàng)新網(wǎng)絡安全技術以迎接新的挑戰(zhàn)就顯得尤為重要。
目前,抵御外來入侵增強網(wǎng)絡安全的產(chǎn)品主要采用靜態(tài)安全檢測技術,靜態(tài)安全檢測技術的弊端就是只能檢測已知的網(wǎng)絡危險攻擊,對于新技術新網(wǎng)絡攻擊行為無法進行防范,更難以做到安全檢測和管理。因此,為了更加安全、有效地進行網(wǎng)絡安全防護,全方位保證網(wǎng)絡的安全性,我們應該采取被動和主動相結合的防御方式應對網(wǎng)絡攻擊。在這種情境下,入侵檢測系統(tǒng)應運而生,可以實現(xiàn)主動動態(tài)地進行網(wǎng)絡檢測,并得到了廣泛應用和認可。
數(shù)據(jù)挖掘技術可以快速探索出滿足大規(guī)模數(shù)據(jù)所需的功能或規(guī)則。因此,可以考慮構建有效的入侵檢測模型,充分發(fā)揮數(shù)據(jù)挖掘技術在海量網(wǎng)絡數(shù)據(jù)中進行智能挖掘的優(yōu)勢,從而探尋存在的入侵行為。
1? 數(shù)據(jù)挖掘技術概述
從技術來說,數(shù)據(jù)挖掘是指從海量的、不全面的、不清晰的、無關聯(lián)的原始數(shù)據(jù)中,挖掘出有價值的、有關聯(lián)和實用數(shù)據(jù)的過程[1]。
數(shù)據(jù)挖掘滲透于多個學科,尤其是人工智能和機器學習更將其列為重點學習方向,數(shù)據(jù)庫、統(tǒng)計學、機器學習、可視化等技術都涵蓋其中。通過數(shù)據(jù)挖掘,可以從海量無關聯(lián)的數(shù)據(jù)中提取到想要的有關聯(lián)的信息、對象,用來進行預測、關聯(lián)分析、做出響應等。
數(shù)據(jù)挖掘的過程[2]大致可分為5個階段,如圖1所示。
(1)問題定義。這一階段需要確定要發(fā)現(xiàn)何種知識,以及明確欲達到的目標和用戶的需求。
(2)數(shù)據(jù)收集。數(shù)據(jù)收集作為整個數(shù)據(jù)挖掘的基礎,它為數(shù)據(jù)挖掘提供最原始的數(shù)據(jù)。數(shù)據(jù)選取就是在海量數(shù)據(jù)中,挑選出符合條件的數(shù)據(jù)形成樣本。
(3)數(shù)據(jù)預處理。數(shù)據(jù)預處理包含噪聲點消除、數(shù)據(jù)格式化處理、數(shù)據(jù)約簡等操作。
(4)數(shù)據(jù)挖掘?qū)嵤?。根?jù)既定目標及己有方法選擇適當?shù)乃惴?,對已得的?shù)據(jù)進行進一步處理得到結果。
(5)結果解釋與評估。對提取的數(shù)據(jù)結果進行研究和評判,評估其可能存在的發(fā)展趨勢。
在上述步驟中,有兩點關鍵因素會直接影響數(shù)據(jù)挖掘的質(zhì)量:(1)用于數(shù)據(jù)挖掘的數(shù)據(jù)質(zhì)量和規(guī)模;(2)所采用數(shù)據(jù)挖掘方法的有效性。
2? 入侵檢測及其相關技術
2.1 入侵檢測概述
入侵檢測[3](Intrusion Detection),通常是在監(jiān)控計算機網(wǎng)絡及系統(tǒng)過程中,探尋不符合既定安全規(guī)則的事件。在監(jiān)控過程中,它往往會比較關注其中的關鍵要素,比如程序進程、網(wǎng)絡包及系統(tǒng)程序等,從而分析該過程是否符合入侵的標準,進一步確定攻擊的行為和對象。實現(xiàn)相應監(jiān)測功能的入侵檢測系統(tǒng),通常具備以下幾點作用[4]:
(1)識別入侵者;
(2)識別入侵行為;
(3)檢測出已知的入侵行為;
(4)時刻監(jiān)測和記錄入侵行為信息,從而對其可能會造成的后續(xù)惡化事件進行防控;
(5)使系統(tǒng)能夠在收集證據(jù)的同時恢復正常工作。
入侵檢測系統(tǒng)通過采取實時監(jiān)測的行為,對外來入侵的對象進行數(shù)據(jù)的搜集和分析,進而判斷此行為是否違反安全策略,從而做出抵御的行為。入侵檢測系統(tǒng)基于傳統(tǒng)安全檢測技術,實時監(jiān)測,達到主動防御的功能,從而改變從原來的事前預警,實現(xiàn)事中預警,并做到立即響應,保存入侵信息,為產(chǎn)生的違法入侵行為提供法律依據(jù)。因此,入侵檢測技術的不斷完善升級,形成一道保護屏障,能夠更進一步確保網(wǎng)絡安全。
入侵檢測的一般過程,如圖2所示。
2.2 入侵檢測方法
常用的入侵檢測方法[4-6]可以歸納為如下兩種。
2.2.1 異常入侵檢測方法
該方法是基于行為的檢測。普遍會采用統(tǒng)計的方法來對入侵行為進行檢測,進而發(fā)現(xiàn)異常。任何對系統(tǒng)的入侵都被假設會造成系統(tǒng)錯誤來完成異常檢測。在統(tǒng)計概率模型的基礎上,假設待檢測行為的狀態(tài)均為良好,根據(jù)設定異常行為的種類,進而檢測出其中與設定標準行為差異較大的即判定為異常行為。考慮到實際網(wǎng)絡環(huán)境相對繁雜,檢測標準缺乏精確性,最終的檢測結果也會存在一些誤差。
2.2.2 誤用入侵檢測方法
該方法是基于知識的檢測。在已知網(wǎng)絡攻擊方式的基礎上,制定入侵模式,若出現(xiàn)入侵行為則可以有效地檢測到。這種方法對已經(jīng)出現(xiàn)過攻擊類型的入侵行為有很好的抵御作用。但是對出現(xiàn)的變異或者新型攻擊行為無法進行處理,因為在防御策略上很難做到對這類入侵行為進行防御,再加上系統(tǒng)擴展性不好,維護難度大,檢測范圍有局限性,難以做到對新型攻擊行為有很好的抵御作用。
3? 數(shù)據(jù)挖掘技術在入侵檢測中的應用
3.1 入侵檢測中應用的數(shù)據(jù)挖掘技術
根據(jù)采用方法的不同,基于數(shù)據(jù)挖掘的網(wǎng)絡入侵檢測方法[7-8]的劃分如下。
3.1.1 基于分類的入侵檢測方法
在該方法中,首先要建立一個有類別標簽的訓練集,采用合適的分類算法對訓練集進行分析建模,并在測試集做出預測,進而判別出正常行為和異常行為。入侵檢測中常用的分類算法有最近鄰、決策樹、貝葉斯、人工神經(jīng)網(wǎng)絡等。
3.1.2 基于聚類的入侵檢測方法
在該類方法中,建立的是無類別標簽的數(shù)據(jù)集,需要采用合適的聚類方法來進行數(shù)據(jù)分析,然后根據(jù)呈現(xiàn)出來的屬性特征來對異常行為進行判別。值得一提的是,該類方法有時也會結合離群點檢測的思想,即將聚類后位于稀疏區(qū)域的數(shù)據(jù)(也即離群數(shù)據(jù))視為異常行為。入侵檢測中常用的聚類算法有k-means、自組織特征映射、DBSCAN等。
3.1.3 基于離群點挖掘的入侵檢測方法
該類方法常常被用于異常檢測。在入侵檢測系統(tǒng)中,入侵行為往往與正常行為在屬性特征上會有很大的不同,呈現(xiàn)出異常,從而可以被判定為離群點。采用合適的離群點檢測方法可以有效地挖掘出網(wǎng)絡中的入侵行為。
3.1.4 基于關聯(lián)分析的入侵檢測方法
該類方法,首先要借助相關算法對數(shù)據(jù)源進行處理,發(fā)現(xiàn)其中的關聯(lián)規(guī)則,進而對異常行為進行檢測。入侵檢測中常用的相關算法有Apriori、FP-growth等。
3.2 數(shù)據(jù)挖掘技術在網(wǎng)絡入侵檢測中的優(yōu)勢
在實際應用中,在侵檢測系統(tǒng)中引入數(shù)據(jù)挖掘技術,不僅可以提高檢測的準確性,還可以彌補前者的短板。具體優(yōu)勢[9]總結如下。
第一,數(shù)據(jù)挖掘的過程也即數(shù)據(jù)分析的過程,一般涉及數(shù)據(jù)準備、數(shù)據(jù)預處理、數(shù)據(jù)建模、結果評估等多個步驟,而這個過程往往是動態(tài)變化的,這恰恰能夠為建立一個高質(zhì)量的數(shù)據(jù)模型提供一定的保證。
第二,數(shù)據(jù)挖掘技術最直觀的作用就是大幅度提高了工作效率,借助其中的分類、聚類、離群點、關聯(lián)分析等算法,以有效發(fā)現(xiàn)網(wǎng)絡中的攻擊行為,在提升工作效率的同時,還使網(wǎng)絡的安全得到了切實保障。
第三,數(shù)據(jù)挖掘技術的廣泛應用對入侵檢測及網(wǎng)絡安全防護提供了有力的支撐,提高了檢測方法多樣性。入侵檢測系統(tǒng)與數(shù)據(jù)挖掘技術的有效結合,不僅為安全防護提供了更多創(chuàng)新發(fā)展空間,還可依此構建相應的關聯(lián)規(guī)則或是分類模型。
3.3 入侵檢測系統(tǒng)的數(shù)據(jù)挖掘過程
入侵檢測主要目的是對網(wǎng)絡中獲取到的海量數(shù)據(jù)進行研判,以便區(qū)分出其中的異常行為以自動建立有效的入侵檢測規(guī)則。采用不同的數(shù)據(jù)挖掘算法,可以獲取到用戶或系統(tǒng)的行為特征數(shù)據(jù)。
其中,基于關聯(lián)分析的算法可以發(fā)掘出網(wǎng)絡中連接數(shù)據(jù)屬性的關系,基于離群點分析的算法可以發(fā)現(xiàn)入侵攻擊行為的有關入侵關聯(lián)特點。通過應用離群點分析算法可以獲取到入侵者的行為關系及入侵行為和正常行為的特征信息,進而判定是正常行為還是入侵行為。利用關聯(lián)分析算法獲得正常行為特征,建立異常檢測模型,再通過分類算法對數(shù)據(jù)進行分類,進而挖掘出區(qū)分正常行為和入侵行為的規(guī)則。原理與過程圖3所示。
3.4 基于數(shù)據(jù)挖掘的入侵檢測框架
本文所采用的入侵檢測模型框架包括以下幾個部分:數(shù)據(jù)采集預處理、關聯(lián)規(guī)則或序列規(guī)則、誤用檢測、異常檢測等[10]。如圖4所示。
(1)數(shù)據(jù)采集預處理:從網(wǎng)絡中獲取全部的行為記錄,完成數(shù)據(jù)預處理,并生成訓練集。
(2)關聯(lián)規(guī)則或序列規(guī)則:從訓練集中挖掘出關聯(lián)規(guī)則和序列規(guī)則,建立正常行為模式,用于異常檢測入侵行為。
(3)誤用檢測模型:在訓練集上利用分類算法完成分類規(guī)則的建立,以完成誤用檢測功能模型。
(4)異常檢測模型:完成入侵異常行為的檢測,主要有2個功能;一是通過對網(wǎng)絡數(shù)據(jù)的實時檢測,完成數(shù)據(jù)分類,二是通過關聯(lián)規(guī)則和序列模式,研判網(wǎng)絡行為是正常還是入侵。
4? 結語
數(shù)據(jù)挖掘技術能夠?qū)崿F(xiàn)快速自動地探索出滿足大規(guī)模數(shù)據(jù)所需的功能或規(guī)則。因此,可以考慮將數(shù)據(jù)挖掘相關技術應用到大規(guī)模網(wǎng)絡數(shù)據(jù)的監(jiān)測中,從而發(fā)現(xiàn)異常入侵行為。雖然數(shù)據(jù)挖掘技術越來越多地應用于入侵檢測領域,但仍停留在理論探究階段。在網(wǎng)絡數(shù)據(jù)量不斷增大、各種攻擊手段層出不窮的現(xiàn)實情況下,基于數(shù)據(jù)挖掘的入侵檢測技術仍具有廣闊的前景,研究內(nèi)容側(cè)重于進一步提高檢測速度及效率、降低誤報率及漏報率等。
參考文獻
[1] 張芷有.基于數(shù)據(jù)挖掘的入侵檢測方法的研究[D].南京:南京郵電大學,2020.
[2] 郭春.基于數(shù)據(jù)挖掘的網(wǎng)絡入侵檢測關鍵技術研究[D].北京:北京郵電大學,2014.
[3] 古險峰.一種基于數(shù)據(jù)挖掘的網(wǎng)絡入侵檢測系統(tǒng)設計與實現(xiàn)[J].河南科技學院學報:自然科學版,2020,48(6):54-58,67.
[4] 段丹青.入侵檢測算法及關鍵技術研究[D].長沙:中南大學,2007.
[5] 王曼.基于數(shù)據(jù)挖掘的網(wǎng)絡入侵檢測研究[J].信息記錄材料,2020,21(3):175-176.
[6] 李斯.數(shù)據(jù)挖掘技術在入侵檢測系統(tǒng)中的應用[J].科技資訊,2009(27):192.
[7] 趙菲.網(wǎng)絡入侵檢測中數(shù)據(jù)挖掘技術的應用研究[J]. 科技創(chuàng)新與生產(chǎn)力,2020(12):58-60.
[8] 代治國.基于數(shù)據(jù)挖掘的網(wǎng)絡入侵檢測方法的研究[J].科技資訊,2010(7):26.
[9] 劉澤辰.數(shù)據(jù)挖掘技術在網(wǎng)絡入侵檢測中的應用與研究[J].信息記錄材料,2019,20(8):188-189.
[10] 韓洋,鄧一萍,穆穆.基于數(shù)據(jù)挖掘的入侵檢測[J].信息與電腦:理論版,2020,32(2):111-112,115.