尹淑玲 龔鳴敏 李蕾
【 摘 要 】 Web入侵檢測系統(tǒng)對Web訪問進(jìn)行實(shí)時監(jiān)控并能及時發(fā)現(xiàn)針對Web的攻擊行為,能有效地解決Web所面臨的安全問題。因?yàn)閿?shù)據(jù)挖掘技術(shù)能從海量審計數(shù)據(jù)中挖掘出正常和異常行為模式,這不僅大量減少了人工分析和編碼帶來的繁重工作,也提高了入侵檢測系統(tǒng)的適應(yīng)性,因此,近年來在入侵檢測領(lǐng)域大量用到數(shù)據(jù)挖掘技術(shù)。論文介紹了數(shù)據(jù)挖掘技術(shù)及其在Web入侵檢測系統(tǒng)中的應(yīng)用,設(shè)計了基于數(shù)據(jù)挖掘技術(shù)的Web入侵檢測系統(tǒng),能有效地阻止針對Web應(yīng)用的異常入侵。
【 關(guān)鍵詞 】 Web攻擊;Web入侵檢測;數(shù)據(jù)挖掘
【 中圖分類號 】 TP 393.1
【 Abstract 】 Web intrusion detection system can monitor Web access transactions in real-time and detect attacks in time, which can solve the Web security problems effectively. Because data mining technology can mine normal and abnormal behavior model from vast amounts of audit data, not only reducing the heavy work of manual analysis and coding significantly, but also improving the adaptability of intrusion detection system. Data mining technology is used in the field of intrusion detection widely. Data mining technology and its application in the Web intrusion detection are introduced here, and the Web intrusion detection system based on data mining is designed, which can effectively prevent the abnormal intrusion of the Web application.
【 Keywords 】 web attack; web intrusion detection; data mining
1 引言
近年來隨著互聯(lián)網(wǎng)的迅速發(fā)展,基于Web的應(yīng)用日益增多,相應(yīng)地Web網(wǎng)站的安全也面臨著嚴(yán)峻的考驗(yàn),因此提高Web網(wǎng)站的安全性已經(jīng)成為目前研究的熱點(diǎn)之一。在眾多Web安全防護(hù)措施中,基于數(shù)據(jù)挖掘技術(shù)的Web入侵檢測系統(tǒng)比傳統(tǒng)的入侵檢測系統(tǒng)有更多的優(yōu)點(diǎn),在Web安全領(lǐng)域得到了廣泛的應(yīng)用。
本文在分析研究Web應(yīng)用系統(tǒng)行為和大量Web應(yīng)用入侵原理的基礎(chǔ)上,提出了基于數(shù)據(jù)挖掘的入侵檢測系統(tǒng)。
首先對收集到的Web日志數(shù)據(jù)進(jìn)行預(yù)處理,再對Web日志的關(guān)聯(lián)性進(jìn)行分析,最后是根據(jù)入侵行為的特征建立規(guī)則庫,以及規(guī)則庫的自我學(xué)習(xí)和異常數(shù)據(jù)與規(guī)則庫的匹配檢測。
2 Web入侵檢測與數(shù)據(jù)挖掘
Web入侵檢測系統(tǒng)對Web訪問進(jìn)行實(shí)時監(jiān)控,當(dāng)發(fā)現(xiàn)可疑傳輸時就發(fā)出警報或者采取主動應(yīng)對措施,能有效解決Web面臨的威脅。根據(jù)檢測機(jī)制的不同,Web入侵檢測一般分為基于特征的Web入侵檢測和基于異常的Web入侵檢測。目前,基于特征的入侵檢測技術(shù)已經(jīng)發(fā)展得相對成熟,但該檢測方式只能識別已知攻擊,不能檢測未知攻擊,通常情況下誤報率較低但漏報率較高?;诋惓5娜肭謾z測技術(shù)起步較晚,發(fā)展得還不夠成熟,通常情況下漏報率低但誤報率高。
數(shù)據(jù)挖掘是指從大量的、不完全的、有噪聲的、模糊的、隨機(jī)的原始數(shù)據(jù)中提取有價值的知識和模式的過程。在Web入侵檢測領(lǐng)域,數(shù)據(jù)挖掘技術(shù)能夠從大量的Web文檔和活動中挖掘出信息和知識,應(yīng)用數(shù)據(jù)挖掘算法建立起較完備的規(guī)則庫來進(jìn)行異常檢測。隨著網(wǎng)絡(luò)應(yīng)用的發(fā)展以及網(wǎng)絡(luò)審計數(shù)據(jù)信息量的增大,在Web入侵檢測系統(tǒng)中采用數(shù)據(jù)挖掘技術(shù)可以使系統(tǒng)能自動獲取知識、發(fā)現(xiàn)入侵從而解決漏報率和誤報率高等問題。
3 Web入侵檢測中的數(shù)據(jù)挖掘方法
網(wǎng)絡(luò)上攻擊行為隱藏在海量的數(shù)據(jù)之中,因此及時發(fā)現(xiàn)這些攻擊行為是很困難的。在Web入侵檢測系統(tǒng)中,使用數(shù)據(jù)挖掘的方法來自動提取特征并建立檢測模型具有其技術(shù)優(yōu)勢,主要表現(xiàn)在能處理海量數(shù)據(jù)、高檢測率、低誤報率、自適應(yīng)性好。目前,關(guān)聯(lián)規(guī)則挖掘、分類方法、聚類方法和頻繁模式挖掘是常用于Web入侵檢測系統(tǒng)中的數(shù)據(jù)挖掘方法。
3.1 數(shù)據(jù)預(yù)處理和關(guān)聯(lián)性分析
Web日志挖掘的數(shù)據(jù)預(yù)處理過程包括數(shù)據(jù)凈化、用戶識別、會話識別、路徑補(bǔ)充和事物識別這五個階段,它是保證Web日志挖掘質(zhì)量的關(guān)鍵。通過對Web日志數(shù)據(jù)進(jìn)行預(yù)處理,可以將非結(jié)構(gòu)化的訪問記錄轉(zhuǎn)換成結(jié)構(gòu)化的數(shù)據(jù)、清除與挖掘無法的數(shù)據(jù),從而將其轉(zhuǎn)化為用于數(shù)據(jù)挖掘的事物數(shù)據(jù)并存入數(shù)據(jù)庫。
數(shù)據(jù)預(yù)處理之后,就要獲得用戶的上網(wǎng)瀏覽模式,捕捉用戶的行為,從而找出入侵行為的關(guān)聯(lián)性。通過對數(shù)據(jù)庫中的數(shù)據(jù)進(jìn)行頻繁模式挖掘便得到頻繁模式,頻繁模式會被存入頻繁模式數(shù)據(jù)庫。
3.2 Web入侵檢測過程
在進(jìn)行Web入侵檢測時,要將待檢測數(shù)據(jù)與頻繁模式數(shù)據(jù)庫中的模式進(jìn)行比較,然后計算相似度。相似度就是一條待檢測的數(shù)據(jù)與頻繁模式庫中所有模式相比較后所匹配項(xiàng)數(shù)目的最大值。
將日志數(shù)據(jù)與頻繁模式庫中的每一條數(shù)據(jù)進(jìn)行比較,每次比較將得到一個相似度并保存,然后將該相似度與預(yù)先設(shè)定的閾值進(jìn)行比較,閾值包括入侵閾值和正常閾值。 將相似度與入侵閾值進(jìn)行比較,若小于入侵閾值,則該數(shù)據(jù)為正常數(shù)據(jù);若相似度大于入侵閾值,則該數(shù)據(jù)為入侵?jǐn)?shù)據(jù),將其加入到入侵?jǐn)?shù)據(jù)列表中。
4 結(jié)束語
在實(shí)際應(yīng)用中,Web入侵檢測系統(tǒng)在訪問Web日志時會觸發(fā)大量的報警信息,從而容易產(chǎn)生信息遺漏或誤報等問題。提出了基于Web日志數(shù)據(jù)挖掘的入侵檢測系統(tǒng),討論了數(shù)據(jù)挖掘技術(shù)在Web入侵檢測系統(tǒng)中的應(yīng)用,通過對Web日志進(jìn)行關(guān)聯(lián)性挖掘得到頻繁模式,然后通過將數(shù)據(jù)與頻繁模式相比較來對數(shù)據(jù)進(jìn)行異常檢測,如果為異常數(shù)據(jù)存入入侵列表,如果為正常數(shù)據(jù),則將結(jié)果反饋給頻繁模式數(shù)據(jù)庫,網(wǎng)絡(luò)管理員可以通過入侵列表及時阻止入侵行為,保證Web站點(diǎn)和Web數(shù)據(jù)的安全。
參考文獻(xiàn)
[1] 莫樂群,郭庚麒.基于聚類挖掘的入侵檢測方法的研究[J].計算機(jī)應(yīng)用與軟件,2010,27(4):134-136.
[2] 周勇祿,吳海燕,蔣東興.基于統(tǒng)計異常的Web應(yīng)用入侵檢測模型研究[J].計算機(jī)安全,2012,12(5):8-12.
[3] 莫秀良,常暢,王春東.基于活躍熵的Web應(yīng)用入侵檢測模型[J].武漢大學(xué)學(xué)報(理學(xué)版),2014,12(5):543-547.
[4] 戚名鈺,劉銘,傅彥銘.基于PCA 的SVM 網(wǎng)絡(luò)入侵檢測研究[J].信息網(wǎng)絡(luò)安全,2015,(2):15-18.
[5] 汪中才,黎永碧.基于數(shù)據(jù)挖掘的入侵檢測系統(tǒng)研究[J].科技通報,2012,28(8):150-152.
[6] 王杰文,李赫男.Web數(shù)據(jù)挖掘及其應(yīng)用[J].南華大學(xué)學(xué)報(理工版),2004,18(1):32-34.
基金項(xiàng)目:
國家自然科學(xué)基金(41101412)。
作者簡介:
尹淑玲(1978-),女,武昌理工學(xué)院,副教授;主要研究方向和關(guān)注領(lǐng)域:數(shù)據(jù)挖掘、計算機(jī)網(wǎng)絡(luò)安全。