摘 要: 利用PE文件剖析器、00A規(guī)則生成器、可疑文件掃描器按照主動防御系統(tǒng)原理,生成了基于數(shù)據(jù)挖掘技術(shù)的DMAV病毒主動防御系統(tǒng)。通過對比不同殺毒軟件的變形病毒、未知病毒檢測效果,發(fā)現(xiàn)新設(shè)計的DMAV病毒主動防御系統(tǒng)較其他殺毒軟件殺毒范圍更廣、效率更高。
關(guān)鍵詞: 數(shù)據(jù)挖掘; 網(wǎng)絡(luò)病毒; 變形病毒; 防御系統(tǒng)
中圖分類號: TN915.08?34 文獻(xiàn)標(biāo)識碼: A 文章編號: 1004?373X(2016)21?0120?03
Exploration of data mining technology based virus defense technology
for computer network
YU Li
(Department of Information Security Engineering, Xinjiang Police College, Urumchi 830011, China)
Abstract: According to the principle of active defense system, the PE file parser, 00A rule generator and suspicious file scanner are used to generate the DMAV virus active defense system based on data mining technology. By comparing the detection effects of different antivirus softwares dealing with deformation virus and unknown virus, it is found the new designed DMAV active virus defense system has wider antivirus scope and higher efficiency than those of other antivirus softwares.
Keywords: data mining; network virus; deformation virus; defense system
1 數(shù)據(jù)挖掘技術(shù)
1.1 數(shù)據(jù)挖掘概述
描述和預(yù)測是數(shù)據(jù)挖掘的兩大主要任務(wù)。基于對這兩大任務(wù)的不同角度理解,可以演變出不同的含義。其中,相關(guān)定義、分類和功能如表1所示。
1.2 數(shù)據(jù)挖掘過程及方法
數(shù)據(jù)挖掘主要經(jīng)過以下幾個環(huán)節(jié)進(jìn)行操作:數(shù)據(jù)收集→數(shù)據(jù)預(yù)處理和數(shù)據(jù)清洗→數(shù)據(jù)挖掘→模型建立→模型評價。
其中,數(shù)據(jù)收集和數(shù)據(jù)預(yù)處理、數(shù)據(jù)清洗被劃分為數(shù)據(jù)準(zhǔn)備階段,這一階段的主要目的是收集相關(guān)價值信息并進(jìn)行數(shù)據(jù)編碼。數(shù)據(jù)挖掘階段主要利用機(jī)器學(xué)習(xí)法、數(shù)據(jù)庫法、統(tǒng)計學(xué)法、神經(jīng)網(wǎng)絡(luò)法等相關(guān)挖掘方法,通過不同的算法獲得準(zhǔn)確度較高的預(yù)測模型。模型建立和模型評價被劃分為分析結(jié)果顯示階段,這一階段主要是根據(jù)不同用戶的需求剔除冗余信息,并反復(fù)采用新的挖掘算法進(jìn)行數(shù)據(jù)優(yōu)化和信息反饋。
1.3 數(shù)據(jù)挖掘應(yīng)用及發(fā)展趨勢
數(shù)據(jù)挖掘技術(shù)在不同的行業(yè)領(lǐng)域均有較大發(fā)展。當(dāng)前應(yīng)用較為廣泛的主要是制造業(yè)、通信業(yè)、財務(wù)金融保險業(yè)、銷售業(yè)等領(lǐng)域。此外在網(wǎng)絡(luò)安全領(lǐng)域,數(shù)據(jù)挖掘技術(shù)由于其具備的高效性、準(zhǔn)確性、可預(yù)見性等眾多優(yōu)點(diǎn),在海量數(shù)據(jù)分析、病毒檢測、信息提取及預(yù)測等方面也有廣泛應(yīng)用。
雖然數(shù)據(jù)挖掘在不同領(lǐng)域均有廣泛應(yīng)用,但在應(yīng)用過程中也存在以下幾方面的問題:數(shù)據(jù)源形式多樣和數(shù)據(jù)缺失問題;網(wǎng)絡(luò)和分布式環(huán)境數(shù)據(jù)挖掘問題;海量數(shù)據(jù)挖掘問題;數(shù)據(jù)挖掘系統(tǒng)交互性問題;數(shù)據(jù)挖掘算法可伸縮性和效率問題;數(shù)據(jù)表示和知識積累問題。這些問題都迫使數(shù)據(jù)挖掘技術(shù)需要進(jìn)行更高層次的改進(jìn)和發(fā)展。
2 病毒防御技術(shù)
2.1 病毒分類及特點(diǎn)
計算機(jī)病毒是指可以毀壞計算機(jī)相關(guān)程序、功能、數(shù)據(jù)文件,并影響計算機(jī)正常使用的一組程序代碼或數(shù)據(jù)指令。根據(jù)相關(guān)病毒的傳播繁衍方式的不同,當(dāng)前的計算機(jī)病毒主要可分為惡意軟件病毒、蠕蟲、后門、間諜軟件、特洛伊木馬等病毒,其中后門是計算機(jī)安全領(lǐng)域最常見的病毒形式。
這些病毒常見的攻擊方式有:復(fù)雜海量數(shù)據(jù)、進(jìn)行進(jìn)程枚舉、盜取機(jī)密信息并獲取相關(guān)權(quán)限、清除數(shù)據(jù)文件并下載垃圾文件、感染其他關(guān)聯(lián)系統(tǒng)及計算機(jī)。不論何種病毒、何種攻擊,都具有隱蔽性、潛伏性、不可預(yù)見性、感染性、破壞性、非授權(quán)性等特點(diǎn)。
2.2 病毒的發(fā)展歷程
病毒從產(chǎn)生到現(xiàn)在,主要經(jīng)歷了加密病毒、單變形病毒、準(zhǔn)變形病毒、全變形病毒四個階段。其中,不同階段病毒的特點(diǎn)如表2所示。
2.3 現(xiàn)階段病毒常用的變形技術(shù)及防治
加密、程序演化、重定位是現(xiàn)階段病毒常用的三種變形技術(shù)。加密技術(shù)主要是可以為病毒隱藏和抗分析提供相對安全的區(qū)域,以防止病毒分析軟件檢測分析。程序演化技術(shù)主要是通過等價指令交換、等價指令序列替換、指令重排序、增加和刪除指令、插入垃圾指令等方法演化出各種各樣的變異程序。
與病毒變形技術(shù)相對應(yīng)的就是病毒檢測防治技術(shù)。當(dāng)前反毒軟件主要采用的技術(shù)有特征碼檢測技術(shù)、虛擬機(jī)技術(shù)、主動內(nèi)核技術(shù)、啟發(fā)式查毒技術(shù)、行為查殺病毒技術(shù)。其中,特征碼檢測技術(shù)是通過提取病毒特征碼進(jìn)行檢測;虛擬機(jī)技術(shù)是采用虛擬環(huán)境執(zhí)行程序命令進(jìn)行檢測;主動內(nèi)核技術(shù)是主動將防毒系統(tǒng)嵌入到操作系統(tǒng)內(nèi)核進(jìn)行主動防御;啟發(fā)式查毒技術(shù)是通過查找病毒指令集數(shù)據(jù)庫進(jìn)行檢測;行為查殺病毒技術(shù)利用一定的行為規(guī)則進(jìn)行病毒判斷。
3 基于數(shù)據(jù)挖掘技術(shù)的病毒主動防御系統(tǒng)DMAV
的設(shè)計和實現(xiàn)
3.1 DMAV系統(tǒng)的體系結(jié)構(gòu)
本文開發(fā)的DMAV病毒主動防御系統(tǒng)原理為: 將可疑的PE文件壓縮或加殼,之后將剖析后的數(shù)據(jù)文件導(dǎo)入到Win API函數(shù)中;API查詢數(shù)據(jù)庫對收集到的特征數(shù)據(jù)進(jìn)行優(yōu)化,同時結(jié)合00A數(shù)據(jù)挖掘算法形成關(guān)聯(lián)規(guī)則;可疑文件掃描器利用規(guī)則庫對Win API函數(shù)進(jìn)行對比分析;滿足任意規(guī)范就是病毒,否則是安全文件。DMAV系統(tǒng)體系結(jié)構(gòu)圖如圖1所示。
從圖1中可以看出,PE文件剖析器、00A規(guī)則生成器、可疑文件掃描器是構(gòu)成該結(jié)構(gòu)的三大主要模塊。其中,PE文件剖析器的功能是提取、導(dǎo)出、匯編Win API函數(shù)序列;00A規(guī)則生成器利用不同數(shù)據(jù)挖掘算法進(jìn)行關(guān)聯(lián)規(guī)則挖掘;可疑文件掃描器的功能是進(jìn)行可疑文件掃描。
3.2 PE文件剖析器
PE病毒是當(dāng)前計算機(jī)安全領(lǐng)域中最為常見,也是數(shù)量最多、影響最大的病毒類型,因此本文主要對PE病毒進(jìn)行分析。PE是Win32環(huán)境中自帶的可執(zhí)行文件格式,它可以在任何Win32平臺中運(yùn)行和識別。PE文件是通過檢查并運(yùn)行DOS MZ header的偏移量、PE header的有效性、節(jié)表、Import Table邏輯部分進(jìn)行計算機(jī)裝載的。
為了實現(xiàn)PE文件解剖器的相關(guān)功能,需采取如下步驟進(jìn)行操作:檢驗PE文件的有效性;定位PE header;獲取數(shù)據(jù)文件目錄地址,并提取當(dāng)中的VirtualAddress值;定位IMAGE結(jié)構(gòu),檢查Original First Thunk值;判斷是否為0,判斷每個數(shù)組元素的元素值;遍歷DLL引入函數(shù),反復(fù)循環(huán)計算直到數(shù)組底部。相關(guān)調(diào)閱命令如圖2所示。
3.3 00A規(guī)則生成器
00A規(guī)則生成器需要通過Apriori算法才能實現(xiàn)相關(guān)功能,具體步驟為:通過Apriori算法計算出00A頻繁集;判斷00A頻繁集,如果oc% 本文采用00A?FP?growh算法代替00A?Apriori算法進(jìn)行數(shù)據(jù)庫掃描,提高了規(guī)則生成器的運(yùn)行效率,降低了運(yùn)行空間。其中對00A?FP?growh算法的描述如下:使用FP樹挖掘頻繁模式;將數(shù)據(jù)表SignatureDT輸入到特征數(shù)據(jù)庫DMAV?DB中;輸出頻繁模式完全集;構(gòu)造FP?數(shù),并進(jìn)行數(shù)據(jù)挖掘。其中,00A?FP?growh算法、00A?Apriori算法、00A?DMAV?FPgrowh算法的規(guī)則生成器效率對比如表3所示。 4 實驗結(jié)果及分析 本文對5 611個樣本訓(xùn)練集和1 500個樣本測試集進(jìn)行實驗分析。其中,訓(xùn)練集中的病毒主要有木馬病毒、后門病毒、蠕蟲病毒等互聯(lián)網(wǎng)常見病毒。 4.1 變形病毒的檢測及結(jié)果分析 通過DMAV病毒檢測系統(tǒng)對病毒樣本進(jìn)行了掃描檢測,得到了變形病毒的檢測結(jié)果,如表4所示。通過表中的檢測結(jié)果可以看出,DMAV病毒檢測系統(tǒng)對變形病毒具有較高精度的檢測效果。 4.2 未知病毒的檢測及結(jié)果分析 對未知病毒的檢測分析,本文采用DMAV系統(tǒng)和其他病毒掃描軟件進(jìn)行對比分析,病毒樣本加入了全新的1 000個特征病毒,檢測結(jié)果如表5所示。通過對比分析可以發(fā)現(xiàn),利用00A挖掘算法開發(fā)的DMAV病毒檢測系統(tǒng)對未知病毒的防御能力較其他殺毒軟件有明顯的優(yōu)勢,病毒檢測的準(zhǔn)確度和檢測效率都有明顯提高。其中,DMAV病毒檢測系統(tǒng)的殺毒范圍達(dá)到了92%,較其他殺毒軟件提高20%左右。 5 結(jié) 論 本文首先簡要介紹了數(shù)據(jù)挖掘的定義、分類、功能及發(fā)展應(yīng)用趨勢,其中數(shù)據(jù)挖掘的操作過程為:數(shù)據(jù)收集→數(shù)據(jù)預(yù)處理和數(shù)據(jù)清洗→數(shù)據(jù)挖掘→模型建立→模型評價。其次簡要介紹了病毒的種類、特點(diǎn)和常見攻擊方式,并對病毒產(chǎn)生的四個階段的攻擊方法和特點(diǎn)進(jìn)行了分析,同時介紹了加密、程序演化、重定位三種常見的病毒變形技術(shù)。在此基礎(chǔ)上,本文利用PE文件剖析器、00A規(guī)則生成器、可疑文件掃描器按照主動防御系統(tǒng)原理,生成了基于數(shù)據(jù)挖掘技術(shù)的DMAV病毒主動防御系統(tǒng)。通過對比不同殺毒軟件的變形病毒、未知病毒檢測效果,發(fā)現(xiàn)新設(shè)計的DMAV病毒主動防御系統(tǒng)較其他殺毒軟件殺毒范圍更廣、效率更高。 參考文獻(xiàn) [1] 梁雪霆.數(shù)據(jù)挖掘技術(shù)的計算機(jī)網(wǎng)絡(luò)病毒防御技術(shù)研究[J].科技經(jīng)濟(jì)市場,2016(1):25. [2] 陳春.基于數(shù)據(jù)挖掘技術(shù)的計算機(jī)網(wǎng)絡(luò)病毒防御分析[J].信息通信,2015(5):121?122. [3] 黃偉杰.基于主動貝葉斯分類器檢測未知惡意可執(zhí)行代碼的研究與實現(xiàn)[D].桂林:廣西師范大學(xué),2002. [4] 黃小霞.電廠信息網(wǎng)絡(luò)安全分析[D].西安:西安理工大學(xué),2003. [5] 王麗蘋.自適應(yīng)的分布式網(wǎng)絡(luò)入侵檢測及防御系統(tǒng)的研究與實現(xiàn)[D].西安:西北大學(xué),2004. [6] 王莉娜.分布式蠕蟲檢測與主動防御系統(tǒng)的研究與實現(xiàn)[D].西安:西北大學(xué),2005. [7] 潘鳳.基于數(shù)據(jù)挖掘技術(shù)的安全事件分析平臺的研究與設(shè)計[D].成都:成都理工大學(xué),2009. [8] 李智勇.數(shù)據(jù)挖掘在計算機(jī)網(wǎng)絡(luò)病毒防御中的應(yīng)用探究[J].電子測試,2014(12):46?48. [9] 張錚.基于貝葉斯分類的入侵檢測規(guī)則學(xué)習(xí)模型的研究與實現(xiàn)[D].南京:南京航空航天大學(xué),2007. [10] 符廣全.基于Honeyfarm的蠕蟲主動防御系統(tǒng)的研究與實現(xiàn)[D].蘇州:蘇州大學(xué),2006. [11] 王旭.基于增量式關(guān)聯(lián)規(guī)則挖掘算法的研究及其在手機(jī)病毒檢測中的應(yīng)用[D].北京:北京郵電大學(xué),2013. [12] 謝方方.基于距離的孤立點(diǎn)挖掘在計算機(jī)取證中的應(yīng)用研究[D].濟(jì)南:山東師范大學(xué),2014. [13] 劉志祥.網(wǎng)絡(luò)環(huán)境下計算機(jī)病毒的檢測與防御技術(shù)研究[D].武漢:華中科技大學(xué),2009.