• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      一種雙向采樣的惡意PDF文檔檢測(cè)方法

      2022-05-26 08:56:16楊淑群張新宇
      軟件導(dǎo)刊 2022年5期
      關(guān)鍵詞:類別分類器文檔

      李 睿,楊淑群,張新宇

      (上海工程技術(shù)大學(xué)電子電氣工程學(xué)院,上海 201620)

      0 引言

      在網(wǎng)絡(luò)信息傳遞過(guò)程中,便攜式文檔格式(Portable Document Format,PDF)文檔作為一種十分方便的跨平臺(tái)文檔交換文件格式,成為當(dāng)今最通用的文檔格式之一,這也使得PDF 文檔成為攻擊者的重點(diǎn)對(duì)象[1]。惡意PDF 文檔在針對(duì)性攻擊傳播中,經(jīng)常和高級(jí)持續(xù)性威脅(Advanced Persistent Threat,APT)攻擊相結(jié)合[2],普遍采用惡意郵件的形式,通過(guò)在郵件中添加惡意附件或鏈接,選取特定的企業(yè)或機(jī)構(gòu)組織,利用漏洞對(duì)目標(biāo)系統(tǒng)進(jìn)行攻擊,以竊取商業(yè)機(jī)密等有價(jià)值的信息[3]。而針對(duì)PDF 文檔的惡意性檢測(cè)往往基于理想的均衡數(shù)據(jù)集進(jìn)行研究。現(xiàn)實(shí)世界中,惡意PDF 文檔數(shù)量遠(yuǎn)少于良性文檔。因此,研究樣本分類不均衡下的惡意PDF 文檔惡意性檢測(cè)具有現(xiàn)實(shí)意義。

      1 相關(guān)工作

      惡意PDF 文檔檢測(cè)早期采用靜態(tài)的分析方法[4]。Laskow 等[5]提出PJScan 檢測(cè)模型,通過(guò)提取惡意文檔樣本中的JavaScript 代碼進(jìn)行詞法分析,利用單一類別支持向量機(jī)OCSVM 對(duì)未知文檔樣本進(jìn)行分類,但該方法無(wú)法對(duì)代碼本身做具體分析;Dabral 等[6]通過(guò)靜態(tài)解析提取文檔結(jié)構(gòu)特征和JavaScript 特征,并對(duì)分類器進(jìn)行組合來(lái)提高分類器的健壯性;李濤[7]通過(guò)靜態(tài)分析提取JavaScript 特征,并利用OCSVM 算法對(duì)文檔進(jìn)行檢測(cè)。動(dòng)態(tài)分析檢測(cè)中較經(jīng)典的有Willems 等[8]提出的CWsandbox 動(dòng)態(tài)分析方法,它是在沙盒環(huán)境中加載Adobe Reader 并執(zhí)行PDF 文檔,通過(guò)觀察其系統(tǒng)調(diào)用和系統(tǒng)狀態(tài)等行為信息來(lái)判斷該文檔是否為惡意文檔;Snow 等[9]提出的ShellOS 系統(tǒng)則是基于ShellCode 進(jìn)行檢測(cè),通過(guò)直接執(zhí)行來(lái)檢測(cè)緩沖區(qū)的Shell-Code。動(dòng)靜結(jié)合分析的檢測(cè)模式利用了靜態(tài)分析的高效率和動(dòng)態(tài)分析的高準(zhǔn)確度。杜學(xué)繪等[10]結(jié)合動(dòng)靜態(tài)分析提取常規(guī)信息、結(jié)構(gòu)信息及API 調(diào)用信息對(duì)文檔進(jìn)行分類檢測(cè);李國(guó)等[11]結(jié)合文檔結(jié)構(gòu)和JavaScript 特征,在提取特征前加入信息熵差異檢測(cè)步驟篩選可疑文檔,對(duì)檢測(cè)時(shí)間進(jìn)行優(yōu)化。

      對(duì)近年的技術(shù)發(fā)展進(jìn)行分析發(fā)現(xiàn)[12],基于機(jī)器學(xué)習(xí)的靜態(tài)分析,無(wú)法檢測(cè)經(jīng)過(guò)混淆等技術(shù)手段處理過(guò)的文檔,容易被繞過(guò)[13],從而使檢測(cè)率降低;動(dòng)態(tài)分析[14]的檢測(cè)方法需要執(zhí)行文件,檢測(cè)開銷大,會(huì)占用更多資源;動(dòng)靜結(jié)合分析[15]技術(shù)容易忽略元數(shù)據(jù)等特征,更關(guān)注PDF 文檔的JavaScript 代碼特征[16],對(duì)于沒有內(nèi)嵌JavaScript 代碼的PDF 文檔存在漏檢問(wèn)題。現(xiàn)有的檢測(cè)技術(shù)主要集中在平衡數(shù)據(jù)集上[17],但這樣的數(shù)據(jù)集不能代表真實(shí)世界的數(shù)據(jù),且現(xiàn)有檢測(cè)技術(shù)健壯性較差。因此,本文對(duì)不均衡樣本數(shù)據(jù)集進(jìn)行處理,改進(jìn)BSMOTE 算法,利用近鄰樣本合成過(guò)渡間接樣本,再利用過(guò)渡樣本和原始樣本合成新的數(shù)據(jù)樣本,利用K-Means 聚類算法,對(duì)良性PDF 樣本進(jìn)行聚類欠采樣操作,將過(guò)采樣和欠采樣進(jìn)行結(jié)合,利用雙向采樣法對(duì)樣本進(jìn)行預(yù)處理,使樣本數(shù)據(jù)集趨于平衡。通過(guò)靜態(tài)分析提取內(nèi)容及結(jié)構(gòu)特征,并動(dòng)態(tài)提取文檔執(zhí)行應(yīng)用程序接口(Application Programming Interface,API)特征,最后采用隨機(jī)森林方法進(jìn)行檢測(cè)分類。實(shí)驗(yàn)表明本文采用的方法檢測(cè)效果較好,各評(píng)價(jià)指標(biāo)都有提升。

      2 基于雙向采樣的惡意PDF文檔檢測(cè)

      針對(duì)PDF 文件分類數(shù)量不均衡問(wèn)題,采用過(guò)采樣和欠采樣相結(jié)合的方法,對(duì)PDF 文件樣本數(shù)據(jù)進(jìn)行預(yù)處理,使樣本數(shù)目處于相對(duì)均衡的理想狀態(tài),進(jìn)而訓(xùn)練分類模型。

      2.1 改進(jìn)BSMOTE的PDF文檔樣本過(guò)采樣方法

      人工合成少數(shù)類別過(guò)采樣技術(shù)SMOTE(Synthetic Minority Oversampling Technique),是在樣本輸入空間中利用少數(shù)類別的樣本去尋找近鄰樣本,并利用信息人工合成新樣本[18]。

      對(duì)于給定的數(shù)據(jù)集{(x1,y1),(x2,y2),...,(xn,yn)},yi∈{+1,-1},i=1,2,…,n,假設(shè)數(shù)據(jù)集中少數(shù)類別樣本集記為Xa,在輸入的樣本空間中,對(duì)于任意一個(gè)少數(shù)類別樣本xai尋找其k 近鄰樣本點(diǎn)。假設(shè)樣本xai擁有的所有屬性為rij,j=1,2,…,s,在其k 個(gè)近鄰樣本里,對(duì)每個(gè)屬性j 都隨機(jī)擇取一個(gè)樣本針對(duì)初始樣本xai和擇取的樣本在屬性j 上的差,利用[0,1]的隨機(jī)數(shù)進(jìn)行權(quán)重配比,再加上初始樣本xai在屬性j 上的值,即合成為新樣本在屬性j 上的值,如公式(1)所示。

      SMOTE 算法線性生成新樣本的插值示意圖見圖1。在生成新樣本時(shí),SMOTE 方法很容易導(dǎo)致生成的新少數(shù)類別樣本包圍在多數(shù)類別樣本中,容易形成噪聲樣本點(diǎn),不利于分類邊界確定,造成干擾,如圖2 所示。圖2 中,虛線表示分類界面,黑色圓點(diǎn)代表少數(shù)類別樣本點(diǎn),白色圓點(diǎn)代表多數(shù)類別樣本點(diǎn)。在進(jìn)行SMOTE 方法合成新樣本點(diǎn)時(shí),多數(shù)類別樣本點(diǎn)包圍個(gè)別少數(shù)類別樣本點(diǎn),生成的新樣本即圖中的黑三角點(diǎn),仍位于多數(shù)類別樣本點(diǎn)的包圍中,這樣就會(huì)對(duì)分類造成干擾。

      BSMOTE(Borderline SMOTE)算法[19]對(duì)SMOTE 算法進(jìn)一步改進(jìn),通過(guò)靠近分類邊界的少數(shù)類別樣本進(jìn)行新樣本合成。

      Fig.1 SMOTE algorithm interpolation generates new sample圖1 SMOTE算法插值生成新樣本

      Fig.2 SMOTE algorithm generates interference samples圖2 SMOTE算法生成干擾樣本

      設(shè)給定的樣本訓(xùn)練集為X,其中,少數(shù)類別樣本集記為Xa,樣本數(shù)量為a,多數(shù)類別樣本集記為Xb,樣本數(shù)量為b。

      首先,針對(duì)少數(shù)類樣本集Xa中的每一個(gè)樣本點(diǎn)Xai,i=1,2,…,a,在整個(gè)訓(xùn)練集X 中尋找k 近鄰樣本點(diǎn)。在k 近鄰樣本點(diǎn)中,多數(shù)類別的樣本點(diǎn)集標(biāo)記為Xk′,數(shù)量記為k′個(gè),0 ≤k≤k′。

      然后,對(duì)k′的大小進(jìn)行分析,確定樣本點(diǎn)Xai的情況。若k′=k,即樣本點(diǎn)Xai的k 近鄰樣本全都是多數(shù)類別樣本點(diǎn),則該樣本點(diǎn)為噪聲點(diǎn),可以忽略;若,即k 近鄰樣本點(diǎn)中多數(shù)類樣本點(diǎn)大于少數(shù)類樣本點(diǎn),則樣本點(diǎn)Xai容易被誤分,屬于預(yù)定的危險(xiǎn)樣本集;若,即k 近鄰樣本點(diǎn)中的多數(shù)類樣本點(diǎn)小于少數(shù)類樣本點(diǎn),則Xai屬于預(yù)定的安全樣本集,可忽略。

      接著,得出危險(xiǎn)樣本集樣本點(diǎn),即是少數(shù)類別樣本集Xa中處于分類邊界的樣本點(diǎn)。對(duì)于危險(xiǎn)樣本集中的每個(gè)樣本,隨機(jī)選擇某個(gè)樣本點(diǎn)計(jì)算其k 近鄰樣本點(diǎn),按照SMOTE 方法即式(1)合成新樣本點(diǎn),根據(jù)危險(xiǎn)樣本集不斷重復(fù)合成新樣本點(diǎn),直到樣本數(shù)量滿足為止。

      BSMOTE 方法生成新樣本時(shí),在危險(xiǎn)樣本集中隨機(jī)挑選任意少數(shù)類別樣本點(diǎn),在該樣本點(diǎn)及其近鄰的樣本點(diǎn)之間進(jìn)行取值。新樣本點(diǎn)處于兩點(diǎn)連線上,這樣容易造成新樣本點(diǎn)的位置隨機(jī)性很大,呈不均勻分布。

      針對(duì)上述問(wèn)題,改進(jìn)BSMOTE 方法。為了使新樣本點(diǎn)能更均勻地分布,引入間接新樣本進(jìn)行二次樣本生成,得到帶有間接新樣本的BSMOTE 方法(BSMOTE With Transition New Samples,TBSMOTE)。對(duì)危險(xiǎn)樣本集中的任一少數(shù)類別樣本,設(shè)其k 近鄰樣本點(diǎn)集為Xdi,s,s=1,2,...,k。在對(duì)k 近鄰樣本進(jìn)行隨機(jī)挑選生成新樣本時(shí),引入間接新樣本,根據(jù)k 近鄰樣本中任意兩樣本合成為間接新樣本,進(jìn)而對(duì)間接新樣本和原始樣本點(diǎn)進(jìn)行合成操作,從而達(dá)到理想的合成新樣本均勻分布的效果。如圖3 所示,圖中圓點(diǎn)代表少數(shù)類別樣本,方塊點(diǎn)代表生成的間接新樣本,三角點(diǎn)代表最終生成的新樣本點(diǎn)。引入間接新樣本的方法如下:

      假設(shè)選取k 近鄰樣本點(diǎn)中的兩個(gè)樣本點(diǎn)xdi,1、xdi,2,計(jì)算二者生成的間接新樣本x1,2′,計(jì)算過(guò)程與SMOTE 方法同理。隨后,通過(guò)間接新樣本x1,2′和危險(xiǎn)樣本集中的原始樣本點(diǎn)xdan,ai進(jìn)行新樣本合成,最終得到對(duì)應(yīng)新樣本點(diǎn)xdan,ai′。

      Fig.3 TBSMOTE algorithm generates a new sample圖3 TBSMOTE生成新樣本點(diǎn)

      2.2 基于K-means的PDF文檔樣本欠采樣方法

      PDF 文檔樣本數(shù)據(jù)集的正負(fù)類別數(shù)量相差懸殊,針對(duì)樣本訓(xùn)練集單純采取過(guò)采樣來(lái)增加少數(shù)類別樣本,能夠使樣本數(shù)目達(dá)到均衡狀態(tài),但是對(duì)于分類器的性能改善效果不顯著,容易形成過(guò)擬合問(wèn)題。對(duì)數(shù)據(jù)集過(guò)采樣的同時(shí)進(jìn)行欠采樣操作,能夠改善上述問(wèn)題,兩種采樣方法進(jìn)行結(jié)合比單純使用過(guò)采樣或欠采樣更能在分類上提升訓(xùn)練模型性能。

      在過(guò)采樣操作上結(jié)合欠采樣操作。在欠采樣中,隨機(jī)欠采樣是最為常見的方式,然而隨機(jī)欠采樣由于太過(guò)隨機(jī),難以顧及到樣本的分布。受采樣率影響,更易關(guān)注樣本集中的高密度部分,導(dǎo)致關(guān)鍵點(diǎn)被刪除而丟失關(guān)鍵信息。本文對(duì)多數(shù)類別的樣本先進(jìn)行聚類操作,再根據(jù)采樣率對(duì)聚類后的每一個(gè)聚類簇樣本進(jìn)行欠采樣,從而解決上述分布不均勻問(wèn)題。

      K-means 聚類算法原理簡(jiǎn)單,便于理解和操作,擁有良好的延伸性?;贙-means 聚類方法,對(duì)PDF 樣本采取聚類欠采樣操作。先對(duì)PDF 樣本數(shù)據(jù)采取聚類操作,隨后按比例對(duì)每個(gè)聚類簇中的樣本采取欠采樣,具體步驟如下:

      輸入:原始多數(shù)類別PDF 樣本數(shù)據(jù)集Xb,欠采樣率N

      輸出:欠采樣后的新的多數(shù)類別PDF 文檔樣本數(shù)據(jù)集

      (1)對(duì)原始多數(shù)類別PDF 樣本數(shù)據(jù)集進(jìn)行K-means 聚類,劃分成K 個(gè)聚類簇。

      (2)對(duì)每個(gè)聚類簇Ck,樣本數(shù)量為s,根據(jù)欠采樣率N計(jì)算每個(gè)聚類簇Ck的欠采樣數(shù)量s×N,欠采樣數(shù)量采取向上取整。

      (3)根據(jù)每個(gè)聚類簇計(jì)算出的欠采樣數(shù)目,對(duì)每個(gè)聚類簇分別隨機(jī)抽取相應(yīng)數(shù)目的樣本,直到所有聚類簇完成欠采樣。

      根據(jù)上述過(guò)采樣和欠采樣方法,本文改進(jìn)BSMOTE 過(guò)采樣,融合K-means 欠采樣,提出一種KM-TBSMOTE 雙向采樣方法,流程如圖4 所示。首先采用TBSMOTE 算法對(duì)少數(shù)類別PDF 樣本過(guò)采樣,增加少數(shù)類別樣本數(shù)量;然后基于K-means 算法,對(duì)多數(shù)類別PDF 樣本欠采樣,剔除部分多數(shù)類別樣本,最終達(dá)到樣本分類數(shù)目均衡的狀態(tài)。

      Fig.4 Flow of KM-TBSMOTE bi-directional sampling method圖4 KM-TBSMOTE雙向采樣法流程

      2.3 特征提取與選擇

      本文使用開源PdfParser 解析工具對(duì)PDF 文檔樣本進(jìn)行解析,該工具可查看PDF 文檔的所有對(duì)象和數(shù)據(jù)流的詳細(xì)信息。

      利用解析工具解析PDF 文檔,對(duì)PDF 文檔作兼容性分析,剔除不兼容的PDF 文檔,保證樣本的可用性。通過(guò)對(duì)PDF 文檔結(jié)構(gòu)的研究,對(duì)PDF 文檔進(jìn)行解析處理,結(jié)合現(xiàn)有的惡意PDF 文檔的特征研究,選取靜態(tài)解析的基本特征,提取的部分特征和代表的含義如表1 所示。其中,“/ObjStm”可包含“/URI”等調(diào)用,一般常出現(xiàn)在惡意文檔中;“/Submit Form”“/URI”關(guān)鍵字,惡意文檔通過(guò)此類Action 轉(zhuǎn)入惡意執(zhí)行入口。除此之外,還要考慮文件的大小和版本,以及文檔中Object 的數(shù)量,這些特征和文檔惡意性有不同程度的關(guān)聯(lián),特征間組合起來(lái)能對(duì)一個(gè)文檔的整體情況作出大概的描述。通過(guò)對(duì)大量文檔進(jìn)行解析,可以得出惡意PDF 文件大小與良性文件相比普遍較小的結(jié)論,這是因?yàn)閻阂獾腜DF 文檔通常不包含有意義的文本和圖像等信息,而不同版本的漏洞存在區(qū)別,且攻擊者會(huì)在版本號(hào)字段做手腳,利用閱讀器漏洞攻擊用戶。攻擊者通常在對(duì)象和交叉引用表里對(duì)惡意內(nèi)容進(jìn)行隱藏,而JavaScript 代碼和一些特殊函數(shù)常進(jìn)行混淆等惡意操作。

      Table 1 Some features and details表1 部分特征及詳情

      上述特征單獨(dú)使用并不能完整地描述一個(gè)文件的惡意性,但是組合成特征向量能對(duì)文件進(jìn)行概括。惡意PDF文件往往內(nèi)嵌代碼并采用混淆和隱藏等手段,而單獨(dú)進(jìn)行靜態(tài)分析提取特征并檢測(cè)容易導(dǎo)致惡意文件繞過(guò)檢測(cè),在惡意代碼的定位和反混淆處理上存在局限性。因此,本文采取動(dòng)態(tài)分析方法,在PDF 文件運(yùn)行過(guò)程中提取API 調(diào)用特征進(jìn)行分析,以此來(lái)完善特征的多樣性和頑健性。針對(duì)內(nèi)嵌JavaScript 代碼的文檔,利用GoogleV8 引擎對(duì)文檔中的JavaScript 代碼進(jìn)行動(dòng)態(tài)執(zhí)行和分析。GoogleV8 可以獨(dú)立運(yùn)行,在執(zhí)行JavaScript 代碼前將其編譯成原生機(jī)器碼,且采用了內(nèi)聯(lián)緩存方法,性能更好。通過(guò)提取JavaScript代碼在執(zhí)行過(guò)程中的API 調(diào)用信息來(lái)刻畫惡意PDF 文件的動(dòng)態(tài)分析特征,如“getAnnots()”“getIcon()”“newPlayer()”“customDictionaryOpen()”等典型API 函數(shù)在解析過(guò)程中通常觸發(fā)緩沖區(qū)溢出,從而執(zhí)行任意代碼。

      2.4 分類檢測(cè)算法

      對(duì)于檢測(cè)問(wèn)題,在挑選合適的機(jī)器學(xué)習(xí)分類算法時(shí),選擇不同的分類算法預(yù)測(cè)出的結(jié)果是不穩(wěn)定的,會(huì)存在一定程度上的誤差。而使用集成學(xué)習(xí)方法,則可以將分類器進(jìn)行組合,得到更好的效果。因此,本文采用隨機(jī)森林(Random Forest,RF)算法[20]對(duì)雙向采樣后的數(shù)據(jù)集進(jìn)行檢測(cè)模型訓(xùn)練,RF 算法利用集成學(xué)習(xí)的思想,在單獨(dú)決策樹基礎(chǔ)上,通過(guò)構(gòu)建Bagging(Bootstrap Aggregating)集成進(jìn)而擴(kuò)展,是一種基于隨機(jī)向量的組合分類算法。RF 算法以決策樹作為基分類器,利用Bagging 方法進(jìn)行集成,并在構(gòu)造單個(gè)決策樹的過(guò)程中引入隨機(jī)屬性篩選進(jìn)行節(jié)點(diǎn)屬性分割。

      3 實(shí)驗(yàn)結(jié)果與分析

      本文實(shí)驗(yàn)環(huán)境如下:硬件環(huán)境采用英特爾C621 服務(wù)器專用芯片組CPU,內(nèi)存為64G,操作系統(tǒng)為Windows10,編譯環(huán)境為python3.7。實(shí)驗(yàn)通過(guò)Contagio 公共數(shù)據(jù)庫(kù)中收集到的訓(xùn)練樣本,共計(jì)10 900 個(gè),其中惡意PDF 文件樣本1 090 個(gè),正常良性PDF 文件樣本9 810 個(gè),正常良性文件樣本與惡意樣本數(shù)量比例為9:1。將得到的特征數(shù)據(jù)進(jìn)行標(biāo)準(zhǔn)化處理,轉(zhuǎn)化為47 維特征向量,對(duì)于KNN 算法進(jìn)行參數(shù)調(diào)優(yōu),選取KNN 近鄰樣本點(diǎn)個(gè)數(shù)參數(shù)為5。

      對(duì)于分類不均衡的數(shù)據(jù)集,用準(zhǔn)確率評(píng)價(jià)分類器性能意義不大,因?yàn)樯贁?shù)類別樣本和多數(shù)類別樣本在樣本空間中占比相差懸殊。當(dāng)正常樣本占98%,異常樣本占2%時(shí),假設(shè)所有樣本都預(yù)測(cè)為正常樣本,預(yù)測(cè)結(jié)果準(zhǔn)確率也可達(dá)到98%,而實(shí)際上,對(duì)于異常樣本,預(yù)測(cè)結(jié)果完全誤分類,所以將準(zhǔn)確率作為衡量分類器好壞的標(biāo)準(zhǔn)明顯不合適。對(duì)于預(yù)測(cè)結(jié)果,更應(yīng)分析分類器對(duì)少數(shù)類別樣本的分類表現(xiàn)。因此,研究分類樣本不均衡的PDF 文檔惡意性檢測(cè)時(shí),將查準(zhǔn)率、查全率、F1 和G-Mean 作為評(píng)價(jià)指標(biāo)。查準(zhǔn)率代表分類器的決策結(jié)果為正樣本時(shí)其中真正類所占的比例,查全率代表樣本數(shù)據(jù)中實(shí)際為正類樣本時(shí)分類器模型的預(yù)測(cè)結(jié)果也正好為正類樣本所占的比重。

      設(shè)置基分類器決策樹個(gè)數(shù),對(duì)檢測(cè)方法精確度進(jìn)行比較,實(shí)驗(yàn)結(jié)果如表2 所示?;诸惼鱾€(gè)數(shù)從5 增加到10,精確度提升1.03%,基分類器數(shù)量k從10開始逐漸增加,分類效果并沒有呈正比上升。當(dāng)決策樹數(shù)目不斷增加時(shí),檢測(cè)模型的計(jì)算開銷也不斷增加,時(shí)間開銷增加,內(nèi)存消耗更多,而檢測(cè)模型的泛化性能卻無(wú)明顯提升。綜合考慮檢測(cè)模型的計(jì)算開銷和檢測(cè)效果,取決策樹數(shù)量為10個(gè)。

      Table 2 Comparison of classification effects of different numbers of base learners表2 不同數(shù)量基學(xué)習(xí)器的分類效果比較

      對(duì)本文的KM-TBSMOTE雙向采樣方法、傳統(tǒng)BSMOTE過(guò)采樣算法、K-Means聚類欠采樣方法、BSMOTE+K-Means 采樣方法進(jìn)行比較實(shí)驗(yàn),分類器采用隨機(jī)森林算法。其中,各過(guò)采樣方法中過(guò)采樣率等于不均衡比率的0.5 倍并向上取整。為使檢測(cè)結(jié)果不受隨機(jī)因素影響,對(duì)各采樣方法進(jìn)行十折交叉驗(yàn)證,求出平均值作為最后的預(yù)測(cè)結(jié)果。實(shí)驗(yàn)結(jié)果如表3所示。

      Table 3 Comparison of different sampling methods表3 不同采樣方法比較(%)

      實(shí)驗(yàn)結(jié)果表明,本文方法的查準(zhǔn)率P、查全率R、F1、G-Mean 指標(biāo)值最高。與其他方法相比,均有一定程度上的上升,誤報(bào)率FPR 有所下降。與K-Means 欠采樣方法進(jìn)行比較,查準(zhǔn)率提升了1.05%;本文方法較BSMOTE 過(guò)采樣方法的查全率指標(biāo)提升了1.96%;K-Means 欠采樣方法的F 值最低,本文的F1 指標(biāo)值提高了1.81%;BSMOTE 過(guò)采樣方法的G-Mean 評(píng)價(jià)指標(biāo)值最低,本文的G-Mean 指標(biāo)比BSMOTE 過(guò)采樣提高了5.61%;BSMOTE 過(guò)采樣方法的誤報(bào)率最高,達(dá)0.074%,本文的雙向采樣方法將誤報(bào)率降低到了0.026%。僅采用K-Means 欠采樣方法進(jìn)行處理會(huì)把樣本中的重要特征信息丟失,導(dǎo)致K-Means 欠采樣方法的F1 評(píng)價(jià)指標(biāo)值最低,而在BSMOTE 方法過(guò)采樣操作中,樣本點(diǎn)的不均勻分布會(huì)在一定程度上影響到分類邊界的確定,所以誤報(bào)率高。G-Mean 評(píng)價(jià)指標(biāo)中K-Means 欠采樣方法雖然不是最差的,但是相比較而言,G-Mean 指標(biāo)衡量的是正樣本和負(fù)樣本分布被正確分類出的數(shù)目,針對(duì)樣本分類不均衡的數(shù)據(jù)集,檢測(cè)模型的評(píng)價(jià)指標(biāo)中F1 比GMean 更能展現(xiàn)檢測(cè)模型對(duì)于不同類別數(shù)據(jù)的檢測(cè)效果。而本文提出的雙向采樣方法中,對(duì)BSMOTE 過(guò)采樣方法進(jìn)行了改進(jìn),改善了樣本分布均勻問(wèn)題,緩解了對(duì)分類邊界造成的影響。同時(shí)結(jié)合欠采樣操作效果更好,在減少噪聲樣本的同時(shí)不會(huì)丟失過(guò)多的重要特征信息。綜合5 個(gè)評(píng)價(jià)指標(biāo)可知,本文提出的基于雙向采樣的檢測(cè)方法能有效解決樣本不均衡的惡意PDF 檢測(cè)問(wèn)題。

      4 結(jié)語(yǔ)

      本文從樣本數(shù)據(jù)層面對(duì)樣本不均衡的PDF 文檔惡意性檢測(cè)進(jìn)行研究,改進(jìn)了BSMOTE 過(guò)采樣方法。采用KMeans 方法欠采樣,將兩種采樣方法結(jié)合,有效緩解了單向采樣造成的噪聲樣本過(guò)多和重要特征信息丟失問(wèn)題。采用隨機(jī)森林方法對(duì)雙向采樣后的樣本進(jìn)行模型訓(xùn)練和檢測(cè),實(shí)驗(yàn)表明檢測(cè)模型性能在各方面均有不同程度改進(jìn),能有效解決PDF 文檔惡意性檢測(cè)中樣本分類數(shù)量不均衡問(wèn)題。后續(xù)研究將深入探討PDF 文檔特征的選取和優(yōu)化組合,從根本上對(duì)分類決策效果進(jìn)行提升??紤]特征之間的關(guān)聯(lián)性,利用算法尋找更優(yōu)的特征向量是今后研究的方向。

      猜你喜歡
      類別分類器文檔
      有人一聲不吭向你扔了個(gè)文檔
      BP-GA光照分類器在車道線識(shí)別中的應(yīng)用
      基于RI碼計(jì)算的Word復(fù)制文檔鑒別
      加權(quán)空-譜與最近鄰分類器相結(jié)合的高光譜圖像分類
      結(jié)合模糊(C+P)均值聚類和SP-V-支持向量機(jī)的TSK分類器
      服務(wù)類別
      Persistence of the reproductive toxicity of chlorpiryphos-ethyl in male Wistar rat
      論類別股東會(huì)
      商事法論集(2014年1期)2014-06-27 01:20:42
      基于LLE降維和BP_Adaboost分類器的GIS局部放電模式識(shí)別
      中醫(yī)類別全科醫(yī)師培養(yǎng)模式的探討
      湘潭市| 石渠县| 梁河县| 日土县| 马关县| 保康县| 奉贤区| 九寨沟县| 沧源| 德惠市| 永和县| 威海市| 翁牛特旗| 来安县| 玉树县| 鸡西市| 永善县| 芜湖市| 海丰县| 江山市| 吉隆县| 和顺县| 黔南| 林口县| 隆子县| 夹江县| 乐山市| 左贡县| 瓦房店市| 巴彦淖尔市| 靖州| 长沙市| 和林格尔县| 横山县| 米林县| 满洲里市| 江山市| 车险| 德庆县| 周口市| 花莲市|