基于IMI-WNB算法的垃圾郵件過濾技術(shù)研究

2021-03-26 03:29:50吉小鵬

電子元器件與信息技術(shù) 2021年11期

吉小鵬

（南京理工大學(xué)自動化學(xué)院，江蘇南京 210094）

0 引言

工業(yè)互聯(lián)網(wǎng)快速發(fā)展的今天，在信息傳遞上起到關(guān)鍵作用的電子郵件深刻改變了工作方式，與此同時大量無效的垃圾郵件卻成了工業(yè)互聯(lián)網(wǎng)界難以解決的問題，對郵箱存儲和網(wǎng)絡(luò)傳輸都造成了巨大困擾[1]。到目前為止，垃圾郵件過濾的方法主要包括基于黑名單過濾、基于行為識別過濾以及基于內(nèi)容過濾等手段。由于從郵件文本中提取互信息特征，并通過樸素貝葉斯分類的方法簡便、快捷，基于此方法的內(nèi)容過濾逐漸成為了垃圾郵件的主流上應(yīng)用技術(shù)[2]。

實際上，傳統(tǒng)互信息方法并未計算出詞頻度，導(dǎo)致詞頻對互信息的偏置影響較大[3]。另外，多個垃圾郵件類別的樣本差異性對樸素貝葉斯方法也較為敏感，造成傳統(tǒng)方法對于樣本差異較大的情況出現(xiàn)較高的誤檢率或漏檢率。因此，在文本中，通過引入詞頻率因子和類別間差異因子來改進互信息計算，并將計算結(jié)果作為樸素貝葉斯分類的屬性權(quán)重，建立基于IMI-WNB的垃圾郵件過濾算法，完成對垃圾郵件過濾的魯棒性，降低垃圾郵件過濾時的誤檢率和漏檢率。

1 基于IMI-WNB算法的工業(yè)互聯(lián)網(wǎng)垃圾郵件過濾算法

1.1 改進的IMI互信息算法

傳統(tǒng)互信息算法在計算過程中僅考慮文本頻率，并未統(tǒng)計詞出現(xiàn)的頻率，在詞頻率不均衡的工業(yè)互聯(lián)網(wǎng)垃圾郵件文本中過濾效果較差[4]。例如，文本頻率相同的兩個詞，但是詞頻率的特征差距較大，在傳統(tǒng)方法中認(rèn)為詞頻率特征更大的詞具有與類別更高的相關(guān)程度。然而，這種情況下采用傳統(tǒng)方式互信息計算方式相關(guān)程度相同，與實際情況顯著不符。因此，本文分別引進詞頻率因子和類間差異因子對IMI互信息算法進行改進。

首先，引入詞頻率因子α用于描述不同詞頻率特征之間的差異性，通過下式定義：

根據(jù)上述定義可以看出，如果某個特征的詞頻率高于文本頻率，那么相應(yīng)的詞頻因子的權(quán)重將會更大，此時垃圾郵件過濾時采用該特征的比重將會越高。

此外，當(dāng)多個類別中的特征分布不均勻?qū)е聦︻悇e的判定產(chǎn)生影響時，一般在某些類別中出現(xiàn)的次數(shù)較多而在另一些類別中出現(xiàn)的次數(shù)較少，這種情況下一般可認(rèn)為該特征對于工業(yè)互聯(lián)網(wǎng)垃圾郵件過濾的影響較大。實際上，這樣的特征在統(tǒng)計學(xué)中被稱為標(biāo)準(zhǔn)差較大的特征，能夠反映出郵件文本的離散程度，從而有利于垃圾郵件的過濾。因此，在本文中，我們通過垃圾郵件Cspam和正常郵件Cham之間特征頻率wi的標(biāo)準(zhǔn)差改進互信息計算過程。假設(shè)垃圾郵件中特征的頻率為tfCspam(wi)，正常郵件對應(yīng)的特征頻率為tfCham(wi)，二者共同的平均特征頻率為tfavg(wi)，那么可以表示為：

上式（7）在式（3）的基礎(chǔ)上增加了不同類間的頻率差異權(quán)重因子，因而能夠在對垃圾郵件過濾過程中體現(xiàn)出類間頻率差異的影響，從而提升互信息計算方法的特征選擇效率。

1.2 基于改進的IMI互信息的樸素貝葉斯算法

針對工業(yè)互聯(lián)網(wǎng)垃圾郵件過濾的分類算法通常采用樸素貝葉斯分類器（NB），通常傳統(tǒng)NB中的條件獨立性假設(shè)會對工業(yè)互聯(lián)網(wǎng)垃圾郵件的過濾造成不利影響[5]。因此，在本文中，我們通過在貝葉斯概率公式中添加屬性權(quán)重，通過權(quán)重控制不同特征對于垃圾郵件過濾的貢獻。實際的屬性權(quán)重可通過改進的IMI互信息值獲取，互信息值的結(jié)果偏大表明特征與類別相關(guān)程度較高，反過來，互信息值偏小則表明特征與類別相關(guān)程度較低。通過互信息值作為NB的屬性權(quán)重，我們新提出的WNB將會消除獨立性假設(shè)的影響，保證垃圾郵件過濾的穩(wěn)定性。通常來講，帶權(quán)重的WNB的分類過程可以表示為：

綜上，本文提出的基于IMI-WNB的工業(yè)互聯(lián)網(wǎng)垃圾郵件過濾具體過程如下：

（1）預(yù)處理階段處理郵件文本的停用詞，然后將文本完成自動分詞；

（2）采用改進的IMI互信息算法選擇分詞后的文本特征，篩選過濾無關(guān)的特征；

（3）統(tǒng)計郵件文本訓(xùn)練樣本的先驗概率、條件概率，然后使用IMI-WNB算法完成最大后驗概率的求解，通過概率是否超過閾值，判斷是否為垃圾郵件。

2 仿真實驗與結(jié)果分析

為了驗證本文提出的基于IMI-WNB算法的工業(yè)互聯(lián)網(wǎng)垃圾郵件過濾算法可行性與有效性，我們采用能明顯反映工業(yè)互聯(lián)網(wǎng)特性的trec06c開源郵件語料庫，進行工業(yè)互聯(lián)網(wǎng)垃圾郵件過濾對比實驗。實驗對比的算法對象包括傳統(tǒng)NB算法以及改進的IMI-WNB算法。實驗平臺為Unbutu11.0，硬件配置為i7-6700K CPU配合16GB內(nèi)存以及SSD固態(tài)硬盤，實驗編程平臺采用Matlab R2012b。由于實驗采用的trec06c語料庫中郵件文本較多，我們在具體實驗中采用其中較為關(guān)鍵的15000個郵件樣本，其中7500個垃圾郵件，7500個正常郵件，兩種類別的樣本數(shù)量保持均衡。為了對實驗結(jié)果進行客觀評價，我們在實驗中采用準(zhǔn)確率和召回率兩種指標(biāo)對算法進行客觀評價。針對開源郵件語料庫的垃圾郵件過濾對比實驗步驟如下：

（1）對所有15000個包含垃圾郵件和正常郵件的樣本進行分詞處理，并通過查找停用詞表保留能進行垃圾郵件過濾的主要特征。在特征提取中，分別采用傳統(tǒng)的互信息特征提取以及本文改進的互信息特征提取方法獲得對應(yīng)的特征集合TMI和TIMI；

（2）分別從互信息特征集合以及改進的互信息特征集合中n提取個樣本 {t1,t2,...,tn}，分別組成郵件文本特征向量RMI和RIMI，將特征向量集合作為NB的屬性權(quán)重產(chǎn)生WNB分類算法，并通過IMI-WNB算法完成對垃圾郵件過濾的訓(xùn)練和驗證；

（3）為了進行垃圾郵件過濾的訓(xùn)練和驗證，我們在本文中采用經(jīng)典的十乘交叉驗證方法進行訓(xùn)練和驗證。其中，我們將15000個樣本隨機大亂，并劃分為10份，每次驗證取其中的9份作為訓(xùn)練樣本集合，剩下的1份作為驗證樣本集合。最后，將十次驗證結(jié)果的平均準(zhǔn)確率、平均召回率以及平均F-score記錄下來，通過記錄的數(shù)據(jù)驗證本文提出算法的可行性與有效性。

經(jīng)過十乘交叉驗證后，圖1(a)給出了傳統(tǒng)NB算法與本文改進IMI-WNB算法的平均準(zhǔn)確率對比。從圖1(a)中的結(jié)果可以看出，傳統(tǒng)NB算法能夠在較低的特征維度（<50）時保證垃圾郵件過濾時的精準(zhǔn)率上升，當(dāng)特征維度較大的時候傳統(tǒng)算法的垃圾郵件過濾準(zhǔn)確率出現(xiàn)下降，直到特征維度超過200維時才繼續(xù)上升。相比于傳統(tǒng)NB算法，本文提出的IMI-WNB算法在較低特征維度時的準(zhǔn)確率差距不大，但是隨著特征維度的提升，傳統(tǒng)NB算法的垃圾郵件過濾顯著下降，但是IMI-WNB算法卻只有少量的精度下降，隨后一直保持精確度上升的趨勢，本文提出算法在召回率上具有較強的魯棒性。

圖1 傳統(tǒng)NB算法與本文改進IMI-WNB算法的對比

此外，圖1(b)給出了傳統(tǒng)NB算法與本文改進IMI-WNB算法的平均召回率對比。從圖1(b)中的結(jié)果可以看出，傳統(tǒng)NB算法能夠在較低的特征維度（<20）時保證垃圾郵件過濾時的召回率上升，當(dāng)特征維度較大的時候傳統(tǒng)算法的垃圾郵件過濾準(zhǔn)確率出現(xiàn)下降，直到特征維度超過180維時才繼續(xù)上升。相比于傳統(tǒng)NB算法，本文提出的IMI-WNB算法在較低特征維度時的準(zhǔn)確率差距不大，但是隨著特征維度的提升，傳統(tǒng)NB算法的垃圾郵件過濾顯著下降，但是IMI-WNB算法卻只有少量的精度下降，隨后一直保持精確度上升的趨勢，本文提出算法在召回率上具有較強的魯棒性。

表1給出了垃圾郵件過濾的常用算法與本文提出算法的計算性能對比。從表1的結(jié)果中可以看出，經(jīng)典的PTw2v算法在準(zhǔn)確率和召回率上差距不大，垃圾郵件過濾效果較好；本文提出的IMI-WNB算法比傳統(tǒng)C4.5算法擁有更高的召回率，因此垃圾郵件的漏檢率顯著低于傳統(tǒng)算法；GWO_GA算法雖然具有較高的召回率，但是其準(zhǔn)確率卻顯著低于本文提出的IMI-WNB算法，因此正常郵件的誤檢率顯著高于本文提出算法。

表1 主流算法與本文提出算法的性能對比

綜合上述實驗結(jié)果可以看出，本文提出算法在魯棒性上優(yōu)于傳統(tǒng)的NB分類、PTw2v等算法，在準(zhǔn)確率和召回率的雙向?qū)Ρ壬弦矁?yōu)于近年來流行的C4.5 和GWO_GA算法。因此，本文提出的IMI-WNB算法對垃圾郵件過濾具較高的準(zhǔn)確性和魯棒性。

3 結(jié)論

在本文中，為了解決傳統(tǒng)工業(yè)互聯(lián)網(wǎng)垃圾郵件過濾時的詞頻、樣本類別差異對漏檢率和誤檢率的影響，提出了一種全新的工業(yè)互聯(lián)網(wǎng)垃圾郵件過濾算法。該算法通過引入詞頻率因子和類別間差異因子來改進互信息計算，并將計算結(jié)果作為樸素貝葉斯分類的屬性權(quán)重，建立基于IMI-WNB的垃圾郵件過濾算法。在開源數(shù)據(jù)集上的對比實驗結(jié)果表明，本文提出算法能夠比傳統(tǒng)算法獲得更魯棒的垃圾郵件過濾結(jié)果，有效降低了垃圾郵件過濾時的誤檢率和漏檢率。