吉小鵬
(南京理工大學(xué)自動化學(xué)院,江蘇 南京 210094)
工業(yè)互聯(lián)網(wǎng)快速發(fā)展的今天,在信息傳遞上起到關(guān)鍵作用的電子郵件深刻改變了工作方式,與此同時大量無效的垃圾郵件卻成了工業(yè)互聯(lián)網(wǎng)界難以解決的問題,對郵箱存儲和網(wǎng)絡(luò)傳輸都造成了巨大困擾[1]。到目前為止,垃圾郵件過濾的方法主要包括基于黑名單過濾、基于行為識別過濾以及基于內(nèi)容過濾等手段。由于從郵件文本中提取互信息特征,并通過樸素貝葉斯分類的方法簡便、快捷,基于此方法的內(nèi)容過濾逐漸成為了垃圾郵件的主流上應(yīng)用技術(shù)[2]。
實際上,傳統(tǒng)互信息方法并未計算出詞頻度,導(dǎo)致詞頻對互信息的偏置影響較大[3]。另外,多個垃圾郵件類別的樣本差異性對樸素貝葉斯方法也較為敏感,造成傳統(tǒng)方法對于樣本差異較大的情況出現(xiàn)較高的誤檢率或漏檢率。因此,在文本中,通過引入詞頻率因子和類別間差異因子來改進互信息計算,并將計算結(jié)果作為樸素貝葉斯分類的屬性權(quán)重,建立基于IMI-WNB的垃圾郵件過濾算法,完成對垃圾郵件過濾的魯棒性,降低垃圾郵件過濾時的誤檢率和漏檢率。
傳統(tǒng)互信息算法在計算過程中僅考慮文本頻率,并未統(tǒng)計詞出現(xiàn)的頻率,在詞頻率不均衡的工業(yè)互聯(lián)網(wǎng)垃圾郵件文本中過濾效果較差[4]。例如,文本頻率相同的兩個詞,但是詞頻率的特征差距較大,在傳統(tǒng)方法中認(rèn)為詞頻率特征更大的詞具有與類別更高的相關(guān)程度。然而,這種情況下采用傳統(tǒng)方式互信息計算方式相關(guān)程度相同,與實際情況顯著不符。因此,本文分別引進詞頻率因子和類間差異因子對IMI互信息算法進行改進。
首先,引入詞頻率因子α用于描述不同詞頻率特征之間的差異性,通過下式定義:
根據(jù)上述定義可以看出,如果某個特征的詞頻率高于文本頻率,那么相應(yīng)的詞頻因子的權(quán)重將會更大,此時垃圾郵件過濾時采用該特征的比重將會越高。
此外,當(dāng)多個類別中的特征分布不均勻?qū)е聦︻悇e的判定產(chǎn)生影響時,一般在某些類別中出現(xiàn)的次數(shù)較多而在另一些類別中出現(xiàn)的次數(shù)較少,這種情況下一般可認(rèn)為該特征對于工業(yè)互聯(lián)網(wǎng)垃圾郵件過濾的影響較大。實際上,這樣的特征在統(tǒng)計學(xué)中被稱為標(biāo)準(zhǔn)差較大的特征,能夠反映出郵件文本的離散程度,從而有利于垃圾郵件的過濾。因此,在本文中,我們通過垃圾郵件Cspam和正常郵件Cham之間特征頻率wi的標(biāo)準(zhǔn)差改進互信息計算過程。假設(shè)垃圾郵件中特征的頻率為tfCspam(wi),正常郵件對應(yīng)的特征頻率為tfCham(wi),二者共同的平均特征頻率為tfavg(wi),那么可以表示為:
上式(7)在式(3)的基礎(chǔ)上增加了不同類間的頻率差異權(quán)重因子,因而能夠在對垃圾郵件過濾過程中體現(xiàn)出類間頻率差異的影響,從而提升互信息計算方法的特征選擇效率。
針對工業(yè)互聯(lián)網(wǎng)垃圾郵件過濾的分類算法通常采用樸素貝葉斯分類器(NB),通常傳統(tǒng)NB中的條件獨立性假設(shè)會對工業(yè)互聯(lián)網(wǎng)垃圾郵件的過濾造成不利影響[5]。因此,在本文中,我們通過在貝葉斯概率公式中添加屬性權(quán)重,通過權(quán)重控制不同特征對于垃圾郵件過濾的貢獻。實際的屬性權(quán)重可通過改進的IMI互信息值獲取,互信息值的結(jié)果偏大表明特征與類別相關(guān)程度較高,反過來,互信息值偏小則表明特征與類別相關(guān)程度較低。通過互信息值作為NB的屬性權(quán)重,我們新提出的WNB將會消除獨立性假設(shè)的影響,保證垃圾郵件過濾的穩(wěn)定性。通常來講,帶權(quán)重的WNB的分類過程可以表示為:
綜上,本文提出的基于IMI-WNB的工業(yè)互聯(lián)網(wǎng)垃圾郵件過濾具體過程如下:
(1)預(yù)處理階段處理郵件文本的停用詞,然后將文本完成自動分詞;
(2)采用改進的IMI互信息算法選擇分詞后的文本特征,篩選過濾無關(guān)的特征;
(3)統(tǒng)計郵件文本訓(xùn)練樣本的先驗概率、條件概率,然后使用IMI-WNB算法完成最大后驗概率的求解,通過概率是否超過閾值,判斷是否為垃圾郵件。
為了驗證本文提出的基于IMI-WNB算法的工業(yè)互聯(lián)網(wǎng)垃圾郵件過濾算法可行性與有效性,我們采用能明顯反映工業(yè)互聯(lián)網(wǎng)特性的trec06c開源郵件語料庫,進行工業(yè)互聯(lián)網(wǎng)垃圾郵件過濾對比實驗。實驗對比的算法對象包括傳統(tǒng)NB算法以及改進的IMI-WNB算法。實驗平臺為Unbutu11.0,硬件配置為i7-6700K CPU配合16GB內(nèi)存以及SSD固態(tài)硬盤,實驗編程平臺采用Matlab R2012b。由于實驗采用的trec06c語料庫中郵件文本較多,我們在具體實驗中采用其中較為關(guān)鍵的15000個郵件樣本,其中7500個垃圾郵件,7500個正常郵件,兩種類別的樣本數(shù)量保持均衡。為了對實驗結(jié)果進行客觀評價, 我們在實驗中采用準(zhǔn)確率和召回率兩種指標(biāo)對算法進行客觀評價。針對開源郵件語料庫的垃圾郵件過濾對比實驗步驟如下:
(1)對所有15000個包含垃圾郵件和正常郵件的樣本進行分詞處理,并通過查找停用詞表保留能進行垃圾郵件過濾的主要特征。在特征提取中,分別采用傳統(tǒng)的互信息特征提取以及本文改進的互信息特征提取方法獲得對應(yīng)的特征集合TMI和TIMI;
(2)分別從互信息特征集合以及改進的互信息特征集合中n提取個樣本 {t1,t2,...,tn},分別組成郵件文本特征向量RMI和RIMI,將特征向量集合作為NB的屬性權(quán)重產(chǎn)生WNB分類算法,并通過IMI-WNB算法完成對垃圾郵件過濾的訓(xùn)練和驗證;
(3)為了進行垃圾郵件過濾的訓(xùn)練和驗證,我們在本文中采用經(jīng)典的十乘交叉驗證方法進行訓(xùn)練和驗證。其中,我們將15000個樣本隨機大亂,并劃分為10份,每次驗證取其中的9份作為訓(xùn)練樣本集合,剩下的1份作為驗證樣本集合。最后,將十次驗證結(jié)果的平均準(zhǔn)確率、平均召回率以及平均F-score記錄下來,通過記錄的數(shù)據(jù)驗證本文提出算法的可行性與有效性。
經(jīng)過十乘交叉驗證后,圖1(a)給出了傳統(tǒng)NB算法與本文改進IMI-WNB算法的平均準(zhǔn)確率對比。從圖1(a)中的結(jié)果可以看出,傳統(tǒng)NB算法能夠在較低的特征維度(<50)時保證垃圾郵件過濾時的精準(zhǔn)率上升,當(dāng)特征維度較大的時候傳統(tǒng)算法的垃圾郵件過濾準(zhǔn)確率出現(xiàn)下降,直到特征維度超過200維時才繼續(xù)上升。相比于傳統(tǒng)NB算法,本文提出的IMI-WNB算法在較低特征維度時的準(zhǔn)確率差距不大,但是隨著特征維度的提升,傳統(tǒng)NB算法的垃圾郵件過濾顯著下降,但是IMI-WNB算法卻只有少量的精度下降,隨后一直保持精確度上升的趨勢,本文提出算法在召回率上具有較強的魯棒性。
圖1 傳統(tǒng)NB算法與本文改進IMI-WNB算法的對比
此外,圖1(b)給出了傳統(tǒng)NB算法與本文改進IMI-WNB算法的平均召回率對比。從圖1(b)中的結(jié)果可以看出,傳統(tǒng)NB算法能夠在較低的特征維度(<20)時保證垃圾郵件過濾時的召回率上升,當(dāng)特征維度較大的時候傳統(tǒng)算法的垃圾郵件過濾準(zhǔn)確率出現(xiàn)下降,直到特征維度超過180維時才繼續(xù)上升。相比于傳統(tǒng)NB算法,本文提出的IMI-WNB算法在較低特征維度時的準(zhǔn)確率差距不大,但是隨著特征維度的提升,傳統(tǒng)NB算法的垃圾郵件過濾顯著下降,但是IMI-WNB算法卻只有少量的精度下降,隨后一直保持精確度上升的趨勢,本文提出算法在召回率上具有較強的魯棒性。
表1給出了垃圾郵件過濾的常用算法與本文提出算法的計算性能對比。從表1的結(jié)果中可以看出,經(jīng)典的PTw2v算法在準(zhǔn)確率和召回率上差距不大,垃圾郵件過濾效果較好;本文提出的IMI-WNB算法比傳統(tǒng)C4.5算法擁有更高的召回率,因此垃圾郵件的漏檢率顯著低于傳統(tǒng)算法;GWO_GA算法雖然具有較高的召回率,但是其準(zhǔn)確率卻顯著低于本文提出的IMI-WNB算法,因此正常郵件的誤檢率顯著高于本文提出算法。
表1 主流算法與本文提出算法的性能對比
綜合上述實驗結(jié)果可以看出,本文提出算法在魯棒性上優(yōu)于傳統(tǒng)的NB分類、PTw2v等算法,在準(zhǔn)確率和召回率的雙向?qū)Ρ壬弦矁?yōu)于近年來流行的C4.5 和GWO_GA算法。因此,本文提出的IMI-WNB算法對垃圾郵件過濾具較高的準(zhǔn)確性和魯棒性。
在本文中,為了解決傳統(tǒng)工業(yè)互聯(lián)網(wǎng)垃圾郵件過濾時的詞頻、樣本類別差異對漏檢率和誤檢率的影響,提出了一種全新的工業(yè)互聯(lián)網(wǎng)垃圾郵件過濾算法。該算法通過引入詞頻率因子和類別間差異因子來改進互信息計算,并將計算結(jié)果作為樸素貝葉斯分類的屬性權(quán)重,建立基于IMI-WNB的垃圾郵件過濾算法。在開源數(shù)據(jù)集上的對比實驗結(jié)果表明,本文提出算法能夠比傳統(tǒng)算法獲得更魯棒的垃圾郵件過濾結(jié)果,有效降低了垃圾郵件過濾時的誤檢率和漏檢率。