• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      基于IMI-WNB算法的垃圾郵件過濾技術(shù)研究

      2021-03-26 03:29:50吉小鵬
      電子元器件與信息技術(shù) 2021年11期
      關(guān)鍵詞:垃圾郵件互信息郵件

      吉小鵬

      (南京理工大學(xué)自動化學(xué)院,江蘇 南京 210094)

      0 引言

      工業(yè)互聯(lián)網(wǎng)快速發(fā)展的今天,在信息傳遞上起到關(guān)鍵作用的電子郵件深刻改變了工作方式,與此同時大量無效的垃圾郵件卻成了工業(yè)互聯(lián)網(wǎng)界難以解決的問題,對郵箱存儲和網(wǎng)絡(luò)傳輸都造成了巨大困擾[1]。到目前為止,垃圾郵件過濾的方法主要包括基于黑名單過濾、基于行為識別過濾以及基于內(nèi)容過濾等手段。由于從郵件文本中提取互信息特征,并通過樸素貝葉斯分類的方法簡便、快捷,基于此方法的內(nèi)容過濾逐漸成為了垃圾郵件的主流上應(yīng)用技術(shù)[2]。

      實際上,傳統(tǒng)互信息方法并未計算出詞頻度,導(dǎo)致詞頻對互信息的偏置影響較大[3]。另外,多個垃圾郵件類別的樣本差異性對樸素貝葉斯方法也較為敏感,造成傳統(tǒng)方法對于樣本差異較大的情況出現(xiàn)較高的誤檢率或漏檢率。因此,在文本中,通過引入詞頻率因子和類別間差異因子來改進互信息計算,并將計算結(jié)果作為樸素貝葉斯分類的屬性權(quán)重,建立基于IMI-WNB的垃圾郵件過濾算法,完成對垃圾郵件過濾的魯棒性,降低垃圾郵件過濾時的誤檢率和漏檢率。

      1 基于IMI-WNB算法的工業(yè)互聯(lián)網(wǎng)垃圾郵件過濾算法

      1.1 改進的IMI互信息算法

      傳統(tǒng)互信息算法在計算過程中僅考慮文本頻率,并未統(tǒng)計詞出現(xiàn)的頻率,在詞頻率不均衡的工業(yè)互聯(lián)網(wǎng)垃圾郵件文本中過濾效果較差[4]。例如,文本頻率相同的兩個詞,但是詞頻率的特征差距較大,在傳統(tǒng)方法中認(rèn)為詞頻率特征更大的詞具有與類別更高的相關(guān)程度。然而,這種情況下采用傳統(tǒng)方式互信息計算方式相關(guān)程度相同,與實際情況顯著不符。因此,本文分別引進詞頻率因子和類間差異因子對IMI互信息算法進行改進。

      首先,引入詞頻率因子α用于描述不同詞頻率特征之間的差異性,通過下式定義:

      根據(jù)上述定義可以看出,如果某個特征的詞頻率高于文本頻率,那么相應(yīng)的詞頻因子的權(quán)重將會更大,此時垃圾郵件過濾時采用該特征的比重將會越高。

      此外,當(dāng)多個類別中的特征分布不均勻?qū)е聦︻悇e的判定產(chǎn)生影響時,一般在某些類別中出現(xiàn)的次數(shù)較多而在另一些類別中出現(xiàn)的次數(shù)較少,這種情況下一般可認(rèn)為該特征對于工業(yè)互聯(lián)網(wǎng)垃圾郵件過濾的影響較大。實際上,這樣的特征在統(tǒng)計學(xué)中被稱為標(biāo)準(zhǔn)差較大的特征,能夠反映出郵件文本的離散程度,從而有利于垃圾郵件的過濾。因此,在本文中,我們通過垃圾郵件Cspam和正常郵件Cham之間特征頻率wi的標(biāo)準(zhǔn)差改進互信息計算過程。假設(shè)垃圾郵件中特征的頻率為tfCspam(wi),正常郵件對應(yīng)的特征頻率為tfCham(wi),二者共同的平均特征頻率為tfavg(wi),那么可以表示為:

      上式(7)在式(3)的基礎(chǔ)上增加了不同類間的頻率差異權(quán)重因子,因而能夠在對垃圾郵件過濾過程中體現(xiàn)出類間頻率差異的影響,從而提升互信息計算方法的特征選擇效率。

      1.2 基于改進的IMI互信息的樸素貝葉斯算法

      針對工業(yè)互聯(lián)網(wǎng)垃圾郵件過濾的分類算法通常采用樸素貝葉斯分類器(NB),通常傳統(tǒng)NB中的條件獨立性假設(shè)會對工業(yè)互聯(lián)網(wǎng)垃圾郵件的過濾造成不利影響[5]。因此,在本文中,我們通過在貝葉斯概率公式中添加屬性權(quán)重,通過權(quán)重控制不同特征對于垃圾郵件過濾的貢獻。實際的屬性權(quán)重可通過改進的IMI互信息值獲取,互信息值的結(jié)果偏大表明特征與類別相關(guān)程度較高,反過來,互信息值偏小則表明特征與類別相關(guān)程度較低。通過互信息值作為NB的屬性權(quán)重,我們新提出的WNB將會消除獨立性假設(shè)的影響,保證垃圾郵件過濾的穩(wěn)定性。通常來講,帶權(quán)重的WNB的分類過程可以表示為:

      綜上,本文提出的基于IMI-WNB的工業(yè)互聯(lián)網(wǎng)垃圾郵件過濾具體過程如下:

      (1)預(yù)處理階段處理郵件文本的停用詞,然后將文本完成自動分詞;

      (2)采用改進的IMI互信息算法選擇分詞后的文本特征,篩選過濾無關(guān)的特征;

      (3)統(tǒng)計郵件文本訓(xùn)練樣本的先驗概率、條件概率,然后使用IMI-WNB算法完成最大后驗概率的求解,通過概率是否超過閾值,判斷是否為垃圾郵件。

      2 仿真實驗與結(jié)果分析

      為了驗證本文提出的基于IMI-WNB算法的工業(yè)互聯(lián)網(wǎng)垃圾郵件過濾算法可行性與有效性,我們采用能明顯反映工業(yè)互聯(lián)網(wǎng)特性的trec06c開源郵件語料庫,進行工業(yè)互聯(lián)網(wǎng)垃圾郵件過濾對比實驗。實驗對比的算法對象包括傳統(tǒng)NB算法以及改進的IMI-WNB算法。實驗平臺為Unbutu11.0,硬件配置為i7-6700K CPU配合16GB內(nèi)存以及SSD固態(tài)硬盤,實驗編程平臺采用Matlab R2012b。由于實驗采用的trec06c語料庫中郵件文本較多,我們在具體實驗中采用其中較為關(guān)鍵的15000個郵件樣本,其中7500個垃圾郵件,7500個正常郵件,兩種類別的樣本數(shù)量保持均衡。為了對實驗結(jié)果進行客觀評價, 我們在實驗中采用準(zhǔn)確率和召回率兩種指標(biāo)對算法進行客觀評價。針對開源郵件語料庫的垃圾郵件過濾對比實驗步驟如下:

      (1)對所有15000個包含垃圾郵件和正常郵件的樣本進行分詞處理,并通過查找停用詞表保留能進行垃圾郵件過濾的主要特征。在特征提取中,分別采用傳統(tǒng)的互信息特征提取以及本文改進的互信息特征提取方法獲得對應(yīng)的特征集合TMI和TIMI;

      (2)分別從互信息特征集合以及改進的互信息特征集合中n提取個樣本 {t1,t2,...,tn},分別組成郵件文本特征向量RMI和RIMI,將特征向量集合作為NB的屬性權(quán)重產(chǎn)生WNB分類算法,并通過IMI-WNB算法完成對垃圾郵件過濾的訓(xùn)練和驗證;

      (3)為了進行垃圾郵件過濾的訓(xùn)練和驗證,我們在本文中采用經(jīng)典的十乘交叉驗證方法進行訓(xùn)練和驗證。其中,我們將15000個樣本隨機大亂,并劃分為10份,每次驗證取其中的9份作為訓(xùn)練樣本集合,剩下的1份作為驗證樣本集合。最后,將十次驗證結(jié)果的平均準(zhǔn)確率、平均召回率以及平均F-score記錄下來,通過記錄的數(shù)據(jù)驗證本文提出算法的可行性與有效性。

      經(jīng)過十乘交叉驗證后,圖1(a)給出了傳統(tǒng)NB算法與本文改進IMI-WNB算法的平均準(zhǔn)確率對比。從圖1(a)中的結(jié)果可以看出,傳統(tǒng)NB算法能夠在較低的特征維度(<50)時保證垃圾郵件過濾時的精準(zhǔn)率上升,當(dāng)特征維度較大的時候傳統(tǒng)算法的垃圾郵件過濾準(zhǔn)確率出現(xiàn)下降,直到特征維度超過200維時才繼續(xù)上升。相比于傳統(tǒng)NB算法,本文提出的IMI-WNB算法在較低特征維度時的準(zhǔn)確率差距不大,但是隨著特征維度的提升,傳統(tǒng)NB算法的垃圾郵件過濾顯著下降,但是IMI-WNB算法卻只有少量的精度下降,隨后一直保持精確度上升的趨勢,本文提出算法在召回率上具有較強的魯棒性。

      圖1 傳統(tǒng)NB算法與本文改進IMI-WNB算法的對比

      此外,圖1(b)給出了傳統(tǒng)NB算法與本文改進IMI-WNB算法的平均召回率對比。從圖1(b)中的結(jié)果可以看出,傳統(tǒng)NB算法能夠在較低的特征維度(<20)時保證垃圾郵件過濾時的召回率上升,當(dāng)特征維度較大的時候傳統(tǒng)算法的垃圾郵件過濾準(zhǔn)確率出現(xiàn)下降,直到特征維度超過180維時才繼續(xù)上升。相比于傳統(tǒng)NB算法,本文提出的IMI-WNB算法在較低特征維度時的準(zhǔn)確率差距不大,但是隨著特征維度的提升,傳統(tǒng)NB算法的垃圾郵件過濾顯著下降,但是IMI-WNB算法卻只有少量的精度下降,隨后一直保持精確度上升的趨勢,本文提出算法在召回率上具有較強的魯棒性。

      表1給出了垃圾郵件過濾的常用算法與本文提出算法的計算性能對比。從表1的結(jié)果中可以看出,經(jīng)典的PTw2v算法在準(zhǔn)確率和召回率上差距不大,垃圾郵件過濾效果較好;本文提出的IMI-WNB算法比傳統(tǒng)C4.5算法擁有更高的召回率,因此垃圾郵件的漏檢率顯著低于傳統(tǒng)算法;GWO_GA算法雖然具有較高的召回率,但是其準(zhǔn)確率卻顯著低于本文提出的IMI-WNB算法,因此正常郵件的誤檢率顯著高于本文提出算法。

      表1 主流算法與本文提出算法的性能對比

      綜合上述實驗結(jié)果可以看出,本文提出算法在魯棒性上優(yōu)于傳統(tǒng)的NB分類、PTw2v等算法,在準(zhǔn)確率和召回率的雙向?qū)Ρ壬弦矁?yōu)于近年來流行的C4.5 和GWO_GA算法。因此,本文提出的IMI-WNB算法對垃圾郵件過濾具較高的準(zhǔn)確性和魯棒性。

      3 結(jié)論

      在本文中,為了解決傳統(tǒng)工業(yè)互聯(lián)網(wǎng)垃圾郵件過濾時的詞頻、樣本類別差異對漏檢率和誤檢率的影響,提出了一種全新的工業(yè)互聯(lián)網(wǎng)垃圾郵件過濾算法。該算法通過引入詞頻率因子和類別間差異因子來改進互信息計算,并將計算結(jié)果作為樸素貝葉斯分類的屬性權(quán)重,建立基于IMI-WNB的垃圾郵件過濾算法。在開源數(shù)據(jù)集上的對比實驗結(jié)果表明,本文提出算法能夠比傳統(tǒng)算法獲得更魯棒的垃圾郵件過濾結(jié)果,有效降低了垃圾郵件過濾時的誤檢率和漏檢率。

      猜你喜歡
      垃圾郵件互信息郵件
      基于James的院內(nèi)郵件管理系統(tǒng)的實現(xiàn)
      從“scientist(科學(xué)家)”到“spam(垃圾郵件)”,英語單詞的起源出人意料地有趣 精讀
      英語文摘(2021年10期)2021-11-22 08:02:36
      一種基于SMOTE和隨機森林的垃圾郵件檢測算法
      一封郵件引發(fā)的梅賽德斯反彈
      車迷(2018年12期)2018-07-26 00:42:32
      基于支持向量機與人工免疫系統(tǒng)的垃圾郵件過濾模型
      基于互信息的貝葉斯網(wǎng)絡(luò)結(jié)構(gòu)學(xué)習(xí)
      聯(lián)合互信息水下目標(biāo)特征選擇算法
      改進的互信息最小化非線性盲源分離算法
      電測與儀表(2015年9期)2015-04-09 11:59:22
      基于增量式互信息的圖像快速匹配方法
      石器部落
      伊春市| 克什克腾旗| 霍州市| 林西县| 仁布县| 平原县| 丹寨县| 南汇区| 赤壁市| 崇明县| 成都市| 台江县| 盐池县| 互助| 信丰县| 张家港市| 崇信县| 鄂托克前旗| 西城区| 社旗县| 来宾市| 南华县| 剑阁县| 台前县| 报价| 兖州市| 四川省| 项城市| 汝南县| 上思县| 淅川县| 石家庄市| 龙口市| 淳化县| 会同县| 福鼎市| 盐山县| 五原县| 富裕县| 神木县| 阜南县|