一種新的郵件過濾技術(shù)研究

2017-01-11 14:23:23朱俚治朱梧檟侯愛蓮

計算技術(shù)與自動化 2016年4期

朱俚治　朱梧檟　侯愛蓮

摘要：為了改進(jìn)已有郵件過濾算法的不足之處，提出一種新的郵件過濾算法。以往的大部分過濾算法采用的都是郵件屬性精確匹配算法，并未使用模糊匹配思想，因此郵件的漏檢率較高，并且發(fā)現(xiàn)未知郵件的效率較低。針對以往郵件過濾算法中漏檢率比較高的不足之處，文中提出的郵件過濾算法的改進(jìn)思路是：首先使用傳統(tǒng)的黑白名單過濾技術(shù)對已知的郵件進(jìn)行分類，那些是正常郵件，那些是垃圾郵件。在此基礎(chǔ)之上使用相似性算法來計算未知郵件與已知郵件的相似度，從而達(dá)到對未知郵件分類目的，最后使用MMTD算法對的郵件相似度的好壞做出衡量，并且以此為郵件過濾提供有效的依據(jù)，經(jīng)過以上的三個步驟之后，最后進(jìn)行郵件的過濾。

關(guān)鍵詞：垃圾郵件；MMTD；相似性

中圖分類號：TP301.6文獻(xiàn)標(biāo)識碼：A

Abstract：The widely used mail attributes exact matching algorithm does not use fuzzy matching ideas， so the rate of missed messages is high and the efficiency of finding the unknown message is low. This paper presented the improved spam filtering idea. First， the traditional black and white list of known email filtering technology was used to classify the messages into normal email and spam. Based on this， similarity algorithm was used to calculate the unknown email message with the known similarity， so as to achieve the unknown message classification purposes. Then， MMTD mail similarity algorithm was used to measure the quality of email message， which provides the effective basis for message filter. After the above three steps， the email messages were filtered.

Key words：spam； MMTD； similarity

1引言

正常郵件與垃圾郵件是兩種性質(zhì)的郵件，垃圾郵件是缺乏實際意義和沒有用處的郵件，因此為了保護(hù)有限的郵件資源，必須阻止垃圾郵件在網(wǎng)絡(luò)中肆意傳播。到目前為止郵件過濾研究人員已開發(fā)出了許多郵件過濾技術(shù)。但由于垃圾郵件技術(shù)發(fā)展速度較快，單一的郵件過濾技術(shù)難以勝任某些的郵件過濾任務(wù) 。

現(xiàn)有的郵件過濾技術(shù)主要包括：①基于黑白名單郵件過濾技術(shù)，②基于過濾規(guī)則的郵件過濾技術(shù)，③基于郵件內(nèi)容的過濾技術(shù)[1-3]。這些郵件過濾技術(shù)都各自的優(yōu)勢同時也有不足的地方。最早出現(xiàn)的黑白名單過濾技術(shù)的缺點(diǎn)是漏檢率較高，并且效率低于基于其它的郵件過濾技術(shù)[1-3]。基于內(nèi)容過濾技術(shù)與基于貝葉斯過濾算法在當(dāng)今的郵件過濾技術(shù)中有較為廣泛的應(yīng)用，過濾郵件時誤判率有所降低[1-3]?，F(xiàn)在有以下幾種技術(shù)在郵件過濾技術(shù)中進(jìn)行應(yīng)用：決策樹，使用SPF協(xié)議該改進(jìn)SMTP協(xié)議，人工免疫，ripper算法等等各種算法[3]。根據(jù)上述原因，為了將大部分垃圾郵件進(jìn)行過濾，只有將已有的過濾技術(shù)綜合應(yīng)用才能夠達(dá)到過濾郵件的目的。

本文提出的郵件過濾的算法中使用了黑白名單技術(shù)，相似性計算算法和MMTD算法，該郵件過濾的思路是：①提取已知的黑白名單郵件屬性，②使用相似性算法計算未知郵件與已知郵件的相似性，③最后使用MMTD算法對相似性的計算結(jié)果做出衡量和估計。新郵件過濾算法優(yōu)點(diǎn)在于①使用了兩種近似算法：相似性計算和MMTD算法，②將傳統(tǒng)的郵件過濾技術(shù)與相似性算法相互結(jié)合，③將郵件屬性之間的精確匹配改為郵件屬性之間的相似性匹配。

2現(xiàn)有的郵件過濾技術(shù)簡介

2.1二黑白名單過濾技術(shù)

在黑白名單過濾技術(shù)中：網(wǎng)絡(luò)管理人員把屬于黑名的郵件設(shè)定為垃圾郵件名單，白名單設(shè)定為正常的郵件名單。因此根據(jù)已有的新名單可以將已知的郵件進(jìn)行分類。黑/白名單的建立是周期性的而非實時的，并且黑/白名單還很容易出錯，容易出現(xiàn)誤判的現(xiàn)象[1-4]。

2.2基于過濾規(guī)則的郵件過濾技術(shù)

基于過濾規(guī)則的郵件過濾技術(shù)是用戶根據(jù)已有的郵件信息來制定若干條郵件的過濾規(guī)則。一般來說，過濾規(guī)則通常從信頭分析、群發(fā)過濾、關(guān)鍵詞精確匹配和郵件內(nèi)容的其他特征幾個方面來進(jìn)行設(shè)置[1-4]，在過濾規(guī)則中符合其中一條或多條的就認(rèn)為是垃圾郵件[1-4] 。

2.3基于郵件內(nèi)容的過濾技術(shù)

對于未知特征的新垃圾郵件，黑/白名單技術(shù)與過濾規(guī)則技術(shù)一般不能將垃圾郵件與正常郵件進(jìn)行有效的區(qū)分，這時誤判現(xiàn)象較高[1-4]。然而基于郵件內(nèi)容過濾技術(shù)的優(yōu)勢在于能夠過濾新的垃圾郵件。郵件內(nèi)容過濾技術(shù)在一定程度上能夠自動地對這些郵件進(jìn)行識別，因此能夠近一步提高過濾系統(tǒng)的智能性，減少誤判現(xiàn)象。

因此針對目前垃圾郵件過濾技術(shù)發(fā)展的狀況，本文的作者在查閱有關(guān)的郵件過濾技術(shù)之后，提出了一種新的郵件過濾算法，以下是本文提出的郵件過濾算法描述。

3郵件的特征屬性

3.1區(qū)分垃圾郵件與正常郵件主要的屬性

①發(fā)件人地址和回復(fù)地址是否相同，②郵件抄送個數(shù)，③郵件主題，④X-Mailer信頭，⑤Received：字段出現(xiàn)次數(shù)，⑥是否含有偽造Received字段，⑦信體中關(guān)鍵詞個數(shù)，⑧郵件附件類型，⑨郵件正文大小[5]。

在郵件的特性中：屬性郵件正文內(nèi)容的屬性有：①信體中關(guān)鍵詞個數(shù)，②郵件附件類型，③郵件正文大小[5]。屬于郵件結(jié)構(gòu)的屬性有：①發(fā)件人地址和回復(fù)地址是否相同， ②郵件抄送個數(shù)，③郵件主題，④XMailer信頭，⑤Received字段出現(xiàn)次數(shù)，⑥是否含有偽造Received字段[5]。

3.2本文過濾垃圾郵件時采用的郵件屬性

郵件結(jié)構(gòu)特征屬性：①發(fā)件人地址和回復(fù)地址是否相同， ②郵件抄送個數(shù)，③郵件主題，⑤Received：字段出現(xiàn)次數(shù)，⑥是否含有偽造Received字段[5]。

郵件的正文內(nèi)容特征屬性：⑦信體中關(guān)鍵詞個數(shù)，⑧郵件附件類型，⑨郵件正文大小[5]。

4黑/白名單對已知的郵件進(jìn)行分類

1）電子郵件中存在兩種屬性的郵件：①正常的郵件，②垃圾郵件。

2）黑名單的郵件是垃圾郵件，白名單的郵件是正常郵件。

5歐氏距離公式與相似性計算

5.1歐氏距離公式的簡介

在聚類算法中研究人員常常使用歐氏距離作為聚類對象屬性之間相似性計算，常用的公式有歐氏距離公式和馬氏距離公式。因此本文采用歐氏距離作為衡量對象相似性的計算公式。

歐氏距離計算公式[6-7]：

5.3區(qū)分垃圾郵件與正常郵件主要的屬性等待識別的郵件A′與已知郵件A之間的相似性計算

函數(shù)：f（x）=1-等待識別郵件的屬性已知郵件的屬性（1）

在本文中采用A′表示等待識別的郵件，用A表示已知郵件。

說明：y=f（x）的含義是等待識別的郵件偏離與已知郵件屬性的函數(shù)。

函數(shù)：g（x）=1-f（x）（2）

說明：y=g（x）的含義是等待識別郵件與已知郵件相似性的函數(shù)。

分析和討論：

1）郵件A′與郵件A的相似性計算

（1）如果郵件A′的某個屬性值十分接近于郵件A的某個屬性值時，那么XipXjp的比值將十分逼近1值。如果XipXjp的比值十分逼近1時，那么函數(shù)f（x）=1-XipXjp就十分接近于0的值，這時郵件A′的屬性值偏離郵件A的屬性值將趨向于0。根據(jù)以上的分析有此結(jié)論：如果y=f（x）的值越小，則郵件A′的屬性偏離郵件A的概率就越小。

（2）如果y=f（x）的值越小，.那么g（x）=1-f（x）的值就越大，就表示郵件A′的屬性偏離郵件A屬性的概率就越小，那么郵件A′的屬性與郵件A的相似的概率就越大。根據(jù)以上的分析有此結(jié)論：此時等待識別郵件的屬性與已知郵件屬性的相似度就越強(qiáng)

2）郵件A′偏離郵件A屬性的計算

（1）如果郵件A′的某個屬性值大于郵件A的某個屬性值時，那么XipXjp的比值將大于1時。當(dāng)XipXjp的比值越大時，函數(shù)f（x）=1-XipXjp的值大于0的程度就越明顯，則這時郵件A′的屬性值偏離郵件A的程度就越大。

如果y=f（x）的值越大，那么g（x）=1-f（x）的值就越小，就表示郵件A′的屬性偏離郵件A的概率就越大。這時郵件A′的屬性與郵件A相似的概率就越小，則等待識別郵件的屬性與已知郵件屬性之間的相似度就越弱。

（2）如果郵件A′的某個屬性值小于郵件A的某個屬性值時，那么XipXjp的比值將小于1時。當(dāng)XipXjp的比值越小時，則郵件A′的屬性偏離郵件A的概率就越大。

如果y=f（x）的值越大，那么g（x）=1-f（x）的值就越小，就表示郵件A′的屬性偏離郵件A的概率就越大。這時郵件A′的屬性與郵件A的相似的概率就越小，則等待識別郵件的屬性與已知郵件屬性之間的相似度就越弱。

3）根據(jù)以上分析和討論，以下使用第5節(jié)和第6節(jié)中的MMTD算法實現(xiàn)郵件A′與郵件A屬性相似度上的匹配。

6歐氏距離公式與相似性計算

6.1中介真值程度度量知識簡介

中介邏輯將事物的屬性描述成三種狀態(tài)，事物屬性的兩個對立面和對立面的中間過渡狀態(tài)。在中介真值程度度量方法中，提出了事物超態(tài)屬性概念，該方法符合中介思想事物的屬性并且被劃分為五種狀態(tài)：事物的兩個對立面，對立面的中間過渡狀態(tài)和事物超態(tài)對立面[12-13]。這里用符號表示為～P，P與P，超態(tài)+p與超態(tài)+p。現(xiàn)用數(shù)軸將以上的描述的概念表達(dá)如下[12-13]：

對數(shù)軸y=f（x）表示的含義有以下說明[12-13]：

數(shù)軸上用符號P與P分別表示事物對立面的兩個屬性，符號～P表示反對對立面的中間過渡狀態(tài)達(dá)事物的屬性。

1）如果數(shù)軸上數(shù)值點(diǎn)的位置逐步接近P，則事物A所具有P的屬性逐步增強(qiáng)

2）如果該數(shù)值點(diǎn)的位置落在真值P和 P的取范圍之間，則事物A的屬性就部分地具有P的屬性，同時又部分地具有P的屬性。

3）如果數(shù)軸上數(shù)值點(diǎn)的位置逐步接近P，則事物A所具有P的屬性逐步增強(qiáng)。

6.2距離比率函數(shù)及其定理

在中介真值程度度量的方法中，數(shù)軸上某數(shù)值點(diǎn)通過距離比率函數(shù)來計算事物所具有屬性的強(qiáng)弱。

7MMTD方法在郵件相似度計算上的應(yīng)用

7.1度量函數(shù)及其討論

度量函數(shù)：y=f（x）=1-δ（1）

說明：δ表示的含義是由歐氏距離公式計算的的兩封郵件某種屬性之間的比值，如果兩封郵件屬性的相似程度較好，那么有δ≈1。

分析和討論：

1）δ=1時

如果y=f（x）=1-δ=0，那么表示這兩封郵件的屬性完全相同。這時郵件屬性的相似性強(qiáng)。

2）δ≈1時

如果y=f（x）=1-δ≈0，那么表示這封兩郵件屬性的相似性部分強(qiáng)部分弱。

3）δ>1時

如果y=f（x）=1-δ>1，y=f（x）的值越大，那么表示這兩封郵件的屬性值就相差很大，這時郵件屬性的相似性就弱，那么這兩封郵件屬于不相同郵件的幾率就越大。

4）δ<1時

如果y=f（x）=1-δ<1，y=f（x）的值越小，那么表示這兩封郵件的屬性值就相差很大，這時郵件屬性的相似性就弱，那么這兩封郵件屬于不相同郵件的幾率就越大。

7.2使用中介對郵件相似匹配的描述

1）以下用中介真值程度度量方法對郵件A′與郵件A的相似度做以下的研究：

數(shù)軸y=f（x）上有P，～P，P三個數(shù)據(jù)區(qū)域，P代表郵件屬性的相似性強(qiáng)，P代表郵件屬性的相似性弱，～P代表郵件屬性的相似性部分強(qiáng)部分弱。

從數(shù)軸上y=f（x）可以知道，在數(shù)軸上以～P為對稱中心，左右分別為P和P。

圖2中介真值程度度量一維函數(shù)的應(yīng)用

y=f（x）的值落在三個值域范圍（αr+εr，αl-εl），（αr-εr，αr+εr），（αl-εl，αl+εl）?！玃的區(qū)域為（αr+εr，αl-εl），P的區(qū)域為（αr-εr，αr+εr），P的區(qū)域為（αl-εl，αl+εl）。P的真值為1，P的真值為0。

2）通過距離比率函數(shù)hT（x）對y值的計算，如果有

（1）若函數(shù)hT（x）=1，y值落在區(qū)域（αl-εl，αl+εl），則此時郵件的屬性相似性強(qiáng)。

（2）若函數(shù)hT（x）=0，y值落在區(qū)域（αr-εr，αr+εr），則此時郵件的屬性相似性弱。

（3）若函數(shù)hT（x）= d（y，αr-εr）d（αl-εl，αr+εr），y值落在區(qū)域（αr+εr，αl-εl），則此時郵件屬性的相似性部分強(qiáng)部分弱。

8郵件的過濾算法

1）使用郵件的黑/白對郵件的屬性進(jìn)行分類：①正常郵件，②垃圾郵件。

2）使用相似性計算算法對未知郵件與已知郵件相似度進(jìn)行計算。

3）使用MMTD算法對相似性的計算結(jié)果進(jìn)行判定，為郵件過濾提供有效的依據(jù)。

4）對垃圾郵件進(jìn)行過濾。

9結(jié)束語

為了應(yīng)對網(wǎng)絡(luò)中的垃圾郵件用戶帶來的危害性，郵件管理人員必須有效的區(qū)分垃圾郵件和正常郵件，從而將垃圾郵件從郵件中過濾除去。本文提出的郵件過濾算法采用了兩種智能性算法，相似性計算算法和MMTD算法，該算法在一定程度能夠自動識別未知屬性的郵件，能夠減少在過濾郵件時的誤判率，提高郵過濾技術(shù)的精確性。但已知郵件的特征選取時是否具有選擇性，如何選取具有代表的郵件屬性還需要進(jìn)一步的研究。

最后該垃圾過濾技術(shù)與傳統(tǒng)垃圾過濾技術(shù)改進(jìn)之處在于：①改進(jìn)了黑白名單的郵件過濾技術(shù)不能發(fā)現(xiàn)新的垃圾郵件的缺點(diǎn)，②改進(jìn)了基于過濾規(guī)則的郵件過濾技術(shù)，由郵件屬性的精確匹配變?yōu)猷]件屬性的模糊匹配，③根據(jù)已知的郵件特征能夠發(fā)現(xiàn)未知的垃圾郵件。

參考文獻(xiàn)

[1]曾小寧.一種新的垃圾郵件過濾技術(shù)的研究與實現(xiàn)[J].計算機(jī)應(yīng)用與軟件，2009， 26（7）：98-101.

[2]范黎明.一種用于垃圾郵件過濾的中文關(guān)鍵詞匹配算法[J].河南科技大學(xué)學(xué)報，2006，27（5）：35-37.

[3]陳志賢.垃圾郵件過濾技術(shù)研究綜述[J].計算機(jī)應(yīng)用研究，2009，26（5）：1612-1615.

[4]陳治平.基于自學(xué)習(xí)K近鄰的垃圾郵件過濾算法[J].計算機(jī)應(yīng)用，2005（25）：7-9.

[5]潘文鋒.基于內(nèi)容的垃圾郵件過濾研究[D].中國科學(xué)院研究生院，2004.

[6]孟海東，張玉英，宋飛燕.一種基于加權(quán)歐氏距離聚類方法的研究[J].計算機(jī)應(yīng)用，2006，26（12）：152-153.

[7]董旭，魏振軍.一種加權(quán)歐氏距離聚類方法[J].信息工程大學(xué)學(xué)報，2005， 6（1）：23-25.

[8]彭洪，張東娜，吳鐵峰.惡意程序檢測的粗糙集方法[J].計算機(jī)應(yīng)用與軟件，2005，22（7）：124-125.

[9]邵峰晶，于忠清，王金龍，等編著.數(shù)據(jù)挖掘原理與算法[M].科學(xué)出版社，2009.

[10]羅森林，馬駿，潘麗敏編著.數(shù)據(jù)挖掘理論與技術(shù)[M].電子工業(yè)出版時，2013.

[11]MITCHELL T著.機(jī)器學(xué)習(xí)[M].機(jī)械工業(yè)出版社，2013.

[12]洪龍，肖奚安，朱梧槚.中介真值程度的度量及其應(yīng)用（I）[J].計算機(jī)學(xué)報，2006，（12）：2186-2193.

[13]朱梧槚，肖奚安.數(shù)學(xué)基礎(chǔ)與模糊數(shù)學(xué)基礎(chǔ)[J].自然雜志，1980，（7）：723-726.

99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

一種新的郵件過濾技術(shù)研究