• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      對(duì)抗垃圾郵件

      2012-01-28 13:44:01劉衛(wèi)紅
      中國(guó)教育網(wǎng)絡(luò) 2012年2期
      關(guān)鍵詞:垃圾郵件貝葉斯郵件

      文/劉衛(wèi)紅

      對(duì)抗垃圾郵件

      文/劉衛(wèi)紅

      目前,垃圾郵件占發(fā)送郵件的比例已經(jīng)從1998年的10%上升到現(xiàn)在的92.3%。從垃圾郵件的發(fā)展歷史來看,垃圾郵件具有內(nèi)容多樣化以及技術(shù)復(fù)雜化的趨勢(shì)。垃圾郵件與反垃圾郵件之間的斗爭(zhēng)就是一場(chǎng)博弈。

      在信息爆炸時(shí)代,在互聯(lián)網(wǎng)上除了擁有許多有效信息外,還充斥著許多垃圾信息,這給人們?cè)谙硎芫W(wǎng)上沖浪樂趣的同時(shí)帶來很大的困擾。防御和檢測(cè)垃圾信息已成為當(dāng)前互聯(lián)網(wǎng)技術(shù)中的一個(gè)重要課題。

      垃圾郵件偽裝術(shù)

      垃圾郵件現(xiàn)在還沒有一個(gè)非常嚴(yán)格的定義,一般說來,凡是未經(jīng)用戶許可就強(qiáng)行發(fā)送到用戶郵箱中的任何電子郵件都可稱作是垃圾郵件。垃圾郵件包含的內(nèi)容種類繁多,包括賺錢信息、成人廣告、商業(yè)或個(gè)人網(wǎng)站廣告、電子雜志、連環(huán)信等。

      對(duì)信息進(jìn)行偽裝后發(fā)送是目前垃圾制造者經(jīng)常甚至必須采取的手段。隨著反垃圾信息技術(shù)的提高,制作者的偽裝手段也日益復(fù)雜,目前已經(jīng)從簡(jiǎn)單的在垃圾信息中加入隨機(jī)詞、對(duì)URL偽裝等方式演變?yōu)槭褂梦淖肿冃危踔翆⒗畔⒎湃雸D片等復(fù)雜手段。垃圾郵件制造者通過多種方法對(duì)發(fā)送的信息進(jìn)行偽裝,主要的方法有:變形文字、噪聲文字和圖片垃圾。

      變形文字

      目前,這種方法被垃圾制造者普遍采用,其原理是采用誤拼寫或使用替代字符的方法將垃圾信息進(jìn)行變形,以達(dá)到改變信息校驗(yàn)和、干擾基于內(nèi)容過濾器對(duì)詞條特征提取的目的。

      噪聲文字

      在垃圾郵件中加入噪聲文字以躲避過濾器的檢查也是垃圾信息制造者經(jīng)常采用的手法。該方法經(jīng)常用于攻擊基于統(tǒng)計(jì)學(xué)習(xí)方法的過濾器,如貝葉斯、支持向量機(jī)、最大熵過濾器等。根據(jù)所加入的噪聲詞的類型,這種方法可以進(jìn)一步分為:隨機(jī)文字攻擊和好詞攻擊。

      圖片垃圾(Image Spam)

      圖片垃圾是將郵件的文本信息放在GIF或JPEG圖片中,對(duì)垃圾郵件進(jìn)行偽裝。圖片垃圾可使垃圾郵件避開基于內(nèi)容的垃圾郵件過濾器的檢測(cè)。

      通常,圖片垃圾中包含一些用來迷惑收件人的無意義的計(jì)算機(jī)自動(dòng)生成的文字。

      除了以上幾種主要手段外,目前在電子垃圾郵件中還經(jīng)常使用H T M L編碼、JavaScript程序、主題欺騙等手段。

      檢測(cè)及過濾垃圾郵件之法

      目前垃圾郵件占發(fā)送郵件的比例已經(jīng)從1998年的10%上升到現(xiàn)在的92.3%。從垃圾郵件的發(fā)展歷史以及上文的分析來看,垃圾郵件具有內(nèi)容多樣化以及技術(shù)復(fù)雜化的趨勢(shì)。垃圾郵件與反垃圾郵件一直是一場(chǎng)博弈。為對(duì)抗垃圾郵件,國(guó)內(nèi)外研究人員提出許多檢測(cè)和過濾垃圾郵件的技術(shù)。

      法律法規(guī)

      目前,大多數(shù)國(guó)家政府針對(duì)垃圾郵件有相應(yīng)的立法,并采取多種法律手段來反擊垃圾郵件。但是對(duì)于大量的垃圾郵件,法律的作用是微乎其微的, 甚至由于只要遵守一定的規(guī)則, 就可以大量發(fā)送廣告郵件——法律在一定程度上促進(jìn)垃圾郵件的發(fā)展。協(xié)議的改進(jìn)

      協(xié)議的改進(jìn)是指通過改變發(fā)送郵件的方式來過濾郵件,如:需要發(fā)送者的認(rèn)證;按郵件發(fā)送量的大小收取費(fèi)用;通過驗(yàn)證郵件是否來自合法區(qū)域及是否帶有正確的密碼來識(shí)別合法郵件。這些協(xié)議大多提供較完整的解決方案,卻往往因?yàn)樾枰獙?duì)現(xiàn)有的郵件協(xié)議進(jìn)行升級(jí)或替換,應(yīng)用部署受到限制,很難在電子郵件用戶中推廣。

      過濾技術(shù)

      對(duì)抗垃圾郵件最主要的技術(shù)是過濾技術(shù),主要用于MDA(Mail Deliver Agent)和MUA(Mail User Agent)。典型的垃圾郵件過濾技術(shù)有:黑白名單、規(guī)則過濾、概率統(tǒng)計(jì)分類等。

      1. 黑白名單過濾

      黑白名單是一個(gè)簡(jiǎn)單有效而最為常用的過濾方法,國(guó)內(nèi)外已成立權(quán)威性的反垃圾郵件聯(lián)盟,提供實(shí)時(shí)的黑白名單,如中國(guó)反垃圾郵件聯(lián)盟的實(shí)時(shí)黑名單RBL,包括近期中國(guó)國(guó)內(nèi)的主要垃圾郵件發(fā)送源、中國(guó)國(guó)內(nèi)動(dòng)態(tài)分配地址等。

      該方法的優(yōu)點(diǎn)是對(duì)垃圾郵件處理能力的要求低,它能夠節(jié)省大量的帶寬、存儲(chǔ)容量和處理時(shí)間。缺點(diǎn)是不夠靈活,對(duì)垃圾郵件的判別準(zhǔn)確度不高。

      2. 基于規(guī)則過濾

      通常也稱之為啟發(fā)式過濾技術(shù),它是利用電子郵件半結(jié)構(gòu)化的特點(diǎn),先使用人工或者自動(dòng)的方法總結(jié)出正常郵件或者垃圾郵件之間的共性,據(jù)此來生成一系列規(guī)則。設(shè)置一些過濾規(guī)則,這些規(guī)則通常有信頭分析、群發(fā)過濾、關(guān)鍵詞精確匹配以及郵件內(nèi)容中的其他特征。當(dāng)郵件到達(dá)或者發(fā)送郵件的行為產(chǎn)生時(shí),通過查找已有的垃圾郵件的匹配模式來過濾垃圾郵件,這需要開發(fā)商不斷地更新郵件規(guī)則。

      基于規(guī)則過濾方法的優(yōu)點(diǎn)是規(guī)則可以共享,較易理解和修改、易推廣。其缺點(diǎn)主要在于:由于靜態(tài)的規(guī)則集,系統(tǒng)不能自動(dòng)調(diào)整郵件過濾器去識(shí)別新的垃圾郵件特征,需要開發(fā)商構(gòu)造新的識(shí)別規(guī)則;更新速度慢。另外,基于規(guī)則的過濾技術(shù)能夠得到較高的精度,但是如果過濾器調(diào)整為可以達(dá)到100%的精確度,就會(huì)產(chǎn)生很高的誤檢率,這是用戶不能接受的。

      3. 統(tǒng)計(jì)過濾方法

      對(duì)郵件內(nèi)容采用統(tǒng)計(jì)過濾方法具有過濾正確率高、速度快的特點(diǎn),是垃圾郵件處理技術(shù)中最受歡迎的一種方法,具有廣泛的應(yīng)用前景。常見的統(tǒng)計(jì)過濾方法有:貝葉斯方法、SVM、KNN、神經(jīng)網(wǎng)絡(luò)等。

      (1) 貝葉斯分類

      貝葉斯分類方法是最常見的基于統(tǒng)計(jì)的垃圾信息過濾方法。貝葉斯分類方法基于貝葉斯定理,其原理是大多數(shù)事件都是相互依賴的,一個(gè)事件將來發(fā)生的概率可以從該事件從前發(fā)生的概率進(jìn)行推斷。應(yīng)用同樣的原理可以對(duì)郵件進(jìn)行分類:利用已知的郵件,建立垃圾郵件和正常郵件關(guān)鍵詞的貝葉斯概率模型,然后利用該模型對(duì)新郵件進(jìn)行判斷,判斷郵件是否為垃圾郵件。M.Sahami等人早在1998年就驗(yàn)證貝葉斯算法在垃圾郵件過濾中成功的應(yīng)用效果。而樸素貝葉斯分類算法及其變體的發(fā)展及其應(yīng)用, 擴(kuò)展了貝葉斯算法。

      采用貝葉斯過濾方法的優(yōu)點(diǎn)是:對(duì)訓(xùn)練樣本進(jìn)行一次掃描,再進(jìn)行統(tǒng)計(jì)分析,具有較優(yōu)的效率;占用的存儲(chǔ)空間少。由于這樣的優(yōu)點(diǎn),因此貝葉斯算法在現(xiàn)有的郵件產(chǎn)品中得到廣泛的應(yīng)用。

      貝葉斯過濾方法也有其局限性,主要是對(duì)訓(xùn)練樣本的依賴性大以及對(duì)中文郵件的處理效果不夠顯著。貝葉斯方法對(duì)于純文本的垃圾郵件可以取得較高的過濾性能,但是對(duì)于包含多媒體以及非英文的郵件來說,貝葉斯方法具有其局限性。

      (2) 自學(xué)習(xí)K近鄰算法

      K近鄰(K-Nearest Neighbor, KNN)是常用的基于內(nèi)容的文本分類方法。分類時(shí)直接將待分類文本與訓(xùn)練集合中的每個(gè)文本進(jìn)行比較,根據(jù)前K篇相似的文本得到新文本的類別(最簡(jiǎn)單的情況可以根據(jù)K篇文本所屬的類別數(shù)的多少來確定最后類別)。KNN的原理非常直觀,也很容易理解,在文本分類中KNN常常能夠取得好的結(jié)果。

      它是基于要求的或懶散的學(xué)習(xí)方法,它所存放的樣本,直到新樣本需要分類時(shí)才建立分類,這使得訓(xùn)練集合隨著多變的垃圾郵件而隨時(shí)變化,有利于郵件精確識(shí)別。

      (3)支持向量機(jī)SVM

      支持向量機(jī)(Support Vector Machine,SVM)是在20世紀(jì)90年代發(fā)展起來的一種統(tǒng)計(jì)學(xué)習(xí)方法。SVM是建立在統(tǒng)計(jì)學(xué)習(xí)理論和結(jié)構(gòu)風(fēng)險(xiǎn)最小化原理基礎(chǔ)上的。它通過構(gòu)造最優(yōu)線性分類面來指導(dǎo)分類。SVM提供一個(gè)與問題維數(shù)無關(guān)的刻畫函數(shù)復(fù)雜性的方法,它引入高維特征空間,將輸入空間的非線性決策邊界轉(zhuǎn)化為高維特征空間的線性決策邊界,利用線性函數(shù)的對(duì)偶核,解決了數(shù)值優(yōu)化的二次規(guī)劃求解問題,再根據(jù)有限的樣本信息的模型的復(fù)雜性和學(xué)習(xí)能力之間尋求最佳折中。

      SVM在解決小樣本學(xué)習(xí)、非線性及高維模式識(shí)別中表現(xiàn)較好。SVM可直接用于線性可分問題,對(duì)于線性不可分的情形,可通過構(gòu)造一個(gè)轉(zhuǎn)換,將問題轉(zhuǎn)換到一個(gè)新的線性可分空間中。SVM方法也具有局限性,其計(jì)算量大、速度慢、參數(shù)選擇經(jīng)驗(yàn)性強(qiáng)等缺點(diǎn),不能得到很好的解決,通常需要結(jié)合其他方法進(jìn)行彌補(bǔ)。

      (4)神經(jīng)網(wǎng)絡(luò)

      人工神經(jīng)網(wǎng)絡(luò)是在對(duì)人腦組織結(jié)構(gòu)和運(yùn)行機(jī)制的認(rèn)識(shí)理解基礎(chǔ)上模擬其結(jié)構(gòu)和智能行為的一種工程結(jié)構(gòu),是基于生物學(xué)的神經(jīng)網(wǎng)絡(luò)基本原理建立的。

      神經(jīng)網(wǎng)絡(luò)的優(yōu)點(diǎn)在于具有較強(qiáng)的自適應(yīng)性、學(xué)習(xí)能力以及大規(guī)模平行計(jì)算能力,其缺點(diǎn)是消耗大量時(shí)間、在處理在線或需快速反饋的問題時(shí)不宜使用此方法。

      (5)其他過濾算法

      由于垃圾郵件特征品類多、變化大、因此應(yīng)對(duì)垃圾郵件的反垃圾郵件技術(shù)也多種多樣。除上文所敘述的過濾技術(shù)外,國(guó)內(nèi)外研究人員還研究其他反垃圾郵件過濾技術(shù),例如:指紋技術(shù)、基于語義技術(shù)、簽名、Boosting算法、 本體技術(shù)以及其他將多種過濾技術(shù)組合應(yīng)用的垃圾郵件過濾技術(shù)等,這幾種垃圾郵件的檢測(cè)與過濾技術(shù)都有其自身的優(yōu)點(diǎn)和缺點(diǎn)。隨著作弊技術(shù)的不斷發(fā)展和變化,垃圾郵件的檢測(cè)與過濾技術(shù)也要不斷地發(fā)展和變化。

      (作者單位為華南理工大學(xué)信息網(wǎng)絡(luò)工程研究中心)

      [1]James John Farmer. 3.4 Specific Types of Spam .An FAQ for news.admin.net- abuse.email.http://web.archive.org/web/20040212175535/http://www.spamfaq.net/terminology.shtml#specific_spams.

      [2]http://www.spamhaus.org/definition.html.

      [3]John G.C. The Spammers' Compendium. http://popfile.sourceforge.net/SpamConference011703.pdf, 2007.

      [4]B. Biggio, G. Fumera, I. Pillai, and F. Roli. Image spam filtering by content obscuring detection. in CEAS 2007 - The Third Conference on Email and Anti-Spam, 2007.

      [5]美俄為垃圾郵件大戶 每3秒出現(xiàn)一個(gè)垃圾網(wǎng)頁. 2008年.http://tech.163.com/ 08/0421 /16/4A2M0JVU000915BF.html.

      [6]新加坡將出垃圾郵件管理?xiàng)l例 違規(guī)郵件罰款.2007年.http://www.20ju. com/content/V4613.htm.

      [7]M.Sahami,S.Dumais, A Bayesian approach to filtering junk E-Mail, Proceedings of the Fifteenth National Conference on Artificial Intelligence, Madison, pp.55- 62,July 1998.

      [8]M.Sahami,S.Dumais, A Bayesian approach to filtering junk E-Mail, Proceedings of the Fifteenth National Conference on Artificial Intelligence, Madison, pp.55- 62,July 1998.

      [9]陳治平.基于自學(xué)習(xí)K 近鄰的垃圾郵件過濾算法[J]. 計(jì)算機(jī)應(yīng)用,2005,(25)pp:1- 8.

      [10]B. E. Boser, I. Guyon, and V. Vapnik. A training algorithm for optimal margin classifiers. In Proceedings of the Fifth Annual Workshop on Computational Learning Theory, ACM Press ,1992.pp:144-152.

      [11]Weihong Liu,Weidong Fang.Adaptive Spam Filtering Based on Fingerprint Vectors. : Computing, Communication, Control, and Management, 2008. CCCM '08. ISECS.Aug.2008. pp: 384-388.

      猜你喜歡
      垃圾郵件貝葉斯郵件
      基于James的院內(nèi)郵件管理系統(tǒng)的實(shí)現(xiàn)
      從“scientist(科學(xué)家)”到“spam(垃圾郵件)”,英語單詞的起源出人意料地有趣 精讀
      英語文摘(2021年10期)2021-11-22 08:02:36
      一種基于SMOTE和隨機(jī)森林的垃圾郵件檢測(cè)算法
      一封郵件引發(fā)的梅賽德斯反彈
      車迷(2018年12期)2018-07-26 00:42:32
      貝葉斯公式及其應(yīng)用
      基于貝葉斯估計(jì)的軌道占用識(shí)別方法
      基于支持向量機(jī)與人工免疫系統(tǒng)的垃圾郵件過濾模型
      一種基于貝葉斯壓縮感知的說話人識(shí)別方法
      電子器件(2015年5期)2015-12-29 08:43:15
      IIRCT下負(fù)二項(xiàng)分布參數(shù)多變點(diǎn)的貝葉斯估計(jì)
      石器部落
      中阳县| 萍乡市| 翁牛特旗| 神农架林区| 德兴市| 常宁市| 砚山县| 曲阜市| 嵩明县| 竹山县| 新邵县| 定西市| 老河口市| 鲁甸县| 汝阳县| 长垣县| 三江| 吴川市| 南城县| 同仁县| 开封市| 双鸭山市| 博湖县| 茂名市| 紫阳县| 民县| 舞钢市| 张家界市| 林口县| 河源市| 广州市| 化德县| 呼和浩特市| 保亭| 金湖县| 庆云县| 绍兴县| 弋阳县| 巩义市| 高碑店市| 绥宁县|