徐銳
摘 要:在當(dāng)今的社會(huì),網(wǎng)絡(luò)技術(shù)的應(yīng)用已經(jīng)滲入到了生活中的各個(gè)方面,而在日常工作當(dāng)中電子郵件已經(jīng)成為互相溝通傳遞信息的一項(xiàng)重要手段。但在電子郵件的使用過程中,我們都會(huì)遇到一個(gè)困擾那就是垃圾郵件。針對垃圾郵件互聯(lián)雖然已經(jīng)推出了很多方法,但是垃圾郵件并未因此而得到有效遏制,反而日益猖狂。本文主要介紹了一種較新型的反垃圾郵件技術(shù)——貝葉斯過濾技術(shù),分析其基本原理,優(yōu)點(diǎn)和缺點(diǎn),以作為防范垃圾郵件的技術(shù)探討。
關(guān)鍵詞:垃圾郵件 反垃圾郵件 貝葉斯算法
自電子郵件被越來越多的人們使用以來,垃圾郵件的問題一直困擾著電子郵件的使用者,人們也找到了很多的解決之道,從早期的關(guān)鍵字匹配,到通過連接頻率來提高發(fā)送垃圾郵件的成本,再到設(shè)立專用服務(wù)器,提供RBL實(shí)時(shí)黑名單查詢,直到全世界范圍內(nèi)關(guān)于垃圾郵件立法的呼吁。無論哪種方式方法,要想從根本上解除垃圾郵件的泛濫,還是需要一套能夠有效防范垃圾郵件的安全技術(shù)。
一、垃圾郵件的產(chǎn)生和無法避免的技術(shù)原因
垃圾郵件(SPAM) 也稱作UCE(Unsoticited Commercial Email.未經(jīng)許可的商業(yè)電子郵件)或UBE(Unsolicited Bulk Email,未經(jīng)許可的大量電子郵件)。首次關(guān)于垃圾郵l件的記錄是1985年8月的一封通過電子郵件發(fā)送的連鎖信,一直持續(xù)到1993年6月出現(xiàn)了名為“Make Money Fast 的電子郵件。1994年4月SPAM一詞首次出現(xiàn).當(dāng)時(shí)Canter和Siegel律師事務(wù)所把一封信發(fā)送到6000多個(gè)新聞組,宣傳獲得美國國內(nèi)綠卡的法律支持。這時(shí)開始,很多商人瓤利用垃圾郵件廣告。1995年首個(gè)專門用于發(fā)送垃圾郵件的程序Floodgate發(fā)布,詼程序能夠自動(dòng)地把郵件發(fā)送給大批人。同年8月開始出現(xiàn)出售郵件地址的事件。從此,垃圾郵件頻頻出現(xiàn).也引起了人們的反感。[1]
當(dāng)前郵件傳輸?shù)闹饕獏f(xié)議是SMTP協(xié)議,從設(shè)計(jì)之初,為了滿足簡單傳輸?shù)男枰?,該協(xié)議沒有任何認(rèn)證手段,因此缺省的SMTP郵件服務(wù)器對于郵件的來源和目的地不做控制而是支持發(fā)送。[2]
隨著垃圾郵件的泛濫,大部分的郵件服務(wù)器都關(guān)閉了OpenRelay,在發(fā)送方和發(fā)送服務(wù)器之間進(jìn)行認(rèn)證,從而保證只有合法用戶才能使用這臺服務(wù)器發(fā)送郵件,這就是增強(qiáng)的ESMTP協(xié)議。然而這個(gè)方法無法解決在發(fā)送服務(wù)器和接收服務(wù)器之間的合法認(rèn)證,垃圾郵件仍然無法避免。[3]
2.貝葉斯算法的優(yōu)劣
貝葉斯風(fēng)險(xiǎn)是衡量一個(gè)決策法則的好壞的標(biāo)準(zhǔn)。一般來說,多數(shù)情況下,對于某一個(gè)(或某些)狀態(tài)θ值,決策法則δ?的風(fēng)險(xiǎn)函數(shù)值ρ(θ,δ?)最?。欢鴮τ诹硪粋€(gè)(或另一些)θ值,另一個(gè)決策法則δ?的風(fēng)險(xiǎn)函數(shù)最小,因此,評價(jià)一個(gè)決策法則的好壞,只能用在各種不同狀態(tài)下其風(fēng)險(xiǎn)函數(shù)的平均值來衡量。貝葉斯風(fēng)臉β(δ)就是當(dāng)決策法則為δ,在狀態(tài)θ下風(fēng)險(xiǎn)函數(shù)的平均值,決策法則一經(jīng)確定,其貝葉斯風(fēng)險(xiǎn)即為一常數(shù)。它反映出利用這一決策法則決策的平均損失。
因?yàn)樨惾~斯算法是基于先驗(yàn)概率和樣本信息來計(jì)算后驗(yàn)概率的方法,所以其對于樣本積累的數(shù)量具有很大的依賴性,需要一個(gè)較長的過程,開始的時(shí)候,可能會(huì)發(fā)生很大的誤判和漏判現(xiàn)象,只有當(dāng)積累的樣本數(shù)量足夠多,其檢測精度才能到達(dá)一定高度并為用戶所接受。
3.結(jié)和展望
隨著網(wǎng)絡(luò)成熟,將貝葉斯過濾技術(shù)應(yīng)用到反垃圾郵件技術(shù)中, 可以說是一種嘗試,也是反垃圾郵件技術(shù)領(lǐng)域中的一個(gè)研究方向。目前,對于貝葉斯技術(shù)的應(yīng)用正在成為反垃圾郵件領(lǐng)域的一個(gè)研究熱點(diǎn),越來越多的專用發(fā)垃圾郵件產(chǎn)品正在嘗試使用貝葉斯過濾技術(shù)來提高其產(chǎn)品的檢測精度,降低管理成本。
參考文獻(xiàn)
[1]倪加勛,袁衛(wèi),應(yīng)用統(tǒng)計(jì)學(xué),北京中國人民大學(xué)出版社,1993.
[2]郭泓,電子郵件過濾技術(shù)淺析,信息網(wǎng)絡(luò)安全.2002.
[3]王斌,潘文峰,基于內(nèi)容的垃圾郵件過濾技術(shù)綜述,中國科學(xué)院計(jì)算機(jī)技術(shù)研究所碩士畢業(yè)論文.2004.
[4]托馬斯·貝葉斯 .智庫[引用日期2013-03-07].
[5]條件概率和貝葉斯定理 .中國開放教育資源聯(lián)合體[引用日期2013-01-07].
[6]An Essay towards solving a Problem in the Doctrine of Chance. Philosophical Transactions of the Royal Society of London .1763[引用日期2015-03-31].
[7]貝葉斯定理-貝葉斯 .貝葉斯定理.2014-03-21[引用日期2014-03-21].