• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      在反垃圾郵件技術(shù)中貝葉斯算法的應(yīng)用

      2018-06-05 03:05:20
      關(guān)鍵詞:垃圾郵件哈希電子郵件

      (遼寧廣播電視學(xué)校本溪分校 遼寧本溪 117000)

      自電子郵件被越來越多的人們使用以來,垃圾郵件的問題一直困擾著電子郵件的使用者,人們也找到了很多的解決之道,從早期的關(guān)鍵字匹配,到通過連接頻率來提高發(fā)送垃圾郵件的成本,再到設(shè)立專用服務(wù)器,提供RBL實(shí)時(shí)黑名單查詢,直到全世界范圍內(nèi)關(guān)于垃圾郵件立法的呼吁。無論哪種方式方法,要想從根本上解除垃圾郵件的泛濫,還是需要一套能夠有效防范垃圾郵件的安全技術(shù)。

      一、垃圾郵件的產(chǎn)生和無法避免的技術(shù)原因

      垃圾郵件(SPAM) 也稱作UCE(Unsoticited Commercial Email.未經(jīng)許可的商業(yè)電子郵件)或UBE(Unsolicited Bulk Email,未經(jīng)許可的大量電子郵件)。首次關(guān)于垃圾郵l件的記錄是1985年8月的一封通過電子郵件發(fā)送的連鎖信,一直持續(xù)到1993年6月出現(xiàn)了名為“Make Money Fast 的電子郵件。1994年4月SPAM一詞首次出現(xiàn).當(dāng)時(shí)Canter和Siegel律師事務(wù)所把一封信發(fā)送到6000多個(gè)新聞組,宣傳獲得美國(guó)國(guó)內(nèi)綠卡的法律支持。這時(shí)開始,很多商人瓤利用垃圾郵件廣告。1995年首個(gè)專門用于發(fā)送垃圾郵件的程序Floodgate發(fā)布,詼程序能夠自動(dòng)地把郵件發(fā)送給大批人。同年8月開始出現(xiàn)出售郵件地址的事件。從此,垃圾郵件頻頻出現(xiàn).也引起了人們的反感。[1]

      當(dāng)前郵件傳輸?shù)闹饕獏f(xié)議是SMTP協(xié)議,從設(shè)計(jì)之初,為了滿足簡(jiǎn)單傳輸?shù)男枰?,該協(xié)議沒有任何認(rèn)證手段,因此缺省的SMTP郵件服務(wù)器對(duì)于郵件的來源和目的地不做控制而是支持發(fā)送。[2]

      隨著垃圾郵件的泛濫,大部分的郵件服務(wù)器都關(guān)閉了OpenRelay,在發(fā)送方和發(fā)送服務(wù)器之間進(jìn)行認(rèn)證,從而保證只有合法用戶才能使用這臺(tái)服務(wù)器發(fā)送郵件,這就是增強(qiáng)的ESMTP協(xié)議。然而這個(gè)方法無法解決在發(fā)送服務(wù)器和接收服務(wù)器之間的合法認(rèn)證,垃圾郵件仍然無法避免。[3]

      二、貝葉斯過濾技術(shù)介紹

      1.貝葉斯公式

      貝葉斯定理由英國(guó)數(shù)學(xué)家貝葉斯 ( Thomas Bayes 1702-1761 ) 發(fā)展,用來描述兩個(gè)條件概率之間的關(guān)系,比如 P(A|B) 和 P(B|A)。按照乘法法則,可以立刻導(dǎo)出:P(A∩B) = P(A)*P(B|A)=P(B)*P(A|B)。如上公式也可變形為:P(B|A) = P(A|B)*P(B) / P(A)。[4]

      通常,事件A在事件B(發(fā)生)的條件下的概率,與事件B在事件A的條件下的概率是不一樣的;然而,這兩者是有確定的關(guān)系,貝葉斯法則就是這種關(guān)系的陳述。作為一個(gè)規(guī)范的原理,貝葉斯法則對(duì)于所有概率的解釋是有效的;然而,頻率主義者和貝葉斯主義者對(duì)于在應(yīng)用中概率如何被賦值有著不同的看法:頻率主義者根據(jù)隨機(jī)事件發(fā)生的頻率,或者總體樣本里面的個(gè)數(shù)來賦值概率;貝葉斯主義者要根據(jù)未知的命題來賦值概率。一個(gè)結(jié)果就是,貝葉斯主義者有更多的機(jī)會(huì)使用貝葉斯法則。貝葉斯法則是關(guān)于隨機(jī)事件A和B的條件概率和邊緣概率的。[5]

      如果事件組A1,A2,……AK為一完備事件組,則對(duì)任意事件B(其P(B)≠0)有:

      貝葉斯公式實(shí)際上是綜合利用先驗(yàn)概率和樣本信息從而計(jì)算后驗(yàn)概率的一種方法。

      2.2 貝葉斯算法在反垃圾郵件技術(shù)中的應(yīng)用

      首先,我們可以將電子郵件分為正常郵件和垃圾郵件兩類,貝葉斯過濾器針對(duì)這兩類郵件進(jìn)行自學(xué)習(xí)。分析每封電子郵件中的每一個(gè)單詞,確定正常郵件和垃圾郵件中詞匯發(fā)送頻率的差異。

      貝葉斯算法分析郵件的工作過程如下:

      (1)過濾器收集大量的垃圾郵件和正常郵件,建立垃圾郵件集和正常郵件集。

      (2)過濾器提取郵件主題和郵件體中的獨(dú)立字串。

      (3)每一個(gè)郵件集對(duì)應(yīng)一個(gè)哈希表,hashtable_good對(duì)應(yīng)正常郵件集而hashtable_bad對(duì)應(yīng)垃圾郵件集。表中存儲(chǔ)TOKEN串到字頻的映射關(guān)系。

      (4)計(jì)算每個(gè)哈希表中TOKEN串出現(xiàn)的概率p=(某TOKEN串的字頻)/(對(duì)應(yīng)哈希表的長(zhǎng)度)

      (5)綜合考慮hashtable_good和hashtable_bad,推斷出當(dāng)新來的郵件中出現(xiàn)某個(gè)TOKEN串時(shí),該新郵件為垃圾郵件的概率。數(shù)學(xué)表達(dá)式為:

      A事件……郵件為垃圾郵件;

      t1,t2……,tn代表TOKEN串,則P(A|ti)表示在郵件中出現(xiàn)TOKEN串ti時(shí),該郵件為垃圾郵件的概率。

      設(shè) P1(ti)=(ti在hashtable_good中的值)

      P2(ti)=(ti在hashtable_bad中的值)

      則P(A|ti)=P1(ti)/[P1(ti)+P2(ti)];

      (6)建立新的哈希表hashtable_probability存儲(chǔ)TOKEN串ti到P(A|ti)的映射

      (7)至此,垃圾郵件集和正常郵件集的學(xué)習(xí)過程結(jié)束。根據(jù)建立的哈希表hashtable_probability可以估計(jì)一封新到的郵件為垃圾郵件的可能性。[6]

      當(dāng)新到一封郵件時(shí),按照步驟(2)生產(chǎn)TOKEN串。查詢hashtable_probability得到該TOKEN串的鍵值。

      假 設(shè) 由 該 郵 件 共 得 到N個(gè)TOKEN串,t1,t2……,tn,hashtable_probability中對(duì)應(yīng)的值為P1,P2,……Pn,P(A|t1,t2,t3……tn)表示在郵件中同時(shí)出現(xiàn)多個(gè)TOKEN串t1,t2……tn時(shí),該郵件為垃圾郵件的概率。由復(fù)合概率公式可得:P(A|t1,t2,t3……tn)=(P1*P2*……PN)/[P1*P2*……PN+(1-P1)*(1-P2)*……(1-PN)]當(dāng)P(A|t1,t2,t3……tn)超過預(yù)定閾值時(shí),就可以判斷郵件為垃圾郵件。

      2.貝葉斯算法的優(yōu)劣

      貝葉斯風(fēng)險(xiǎn)是衡量一個(gè)決策法則的好壞的標(biāo)準(zhǔn)。一般來說,多數(shù)情況下,對(duì)于某一個(gè)(或某些)狀態(tài)θ值,決策法則δ的風(fēng)險(xiǎn)函數(shù)值ρ(θ,δ?)最小;而對(duì)于另一個(gè)(或另一些)θ值,另一個(gè)決策法則δ?的風(fēng)險(xiǎn)函數(shù)最小,因此,評(píng)價(jià)一個(gè)決策法則的好壞,只能用在各種不同狀態(tài)下其風(fēng)險(xiǎn)函數(shù)的平均值來衡量。貝葉斯風(fēng)臉β(δ)就是當(dāng)決策法則為δ,在狀態(tài)θ下風(fēng)險(xiǎn)函數(shù)的平均值,決策法則一經(jīng)確定,其貝葉斯風(fēng)險(xiǎn)即為一常數(shù)。它反映出利用這一決策法則決策的平均損失。

      因?yàn)樨惾~斯算法是基于先驗(yàn)概率和樣本信息來計(jì)算后驗(yàn)概率的方法,所以其對(duì)于樣本積累的數(shù)量具有很大的依賴性,需要一個(gè)較長(zhǎng)的過程,開始的時(shí)候,可能會(huì)發(fā)生很大的誤判和漏判現(xiàn)象,只有當(dāng)積累的樣本數(shù)量足夠多,其檢測(cè)精度才能到達(dá)一定高度并為用戶所接受。

      3.結(jié)和展望

      隨著網(wǎng)絡(luò)成熟,將貝葉斯過濾技術(shù)應(yīng)用到反垃圾郵件技術(shù)中,可以說是一種嘗試,也是反垃圾郵件技術(shù)領(lǐng)域中的一個(gè)研究方向。目前,對(duì)于貝葉斯技術(shù)的應(yīng)用正在成為反垃圾郵件領(lǐng)域的一個(gè)研究熱點(diǎn),越來越多的專用發(fā)垃圾郵件產(chǎn)品正在嘗試使用貝葉斯過濾技術(shù)來提高其產(chǎn)品的檢測(cè)精度,降低管理成本。

      [1]倪加勛,袁衛(wèi),應(yīng)用統(tǒng)計(jì)學(xué),北京中國(guó)人民大學(xué)出版社,1993.

      [2]郭泓,電子郵件過濾技術(shù)淺析,信息網(wǎng)絡(luò)安全.2002.

      [3]王斌,潘文峰,基于內(nèi)容的垃圾郵件過濾技術(shù)綜述,中國(guó)科學(xué)院計(jì)算機(jī)技術(shù)研究所碩士畢業(yè)論文.2004.

      [4]托馬斯·貝葉斯 .智庫(kù)[引用日期2013-03-07].

      [5]條件概率和貝葉斯定理 .中國(guó)開放教育資源聯(lián)合體[引用日期2013-01-07].

      [6]An Essay towards solving a Problem in the Doctrine of Chance. Philosophical Transactions of the Royal Society of London .1763[引用日期2015-03-31].

      [7]貝葉斯定理-貝葉斯 .貝葉斯定理.2014-03-21[引用日期2014-03-21].

      猜你喜歡
      垃圾郵件哈希電子郵件
      有關(guān)旅行計(jì)劃的電子郵件
      從“scientist(科學(xué)家)”到“spam(垃圾郵件)”,英語(yǔ)單詞的起源出人意料地有趣 精讀
      一種基于SMOTE和隨機(jī)森林的垃圾郵件檢測(cè)算法
      基于OpenCV與均值哈希算法的人臉相似識(shí)別系統(tǒng)
      基于支持向量機(jī)與人工免疫系統(tǒng)的垃圾郵件過濾模型
      基于維度分解的哈希多維快速流分類算法
      民事訴訟電子郵件送達(dá)制度的司法適用
      基于同態(tài)哈希函數(shù)的云數(shù)據(jù)完整性驗(yàn)證算法
      一種基于Bigram二級(jí)哈希的中文索引結(jié)構(gòu)
      小測(cè)試:你對(duì)電子郵件上癮了嗎?
      化州市| 清流县| 扶绥县| 铜川市| 天津市| 巍山| 虞城县| 文山县| 夏津县| 芷江| 呼和浩特市| 扎兰屯市| 顺昌县| 高州市| 丰原市| 八宿县| 肥东县| 衢州市| 平遥县| 阜阳市| 东辽县| 灵武市| 岑溪市| 辽宁省| 庆城县| 宜阳县| 安达市| 渭源县| 郸城县| 台东县| 惠东县| 平果县| 临潭县| 盘山县| 凤凰县| 且末县| 清流县| 鄂州市| 德格县| 肇庆市| 利辛县|