• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      基于郵件社區(qū)的垃圾郵件發(fā)現(xiàn)方法

      2011-12-12 05:30:40張中軍張少輝
      周口師范學院學報 2011年5期
      關鍵詞:緊密度垃圾郵件接收者

      張中軍,張少輝,曹 彥

      (周口師范學院計算機科學系,河南周口466001)

      對大多數(shù)用戶來說,E-mail是他們最經(jīng)常使用的網(wǎng)絡服務之一,然而,垃圾郵件泛濫已成為一個亟待解決的問題。根據(jù)Comm Touch公司的統(tǒng)計數(shù)據(jù),垃圾郵件數(shù)量占電子郵件總數(shù)的60%以上。除發(fā)送藥品廣告外,更多的垃圾郵件被用來傳播惡意件,竊取用戶賬戶、密碼等個人信息;另外一種上升的攻擊活動是魚叉式網(wǎng)絡釣魚,向特定人群或機構發(fā)送電子郵件,獲取對方的機密信息。這都給電子郵件服務提供商以及用戶造成了非常大的困擾與經(jīng)濟損失。因此,垃圾郵件處理方法的研究對于保護個人及機構機密信息、凈化通信環(huán)境有十分重要的意義。

      目前已出現(xiàn)很多垃圾郵件處理技術,基于聚類的有偏斜分布下基于聚類的過濾方法[1],將郵件劃分成若干社區(qū),從每個社區(qū)提取相同數(shù)量的關鍵詞,避免了偏斜分布的影響?;诶]件行為啟發(fā)式學習方法[2]中根據(jù)經(jīng)驗式學習方法,將垃圾郵件根據(jù)URL等特征劃分成社區(qū)。文獻[3]將郵件根據(jù)IP進行聚類,根據(jù)垃圾郵件的IP進行信譽評估。文獻[4]中將郵件根據(jù)足球、天氣等不同的主題進行劃分社區(qū),根據(jù)新郵件與每個社區(qū)的主題相似度來識別垃圾郵件。上述方法中都是根據(jù)郵件內容或一定主題將郵件分組,然后根據(jù)這些分組判斷新郵件是否垃圾郵件。但是,現(xiàn)實中很難判斷有多少主題,對每個郵件都提取關鍵詞不但增加了服務器負擔,還用到郵件內容,涉及到正常用戶的隱私。本文提出一種基于郵件社區(qū)的垃圾郵件發(fā)現(xiàn)方法,將不考慮郵件內容主題,直接使用之前存在的社區(qū)劃分方法,將郵件地址根據(jù)它們之間的聯(lián)系緊密度劃分為若干社區(qū),根據(jù)現(xiàn)有的郵件系統(tǒng)收集的垃圾郵件,抽取垃圾郵件內容的關鍵詞。然后對新郵件,根據(jù)一定的規(guī)則,給出是否垃圾郵件的判斷,與郵件一起發(fā)送給目標用戶。

      1 基于郵件社區(qū)的垃圾郵件發(fā)現(xiàn)方法

      1.1 郵件社區(qū)的劃分

      本文使用帶調整策略的微聚類-宏聚類郵件社區(qū)劃分算法[5]來劃分郵件社區(qū)。在整體上考慮郵箱個體之間的所有聯(lián)系,從分析用戶關系緊密程度入手,采用帶調整策略的微聚類-宏聚類技術來發(fā)現(xiàn)郵件通信網(wǎng)絡中緊密聯(lián)系的團體。主要通過三個過程實現(xiàn):第一,使用k-medoids算法將所有郵箱個體聚類為大量相對較小的子簇,實現(xiàn)微聚類。第二,利用凝聚層次聚類的思想實現(xiàn)宏聚類,策略是反復合并子簇成為較大的簇,直到滿足某個終止條件。本文將最終希望得到的簇數(shù)目作為終止條件。第三,針對個別邊緣節(jié)點進行調整劃分。具體算法描述如下:

      輸入:郵箱及郵箱個體對之間的郵件通信特征信息。

      輸出:社區(qū)劃分結果。

      方法:

      1)用戶輸入微聚類子簇的數(shù)目k;

      2 )選取k個節(jié)點作為初始子簇中心點;

      3 )repeat;

      4 )指派每個剩余對象給離它最近的中心點所代表的簇;

      5 )隨機地選擇一個非中心點對象o random;

      6 )計算用orandom取代原中心點的總代價S;

      7 )if S<0,then orandom替換oi,形成新的k個中心點的集合;

      8 )until所有的子簇中心點均不發(fā)生變化;

      9 )w hile(不滿足終止條件);

      10)fo r每個子簇ci;

      11)for每個剩余子簇cj;

      12)尋找使緊密度取得最大值的ci,cj;

      13)將ci與cj合并成較大的簇;

      14)fo r郵件網(wǎng)絡中每個簇 Ci;

      15)for每個節(jié)點 p∈Ci;//尋找需要調整的節(jié)點;

      16)計算 p與簇Ci中除p以外的剩余節(jié)點組成的簇的緊密度;

      17)for郵件網(wǎng)絡中每個剩余簇Cj;

      18)計算 p與簇C的緊密度;

      19)if p與其他簇C獲得更大的緊密度;

      20)將 p調整劃分到簇Cj;

      21)else p不做任何變動;

      22)結合映射表輸出社區(qū)劃分結果。

      1.2 抽取垃圾郵件特征

      利用文本挖掘的從原有郵件服務器獲得垃圾郵件的相關特征,即對所有垃圾郵件進行分析,從中提取關鍵詞。這些關鍵詞就代表了垃圾郵件主要內容,反應了垃圾郵件特征。

      1 )將電子郵件數(shù)據(jù)集的所有垃圾郵件合為一個大的郵件文檔,去除郵件標題,只取郵件內容部分。這些郵件文檔中的每封郵件以類標號開始,用兩個標記分別表示每封郵件正文的開始和結束。

      2 )把垃圾郵件文檔中每一封郵件正文中的重復詞去掉,正文中重復詞僅保留一個。

      3 )對郵件正文進行特征提取:統(tǒng)計每個詞在垃圾郵件中存在的頻率,將垃圾郵件特征表示為一個多維向量。

      1.3 垃圾郵件發(fā)現(xiàn)機制

      垃圾郵件發(fā)現(xiàn)就是在一封新郵件出現(xiàn)時,郵件服務器根據(jù)某種機制判斷該郵件是否垃圾郵件,并根據(jù)判斷采取相應的處理措施。本文提出的方法基于以下調查研究結果:首先,郵件地址反應人類的社交行為,呈現(xiàn)社區(qū)特征;其次,按上述社區(qū)劃分方法得到的社區(qū),其內部成員之間聯(lián)系緊密;最后,大多數(shù)的郵件通信來自社區(qū)內部。根據(jù)上面這些研究,在不考慮郵件地址被盜用的情況下,可以認為社區(qū)內部成員之間的郵件通信是正常的。那么本文提出的垃圾郵件發(fā)現(xiàn)過程可描述如下:

      1 )郵件服務器接收到一封電子郵件后,提取郵件發(fā)送者與接收者的郵件地址。

      2 )郵件服務器查詢發(fā)送者與接收者的郵件地址分別所屬的社區(qū)標號。

      3 )如果發(fā)送者與接收者的郵件地址所屬社區(qū)標號相同,將郵件直接發(fā)送給接收者;否則,繼續(xù)下一步。

      4 )對新郵件提取郵件關鍵詞,建立特征向量,計算與垃圾郵件特征向量的相似度。如果不高于某個閾值,直接將郵件發(fā)送給接收者;否則,標記為垃圾郵件,并將郵件連同標記一起發(fā)送給接收者。

      5 )接收者根據(jù)郵件的標記及實際內容判斷是否垃圾郵件。用戶閱覽郵件內容后,如果認為該郵件標記錯誤,則向郵件服務器發(fā)送反饋報告,不發(fā)送報告則認為是正常郵件。

      6 )根據(jù)接收者的反饋信息,對該郵件重新標記,是垃圾郵件則重新提取關鍵詞;非垃圾郵件則將發(fā)送方郵件地址以及通信特征保存,等到該郵件地址與某個社區(qū)的聯(lián)系緊密度超過該社區(qū)內部各成員之間的平均聯(lián)系緊密度時,將該郵件地址劃分到該社區(qū)。

      根據(jù)上面的描述,本文提出的垃圾郵件發(fā)現(xiàn)模型如圖1所示。

      圖1 垃圾郵件發(fā)現(xiàn)模型

      從圖1可以看出,當一個新的郵件到達郵件服務器時,不是直接對其進行內容分析,而是先判斷該郵件的發(fā)送者郵箱地址與接收者郵箱地址是否屬于同一個社區(qū)。如果來自同一個社區(qū),那么該郵件可以看作是社區(qū)內部成員之間的正常郵件。當然,這里暫時不考慮郵箱被盜用的情況。只有發(fā)送者郵箱地址與接收者郵箱地址不屬于同一個社區(qū)時,才將該郵件與垃圾郵件特征比較,以獲得該郵件與垃圾郵件的近似度,并根據(jù)近似度值的大小給出是否垃圾郵件的判斷。并且最后還采用了用戶反饋機制,用以接收用戶閱讀郵件內容后對郵件客觀的判斷,并根據(jù)反饋信息及時更新社區(qū)或垃圾郵件特征。從某種程度上來說,這也是該垃圾郵件發(fā)現(xiàn)方法的一種學習機制。

      2 算法分析與總結

      本方法充分考慮了郵件通信網(wǎng)絡中社區(qū)結構的客觀存在性,詳細分析了性質,并在此基礎上提出了一種垃圾郵件發(fā)現(xiàn)方法。這種方法與已經(jīng)存在的基于郵件內容的垃圾郵件發(fā)現(xiàn)方法相比,準確率遠遠不及后者。之所以依然提出這種思想,主要是考慮到隨著社會的發(fā)展,個人隱私越來越受到社會的廣泛關注,那么基于郵件正文內容的垃圾郵件過濾方法在某種意義上來說,已經(jīng)觸及了用戶的隱私。也是出于這種考慮,諸多學者開始探索新的垃圾郵件發(fā)現(xiàn)方法,以繞開基于內容的文本分類。受此啟發(fā),提出了這種基于郵件社區(qū)的垃圾郵件發(fā)現(xiàn)方法。

      在本文提出的方法中,首先是對郵件服務器下的所有郵件地址進行社區(qū)劃分,此過程完全脫離郵件正文內容,而是用郵件地址之間的聯(lián)系緊密度作為劃分標準。這樣不但在某種角度上保護了用戶隱私,還能更如實的反映出郵件通信網(wǎng)絡中的社區(qū)特征。但是,當郵件地址規(guī)模較大時該劃分過程比較耗時,所以應定期對郵件地址進行重新劃分,不宜頻繁進行。其次,本方法不用對所有郵件進行內容抽取,只對社區(qū)外部到來的郵件進行。因為郵件通信多來自社區(qū)內部,所以大部分的郵件不必抽取內容。最后,因為該方法沒有嚴格的標準定義垃圾郵件,所以單獨使用該方法可能效果不是太好,所以目前可作為原有垃圾郵件處理引擎的補充方法。結合原有方法共同使用,在某種程度上可提高垃圾郵件處理的準確度,具體效果有待進一步實驗驗證。

      3 下一步工作展望

      下一步工作的重點是進一步完善改進該垃圾郵件發(fā)現(xiàn)方法,并以實際數(shù)據(jù)集實驗驗證該方法的有效性。在此基礎上,進行該思想的實際應用研究,找到與現(xiàn)有垃圾郵件處理引擎的結合點,以進一步提高垃圾郵件處理的準確度。

      [1]Hsiao Wen-Feng,Chang Te-M ing,Hu Guo-Hsin.A Cluster-based App roach to Filtering Spam under Skewed Class Distributions[C]//Proc of the 40th Hawaii International Conference on System Sciences, 2007:53-60.

      [2]Li Fulu,Hsieh Mo-Han.An Empirical Study of Clustering Behavio r of Spammers and Group-based Anti-Spam Strategies[C]//Third Conference on Email and Anti-Spam,2006:27-28.

      [3]張洪,段海新,吳建平.基于IP地址聚類的反垃圾郵件信譽系統(tǒng)[J].清華大學學報,2010,50(10):1723-1727.

      [4]包理群,李祥林.改進的 K-均值聚類郵件過濾算法[J].蘭州工業(yè)高等??茖W校學報,2010,17(2):5-9.

      [5]張中軍,郭華平,范明.帶調整策略的微聚類-宏聚類郵件社區(qū)劃分算法[J].小型微型計算機系統(tǒng),2010,31 (10):1970-1974.

      猜你喜歡
      緊密度垃圾郵件接收者
      從“scientist(科學家)”到“spam(垃圾郵件)”,英語單詞的起源出人意料地有趣 精讀
      英語文摘(2021年10期)2021-11-22 08:02:36
      利用高通量表型平臺分析紫葉紫菜薹新組合19-520的表型特征
      一種基于SMOTE和隨機森林的垃圾郵件檢測算法
      時事政治融入高中思想政治課的及時性和緊密度研究
      單粒子未知態(tài)的分級量子通信
      中歐貿(mào)易發(fā)展?jié)摿Φ膶嵶C分析
      基于情感緊密度的社交網(wǎng)絡推薦算法
      商(2016年2期)2016-03-01 08:52:18
      基于支持向量機與人工免疫系統(tǒng)的垃圾郵件過濾模型
      石器部落
      淺談信息接收者反饋不當現(xiàn)象及對策
      兴和县| 克拉玛依市| 西贡区| 漳浦县| 龙游县| 鄢陵县| 商丘市| 呈贡县| 揭阳市| 奈曼旗| 宁武县| 普兰店市| 项城市| 阳泉市| 柳河县| 大洼县| 海林市| 三穗县| 乐亭县| 永定县| 固镇县| 清水河县| 阿尔山市| 怀安县| 临夏县| 昌图县| 凭祥市| 克什克腾旗| 二连浩特市| 建湖县| 新化县| 施甸县| 赫章县| 淮滨县| 饶平县| 武定县| 甘谷县| 和龙市| 丁青县| 梅河口市| 吴江市|