湖北工業(yè)大學 曹麗君
基于興趣認知的垃圾郵件過濾技術(shù)研究
湖北工業(yè)大學 曹麗君
本文詳細介紹了基于興趣認知的垃圾郵件過濾技術(shù)的總體設(shè)計,以及初始化處理模塊和基于層疊隱馬模型的詞語切分模塊,最后介紹了算法實現(xiàn)和數(shù)據(jù)庫設(shè)計。
垃圾郵件;過濾技術(shù);研究
隨著信息技術(shù)等現(xiàn)代科學技術(shù)的發(fā)展,郵件已經(jīng)成為現(xiàn)在人們信息交流必不可少的一部分了。但是垃圾郵件也十分猖獗,并且垃圾郵件的種類也不斷翻新。所以要采取更有效的反垃圾郵件技術(shù)。
早在1997年,垃圾郵件已經(jīng)開始泛濫了。2003年全球企業(yè)因垃圾郵件引起的損失已超過205億美元。據(jù)調(diào)查網(wǎng)民每天需要花費6.5 min來處理無用郵件,單是下載垃圾郵件所花費的上網(wǎng)費與電話費,每年就要花掉全球網(wǎng)民94億美元。國際著名分析機構(gòu)Ferris公司的最新分析報告預測,2005年垃圾郵件給全球的生產(chǎn)力造成的損失和其他反垃圾郵件的投資將達到500億美元。IDC公司預測,到2008年反垃圾郵件軟件收入及其服務收入將能夠達到17億美元的規(guī)模;屆時用戶每年在反垃圾郵件上花費132美元。
它是一種自適應的、具有統(tǒng)計智能的技術(shù),可以阻止日益變化的垃圾郵件,以前用的技術(shù),如屏蔽過多郵件發(fā)送的IP地址,屏蔽指定用戶郵箱,已經(jīng)跟不上現(xiàn)在的垃圾郵件的變化了,只有用具有智能性和具有自學習型的反垃圾郵件系統(tǒng)才能更加有效地抵制垃圾郵件。
現(xiàn)在主流的垃圾郵件過濾技術(shù)有黑名單技術(shù)、白名單技術(shù),實時黑名單技術(shù)、內(nèi)容過濾技術(shù)、自定義過濾技術(shù)。而這些過濾技術(shù),只能過濾一般性的垃圾郵件,不能因人而異。比如某人興趣是喜歡體育,那么關(guān)于培訓和教育類的郵件對他來說就是垃圾郵件,要過濾掉,但是用以上常規(guī)的過濾技術(shù)是不能識別的,所以本文提出了基于興趣認知的垃圾郵件過濾技術(shù)。
該技術(shù)先區(qū)分郵件的正文和標題,再對正文進行詞語的切分,切分完后再存進數(shù)據(jù)庫,記錄字頻,再根據(jù)貝葉斯來計算概率。系統(tǒng)先根據(jù)用戶的判斷來確定哪些郵件是用戶感興趣的,經(jīng)過一段時間學習后,再自行判斷。
垃圾郵件是指收件人事先沒有提出要求或者同意接收的廣告、電子刊物、各種形式的宣傳品等宣傳性的電子郵件,收件人無法拒收的電子郵件,隱藏發(fā)件人身份、地址、標題等信息的電子郵件,含有虛假的信息源、發(fā)件人、路由等信息的電子郵件。垃圾郵件一般具有批量發(fā)送的特征,在Internet上同時傳送多個副本:從內(nèi)容上看,它們通常是商業(yè)廣告、宣傳資料或者其它一些無關(guān)內(nèi)容。垃圾郵件是 Internet發(fā)展的副產(chǎn)品,起源于美國,在英文中有3個稱呼:UCE(Unsolicited Commercial Email)、UBE(Unsolicited Bulk Email)和Spain,常用的是Spain。 UCE是專指以商業(yè)廣告為內(nèi)容的垃圾郵件,UBE則還包含一些無關(guān)內(nèi)容。
中國互聯(lián)網(wǎng)協(xié)會定義的垃圾郵件有4種:
(1)收件人事先沒有提出要求或者同意接收的廣告、電子刊物、各種形式的宣傳品等宣傳性的電子郵件。
(2)收件人無法拒收的電子郵件。
(3)隱藏發(fā)件人身份、地址、標題等信息的電子郵件。
(4)含有虛假的信息源發(fā)件人、路由等信息的電子郵件。
目前,垃圾郵件的定義被擴大了,除了上述在《中國互聯(lián)網(wǎng)協(xié)會反垃圾郵件規(guī)范》中對垃圾郵件定義外,病毒、色情、反動、NULL等等無用的郵件,也被包括在垃圾郵件的定義中。
隨著Internet的日益普及,電子郵件已成為人們生活中不可缺少的一部分,它不僅為人們的工作和生活帶來了極大的便利。而且逐漸成為人們進行信息交流的一種重要手段。然而,垃圾郵件卻給廣大的網(wǎng)絡用戶帶來了無窮的煩惱,它不僅嚴重地干擾了用戶正常的電子郵件的收發(fā),而且消耗了網(wǎng)絡帶寬,使用戶上網(wǎng)速度減慢,給網(wǎng)絡造成極大的危害。自互聯(lián)網(wǎng)普及以來,電子郵件逐漸成為人們生活中便捷的通信手段之一。然而,隨之產(chǎn)生的垃圾郵件像瘟疫一樣蔓延,造成極大的危害:占用大量的網(wǎng)絡帶寬,導致郵件服務器擁塞,降低整個網(wǎng)絡的運行效率;侵占收件人信箱空間,耗費收件人的時間、精力和金錢;易被黑客利用,成為攻擊工具;竊取用戶的網(wǎng)上行蹤,侵犯收件人的隱私權(quán);嚴重影響ISP的服務形象,使服務商的主機名有可能被列入國際垃圾郵件數(shù)據(jù)庫,從而導致該主機不能訪問國際網(wǎng)絡;妖言惑眾、騙人錢財,傳播不良內(nèi)容的垃圾郵件,對現(xiàn)實社會造成了危害。垃圾郵件危害之大、影響之深使得反垃圾郵件行動刻不容緩,因此,對反垃圾郵件技術(shù)的研究已經(jīng)成為影響互聯(lián)網(wǎng)發(fā)展的重要課題之一。
[1]拒垃圾郵件于門外.微電腦世界,2005,(3):112-124.
[2]孟昭蘭.普通心理學.北京大學出版社,1994.
[3]曹麒麟.張千里編.垃圾郵件與反垃圾郵件.人民郵電出版社,2003.
2017-09-10)