鄧金
摘要:隨著電子時(shí)代的發(fā)展,人與人之間的通信越來越便捷。郵件是如今社交中非常重要的交流工具,然而郵件在給人帶來有效交流信息的同時(shí),也會給人帶來大量的垃圾信息。本文針對對垃圾郵件的辨別,提出一種基于自然語言處理技術(shù)的郵件檢測系統(tǒng)方案。首先利用TF-IDF特征提取技術(shù)、PCA降維技術(shù)獲得訓(xùn)練樣本中最能夠識別垃圾郵件的特征,然后使用樸素貝葉斯分類算法對郵件進(jìn)行檢測。
關(guān)鍵詞:垃圾郵件;TF-IDF;PCA;樸素貝葉斯分類算法
中圖分類號:TP391 文獻(xiàn)標(biāo)識碼:A 文章編號:1007-9416(2019)06-0117-02
0 引言
在如今的日常生活中,無論是工作需要,抑或是生活交流,郵件已經(jīng)成為當(dāng)代人的重要交通工具。然而,交流便利的同時(shí),會有很多非法分子通過郵件傳遞垃圾信息,例如我們會時(shí)不時(shí)接收到來自陌生人的騷擾信息、廣告信息等。針對這樣的垃圾郵件,本文在傳統(tǒng)樸素貝葉斯分類過濾郵件的基礎(chǔ)上,引入TF-IDF和PCA技術(shù),提高了傳統(tǒng)垃圾郵件過濾的準(zhǔn)確率。
1 自然語言處理相關(guān)技術(shù)
1.1 TF-IDF技術(shù)
TF-IDF技術(shù)主要通過對單詞權(quán)重的計(jì)算,來得到文本的特征詞。它的計(jì)算式如下:
(1)
其中,W(ti,dj)是特征項(xiàng)ti在文本dj的權(quán)重取值;tf(ti,dj)是特征項(xiàng)ti在文本dj中出現(xiàn)的頻率,用于計(jì)算該詞描述文檔內(nèi)容的能力;是特征項(xiàng)在文本集中出現(xiàn)文本頻率數(shù)的反比,稱為反文檔頻率,用于計(jì)算該詞區(qū)分文檔的能力[1]。
1.2 PCA降維技術(shù)
PCA降維技術(shù)主要思想是為提取特征空間中最具有區(qū)分能力的特征詞,從而進(jìn)行降維。成分分析(Principal Component Analysis,PAC)是用特征向量對樣本數(shù)據(jù)進(jìn)行分析,達(dá)到降維目的的一種多元統(tǒng)計(jì)分析方法。即將高維特征向量通過特征向量矩陣轉(zhuǎn)變?yōu)榈途S向量,該方法僅損失了一些次要信息,主要信息得以保留。其中,PCA借助Karhunen-loeve變換式(簡稱KL展開式)將測量空間里的數(shù)據(jù)分解映射到低維度的特征空間[2]。
1.3 樸素貝葉斯分類算法
貝葉斯算法是一種基于概率分析事件發(fā)生可能性的方法,其核心思想在于選擇發(fā)生概率高的作為分類的結(jié)果[3]。貝葉斯公式如下:
(2)
上述式子計(jì)算的P(A|B)是表示在事件B發(fā)生的前提下,事件A發(fā)生的概率。
假設(shè)郵件類別有正常郵件和垃圾郵件兩類,即V={v1,v2},其中v1代表正常郵件,v2代表垃圾郵件。通過TF-IDF和PCA技術(shù)對訓(xùn)練樣本進(jìn)行特征選取后,得到了最能區(qū)分正常郵件和垃圾郵件的n個(gè)單詞,從而設(shè)特征集合為X={x1,x2,...,xn}。則根據(jù)貝葉斯公式,可以推出:
(3)
由于需要假設(shè)各個(gè)單詞之間相互獨(dú)立,互不影響,所以:
(4)
所以檢測一個(gè)郵件是垃圾郵件還是正常郵件,只需要比較和,如果當(dāng)前郵件的 >,判斷其為正常郵件,否則為垃圾郵件。
2 郵件檢測系統(tǒng)
本文提出一種基于自然語言處理技術(shù)的郵件檢測系統(tǒng),首先需要人工搜集垃圾郵件和正常郵件作為訓(xùn)練樣本,其中正常郵件數(shù)為7594,垃圾郵件數(shù)為22401。對已經(jīng)分好類的訓(xùn)練樣本,首先對所有的文本進(jìn)行中文分詞,得到總詞庫,使用TF-IDF算法分別構(gòu)建每一個(gè)正常郵件和垃圾郵件的特征向量,獲得一個(gè)特征空間,然后使用PCA降維技術(shù),對這個(gè)特征空間進(jìn)行降維,得到最能夠區(qū)分正常郵件和垃圾郵件的特征詞,由這些特征詞構(gòu)成的特征向量空間,能夠最大程度上區(qū)分兩類郵件。由此,就得到了樸素貝葉斯分類器所需要的基礎(chǔ)。最后,根據(jù)得到的特征詞,對測試樣本中的每一個(gè)郵件,利用樸素貝葉斯公式,進(jìn)行正常郵件和垃圾郵件的概率計(jì)算,并且比較兩個(gè)概率,如果判斷為垃圾郵件,則系統(tǒng)拒絕接收郵件,如果是正常郵件,則無需進(jìn)行任何處理,直到所有的測試樣本檢測完畢,結(jié)束系統(tǒng)工作。系統(tǒng)大體流程如圖1所示。
根據(jù)訓(xùn)練樣本,使用TF-IDF技術(shù)和PCA降維技術(shù)得到的特征詞一共有5001個(gè),然后根據(jù)這些特征詞,就可以使用樸素貝葉斯算法進(jìn)行分類。
3 測試與結(jié)果
本文選擇正常郵件數(shù)為844,垃圾郵件數(shù)為2489的測試樣本進(jìn)行測試,測試結(jié)果如表1所示。
上述結(jié)果表示在844個(gè)正常郵件測試樣本中,使用本文的郵件檢測系統(tǒng)分類正確的郵件數(shù)為834,在2489個(gè)垃圾郵件測試樣本中,使用本文的郵件檢測系統(tǒng)分類正確的郵件數(shù)為2291。由此可得到本系統(tǒng)的平均準(zhǔn)確率為94%左右。
4 結(jié)語
本文提出一種基于自然語言處理技術(shù)的郵件檢測系統(tǒng)方案,相比傳統(tǒng)的樸素貝葉斯分類算法,引入了TF-IDF特征提取技術(shù)和PCA降維技術(shù),提高了傳統(tǒng)郵件過濾的準(zhǔn)確率。當(dāng)然,由于人工搜集數(shù)據(jù)的局限性,不能獲得所有能夠區(qū)分正常郵件和垃圾郵件的特征詞。下一步工作可以適當(dāng)擴(kuò)充數(shù)據(jù),或者改進(jìn)特征提取算法,提高分類準(zhǔn)確性。
參考文獻(xiàn)
[1] 李建林.一種基于PCA的組合特征提取文本分類方法[J].計(jì)算機(jī)應(yīng)用研究,2013,30(08):2398-2401.
[2] 李夢瀟,姚仕元.基于PCA的人臉識別系統(tǒng)的設(shè)計(jì)與改進(jìn)[J].計(jì)算機(jī)科學(xué),2019,46(S1):577-579.
[3] 王斌.基于樸素貝葉斯算法的垃圾郵件過濾系統(tǒng)的研究與實(shí)現(xiàn)[J].電子設(shè)計(jì)工程,2018,26(17):171-174.
Mail Detection System Based on Natural Language Processing Technology
DENG Jin
(Yanbian University, Yanji Jilin? 133002)
Abstract:With the development of electronic age, communication between people is more and more convenient. Email is a very important communication tool in today's social communication. However, e-mail will bring people a lot of junk information while it brings effective communication information. This paper proposes a message detection system based on natural language processing technology for the discrimination of spam. First of all, TFIDF feature extraction technology and PCA dimension reduction technology are used to obtain the features that can recognize spam most in the training samples, and then use simple Bayesian classification algorithm to detect the mail.
Key words:spam; TF-IDF;PCA; naive Bayesian classification algorithm