基于貝葉斯分類器的中文垃圾短信辨識

2017-04-12 15:18:52袁聞王曉曄鄧高登韓淼楊星謝曉喆

科技資訊 2017年5期

袁聞+王曉曄+鄧高登+韓淼+楊星+謝曉喆

摘要：垃圾短信制造者出于商業(yè)目的或其他詐騙目的向手機用戶大量發(fā)送垃圾短信或詐騙短信，使得手機用戶不勝其擾。運營商在發(fā)送短信之前對短信加以辨識后，給可能是垃圾短信的信息貼上標(biāo)簽后再發(fā)送，將會大大降低手機用戶受騙的機率。該文采用IF-IDF算法和離散特征的貝葉斯分類器，進行特征詞選取，構(gòu)建垃圾短信鑒別模型。通過垃圾短信訓(xùn)練數(shù)據(jù)集構(gòu)建的中文垃圾短信貝葉斯分類模型，能夠使垃圾短信的識別率保持在94%以上，具有較高的實用性。

關(guān)鍵詞：貝葉斯分類器中文垃圾短信特征提取特征選擇文本挖掘

中圖分類號：TP393 文獻標(biāo)識碼：A 文章編號：1672-3791（2017）02（b）-0010-04

1 文本預(yù)處理

由于短信文本是由非結(jié)構(gòu)化的中文文字組成，因此在采用傳統(tǒng)的貝葉斯分類器進行垃圾短信的識別之前，需要對垃圾短信進行文本預(yù)處理。

中文文本預(yù)處理的處理流程如圖1所示。

1.1 文本特征提取

文本挖掘的關(guān)鍵就是將文字型非結(jié)構(gòu)化數(shù)據(jù)轉(zhuǎn)化為數(shù)值型結(jié)構(gòu)化數(shù)據(jù)，為后續(xù)的貝葉斯分類器做準備。中文文本挖掘不同于英文文本單詞與單詞之間用空格分隔的情況，因此中文文本首先要進行分詞處理（例如原文本：此類皮膚特別容易招惹粉刺、黑頭等。分詞處理后的文本：此類；皮膚；特別；容易；招惹；粉刺；、；黑頭；等。分詞處理之后，須對每份文本進行特征提取。即保留具有實際意義的詞，去掉沒有實際意義的虛詞以及標(biāo)點等停用詞（Stop words）（例如上述文本特征提取后為：皮膚；招惹；粉刺；黑頭）。對于分詞處理和特征提取可采用經(jīng)典的極速詞典分詞[1]：和TextRank關(guān)鍵詞[2]提取，具體細節(jié)這里不再詳細描述，而分詞和特征提取可直接采用中科院開發(fā)的開源Java工具包：HanLP[3]。內(nèi)部包含多種分詞以及關(guān)鍵詞提取算法，功能十分強大。如果訓(xùn)練集是在文件中，可以編寫Java代碼，通過 BufferedReader將文本一行一行讀進Java環(huán)境中，然后調(diào)用HanLP里面的分詞算法，最后將輸出的結(jié)果保存在新的文件當(dāng)中。如果訓(xùn)練集是在數(shù)據(jù)庫中，則可通過JDBC導(dǎo)入，后續(xù)步驟同上。

1.2 文本的特征選擇

雖然單獨文本的詞語數(shù)量通過特征提取降低了，但是對于整體的訓(xùn)練集來說其詞語數(shù)量還是很龐大的。不適合后續(xù)的模型構(gòu)建，所以在特征提取的基礎(chǔ)上需要再進行特征選擇，從而降低整體的詞語數(shù)量。經(jīng)過特征選擇后的詞語可以形成一個關(guān)鍵詞集，得到的關(guān)鍵詞集是為后續(xù)模型的構(gòu)建做準備的。由于該文所做的是垃圾短信辨識，只需分辨垃圾短信和非垃圾短信兩類數(shù)據(jù)即可，并且現(xiàn)實生活中垃圾短信占少數(shù)，多數(shù)為正常短信。所以我們把重心放在預(yù)處理垃圾短信上，目標(biāo)是取得垃圾短信關(guān)鍵詞集。

在預(yù)處理部分，采用HanLP進行分詞以及特征提取，特征選擇技術(shù)則采用信息檢索領(lǐng)域非常著名的TF-IDF算法[4]。

TF-IDF算法的主要思想是評估一字詞對于一個文件集或一個語料庫中某一份文件的重要程度，如果某個詞或短語在一份文件中出現(xiàn)的頻率TF高，并且在其他文章中很少出現(xiàn)，則認為此詞或者短語具有很好的類別區(qū)分能力，適合用來分類。

一個詞的權(quán)重為weigt（tj）=TF*IDF，某一特定文件內(nèi)的高詞語頻率，以及該詞語在整個文件集合中的低文件頻率，可以產(chǎn)生出高權(quán)重，高權(quán)重的詞表明這個詞可以很好地把這個文件識別出來。

在通過TF-IDF計算后，每一個特征詞都有一個權(quán)重（weight），將所有特征詞的權(quán)重進行排序（可以通過Java中的treeset數(shù)據(jù)結(jié)構(gòu)[5]進行按值排序），然后設(shè)置一個閾值將權(quán)重低的特征詞舍棄，保留權(quán)重高的特征詞，從而形成關(guān)鍵詞集。關(guān)鍵詞的個數(shù)對于垃圾短信分類器的好壞有著至關(guān)重要的影響。

2 貝葉斯分類器構(gòu)建

通過特征選擇構(gòu)建關(guān)鍵詞集后，就可以實現(xiàn)中文垃圾短信的分類分析。

2.1 建立關(guān)鍵詞概率

因為貝葉斯模型是基于概率計算來進行建模的。因此，要為每一個關(guān)鍵詞建立分類概率[6]。該文采用如下公式（3）計算概率F：

（3）

式中b表示關(guān)鍵詞在垃圾短信中出現(xiàn)的次數(shù)，g表示關(guān)鍵詞在正常短信中出現(xiàn)的次數(shù)。nbad表示垃圾短信的數(shù)量，ngood表示正常短信的數(shù)量。2為一個經(jīng)驗系數(shù)。垃圾短信評估分類器好壞有兩個重要指標(biāo)：（1）虛警率：把非垃圾短信當(dāng)成垃圾短信的概率，對應(yīng)于統(tǒng)計學(xué)上的第一類錯誤。（2）誤判率：把垃圾短信當(dāng)成非垃圾短信的概率，對應(yīng)于統(tǒng)計學(xué)上的第二類錯誤。

在實際生活中這兩種錯誤的代價是不同的，很明顯把正常短信判斷為垃圾短信的代價遠高于把垃圾短信判斷為正常短信的代價。因此，分母g/ngood那一項乘以系數(shù)2是用來降低虛警率的。在實際辨識過程中可以不斷調(diào)整系數(shù)以達到最佳效果。

2.2 文本轉(zhuǎn)為特征向量（String to vector）

在建立辨識函數(shù)之前，須把訓(xùn)練文本轉(zhuǎn)化為向量（String to vector）[7]。而所用到的工具就是經(jīng)過TF-IDF計算并篩選得到的關(guān)鍵詞集。假設(shè)有關(guān)鍵字集[a1，a2，a3……an]，初始化向量v=[0，0，0，0…0]（一共n個）。將訓(xùn)練集當(dāng)中的一封垃圾短信與關(guān)鍵字集進行對比，如果關(guān)鍵字an出現(xiàn)在短信中，則對應(yīng)向量v的位置設(shè)置為1，如果沒有出現(xiàn)則保持為0。從而將一封文字型的短信轉(zhuǎn)化為只有0或1的向量。將整個訓(xùn)練集全部按照上面所敘述的方法進行轉(zhuǎn)化，從而將整個訓(xùn)練集樣本都轉(zhuǎn)化為向量。整個訓(xùn)練集可以視為一個巨大的含有0和1的矩陣。這有助于后續(xù)的模型貝葉斯分類器構(gòu)建[8]。

2.3 建立垃圾短信鑒別函數(shù)（discriminant function）

關(guān)鍵詞集可以用做訓(xùn)練用的特征屬性，在上述文本轉(zhuǎn)化的向量中，特征屬性的取值為0或1。因為特征屬性的取值是離散的，所以該文決定采用離散特征的貝葉斯分類器構(gòu)建鑒別函[9]。

3 實驗分析

3.1 實驗數(shù)據(jù)來源

該文的實驗選用的數(shù)據(jù)集來源于CCF全國青年大數(shù)據(jù)創(chuàng)新大賽中的數(shù)據(jù)集[10]，其中包括垃圾短信32 000條，正常短信8 000條。該文按照目前手機用戶中的大致短信比例抽樣選取部分數(shù)據(jù)集來進行研究。數(shù)據(jù)分布如表1所示。

3.2 分類器的評價指標(biāo)

評價指標(biāo)采用分類任務(wù)中常用的混淆矩陣（confusion matrix）對分類結(jié)果進行評估?；煜仃嚾鐖D2所示。

為了有效評估分類器過濾垃圾短信的性能，該文使用兩個評價指標(biāo)。

（1）準確率（Aaccuracy）：分類器對整個樣本的判定能力，即將正的判定為正，負的判定為負：

A=（TP+TN）/（TP+FN+FP+TN）。

（2）虛警率（alse alarm probability）：FPR=FP/（FP+TN），即正常短信被預(yù)測為垃圾短信的概率。準確率是對于過濾器的整體性能評估，而虛警率是減小非垃圾短信被分錯的代價。因此，希望準確率越大越好，虛警率越小越好。

3.3 實驗及結(jié)果分析

該實驗所涉及到的文本向向量的轉(zhuǎn)化以及貝葉斯分類器構(gòu)造的鑒別函數(shù)全部通過MATLAB編寫代碼完成，所有的數(shù)值運算全部在MATLAB上運行。在實驗中筆者比較所選取關(guān)鍵詞的個數(shù)以及不同的閾值對于分類器準確率和虛警率的影響。實驗結(jié)果如表2和表3所示。

由表2可知，當(dāng)閾值為0選取的關(guān)鍵詞數(shù)量增加時，準確率并不會一直增加，當(dāng)超過某一最優(yōu)值時，準確率會降低，虛警率在一直增加。原因是權(quán)重值weight較低的關(guān)鍵詞被選進來，反而影響分類器分類的效果。同時，關(guān)鍵詞數(shù)量不同時閾值也應(yīng)該設(shè)為不同的值。從表3中可以發(fā)現(xiàn)，在一定的關(guān)鍵詞數(shù)量下，可以通過改變閾值的大小達到最佳的準確率以及較小的虛警率。

4 結(jié)論

該文運用TF-IDF進行特征詞選擇，運用離散特征的貝葉斯分類器對垃圾短信進行過濾，形成了一個準確率在94%左右，虛警率低于4%的分類器。可以辨識出日常生活中絕大多數(shù)的垃圾短信。后續(xù)的工作要注意以下幾點。

（1）試圖改進貝葉斯算法，使其準確率能進一步提高，虛警率能夠進一步降低。

（2）使用更為龐大的數(shù)據(jù)集，將文本挖掘與云計算整合，在云平臺上進行模型構(gòu)建與計算。

參考文獻

[1] 黃翼彪.開源中文分詞器的比較研究[D].鄭州大學(xué)，2013.

[2] 張雯.TextRank算法的改進及在政法全文檢索系統(tǒng)中的應(yīng)用[D].廣西大學(xué)，2015.

[3] 王寶成，何新宇.基于改進情感詞域識別的輿情情感分析研究[J].電子技術(shù)與軟件工程，2016（3）：167.

[4] 陳琦，伍朝輝，姚芳，等.基于TF*IDF的垃圾郵件過濾特征選擇改進算法[J].計算機應(yīng)用研究，2009，26（6）：2165-2167.

[5] 江磊晶.Java中的集合接口[J].中文信息，2003（5）：83-86.

[6] 李星，田瑩，段海新.中文垃圾郵件過濾系統(tǒng)的實現(xiàn)和評估[J].大連理工大學(xué)學(xué)報，2005，45（s1）：189-195.

[7] 馬強.基于布爾模型和擴展布爾模型的中文信息檢索系統(tǒng)[D].遼寧科技大學(xué)，2012.

[8] 詹川，盧顯良，周旭，等.基于貝葉斯公式的垃圾郵件過濾方法[J].計算機科學(xué)，2005，32（2）：73-75.

[9] 王中鋒.樹型貝葉斯網(wǎng)絡(luò)分類器鑒別式訓(xùn)練研究[D].北京交通大學(xué)，2011.

[10] WID，CCF大數(shù)據(jù)與智能大賽[EB/OL].http：//www.wid.org.cn/data/science/player/competition.html？data=227#competitionData.

[11] 蔣璐媛，肖鵬峰，馮學(xué)智，等.基于亞分數(shù)混淆矩陣的中國典型區(qū)大尺度土地覆蓋數(shù)據(jù)集評價[J].遙感技術(shù)與應(yīng)用，2015，30（2）：353-363.

99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

基于貝葉斯分類器的中文垃圾短信辨識