陳欽明+劉丁屹+呂威
【摘要】 本文首先介紹了文本分類的應(yīng)用背景,從傳統(tǒng)的人工分類到后面的基于機(jī)器學(xué)習(xí)的文本分類,而垃圾債券新聞自動(dòng)過濾實(shí)際上可以看作文本分類的一個(gè)特例二分類問題,因此便可以基于文本分類的相關(guān)知識與理論對垃圾債券新聞進(jìn)行自動(dòng)過濾。接下來本文從數(shù)據(jù)預(yù)處理,文本分類算法設(shè)計(jì)與實(shí)現(xiàn)及分類算法評估等方面詳細(xì)地描述了垃圾債券新聞自動(dòng)過濾的處理過程。
【關(guān)鍵字】 垃圾債券 文本二分類 數(shù)據(jù)預(yù)處理 SVM 分類指標(biāo) 交叉驗(yàn)證
一、應(yīng)用背景
隨著網(wǎng)絡(luò)技術(shù)的迅猛發(fā)展以及電腦的普遍使用,電子化的文檔得到了“爆炸性”的增長,各種各樣的文檔層出不窮,充斥著網(wǎng)頁各個(gè)角落。一方面提高了人們獲取信息的便利性與快捷,豐富了人們的閱讀世界,另一方面也存在各種各樣的垃圾文檔包括垃圾新聞、垃圾郵件[1]等等,魚目混珠,良莠不齊。給人們的閱讀帶來了迷惑與不良的效果。本文主要基于它說平臺的債券新聞模塊嘗試了垃圾新聞的自動(dòng)分類以達(dá)到自動(dòng)過濾垃圾新聞的效果。
文本分類(Text categorization)[2]是指在給定分類體系下,根據(jù)文本內(nèi)容自動(dòng)確定文本類別的過程.20世紀(jì)90年代以前,占主導(dǎo)地位的文本分類方法一直是基于知識工程的分類方法,即由專業(yè)人員手工進(jìn)行分類.人工分類非常費(fèi)時(shí),效率非常低.90年代以來,眾多的統(tǒng)計(jì)方法和機(jī)器學(xué)習(xí)方法應(yīng)用于自動(dòng)文本分類,文本分類技術(shù)的研究引起了研究人員的極大興趣并對其進(jìn)行研究,在信息檢索、Web文檔自動(dòng)分類、數(shù)字圖書館等多個(gè)領(lǐng)域得到了初步的應(yīng)用。而本文所提到的垃圾債券新聞自動(dòng)過濾實(shí)際上可以看做文本分類的一個(gè)特例,文本二分類的問題,即垃圾新聞與非垃圾新聞的分類問題,從而為垃圾債券新聞的自動(dòng)過濾奠定了理論及實(shí)踐基礎(chǔ)。下面將從數(shù)據(jù)預(yù)處理,分類算法設(shè)計(jì)與實(shí)現(xiàn)及算法評估幾方面具體說說垃圾債券主體新聞自動(dòng)過濾的處理過程。
二、數(shù)據(jù)預(yù)處理
數(shù)據(jù)預(yù)處理屬于文本分類的一個(gè)非常重要階段,它主要包括數(shù)據(jù)的過濾,轉(zhuǎn)化,清洗等過程,數(shù)據(jù)預(yù)處理的好壞一定程度上影響到后續(xù)算法分類效果的好壞。本文采用的數(shù)據(jù)來源為通過武大爬蟲,萬德數(shù)據(jù)庫以及鵬元爬蟲獲取到的新聞,本文抽取8306條新聞數(shù)據(jù)作為樣本集并對數(shù)據(jù)做了處理:記錄?txt文檔、非UTF-8編碼?UTF-8編碼;去掉html標(biāo)記、換行符、多余空格,然后針對該樣本集進(jìn)行垃圾新聞與非垃圾新聞的人工標(biāo)記,最終非垃圾新聞數(shù)量為5807條,垃圾新聞數(shù)量為2499條。垃圾新聞樣例如下表1所示:
三、算法實(shí)現(xiàn)
常見的機(jī)器學(xué)習(xí)分類算法包括決策樹,神經(jīng)網(wǎng)絡(luò),貝葉斯,KNN,SVM等。本文主要采用貝葉斯,KNN以及SVM分類算法對垃圾債券新聞自動(dòng)過濾進(jìn)行算法實(shí)現(xiàn)。各種算法的主要思想如下文所示:
(1) 貝葉斯——對于給定的待分類項(xiàng),求解在此項(xiàng)出現(xiàn)的條件下各個(gè)類別出現(xiàn)的概率,哪個(gè)最大,就把此待分類項(xiàng)歸屬于哪個(gè)類別.貝葉斯公式如下1-1所示:
(2)KNN——KNN算法又稱為k最近鄰分類(k-nearest neighbor classification)[3]算法。該算法從訓(xùn)練集中找到和新數(shù)據(jù)最接近的k條記錄,然后根據(jù)他們的主要分類來決定新數(shù)據(jù)的類別。該算法涉及3個(gè)主要因素:訓(xùn)練集、距離或相似的衡量、k的大小。
(3)SVM——SVM為support vector machine(支持向量機(jī))[4]的縮寫,它的主要思想是建立一個(gè)超平面作為決策平面,使得正例與反例之間的間隔最大化,這兩類的樣本中離決策平面最近的訓(xùn)練樣本就叫做支持向量。
本文使用經(jīng)數(shù)據(jù)預(yù)處理后的8306條新聞作為最終的樣本集,并對樣本集進(jìn)行中文分詞[5]處理,構(gòu)造樣本集文本對象,構(gòu)建樣本集TF_IDF詞向量空間,然后使用相關(guān)分類算法進(jìn)行預(yù)測分類結(jié)果。具體的算法流程圖如下圖1所示:
四、算法評價(jià)
常見的評價(jià)一個(gè)分類系統(tǒng)的好壞的分類指標(biāo)大體可以分為兩大類。線上的指標(biāo)還有離線的指標(biāo)。線上的指標(biāo)包括用戶滿意度等,需要通過調(diào)查問卷等方式進(jìn)行采集。離線的指標(biāo)包括平均絕對誤差(mean absolute error,MAE),ROC(Receiver Operating Characteristic)曲線,精度,召回率,F(xiàn)1-score,覆蓋率等。本文使用精度、召回率,錯(cuò)分率以及 F1-score,混淆矩陣作為主要的評價(jià)指標(biāo)。下面簡單介紹一下精度、召回率,錯(cuò)分率以及F1-score,混淆矩陣:
1、精度(Precision,也稱為準(zhǔn)確率):是檢索出的相關(guān)文檔數(shù)與檢索出的文檔總數(shù)的比率,衡量的是檢索系統(tǒng)的查準(zhǔn)率。
精度(Precision)= 系統(tǒng)檢索到的相關(guān)文件 / 系統(tǒng)所有檢索到的文件總數(shù)
2、召回率(Recall Rate,也叫查全率):是檢索出的相關(guān)文檔數(shù)和文檔庫中所有相關(guān)文檔數(shù)的比率,衡量的是檢索系統(tǒng)的查全率。
3、錯(cuò)分率為另外一個(gè)角度對召回率的刻畫,滿足錯(cuò)分率+召回率=1
4、F1-score綜合考慮了精度以及召回率,是兩者的協(xié)調(diào)評價(jià)指標(biāo)。
5、混淆矩陣(confusion matrix),是由false positives,false negatives,true positives和true negatives組成的兩行兩列的表格。它允許我們做出更多的分析,而不僅僅是局限在正確率。
本文按照10%測試集、90%訓(xùn)練集的數(shù)據(jù)集隨機(jī)切分方式對分類結(jié)果進(jìn)行了交叉驗(yàn)證(cross_validation),最終的分類結(jié)果如下表2所示:
五、結(jié)論
由上表可知:SVM算法在垃圾債券新聞的自動(dòng)過濾上能取得最好的過濾效果,貝葉斯算法也能取得相當(dāng)不錯(cuò)的效果,這一定程度上說明了垃圾債券新聞與非垃圾債券新聞兩者的區(qū)分度很高,兩種算法在垃圾債券新聞自動(dòng)過濾上基本達(dá)到了可以相媲美的高度。而KNN算法則在區(qū)分度上不高。
參 考 文 獻(xiàn)
[1]郭泓.電子郵件過濾技術(shù)淺析.信息網(wǎng)絡(luò)安全,2002(10):4244.
[2]李榮陸.文本分類及其相關(guān)技術(shù)研究[D].上海:復(fù)旦大學(xué)計(jì)算機(jī)與信息技術(shù)系,2005,4-5
[3]亞南.KNN文本分類中基于遺傳算法的特征提取技術(shù)研究[D].中國石油大學(xué),2011.
[4]毛雪岷,丁友明.基于語義引導(dǎo)與支持向量機(jī)的中文文本分類[J].情報(bào)雜志,2007,26(1 1):56-58
[5]李淑英.中文分詞技術(shù)[J].科技信息,2007, 36:65-66