張超超 盧新明
摘 要:在迅速增加的海量數(shù)據(jù)中,文本形式的數(shù)據(jù)占很大比重。文本分類作為最常見的文本挖掘技術(shù),可在大量雜亂的文本數(shù)據(jù)中發(fā)現(xiàn)有價值的信息,具有重要意義。文本分類面臨的首要問題是如何在確保分類準(zhǔn)確率的同時縮短分類時間。提出使用分類模型FastText學(xué)習(xí)單詞特征以解決該問題,同時在數(shù)據(jù)集上使用停用詞處理方法降低噪聲數(shù)據(jù)對分類模型的影響。實驗結(jié)果表明,使用FastText文本分類模型在數(shù)據(jù)集上準(zhǔn)確率達(dá)到96.11%,比傳統(tǒng)模型提高近4%,且模型處理每條文本的平均時間為1.5ms,縮短了約1/3。
關(guān)鍵詞:文本分類;詞向量;FastText;停用詞;噪聲數(shù)據(jù)
DOI:10. 11907/rjdk. 192499
中圖分類號:TP301 ? 文獻(xiàn)標(biāo)識碼:A??????????????? 文章編號:1672-7800(2020)003-0044-04
Research on News Text Classification Based on FastText
ZHANG Chao-chao, LU Xin-ming
(College of Computer Science and Engineering, Shandong University of Science and Technology,Qingdao 266590,China)
Abstract: With the rapid increase of the amount of data, textual data accounts for a large proportion. Text classification, as the most common text mining technology, is of great significance for finding valuable information in a large amount of messy text data. In the field of text classification, the primary goal is to reduce the classification time while ensuring the classification accuracy. Therefore, this paper uses the classification model FastText to learn the word features to solve the current problem. In addition, a stop word processing method is used to reduce the influence of noise data on the classification model. The experimental results show that the accuracy rate of FastText text classification model is 96.11%, which is nearly 4% higher than the traditional model. Furthermore the time spent by the model in processing each text was 1.5m/s on average, which was reduced by about 1/3.
Key Words: text classification; term vectors; FastText; stop words; noise data
0 引言
文本分類最初使用基于特定規(guī)則[1]的方法。先收集關(guān)于待分類文本領(lǐng)域內(nèi)專家知識和經(jīng)驗,將其組織成一系列分類規(guī)則[2],然后根據(jù)這些分類規(guī)則進(jìn)行文本分類。文獻(xiàn)[3]使用基于降噪自動編碼器的中文文本分類方法;文獻(xiàn)[4]提出一種基于維基百科的文本分類規(guī)則。雖然這些分類方法處理特定領(lǐng)域的文本有很好的效果,但概括分類領(lǐng)域所有知識并制定相關(guān)分類規(guī)則需消耗大量人力成本,所以該類方法適用性較差。此外,當(dāng)文本無法依照現(xiàn)有規(guī)則進(jìn)行分類時,需重新獲取文本并歸納規(guī)則再進(jìn)行分類,因此該類方法泛化性也較差。相比而言,本文FastText模型無需較多人工訓(xùn)練模型,僅對訓(xùn)練數(shù)據(jù)集作簡單的預(yù)處理后即可放入模型進(jìn)行訓(xùn)練,且在新分類任務(wù)出現(xiàn)時,模型只需更新迭代訓(xùn)練之后即可完成新任務(wù),大幅降低了人力、物力成本。
隨著人工智能的飛速發(fā)展,機(jī)器學(xué)習(xí)算法在文本分類中的應(yīng)用成為自然語言處理研究熱點。文獻(xiàn)[5]提出將Word2vec應(yīng)用于文本分類研究;文獻(xiàn)[6]采用LDA與SVM算法結(jié)合的文本分類。這些方法將文本數(shù)據(jù)改為以向量的形式輸入,所有數(shù)據(jù)被分為一定比例的訓(xùn)練集和測試集,利用分類模型進(jìn)行訓(xùn)練和測試,并將模型分類結(jié)果與原有類別對比作為分類算法效果的證明。目前已有多種機(jī)器學(xué)習(xí)算法應(yīng)用于文本分類。趙剛等[7]在基于機(jī)器學(xué)習(xí)的商品評論情感分析模型研究中,通過集群技術(shù)刪除數(shù)據(jù)集中的正面例子以得到更多負(fù)面例子,使用改進(jìn)的詞頻率逆文檔頻率(tf-idf)進(jìn)行特征提取,與支持向量機(jī)相結(jié)合改進(jìn)Rocchio分類器構(gòu)建,以提高分類準(zhǔn)確性。但是這類方法大都忽略了詞與詞之間的句法形態(tài),導(dǎo)致最終分類效果只能在90%左右。本文FastText模型通過學(xué)習(xí)單詞特征,關(guān)聯(lián)上下文單詞詞義并將其作為分類結(jié)果,使詞頻不同但相互之間有所聯(lián)系的單詞在分類任務(wù)中發(fā)揮一定作用。
其中σ(?)表示 Sigmoid 函數(shù)[4],LC(n)表示 n 節(jié)點的左孩子,[x]是一個特殊函數(shù),其定義如式(5)所示。
[θn(yj,l)]為節(jié)點[n(yj,l)]的參數(shù)。X是輸入。從根節(jié)點到[y2]的路徑長度為[L(y2)=4]。這樣在經(jīng)過分層Softmax處理之后,模型計算復(fù)雜度從[O(k)]降低至[O(log(k))],資源耗費大幅降低。
3 實驗與分析
3.1 實驗數(shù)據(jù)
本文數(shù)據(jù)集包括來自搜狗新聞的50 000條訓(xùn)練集與10 000條測試集,分別有體育、財經(jīng)、房產(chǎn)、家居、教育、科技、時尚、時政、游戲和娛樂10個類別。
因為新聞數(shù)據(jù)集為中文文本,分詞工具為Python中jieba分詞工具,jieba分詞有3種模式,本文根據(jù)實際文本序列長度,采用其中的精確模式,jieba分詞前后文本樣例如圖3所示。
為降低文本分類器計算復(fù)雜度、提高分類器分類效率,需在將文本語料轉(zhuǎn)化為特征向量前對文本作降維處理,方法為去掉文本中對分類沒有意義的停用詞和低頻詞,同時去掉文本中的表情、網(wǎng)址、特殊符號,以減小特征詞典大小,減少噪音數(shù)據(jù)對分類模型的影響。
3.2 實驗結(jié)果
由圖4、圖5可知,分類器在測試集上的測試結(jié)果比較理想,精確率為96.11%,閾值為60%時,精確率為?? 0.985 2%,召回率為0.966 1%,F(xiàn)1分?jǐn)?shù)為0.975 6%。本文數(shù)據(jù)集文本質(zhì)量相對較好,所以訓(xùn)練后的分類器在測試集上的表現(xiàn)比較好,測試集每條文本對應(yīng)的測試label打分均相對較高。
4 結(jié)語
本文首先簡要介紹了常用文本分類方法,然后闡述了文本分類理論與技術(shù)。根據(jù)新聞文本特點,在新聞文本預(yù)處理過程中,將地點名詞加入到常用停用詞表中,去除了更多對文本表達(dá)無意義的詞,分類效果得以改進(jìn)。通過實驗數(shù)據(jù)綜合對比,可以觀察到本文提出的FastText算法模型與傳統(tǒng)機(jī)器學(xué)習(xí)算法相比,在訓(xùn)練速度、預(yù)測速度和準(zhǔn)確率上均有明顯提升,證明本文模型具有較高的使用價值。
參考文獻(xiàn):
[1]段旭磊,張仰森,孫祎卓. 微博文本的句向量表示及相似度計算方法研究[J]. 計算機(jī)工程,2017, 43(5): 143-148.
[2]范云杰,劉懷亮. 基于維基百科的中文短文本分類研究[J]. 現(xiàn)代圖書情報技術(shù),2012(3):47-52.
[3]劉紅光,馬雙剛,劉桂鋒. 基于降噪自動編碼器的中文新聞文本分類方法研究[J]. 現(xiàn)代圖書情報技術(shù), 2016(6): 12-19.
[4]趙輝,劉懷亮. 一種基于維基百科的中文短文本分類算法[J]. 圖書情報工作,2013,57(11): 120-124.
[5]張謙,高章敏,劉嘉勇. 基于Word2vec的微博短文本分類研究[J]. 信息網(wǎng)絡(luò)安全, 2017(1): 57-62.
[6]宋鈺婷,徐德華. 基于LDA和SVM 的中文文本分類研究[J]. 現(xiàn)代計算機(jī)(專業(yè)版),2016(5): 18-23.
[7]趙剛,徐贊. 基于機(jī)器學(xué)習(xí)的商品評論情感分析模型研究[J]. 信息安全研究, 2017, 3(2): 166-170.
[8]金志剛,韓玥,朱琦. 一種結(jié)合深度學(xué)習(xí)和集成學(xué)習(xí)的情感分析模型[J]. 哈爾濱工業(yè)大學(xué)學(xué)報,2018, 50(11): 32-39.
[9]梁喜濤,顧磊. 中文分詞與詞性標(biāo)注研究[J]. 計算機(jī)技術(shù)與發(fā)展,2015,25(2):175-180.
[10]徐戈,王厚峰. 自然語言處理中主題模型的發(fā)展[J]. 計算機(jī)學(xué)報,2011,34(8):1423-1436.
[11]劉德喜,聶建云,張晶,等. 中文微博情感詞提?。篘-Gram為特征的分類方法[J]. 中文信息學(xué)報, 2016, 30(4): 193-205, 212.
[12]萬紅新,彭云,鄭睿穎. 時序化LDA的輿情文本動態(tài)主題提取[J]. 計算機(jī)與現(xiàn)代化, 2016(7): 91-94.
[13]李鵬,于巖,李英樂,等. 基于權(quán)重微博鏈的改進(jìn)LDA微博主題模型[J]. 計算機(jī)應(yīng)用研究,2016, 33(7):2018-2021.
[14]KORDE V,MAHENDER C N. Text classification and classifiers: a survey[J]. International Journal of Artificial Intelligence & Applications (IJAIA), 2012,3(2):86-99.
[15]CARPENTER B. Integrating out multinomial parameters in latent Dirichlet allocation and naive Bayes for collapsed Gibbs sampling[R]. ALIAS:2010.
[16]GOUDJIL M, KOUDIL M, BEDDA M, et al. A novel active learning method using SVM for text classification[J]. International Journal of Automation & Computing, 2015(1): 1-9.
[17]TONG S,KOLLER D. Support vector machine active learning with applications to text classification[J]. Journal of Machine Learning Research,2001,2(11):45-66.
[18]BAHASSINE S, MADANI A, KISSI M. An improved Chi-sqaure feature selection for Arabic text classification using decision tree[C]. International Conference on Intelligent Systems: Theories and Applications,2016: 2378-2536.
[19]SCHAPIRE R E,SINGER Y. Machine learning[M]. Cambridge:MIT Press,2000.
[20]MARUF S, JAVED K, BABRI H A. Improving text classification performance with random forests-based feature selection[J]. Arabian Journal for Science & Engineering, 2016, 41(3): 951-964.
(責(zé)任編輯:江 艷)
收稿日期:2019-11-14
基金項目:國家重點研發(fā)計劃項目(2017YFC0804406);山東省重點研發(fā)計劃項目(2016ZDJS02A05)
作者簡介:張超超(1994-),男,山東科技大學(xué)計算機(jī)科學(xué)與工程學(xué)院碩士研究生,研究方向為自然語言處理;盧新明(1961-),男,博士,山東科技大學(xué)計算機(jī)科學(xué)與工程學(xué)院教授、博士生導(dǎo)師,研究方向為數(shù)字礦山軟件、CAD、計算機(jī)圖形學(xué)。