黃勇 羅文輝 張瑞舒
摘? 要:樸素貝葉斯算法是一種基于概率統(tǒng)計(jì)的分類算法,廣泛應(yīng)用于機(jī)器學(xué)習(xí)中分類問題的求解中。文本分類是自然語言處理和數(shù)據(jù)挖掘領(lǐng)域中的研究熱點(diǎn)有著廣泛的應(yīng)用前景。樸素貝葉斯算法已經(jīng)在文本分類中取得了較好的分類效果,但是由于文本詞向量的特征向量維度高,很多分類算法的求解效率和準(zhǔn)確率都不高。文章提出一種基于詞向量間余弦相似度的改進(jìn)樸素貝葉斯算法,有效的降低了特征向量的數(shù)據(jù)冗余和計(jì)算復(fù)雜性。
關(guān)鍵詞:文本分類;樸素貝葉斯算法;特征向量;余弦相似度
中圖分類號(hào):TP391 文獻(xiàn)標(biāo)志碼:A 文章編號(hào):2095-2945(2019)05-0024-02
1 概述
在文本分類任務(wù)中,目前采用的主要方法是將文本分詞,通過詞向量技術(shù)進(jìn)行特征提取文本被表示成一個(gè)高維度的文本向量集合。然后通過分類器進(jìn)行文本類別的學(xué)習(xí)。目前很多主流的機(jī)器學(xué)習(xí)分類算法都取得了較好的分類效果。但是由于文本數(shù)據(jù)特征表示復(fù)雜,分類效率和精度還沒有取得較大的提高,樸素貝葉斯算法是在傳統(tǒng)貝葉斯算法上假定待分類特征的分量之間相互獨(dú)立,這使得貝葉斯這種分類方法的工程化應(yīng)用得以實(shí)現(xiàn)[1]。但是文本中的數(shù)據(jù)由于上下文的語義關(guān)系,各個(gè)詞組的特征向量之間并不都是相互獨(dú)立的,這給分類器增加了很大的計(jì)算和求解負(fù)擔(dān),參數(shù)學(xué)習(xí)效率低數(shù)據(jù)特征冗余度大,如果考慮到利用各個(gè)上下文詞組之間的概率相關(guān)性,利用詞向量[2]之間的相似度有選擇的剔除一些語義近似的詞向量將大大簡(jiǎn)化分類過程。余弦相似度就能夠很好的度量特征詞向量之間的相關(guān)性程度,很好的表征了上下文詞組之間的相似程度,可以利用這一相似性指數(shù)簡(jiǎn)化文本特征表示集合的大小,簡(jiǎn)化分類器的學(xué)習(xí)過程,提高分類效率。
3 文本分類實(shí)驗(yàn)
在此使用谷歌訓(xùn)練好的開源詞向量模型,利用開源IMDB、文本數(shù)據(jù)集來對(duì)改進(jìn)模型進(jìn)行分類實(shí)驗(yàn)和效果評(píng)估。IMDB數(shù)據(jù)集包含來自互聯(lián)網(wǎng)的50000條嚴(yán)重兩極分化的評(píng)論[3],該數(shù)據(jù)被分為用于訓(xùn)練分類模型的25000條評(píng)論文本和用于測(cè)試分類效果的25000條評(píng)論文本,訓(xùn)練集和測(cè)試集都包含50%的正面評(píng)價(jià)和50%的負(fù)面評(píng)價(jià)。實(shí)驗(yàn)利用開源的深度學(xué)習(xí)框架TensorFlow和Keras。實(shí)驗(yàn)過程為文本數(shù)據(jù)導(dǎo)入、文本預(yù)處理、文本特征轉(zhuǎn)換、分類器實(shí)現(xiàn)、參數(shù)初始化、參數(shù)迭代、結(jié)果輸出,利用Keras提供的樸素貝葉斯分類器[4],在此基礎(chǔ)上實(shí)現(xiàn)了改進(jìn)的分類算法模型。同時(shí)也在傳統(tǒng)樸素貝葉斯模型上進(jìn)行實(shí)驗(yàn)過程,實(shí)驗(yàn)在測(cè)試集上得到分類效果如下表所示:
比較傳統(tǒng)樸素貝葉斯分類算法和改進(jìn)樸素貝葉斯分類算法模型在實(shí)驗(yàn)中的結(jié)果可以發(fā)現(xiàn),基于文本詞向量余弦相似度的改進(jìn)樸素貝葉斯文本分類算法有著更好的分類精度和更低的迭代時(shí)間,大大降低了文本高維度的特征帶來的計(jì)算復(fù)雜度。
4 結(jié)束語
本文分析了傳統(tǒng)樸素貝葉斯算法在文本分類問題上存在的問題,針對(duì)傳統(tǒng)文本分類中存在的數(shù)據(jù)冗余度大、特征表示復(fù)雜、分類效率低下的問題提出了基于上下文詞向量之間余弦相似度的改進(jìn)樸素貝葉斯算法,有效降低了文本特征向量的數(shù)據(jù)冗余度和模型計(jì)算復(fù)雜性通過實(shí)驗(yàn)驗(yàn)證了該改進(jìn)算法的有效性,分類效果得到極大提升。
參考文獻(xiàn):
[1]趙文濤,孟令軍,趙好好,等.樸素貝葉斯算法的改進(jìn)與應(yīng)用[J].測(cè)控技術(shù),2016(02).
[2]唐明,朱磊,鄒顯春.基于Word2Vector的一種文檔向量表示[J].計(jì)算機(jī)科學(xué),2016,43(6):14-217.
[3]林士敏,田鳳占,陸玉呂.貝葉斯學(xué)習(xí)、貝葉斯網(wǎng)絡(luò)與數(shù)據(jù)采掘[J].計(jì)算機(jī)科學(xué),2005,27(10):69-72.
[4]Y.-L. Boureau, J. Ponce, and Y. LeCun. A theoretical analysis of feature pooling in visual recognition.In Proceedings of the 27th International Conference on Machine Learning (ICML-10), pages 111-118,2010.