鄭亞南 田大鋼
摘 要:詞向量在自然語言處理中起著重要作用,近年來受到越來越多學(xué)者關(guān)注。然而,在詞向量研究中,基于Word2vec詞向量的應(yīng)用研究居多,對于GloVe詞向量的應(yīng)用研究卻很少。因此,將GloVe詞向量模型與支持向量機(SVM)相結(jié)合,利用GloVe詞向量模型進行特征提取與選擇,利用SVM進行分類,并與Word2vec詞向量結(jié)合SVM作實驗對比。實驗結(jié)果表明,GloVe詞向量特征提取與SVM分類相結(jié)合的方法能夠取得較好的準(zhǔn)確率、召回率及F值,因此在新聞文本分類中具有一定應(yīng)用價值。
關(guān)鍵詞:詞向量;GloVe;SVM;文本分類
DOI:10.11907/rjdk.172991
中圖分類號:TP301
文獻標(biāo)識碼:A 文章編號:1672-7800(2018)006-0045-04
Abstract:Learning high-quality vector representation for words plays an important role in natural language processing and has attracted great attention of many researchers due to its simplicity and effectiveness. However, application research based on the word2vec word vector far outnumbers the GloVe word vector application research . For this reason, this paper proposes a method of combining GloVe word vector with SVM. The method uses GloVe word vector to extract and select features, classifies features by SVM, and compares it with word2vec word vector SVM. The experimental results show that SVM classification method combined with GloVe word vector feature extraction can achieve good accuracy and F value, and gets a good recall rate. Therefore it has certain application value in news text classification .
Key Words:word representation; GloVe; SVM; text classification
0 引言
詞向量具有良好的語義特征,是表示詞語特征的常用方式。詞向量每一維代表一個具有一定語義和語法上解釋的特征,該特征能夠同時捕捉到單詞的語義和語法信息?,F(xiàn)有詞向量學(xué)習(xí)方法大致可分為基于神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)和基于矩陣分解學(xué)習(xí)的方法。基于神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)詞向量是指根據(jù)上下文與目標(biāo)之間的關(guān)系建立語言模型,通過訓(xùn)練語言模型獲得詞向量[1-4]。近幾年提出的Word2vec[5]詞向量模型去除了神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)中的非線性隱層,大大降低了算法復(fù)雜度,獲得了高效詞向量。在Word2vec中提供了兩種架構(gòu)模型:Continuous Bag-of-Words Model(CBOW)和Continuous Skip-gram Model(Skip-gram)。CBOW根據(jù)上下文預(yù)測目標(biāo)單詞,Skip-gram根據(jù)目標(biāo)單詞預(yù)測上下文?;诰仃嚪纸獾脑~向量模型[6]是通過分解從文本語料庫中提取的矩陣得到低維詞向量,其中典型代表為GloVe詞向量。
Word2vec詞向量模型已被廣泛應(yīng)用于各種自然語言處理任務(wù)[7-11]中,如命名實體識別、情感分析、機器翻譯、微博短文本分類等,然而GloVe詞向量在自然語言處理任務(wù)中卻很少用到。另外在詞向量應(yīng)用于文本分類的研究中,很少分析同一個模型訓(xùn)練出的詞向量在詞向量維度不同情況下的分類效果差別?;谏鲜鲈?,本文通過不同維度的GloVe詞向量在新聞文本分類中的應(yīng)用效果研究,并與Word2vec在新聞文本分類中的應(yīng)用效果作對比,通過樣本長度及樣本數(shù)量的變化檢測GloVe詞向量在特征提取中的穩(wěn)定性。其中,通過樣本長度變化所引起的分類效果變化探究GloVe詞向量在長短文本中的應(yīng)用情況,通過樣本數(shù)量變化所引起的分類效果變化探究GloVe詞向量在大小文本中的應(yīng)用情況,從而分析GloVe詞向量在新聞文本分類應(yīng)用中的效果。
1 文本特征向量選擇模型
在自然語言處理中,文本相似度是十分基礎(chǔ)的工作,首先需要將文本轉(zhuǎn)換成數(shù)值型的數(shù)據(jù)結(jié)構(gòu),才能提供給計算機進行運算處理。詞與詞之間的相似性通過詞與詞之間的距離衡量,距離越小代表詞越相似[12]。在本文研究中分別采用Word2vec[13]與GloVe模型,利用詞的上下文信息,將一個個詞轉(zhuǎn)換為一個個低維實數(shù)向量,越相似的詞在向量空間中越接近,并通過詞向量計算文本間的相似度。
1.1 GloVe模型
GloVe模型是由Pennington J、Socher R和Manning C等于2014年基于詞共現(xiàn)矩陣?yán)碚撎岢龅囊环N新的詞向量模型。該模型是在統(tǒng)計詞向量模型和預(yù)測詞向量模型基礎(chǔ)上,通過矩陣分解的方法利用詞共現(xiàn)信息,即不僅只關(guān)注Word2vec窗口(Context)大小的上下文,而是用到了全局信息,克服了Word2vec對多義詞處理乏力的問題。
GloVe模型直接構(gòu)造一個詞共現(xiàn)矩陣的近似矩陣(Context為固定長度窗口,取值一般為5~10,每次移動一個詞),盡可能保存詞之間的共現(xiàn)信息。
(2)f(x)需要滿足非遞減的特性,目的是使較少出現(xiàn)的共現(xiàn)組合不會被賦予較大值。
(3)f(x)的函數(shù)需要較小值,使常見的共現(xiàn)組合也不會被賦予較大值。
有很多函數(shù)滿足這些屬性要求,其中一類函數(shù),即GloVe模型中使用的計算權(quán)值[14]為:
2 支持向量機(SVM)
支持向量機是由Corinna Cortes和Vapnik等于1995年基于統(tǒng)計學(xué)習(xí)理論提出的一種新的分類技術(shù)。該方法基于VC維理論和結(jié)構(gòu)風(fēng)險最小原理,通過最大化分類間隔構(gòu)造最優(yōu)超平面,從而提高其“推廣能力”(又稱泛化能力,是對未知樣本的預(yù)測精確度),使其能較好地解決模式識別領(lǐng)域中小樣本、非線性及高維數(shù)等問題。
目前常用的核函數(shù)主要有4類:線性核函數(shù)、多項式核函數(shù)、高斯核函數(shù)、S核函數(shù)。根據(jù)不同的分類問題,可以選用不同核函數(shù)[15-17]。在本文中通過實驗對比發(fā)現(xiàn),線性核函數(shù)在與GloVe詞向量的結(jié)合中具有較好效果。因此,在SVM中選擇線性核函數(shù)。
3 實驗過程與結(jié)果
3.1 實驗材料準(zhǔn)備
實驗采用20-newgrounps文檔集作為訓(xùn)練集,對選取的20-newgrounps文檔集進行預(yù)處理后包含11 314篇文章,整個文檔集被分為20個不同的主題新聞組。為了對模型的文本表示進行性能測試,按0.8:0.2的比例分為訓(xùn)練集和測試集進行實驗。Word2vec詞向量和GloVe詞向量由英文wiki語料庫訓(xùn)練得到文件。
3.2 實驗結(jié)果評價指標(biāo)
由于本文涉及的是多分類問題,在評價分類性能中使用平均正確率(Precision,P)、平均召回率(Recall,R)和平均F-1值作為評價指標(biāo),其基本定義如下:
準(zhǔn)確率定義為:P=TPTP+FP
召回率定義為:R=TPTP+FN
F-1值為:F-1=2*P*RP+R
其中TP表示正確地將屬于正類的樣本分到正類中的樣本個數(shù),F(xiàn)N表示錯誤地將屬于正類的樣本分到負(fù)類中的樣本個數(shù),F(xiàn)P表示錯誤地將屬于負(fù)類的樣本分到正類中的樣本個數(shù),TN表示正確地將屬于負(fù)類的樣本分到負(fù)類中的樣本個數(shù)。
3.3 實驗結(jié)果
(1)不同GloVe維度對分類正確率的影響。在該實驗過程中主要測試GloVe詞向量維度變化時分類效果的變化情況。從圖1可以看到,在GloVe詞向量維度增加的過程中,準(zhǔn)確率、召回率和F-1三個指標(biāo)都出現(xiàn)了遞增趨勢。這是由于隨著訓(xùn)練維度的增加,GloVe詞向量包含的語義和語法特征信息越來越多。當(dāng)詞向量維度從50變化為300時,準(zhǔn)確率、召回率、F-1三個指標(biāo)均增加了10%以上。詞向量維度越高,分類效果越好,但是隨著詞向量維度的增加,訓(xùn)練難度也越來越大,本實驗中僅涉及300維。為了測試GloVe詞向量在新聞文本分類中的性能,進行了兩種不同類別的實驗。
(2)不同長度新聞文本的分類正確率。通過分別截取文章前50詞、100詞、200詞、500詞4組不同長度的文本組成新的訓(xùn)練集和測試集,測試基于GloVe的詞向量特征提取在新聞文本長度變化時,分類效果的變化情況。
圖2給出了GloVe詞向量在維度為300時,在各文本長度下對新聞類別的識別結(jié)果。由圖可知,當(dāng)文本長度增加時,分類效果也越來越好,但在新聞文本從長度50變化為500時,3項評價指標(biāo)波動都在3%左右,而且與完整新聞文本分類效果相比,其3項評價指標(biāo)在4%左右浮動。新聞文本長度為100詞和200詞時,其分類評價結(jié)果波動微乎其微,證明新聞文本的重要信息基本都集中在文章前一部分,并且GloVe詞向量在新聞文本長度發(fā)生變化時具有良好的穩(wěn)定性。
不同維度的詞向量所包含的語義與語法特征也不同,為了比較不同維度的詞向量在文本分類效果上的變化,進行樣本數(shù)量變化在各維度下的準(zhǔn)確率變化實驗,其結(jié)果如圖3所示。
由圖3可以看出在相同文本長度下,低維度GloVe詞向量在文本分類效果中均不如高維度GloVe詞向量表現(xiàn)好,這是由于低維度所包含的信息不如高維度豐富,但是不同維度GloVe詞向量在文本長度變化過程中分類效果變化有所不同。雖然在樣本長度變化下,各維度正確率變化情況不同,但整體而言,各維度下GloVe詞向量在分類效果中波動范圍較小,證明了各維度下GloVe詞向量具有良好的穩(wěn)定性。
同樣維度均為300的GloVe詞向量與Word2vec詞向量結(jié)合SVM在文本長度發(fā)生變化時,文本分類結(jié)果對比如表1所示。
由表1可知,隨著樣本長度增加,GloVe和Word2vec詞向量結(jié)合SVM的分類效果都是逐步提升的,且均具有相似的穩(wěn)定性。在相同文本長度下,GloVe詞向量結(jié)合SVM的分類效果從各個指標(biāo)都優(yōu)于Word2vec詞向量結(jié)合SVM的分類效果。說明在新聞文本長度發(fā)生變化時,GloVe詞向量具有一定穩(wěn)定性,而且在分類效果上略優(yōu)于Word2vec詞向量。
(3)縮小樣本量對各維度詞向量在文本分類中的影響。在該實驗過程中,主要是改變每一類文本數(shù)量,分析分類正確率的變化情況。其中-80表示每一類訓(xùn)練集中文本減少80個,對應(yīng)測試集類別文本減少20個,-120與-160含義與此相同。
由圖4可知,在樣本數(shù)量減少時,300維度下GloVe詞向量的分類效果也在下降,但波動范圍變化不大。樣本總數(shù)由11 316減少至7 316個,分類效果各項指標(biāo)降低3%左右,在文本數(shù)量由8 316減少至7 316個時,分類效果各項指標(biāo)基本維持不變。通過實驗證明了GloVe詞向量在文本數(shù)量增加時分類效果也提升,同時驗證了GloVe詞向量在樣本變化時具有一定的穩(wěn)定性。
當(dāng)文本數(shù)量發(fā)生變化時,為檢測各維度在分類效果上的變化情況,分別對不同樣本數(shù)量結(jié)合不同維度詞向量進行試驗,得到各維度下的準(zhǔn)確率變化結(jié)果如圖5所示。
由圖5可以看出,相同文本數(shù)量下,低維度GloVe詞向量在文本分類效果中均不如高維度GloVe詞向量正確率高,但是不同維度GloVe詞向量在文本數(shù)量變化過程中分類效果變化有所不同。雖然在樣本數(shù)量變化時,各維度正確率變化情況不同,但整體而言,各維度下GloVe詞向量在分類效果中的波動范圍均在3%以內(nèi),證明各維度下GloVe詞向量具有良好的穩(wěn)定性。
同樣維度均為300的GloVe詞向量與Word2vec詞向量結(jié)合SVM在文本數(shù)量發(fā)生變化時,文本分類結(jié)果對比如表2所示。
由表2可知,隨著樣本數(shù)量的減少,GloVe詞向量和Word2vec詞向量結(jié)合SVM的分類效果都是逐步下降的,但下降幅度均變化不大。在相同文本長度下,GloVe詞向量結(jié)合SVM的分類效果從各個指標(biāo)上都優(yōu)于Word2vec詞向量結(jié)合SVM的分類效果。說明在文本數(shù)量發(fā)生變化時,GloVe詞向量作為嵌入式向量具有一定的穩(wěn)定性,而且在某種意義上優(yōu)于Word2vec詞向量。
4 結(jié)論與展望
本文討論了GloVe詞向量與SVM相結(jié)合的方法,并對其效果在新聞文本上進行了分類實驗,對不同維度詞向量在文本長度和數(shù)量發(fā)生變化時進行分類效果測試。GloVe詞向量在分類文本時表現(xiàn)穩(wěn)定,而且能取得不錯的效果。通過與Word2vec詞向量結(jié)合SVM在文檔集上的測試證明,并且通過文本長度變化和文本數(shù)量變化兩方面驗證,GloVe詞向量與SVM相結(jié)合的方法具有一定優(yōu)勢,證明了該方法是可行的。今后工作將繼續(xù)研究如何改進GloVe詞向量模型,使其能在分類效果上繼續(xù)提升,并將GloVe詞向量模型進一步應(yīng)用于深度學(xué)習(xí)模型中。
參考文獻:
[1] HUANG E H, SOCHER R, MANNING C D, et al. Improving word representations via global context and multiple word prototypes[C].Meeting of the Association for Computational Linguistics: Long Papers,2012:873-882.
[2] MNIH A, HINTON G. Three new graphical models for statistical language modelling[C].Proceedings of the 24th International Conference on Machine learning, ACM,2007:641-648.
[3] MNIH A, HINTON G. A scalable hierarchical distributed language model[C].International Conference on Neural Information Processing Systems, Curran Associates Inc,2008:1081-1088.
[4] BENGIO Y, DUCHARME R, VINCENT P, et al. A neural probabilistic language model[J]. Journal of Machine Learning Research,2003,3:1137-1155.
[5] GOLDBERG Y, LEVY O et al.Word2vec explained: deriving Mikolov.'sword-embedding.method[J].Eprint Arxiv,2014.
[6] PENNINGTON J, SOCHER R, MANNING C. Glove: global vectors for word representation[C].Conference on Empirical Methods in Natural Language Processing,2014:1532-1543.
[7] LIU Y,LIU Z,CHUA T S,et al.Topical word embeddings[C].Association for the Advancement of Artificial Intelligence,2015:2418-2424.
[8] DHILLON P,F(xiàn)OSTER D P,UNGAR L H.Multi-view learning of word embeddings via CCA[C].Advances in Neural Information Processing Systems,2011:199-207.
[9] BANSAL M,GIMPEL K,LIVESCU K.Tailoring continuous word representions for denpendency parsing[C].Meeting of the Association for Computational linguistics,2014:809-815.
[10] 魏廣順,吳開超.基于詞向量模型的情感分析[J].計算機系統(tǒng)應(yīng)用,2017,26(3):182-186.
[11] 張謙,高章敏,劉嘉勇.基于Word2vec的微博短文本分類研究[J].信息網(wǎng)絡(luò)安全,2017(1):57-62.
[12] 方延風(fēng),陳建.基于詞向量距離的相關(guān)詞變遷研究——以情報探索雜志摘要為例[J].情報探索,2015(4):5-7.
[13] 熊富林,鄧怡豪,唐曉晟.Word2vec的核心架構(gòu)及其應(yīng)用[J].南京師范大學(xué)學(xué)報:工程技術(shù)版,2015(1):43-48.
[14] MIKOLOV T, CHEN K, CORRADO G, et al. Efficient estimation of word representations in vector space[J]. Computer Science,2013.
[15] 馬金娜,田大鋼.基于SVM的中文文本自動分類研究[J].計算機與現(xiàn)代化,2006(8):5-8.
[16] 奉國和.SVM分類核函數(shù)及參數(shù)選擇比較[J].計算機工程與應(yīng)用,2011,47(3):123-128.
[17] 梁禮明,鐘震,陳召陽.支持向量機核函數(shù)選擇研究與仿真[J].計算機工程與科學(xué),2015,37(6):1135-1141.
(責(zé)任編輯:黃 ?。?/p>