APP缺陷問題評論分類方法研究

2018-12-10 09:13:16王延飛

軟件導(dǎo)刊 2018年9期

關(guān)鍵詞：文本分類

王延飛

摘要：隨著智能手機的普及，APP軟件越來越流行，隨之而來的是APP軟件用戶評論的增多。在數(shù)量極大的評論中，關(guān)于APP軟件缺陷問題的評論是APP開發(fā)者最關(guān)心的。通過對APP評論的大量閱讀和觀察，發(fā)現(xiàn)APP軟件缺陷問題是分散的。總結(jié)了7類缺陷問題，使用改進(jìn)卡方統(tǒng)計和APP軟件簡介中的名詞和動詞作為特征選擇思路，使用樸素貝葉斯算法對每個缺陷問題評論進(jìn)行訓(xùn)練學(xué)習(xí)。用8 677條評論進(jìn)行實驗，結(jié)果表明該方法的準(zhǔn)確率、召回率和F1值較高。該方法不僅減輕了人工標(biāo)記APP缺陷問題評論的工作量，而且提高了分類準(zhǔn)確度。

關(guān)鍵詞：樸素貝葉斯；APP評論；文本分類

DOIDOI：10.11907/rjdk.181167

中圖分類號：TP301

文獻(xiàn)標(biāo)識碼：A文章編號文章編號：16727800（2018）009005905

英文標(biāo)題Classified Method for APP Software's User Comments of Defect Issues

--副標(biāo)題

英文作者WANG Yanfei

英文作者單位（Department of Information Engineering and Automation，KunmingUniversity of Science and Technology，Kunming 650500，China）

英文摘要Abstract：With the popularity of smart phones，APP software is becoming more and more popular，followed by the increase of APP software users' comments.In a large number of comments， the comments on APP software defects are the core issues APP developers most concern.For the defects of APP software are scattered，7 kinds of defects are summarized，and then the improved Chi square statistics and the nouns and verbs of the introduction of APP software employed as feature selection ideas，and training study of the defects of each comment is conducted by Naive Bayesian algorithm.8677 comments are taken in the experiment and the experimental results show that the accuracy，recall and F1 value of the method are high.It is concluded that this method not only reduces the workload of the comment on APP defects，but also improves the accuracy of the classification.

英文關(guān)鍵詞Key Words：Naive Bayes；APP Comment； text classification

0引言

隨著移動網(wǎng)絡(luò)的發(fā)展，微博、微信等APP開始興起并迅速普及，使用移動網(wǎng)絡(luò)進(jìn)行交流和娛樂逐漸流行，在APP平臺上發(fā)表個人觀點和想法的越來越多，其長度一般小于60字。這些觀點和想法在話題發(fā)現(xiàn)和APP缺陷分析等方面有一定價值。在APP軟件問題評論中，大量是關(guān)于APP軟件缺陷問題的評論。白成剛[1]指出，軟件缺陷定義中失效、錯誤、故障、缺陷、差錯、事故等詞匯的含義非常接近，學(xué)術(shù)界對此解釋很不一致，在軟件領(lǐng)域使用時更容易混淆。尹國定[2]指出，所謂軟件錯誤，是指在開發(fā)階段產(chǎn)生、在調(diào)試和測試階段未被發(fā)現(xiàn)的程序錯誤。對APP軟件開發(fā)者而言，從APP評論中分析出APP軟件的缺陷類型非常重要，可據(jù)此對APP軟件作出相應(yīng)修改。

1相關(guān)工作

文本分類指按照預(yù)先定義的主題類別，為文檔集合中每個文檔確定一個類別。文本分類是文本挖掘的重要內(nèi)容。文本分類是一個有指導(dǎo)的學(xué)習(xí)過程，一般包括兩個步驟：①文本分類器訓(xùn)練，使用已知類別的文本訓(xùn)練集訓(xùn)練分類器；②使用未知類別的文本測試集測試文本分類器。

1.1文本特征選擇算法

所有特征選擇算法都是衡量特征重要程度后再進(jìn)行選擇，而如何量化特征的重要性是各種方法的最大不同?？ǚ津炞C是通過預(yù)先設(shè)定一個原假設(shè)，在原假設(shè)成立的情況下觀察實際值和理論值之間的差值確定假設(shè)是否成立。其差值，即卡方統(tǒng)計值如式（1）所示。

χ2（t，c）=∑ei=1（xi-E）2E（1）

式（1）中，t代表某個特征，c代表某個事件，xi代表xi的時間觀察值，理論值E為數(shù)學(xué)期望，該原理簡單易懂具有很高的使用價值。當(dāng)觀察值和理論值偏差很大時原假設(shè)不成立，當(dāng)觀察值和理論值偏差很小時原假設(shè)成立。

周愛武等[3]使用卡方統(tǒng)計法提取文本的特征詞語，并使用SVM算法對文本情感進(jìn)行了分類處理。實驗結(jié)果顯示該方法的精準(zhǔn)度和召回率都在82%以上，達(dá)到了預(yù)期效果，但是沒有考慮多分類類別相關(guān)的處理條件。徐明等[4]提出了基于改進(jìn)的卡方統(tǒng)計方法，對微博的特征抽取并使用KNN算法分類，在分類效果上有了明顯提高，但還需擴大數(shù)據(jù)量，排除單個特征對分類結(jié)果的影響。張輝宜等[5]考慮了在不均衡數(shù)據(jù)集上詞語的頻度和類別的數(shù)量等因素，以致每個類別中不能選擇出有效特征。李平等[6]提出了混合卡方統(tǒng)計的特征選擇方法，在原來的卡方統(tǒng)計基礎(chǔ)上，引入詞頻和逆文本頻率等因素，以便減少選擇與類別無關(guān)的特征。針對文本分類中出現(xiàn)的特征詞語較少情況，宋鈺婷[7]提出了一種卡方統(tǒng)計與LDA的主題模型對文本進(jìn)行分類，并與互信息、信息增益特征選擇算法進(jìn)行比較，證明了卡方統(tǒng)計算法的優(yōu)勢。

1.2基于LDA的文本分類算法

LDA 是Latent Dirichlet Allocation的簡稱，是一種文檔主題生成模型。微博和APP評論比較相似，萬本帥[8]提出一個基于LDA的微博生成模型MRT-LDA，利用微博之間的轉(zhuǎn)發(fā)、對話等關(guān)系計算微博之間的相關(guān)性，挖掘微博主題。LDA采用詞袋方法對文檔建模，忽略了詞語之間順序，不適合應(yīng)用在APP評論問題上。

張金瑞等[9]使用LDA主題模型，并引入詞向量對新聞數(shù)據(jù)進(jìn)行分類，但是沒有考慮句子之間和段落之間存在的主題轉(zhuǎn)移問題。APP評論是一種短文本，呂超鎮(zhèn)等[10]使用LDA對文本進(jìn)行預(yù)測，得到了文檔的主題分布，然后把主題中的詞語補充到原文檔中。該方法對文檔的特征詞語進(jìn)行了擴充，使得分類效果有所提升。郭克友等[11]使用LDA模型對道路圖像進(jìn)行處理，并結(jié)合LSD算法對道路的車道線進(jìn)行確定，以便準(zhǔn)確分類。謝晨陽等[12]提出改進(jìn)的LDA模型，通過確定主題數(shù)目，并發(fā)掘每個標(biāo)簽之間的層次關(guān)系，以提高分類效果。

13基于樸素貝葉斯的文本分類算法

近年來，有研究者使用樸素貝葉斯作為文本分類方法。樸素貝葉斯是在貝葉斯原理基礎(chǔ)上加入了特征獨立的假設(shè)。貝葉斯理論歷史悠久，有著堅實的理論基礎(chǔ)，處理很多問題時直接而又高效，很多高級自然語言處理模型可從它演化而來。樸素貝葉斯是在貝葉斯理論基礎(chǔ)上，假設(shè)特征之間是獨立互不影響的。雖然“所有特征彼此獨立”這個假設(shè)在現(xiàn)實中不太可能成立，但它可以大大簡化計算，而且有研究表明對分類結(jié)果的準(zhǔn)確性影響不大。根據(jù)樸素貝葉斯算法計算每個文本屬于每個類別的概率，將文本分類于概率最大的類別。

貝葉斯原理用來描述兩個條件概率之間的關(guān)系，比如p（Y|X）和P（X|Y）。具體來說，事件Y在事件X發(fā)生的條件下的概率，與事件X在事件Y發(fā)生的條件下的概率是不一樣的，但這兩者有確定關(guān)系，貝葉斯原理就是闡述這兩者關(guān)系的。貝葉斯原理用以下公式闡述：

P（Y|X）=P（Y）P（X|Y）P（X）（2）

P（Y）和P（X）是先驗概率，p（Y|X）是后驗概率，是事件X發(fā)生的條件下事件Y發(fā)生的概率。貝葉斯算法通過對數(shù)據(jù)集各個概率計算，得到每個特征數(shù)據(jù)問題類型的概率，進(jìn)而得到一個文本數(shù)據(jù)問題類型的概率，最后得到最大概率即為該文本應(yīng)屬的問題類型。每個文本特征互不影響，稱作 “文本特征條件獨立性假設(shè)”，并定義事件Y=（Y1，Y2，… ，Ym），X代表事件所包含的屬性，X=（X1，X2，…，Xn）。可將式（2）重寫為：

P（Ym|Xn）=P（Ym）P（Xn|Ym）P（Xn）=P（Ym）P（Xn）∏ni=1P（Xi|Ym）（3）

樸素貝葉斯算法基本步驟：

（1）計算每個事件的先驗概率P（Ym）和P（Xn）。P（Ym）指事件Ym在所有事件Y中的概率。令Dm表示數(shù)據(jù)集D中事件Ym組成的集合，若有充足的獨立分布樣本，則可容易估算出類先驗概率。

P（Ym）=|Dm||D|（4）

計算先驗概率P（Xn）。P（Xn）指每個事件屬性在所有事件屬性中出現(xiàn)的概率。在給定數(shù)據(jù)集中，該概率與事件類別無關(guān)。

P（Xn）=CouXnCouX（5）

式（5）中，CouXn代表屬性Xn在數(shù)據(jù)集D中出現(xiàn)的次數(shù)，CouX代表所有屬性的總數(shù)。

（2）條件概率P（Xn|Ym）指每個屬性在每個事件中出現(xiàn)的概率。令DYm，Xn表示DYm在事件Ym的數(shù)據(jù)集上取值為Xn的樣本集合，則條件概率P（Xn|Ym）可估計為：

P（Xn|Ym）=|DYm，Xn||DYm|（6）

（3）通過計算得到步驟（1）和步驟（2）中的P（Ym）、P（Xn）和P（Xn|Ym），可計算得P（Ym|Xn）。

（4）通過計算一條數(shù)據(jù)中所有屬性的P（Ym|Xn），得到它們和的最大值P（Ym|X），判斷該數(shù)據(jù)屬于事件m。

樸素貝葉斯算法具有原理簡單有效的特點，可用于各種文本處理。熊志斌[13]運用樸素貝葉斯原理對搜狗實驗室語料進(jìn)行了分類，效果較好，說明樸素貝葉斯在文本分類中的適用性。但這種分類方法還有很多可以改進(jìn)的地方。張雯[14]在樸素貝葉斯基礎(chǔ)上提出了一種屬性加權(quán)的文本集成分類器，并通過十折交叉驗證了其在很多文本語料庫中分類效果都較出色。鄧維斌等[15]提出了一種基于粗糙集的加權(quán)樸素貝葉斯郵件過濾算法，相比樸素貝葉斯和支持向量機算法，其召回率、精確度和準(zhǔn)確度效果都很好。要反映垃圾郵件特征的屬性集，以免實驗將正常郵件識別成垃圾郵件。羅慧欽等[16]根據(jù)樸素貝葉斯的“特征相互獨立”假設(shè)在現(xiàn)實中不完全成立的情況下，提出一種隱樸素貝葉斯模型，用于對商品評論的情感分類，該方法有較好的分類效果。

2改進(jìn)特征選擇的樸素貝葉斯分類算法

本文研究的對象是APP缺陷問題評論，使用樸素貝葉斯對APP缺陷問題評論分類，特征選擇算法是必不可少的?？ǚ浇y(tǒng)計廣泛應(yīng)用于文本特征選擇上，其在每個特殊應(yīng)用領(lǐng)域上的改進(jìn)方式也不盡相同。本文根據(jù)APP缺陷問題評論特點，對卡方統(tǒng)計算法進(jìn)行改進(jìn)，以提高文本特征選擇的準(zhǔn)確性。

2.1APP評論獲取與分詞

本文分類所使用的APP評論數(shù)據(jù)來源于安卓市場（網(wǎng)址：www.hiapp.com）。使用爬蟲程序從安卓市場上獲取文本，獲取的APP評論信息包括APP名稱、用戶名、APP評論、APP簡介等信息。漢語和其它語言在表達(dá)方式上有差異，在得到APP評論后，需要對其分詞以便于理解文本。本文采用的分詞工具是中科院的NLPIR漢語分詞系統(tǒng)（網(wǎng)站：http：//ictclas.nlpir.org/），分詞后的結(jié)果如表1所示。

2.2停用詞處理

通過對大量APP評論的觀察，發(fā)現(xiàn)存在很多詞語對文本分析作用較小的情況，稱之為“停用詞”。為加快文本分析效率，需對停用詞進(jìn)行一定的篩除。一般的處理方式是采用很多研究者總結(jié)出的停用詞表，例如“哈工大停用詞詞庫”和“四川大學(xué)機器學(xué)習(xí)智能實驗室停用詞庫”。但由于這些停用詞表綜合了多個領(lǐng)域的詞語，針對某個特定領(lǐng)域時作用不大。文本在借鑒已有停用詞表基礎(chǔ)上引入詞頻元素，步驟如下：

（1）網(wǎng)上有很多用于文本分析而參考的停用詞表，如“哈工大停用詞詞庫”和“四川大學(xué)機器學(xué)習(xí)智能實驗室停用詞庫”，對兩者內(nèi)容進(jìn)行合并和去重，得到停用詞表S1。

（2）對所有APP評論計算每個詞語的詞頻TF，公式為：

TFi，j=ni，j∑knk，j（7）

式（7）中，ni，j是該詞在文件dj中的出現(xiàn)次數(shù)，而分母則是在文件dj中所有字詞出現(xiàn)的次數(shù)之和。

通過公式（7）得到所有詞語的TF集合，集合樣式是[w，n]，w代表詞語，n代表該詞語的TF值。通過該集合，可以清楚了解詞語的出現(xiàn)情況，然后按照TF值的大小對詞語從大到小排序，得到集合L1。

（3）遍歷集合L1的每個詞語，把取到的每個詞語與停用詞表S1進(jìn)行比對。令集合L1當(dāng)前被取到的詞語為Wc，若Wc被包含在停用詞表S1中，則將Wc存入新集合L2中，直至集合L2詞語的個數(shù)達(dá)到Q個。實驗顯示當(dāng)Q取20時，得到的停用詞更為準(zhǔn)確。

（4）遍歷集合L2中的所有詞語。若一條APP評論中包含集合L2中的詞語，則將其從APP評論中篩除。

通過以上處理，得到的APP評論更能反映核心表達(dá)內(nèi)容，能提高文本處理效率。

2.3文本特征選擇

本文研究對象是APP缺陷問題評論的特征。若要對其分析出好的效果，文本特征的選擇尤為重要。特征選擇步驟如下：

（1）APP簡介中的信息反映了APP功能，即是特征選擇中提到的特征。APP簡介信息如表1所示。取APP簡介中詞性為名詞和動詞的詞語作為該APP的特征[17]，即APP評論分詞以n和v作為后綴的詞語。以表1中的APP簡介分詞為例，“地圖/n”、“功能/n”、“智能/n”、“語音/n”、“美食/n”、“機票/n” “酒店/n”等詞語作為APP特征。若APP評論出現(xiàn)前面幾個詞語，將存入APP的特征集Lf1。

（2）雖然文獻(xiàn)[4]使用引入頻度的卡方統(tǒng)計對微博特征進(jìn)行選擇，但在APP缺陷問題評論中只通過加入頻度，還不能得到較好的特征選擇結(jié)果。通過大量觀察發(fā)現(xiàn)，真正能反映APP缺陷問題評論的文本特征具有同時出現(xiàn)的特點，比如在崩潰問題中， “總是”和“崩潰”多同時出現(xiàn)，而且兩個詞語之間的距離也較近。又比如在APP軟件整體缺陷問題中，“不”和“好”也多同時出現(xiàn)，并且這兩個詞語在APP評論中的距離很近。根據(jù)這個特點，在使用傳統(tǒng)卡方統(tǒng)計進(jìn)行特征選擇時，加入詞語同時出現(xiàn)[18]和詞語距離因素，以提高特征選擇方法的準(zhǔn)確度。

根據(jù)卡方統(tǒng)計值定義，將公式（1）轉(zhuǎn)化為：

χ2（t，cv）=N·（AD-CB）2（A+C）（B+D）（A+B）（C+D）（8）

且N=A+B+C+D。

式（8）中，N代表所有文本的數(shù)量，t代表特征詞，cv代表某個文本類別，A代表在類別cv文本集中包含特征詞t的文本數(shù)量，B代表其它類別文本集中包含特征詞t的文本數(shù)量，C代表類別cv文本集中不包含特征詞t的文本數(shù)量，D為其它類別文本集中不包含特征詞t的文本數(shù)量。

根據(jù)步驟（2）對卡方統(tǒng)計的改進(jìn)，將公式（8）轉(zhuǎn)化為：

χ2（[tp，tq]，cv）=N·（AD-CB）2（A+C）（B+D）（A+B）（C+D）（9）

同樣滿足N=A+B+C+D。

令N表示所有文本特定的數(shù)量，tp和tq代表特征詞，cv代表某個文本類別，A代表在類別cv文本集中同時包含特征詞tp和tq的文本數(shù)量，B代表其它類別文本集中包含特征詞tp和tq的文本數(shù)量，C代表類別cv文本集中不包含特征詞tp和tq的文本數(shù)量，D為其它類別文本集中不包含特征詞tp和tq的文本數(shù)量。

算法流程如圖1所示。

為得到所有詞語卡方值，根據(jù)公式（10）找出詞語和各類別卡方值集合中的最大值作為分類系統(tǒng)的卡方值，并選擇一定數(shù)目k1的卡方值存入APP特征集Lf2。

χ2max=maxχ2（[tp，tq]，cv）（10）

最終APP特征集是Lf= Lf1∪Lf2，本文最終使用的APP特征集是Lf。通過上述步驟，特征選擇效果更好，內(nèi)容更全面準(zhǔn)確。

2.4實驗

2.4.1評價指標(biāo)

文本分類評價指標(biāo)主要有召回率（Recall，R）、精準(zhǔn)率（Precision，P）和F1值，F(xiàn)1是精準(zhǔn)率和召回率的調(diào)和平均數(shù)，各指標(biāo)計算公式如下：

P=TPTP+FP（11）

R=TPTP+FN（12）

F1=TP+TNTP+TN+FP+FN（13）

公式（11）、（12）、（13）中，TP表示正確分類的正元組數(shù)，F(xiàn)P表示錯誤標(biāo)記為正元組的負(fù)元組數(shù)，TN表示分類正確的負(fù)元組數(shù)，F(xiàn)N表示錯誤標(biāo)記為負(fù)元組的正元組數(shù)。

2.4.2實驗分析

本文實驗使用APP缺陷問題評論8 677條，包括7種缺陷問題：①崩潰問題。指評論中提到的“崩潰”類似的問題，如評論“這個APP老是崩潰”；②響應(yīng)時間問題。指評論中提到的“反應(yīng)慢”類似的問題，如評論“它老是反應(yīng)慢”；③功能表現(xiàn)不佳問題。指評論中提到的針對APP具體功能出現(xiàn)的問題評論，如評論“QQ不能發(fā)消息了”；④安裝問題。指用戶在安裝APP時出現(xiàn)的問題，如評論“微信老是安裝不上”；⑤下載問題。指用戶在下載APP時出現(xiàn)的問題，如評論“這個下載問題比較嚴(yán)重”；⑥資源問題。指用戶在使用APP過程中出現(xiàn)的智能設(shè)備資源消耗過大問題，如評論“這個APP耗電太多”；⑦整體缺陷問題。指用戶對APP整體體驗較差問題，如評論“這個太爛”。

實驗的分類算法使用樸素貝葉斯算法，卡方值數(shù)量k1=1 300，在兩個詞語的距離閾值k2=4時實驗效果最好，最后通過十折交叉驗證。

表2和表3展示在不同類別的APP缺陷問題評論中，本文方法與傳統(tǒng)卡方統(tǒng)計方法的試驗結(jié)果比較。可以看出，在不同指標(biāo)上本文方法都有提高，這是因為傳統(tǒng)的卡方統(tǒng)計方法沒有考慮到APP缺陷評論問題特點，即能正確反映APP缺陷問題的詞語之間有同時出現(xiàn)的特點。

APP缺陷問題評論類型的多樣性也是影響分類效果的一個因素。例如整體缺陷問題的有關(guān)評論，其內(nèi)容較少，不能很好地對其特征進(jìn)行選擇，導(dǎo)致分類效果低于80%。而下載問題的評論，其內(nèi)容格式較為穩(wěn)定，所以分類效果較好。

3結(jié)語

通過對APP缺陷問題評論的分析與研究，本文提出了一種改進(jìn)卡方統(tǒng)計APP評論特征選擇方法。首先，對APP評論進(jìn)行預(yù)處理，包括分詞和停用詞處理。然后根據(jù)APP缺陷問題評論特點，對傳統(tǒng)卡方統(tǒng)計方法進(jìn)行改進(jìn)，加入了詞語共同出現(xiàn)和詞語距離因素。實驗結(jié)果表明，改進(jìn)的特征選擇方法分類效果有所提高。但本文方法對已定義好的7種缺陷問題分類效果較好，而對出現(xiàn)未知的缺陷問題分類效果就不是很好。今后要使分類器具有學(xué)習(xí)功能，使其能對未知問題學(xué)習(xí)并識別未知問題特點，能歸成一類或多類。

參考文獻(xiàn)參考文獻(xiàn)：

[1]白成剛.基于Bayes網(wǎng)的軟件可靠性研究[D].杭州：浙江大學(xué)， 1999.

[2]尹國定.網(wǎng)絡(luò)軟件故障分析[J].計算機工程與應(yīng)用， 1987（12）：56.

[3]周愛武，馬那那，劉慧婷.基于卡方統(tǒng)計的情感文本分類[J].微電子學(xué)與計算機，2017，34（8）：5761.

[4]徐明，高翔，許志剛，等.基于改進(jìn)卡方統(tǒng)計的微博特征提取方法[J].計算機工程與應(yīng)用，2014，50（19）：113117.

[5]張輝宜，謝業(yè)名，袁志祥，等.一種基于概率的卡方特征選擇方法[J].計算機工程，2016，42（8）：194198.

[6]李平，戴月明，王艷.基于混合卡方統(tǒng)計量與邏輯回歸的文本情感分析[J].計算機工程，2017（12）：3536.

[7]宋鈺婷，徐德華.基于LDA和SVM的中文文本分類研究[J].現(xiàn)代計算機，2016（5）：1823.

[8]萬本帥.基于MRTLDA模型的微博文本分類[D].廣州：華南師范大學(xué)，2016.

[9]張金瑞，柴玉梅，昝紅英，等.基于LDA的弱監(jiān)督文本分類方法[J].計算機工程與設(shè)計，2017，38（1）：8691.

[10]呂超鎮(zhèn)，姬東鴻，吳飛飛.基于LDA特征擴展的短文本分類[J].計算機工程與應(yīng)用，2015，51（4）：123127.

[11]郭克友，王藝偉，郭曉麗.LDA與LSD相結(jié)合的車道線分類檢測算法[J].計算機工程與應(yīng)用，2017，53（24）：219225.

[12]謝晨陽，盧焱鑫.基于HDP的監(jiān)督多標(biāo)簽文本分類研究[J].計算機工程與應(yīng)用，2017，53（23）：1823.

[13]熊志斌，劉冬.樸素貝葉斯在文本分類中的應(yīng)用[J].軟件導(dǎo)刊，2013，12（2）：4951.

[14]張雯，張化祥.屬性加權(quán)的樸素貝葉斯集成分類器[J].計算機工程與應(yīng)用，2010，46（29）：144146.

[15]鄧維斌，王國胤，洪智勇.基于粗糙集的加權(quán)樸素貝葉斯郵件過濾方法[J].計算機科學(xué)，2011，38（2）：218221.

[16]羅慧欽，陸向艷，張雄寶，等.基于隱樸素貝葉斯的商品評論情感分類方法[J].計算機工程與設(shè)計，2017，38（1）：203208.

[17]冉猛，姜瑛.APP軟件的用戶評論模式分析方法[J].計算機科學(xué)，2017，44（11）：181186.

[18]時永賓，余青松.基于共現(xiàn)詞卡方值的關(guān)鍵詞提取算法[J].計算機工程，2016，42（6）：191195.

責(zé)任編輯（責(zé)任編輯：杜能鋼）