基于情感特征向量空間模型的中文商品評(píng)論傾向分類算法

2016-09-08 10:41:03董祥和

計(jì)算機(jī)應(yīng)用與軟件 2016年8期

關(guān)鍵詞：特征向量詞典類別

董祥和

(天津職業(yè)技術(shù)師范大學(xué)經(jīng)濟(jì)與管理學(xué)院　天津 300222)

基于情感特征向量空間模型的中文商品評(píng)論傾向分類算法

董祥和

(天津職業(yè)技術(shù)師范大學(xué)經(jīng)濟(jì)與管理學(xué)院天津 300222)

為了能夠快速有效地將中文商品評(píng)論識(shí)別為好評(píng)或差評(píng)，提出一種算法。針對(duì)不同類別的商品，預(yù)先根據(jù)其評(píng)論語(yǔ)料構(gòu)建領(lǐng)域情感詞典，評(píng)論文本與情感詞典集匹配提取情感特征，構(gòu)建情感特征向量空間模型SF-VSM(Sentiment Feature Vector Space Model)，解決傳統(tǒng)的特征向量空間模型維數(shù)較高及特征選擇誤差問(wèn)題。然后基于該模型結(jié)合改進(jìn)的多項(xiàng)式樸素貝葉斯方法對(duì)評(píng)論進(jìn)行情感傾向分類。實(shí)驗(yàn)結(jié)果表明，相比分別基于原始特征和基于χ2特征選取的樸素貝葉斯分類算法，該算法分類精度較高且分類速度快。

中文商品評(píng)論情感傾向情感詞典情感特征向量空間模型樸素貝葉斯分類

0　引　言

國(guó)內(nèi)多數(shù)電子商務(wù)銷(xiāo)售平臺(tái)的用戶可以對(duì)商品及服務(wù)發(fā)表評(píng)價(jià)。商品評(píng)論信息對(duì)商家及購(gòu)物者都很重要，會(huì)影響潛在消費(fèi)者的購(gòu)買(mǎi)。通過(guò)對(duì)商品評(píng)論文本的采集分析可以得知用戶對(duì)商品的褒貶程度，有助于商家改進(jìn)生產(chǎn)及銷(xiāo)售策略。隨著電商平臺(tái)用戶和商品的不斷增長(zhǎng)，針對(duì)各種商品的評(píng)論文本信息數(shù)量激增，要求能夠根據(jù)評(píng)論情感傾向及時(shí)、準(zhǔn)確地自動(dòng)進(jìn)行分類，統(tǒng)計(jì)好評(píng)和差評(píng)程度是電商平臺(tái)需要考慮解決的問(wèn)題。情感分析語(yǔ)義計(jì)算可用于分析商品評(píng)論文本的褒貶性。該方法基于情感詞典匹配，適用的語(yǔ)料范圍較廣，無(wú)論是手機(jī)、電腦這些商品，還是書(shū)評(píng)、影評(píng)都有相應(yīng)語(yǔ)料。但是詞典匹配需要深入到詞語(yǔ)、句子、語(yǔ)法這些層面，分類結(jié)果會(huì)由于語(yǔ)義表達(dá)的豐富性而出現(xiàn)較大誤差[1]。監(jiān)督機(jī)器學(xué)習(xí)方法也可用于商品評(píng)論文本情感分析。樸素貝葉斯分類算法是常用的統(tǒng)計(jì)學(xué)習(xí)分類方法，需要人工標(biāo)注訓(xùn)練文本，將訓(xùn)練文本分句分詞，如果直接將分詞作為原始特征進(jìn)行分類學(xué)習(xí)，會(huì)大幅度增加分類器的訓(xùn)練時(shí)間，而且由于分類效果依賴于訓(xùn)練文本和測(cè)試文本之間的相關(guān)性，會(huì)引入噪聲特征，影響分類性能[2]。文獻(xiàn)[3,4]研究比較了中文文本分類中文檔頻率、χ2(Chi-Square, CHI)統(tǒng)計(jì)等特征選取方法對(duì)分類效果的影響。由于針對(duì)選定的訓(xùn)練文本進(jìn)行訓(xùn)練，可能會(huì)篩選掉包含著重要判斷信息的情感特征詞，或保留一些無(wú)法體現(xiàn)情感傾向的特征詞，而且待測(cè)文本需參與較復(fù)雜的特征選擇運(yùn)算，不利于大規(guī)模在線評(píng)論統(tǒng)計(jì)分類。

本文提出語(yǔ)義分析和監(jiān)督分類相結(jié)合的方法，為不同類別商品根據(jù)評(píng)論語(yǔ)料構(gòu)建領(lǐng)域情感詞典。將評(píng)論文本與情感詞典集匹配提取情感特征，構(gòu)建低維數(shù)的情感特征向量空間模型SF-VSM，結(jié)合改進(jìn)的多項(xiàng)式樸素貝葉斯分類算法構(gòu)建分類器。采集國(guó)內(nèi)某電商平臺(tái)的三份商品評(píng)論文本集作為分析樣本，分別與基于原始特征、χ2特征選擇向量空間模型的樸素貝葉斯分類算法進(jìn)行了實(shí)驗(yàn)對(duì)比。

1　相關(guān)知識(shí)

語(yǔ)義分析算法在分析商品評(píng)論文本情感傾向時(shí)，首先需讀取某條評(píng)論文本并進(jìn)行分句；然后查找分句的情感詞并賦予相應(yīng)分值，查找程度詞、否定詞和感嘆號(hào)并賦予相應(yīng)權(quán)重，統(tǒng)計(jì)該分句的好評(píng)分值p1和差評(píng)分值n1，統(tǒng)計(jì)所有分句的好評(píng)分值和差評(píng)分值；最后計(jì)算得到該條評(píng)論的好評(píng)均值pm和方差pv，以及差評(píng)均值nm和方差nv，從而可以得到該條評(píng)論的褒貶程度[5]。評(píng)論文本分詞后需要和情感詞典比對(duì)確定情感傾向，情感詞典包括基礎(chǔ)情感詞典、拓展情感詞典?；A(chǔ)情感詞典包括了一些被廣泛認(rèn)同的如“好”、“差”等這些情感詞，通常把知網(wǎng)提供的正面/負(fù)面評(píng)價(jià)詞語(yǔ)、正面/負(fù)面情感詞語(yǔ)和臺(tái)灣大學(xué)簡(jiǎn)體中文情感極性詞典的positive/negative詞典消重之后組合在一起，構(gòu)成基礎(chǔ)積極/消極情感詞典，同時(shí)需要對(duì)知網(wǎng)提供的程度級(jí)別詞語(yǔ)進(jìn)行權(quán)值的設(shè)置。將基礎(chǔ)情感詞典通過(guò)同義詞詞典找到情感詞的同義詞，這樣就拓展了基礎(chǔ)情感詞典，稱為拓展情感詞典[6]。

機(jī)器學(xué)習(xí)方法分類商品評(píng)論文本情感時(shí)，需先選出一部分表達(dá)積極情感的文本和一部分表達(dá)消極情感的文本，用概率統(tǒng)計(jì)方法進(jìn)行訓(xùn)練，獲得一個(gè)情感分類器。通過(guò)情感分類器對(duì)所有文本進(jìn)行積極和消極的二分分類[7]，最終的分類可以為評(píng)論文本給出好評(píng)/1或差評(píng)/0這樣的類別，也可以給出好評(píng)或差評(píng)的概率值。文本分類最常用的文本特征表示模型是向量空間模型VSM，向量空間模型假設(shè)文本中詞條對(duì)文本類別所起的作用是相互獨(dú)立的，把文本看作一系列無(wú)序詞條的集合[8]。如果分類算法直接將訓(xùn)練文本分詞作為特征，則特征項(xiàng)空間維數(shù)太大，會(huì)產(chǎn)生稀疏問(wèn)題和增加計(jì)算復(fù)雜度；如果僅限于對(duì)分類的訓(xùn)練文本進(jìn)行特征選擇，將可能會(huì)保留一些無(wú)情感傾向的無(wú)用特征或剔除一些在特定領(lǐng)域有情感傾向的有用特征。本文考慮構(gòu)建不同類型商品的領(lǐng)域情感詞典，結(jié)合基礎(chǔ)和拓展情感詞典，分析提取商品評(píng)論文本中的立場(chǎng)、情緒等情感特征，構(gòu)建相應(yīng)的情感特征向量空間模型，降低特征向量空間維數(shù)，以達(dá)到改善分類精度和提高分類速度的目的。

2　基于情感特征向量空間模型的中文商品評(píng)論情感傾向分類算法

2.1情感特征向量空間模型

在特定的領(lǐng)域，有些并非基礎(chǔ)的情感詞也有情感傾向，比如“此款手機(jī)很耐摔，還防水，挺好!”耐摔、防水是在手機(jī)商品這個(gè)領(lǐng)域有積極情緒的詞。為確保文本情感特征提取的全面準(zhǔn)確，需要針對(duì)不同類別的商品構(gòu)建領(lǐng)域情感詞典。采用基于領(lǐng)域語(yǔ)料的逐點(diǎn)互信息PMI(Point-wise Mutual Information)[9]計(jì)算法構(gòu)建領(lǐng)域情感詞典，在相應(yīng)的語(yǔ)料庫(kù)中循環(huán)統(tǒng)計(jì)特征詞、特征詞與積極基礎(chǔ)情感詞和特征詞與消極基礎(chǔ)情感詞分別出現(xiàn)的數(shù)量。利用這些數(shù)據(jù)計(jì)算積極互信息和消極互信息，求兩個(gè)互信息之差，差為正則積極、為負(fù)則消極。重復(fù)計(jì)算不同詞的互信息之差，最后選分值高的特征詞組成領(lǐng)域情感詞，計(jì)算方法如下：

(1)

其中word表示被測(cè)詞，SO-PMI(word)表示積極互信息和消極互信息之差，Pwords和Nwords分別表示基礎(chǔ)情感詞典中的積極和消極基準(zhǔn)詞，PMI計(jì)算如下式：

(2)

其中p(w1,w2)表示被測(cè)詞w1與基礎(chǔ)情感詞w2同時(shí)出現(xiàn)的概率，p(wi)表示wi出現(xiàn)的概率。設(shè)N為語(yǔ)料庫(kù)所有文本數(shù)，df (wi)為詞wi在語(yǔ)料庫(kù)出現(xiàn)的文本頻率，p(wi)計(jì)算如下：

(3)

為不同類型商品構(gòu)建的領(lǐng)域情感詞典會(huì)有所不同。如通過(guò)對(duì)手機(jī)評(píng)論語(yǔ)料庫(kù)的統(tǒng)計(jì)分析，能夠獲取“流暢、輕薄、模糊”等情感詞，而服裝類商品則有“合身、得體、褶皺”等情感詞。類別不同而具有相似屬性的商品，如手機(jī)、筆記本電腦等IT商品，分別為它們構(gòu)建的領(lǐng)域情感詞典會(huì)出現(xiàn)部分相同的情感詞。

基礎(chǔ)情感詞典、拓展情感詞典與領(lǐng)域情感詞典組合而成的情感詞典(L)用三元組描述[10]：

L={C, N, M}

C={ci}i=1,2,…,IN={nj}j=1,2,…,JM={mk}k=1,2,…,K

(4)

其中C代表情感關(guān)鍵詞集，N代表否定詞集，M代表修飾詞集，這些詞匯均可從詞典中自動(dòng)獲取。給定一條評(píng)論文本R，分詞表示為：

R={Rl}l=1,2,…,L

(5)

借助情感詞典從R中提取特征詞，得到情感特征詞集合：

W={wv}={ci,v, nj,v, mk,v}

ci,v∈R∩Cnj,v∈R∩Nmk,v∈R∩M

(6)

每條評(píng)論文本被提取的所有情感特征構(gòu)成一個(gè)特征向量，所有評(píng)論文本中的全部情感特征構(gòu)成空間向量模型SF-VSM，其每一維對(duì)應(yīng)一個(gè)情感特征，定義如下：

(7)

若為某類商品評(píng)論構(gòu)建的原始特征向量空間維數(shù)記為DV，構(gòu)建的情感特征向量空間SF-VSM維數(shù)記為DS，則通過(guò)(DV-DS)/DV×100%可以計(jì)算得到降維程度。

2.2改進(jìn)的多項(xiàng)式模型樸素貝葉斯分類算法

需利用分類算法基于SF-VSM模型訓(xùn)練出分類規(guī)則，然后根據(jù)分類規(guī)則判定未知文本的類別。樸素貝葉斯分類是一種常用的文本分類方法，將表示成為向量的待分類文本Di(x1,x2,…,xn)歸到類別集合C={C1, C2,…,Cm}中的某一類。其中Di(x1, x2,…, xn)為待分類文本Di的特征向量，C={C1, C2,…,Cm}為給定的文本類別集合，即求解向量Di(x1, x2,…, xn)屬于給定類別C1, C2,…, Cm的概率值(p1, p2,…, pm)，其中pj為Di(x1, x2,…, xn)屬于Cj的概率，則max(p1,p2,…,pm)所對(duì)應(yīng)的類別就是文本Di所屬的類別。假設(shè)Di為一任意文本，文本Di屬于Cj的概率為：

(8)

其中P(x1,x2,…,xn)對(duì)應(yīng)所有類值是相同的，所以只需估算P(Cj)P(x1,x2,…,xn|Cj)，式(8)可轉(zhuǎn)化為如下公式：

(9)

樸素貝葉斯分類假設(shè)在給定的文本類別下，文本特征項(xiàng)是相互獨(dú)立的，則有：

(10)

式(9)可簡(jiǎn)化為：

(11)

根據(jù)P(Di|Cj)計(jì)算方式的不同，樸素貝葉斯分類主要有多變量伯努利模型MBM(Multivariate Bernoulli Model)、多項(xiàng)式模型MM(Multinomial Model)等模型[11]。由于多項(xiàng)式模型考慮了特征項(xiàng)在文本中出現(xiàn)的次數(shù)，該信息決定一個(gè)文本的類別時(shí)具有重要的價(jià)值，所以本文采用了多項(xiàng)式模式樸素貝葉斯分類方法。文本屬于類Cj時(shí)特征詞xi出現(xiàn)一次的概率為P(xi|Cj)，出現(xiàn)nk次的概率為P(xi|Cj)nk，假定共有n個(gè)詞，則n=n1+n2+…+nk，則有：

(12)

P(xi|Cj)采用詞頻估算：

(13)

為了避免數(shù)據(jù)稀疏引起的零概率問(wèn)題，一般會(huì)引入laplace平滑因子[12]，如下式：

(14)

式中V是訓(xùn)練樣本的特征詞表。如果訓(xùn)練集中某類別包含的特征詞量較大，而其他類別包含的特征詞量相對(duì)少，利用式(14)計(jì)算可能會(huì)造成較大的估計(jì)偏差。提出采用修正的平滑因子λ，λ取特征項(xiàng)xi在所有類中出現(xiàn)的概率，即λ=P(xi|C)，式(14)調(diào)整為下式：

(15)

先驗(yàn)概率P(Cj)計(jì)算如下：

(16)

對(duì)于給定的待測(cè)文本Di，通過(guò)式(11)、式(15)和式(16)表示的模型計(jì)算后驗(yàn)概率分布，將后驗(yàn)概率最大的類作為Di的類輸出。

2.3算法描述

提出的中文商品評(píng)論文本情感傾向分類算法主要步驟描述如下：

(1) 針對(duì)要處理的某類商品，利用2.1節(jié)式(1)-式(3)基于相應(yīng)評(píng)論語(yǔ)料庫(kù)構(gòu)建領(lǐng)域情感詞典；

(2) 將該類中文商品評(píng)論集預(yù)處理，人工標(biāo)注文本所屬類別，標(biāo)注每條評(píng)論屬于好評(píng)或差評(píng)；

(3) 采用交叉驗(yàn)證方法，將標(biāo)注文本分為訓(xùn)練文本和測(cè)試文本；

(4) 將訓(xùn)練文本分句、分詞，去除停用詞和高頻詞，構(gòu)成初始文本向量；

(5) 將初始文本向量與基礎(chǔ)情感詞典、拓展情感詞典和領(lǐng)域情感詞典，提取情感詞特征，根據(jù)2.1節(jié)式(4)-式(7)構(gòu)建SF-VSM；

(6) 基于SF-VSM和式(15)計(jì)算每個(gè)情感特征項(xiàng)對(duì)類別進(jìn)行劃分的條件概率，記錄結(jié)果；

(7) 根據(jù)式(16)計(jì)算好評(píng)和差評(píng)兩個(gè)類別在訓(xùn)練文本集中出現(xiàn)的頻率，記錄結(jié)果；

(8) 輸入測(cè)試文本，依據(jù)(4)、(5)步生成測(cè)試文本情感特征向量；

(9) 利用式(7)計(jì)算測(cè)試文本情感特征向量分別屬于兩個(gè)類的概率，將測(cè)試文本分配到概率最大的類別中，記錄分配結(jié)果；

(10) 針對(duì)所有測(cè)試文本，重復(fù)(8)、(9)步，統(tǒng)計(jì)所有測(cè)試文本分配結(jié)果和實(shí)際標(biāo)注的類別一致次數(shù)，計(jì)算分類準(zhǔn)確率；

(11) 重復(fù)(3)-(10)步，多次迭代計(jì)算分類平均準(zhǔn)確率；

(12) 輸入待分類評(píng)論文本，依據(jù)(4)、(5)步生成待分類評(píng)論文本情感特征向量；

(13) 利用式(7)計(jì)算待分類評(píng)論文本情感特征向量分別屬于兩個(gè)類的概率，將待分類評(píng)論文本分配到概率最大的類別中，輸出結(jié)果，算法結(jié)束。

算法步驟中(4)-(7)步生成分類器，(8)-(11)步測(cè)試分類準(zhǔn)確率，(12)、(13)步完成待分類評(píng)論文本的分類。

3　實(shí)　驗(yàn)

實(shí)驗(yàn)比較三種算法對(duì)中文商品評(píng)論文本情感傾向的分類效果。算法一是文中提出的基于情感特征向量空間模型的改進(jìn)多項(xiàng)式模型樸素貝葉斯分類算法。算法二是基于原始特征向量空間模型的多項(xiàng)式模型樸素貝葉斯分類算法，該算法直接將評(píng)論文本分詞作為特征項(xiàng)。算法三是基于χ2特征選擇向量空間模型的多項(xiàng)式模型樸素貝葉斯分類算法[13]。χ2統(tǒng)計(jì)方法假設(shè)詞條和文本類別之間符合具有一階自由度的χ2分布，通過(guò)衡量詞條與文本類別之間的相關(guān)程度選擇特征以降低特征空間的維數(shù)。

3.1實(shí)驗(yàn)數(shù)據(jù)與評(píng)價(jià)指標(biāo)

實(shí)驗(yàn)數(shù)據(jù)采集自國(guó)內(nèi)某電商平臺(tái)指定型號(hào)的數(shù)碼相機(jī)、手機(jī)、筆記本的用戶評(píng)論，其中數(shù)碼相機(jī)評(píng)論7067條，手機(jī)評(píng)論11 125條，筆記本評(píng)論23 379條。鑒于評(píng)論分類是二分類問(wèn)題，將三份評(píng)論進(jìn)行剔除保留處理，人工分類標(biāo)注，得到數(shù)碼相機(jī)評(píng)論好評(píng)和差評(píng)均為2409條，手機(jī)評(píng)論好評(píng)和差評(píng)均為4742條，筆記本評(píng)論好評(píng)和差評(píng)均為8653條。

算法一使用的基礎(chǔ)情感詞典由知網(wǎng)提供的情感詞語(yǔ)和臺(tái)灣大學(xué)簡(jiǎn)體中文情感極性詞典消重組合在一起，拓展情感詞典采用哈工大信息檢索研究中心同義詞詞林?jǐn)U展版。從http://www.datatang.com下載關(guān)于數(shù)碼相機(jī)、手機(jī)、筆記本相應(yīng)的評(píng)論語(yǔ)料庫(kù)。根據(jù)2.1節(jié)提出的方法分別構(gòu)建數(shù)碼相機(jī)、手機(jī)、筆記本對(duì)應(yīng)的領(lǐng)域情感詞典，其中數(shù)碼相機(jī)領(lǐng)域情感詞典中有502個(gè)褒義詞、170個(gè)貶義詞，手機(jī)領(lǐng)域情感詞典中有810個(gè)褒義詞、352個(gè)貶義詞，筆記本領(lǐng)域情感詞典中有838個(gè)褒義詞、368個(gè)貶義詞。

查準(zhǔn)率(precision)、召回率(recall)和微平均(F1)作為評(píng)價(jià)分類效果的指標(biāo)[14]。查準(zhǔn)率是指算法正確分類到某個(gè)類別的評(píng)論文本數(shù)與算法分類到該類別的評(píng)論文本數(shù)的比率；召回率是算法正確分類到某個(gè)類別的評(píng)論文本數(shù)與人工分類到該類別的評(píng)論文本數(shù)的比率；F1微平均值綜合考慮了查準(zhǔn)率和召回率兩個(gè)指標(biāo)，計(jì)算公式如下：

(17)

3.2實(shí)驗(yàn)結(jié)果與分析

程序用Java語(yǔ)言實(shí)現(xiàn)，采用10折交叉驗(yàn)證法進(jìn)行訓(xùn)練和測(cè)試，每次分配訓(xùn)練文本和測(cè)試文本后，交給三種算法運(yùn)算處理，記錄訓(xùn)練時(shí)間和測(cè)試時(shí)間，計(jì)算評(píng)價(jià)指標(biāo)值，并重復(fù)10次取平均值。程序在Intel pentium4 3.2 GHz的CPU，內(nèi)存4 GB的PC機(jī)，Windows 7操作系統(tǒng)上運(yùn)行測(cè)試。

實(shí)驗(yàn)中統(tǒng)計(jì)對(duì)比得到，針對(duì)數(shù)碼相機(jī)評(píng)論，相比于算法二為其構(gòu)建的原始特征向量空間，算法一為其構(gòu)建的情感特征向量空間維數(shù)下降了53.4%。而手機(jī)評(píng)論特征空間維數(shù)下降了51.7%，筆記本評(píng)論特征空間維數(shù)下降了52.3%。三種算法的分類效果如圖1所示。

圖1　三種算法分類效果

從實(shí)驗(yàn)結(jié)果可以看出，算法一的分類精度高于算法二和算法三。當(dāng)對(duì)筆記本評(píng)論分類時(shí)算法二分類效果最差，說(shuō)明特征向量維數(shù)過(guò)高造成噪聲數(shù)據(jù)過(guò)多，影響了分類精度。當(dāng)對(duì)數(shù)碼相機(jī)評(píng)論分類時(shí)，由于訓(xùn)練文本較少，算法三保留了過(guò)多的低頻詞，這些低頻詞并非情感特征，大都是噪音詞，不應(yīng)作為特征，相比于算法二，分類效果提升并不明顯。由于實(shí)驗(yàn)?zāi)康氖亲R(shí)別評(píng)論屬于好評(píng)或差評(píng)，應(yīng)主要考慮文本情感特征，而中文商品評(píng)論文本的情感特征比較豐富，情感詞與評(píng)價(jià)對(duì)象之間的對(duì)應(yīng)關(guān)系比較清晰。算法一能夠較準(zhǔn)確地提取情感特征，空間維數(shù)相比算法二和算法三都低，而且在計(jì)算條件概率時(shí)采用了修正的平滑因子，計(jì)算準(zhǔn)確率較高。當(dāng)對(duì)筆記本評(píng)論分類時(shí)精度有所下降，但不是特別明顯，說(shuō)明算法分類性能比較穩(wěn)定。

鑒于算法需實(shí)際運(yùn)用于電商平臺(tái)在線評(píng)論分類系統(tǒng)，3種算法的訓(xùn)練文本訓(xùn)練時(shí)間和測(cè)試文本分類時(shí)間需要測(cè)試，時(shí)間開(kāi)銷(xiāo)如表1所示。

表1　三種算法時(shí)間開(kāi)銷(xiāo)

算法二將所有分詞作為特征項(xiàng)，隨著評(píng)論文本的增加，詞匯增多，特征向量維數(shù)遠(yuǎn)高于算法一和算法三，增加了分類計(jì)算復(fù)雜度，計(jì)算耗時(shí)最長(zhǎng)。算法三根據(jù)χ2分布提取特征的計(jì)算復(fù)雜度為O(n2)，同一類別生成的特征向量維數(shù)仍比算法一要高。算法一分詞匹配提取情感特征的計(jì)算復(fù)雜度為O(m×n)，生成的SF-VSM維數(shù)均低于算法二和算法三，訓(xùn)練時(shí)間開(kāi)銷(xiāo)較小，測(cè)試文本分類時(shí)間短，滿足在線評(píng)論分類要求。

3.3存在的問(wèn)題

針對(duì)不同類別商品的中文評(píng)論文本，提出的算法在情感傾向分類之前，需要完成相關(guān)預(yù)備工作，即收集整理不同類別商品評(píng)論語(yǔ)料庫(kù)，并通過(guò)語(yǔ)義分析方法構(gòu)建領(lǐng)域情感詞典。整理并定期更新完善各類別語(yǔ)料庫(kù)，是算法能夠有效運(yùn)行的前提條件，并且對(duì)在線商品評(píng)論情感傾向分類時(shí)，需要將情感詞典集作為模塊集成到分類程序中，同時(shí)需要經(jīng)常更新領(lǐng)域情感詞典。

4　結(jié)　語(yǔ)

基于SF-VSM模型結(jié)合改進(jìn)的多項(xiàng)式樸素貝葉斯算法，能夠快速有效地將中文商品評(píng)論文本分類為好評(píng)或差評(píng)，分類得到的結(jié)果可以為推薦系統(tǒng)提供幫助。差評(píng)度較高的商品將不會(huì)被推薦給用戶，也可以為在線廣告投放系統(tǒng)提供幫助，好評(píng)程度較高的商品相關(guān)廣告可以被投放。針對(duì)差評(píng)度較高的商品，需要深入分析挖掘差評(píng)評(píng)論文本，提取意見(jiàn)較大的商品屬性或服務(wù)項(xiàng)目，這樣有助于生產(chǎn)企業(yè)改進(jìn)商品和銷(xiāo)售企業(yè)改進(jìn)服務(wù)，這也是進(jìn)一步的研究方向。

[1] Peter T,Michael L.Measuring Praise and Criticism:Inference of Semantic Orientation from Association[J].ACM Transactions on Information Systems,2003,21(4):315-346.

[2] Bing Liu.Sentiment Analysis and Opinion Mining[M].California:Morgan & Claypool Publishers,2012:24-28.

[3] 張瑾.基于改進(jìn)TF-IDF算法的情報(bào)關(guān)鍵詞提取方法[J].情報(bào)雜志,2014,33(4):153-155.

[4] 李曉紅.中文文本分類中的特征詞抽取方法[J].計(jì)算機(jī)工程與設(shè)計(jì),2009,30(17):4127-4129.

[5] 陳曉東.基于情感詞典的中文微博情感傾向分析研究[D].武漢:華中科技大學(xué),2012.

[6] 周詠梅,楊佳能.面向文本情感分析的中文情感詞典構(gòu)建方法[J].山東大學(xué)學(xué)報(bào):工學(xué)版,2013,43(6):27-33.

[7] 周杰.基于機(jī)器學(xué)習(xí)的網(wǎng)絡(luò)新聞評(píng)論情感分類研究[J].計(jì)算機(jī)應(yīng)用,2010,30(4):1011-1014.

[8] Turney P D.Thumbs up Or Thumbs Down? Semantic Orientation Applied to Unsupervised Classification of Reviews[C]//Proceedings of ACL-02,40th Annual Meeting of the Association for Computational Linguistics.Philadelphia:ACL,2002:417-424.

[9] 王振宇,吳澤衡.基于HowNet和PMI的詞語(yǔ)情感極性計(jì)算[J].計(jì)算機(jī)工程,2012,38(15):187-193.

[10] 夏云慶,楊瑩,張鵬洲,等.基于情感向量空間模型的歌詞情感分析[J].中文信息學(xué)報(bào),2010,24(1):99-103.

[11] Barber D.Bayesian Reasoning and Machine Learning[M].Oxford:Cambridge University Press,2012:227-237.

[12] 杜選.基于加權(quán)補(bǔ)集的樸素貝葉斯文本分類算法研究[J].計(jì)算機(jī)應(yīng)用與軟件,2014,31(9):253-255.

[13] 徐明,高翔,許志剛,等.基于改進(jìn)卡方統(tǒng)計(jì)的微博特征提取方法[J].計(jì)算機(jī)工程與應(yīng)用,2014,50(19):113-117.

[14] Manning C M.Introduction to Information Retrieval[M].Oxford:Cambridge University Press,2010:151-173.

CLASSIFICATION ALGORITHM FOR CHINESE PRODUCT REVIEWS TENDENCY BASED ON SENTIMENT FEATURES VECTOR SPACE MODEL

Dong Xianghe

(SchoolofEconomicsandManagement,TianjinUniversityofTechnologyandEducation,Tianjin300222,China)

To classify the Chinese product reviews as positive or negative quickly and efficiently, we propose an algorithm. It builds the domain sentiment lexicon in advance according to the review corpus in regard to the products of different categories, and extracts the sentiment features by matching the reviews text with sentiment lexicon set. Then it builds the sentiment feature vector space model (SF-VSM) to solve the problems of traditional vector space model in higher dimensionality and feature selection error. Afterwards, based on SF-VSM and in combination with the improved multinomial naive Bayes method, it classifies the sentiment tendency of reviews. Experimental results show that the proposed algorithm has higher classification accuracy and classification speed than the naive Bayes algorithms based on primitive vector space model or χ2feature selection respectively.

Chinese product reviewsSentiment tendencySentiment lexiconSentiment feature vector space modelNaive Bayes classification

2015-03-03。天津職業(yè)技術(shù)師范大學(xué)科研發(fā)展基金項(xiàng)目(SK12-01)。董祥和，副教授，主研領(lǐng)域：Web數(shù)據(jù)挖掘，智能信息處理。

TP391

10.3969/j.issn.1000-386x.2016.08.071

99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

基于情感特征向量空間模型的中文商品評(píng)論傾向分類算法

0 引 言

1 相關(guān)知識(shí)

2 基于情感特征向量空間模型的中文商品評(píng)論情感傾向分類算法

3 實(shí) 驗(yàn)

4 結(jié) 語(yǔ)

0　引　言

1　相關(guān)知識(shí)

2　基于情感特征向量空間模型的中文商品評(píng)論情感傾向分類算法

3　實(shí)　驗(yàn)

4　結(jié)　語(yǔ)