摘? 要:隨著互聯(lián)網(wǎng)和電子商務(wù)的高速發(fā)展,各種電商平臺(tái)上的在線商品評(píng)論數(shù)量急劇增長(zhǎng)。在線評(píng)論包含了消費(fèi)者對(duì)購(gòu)買的商品或服務(wù)的感受、態(tài)度和情感傾向,對(duì)潛在的消費(fèi)者而言具有很大的參考作用?,F(xiàn)在有很多研究關(guān)注評(píng)論數(shù)據(jù)的情感傾向以及如何對(duì)情感進(jìn)行量化,并且取得了不錯(cuò)的成果。本文通過學(xué)習(xí)總結(jié)情感分析發(fā)展現(xiàn)狀,對(duì)目前情感分析在商品評(píng)論中的應(yīng)用進(jìn)行介紹和總結(jié)。
關(guān)鍵詞:自然語(yǔ)言處理;在線評(píng)論;情感分析;情感詞典
中圖分類號(hào):TP391.1? ? ? 文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):2096-4706(2019)10-0187-04
Abstract:With the rapid development of the internet and e-commerce,the number of online product reviews on various e-commerce platforms has increased dramatically. Online reviews contain consumer perceptions,attitudes,and sentiments about the goods or services they purchase,and are a great reference for potential consumers. There are many studies that focus on the emotional tendencies of the review data and how to quantify the emotions,and have achieved good results. Through the study and summary of the development status of sentiment analysis,the application of current sentiment analysis in commodity reviews is introduced and summarized.
Keywords:natural language processing;online review;emotion analysis;emotional dictionary
0? 引? 言
由中國(guó)互聯(lián)網(wǎng)絡(luò)信息中心(CNNIC)在2018年8月發(fā)布的第42次《中國(guó)互聯(lián)網(wǎng)絡(luò)發(fā)展?fàn)顩r統(tǒng)計(jì)報(bào)告》。截至2018年6月30日,我國(guó)網(wǎng)民規(guī)模達(dá)8.02億,互聯(lián)網(wǎng)普及率為57.7%,為電子商務(wù)快速發(fā)展提供了強(qiáng)勁動(dòng)力。并且,近年來,天貓、淘寶、京東、蘇寧易購(gòu)等各大第三方電商平臺(tái)通過不斷地提升自己的服務(wù),如更快速的物流交易、節(jié)日進(jìn)行各種價(jià)格促銷活動(dòng)等,使現(xiàn)有用戶的購(gòu)物滿意度逐步提升,同時(shí)也吸引了越來越多的消費(fèi)者進(jìn)行網(wǎng)絡(luò)購(gòu)物。目前,網(wǎng)絡(luò)購(gòu)物已經(jīng)深入我國(guó)居民的生活,成為重要的消費(fèi)方式。2017年中國(guó)網(wǎng)絡(luò)零售行業(yè)市場(chǎng)運(yùn)行現(xiàn)狀及前景預(yù)測(cè)分析統(tǒng)計(jì):2017年度,我國(guó)網(wǎng)絡(luò)購(gòu)物用戶已達(dá)4.67億,網(wǎng)絡(luò)購(gòu)物市場(chǎng)的年交易規(guī)模達(dá)到了6.1萬億人民幣,同比增長(zhǎng)29.6%。所以,由此可以看出,網(wǎng)購(gòu)在提升居民生活質(zhì)量方面發(fā)揮著越來越大的作用。
而消費(fèi)者在進(jìn)行網(wǎng)購(gòu)時(shí),由于所看到的商品完全是虛擬化的,過于抽象,無法真實(shí)地了解到商品的真實(shí)質(zhì)量和規(guī)格等等。商品在線評(píng)論對(duì)于消費(fèi)者決定是否購(gòu)買商品而言,是及其重要的一項(xiàng)信息來源,起著參考性、甚至是決定性的作用。消費(fèi)者可以通過在線評(píng)論了解商品的真實(shí)完整信息、建立對(duì)商品的整體感知。在線評(píng)論是已經(jīng)購(gòu)買過此商品或服務(wù)的消費(fèi)者發(fā)表的對(duì)于商品的觀點(diǎn)和自己的體驗(yàn),表達(dá)了自己使用商品這一過程中所表現(xiàn)出來的喜、怒、哀、樂等各種情感。而這些情感對(duì)于潛在的購(gòu)買者來說,具有很大的參考價(jià)值。
本文介紹了一種對(duì)商品評(píng)論數(shù)據(jù)進(jìn)行情感分析的思路,包括這個(gè)過程中涉及到的一些處理技術(shù)以及主要算法。
1? 情感分析發(fā)展歷史及現(xiàn)狀
文本情感分析又稱意見挖掘,是指通過計(jì)算機(jī)技術(shù)從具有情感傾向的文本中提取出評(píng)論者的觀點(diǎn)、情感、態(tài)度,并且對(duì)其進(jìn)行分析、處理、歸納和推理的過程,是近年來自然語(yǔ)言處理領(lǐng)域的一項(xiàng)研究熱點(diǎn)[1]。
1.1? 不同粒度下的情感分析分類
按照文本的顆粒度,情感分析可以劃分為篇章級(jí)情感分析、句子級(jí)情感分析以及詞的情感分析[2]。其中詞的情感分析是文本情感分析的基礎(chǔ),基于詞的情感分析研究主要有情感詞抽取、情感詞判斷、情感詞典等;句子級(jí)情感分析在文本情感分析中起著承上啟下的作用:它綜合了詞的情感分析輸出的結(jié)果,并且可以作為篇章級(jí)情感分析的輸入,對(duì)于整個(gè)情感分析的過程起著決定性的作用;對(duì)于篇章級(jí)情感分析的研究目前處于一種模糊的狀態(tài),因?yàn)樗枰Y(jié)合詞的情感分析和句子級(jí)情感分析的結(jié)果,并且還受上下語(yǔ)境的影響。
1.2? 基于不同研究方法的情感分析分類
基于不同研究方法的情感分析可以分為基于情感詞典的方法和基于機(jī)器學(xué)習(xí)的方法。
1.2.1? 基于情感詞典的方法
基于情感詞典的方法主要通過情感詞典對(duì)文本進(jìn)行情感分析。情感詞典包括要分析的文本中的一些基本詞匯,如積極詞語(yǔ)“好”“開心”,消極詞語(yǔ)“傷心”“丑”,否定詞“不”,程度詞“很”“非?!钡龋话悴襟E主要包括獲取數(shù)據(jù),對(duì)數(shù)據(jù)進(jìn)行預(yù)處理,如中文分詞、詞性標(biāo)注等,運(yùn)用現(xiàn)有的情感詞典或者訓(xùn)練情感詞典,根據(jù)一些判斷規(guī)則對(duì)文本進(jìn)行情感分類、情感值計(jì)算等等。
1.2.2? 基于機(jī)器學(xué)習(xí)的方法
基于機(jī)器學(xué)習(xí)的情感分析是指選取情感詞為特征詞,將文本矩陣化,利用一些主要的方法和技術(shù),如Logistic regression,支持向量機(jī)(SVM),樸素貝葉斯(Naive Bayes),潛在狄利克雷分布(LDA)對(duì)文本進(jìn)行分類。
(1)樸素貝葉斯。樸素貝葉斯是基于貝葉斯定理與特征條件獨(dú)立假設(shè)的分類方法,是一種簡(jiǎn)單高效的分類模型。在處理訓(xùn)練數(shù)據(jù)時(shí),首先使用特征條件獨(dú)立假設(shè)計(jì)算出輸入/輸出的聯(lián)合概率分布,然后結(jié)合貝葉斯定理輸出后延概率最大的預(yù)測(cè)項(xiàng)。[3]
(2)支持向量機(jī)。支持向量機(jī)是一類按監(jiān)督學(xué)習(xí)方式對(duì)數(shù)據(jù)進(jìn)行二元分類的廣義線性分類器,其決策邊界是對(duì)學(xué)習(xí)樣本求解的最大邊距超平面,最終轉(zhuǎn)化為一個(gè)凸二次規(guī)劃問題來求解。由簡(jiǎn)至繁的模型包括:
當(dāng)訓(xùn)練樣本線性可分時(shí),通過硬間隔最大化,學(xué)習(xí)一個(gè)線性可分支持向量機(jī)。
當(dāng)訓(xùn)練樣本近似線性可分時(shí),通過軟間隔最大化,學(xué)習(xí)一個(gè)線性支持向量機(jī)。
當(dāng)訓(xùn)練樣本線性不可分時(shí),通過核技巧和軟間隔最大化,學(xué)習(xí)一個(gè)非線性支持向量機(jī)。
(3)潛在狄利克雷分布。潛在狄利克雷分布是一種典型的詞袋模型,其中一篇文檔是由一組詞構(gòu)成的一個(gè)集合,詞與詞之間沒有先后順序。將文檔集中,每篇文檔的主題以概率分布的形式給出,一篇文章由一組詞組成,文檔中的每一個(gè)詞都由其中的一個(gè)主題生成,即根據(jù)給定的一篇文檔,推測(cè)其主題分布。
2? 主要步驟
2.1? 文本分詞
自然語(yǔ)言處理(NLP)是用計(jì)算機(jī)來處理、理解以及運(yùn)用人類語(yǔ)言,是人工智能的一個(gè)分支,也是當(dāng)今信息時(shí)代最重要的技術(shù)之一。其中,分詞技術(shù)可以說是最基礎(chǔ)的部分了。對(duì)于以英文為代表的拉丁語(yǔ)系而言,因?yàn)樵~和詞之間有清晰的界限(空格),所以一般情況下詞語(yǔ)都能被簡(jiǎn)單準(zhǔn)確地提取出來。但對(duì)于中文文本來說,要復(fù)雜、困難得多,首先因?yàn)橹形闹g沒有間隔,其次中文語(yǔ)義復(fù)雜、語(yǔ)境多變,容易產(chǎn)生歧義,如“我要炒肉絲”,既可以理解為“我要/炒/肉絲,即我要去炒肉絲”,也可以理解為“我要/炒肉絲,即我餓了,我要吃炒肉絲這道菜”,這兩種情況下,分詞的結(jié)果是不相同的。
目前對(duì)于中文分詞的研究主要分為:
(1)基于詞典的中文分詞。
(2)基于機(jī)器學(xué)習(xí)的中文分詞。
(3)基于神經(jīng)網(wǎng)絡(luò)的中文分詞。[4]
基于詞典的中文分詞又稱為機(jī)械分詞,即把文本按照一定的規(guī)則切分成小片段,在詞典中進(jìn)行查找,如果這個(gè)詞片段能夠查找到,則匹配成功,這種方法簡(jiǎn)單、高效,在商品評(píng)論分詞的應(yīng)用中很常見。這種算法又可以分為字符串匹配算法、N-最短路徑分詞算法。
基于機(jī)器學(xué)習(xí)的分詞算法簡(jiǎn)單、高效,但是不能很好地解決中文歧義問題和未登錄詞識(shí)別問題。這一算法要解決的問題分為兩個(gè)步驟:
(1)特征工程,即如何確定特征來訓(xùn)練模型。
(2)訓(xùn)練目標(biāo),即這一算法要達(dá)到的優(yōu)化目標(biāo)是什么。
分詞問題是一種序列標(biāo)注問題,常用的有四個(gè)標(biāo)簽:S,single,表示單個(gè)字;B,begin,表示詞的開始;M,middle,表示詞的中間;E,end,表示詞的結(jié)尾?;跈C(jī)器學(xué)習(xí)的分詞就是將一段字符輸入模型,然后得到相應(yīng)的標(biāo)記序列,再根據(jù)標(biāo)記序列進(jìn)行分詞。常見的模型主要有HMM(隱馬爾可夫模型)和CRF(條件隨機(jī)場(chǎng))。
基于神經(jīng)網(wǎng)絡(luò)的分詞主要分為兩類:
(1)基于字符的分詞。
(2)基于詞的分詞。
近年來,基于神經(jīng)網(wǎng)絡(luò)的研究運(yùn)用到了RNN,CNN,GNN等來自動(dòng)獲取特征,從而替代了傳統(tǒng)分詞技術(shù)中手動(dòng)定義的特征。
目前對(duì)于商品評(píng)論的分詞可以應(yīng)用的常見工具有jieba分詞、SnowNLP、PyNLPIR(大數(shù)據(jù)搜索挖掘?qū)嶒?yàn)室)、THULAC(清華大學(xué)自然語(yǔ)言處理與社會(huì)人文計(jì)算實(shí)驗(yàn)室)、Stanford CoreNLP等等。
2.2? 詞性標(biāo)注、去停用詞
詞性標(biāo)注是為未分詞得到的結(jié)果標(biāo)注一個(gè)正確的詞性,包括名詞、動(dòng)詞、形容詞、副詞等詞性。目前常用的工具有jieba、LTP(哈工大社會(huì)計(jì)算與信息檢索研究中心)、ICTCLAS(中科院張華平博士的作品)、THULAC(清華大學(xué)自然語(yǔ)言處理與社會(huì)人文計(jì)算實(shí)驗(yàn)室)以及FudanNLP(Fudan Natural Language Processing Group)等。
分詞之后的文本包含一些沒有實(shí)際意義的詞,如“的”“,”等,在處理的過程中需要將這些詞從結(jié)果中去掉,以得到更準(zhǔn)確的結(jié)果。常用的處理方式是根據(jù)一些現(xiàn)有的停用詞表,如哈工大停用詞表、百度停用詞表,或者針對(duì)具體的商品評(píng)論數(shù)據(jù)專門整理無意義、對(duì)分析無幫助的詞語(yǔ),從分詞后的結(jié)果中去掉這些詞。
2.3? 屬性詞的選取
在完成分詞、詞性標(biāo)注等預(yù)處理后,需要對(duì)評(píng)論數(shù)據(jù)進(jìn)行屬性詞的選取。因?yàn)閷傩栽~往往都是高頻名詞[5],所以要對(duì)處理過的商品評(píng)論數(shù)據(jù)按照各自的詞性進(jìn)行詞頻統(tǒng)計(jì),并且根據(jù)實(shí)際研究問題和數(shù)據(jù)量大小選出名詞占比大于一定比例且詞頻大于一定數(shù)量的所有詞,作為屬性詞的候選集。
2.4? 語(yǔ)義依存分析
語(yǔ)義依存分析可以分析句子各個(gè)語(yǔ)言單位之間的語(yǔ)義關(guān)聯(lián),并且將語(yǔ)義關(guān)聯(lián)以依存結(jié)構(gòu)呈現(xiàn)。語(yǔ)義依存分析的目標(biāo)是跨越句子表層句法結(jié)構(gòu)的束縛,直接獲取深層的語(yǔ)義信息,并且不受句法結(jié)構(gòu)的影響,將具有直接語(yǔ)義關(guān)聯(lián)的語(yǔ)言單元直接連接依存弧并標(biāo)記相應(yīng)的語(yǔ)義關(guān)系。
并且nsubj(名詞主語(yǔ))、amod(形容詞表語(yǔ))、rcmod(相關(guān)關(guān)系)三種語(yǔ)義經(jīng)常包含評(píng)論的作者對(duì)某一事件或?qū)嶓w的觀點(diǎn)或看法[6]。因此,需要從經(jīng)過處理的語(yǔ)料庫(kù)中發(fā)現(xiàn)這三種關(guān)系,并且提取三種關(guān)系對(duì)應(yīng)的名詞和形容詞,對(duì)用詞頻得到的屬性詞進(jìn)行篩選過濾。
2.5? Word2vec進(jìn)行詞向量模型訓(xùn)練,對(duì)候選詞進(jìn)行聚類
Word2vec是Google推出的建立詞嵌入的開源工具,可以根據(jù)給定的語(yǔ)料庫(kù),即處理過的商品評(píng)論數(shù)據(jù),訓(xùn)練出一個(gè)模型,然后可以輸出所有語(yǔ)料庫(kù)中出現(xiàn)的單詞的向量。進(jìn)而基于向量,可以計(jì)算詞與詞之間的關(guān)系、相似性、語(yǔ)義關(guān)聯(lián)性等。運(yùn)用Word2vec訓(xùn)練評(píng)論數(shù)據(jù)得到一個(gè)模型,獲得各個(gè)詞的詞向量。并且基于詞向量計(jì)算得出兩兩詞之間的相似性,如可以用詞向量的余弦距離來表示,對(duì)屬性詞進(jìn)行層次聚類,并且根據(jù)聚類的結(jié)果不斷進(jìn)行調(diào)整,直至結(jié)果變得更加合理、可以解釋。
2.6? 情感詞典擴(kuò)充
在對(duì)商品評(píng)論數(shù)據(jù)進(jìn)行情感分析時(shí),最常用的方法是基于情感詞典對(duì)詞進(jìn)行情感級(jí)性的判斷以及情感值的計(jì)算。目前情感詞典的現(xiàn)有資源主要有:
(1)大連理工大學(xué)中文情感詞匯本體庫(kù)。從不同的角度描述了一個(gè)中文詞匯或者短語(yǔ),包括詞語(yǔ)詞性種類、情感類別、情感強(qiáng)度及極性等信息。
(2)臺(tái)灣大學(xué)簡(jiǎn)體中文情感極性詞典(NTUSD)。該詞典為簡(jiǎn)體的情感極性詞典,包含2812個(gè)正向情感詞和8278個(gè)負(fù)向情感詞,可以用于二元情感分類任務(wù)中。
(3)知網(wǎng)情感詞典(HowNet)。該詞典主要分為中文和英文兩部分,共包含如下數(shù)據(jù):中文正面評(píng)價(jià)詞語(yǔ)3730個(gè)、中文負(fù)面評(píng)價(jià)詞語(yǔ)3116個(gè)、中文正面情感詞語(yǔ)836個(gè)、中文負(fù)面情感詞語(yǔ)1254個(gè);英文正面評(píng)價(jià)詞語(yǔ)3594個(gè)、英文正面評(píng)價(jià)詞語(yǔ)3563個(gè)、英文正面情感詞語(yǔ)769個(gè)、英文負(fù)面情感詞語(yǔ)1011個(gè)。
(4)知網(wǎng)程度副詞詞典(HowNet)。該詞典主要分為中文和英文兩部分,共包含如下數(shù)據(jù):中文程度級(jí)別詞語(yǔ)219個(gè)、英文程度級(jí)別詞語(yǔ)170個(gè)。
(5)知網(wǎng)主張?jiān)~語(yǔ)詞典(HowNet)。該詞典主要分為中文和英文兩部分,包含中文主張?jiān)~語(yǔ)38個(gè)、英文主張?jiān)~語(yǔ)35個(gè)。
(6)Opinion Lexicon。該詞典共包含了針對(duì)商品屬性的2006個(gè)正向情感詞與4783個(gè)負(fù)向情感詞。此外,它還包含了拼寫錯(cuò)誤、語(yǔ)法變形等相關(guān)信息。
在評(píng)論數(shù)據(jù)的情感分析中,任何一種情感詞典都不是完整和通用的。因此,需要我們進(jìn)行情感詞典的擴(kuò)充。其中SO-PMI算法、SO-SD算法可以用于情感詞典的擴(kuò)充:
(1)情感傾向點(diǎn)互信息算法(SO-PMI)。通常用點(diǎn)互信息(PMI)這個(gè)指標(biāo)來衡量?jī)蓚€(gè)事物之間的相關(guān)性,兩個(gè)事物同時(shí)出現(xiàn)的概率越大,其相關(guān)性越大[7]。
兩個(gè)詞語(yǔ)word1與word2的PMI值計(jì)算公式為:
P(word1,word2)表示兩個(gè)詞語(yǔ)共同出現(xiàn)的概率,p(word1)與p(word2)分別表示兩個(gè)詞語(yǔ)單獨(dú)出現(xiàn)的概率;
情感傾向點(diǎn)互信息算法(SO-PMI)是將PMI方法引入計(jì)算詞語(yǔ)的情感傾向中,其基本思想是:分別選取一組正向種子詞Pwords和一組負(fù)向種子詞Nwords。每個(gè)種子詞必須具有明顯的傾向性。計(jì)算候選情感詞word和Pwords的點(diǎn)互信息與word和Nwords的點(diǎn)互信息的差值,根據(jù)該差值判斷詞語(yǔ)word的情感傾向。
計(jì)算公式為:
閾值為α:
SO-PMI(word)>α;為正面傾向,即褒義詞;
SO-PMI(word)=α;為中性傾向,即中性詞;
SO-PMI(word)<α;為負(fù)面傾向,即貶義詞。
(2)SO-SD算法。語(yǔ)義距離SD用于描述兩個(gè)詞的相似程度,可用詞向量的余弦距離來表示,并且SD值越大,表示兩個(gè)詞越相似,值越少,兩個(gè)詞的語(yǔ)義相差越遠(yuǎn);情感傾向語(yǔ)義相似度算法的基本思想是:分別選取一組正向種子詞Pwords和一組負(fù)向種子詞Nwords。每個(gè)種子必須具有明顯的情感傾向性。計(jì)算候選情感詞word和Pwords的語(yǔ)義距離與word和Nwords的語(yǔ)義距離的差值,根據(jù)該差值判斷詞語(yǔ)word的情感傾向[8]。
計(jì)算公式為:
根據(jù)實(shí)際問題選取閾值α:
SO-SD(word)>α;為正向情感詞;
SO-SD(word)=α;為中性詞;
SO-SD(word)<α;為負(fù)向情感詞。
以SO-SD算法說明情感詞典擴(kuò)充的步驟:
1)遍歷語(yǔ)料庫(kù)中的每一個(gè)詞word,如果該詞在情感詞典中,則選擇語(yǔ)料庫(kù)中的下一個(gè)詞。
2)如果詞word不在情感詞典中,則根據(jù)詞向量的余弦距離選取與詞word語(yǔ)義最相近的前m個(gè)詞。
3)如果m個(gè)詞中包含情感詞典中的詞,則計(jì)算詞word的SO-SD值。
4)如果SO-SD值大于所設(shè)定的情感閾值,則將word添加到正向情感詞中;如果SO-SD值小于所設(shè)定的情感閾值,則將word添加到負(fù)向情感詞中;如果SO-SD值等于所設(shè)定的閾值,即word為中性詞,則不添加到情感詞典中。
5)重復(fù)以上步驟,直至遍歷完語(yǔ)料庫(kù)中所有的詞。
2.7? 計(jì)算情感強(qiáng)度
根據(jù)對(duì)評(píng)論數(shù)據(jù)處理和聚類的結(jié)果,分別計(jì)算各個(gè)類中包含的詞基于擴(kuò)充后的情感詞典的情感強(qiáng)度,即可用于后續(xù)的研究。
3? 結(jié)? 論
本文對(duì)文本情感分析進(jìn)行了研究,總結(jié)了基于不同粒度和不同研究方法下文本情感分析的分類以及發(fā)展現(xiàn)狀。又著重介紹了情感分析在商品評(píng)論數(shù)據(jù)中的應(yīng)用,并且提供了一種計(jì)算情感傾向和情感值的一般思路,對(duì)于后續(xù)類似的研究有一定的參考作用。
參考文獻(xiàn):
[1] 吳應(yīng)良,黃媛,王選飛.在線中文用戶評(píng)論研究綜述:基于情感計(jì)算的視角 [J].情報(bào)科學(xué),2017,35(6):159-163+170.
[2] 朱少杰.基于深度學(xué)習(xí)的文本情感分類研究 [D].哈爾濱:哈爾濱工業(yè)大學(xué),2014.
[3] 李青松.文本情感分析研究 [J].現(xiàn)代計(jì)算機(jī)(專業(yè)版),2019(4):21-25.
[4] 馮俐.中文分詞技術(shù)綜述 [J].現(xiàn)代計(jì)算機(jī)(專業(yè)版),2018(34):17-20.
[5] Suleman K,Vechtomova O.Discovering aspects of online consumer reviews [J]. Journal of Information Science,2015,42(4):492-506.
[6] Marneffe M-C D, MacCartney B, Manning C D. Generating typed dependency parsers from phrase structure parses [C].Portoroz:Proceedings of the fifth international conference on language resources and evaluation,2006:449–454.
[7] 姜伶伶,何中市,張航.基于Good-Turing平滑SO-PMI算法構(gòu)建微博情感詞典方法的研究 [J].現(xiàn)代計(jì)算機(jī)(專業(yè)版),2018(10):15-20.
[8] Bai X,Chen F,Zhan S B. A Study on Sentiment Computing and Classification of Sina Weibo with Word2vec [C]//Big Data (BigData Congress),2014 IEEE International Congress on. S.l.:s.n.,2014:358-363.
作者簡(jiǎn)介:張明輝(1998.03-),男,漢族,安徽人,本科在讀,研究方向:數(shù)據(jù)挖掘。