王鈺+劉復(fù)星+趙帥+劉賀
摘要:互聯(lián)網(wǎng)的迅速發(fā)展帶來了網(wǎng)絡(luò)中評論數(shù)據(jù)的大量增長,分析這些非結(jié)構(gòu)化的文本數(shù)據(jù)的潛在價值對于整車企業(yè)在生產(chǎn)、營銷、售后等環(huán)節(jié)具有重要的指導(dǎo)意義。汽車垂直網(wǎng)站內(nèi)的評論數(shù)據(jù)海量且復(fù)雜,本文提出一種基于潛在特征的評論要素挖掘模型,對文本數(shù)據(jù)進(jìn)行細(xì)粒度的挖掘,識別出文本的評論要素,即評價對象與評價詞。在汽車之家評論語料進(jìn)行的實驗表明,本模型的預(yù)測準(zhǔn)確率達(dá)到81%,具有良好的分類效果。
關(guān)鍵詞:文本挖掘;評論要素;序列標(biāo)注;潛在特征
中圖分類號:TP391 文獻(xiàn)標(biāo)識碼:A 文章編號:1009-3044(2016)33-0247-04
Abstract: The rapid development of the Internet has brought a lot of data growth in the network. The potential value of unstructured text data is of great significance to the production, marketing and after-sales. This paper presents a mining model of automobile reviews based on latent feature, which makes text data mining fine, and discerns the commenting essentials of text, namely review object and review word. The results of the experiments show that the prediction accuracy of this model is 81%, with good classification results.
Keywords: text mining, commenting essentials, sequence annotation, latent feature
1引言
隨著互聯(lián)網(wǎng)和信息行業(yè)的發(fā)展,數(shù)據(jù)已經(jīng)滲透到當(dāng)今每個行業(yè)和業(yè)務(wù)職能領(lǐng)域,成為重要的生產(chǎn)因素,與此同時,汽車行業(yè)作為已有百年歷史的傳統(tǒng)產(chǎn)業(yè),也在“互聯(lián)網(wǎng)+”的時代趨勢下進(jìn)行著新一輪的產(chǎn)業(yè)革新。本文將對網(wǎng)絡(luò)采集的汽車評論數(shù)據(jù),利用文本挖掘技術(shù)進(jìn)行分析。
當(dāng)前,各汽車垂直網(wǎng)站中的評論數(shù)據(jù)多為文本數(shù)據(jù),數(shù)據(jù)量大,結(jié)構(gòu)復(fù)雜,并且包涵了眾多無效信息。事實上,對于汽車評價數(shù)據(jù)的不同維度,人們更多關(guān)注其中真正有價值的部分,即一段評論的評論要素?,F(xiàn)有的汽車評論要素識別方法考慮的特征有限,本文通過將評論要素挖掘建模為序列標(biāo)注問題,綜合考慮多個特征,提出基于潛在特征的挖掘模型識別評論要素。
2相關(guān)工作
2.1 評論要素概述
評論要素包括評價對象與評價詞,評價對象是每一評論文本中的主題,評價詞為評價對象所對應(yīng)的描述。如在汽車的評論數(shù)據(jù)中,有:“外觀沉穩(wěn)大氣,空間夠?qū)挸?,價格剛好在接受范圍之內(nèi)?!?/p>
該評論共有三個分句,主題分別為“外觀”、“空間”、“價格”,即可作為該評論的三個評價對象,評價對象能夠與各自對應(yīng)的評價詞構(gòu)成<“外觀”,“沉穩(wěn)大氣”>、<“空間”,“夠?qū)挸ā?gt;、<“價格”,“剛好在接受范圍之內(nèi)”>的<評價對象,評價詞>的二元組。本文的目標(biāo)是提出一種基于潛在特征的模型,挖掘文本評論數(shù)據(jù)中的評論要素。
2.2 評論要素識別方法
2.2.1 基于規(guī)則的評論要素識別方法
在研究初期,評論要素的抽取主要是基于規(guī)則的方法,這些規(guī)則的制定通常需要借助包括中文分詞、詞性標(biāo)注、命名實體識別、依存句法分析、語義角色標(biāo)注在內(nèi)的自然語言處理技術(shù)。
Hu和Liu[1]標(biāo)注待分析文本中的名詞,通過Apriori算法發(fā)現(xiàn)其中詞頻較高的為評價對象,再確定評價對象臨近的形容詞為其評價詞。
Popescu和Etzioni[2]對算法進(jìn)行了進(jìn)一步地優(yōu)化,通過定義句式結(jié)構(gòu)標(biāo)識詞來計算名詞短語與這些標(biāo)識詞間的互信息(PMI),PMI可以表示詞間的共現(xiàn)關(guān)系,PMI較小則詞間共現(xiàn)次數(shù)較低,即該名詞短語為評價對象的可能性較低,過濾這些非評價對象的名詞在一定程度上可以提升算法的準(zhǔn)確度。
Blair-Goldensohn等[3]考慮了文本中頻繁出現(xiàn)的名詞短語,對文本的不同語句標(biāo)以不同權(quán)重,統(tǒng)計這些名詞短語的出現(xiàn)頻率并對其進(jìn)行權(quán)重排序,僅抽取權(quán)重較高的部分作為評價對象。
Scaffidi等[4]通過比較名詞短語在待分析文本中出現(xiàn)的頻率與在普通語料庫出現(xiàn)的頻率,識別真正有意義的評價對象。
基于規(guī)則的方法本質(zhì)在于計算頻率,雖然較為簡單,但可以有效地識別出頻繁細(xì)粒度評論要素;然而該方法過于依賴規(guī)則,具有一定的局限性,并且規(guī)則的覆蓋范圍難以掌握,評論要素的抽取效果在多種情況下難以保證全局最優(yōu)。
2.2.2 基于機(jī)器學(xué)習(xí)的評論要素識別方法
基于機(jī)器學(xué)習(xí)的方法需要事先標(biāo)注訓(xùn)練語料,但準(zhǔn)確率高且泛化能力強。目前的主流算法包括條件隨機(jī)場(CRF)和隱馬爾可夫模型(Hidden Markov Model,HMM)。序列標(biāo)注模型通常采用HMM,但HMM中存在兩個假設(shè):輸出獨立性假設(shè)和馬爾可夫性假設(shè)。其中,輸出獨立性假設(shè)要求序列數(shù)據(jù)嚴(yán)格相互獨立,而事實上大多數(shù)序列數(shù)據(jù)不能被表示成一系列獨立事件。相較而言,CRF則無需非常嚴(yán)格的獨立性假設(shè),能夠有效解決標(biāo)注偏置的問題,而且可以靈活引入多種特征,所有特征進(jìn)行全局歸一化,最終實現(xiàn)更好的抽取效果。
CRF是典型的判別式模型,線性鏈CRF模型如圖1所示:
其中[X=x1,x2,…,xn]表示觀察序列,[Y=y1,y2,…,yn]表示狀態(tài)序列,通過訓(xùn)練模型可以得到狀態(tài)序列的條件概率。在評價對象預(yù)測實例中,文本數(shù)據(jù)分詞得到的[w1,w2,…,wn]作為觀察序列輸入CRF模型,輸出對應(yīng)的狀態(tài)序列[l1,l2,…,ln],以B、I、O形式的標(biāo)簽表示。B為預(yù)測評論要素的開頭部分,I為中間部分,O為其他部分。
Jakob和Gurevych[5]將評價對象抽取問題建模成序列標(biāo)注問題,引入詞性、依存句法、意見句等特征,在不同領(lǐng)域訓(xùn)練CRF模型,以得到更獨立的訓(xùn)練結(jié)果。
徐冰[6] [7]等先后采用了N-gram、詞性、詞典特征及詞、詞性、上下文特征、位置特征、淺層句法特征對COAE2008評價對象抽取任務(wù)的語料進(jìn)行抽取。
王中卿[8]等考慮了詞、詞性、依存關(guān)系等特征,最終在COAE2011評價搭配抽取任務(wù)中F值排位第一。
基于機(jī)器學(xué)習(xí)的方法在訓(xùn)練數(shù)據(jù)充足的情況下可以取得較好的結(jié)果,但訓(xùn)練數(shù)據(jù)所耗費的代價較大。本文設(shè)計了潛在特征來訓(xùn)練模型,在保證模型可靠性的原則上降低了訓(xùn)練成本。
3基于潛在特征的評論要素挖掘模型
3.1 評論要素的特征
3.1.1 序列特征
評論要素以序列形式排布在評論數(shù)據(jù)中,具有序列特征。如在評論文本“大排量好費油”中,包括評價對象“排量”及其評價詞“大”與“好費油”。然而由于分詞的不同,可分為“大排量/好費油”,“大排量好/費油”,不同的序列切分導(dǎo)致了不同的語義,因此,本文將評論要素的識別建模成一個序列標(biāo)注問題。
3.1.2 語境特征
評論數(shù)據(jù)中的上下文形成語境,語境對評論要素的識別有重要影響。一方面,不同語境中相同的詞可能在評價對象與評價詞的識別中互相轉(zhuǎn)換;另一方面,評價對象與評價詞的關(guān)聯(lián)關(guān)系對于同時識別評價對象和評價詞有重要作用。如“空間大”中評價對象“空間”的語境是“大”,評價詞“大”的語境是“空間”,當(dāng)確定“大”是評價詞時,很容易找到相應(yīng)的評價對象“空間”。本文將利用語境特征同時識別評價對象與評價詞。
3.1.3 語義特征
傳統(tǒng)的評論要素識別方法通常定義較高頻的名詞和名詞短語作為評價對象,定義其附近的形容詞和形容詞短語作為評價詞[1] [2]。本文統(tǒng)計了汽車之家網(wǎng)站的1000條評價數(shù)據(jù),分析得到詞性與評價要素間的關(guān)系,如表1所示:
結(jié)果表明在評價對象中名詞占比最高,達(dá)79.65%;評價詞中動詞占比24.75%,部分形容詞短語被拆分成形容詞與其他詞性如副詞,聯(lián)合占比69.78%。由此可見詞性一定程度上可以體現(xiàn)評論要素的語義特征,但不能僅依靠詞性標(biāo)注規(guī)則大概率地正確識別評論要素,因此本文引入了潛在特征這一概念,模型將利用潛在特征進(jìn)行學(xué)習(xí)。除詞性外,命名實體、語義角色、句法分析、情感分析等自然語言處理方法也常用來理解文本語義,本文將選取上述所有特征來共同描述評論要素的語義特征。
3.1.4 情感特征
評論數(shù)據(jù)中包含了用戶的情感傾向,如好評詞“給力”、“很好”、“不錯”等,中評詞“一般”、“可以”等,差評詞“差”、“不好”等。在文本挖掘早期,研究者通過人工構(gòu)建評價詞詞典來進(jìn)行情感分析。雖然隨著電子商務(wù)和社交網(wǎng)絡(luò)的快速發(fā)展,新型評價詞層出不窮,但早期研究仍為評價詞的識別提供了有利的基礎(chǔ)。本文將同時在模型和特征中考慮情感特性,抽取情感特征,并在模型中學(xué)習(xí)詞匯的不同情感傾向。
3.2評論要素挖掘的定義
定義:給定一個產(chǎn)品的評論文本集合[D],其中[x=x1,x2,…,xn]為[D]中一個評論文本序列,[m]為文本長度,從所有可能的序列標(biāo)注中選擇最有可能的序列標(biāo)注[y=y1,y2,…,ym],標(biāo)注[y]中以TB開頭以連續(xù)TI結(jié)尾的詞或短語為評價對象[T],以PB開頭以連續(xù)PI結(jié)尾的詞或短語為評價詞[P],識別其中[T]個評論表達(dá)的對象(評價對象)[T1,…,TT]和[P]個情感表達(dá)的詞(評價詞)[P1,…,PT]作為評論要素。
從解得的標(biāo)簽序列[y]中可以知道該評論文本是否包含評價對象或評價詞。本文中以“TB”來代表產(chǎn)品評價對象的開頭邊界,“TI”來表示產(chǎn)品評價對象的內(nèi)部,“PB”來代表產(chǎn)品評價詞的開頭邊界,“PI”來表示產(chǎn)品評價詞的內(nèi)部,而其他背景詞則標(biāo)記為“O”,如表2所示:
3.3評論要素挖掘模型的結(jié)構(gòu)
與多數(shù)序列標(biāo)注模型一樣,本節(jié)假設(shè)評論文本具有馬爾可夫特性,即當(dāng)前詞只與當(dāng)前詞及前一個詞相關(guān)。綜合考慮評論要素中的序列特征、語境特征、語義特征、情感特征等,構(gòu)建潛在特征層,提出基于潛在特征的評論要素識別模型,如圖1所示:
1) 考慮評論要素的序列特征,將評論要素識別任務(wù)構(gòu)建為序列識別模型,輸入序列特征X,通過訓(xùn)練學(xué)習(xí)H層,并輸出序列預(yù)測結(jié)果Y。
2) 考慮評論要素的語境特征,采用聯(lián)合學(xué)習(xí)方式,同時學(xué)習(xí)和預(yù)測評價對象和評價詞,構(gòu)建當(dāng)前詞與前一個詞間的語境變化特征函數(shù),如圖中[hi]與[xi-1]和[xi]所示。
3) 考慮評論要素的語義特征,抽取詞性標(biāo)注、句法分析、語義角色分析、實體識別等語義特征,通過潛在特征H層學(xué)習(xí)評論要素中不同類型的語義特征函數(shù),如圖中[hi+2]與[xi+2]所示。
4) 考慮評論要素的情感特征,抽取情感特征,并通過潛在狀態(tài)H層學(xué)習(xí)評論要素中不同情感傾向的情感特征函數(shù),如圖中[hi+2]與[xi+2]所示。
5) 考慮評論要素潛在特征層與標(biāo)注間的關(guān)系,根據(jù)評論要素中不同類型特征學(xué)習(xí)其中的映射關(guān)系,如圖2中H與Y的關(guān)系所示。
本文模型在條件隨機(jī)場模型的基礎(chǔ)上,構(gòu)建了潛在特征H層,同時考慮了細(xì)粒度的多種特征,及不同特征的潛在特征與動態(tài)組合特征。在真實數(shù)據(jù)集上的實驗表明,所改進(jìn)的模型經(jīng)t檢驗具有較為顯著的提高。
4 實驗結(jié)果
4.1實驗語料
本次實驗采集了汽車之家網(wǎng)站的用戶評論并加以整理,隨機(jī)抽取2000條評論數(shù)據(jù)作為實驗語料,進(jìn)行特征選取及標(biāo)簽(TB、TI、PB、PI、O)標(biāo)注。
4.2評價維度及評價指標(biāo)
4.2.1 評價維度
本次實驗共設(shè)6個評價維度,分別是:
1) 精細(xì)的評價對象;
2) 粗糙的評價對象;
3) 精細(xì)的評價詞;
4) 粗糙的評價詞;
5) 精細(xì)的評價對象+評價詞;
6) 粗糙的評價對象+評價詞。
其中“精細(xì)”的定義為標(biāo)注結(jié)果與預(yù)測結(jié)果完全相同視為預(yù)測正確;“粗糙”定義為評價對象(評價詞)不區(qū)分開頭邊界與內(nèi)部,即標(biāo)注結(jié)果與預(yù)測結(jié)果屬同一類則視為預(yù)測正確。
4.2.2 評價指標(biāo)
[tp]:預(yù)測出需求的評價維度并預(yù)測正確的數(shù)量;
[fp]:預(yù)測出需求的評價維度但預(yù)測錯誤的數(shù)量;
[tn]:沒有預(yù)測出需求的評價維度但預(yù)測正確的數(shù)量;
[fn]:沒有預(yù)測出需求的評價維度且預(yù)測錯誤的數(shù)量;
實際實驗中對數(shù)據(jù)進(jìn)行了五折交叉驗證,即將標(biāo)注數(shù)據(jù)五等分,以其中四份作為訓(xùn)練集,一份作為測試集進(jìn)行交叉計算,平均五個[P],[R],[F1]值得到模型最終的[P],[R],[F1]值。這樣的結(jié)果可以更為客觀全面地檢測模型的性能指標(biāo)。
4.3 考慮不同特征對模型結(jié)果的影響
實驗使用了基于三種不同特征的模型對評論預(yù)料進(jìn)行要素挖掘,分別是本文提出的基于潛在特征方法的評論要素挖掘模型(記作WOMM_combine)、基于語義特征的評論要素挖掘模型(記作WOMM_baseline)、基于詞語特征的評論要素挖掘模型(記作WOMM_word),模型結(jié)果分別如下表所示:
通過上表可見,在基于精細(xì)的評價對象、粗糙的評價對象、精細(xì)的評價詞、粗糙的評價詞、精細(xì)的評價對象+評價詞、粗糙的評價對象+評級詞六個評價維度的實驗中,WOMM_word模型平均[F1]值為75%,WOMM_baseline模型平均[F1]值為79%,本文所提出的WOMM_combine模型的平均[F1]值為81%,高于基于詞語特征的WOMM_word模型6%,高于基于語義特征的WOMM_baseline模型2%,并且在六個評價維度下的個[P],[R],[F1]值相較均有明顯提高,表明潛在特征對于評論要素挖掘模型的準(zhǔn)確率有所提升。
5 總結(jié)
本文針對網(wǎng)絡(luò)采集的消費者評論數(shù)據(jù),以文本挖掘的方法為基礎(chǔ),提出了基于潛在特征的評論要素挖掘模型,該模型對于預(yù)測文本數(shù)據(jù)標(biāo)注具有良好的效果。在當(dāng)前研究成果的基礎(chǔ)上,下一步我們考慮利用向量方法對評價要素匹配及情感分析領(lǐng)域進(jìn)行相關(guān)研究。
參考文獻(xiàn):
[1] Hu Minqing, Liu Bing. Mining and Summarizing Customer Reviews. In: Proceedings of the Tenth ACM SIGKDD International Conference on Knowledge Discovery and Data Mining,2004. 168-177.
[2] Ana-Maria Popesc, Oren Etzioni. Extracting Product Features and Opinions from Reviews. In: Proceedings of the conference on Human Language Technology and Empirical Methods in Natural Language Processing (HLT/ACL2005), 2005:339-346.
[3] Blair-Goldensohn Sasha, Hannan Kerry, and McDonald Ryan, etc. Building a sentiment summarizer for local service reviews. In: WWW Workshop on NLP in the Information Explosion Era, 2008. 14.
[4] Scaffidi Christopher, Bierhoff Kevin, and Chang Eric, etc. Red Opal: product-feature scoring from reviews. In: Proceedings of the 8th ACM conference on Electronic commerce. ACM, 2007. 182-191.
[5] Jakob N. and I. Gurevych. 2010. Extracting Opinion Targets in a Single and Cross-Domain Setting with Conditional Random Fields. In Proceedings of EMNLP-10. 1035-1045.
[6] 徐冰,王山雨. 句子級文本傾向性分析評測報告[C]//第二屆中文傾向性分析評測會議(COAE2009)論文集,2009:69-73.
[7] 徐冰,趙鐵軍,王山雨,等. 基于淺層句法特征的評價對象抽取研究[J]. 自動化學(xué)報,2011(10):1241-1247.
[8] 王中卿,王榮洋,龐磊. Soda-SAM-OMS情感傾向性分析技術(shù)報告[C]//第三屆中文傾向性分析評測會議(COAE2011)論文集,2011:25-32.