馮倉龍,白 宇,蔡東風(fēng)
(沈陽航空航天大學(xué) 人機智能研究中心,沈陽 110136)
面向商品評價的情感要素抽取
馮倉龍,白 宇,蔡東風(fēng)
(沈陽航空航天大學(xué) 人機智能研究中心,沈陽 110136)
商品評價的細粒度傾向性分析的目標(biāo)是對評價信息中所涉及評價對象的各個側(cè)面進行情感極性判別,進而準(zhǔn)確反映用戶的商品評價意圖。情感要素抽取是商品評價的細粒度傾向性分析的關(guān)鍵步驟。提出了一種面向商品評價細粒度分析的情感要素抽取方法,該方法將情感要素詞典及聚類代碼引入CRF模型中,實現(xiàn)情感對象和情感詞同步抽取。在3類不同領(lǐng)域的商品評價數(shù)據(jù)集上進行實驗,準(zhǔn)確率平均達到了96.06%,召回率平均達到了91.39%,F(xiàn)值平均達到了93.66%,在混合商品評價數(shù)據(jù)集上的實驗結(jié)果顯示,準(zhǔn)確率、召回率、F值分別達到了96.84%、93.34%和95.06%。
傾向性分析;商品評價;情感要素抽取
在線商品評價是消費者對購買商品的主觀評論信息(包括對商品的整體評價和對性能、規(guī)格、材質(zhì)、外觀等商品屬性)的細粒度評價。通常,商品評價信息具有情感傾向性,能夠被用于消費決策或產(chǎn)品監(jiān)測的評價信息主要是對商品的積極評價和消極評價,對商品評價進行情感傾向性分析的目的就是從大量主觀評價信息中判別評價信息的情感傾向。
如表1所示,從情感傾向性表達方面看,評論內(nèi)容可分為無傾向性(中立)、單一傾向性評價(積極、消極)和復(fù)合傾向性評價。
表1 評價內(nèi)容舉例
單一傾向性評價指在評價內(nèi)容中僅對評價對象的某一側(cè)面進行評價或?qū)υu價對象的多個側(cè)面給出相同極性的評價結(jié)果(如積極、消極等)。目前,商品評論傾向性分析的相關(guān)研究主要針對這類單一傾向性評價內(nèi)容開展[1-3]。復(fù)合傾向性評價指在評價內(nèi)容中對評價對象的多個側(cè)面給出不同極性的評價結(jié)果。細粒度傾向性分析的目標(biāo)即是分別對復(fù)合傾向性評價中所涉及評價對象的各個側(cè)面進行情感極性判別,進而準(zhǔn)確反映用戶的商品評價意圖??傮w流程如圖1所示。
圖1 細粒度評價傾向性分析總體流程
其中,情感要素(情感對象或情感詞)抽取是商品細粒度傾向性分析的關(guān)鍵步驟,包括情感對象、情感詞的識別與對齊。如評論d =“設(shè)計的很合理,機身拿起來手感超好,屏幕比較出色,顯示細膩,有正規(guī)發(fā)票,客服不錯。”中,情感對象A={“設(shè)計”,“機身”,“手感”,“屏幕”,“顯示”,“發(fā)票”,“客服” },情感詞E = {“很合理”,“超好”,“出色”,“細膩”,“正規(guī)”,“不錯”},經(jīng)過情感要素抽取后得到的情感對象、情感詞詞對Ω= {<設(shè)計,很合理>,<手感,超好>,<屏幕,出色>,<顯示,細膩>,<發(fā)票,正規(guī)>,<客服,不錯>}。
本文提出的情感要素抽取方法將情感對象和情感詞作為詞對來進行抽取,實驗結(jié)果表明,該方法有效地解決了情感詞與被修飾的情感對象不匹配的問題。同時,在詞對的抽取方面獲得了較高的綜合指標(biāo)。
Kushmerick[4]提出一種基于規(guī)則的信息抽取,需要預(yù)先構(gòu)造抽取規(guī)則集,相對于基于詞典的信息抽取有一定的擴展性。Liu 等[5]采用關(guān)聯(lián)規(guī)則方式抽取產(chǎn)品屬性,并將產(chǎn)品屬性附近的情感詞作為評價詞,實現(xiàn)一套產(chǎn)品評論分析系統(tǒng)。王鑫等[6]采用依存句法樹為基礎(chǔ)的論元識別手段,通過制約論元與特定詞性的詞在依存句法樹中的距離來過濾優(yōu)秀的候選論元集合。Yue等人[7]給出一系列轉(zhuǎn)換規(guī)則,并提供了抽取活動圖的方法,實現(xiàn)數(shù)據(jù)抽取。陳炯等人[8]借助同義詞詞林構(gòu)建產(chǎn)品屬性模板,使用屬性模板識別產(chǎn)品屬性。上述基于規(guī)則的方法在文本信息抽取中雖然可以取得較好的成績,但在商品評價中經(jīng)常出現(xiàn)不規(guī)則的語法結(jié)構(gòu),在文字表達上多為口語,再加上網(wǎng)絡(luò)新詞的不斷涌現(xiàn),導(dǎo)致商品評價情感要素的抽取存在障礙。
W.Jin等[9]利用隱馬爾科夫模型(HMM)對詞序列進行序列標(biāo)注,可以有效地抽取未登錄詞。徐冰等人[10]使用CRF識別情感對象,系統(tǒng)在模型的訓(xùn)練過程中引入淺層句法信息和啟發(fā)式位置信息,同時在不增加領(lǐng)域詞典的情況下,有效提高了系統(tǒng)的精確率。孫曉等[11]提出將情感對象及情感詞視為CRFs中不同標(biāo)記的詞,因此能使用CRFs同步抽取。Kim 等[12]將語義角色加入特征集合,在觀點及主題抽取中取得較好效果。W.Wei等[13]針對產(chǎn)品屬性層次關(guān)系沒被充分利用的限制,提出了一種基于分層學(xué)習(xí)情感本體樹的抽取算法。張旭成等[14]介紹了基于文本統(tǒng)計類別信息熵的關(guān)鍵詞抽取技術(shù)。Qiu等[15]通過觀察名詞與形容詞的依存句法關(guān)系,制定了一種雙向傳播的規(guī)則擴展種子詞,最終可抽取出名詞性評價特征和形容詞性情感詞典,實驗取得了不錯的效果,并提出一種可抽取觀點表達式并判斷極性的組合模型。吳苑斌等[16]等利用樹核函數(shù)抽取產(chǎn)品特征和觀點表達式。在商品評價信息抽取中,情感要素是以詞對的形式出現(xiàn)的,上述方法在解決這一問題上還需要對情感對象和情感詞做詞對齊處理,本文提出的將二者作為詞對抽取的方法可以有效地解決這一問題。
2.1 特征說明
在情感要素抽取任務(wù)中,基于CRF模型的方法通常使用的特征包括詞、詞性及淺層句法特征等,如表2所示。
表2 基本特征表
文獻[11]在上述特征的基礎(chǔ)上還使用了語法成分特征(Gram)及句法父節(jié)點語法成分特征(PGram)。其中,句法父節(jié)點是依存句法分析樹中當(dāng)前詞的父節(jié)點,而語法成分包括主語、謂語、賓語等。本文考慮到詞類信息對詞對抽取結(jié)果的影響,引入情感要素特征和聚類代碼特征。
2.2 情感要素特征
在商品評價數(shù)據(jù)集合中,每句帶有傾向性的評論均應(yīng)包括情感詞和情感對象詞,因此,可將詞的語義角色分為情感詞、情感對象詞和其他詞3類,且各語義角色類別在數(shù)據(jù)集中的分布均勻。本文將情感對象詞和情感詞的語義角色作為情感要素特征,并通過情感對象和情感詞詞典進行特征標(biāo)記。
情感對象特征(Emo)函數(shù)
情感詞特征(Obj)函數(shù)
其中,A={情感對象};E={情感詞};wi=詞。
情感對象和情感詞詞典可以從訓(xùn)練語料的標(biāo)注信息中直接獲得。
2.3 聚類代碼特征
聚類代碼特征(Clu)通過聚類操作可以將具有相同詞義的情感對象或情感詞聚集到一起,在情感要素的抽取方面可以間接幫助識別同類情感要素;同時可以把每個小類看成是一個詞典,這樣相當(dāng)于得到多個細粒度的詞典,起到輔助情感要素詞典識別情感對象和情感詞的作用。
詞聚類需要將詞進行向量化處理,向量化是用N維行向量(N1,N2,N3,…,Nn)來表示一個詞,通過詞向量可以計算詞與詞之間的相似度。本文采用word2Vec模型對文本建模,為充分體現(xiàn)詞與詞的語義關(guān)系,理論上訓(xùn)練詞向量的語料規(guī)模越大越好。實驗采用搜狗新聞?wù)Z料2.19G及混合商品評論語料231288條作為訓(xùn)練數(shù)據(jù),訓(xùn)練word2Vec詞向量模型,并得到情感對象和情感詞的向量化表示,進而進行聚類操作,并為每個類賦予一個編號作為聚類代碼特征,聚類模型選用K-means[17-18],對于測試集中的詞利用KNN模型進行分類操作從而得到聚類代碼。
3.1 數(shù)據(jù)說明
實驗數(shù)據(jù)全部來自天貓和京東商城的商品評價信息。為體現(xiàn)領(lǐng)域差距,分別選取手機、電飯煲和馬桶3個領(lǐng)域差距較大的數(shù)據(jù)集,其中手機電商評價數(shù)據(jù)共2 064條,1264條用作訓(xùn)練,800條用作測試;電飯煲電商評價數(shù)據(jù)共2123條,1323條用作訓(xùn)練,800條用作測試;馬桶電商評價數(shù)據(jù)共2118條,1318條用作訓(xùn)練,800條用作測試,以及3個領(lǐng)域的混合商品評價數(shù)據(jù)4705條用作訓(xùn)練,2400條用作測試。
3.2 訓(xùn)練集構(gòu)建
本實驗采用有監(jiān)督模型進行情感要素的抽取,因此需要人工標(biāo)注語料,標(biāo)注規(guī)則的復(fù)雜性導(dǎo)致標(biāo)注需要耗費大量時間。本實驗使用已開發(fā)好的標(biāo)注應(yīng)用程序進行操作,其好處是避免標(biāo)注人員直接接觸文本數(shù)據(jù)而造成數(shù)據(jù)篡改,同時可以為以后的標(biāo)注任務(wù)提供方便。由80名學(xué)生組成的標(biāo)注團隊,每組20人分別標(biāo)注所有語料,第一輪將全部語料標(biāo)注4遍,之后打亂數(shù)據(jù)重新分配,進行第二輪標(biāo)注,取同一條數(shù)據(jù)中標(biāo)注一致性最強的標(biāo)簽作為待選標(biāo)簽可以減少誤標(biāo)注率,最后進行人工校對以增強結(jié)果的準(zhǔn)確性。本文采用與文獻[11]相同的標(biāo)注集進行標(biāo)注,標(biāo)注集合如表3所示。
表3 標(biāo)注集說明
3.3 實驗結(jié)果分析
采用條件隨機場模型(CRF)在電飯煲、馬桶、手機及混合數(shù)據(jù)上做了4組特征的對比試驗,特征組合選取見表4所示。
表4 特征組合說明
表5至表7分別列出了不同特征組合在測試集上的準(zhǔn)確率、召回率及F值的實驗結(jié)果。
通過對比特征組合T和T_EF發(fā)現(xiàn),將情感要素詞典特征引入CRF模型,無論準(zhǔn)確率還是召回率都會有很明顯的提升,這說明在詞對抽取方面將規(guī)則模塊融入CRF模型可以起到很好的效果,詞典不但可以帶來語義信息,更重要的是還能將規(guī)則抽取方法的優(yōu)勢融入統(tǒng)計模型。
表5 準(zhǔn)確率
表6 召回率
表7 F值
同時,比較T和T_Clu特征組合發(fā)現(xiàn),引入聚類代碼特征使詞對抽取的各項指標(biāo)得到了提升,一方面聚類代碼可以起到多個細粒度詞典的作用,判斷信息是否為情感要素;另一方面,將詞義信息引入模型中可以間接幫助識別同類情感要素。然而通過聚類得到的詞類準(zhǔn)確率沒有詞典高,在情感要素識別方面的效果較詞典略差,因此不能全面取代詞典特征。從實驗結(jié)果來看,商品電飯煲和馬桶抽取的準(zhǔn)確率與召回率略微下降。分析推測,這是由于電飯煲和馬桶的商品屬性數(shù)量與手機等電子產(chǎn)品相比較少,且關(guān)于產(chǎn)品的屬性描述略微單一化,因此聚類效果不佳,然而從手機評價數(shù)據(jù)以及混合數(shù)據(jù)的實驗效果來看,結(jié)果有很大的提升,說明聚類代碼對于詞對抽取是有積極影響作用的。
特征組合T_S是在T的基礎(chǔ)上加入語法成分特征,實驗結(jié)果表明,該特征受句法分析準(zhǔn)確率的影響較大,因此在詞對抽取過程中沒能達到很好的效果。
綜上,本文嘗試將情感要素詞典和聚類代碼同時引入CRF模型,發(fā)現(xiàn)二者的融合在詞對抽取方面可以達到更好的效果,且避免了句法分析準(zhǔn)確率對詞對抽取的影響。對比3個領(lǐng)域的商品評價數(shù)據(jù)集上的實驗發(fā)現(xiàn),只有在馬桶評價數(shù)據(jù)集上的實驗結(jié)果沒有得到提升。通過分析商品的評價語料發(fā)現(xiàn),由于產(chǎn)品本身屬性描述的不規(guī)范性,導(dǎo)致聚類的準(zhǔn)確率下降,因此對于詞典特征的補充效果不是很好,但是從其他類的語料以及混合語料上的實驗效果來看,將詞典特征與聚類代碼特征結(jié)合是可以得到較為理想的抽取效果的。綜合來看,通過5折交叉驗證的方式,在3類不同數(shù)據(jù)的實驗中,F(xiàn)值平均達到93.66%,在混合數(shù)據(jù)集上的實驗中,F(xiàn)值達到了95.06%,充分表明了本實驗方法在<情感對象,情感詞>詞對抽取方面的有效性。
本文將情感要素詞典及聚類代碼引入條件隨機場模型(CRF)中,實現(xiàn)情感對象和情感詞的同步抽取,采用此方法將規(guī)則信息抽取的優(yōu)勢融入統(tǒng)計模型,從而提高了統(tǒng)計方法的效率,并通過在不同領(lǐng)域評價信息上的實驗證明了方法的可靠性。
從實驗可以看出詞典在詞對抽取的效率方面提供了明顯的支持,當(dāng)測試集與訓(xùn)練集來自不同領(lǐng)域商品評價信息時,通過訓(xùn)練集構(gòu)建情感要素的詞典在測試集中可能出現(xiàn)未登錄詞,對于這種情況可以采用動態(tài)構(gòu)建情感要素詞典的方法。在構(gòu)建情感對象詞典方面,可以設(shè)計詞性序列模板獲得候選商品屬性詞集,并采用統(tǒng)計方法篩選候選商品屬性詞[19],如表8所示,從而得到較全面的情感對象集合。
表8 詞性序列模板
在情感詞典的擴建方面,可以在基礎(chǔ)情感詞典的基礎(chǔ)上采用計算互信息的方式構(gòu)建擴展情感詞典。目前,現(xiàn)有的基礎(chǔ)情感詞典主要有知網(wǎng)的“情感分析用詞語集”和大連理工大學(xué)的“情感詞匯本體”,前者將情感詞分成正、負2個方面并提供了包含6個級別的程度詞語集,后者則給出更為詳細的情感詞說明,包括情感強度、極性、及詞義數(shù)等信息。通過此類方法可以得到較全面的情感詞集。商品評價信息中的大量錯別字及口語化現(xiàn)象導(dǎo)致詞典的構(gòu)建存在障礙,進而影響詞典特征的準(zhǔn)確率,下一步考慮通過引入拼音等中間媒介還原詞義的方法來解決錯別字及口語化現(xiàn)象。
[1]TURNEY P D.Thumbs Up or Thumbs Down?Semantic orientation applied to unsupervised classification of reviews[C]//Proceedings of ACL-02,40th Annual Meeting of the Association for Computational Linguistics,2002:417-424.
[2]PANG B,LEE L,Vaithyana than S.Thumbs up?Sentiment classification using machine learning techniques[C]//Proceedings of EMNLP-02,the Conference on Empirical Methods in Natural Language Processing.Philadelphia,2002:79-86.
[3]YI J,NASUKAWA T,BUNESCU R,et al.Sentiment analyzer:extracting sentiments about a given topic using natural language processing techniques[C]//Proceedings of the 3rd IEEE International Conference on Data Mining(ICDM-2003).Melbourne,2003:427-434.
[4]KUSHMERICK N.Wrapper induction:efficiency and expressiveness [J].Artificial Intelligence,2000,118(01):15-68.
[5]LIU B,HU M Q,CHENG J S.Opinion observer:analyzing and comparing opinions on the web[C]//Proc of the 14th International Conference on World Wide Web.Chiba,2005:342-351.
[6]王鑫,穗志方.基于依存樹距離識別論元的語義角色標(biāo)注系統(tǒng)[J].中文信息學(xué)報,2012,26(2):40-45.
[7]YUE T,BRIAND L.An automated approach to trans form use cases into activity diagrams[C]//Proceedings of the 6th European Conference on Modeling Foundations and Applications.Paris,2010:337-353.
[8]陳炯,張虎,曹付元,等.面向中文客戶評論的產(chǎn)品屬性抽取方法研究[J].計算機工程與設(shè)計,2012,33(3):1245-1250.
[9]JIN W,HO H.A novel lexicalized HMM-based learning framework for web opinion mining[C]//Proceedings of the 26th Annual International Conference on Machine Learning,Ouebec,2009:465-472.
[10]徐冰,趙鐵軍,王山雨,等.基于淺層句法特征的評價對象抽取研究[J].自動化學(xué)報,2011,37(10):1241-1247.
[11]孫曉,唐陳意.基于層疊模型細粒度情感要素抽取及傾向分析[J].模式識別與人工智能,2015,28(6):513-520.
[12]KIM S M,HOVY E.Determining the sentiment of opinions[C]//Proc of the 20th International Conference on Computational Linguistics.Geneva,2004:1367-1373.
[13]WEI W,GGULLA J A.Sentiment learning on product reviews via sentiment ontology Tree[C]//Proceedings of the 48th Annual Meeting of the Association for Computational Linguistics,Morristown:ACL,Uppsala,2010:404-413.
[14]張旭成,宋傳寶.基于文本類別信息熵的中文文檔關(guān)鍵詞提取[C].武漢:中文信息處理國際會議,2007.
[15]QIU G,LIU B,BU J J,et al.Expanding domain sentiment lexicon through double propagation[C]//Proceedings of the 21st international joint conference on Artificial intelligence,California,2009:1199-1204.
[16]WU Y B,ZHANG Q,HUANG X J,et al.Phrase dependency parsing for opinion mining[C]//Proceedings of the 2009 Conference on Empirical Methods in Natural Language Processing,Morristown:ACL,Stroudsburg,2009:1533-1541.
[17]馮超.K-means聚類算法的研究[D].大連:大連理工大學(xué),2007.
[18]周愛武,于亞飛.K-means聚類算法的研究[J].計算機技術(shù)與發(fā)展,2011,21(2):62-65.
[19]LI CHUNLIANG,ZHU YANHUI,XU YEQIANG.Research of attribute word extraction method in chinese product comment[J].Computer Engineering,2011,37(12):26-28.
(責(zé)任編輯:劉劃 英文審校:趙亮)
Emotional factors extraction for commodity reviews
FENG Cang-long,BAI Yu,CAI Dong-feng
(Research Center for Human-computer Intelligence,Shenyang Aerospace University,Shenyang 110136,China)
The objective of the fine-grained orientation analysis on commodity reviews is to recognize the emotional polarity of the various sides of a commented object and reflect the intention of user’s reviews accurately.An emotional factor extraction is the key step in the analysis of the fine grain orientation of commodity reviews.This paper presented an approach for the extracting these factors.We introduced the dictionary of emotional factors and the clustering code into the CRF model,and then extracted emotional objects and corresponding emotional words simultaneously.Through experiment on the commodity reviews data sets in 3 different fields,we got 96.06% in precision,91.39% in recall and 93.66% in F-measure averagely.Finally,the experimental results showed that it has 96.84% in precision,93.34% in recall and 95.06% in F-measure on the mixed data set.
propensity analysis;commodity reviews;emotional factors extraction
2016-10-28
國家科技支撐計劃(項目編號:2015BAH20F)
馮倉龍(1987-),男,黑龍江佳木斯人,碩士研究生,主要研究方向:人工智能與自然語言處理,E-mail:fd0724@163.com;蔡東風(fēng)(1958-),男,遼寧沈陽人,教授,主要研究方向:人工智能與自然語言處理,E-mail:caidf@vip.163.com。
2095-1248(2016)06-0071-06
TP391.1
A
10.3969/j.issn.2095-1248.2016.06.012