張帆
內(nèi)容摘要:本文對(duì)細(xì)粒度觀點(diǎn)挖掘的相關(guān)理論做了深入探討,詳細(xì)研究了LDA模型,又對(duì)該模型加以改進(jìn),提出了細(xì)粒度主題情感混合模型,該模型能對(duì)實(shí)體提取、意見(jiàn)詞識(shí)別、情感傾向分析、評(píng)論信息自動(dòng)匯總分析、用戶評(píng)價(jià)等提供評(píng)價(jià)分析,為用戶提供直觀的信息。
關(guān)鍵詞:細(xì)粒度挖掘 電商評(píng)論 主題模型
研究的背景
用戶網(wǎng)絡(luò)購(gòu)物時(shí)常常先查閱商品的評(píng)論信息,把消費(fèi)者對(duì)產(chǎn)品或服務(wù)使用后的真實(shí)評(píng)價(jià)作為重要參考,商家也把評(píng)論作為反饋機(jī)制,自身產(chǎn)品與服務(wù)的不足之處可以從評(píng)論中得以發(fā)現(xiàn),進(jìn)而對(duì)產(chǎn)品進(jìn)行改進(jìn)或者對(duì)銷(xiāo)售策略進(jìn)行調(diào)整。
近幾年來(lái),網(wǎng)絡(luò)購(gòu)物深入到青年、中年、老年等各個(gè)人群,購(gòu)物結(jié)束后人們也越來(lái)越習(xí)慣于對(duì)商品做出評(píng)論,如此網(wǎng)站中電商評(píng)論的信息巨增,對(duì)于一件商品其評(píng)論信息會(huì)達(dá)到幾千甚至上萬(wàn)條。消費(fèi)者和商家都不可能對(duì)評(píng)論信息逐條閱讀,但僅看其中的一部分評(píng)論得到的結(jié)果卻又很片面。因此,從大量的評(píng)論信息中幫助消費(fèi)者或商家提取有價(jià)值的信息成為當(dāng)前最為迫切的問(wèn)題,傳統(tǒng)的觀點(diǎn)挖掘方法對(duì)整條評(píng)論或?qū)渥拥膶哟巫銮楦蟹治?,這種方法不能反映產(chǎn)品或服務(wù)某種屬性的評(píng)價(jià)具體情況,只是對(duì)產(chǎn)品或服務(wù)的優(yōu)劣情況做反饋。
針對(duì)電商評(píng)論的細(xì)粒度觀點(diǎn)挖掘,采用建構(gòu)細(xì)粒度主題情感混合模型的方法對(duì)某個(gè)方面進(jìn)行的挖掘,一方面能夠反映評(píng)論信息的整體評(píng)價(jià),另一方面還可反饋用戶對(duì)產(chǎn)品或服務(wù)每個(gè)方面的評(píng)價(jià)褒貶情況,從而對(duì)消費(fèi)者和商家提供更重要的、有價(jià)值的信息。消費(fèi)者所關(guān)心的產(chǎn)品的某個(gè)或某些方面的評(píng)價(jià)從中可以直接地了解,進(jìn)而在綜合考慮的基礎(chǔ)上,制定和自身利益相符的決策。產(chǎn)品和服務(wù)在具體方面的優(yōu)缺點(diǎn)商家也可以從中獲得,在此基礎(chǔ)上對(duì)產(chǎn)品進(jìn)行進(jìn)一步改進(jìn),形成更合理、更合適的營(yíng)銷(xiāo)方案。
細(xì)粒度觀點(diǎn)挖掘理論與相關(guān)個(gè)性化技術(shù)
(一)觀點(diǎn)挖掘的概念
觀點(diǎn)挖掘涉及到實(shí)體和觀點(diǎn)兩種相關(guān)術(shù)語(yǔ),下面分別對(duì)其進(jìn)行定義和解釋。
實(shí)體:實(shí)體通常由E(t,w)表示,E表示實(shí)體,T表示實(shí)體組件的層次結(jié)構(gòu),或子組件的層次結(jié)構(gòu),w表示實(shí)體E屬性的集合。以華為P10手機(jī)為例,它是一個(gè)實(shí)體,電池、屏幕、充電器等是這個(gè)實(shí)體的組成部件,大小、機(jī)身內(nèi)存等是手機(jī)的屬性,每一個(gè)組成部件也有其自己的屬性,比如屏幕的屬性有可操作性、像素大小、屏幕大小等。其組成部分屏幕也有自己的屬性如顏色、可操作性。
實(shí)體是一棵倒樹(shù)型的層次結(jié)構(gòu)。實(shí)體本身等同于樹(shù)的根結(jié)點(diǎn),實(shí)體的組成部分或子組成部分處于樹(shù)的各個(gè)非根結(jié)點(diǎn),每一個(gè)結(jié)點(diǎn)之間分別具有其聯(lián)系的屬性。
觀點(diǎn):五元組結(jié)構(gòu)表示法(ej,ajk,soijkl,hi,tl)常常用來(lái)表示觀點(diǎn),其中每一個(gè)元素含義為:ej實(shí)體;aj實(shí)體的特征或方面;soijkl在特定的時(shí)間,觀點(diǎn)持有者的情感評(píng)價(jià);hi做評(píng)論的用戶即觀點(diǎn)持有者;tl表述觀點(diǎn)的時(shí)間。這種五元組描述方法設(shè)計(jì)了一種框架,該框架能夠把無(wú)結(jié)構(gòu)的文本轉(zhuǎn)化為結(jié)構(gòu)化的數(shù)據(jù),使用該框架可以完成對(duì)信息量眾多的數(shù)據(jù)實(shí)現(xiàn)量化分析。
(二)相關(guān)個(gè)性化推薦技術(shù)
個(gè)性化推薦技術(shù)是在推薦技術(shù)基礎(chǔ)上發(fā)展和改進(jìn)的結(jié)果,是目前被用來(lái)解決評(píng)論信息量過(guò)大的有效處理辦法。參考用戶的愛(ài)好及用戶日常的瀏覽足跡,個(gè)性化推薦系統(tǒng)綜合考慮推薦對(duì)象的特點(diǎn),將推薦對(duì)象列表以個(gè)性化的方式向用戶推薦。個(gè)性化推薦如圖1所示,其過(guò)程為:根據(jù)用戶瀏覽歷史,對(duì)用戶的喜好、興趣與需求做出判斷;在眾多的用戶推薦對(duì)象信息中建設(shè)推薦對(duì)象模型;利用最佳推薦算法形成個(gè)性化推薦結(jié)果,并將推薦結(jié)果呈現(xiàn)給用戶。
當(dāng)前,在處理評(píng)論內(nèi)容信息量過(guò)大過(guò)程中,個(gè)性化推薦技術(shù)作為最有效的技術(shù)手段被普遍應(yīng)用。該技術(shù)手段多采用基于內(nèi)容的推薦算法、協(xié)同過(guò)濾算法和混合推薦算法?;趦?nèi)容的推薦算法。此算法可以在用戶對(duì)推薦對(duì)象不做評(píng)價(jià)的情況下,能夠抽取出推薦對(duì)象內(nèi)容的特征,還能夠依據(jù)用戶確定的對(duì)象的內(nèi)容特點(diǎn)取得用戶的愛(ài)好,從而使用戶獲得與其愛(ài)好匹配率最高的對(duì)象。協(xié)同過(guò)濾推薦算法。此算法的推薦原則是:購(gòu)物與生活習(xí)慣或喜好相近的用戶所需要的信息也是相同的。該推薦方法以過(guò)濾和選擇具有相似購(gòu)物習(xí)慣的用戶為目標(biāo),統(tǒng)計(jì)用戶之間愛(ài)好的最大相似性。混合推薦?;旌贤扑]算法綜合應(yīng)用了基于內(nèi)容的推薦算法和協(xié)同過(guò)濾推薦算法。
現(xiàn)在所使用的個(gè)性化推薦方法源于基于推薦的方法,用戶的評(píng)分信息評(píng)論被作為所使用的數(shù)據(jù)。由于用戶有時(shí)不是完全用心地給商品做出評(píng)價(jià)與評(píng)分,所以個(gè)性化推薦方法得出的結(jié)果不是特別有用。
(三)細(xì)粒度觀點(diǎn)挖掘
從研究對(duì)象層次方面劃分,觀點(diǎn)挖掘可分為三種層次類(lèi)型,各類(lèi)型及其研究層次如下:第一,把文檔作為分析基礎(chǔ)的挖掘即基于文檔級(jí)的觀點(diǎn)挖掘,在這種方法應(yīng)用中整個(gè)評(píng)論信息在情感方面被分類(lèi)處理。第二,基于句子級(jí)的觀點(diǎn)挖掘,這種方法與文檔級(jí)層面的區(qū)別是在于情感分類(lèi)時(shí)基于評(píng)論信息中的句子級(jí)。不能獲得具體的細(xì)節(jié)信息是第一、二種挖掘方法的相同點(diǎn)。第三,基于方面級(jí)的觀點(diǎn)挖掘。前兩種觀點(diǎn)挖掘方法不能得到具體的細(xì)節(jié)信息,基于方面級(jí)的觀點(diǎn)挖掘又稱為細(xì)粒度觀點(diǎn)挖掘,使用過(guò)程中評(píng)論中的被評(píng)價(jià)實(shí)體方面被這種方法細(xì)節(jié)化,實(shí)體所有方面的詳細(xì)觀點(diǎn)和情感傾向都能被分析得出。實(shí)現(xiàn)較深層次的任務(wù)是細(xì)粒度觀點(diǎn)挖掘的一大優(yōu)勢(shì),另一優(yōu)點(diǎn)是向消費(fèi)者或商家提供被評(píng)價(jià)實(shí)體與之相關(guān)的情感觀點(diǎn)信息,細(xì)粒度觀點(diǎn)挖掘獲得的信息可以滿足用戶更高層次的需求。
(四)細(xì)粒度觀點(diǎn)挖掘承擔(dān)的主要任務(wù)
細(xì)粒度觀點(diǎn)挖掘的目標(biāo)定在被評(píng)價(jià)實(shí)體方面的抽取,抽取過(guò)程中注重情感分析,即從眾多的評(píng)論中生成評(píng)價(jià)摘要。提取實(shí)體、提取意見(jiàn)詞和分析情感傾向是細(xì)粒度意見(jiàn)挖掘的三個(gè)主要任務(wù)。圖2展示了細(xì)粒度觀點(diǎn)挖掘的流程。
挖掘過(guò)程為:采集電商網(wǎng)上消費(fèi)者的評(píng)論數(shù)據(jù)→過(guò)濾無(wú)用數(shù)據(jù)(數(shù)據(jù)預(yù)處理)→刪掉停用詞等→轉(zhuǎn)化數(shù)據(jù),生成可識(shí)別的格式供算法使用→抽取被評(píng)價(jià)實(shí)體方面和觀點(diǎn)詞,在此基礎(chǔ)上從情感傾向角度進(jìn)行分析→生成評(píng)價(jià)摘要且評(píng)價(jià)摘要可視化。endprint
細(xì)粒度主題情感混合模型
(一)主題模型
文檔中常常有一些隱含的主題,對(duì)于這些主題的建模采用主題模型的方法實(shí)現(xiàn),每一個(gè)文檔的生成模型稱為主題模型。若干個(gè)詞語(yǔ)組成了文檔,文檔的形成包括以下過(guò)程:詞語(yǔ)確定主題;在這個(gè)主題中選擇詞語(yǔ);不斷重復(fù)前兩步的選擇過(guò)程,從而生成文檔。
主題模型在上述選擇主題或詞的過(guò)程中均以采取相應(yīng)的概率為前提,PLSA和LDA是電商評(píng)論中被普遍采用的兩種主題模型,這兩種模型在應(yīng)用過(guò)程中的使用情況如下:PLSA模型容易出現(xiàn)過(guò)擬合,應(yīng)在文檔層和主題層之間增加概率模型;LDA模型在PLSA模型基礎(chǔ)上做了改進(jìn),在文檔和主題層之間設(shè)置了超參數(shù),解決了PLSA模型過(guò)擬合現(xiàn)象。
(二)LDA模型
文本文檔的LDA模型被認(rèn)為是由多個(gè)主題組成的概率分布,如圖3所示,它是由文檔、主題和詞組成的三層模型,每個(gè)主題的概率分布由多個(gè)詞組成。圖3中各變量的含義如表1所示。LDA模型先確定評(píng)論文檔的主題分布,再選擇一個(gè)主題,接著選擇一個(gè)詞語(yǔ),從上一步驟生成的對(duì)應(yīng)主題詞條分布中進(jìn)行選擇,反復(fù)進(jìn)行上述兩個(gè)過(guò)程,完成文檔的編輯后過(guò)程結(jié)束。
(三)細(xì)粒度觀點(diǎn)挖掘主題模型設(shè)計(jì)
細(xì)粒度觀點(diǎn)挖掘的實(shí)現(xiàn)目標(biāo)有以下四個(gè)方面:在眾多的評(píng)論信息中進(jìn)行抽取,獲得被評(píng)價(jià)實(shí)體方面和與其相對(duì)應(yīng)的情感;生成評(píng)價(jià)摘要;為消費(fèi)者和商家提供信息所需;為商家提供決策性支持。傳統(tǒng)的LDA模型由于使用文檔級(jí)的詞共現(xiàn)信息識(shí)別主題,因此聚類(lèi)得到的主題粒度較粗,不能對(duì)被評(píng)價(jià)實(shí)體方面進(jìn)行識(shí)別,另外LDA模型把詞和觀點(diǎn)詞集為一體,不能一目了然地呈現(xiàn)描述方面的詞和觀點(diǎn)詞,情感也沒(méi)有做建模處理,不能實(shí)現(xiàn)情感傾向分析。由于上述缺陷,對(duì)主題模型進(jìn)行拓展和設(shè)計(jì)的重點(diǎn)應(yīng)充分考慮被評(píng)價(jià)實(shí)體,應(yīng)把評(píng)價(jià)實(shí)體方面的抽取做為改進(jìn)工作的核心,兼顧考慮如何分離描述詞和情感詞。
細(xì)粒度觀點(diǎn)挖掘主題模型拓展設(shè)計(jì)如下:第一,引入滑動(dòng)窗口。一篇評(píng)論文檔由若干個(gè)滑動(dòng)窗口組成,使用拓展模型,對(duì)滑動(dòng)窗口進(jìn)行主題的抽取,局部主題被抽取后將幾個(gè)句子組成一個(gè)滑動(dòng)窗口,例:一篇評(píng)論有5個(gè)句子,滑動(dòng)窗口大小為3,則將有7種窗口,分別是{s1}、{s1,s2}、{s1,s2,s3}、{s2,s3,s4}、{s3,s4,s5}、{s4,s5}、{s6}。如果句子s3有10個(gè)單詞,各個(gè)詞的來(lái)源窗口分布如表2所示。由表2可知,同一個(gè)句子不僅僅只包含在相同的窗口中,不同的滑動(dòng)窗口也可以包括相同的句子,處理單個(gè)句子級(jí)別詞共現(xiàn)缺乏時(shí)可以用這種方法。
第二,充分考慮用戶的情感傾向。在細(xì)粒度觀點(diǎn)挖掘中,不僅要識(shí)別被評(píng)價(jià)實(shí)體,還應(yīng)了解用戶的情感傾向,解決這一問(wèn)題的方法是將情感層加在文檔層與主題層之間,同時(shí)對(duì)主題和情感建模,從而實(shí)現(xiàn)對(duì)被評(píng)價(jià)實(shí)體方面的情感分析。增加情感層的主題模型相對(duì)于傳統(tǒng)的方法而言,充分考慮了情感傾向,各種主題與情感中的詞語(yǔ)分布情況都能夠通過(guò)被分析而獲得,情感所呈現(xiàn)出的正面與負(fù)面的情緒因素也可以被判斷,這樣便能夠達(dá)到觀點(diǎn)挖掘的目的。
第三,使用指示變量將情感與方面進(jìn)行分離。分析結(jié)果中所有描述方面的詞和表述情感方面的詞構(gòu)成了一個(gè)集合,稱之為詞聚類(lèi)的集合,該集合作為主題模型的結(jié)果被輸出。為了將其分離,將模型中的詞進(jìn)行分類(lèi),分為:方面詞和觀點(diǎn)詞。描述被評(píng)價(jià)實(shí)體某一方面的詞定義為方面詞,例如手機(jī)的“電池”方面上有“待機(jī)時(shí)間、耗電”等詞;觀點(diǎn)詞被用來(lái)描述或表達(dá)被評(píng)價(jià)實(shí)體方面,“高、低”、“長(zhǎng)、短”都屬于觀點(diǎn)詞,模型中通過(guò)兩個(gè)增加變量可以將兩方面的詞分離,變量一決定詞是否存在情感字典中,變量二代表詞的類(lèi)型。
(四)常用的情感主題混合模型
JST模型在LDA模型上進(jìn)行進(jìn)一步改進(jìn),增加了情感分析的功能,該模型的結(jié)構(gòu)如圖4所示。由圖4JST模型結(jié)構(gòu)圖可以看出:JST模型中,每個(gè)詞分別具有兩個(gè)屬性即主題和維度;JST模型為了實(shí)現(xiàn)情感分析的目標(biāo),在模型設(shè)計(jì)上充分顧及兩種關(guān)系:一種是情感與主題的關(guān)系,一種是情感與文檔的關(guān)系;每個(gè)情感的主題不是單一的,而是多個(gè)不相同的主題共存;情感維度決定了主題的生成;情感與主題兩個(gè)方面的信息生成詞。
(五)細(xì)粒度主題情感混合模型描述
細(xì)粒度主題情感混合模型如圖5所示。模型在LDA模型基礎(chǔ)上在以下幾個(gè)方面有了創(chuàng)新:第一,融入了情感信息,增加了情感層,每一個(gè)情感標(biāo)簽用l表示,在模型中局部主題下兩種類(lèi)型詞分布分別是ψ loc,AZ,l和ψ loc,OZ,l,它們分布在情感標(biāo)簽l。第二,模型引入了滑動(dòng)窗口,注重詞在文檔中局部共現(xiàn),過(guò)而識(shí)別細(xì)粒度的主題。第三,為了便于區(qū)分方面詞和觀點(diǎn)詞,將兩個(gè)變量p和x引入模型,其中p是詞類(lèi)型變量,x是指示變量,這兩個(gè)變量通過(guò)情感字典來(lái)構(gòu)造,在整個(gè)過(guò)程中不必人工對(duì)其進(jìn)行再標(biāo)注。
參考文獻(xiàn):
1.[美]劉兵.情感分析:挖掘觀點(diǎn)、情感和情緒.機(jī)械工業(yè)出版社,2017
2.老A電商學(xué)院.淘寶網(wǎng)店大數(shù)據(jù)營(yíng)銷(xiāo):數(shù)據(jù)分析、挖掘、高效轉(zhuǎn)化者.人民郵電出版社,2015
3.李進(jìn)華.電子商務(wù)數(shù)據(jù)庫(kù)基礎(chǔ)與應(yīng)用.首都經(jīng)濟(jì)貿(mào)易大學(xué)出版社,2010
4.楊偉強(qiáng).電子商務(wù)數(shù)據(jù)分析:大數(shù)據(jù)營(yíng)銷(xiāo)、數(shù)據(jù)化運(yùn)營(yíng)、流量轉(zhuǎn)化.人民郵電出版社,2016
5.張?chǎng)?,朱振?在線評(píng)論有用性影響因素研究綜述.商業(yè)經(jīng)濟(jì)研究,2017(6)endprint