• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      網(wǎng)絡(luò)文本評論中產(chǎn)品特征抽取綜述

      2016-05-14 20:55李光敏陳熾邢江
      現(xiàn)代情報 2016年8期
      關(guān)鍵詞:在線評論文本分析

      李光敏 陳熾 邢江

      〔摘要〕隨著Web2.0技術(shù)和電子商務(wù)的飛速發(fā)展,越來越多的用戶通過互聯(lián)網(wǎng)分享產(chǎn)品的使用體驗(yàn)和表達(dá)喜惡的觀點(diǎn),如何有效地從評論文本中抽取產(chǎn)品特征是產(chǎn)品意見挖掘方向所亟需解決的問題。本文從產(chǎn)品特征頻繁項(xiàng)、特征-意見共現(xiàn)關(guān)系、模型訓(xùn)練和顯隱式特征匹配四個方面介紹產(chǎn)品特征抽取工作在國內(nèi)外的研究進(jìn)展并指出其各自的優(yōu)勢和不足,最后列出產(chǎn)品特征抽取在今后的研究方向。

      〔關(guān)鍵詞〕在線評論;意見挖掘;特征抽??;文本分析

      DOI:10.3969/j.issn.1008-0821.2016.08.031

      〔中圖分類號〕TP3911〔文獻(xiàn)標(biāo)識碼〕A〔文章編號〕1008-0821(2016)08-0168-06

      〔Abstract〕With the rapid development of Web20 technology and electronic commerce,more and more customers participate in the Internet,share product experience and express likes or dislikes about product.It is a challenge to extract product feature from customer reviews effectively in the product opinion mining field.Firstly,this paper introduced the research progress of extracting product feature from frequency,co-occurrence,modeling and implicit feature mapping both at home and abroad.Secondly,it presented their strength and limitation respectively.Finally,it enumerated some research interest about this task.

      〔Key words〕online review;opinion mining;feature extraction;text analysis

      近年來,隨著Web20技術(shù)的發(fā)展,大量的在線產(chǎn)品評論文本不斷涌現(xiàn),對于有購買意向的潛在消費(fèi)者來說,手工從產(chǎn)品評論中總結(jié)歸納出消費(fèi)者對已購產(chǎn)品所持的褒貶態(tài)度是不現(xiàn)實(shí)的,尤其是意見相左的產(chǎn)品評論更讓他們感到無所適從;對于生產(chǎn)廠家來說,從產(chǎn)品評論中了解消費(fèi)者對產(chǎn)品整體或某一特征的意見,對企業(yè)競爭情報分析和后期產(chǎn)品質(zhì)量的改進(jìn)都大有裨益,因而對于評論中用戶表達(dá)意見的研究具有重要意義。

      隨著物質(zhì)文化生活水平的提高,人們對消費(fèi)品需求日趨多元化、個性化,他們不再滿足于產(chǎn)品的整體性能優(yōu)劣,而是根據(jù)個人的消費(fèi)喜好來關(guān)注產(chǎn)品的某一部件或?qū)傩缘男阅?,較多關(guān)注產(chǎn)品局部的評論內(nèi)容,因此如何準(zhǔn)確全面抽取評論文本中所蘊(yùn)含的產(chǎn)品特征信息是研究者所面臨的重要問題。本文站在技術(shù)實(shí)現(xiàn)的角度從四個方面綜述文本評論中產(chǎn)品特征抽取技術(shù)在國內(nèi)外的研究進(jìn)展及各自的優(yōu)勢和不足,最后指出產(chǎn)品特征抽取技術(shù)所面臨的挑戰(zhàn)和今后的發(fā)展方向。

      1基于頻繁項(xiàng)的特征抽取

      該方法通常對評論語料中出現(xiàn)頻率較高的名詞或名詞短語應(yīng)用約束條件而抽取出來作為產(chǎn)品特征。產(chǎn)品特征詞通常由名詞、形容詞、副詞或動詞組成。Liu[1]認(rèn)為60%~70%的產(chǎn)品特征詞是顯式名詞,由于人們習(xí)慣在評論中經(jīng)常使用,因此產(chǎn)品的部件或?qū)傩猿S山?jīng)常出現(xiàn)的這類名詞表示,同時還需要對頻繁出現(xiàn)的名詞中的非產(chǎn)品特征詞進(jìn)行過濾。

      Hu[2]最先提出的基于特征摘要(Feature-based Summarization)算法。他首先將產(chǎn)品評論中頻繁出現(xiàn)的名詞短語作為候選種子詞,然后通過密實(shí)度修剪(Compactness Pruning)去掉那些未按照指定順序在一起出現(xiàn)的無意義詞以及冗余修剪(Redundancy Pruning)去掉未能表示產(chǎn)品特征的單個詞,比如手機(jī)產(chǎn)品評論中的“時間”一詞,只有在“待機(jī)時間”或“通話時間”的名詞短語中才表示手機(jī)產(chǎn)品屬性,單獨(dú)出現(xiàn)則毫無意義,所以就把它從候選種子詞中去掉。隨后Popescu[3]基于如下假設(shè):共現(xiàn)的次數(shù)越多的兩個詞,則它們之間的關(guān)聯(lián)度越高,因此Popescu提出點(diǎn)互信息(Point-wise Mutual Information,PMI)方法比Hu的算法提高了22%的準(zhǔn)確率,但是召回率降低了3%。Ku[4]利用TF*IDF從文檔和段落級別來判斷某詞對產(chǎn)品特征的重要程度,Scaffidi[5]也用此方法將頻繁出現(xiàn)的名詞短語候選項(xiàng)在評論語料中的出現(xiàn)頻率與在一般性英文中的出現(xiàn)頻率進(jìn)行比較。Raju[6]等人同樣在實(shí)驗(yàn)中丟棄所有那些相比在產(chǎn)品描述中更為頻繁出現(xiàn)在一般性英文中的名詞短語,然后將剩下的描述產(chǎn)品同一特征的名詞短語進(jìn)行聚類,該模型通過雙連詞重疊(Bigram Overlap)值來衡量名詞短語間的相似性,最后只保留至少含3個名詞短語的聚類簇。Long[7]等人基于出現(xiàn)頻率和信息距離(Information Distance)的考慮來抽取名詞短語,他們首先通過統(tǒng)計(jì)頻率方式找到產(chǎn)品特征核心詞,然后利用信息距離來查找與產(chǎn)品特征相關(guān)的其他詞或短語,如“”和“Dollars”均是產(chǎn)品價格屬性的核心詞。Hao[8]提出的基于語言依存分析和語料庫統(tǒng)計(jì)相結(jié)合的未登錄產(chǎn)品特征項(xiàng)抽取算法,實(shí)驗(yàn)證明抽取的前200個產(chǎn)品屬性中準(zhǔn)確率達(dá)到875%。

      基于頻繁項(xiàng)的產(chǎn)品特征抽取方式簡單高效,許多商業(yè)機(jī)構(gòu)通過這種方式分析客戶對產(chǎn)品的反饋意見。但也導(dǎo)致了抽取過程中出現(xiàn)過多與產(chǎn)品特征無關(guān)的詞匯同時漏掉那些不常出現(xiàn)的產(chǎn)品特征詞。另外需要對各種閾值參數(shù)進(jìn)行手工調(diào)整,因此移植性差。

      2基于產(chǎn)品特征和意見的共現(xiàn)關(guān)系

      基于共現(xiàn)關(guān)系的產(chǎn)品特征項(xiàng)抽取前提是產(chǎn)品意見挖掘的主觀陳述中,意見的表達(dá)總是針對具體的評論對象,而意見詞在文本評論中是容易發(fā)現(xiàn)的[9]。

      Liu[10]實(shí)現(xiàn)的Opinion Observer系統(tǒng)針僅對句子級的用戶評論內(nèi)容使用監(jiān)督模式發(fā)現(xiàn)算法進(jìn)行意見挖掘后并可視化顯示不同產(chǎn)品(3種品牌)中各個特征(顯示屏、電池、揚(yáng)聲器等)的比較結(jié)果。首先通過詞性標(biāo)注器(NLProcessor Linguistic Parser)對訓(xùn)練集進(jìn)行詞性標(biāo)注,然后手工識別產(chǎn)品特征項(xiàng)并用指定的詞([Feature])取代,如:“超高的性價比”被標(biāo)注為“超高的ADJ性價比NN”,其中ADJ和NN分別表示形容詞和名詞。接著用“[Feature]”替換掉“性價比”,結(jié)果變成“超高的ADJ[Feature]NN”形式,上述操作的依據(jù)是他認(rèn)為用戶在評論中的描述方式通常是以類似的語法形式出現(xiàn),只是所用的特征項(xiàng)不同,所以需要詞性標(biāo)注和[Feature]替換作為尋找語法規(guī)則的橋梁。最后利用關(guān)聯(lián)規(guī)則挖掘?qū)ι鲜龅脑~性標(biāo)注模式進(jìn)行產(chǎn)品特征項(xiàng)抽取。實(shí)驗(yàn)結(jié)果表明該方法可使召回率和準(zhǔn)確率分別達(dá)到902%和889%的效果。

      Baccianella[11]提出的層次性評級(Multi-facet Rating)方式抽取產(chǎn)品特征。首先通過預(yù)定義的3種POS模式抽取出意見短語(如:“nice room”、“horrible location”)作為候選項(xiàng),然后充分利用General Inquirer[12]詞典中情感詞的極性、強(qiáng)度、詞性等標(biāo)簽知識對候選項(xiàng)進(jìn)行細(xì)粒度的標(biāo)注,比如將“nice room”標(biāo)注為“[Virtue][Positive]room”,將“horrible location”標(biāo)注為“[Strong][Negative]location”。最后按照這些已標(biāo)注過的候選項(xiàng)的區(qū)分度使用最小方差(Minimum Variance)進(jìn)行計(jì)算打分完成產(chǎn)品特征的抽取,在對TripAdvisor網(wǎng)站爬取來的26 000條酒店評論實(shí)驗(yàn)中發(fā)現(xiàn)微觀平均絕對誤差(Micro Mean Absolute Error)降低了359%,宏觀平均絕對誤差降低了302%。

      利用產(chǎn)品特征項(xiàng)的句法結(jié)構(gòu)來抽取匹配項(xiàng)的方式,對于意見評論句中出現(xiàn)的相似句法結(jié)構(gòu)處理起來顯得有些無能為力。針對該情況,Jiang[13]基于樹核(Tree Kernel)函數(shù)提出在線產(chǎn)品評論的產(chǎn)品特征抽取和情感極性分類方法可以隱式利用句法結(jié)構(gòu)的子結(jié)構(gòu)(substructure)特點(diǎn)并計(jì)算出子結(jié)構(gòu)間的相似性。

      Zhuang[14]通過應(yīng)用依賴解析器來識別產(chǎn)品項(xiàng)之間的依賴關(guān)系和Du[15]利用產(chǎn)品特征項(xiàng)與情感詞之間的關(guān)系達(dá)到抽取的目的。二人均首先考慮將所有的名詞短語和形容詞分別作為產(chǎn)品特征項(xiàng)和情感詞,然后基于二者的共現(xiàn)關(guān)系建立對應(yīng)的知識圖,最后使用信息增強(qiáng)(Information Reinforcement)的圖聚類算法來抽取與情感密切相關(guān)的產(chǎn)品特征項(xiàng)。隨后Hai[16]也利用產(chǎn)品特征項(xiàng)和情感(aspect-sentiment)之間的共現(xiàn)矩陣挖掘出用來形成抽取新的產(chǎn)品-觀點(diǎn)對的規(guī)則集。Qiu[17]也將依賴關(guān)系的思想應(yīng)用到雙傳播方法中同時完成產(chǎn)品項(xiàng)和情感詞的抽取任務(wù)。Shi[18]通過人工建立基于產(chǎn)品特征的概念模型再利用中文語義詞典擴(kuò)展的方式完成特征-意見對的抽取。

      基于產(chǎn)品特征和意見之間共現(xiàn)關(guān)系抽取產(chǎn)品特征項(xiàng)的優(yōu)勢在于能發(fā)現(xiàn)低頻的產(chǎn)品特征項(xiàng),不足之處是抽取出的匹配共現(xiàn)關(guān)系模式的短語項(xiàng)中部分不能表示產(chǎn)品特征。簡言之,這類方法的召回率高,準(zhǔn)確率低。

      也可將基于頻繁項(xiàng)和基于共現(xiàn)關(guān)系的兩種抽取方法結(jié)合使用,主要思想就是產(chǎn)品特征通常由頻繁出現(xiàn)的名詞表示并被情感詞所修飾。因此常利用特征-情感關(guān)系對過濾掉非特征詞。Li[19]等人首先從關(guān)于手機(jī)評論的中文文本中抽取出頻繁出現(xiàn)的名詞短語作為候選特征詞,然后通過如下兩步處理掉候選項(xiàng)中的噪音詞,第一步使用形容詞限制模式,如:ADJNN,其中ADJ表示形容詞,NN表示名詞短語;第二步利用信息檢索(Information Retrieve)的詞頻(Term Frequency)計(jì)算,將那些在Web文本中出現(xiàn)頻率高的常用詞從候選項(xiàng)集中去掉,因?yàn)長i認(rèn)為頻繁出現(xiàn)的常用詞表示產(chǎn)品特征的概率低。實(shí)驗(yàn)結(jié)果證明該算法優(yōu)于僅使用自然語言處理產(chǎn)品特征的抽取技術(shù)并且具有領(lǐng)域適應(yīng)性。Yu[20]利用領(lǐng)域知識(如產(chǎn)品說明書)將產(chǎn)品的所有特征以樹狀結(jié)構(gòu)組織。該思路首先是從評論中抽取高頻名詞短語,然后對單分類支持向量機(jī)(One-class SVM)進(jìn)行訓(xùn)練以識別候選特征項(xiàng),接著利用特征項(xiàng)間的語義距離(Inter-aspect Semantic Distance)對候選特征項(xiàng)進(jìn)行篩選。特征項(xiàng)間的語義距離一般由共現(xiàn)頻率、上下文相似性和句法模式相似性等因素決定。最后通過遞增式迭代將符合條件的特征項(xiàng)陸續(xù)加入到初始的樹狀結(jié)構(gòu)中形成完整的層狀產(chǎn)品特征樹,對來自4個領(lǐng)域的11種產(chǎn)品的特征抽取實(shí)驗(yàn)證明了該算法的有效性。

      與前兩種方法相比,組合方式的優(yōu)勢在于由于使用了更多的約束條件(如:頻率閾值和關(guān)系模式)使得非產(chǎn)品特征詞的數(shù)量大大減少,不足的地方是仍會抽取出低頻的非產(chǎn)品特征詞,同樣也需要對各種訓(xùn)練參數(shù)進(jìn)行手工調(diào)整。

      3基于訓(xùn)練模型的特征抽取

      上述3種方法的局限性在于需要人工干涉抽取算法中的各種參數(shù),并且定制好的抽取規(guī)則難以移植到其他數(shù)據(jù)集中去,而自動從數(shù)據(jù)中學(xué)習(xí)訓(xùn)練參數(shù)的訓(xùn)練模型則能克服該局限性。

      31監(jiān)督學(xué)習(xí)技術(shù)方式

      特征抽取通常看作是一般信息抽取的特例,那么信息抽取中所使用的監(jiān)督學(xué)習(xí)算法仍適用于意見挖掘中對產(chǎn)品特征、觀點(diǎn)詞和觀點(diǎn)極性的識別。已有基于監(jiān)督學(xué)習(xí)技術(shù)的模型如隱馬爾科夫模型[21](Hidden Markov Model)和條件隨機(jī)域[22](Conditional Random Field),它們采用序列學(xué)習(xí)(Sequential Learning)方法,主要從標(biāo)注的訓(xùn)練數(shù)據(jù)中推斷出函數(shù)以應(yīng)用到未標(biāo)注的數(shù)據(jù)中去,是目前研究較多的兩種模型。其中隱馬爾科夫模型屬于生成概率模型,它使用聯(lián)合概率分布為觀察序列從狀態(tài)集合中選擇具有最大可能性的狀態(tài)序列過程。條件隨機(jī)域?qū)儆谂袆e式概率模型(Discriminative Probabilistic Model)它是在給定觀察序列的條件下,計(jì)算整個觀察序列狀態(tài)標(biāo)記的概率無向圖學(xué)習(xí)模型。

      Wong[23]結(jié)合隱馬爾科夫模型提出的概率圖模型對來自多個站點(diǎn)的數(shù)碼相機(jī)、MP3播放器和液晶電視的產(chǎn)品特征進(jìn)行聯(lián)合抽取和分組。Jin[24]基于隱馬爾科夫模型實(shí)現(xiàn)的OpinionMiner機(jī)器學(xué)習(xí)系統(tǒng)主要將詞性標(biāo)注信息與馬爾科夫假設(shè)相結(jié)合,產(chǎn)生的每個詞不僅由它前面的詞決定并且也依賴于自身的詞性標(biāo)簽。實(shí)驗(yàn)首先建立由產(chǎn)品特征項(xiàng)、正負(fù)觀點(diǎn)詞(包含顯式和隱式)和背景詞組成的標(biāo)簽集,然后利用該標(biāo)簽集手工標(biāo)注訓(xùn)練文檔,接著將該標(biāo)注的文檔通過自學(xué)習(xí)的方式抽取高置信度的特征項(xiàng),最后應(yīng)用基于HMM的模型用來抽取出所有產(chǎn)品特征和觀點(diǎn)詞。Li[25]采用Skip-CRF和Tree-CRF兩種CRF變體結(jié)合方式完成產(chǎn)品特征項(xiàng)的抽取任務(wù),該方式可利用文本評論中的句子結(jié)構(gòu)并解決了傳統(tǒng)CRF在學(xué)習(xí)過程中只能使用詞序列的缺陷。其中Liu[10]和Choi[26]在實(shí)驗(yàn)中也用到條件隨機(jī)域(CRF)模型,其中Choi通過標(biāo)簽、依賴關(guān)系、詞距(Word Distance)和觀點(diǎn)句使用序列模式挖掘技術(shù)形成一套序列模式規(guī)則來發(fā)現(xiàn)產(chǎn)品特征項(xiàng)和觀點(diǎn)詞。對于中文評論文本中產(chǎn)品特征項(xiàng)的抽取工作,Song[27]首先人工定義文本模式構(gòu)成種子集合,再采用Bootstrapping算法從評論語句中抽取評價對象,然后將評價對象聚類為產(chǎn)品名稱和產(chǎn)品特征兩類,該方法取得較高召回率和準(zhǔn)確率,但忽視了產(chǎn)品名稱容易從產(chǎn)品評論網(wǎng)站的產(chǎn)品目錄結(jié)構(gòu)中獲取的特點(diǎn)。Yao[28]利用本體知識建立汽車領(lǐng)域的產(chǎn)品特征集。Liu[29]提出意見實(shí)例抽取(opinion instance extraction)建立相關(guān)領(lǐng)域知識完成特征項(xiàng)和情感詞同步抽取。

      監(jiān)督學(xué)習(xí)方法可以自動從訓(xùn)練數(shù)據(jù)中學(xué)習(xí)模型參數(shù),解決了前兩種方法中需人工參與的問題,但是仍需要手工標(biāo)注訓(xùn)練數(shù)據(jù),不同的產(chǎn)品意見挖掘模型需要標(biāo)注不同的訓(xùn)練集,耗時費(fèi)力并難以適用所有產(chǎn)品的特征抽取任務(wù),并且手機(jī)這類電子產(chǎn)品更新?lián)Q代快,短時間內(nèi)就會有新的功能和特征參數(shù)面世。

      32基于主題模型的特征抽取

      主題建模是對文檔中隱含主題進(jìn)行無監(jiān)督的學(xué)習(xí)方法,它假定每篇文檔由多個主題組成,每個主題就是詞匯表中詞語的條件概率分布,主要由若干出現(xiàn)頻率較高的詞語組成,只有這些詞語才與主題有很強(qiáng)的相關(guān)性。

      主題模型主要有兩類:概率潛在語義分析[30](Probabilistic Latent Semantic Analysis)和隱含狄利克雷分布[31](Latent Dirichlet Allocation)。從技術(shù)上講,主題模型是基于貝葉斯網(wǎng)絡(luò)的圖模型,pLSA和LDA均能直接應(yīng)用于意見挖掘中的產(chǎn)品主題和意見主題抽取,為了避免抽取主題的混亂,部分研究者用聯(lián)合模型(Joint Model)分別完成產(chǎn)品特征項(xiàng)和意見詞的抽取工作。

      擴(kuò)展的主題模型在產(chǎn)品特征項(xiàng)抽取中應(yīng)用較多,Mei[32]在pLSA主題模型基礎(chǔ)上實(shí)現(xiàn)的主題情感混合(Topic-Sentiment Mixture)模型。該模型針對iPod等主題的即席(Ad hoc)查詢顯示各項(xiàng)特征(如:電池壽命、外觀、尺寸)詳細(xì)的情感極性及強(qiáng)度,并顯示各主題隨時間的情感變化曲線。主要實(shí)現(xiàn)思路是將單詞依照概率分布分為與主題無關(guān)的普通詞(如the,a,of)、正向主題相關(guān)詞、負(fù)向主題相關(guān)詞、中性主題相關(guān)詞4類,用最大期望(Expectation-Maximization)算法估計(jì)每個類中的詞項(xiàng)概率分布。實(shí)驗(yàn)結(jié)果證明其模型比Opinmind[33]系統(tǒng)中情感分析的粒度更細(xì)。

      Titov[34]提出的多粒度LDA模型(Multi-Grain LDA)避免了LDA模型中出現(xiàn)的主題含義無法顯式確定的問題,并將其應(yīng)用于主題的情感摘要生成系統(tǒng)中。他認(rèn)為評論文檔是由滑動窗口(Sliding Window)的集合構(gòu)成,而滑動窗口又由文檔中連續(xù)的句子組成。每個滑動窗口中存在局部主題的概率分布,而整篇文檔對應(yīng)一個全局主題的概率分布。特征詞項(xiàng)不僅可以從局部主題的概率分布中生成,還可從全局主題的概率分布中產(chǎn)生。在對TripAdvisor.com網(wǎng)站獲取的關(guān)于hotel評論文本實(shí)驗(yàn)中,將hotel領(lǐng)域?qū)嶓w(如:London hotels、seaside resorts)作為全局主題,將屬于實(shí)體的特征項(xiàng)(如:service、location、rooms)作為局部主題,并將每個特征的評分(1~5的整數(shù)值)作為觀測值加入到模型中,同時假定對特征評論的文本是對該特征評分的預(yù)測信息,這樣完成了主題與特征項(xiàng)的關(guān)聯(lián)。

      Zhao[35]等人結(jié)合最大熵(Maximum Entropy)和主題模型提出的ME-LDA模型(MaxEnt-LDA)利用句法結(jié)構(gòu)規(guī)則完成特征詞和與特征相關(guān)的意見詞抽取。該實(shí)驗(yàn)中首先在標(biāo)注的訓(xùn)練集中用ME算法學(xué)習(xí)一系列變量參數(shù),然后從這些參數(shù)的多項(xiàng)概率分布中產(chǎn)生指示變量(Indicator Variable),最后通過指示變量來確定句子中的詞項(xiàng)是產(chǎn)品特征項(xiàng)還是意見詞。Sauper[36]將隱馬爾科夫(HMM)和主題模型結(jié)合提出的聯(lián)合模型(HMM-LDA)僅適應(yīng)于短文本片段的產(chǎn)品特征項(xiàng)抽取,如:“我最看中的是這款手機(jī)的外觀”中的“外觀”特征項(xiàng)抽取。該思路在Griffith[37]、Liu[38]、Lu[39]等人的文獻(xiàn)中也有所體現(xiàn)。Brody[40]提出的針對句子而非篇章級的局部隱含狄利克雷分布(Local LDA)模型完成餐館和上網(wǎng)本領(lǐng)域的產(chǎn)品特征抽取。Lin[41]等人對詞采集情感標(biāo)簽和主題標(biāo)簽實(shí)現(xiàn)的Joint Sentiment/Topic(JST)模型,而Jo[42]對句子采集情感標(biāo)簽和主題標(biāo)簽提出的Aspect Sentiment Unification Model(ASUM)模型均可看作是對LDA模型的擴(kuò)展。Mukherjee[43]等人認(rèn)為用戶對產(chǎn)品特征詞的歸類受個人主觀影響,因此采用半監(jiān)督方式實(shí)現(xiàn)ME-SAS模型(Maximum Entropy Seeded Aspect Sentiment)完成特征詞的抽取和聚類工作,主要由用戶提供少量特征種子詞再利用ME-SAS模型指導(dǎo)生產(chǎn)滿足用戶需要的其他特征詞。

      與監(jiān)督學(xué)習(xí)技術(shù)相比,主題模型的優(yōu)勢在于無需人工標(biāo)注數(shù)據(jù),并且在無人監(jiān)督情況下同時完成產(chǎn)品特征項(xiàng)的抽取和歸類任務(wù)。但是為了達(dá)到較高的準(zhǔn)確率,主題模型通常需要大量未標(biāo)注的數(shù)據(jù)進(jìn)行長時間訓(xùn)練。

      4隱式與顯式產(chǎn)品特征間的關(guān)聯(lián)

      上述方法主要對名詞或名詞短語這類顯式產(chǎn)品特征進(jìn)行抽取,對于那些沒有在語句中直接進(jìn)行描述,需要對句子進(jìn)行語義理解才能得到的隱式特征也不容忽視,它們通常由形容詞或動詞表示產(chǎn)品的某一屬性。如:“哇,iPhone 5s屏幕上的內(nèi)容,我要瞇著眼才能看清楚?!敝械膭釉~短語“瞇著眼看”表示手機(jī)的屏幕小。

      近年來產(chǎn)品隱式特征抽取方面,各學(xué)者也介紹了自己的實(shí)現(xiàn)思路。Su[44]提出的聚類方法來建立那些假定為情感詞的隱式特征表達(dá)與對應(yīng)顯式特征之間的映射。該方法利用顯式特征和情感詞之間相互強(qiáng)化的關(guān)系,同時對兩者的內(nèi)容信息和情感鏈接信息不斷聚類形成產(chǎn)品特征簇和情感詞簇。Yan[45]等人基于PageRank算法提出的NodeRank來依據(jù)特征-情感對的重要程度對隱式特征進(jìn)行抽取。Tuarob[46]等人利用產(chǎn)品設(shè)計(jì)上下文知識,采用共詞網(wǎng)絡(luò)(Co-word Network)的概率模型,對Twitter中有關(guān)智能手機(jī)評論內(nèi)容完成隱式產(chǎn)品特征的抽取工作。Hai[16]提出的兩相共生(Two-phase Co-occurrence)關(guān)聯(lián)規(guī)則挖掘方法完成隱式特征(假定為情感詞)與顯式特征的匹配。該方法在第一階段對句中經(jīng)常共同出現(xiàn)的情感詞和顯式特征來說,將情感詞作為條件,顯式特征代表結(jié)果,由此生成對應(yīng)的關(guān)聯(lián)規(guī)則;第二階段將規(guī)則的結(jié)果(顯式特征)聚類以生成對情感詞更健壯的規(guī)則(Robust Rule)。如果情感詞沒有相應(yīng)的顯式產(chǎn)品特征,則將最佳規(guī)則簇內(nèi)的代表性詞作為識別出的產(chǎn)品特征。

      5結(jié)語

      本文結(jié)合國內(nèi)外的研究現(xiàn)狀從4個方面對意見挖掘模型中的產(chǎn)品特征抽取工作進(jìn)行了綜述,并指出了各自的優(yōu)勢和不足。隨著電子商務(wù)的日漸普及,產(chǎn)品意見挖掘作為情感分析的一個重要應(yīng)用方向,其產(chǎn)品特征抽取研究更具有舉足輕重的地位,未來需要深入研究的問題還有:

      (1)由于受文化和表達(dá)習(xí)慣的影響,人們用不同的術(shù)語來表述同指特征(如:MMC卡,microSD卡、TF卡和擴(kuò)展卡均指手機(jī)的外部存儲卡),通過WorldNet或HowNet詞典進(jìn)行同義詞分組歸類的處理方式是遠(yuǎn)遠(yuǎn)不夠的,一方面詞典收錄的局限性導(dǎo)致縮略語、專門術(shù)語(Jargon)等無法識別;另一方面許多同義詞具有領(lǐng)域依賴性,因此對同指特征的抽取可通過查找網(wǎng)頁計(jì)算其與已知特征的互信息(Mutual Information)來決定。

      (2)目前大部分研究集中在結(jié)構(gòu)化或半結(jié)構(gòu)化文檔集合的特征抽取上,但是近年來微博成為用戶進(jìn)行產(chǎn)品評論的重要信息源,由于其言簡意賅的特點(diǎn)和表達(dá)用語的不規(guī)范性,因此針對微博中短文本的產(chǎn)品特征抽取研究更具有挑戰(zhàn)性。

      (3)隱式產(chǎn)品特征的抽取雖有進(jìn)展,但目前研究較少,筆者認(rèn)為借鑒前人研究的由少量顯式特征種子詞結(jié)合詞間相似度計(jì)量方法來抽取產(chǎn)品特征詞思路,利用Mikolov[47]在2013年實(shí)現(xiàn)的深度學(xué)習(xí)(deep learning)工具word2vec會提高產(chǎn)品特征詞的召回率和準(zhǔn)確率。

      參考文獻(xiàn)

      [1]Liu B.Web data mining:exploring hyperlinks,contents,and usage data[M].Springer Verlag,2007.

      [2]Hu M,Liu B.Mining and summarizing customer reviews[C].Proceedings of the Proceedings of the tenth ACM SIGKDD international conference on Knowledge discovery and data mining,ACM,2004:168-177.

      [3]Popescu A-M,Etzioni O.Extracting product features and opinions from reviews[M].Natural language processing and text mining.Springer.2007:9-28.

      [4]Ku L-W,Liang Y-T,Chen H-H.Opinion Extraction,Summarization and Tracking in News and Blog Corpora[C].Proceedings of the AAAI Spring Symposium:Computational Approaches to Analyzing Weblogs,2006:100-107.

      [5]Scaffidi C,Bierhoff K,Chang E,et al.Red Opal:product-feature scoring from reviews[C].Proceedings of the Proceedings of the 8th ACM conference on Electronic commerce,ACM,2007:182-191.

      [6]Raju S,Pingali P,Varma V.An unsupervised approach to product attribute extraction[M].Advances in Information Retrieval.Springer,2009:796-800.

      [7]Long C,Zhang J,Zhut X.A review selection approach for accurate feature rating estimation[C].Proceedings of the Proceedings of the 23rd International Conference on Computational Linguistics:Posters,Association for Computational Linguistics,2010:766-774.

      [8]郝博一,夏云慶,鄭方.OPINAX:一個有效的產(chǎn)品屬性挖掘系統(tǒng)[C].Proceedings of the 第四屆全國信息檢索與內(nèi)容安全學(xué)術(shù)會議論文集(上卷),2008.

      [9]Liu B.Sentiment analysis and opinion mining[J].Synthesis Lectures on Human Language Technologies,2012,5(1):1-167.

      [10]Liu B,Hu M,Cheng J.Opinion observer:analyzing and comparing opinions on the web[C].Proceedings of the Proceedings of the 14th international conference on World Wide Web,ACM,2005:342-351.

      [11]Baccianella S,Esuli A,Sebastiani F.Multi-facet rating of product reviews[M].Advances in Information Retrieval.Springer,2009:461-472.

      [12]Stone P J,Dunphy D C,Smith M S.The General Inquirer:A Computer Approach to Content Analysis[J].1966.

      [13]Jiang P,Zhang C,F(xiàn)u H,et al.An approach based on tree kernels for opinion mining of online product reviews[C].Proceedings of the Data Mining(ICDM),2010 IEEE 10th International Conference on,IEEE,2010:256-265.

      [14]Zhuang L,Jing F,Zhu X-Y.Movie review mining and summarization[C].Proceedings of the Proceedings of the 15th ACM international conference on Information and knowledge management,ACM,2006:43-50.

      [15]Du W,Tan S.An iterative reinforcement approach for fine-grained opinion mining[C].Proceedings of the Proceedings of Human Language Technologies:The 2009 Annual Conference of the North American Chapter of the Association for Computational Linguistics,Association for Computational Linguistics,2009:486-493.

      [16]Hai Z,Chang K,Kim J-j.Implicit feature identification via co-occurrence association rule mining[M].Computational Linguistics and Intelligent Text Processing.Springer,2011:393-404.

      [17]Qiu G,Liu B,Bu J,et al.Opinion word expansion and target extraction through double propagation[J].Computational Linguistics,2011,37(1):9-27.

      [18]Shi B,Chang K.Mining chinese reviews[C].Proceedings of the Data Mining Workshops,2006 ICDM Workshops 2006 Sixth IEEE International Conference on,IEEE,2006:585-589.

      [19]Li Z,Zhang M,Ma S,et al.Automatic extraction for product feature words from comments on the web[M].Information Retrieval Technology.Springer,2009:112-123.

      [20]Yu J,Zha Z-J,Wang M,et al.Domain-assisted product aspect hierarchy generation:towards hierarchical organization of unstructured consumer reviews[C].Proceedings of the Proceedings of the Conference on Empirical Methods in Natural Language Processing,Association for Computational Linguistics,2011:140-150.

      [21]Eddy S R.Hidden markov models[J].Current opinion in structural biology,1996,6(3):361-365.

      [22]Lafferty J,McCallum A,Pereira F C.Conditional random fields:Probabilistic models for segmenting and labeling sequence data[J].2001.

      [23]Wong T-L,Bing L,Lam W.Normalizing web product attributes and discovering domain ontology with minimal effort[C].Proceedings of the Proceedings of the fourth ACM international conference on Web search and data mining,ACM,2011:805-814.

      [24]Jin W,Ho H H,Srihari R K.OpinionMiner:a novel machine learning system for web opinion mining and extraction[C].Proceedings of the Proceedings of the 15th ACM SIGKDD international conference on Knowledge discovery and data mining,ACM,2009:1195-1204.

      [25]Li F,Han C,Huang M,et al.Structure-aware review mining and summarization[C].Proceedings of the Proceedings of the 23rd International Conference on Computational Linguistics,Association for Computational Linguistics,2010:653-661.

      [26]Choi Y,Cardie C.Hierarchical sequential learning for extracting opinions and their attributes[C].Proceedings of the Proceedings of the ACL 2010 Conference Short Papers,Association for Computational Linguistics,2010:269-274.

      [27]宋曉雷,王素格,李紅霞.面向特定領(lǐng)域的產(chǎn)品評價對象自動識別研究[J].中文信息學(xué)報,2010,24(1):89-93.

      [28]姚天,聶青陽,李建超,等.一個用于漢語汽車評論的意見挖掘系統(tǒng)[C].Proceedings of the 中文信息處理前沿進(jìn)展-中國中文信息學(xué)會二十五周年學(xué)術(shù)會議論文集,北京:清華大學(xué)出版社,2006:260-281.

      [29]Liu J,Wu G,Yao J.Opinion searching in multi-product reviews[C].Proceedings of the Computer and Information Technology,2006 CIT06 The Sixth IEEE International Conference on,IEEE,2006:25-25.

      [30]Hofmann T.Probabilistic latent semantic indexing[C].Proceedings of the Proceedings of the 22nd annual international ACM SIGIR conference on Research and development in information retrieval,ACM,1999:50-57.

      [31]Blei D M,Ng A Y,Jordan M I.Latent dirichlet allocation[J].the Journal of machine Learning research,2003,(3):993-1022.

      [32]Mei Q,Ling X,Wondra M,et al.Topic sentiment mixture:modeling facets and opinions in weblogs[C].Proceedings of the Proceedings of the 16th international conference on World Wide Web,ACM,2007:171-180.

      [33]Mei I-H,Mi H,Quiaot J.Sentiment Mining and Indexing in Opinmind[C].Proceedings of the ICWSM,Citeseer,2007.

      [34]Titov I,McDonald R.A joint model of text and aspect ratings for sentiment summarization[J].Urbana,2008,51(61801.

      [35]Zhao W X,Jiang J,Yan H,et al.Jointly modeling aspects and opinions with a MaxEnt-LDA hybrid[C].Proceedings of the Proceedings of the 2010 Conference on Empirical Methods in Natural Language Processing,Association for Computational Linguistics,2010:56-65.

      [36]Sauper C,Haghighi A,Barzilay R.Content models with attitude[C].Proceedings of the,Association for Computational Linguistics,2011.

      [37]Griffiths T L,Steyvers M,Blei D M,et al.Integrating topics and syntax[C].Proceedings of the Advances in neural information processing systems,2004:537-544.

      [38]Liu J,Cao Y,Lin C-Y,et al.Low-Quality Product Review Detection in Opinion Summarization[C].Proceedings of the EMNLP-CoNLL,2007:334-342.

      [39]Lu Y,Zhai C.Opinion integration through semi-supervised topic modeling[C].Proceedings of the Proceedings of the 17th international conference on World Wide Web,ACM,2008:121-130.

      [40]Brody S,Elhadad N.An unsupervised aspect-sentiment model for online reviews[C].Proceedings of the Human Language Technologies:The 2010 Annual Conference of the North American Chapter of the Association for Computational Linguistics,Association for Computational Linguistics,2010:804-812.

      [41]Lin C,He Y.Joint sentiment/topic model for sentiment analysis[C].Proceedings of the Proceedings of the 18th ACM conference on Information and knowledge management,ACM,2009:375-384.

      [42]Jo Y,Oh A H.Aspect and sentiment unification model for online review analysis[C].Proceedings of the Proceedings of the fourth ACM international conference on Web search and data mining,ACM,2011:815-824.

      [43]Mukherjee A,Liu B.Aspect extraction through semi-supervised modeling[C].Proceedings of the Proceedings of the 50th Annual Meeting of the Association for Computational Linguistics:Long Papers-Volume 1,Association for Computational Linguistics,2012:339-348.

      [44]Su Q,Xu X,Guo H,et al.Hidden sentiment association in chinese web opinion mining[C].Proceedings of the Proceedings of the 17th international conference on World Wide Web,ACM,2008:959-968.

      [45]Yan Z,Xing M,Zhang D,et al.EXPRS:An extended pagerank method for product feature extraction from online consumer reviews[J].Information & Management,2015,52(7):850-858.

      [46]Tuarob S,Tucker C S.A product feature inference model for mining implicit customer preferences within large scale social media networks[C].Proceedings of the ASME 2015 International Design Engineering Technical Conferences and Computers and Information in Engineering Conference,American Society of Mechanical Engineers,2015:V01BT02A002-V001BT002A002.

      [47]Mikolov T,Chen K,Corrado G,et al.Efficient Estimation of Word Representations in Vector Space[J/OL].2013:1301-3781.http:∥adsabs.harvard.edu/abs/2013arXiv1301.3781M.

      (本文責(zé)任編輯:郭沫含)

      猜你喜歡
      在線評論文本分析
      在線評論情感屬性的動態(tài)變化
      投資者情緒短期對股票市場的影響研究
      文本情感計(jì)算系統(tǒng)“小菲”的設(shè)計(jì)及其在教育領(lǐng)域文本分析中的應(yīng)用
      初中英語聽說課教學(xué)實(shí)踐探索
      《化學(xué):概念與應(yīng)用》專題作業(yè)設(shè)計(jì)分析及啟示
      消費(fèi)者個體行為偏好對在線評論真實(shí)性的影響機(jī)理研究
      沁水县| 新疆| 安岳县| 临泽县| 龙井市| 永登县| 峡江县| 万源市| 明星| 大名县| 五河县| 固始县| 镇坪县| 天气| 崇文区| 调兵山市| 安达市| 三明市| 安福县| 乡宁县| 卓资县| 霍州市| 桃园市| 永靖县| 华坪县| 普兰县| 阿坝县| 浦北县| 许昌县| 兰溪市| 讷河市| 如皋市| 密云县| 威远县| 长乐市| 深泽县| 崇州市| 东宁县| 宁陕县| 河间市| 东莞市|