• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      產(chǎn)品意見挖掘研究進(jìn)展

      2014-08-08 12:12李光敏張磊趙登科
      現(xiàn)代情報 2014年3期

      李光敏+張磊+趙登科

      基金項目:本文系湖北省教育廳青年科學(xué)技術(shù)研究項目“非結(jié)構(gòu)化文本評論的情感分析模型構(gòu)建研究”(項目編號:Q20132503)的研究成果之一。

      作者簡介:李光敏(1979-),男,講師,碩士研究生,研究方向:文本挖掘,情感計算?!だ碚撎剿鳌?/p>

      〔摘要〕隨著Web20技術(shù)和電子商務(wù)的飛速發(fā)展,越來越多的用戶參與到互聯(lián)網(wǎng),分享產(chǎn)品的使用體驗和表達(dá)喜惡的觀點(diǎn),如何從評論文本中分析挖掘出互聯(lián)網(wǎng)用戶對產(chǎn)品的意見觀點(diǎn)是消費(fèi)者和生產(chǎn)商所迫切需要解決的問題。本文首先分析產(chǎn)品意見挖掘的必要性,然后從產(chǎn)品特征識別、產(chǎn)品評論主客觀分類、情感極性分類等方面介紹了國內(nèi)外的研究進(jìn)展及所采用的技術(shù),最后指出產(chǎn)品意見挖掘面臨的不足和今后的研究方向。

      〔關(guān)鍵詞〕意見挖掘;意見識別;特征識別;情感極性分類

      DOI:10.3969/j.issn.1008-0821.2014.03.008

      〔中圖分類號〕F71336〔文獻(xiàn)標(biāo)識碼〕A〔文章編號〕1008-0821(2014)03-0032-04

      Research Progress in Product Opinion MiningLi Guangmin1Zhang Lei2Zhao Dengke3

      (1.College of Computer Science and Technology,Hubei Normal University,Huangshi 435000,China;

      2.Institute of Data and Knowledge Engineering,Henan University,Kaifeng 475004,China;

      3.Department of Computer,Zhengzhou Vocational College of Economics and Trade,Zhengzhou 450000,China)

      〔Abstract〕With the rapid evolution of Web20 technology and electronic commerce,more and more customers participate in the Internet,share product experience and express likes or dislikes about product.Firstly,this paper presented the necessity of opinion mining on the growing social media and electronic commerce business.Then it introduced the research progress both at home and abroad of the opinion mining on product from the prospect of product feature-based identification,product review subjectivity analysis and sentiment polarity classification.Finally,it summarized the challenge of opinion mining on product and research interests about it.

      〔Keywords〕opinion mining;opinion identification;feature identification;polarity classification

      隨著Web20技術(shù)的蓬勃發(fā)展,互聯(lián)網(wǎng)用戶完成由被動接受信息到主動參與創(chuàng)造信息的角色轉(zhuǎn)換,同時電子商務(wù)的飛速發(fā)展也使用戶創(chuàng)造的內(nèi)容中包含更多的產(chǎn)品使用體驗和評論,形成所謂的電子口碑(Electronic Word-of-Mouth,eWOM),越來越多的數(shù)據(jù)表明,電子口碑正影響著人們的消費(fèi)方式和購買意向。針對日益增長的非結(jié)構(gòu)化產(chǎn)品意見文本評論,如果采用人工方式對這些海量信息進(jìn)行收集、分析和歸納,顯然是不現(xiàn)實的。因此結(jié)合信息檢索、自然語言處理、機(jī)器學(xué)習(xí)等領(lǐng)域知識對非結(jié)構(gòu)化的文本評論進(jìn)行提取和分類的產(chǎn)品意見挖掘(Opinion Mining)技術(shù)受到國內(nèi)外學(xué)者的廣泛關(guān)注。

      意見挖掘(又稱情感分析)在產(chǎn)品評論方面的研究意義主要體現(xiàn)在兩個方面,一方面幫助商家改進(jìn)產(chǎn)品質(zhì)量提高企業(yè)競爭力,同時獲取競爭情報,進(jìn)行產(chǎn)品或服務(wù)方面的差異化競爭,這對產(chǎn)品品牌影響力和客戶關(guān)系管理有著重要的作用;另一方面幫助潛在消費(fèi)者了解產(chǎn)品的優(yōu)勢和不足,結(jié)合個人實際需要,迅速做出購買決定,節(jié)約決策時間。一般來說,產(chǎn)品意見挖掘主要包括產(chǎn)品特征識別、與特征相關(guān)的意見識別、意見極性及強(qiáng)度判斷和用戶觀點(diǎn)匯總顯示4個子任務(wù)[1]。因此本文主要從產(chǎn)品特征識別、產(chǎn)品評論的主客觀分析、情感極性分類3個方面介紹國內(nèi)外相關(guān)的研究技術(shù)與進(jìn)展。

      1產(chǎn)品特征識別

      產(chǎn)品特征描述產(chǎn)品的各個方面,Popescu[1]等人認(rèn)為產(chǎn)品特征可細(xì)分為5個類別,其中包括產(chǎn)品的屬性、部件、部件特征、產(chǎn)品的相關(guān)概念和概念特征。如:“手機(jī)的攝像頭的分辨率較高,所以拍出來的照片清晰度還可以接受?!敝械臄z像頭分辨率和照片清晰度表示手機(jī)相關(guān)概念的特征。產(chǎn)品特征識別屬于意見挖掘中詞和短語級的特征抽取任務(wù),主要分為基于特征知識的人工定義和機(jī)器學(xué)習(xí)的自動識別兩種方法。

      11基于產(chǎn)品特征知識的抽取

      目前主要有兩種研究思路:一種是根據(jù)名稱或名詞短語出現(xiàn)頻率來確定產(chǎn)品特征;另一種思路是通過監(jiān)督或無監(jiān)督的機(jī)器學(xué)習(xí)方法進(jìn)行抽取。

      111根據(jù)名稱或名詞短語出現(xiàn)頻率

      Hu[2]首先識別出句子中的名詞和名詞短語,然后使用Apriori關(guān)聯(lián)規(guī)則挖掘出的頻繁項作為產(chǎn)品特征候選集,最后通過冗余修剪(Redundancy Pruning)去掉包含在其他候選特征中的冗余特征。隨后Popescu[1]基于如下假設(shè):共現(xiàn)的次數(shù)越多的兩個詞,則它們之間的聯(lián)系也越大,提出的點(diǎn)互信息(Point-wise Mutual Information,PMI)方法提高了22%的準(zhǔn)確率但是召回率降低了3%。姚天窻[3]等人利用本體知識建立汽車領(lǐng)域的產(chǎn)品特征集。Raju[4]等人同樣在實驗中排除所有那些相比在產(chǎn)品描述中更為頻繁出現(xiàn)在一般性英文中的名詞短語,然后將剩下的描述產(chǎn)品同一特征的名詞短語進(jìn)行聚類,該模型通過雙連詞重疊(Bigram Overlap)值來衡量名詞短語間的相似性,最后只保留至少含3個名詞短語的聚類簇。

      112通過機(jī)器學(xué)習(xí)方法抽取

      基于監(jiān)督的方法,Blair-Goldensohn[5]實現(xiàn)的最大熵模型在產(chǎn)品特征抽取實驗中達(dá)到較好的召回率和準(zhǔn)確率。Kobayashi[6]采用三元組〈Attribute,Subject,Value〉表示游戲和汽車領(lǐng)域的產(chǎn)品特征,手工建立特征種子集、意見種子集和二者共現(xiàn)模式集來抽取特征和意見。Jin[7]在Opinion Miner系統(tǒng)中通過自動學(xué)習(xí)過程中融入多種語言學(xué)特征而提出的詞匯式隱馬爾可夫模型(lexicalized HMMs)完成產(chǎn)品特征抽取,實驗結(jié)果理想。監(jiān)督方法中的人工方式標(biāo)注訓(xùn)練語料雖然精確度高,但花費(fèi)時間長且領(lǐng)域移植性不強(qiáng)。

      endprint

      基于無人監(jiān)督的方法,Tan[8]等人通過泛化軟模板和特征向量模板識別產(chǎn)品特征。徐葉強(qiáng)[9]等人對特殊詞、評價對象非完整性、評價對象非穩(wěn)定性等噪聲過濾處理,利用評價對象在評論文本中與評價短語規(guī)則出現(xiàn)頻率較高的特征,進(jìn)行置信度排序,實驗結(jié)果的準(zhǔn)確率和召回率分別達(dá)到605%和78%。無人監(jiān)督方法通常利用評論上下文的語義關(guān)系,結(jié)合特征種子集合和句法規(guī)則完成產(chǎn)品特征的識別,因此對評論文本的語法結(jié)構(gòu)和產(chǎn)品特征與意見詞之間的相對位置關(guān)系要求高。

      12基于意見和產(chǎn)品特征共現(xiàn)關(guān)系

      意見詞是指反映出消費(fèi)者對產(chǎn)品或產(chǎn)品的某一特征所持有褒貶或中立態(tài)度的詞或短語?;谖谋驹u論中意見總是伴隨著評價對象出現(xiàn)的前提考慮,所以利用意見和產(chǎn)品特征共現(xiàn)關(guān)系,由已知的意見詞來抽取產(chǎn)品特征。Zhuang[10]利用這種共現(xiàn)關(guān)系通過依存語法圖(Dependency Grammar Graph)完成電影評論的意見挖掘和匯總。Qiu[11-12]將Zhuang所提出的依賴關(guān)系泛化成雙傳播(Double Propagation)的方法,利用情感詞和評價對象之間的句法關(guān)系,結(jié)合少量情感種子詞同時抽取意見詞和產(chǎn)品特征詞,通過對數(shù)碼相機(jī)、DVD播放器、MP3播放器和手機(jī)4個領(lǐng)域的訓(xùn)練集實驗證明F度量值達(dá)到86%。Zhao[13]提出的基于模板庫抽取產(chǎn)品特征地同時也完成意見詞的抽取,并且該方法領(lǐng)域適應(yīng)性。Wu[14]采用短語依存句法分析器來抽取名詞短語和動詞短語來作為產(chǎn)品特征候選詞,這種方法克服了常規(guī)的依存句法分析器只能抽取單個詞作為產(chǎn)品特征詞的缺陷,更適合產(chǎn)品評論領(lǐng)域的特征抽取。

      2產(chǎn)品評論的主客觀分類

      Pang[15-16]等人認(rèn)為評論文本中夾雜少量客觀信息會干擾意見挖掘的準(zhǔn)確率,因此對Web文本進(jìn)行意見挖掘之前進(jìn)行主客觀分析是十分必要的工作。產(chǎn)品評論的主客觀分析主要就是對評論文本進(jìn)行主客觀性分類,即把表達(dá)意見情感的主觀性文本從描述事實的客觀性文本中分離出來,完成產(chǎn)品評論意見抽取的任務(wù)。

      國外方面, Wiebe[17]等人較早將一些詞(形容詞、副詞、代詞、情態(tài)動詞和基數(shù)詞)、標(biāo)點(diǎn)和句子位置作為特征,設(shè)計了樸素貝葉斯(Naive Bayes)分類器,采用10折交叉驗證的測試方法,并通過實驗證明平均分類準(zhǔn)確率達(dá)到815%。Wiebe[18]又在此基礎(chǔ)上加入詞性和基于詞典的語義詞兩類特征項,使得分類效果提升明顯。Ohana[19]使用SentiWordNet作為意見詞特征集,并利用支持向量機(jī)(Support Vector Machine)機(jī)器學(xué)習(xí)算法,完成對電影評論的意見挖掘。

      國內(nèi)方面,葉強(qiáng)[20]提出根據(jù)連續(xù)雙詞詞類組合模式(2-POS)自動判斷句子主觀性程度的方法,并在閾值設(shè)定為012時,分類查準(zhǔn)率和查全率均達(dá)到了76%,接近英文同類研究。許鑫[21]等人提出基于詞性的N-Gram模型,先將評論文本中的詞語按語法功能進(jìn)行詞性標(biāo)注,再用文本中連續(xù)出現(xiàn)的N個詞性的順序進(jìn)行組合,最后比對文中規(guī)定的5種主觀提取模式完成當(dāng)當(dāng)網(wǎng)中前20本書籍的27 401條評論文本的主客觀分類。

      3情感極性分類

      相對于篇章級、句子級的意見挖掘來說,產(chǎn)品評論挖掘需要抽取用戶對產(chǎn)品中某一部件或?qū)傩裕ㄈ缡謾C(jī)的分辨率、待機(jī)時間等)的看法,因此更多情況下針對短語級、特征級的文本進(jìn)行產(chǎn)品意見挖掘更有意義,通常有兩種主要的分類方式:基于人工建立詞典方式和機(jī)器學(xué)習(xí)方式。

      31基于人工建立詞典方式

      婁德成[22]等人使用HowNet中6 564個詞條和2 454篇汽車評論文本分詞后得到的1 405個極性詞建立情感詞典。Hu[23]通過使用已標(biāo)注極性的形容詞,結(jié)合WordNet中詞間的同義、近義關(guān)系來判斷新詞的情感極性的方法來判斷主觀性文本的情感極性。采用手工建立情感極性詞典的方法耗時費(fèi)力,尤其社會化媒體中不斷涌現(xiàn)的表現(xiàn)情感極性的網(wǎng)絡(luò)新詞更增加了情感詞典維護(hù)的工作量,因此采用機(jī)器學(xué)習(xí)算法的方式更適合產(chǎn)品意見挖掘方面的極性詞發(fā)現(xiàn)。

      32基于機(jī)器學(xué)習(xí)方式

      Wei[24]提出的利用情感本體樹的層狀分類模型,但無法判斷情感表達(dá)范圍。Jiang采用依存句法分析來產(chǎn)生一組依賴屬性的特征項是目前最主要的監(jiān)督學(xué)習(xí)方式。Boyi[25]通過解析樹中基于情感詞與產(chǎn)品特征的相對位置進(jìn)行加權(quán)的計算方式來完成極性分類。Li[26]合并兩種條件隨機(jī)場變體(Skip-CRF和Tree-CRF)進(jìn)行主題和極性分類。張清亮[27]等人從詞頻、詞的領(lǐng)域性情感傾向和詞的情感強(qiáng)度3個方面利用PMI-IR算法進(jìn)行基準(zhǔn)詞提取后,再通過計算目標(biāo)詞與基準(zhǔn)詞集間的語義相似度識別出情感詞,實驗結(jié)果中,情感極性判斷的準(zhǔn)確率達(dá)到627%。

      監(jiān)督學(xué)習(xí)算法通常依賴訓(xùn)練數(shù)據(jù),通過指定領(lǐng)域的標(biāo)注數(shù)據(jù)訓(xùn)練好的分類器未必適合其他領(lǐng)域,盡管有學(xué)者提出領(lǐng)域適應(yīng)性的想法,但目前由于句子級情感特征的稀疏性導(dǎo)致該技術(shù)在產(chǎn)品評論方面應(yīng)用還不成熟。

      4結(jié)語

      產(chǎn)品意見挖掘是一項新興、跨學(xué)科的前沿性研究任務(wù),無論對于個人還是機(jī)構(gòu)來說,它在情報分析、決策規(guī)劃等方面發(fā)揮著巨大的作用。本文從產(chǎn)品特征識別、評論意見抽取和情感極性分類等方面進(jìn)行了詳細(xì)介紹,并認(rèn)為產(chǎn)品意見挖掘以下的方向需要深入研究:

      (1)社會化媒體的興起,導(dǎo)致用戶用不同的詞或短語表示同一個產(chǎn)品特征(如“分量”和“份量”表達(dá)同一概念),關(guān)于同義產(chǎn)品特征詞的分組與聚類的研究,目前還不多。

      (2)獲取高質(zhì)量的產(chǎn)品評論語料,對于微博中重復(fù)轉(zhuǎn)發(fā)的內(nèi)容、廣告信息、話題標(biāo)簽、@用戶名和URL等,需要前期大量的文本預(yù)處理工作以提高挖掘準(zhǔn)確率。

      參考文獻(xiàn)

      [1]Popescu A-M,Etzioni O.Extracting product features and opinions from reviews[M].Natural language processing and text mining.Springer,2007:9-28.

      [2]Hu M,Liu B.Mining opinion features in customer reviews[C].AAAI,2004:755-760.

      [3]姚天,聶青陽,李建超,等.一個用于漢語汽車評論的意見挖掘系統(tǒng)[C].中文信息處理前沿進(jìn)展——中國中文信息學(xué)會二十五周年學(xué)術(shù)會議論文集.北京:清華大學(xué)出版社,2006:260-281.

      [4]Raju S,Pingali P,Varma V.An unsupervised approach to product attribute extraction[M].Advances in Information Retrieval.Springer,2009:796-800.

      [5]Blair-Goldensohn S,Hannan K,McDonald R,Neylon T,Reis G A,Reynar J.Building a sentiment summarizer for local service reviews[C].WWW Workshop on NLP in the Information Explosion Era,2008.

      [6]Kobayashi N,Inui K,Matsumoto Y,Tateishi K,Fukushima T.Collecting evaluative expressions for opinion extraction[M].Natural Language Processing-IJCNLP 2004.Springer,2005:596-605.

      endprint

      [7]Jin W,Ho H H,Srihari R K.OpinionMiner:a novel machine learning system for web opinion mining and extraction[C].Proceedings of the 15th ACM SIGKDD international conference on Knowledge discovery and data mining,ACM,2009:1195-1204.

      [8]Hongye T,Tiejun Z,Jianmin Y.A study on pattern generalization in extended NER[J].CHINESE JOURNAL OF ELECTRONICS,2007,16(4):675-678.

      [9]徐葉強(qiáng),朱艷輝,王文華,等.中文產(chǎn)品評論中評價對象的識別研究[J].Computer Engineering,2012,38(20)

      [10]Zhuang L,Jing F,Zhu X-Y.Movie review mining and summarization[C].Proceedings of the 15th ACM international conference on Information and knowledge management,ACM,2006:43-50.

      [11]Qiu G,Liu B,Bu J,Chen C.Expanding Domain Sentiment Lexicon through Double Propagation[C].IJCAI,2009:1199-1204.

      [12]Qiu G,Liu B,Bu J,Chen C.Opinion word expansion and target extraction through double propagation[J].Computational Linguistics,2011,37(1):9-27.

      [13]Zhao W,Zhou Y.A template-based approach to extract product features and sentiment words[C].Natural Language Processing and Knowledge Engineering,2009 NLP-KE 2009 International Conference on,IEEE,2009:1-5.

      [14]Wu Q,Tan S,Cheng X.Graph ranking for sentiment transfer[C].Proceedings of the ACL-IJCNLP 2009 Conference Short Papers,Association for Computational Linguistics,2009:317-320.

      [15]Riloff E,Wiebe J.Learning extraction patterns for subjective expressions[C].Proceedings of the 2003 conference on Empirical methods in natural language processing,Association for Computational Linguistics,2003:105-112.

      [16]Pang B,Lee L.A sentimental education:Sentiment analysis using subjectivity summarization based on minimum cuts[C].Proceedings of the 42nd annual meeting on Association for Computational Linguistics,Association for Computational Linguistics,2004:271.

      [17]Wiebe J M,Bruce R F,OHara T P.Development and use of a gold-standard data set for subjectivity classifications[C].Proceedings of the 37th annual meeting of the Association for Computational Linguistics on Computational Linguistics,Association for Computational Linguistics,1999:246-253.

      [18]Wiebe J.Learning subjective adjectives from corpora[C].AAAI/IAAI,2000:735-740.

      [19]Ohana B,Tierney B.Sentiment classification of reviews using SentiWordNet[C].9th IT & T Conference,2009:13.

      [20]葉強(qiáng),張紫瓊,羅振雄.面向互聯(lián)網(wǎng)評論情感分析的中文主觀性自動判別方法研究[J].信息系統(tǒng)學(xué)報,2007.

      [21]許鑫,俞飛,張莉.一種文本傾向性分析方法及其應(yīng)用[J].現(xiàn)代圖書情報技術(shù),2011,(10):54-62.

      [22]婁德成,姚天.漢語句子語義極性分析和觀點(diǎn)抽取方法的研究[J].計算機(jī)應(yīng)用,2006,26(11):2622-2625.

      [23]Hu M,Liu B.Mining and summarizing customer reviews[C].Proceedings of the tenth ACM SIGKDD international conference on Knowledge discovery and data mining,ACM,2004:168-177.

      [24]Wei W,Gulla J A.Sentiment learning on product reviews via sentiment ontology tree[C].Proceedings of the 48th Annual Meeting of the Association for Computational Linguistics,Association for Computational Linguistics,2010:404-413.

      [25]Boiy E,Moens M-F.A machine learning approach to sentiment analysis in multilingual Web texts[J].Information Retrieval,2009,12(5):526-558.

      [26]Li F,Huang M,Zhu X.Sentiment Analysis with Global Topics and Local Dependency[C].AAAI,2010.

      [27]張清亮,徐健.網(wǎng)絡(luò)情感詞自動識別方法研究[J].現(xiàn)代圖書情報技術(shù),2011,(10):24-28.

      (本文責(zé)任編輯:孫國雷)

      endprint

      阜南县| 当雄县| 霍山县| 临泽县| 肥东县| 富平县| 吕梁市| 沙坪坝区| 即墨市| 垫江县| 鹿邑县| 长武县| 吉首市| 磴口县| 濮阳县| 高碑店市| 高州市| 桐梓县| 武隆县| 托克托县| 佛山市| 余江县| 天镇县| 西充县| 于都县| 昌江| 阿尔山市| 嘉祥县| 长寿区| 永丰县| 贵德县| 南和县| 安阳县| 义乌市| 苍溪县| 三亚市| 滨州市| 溧水县| 当阳市| 阳西县| 蒙阴县|