• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      文本觀點(diǎn)挖掘和情感分析的研究

      2016-04-14 13:51:02涂慧明
      電腦知識與技術(shù) 2016年5期
      關(guān)鍵詞:文本挖掘情感分析

      涂慧明

      摘要:觀點(diǎn)挖掘和情感分析是分析用戶觀點(diǎn),反饋,情感,評估,態(tài)度和個(gè)人情感的一個(gè)研究領(lǐng)域。這是自然語言處理中最活躍的一個(gè)研究領(lǐng)域,在數(shù)據(jù)挖掘,Web挖掘和文本挖掘領(lǐng)域中同樣也被廣泛研究。隨著社交媒體、Web2.0技術(shù)(如新聞、論壇、博客、微博和社交網(wǎng)絡(luò))的發(fā)展,情感分析的重要性相應(yīng)增長。首次在人類歷史上,我們有了大量的數(shù)字形式的觀點(diǎn)意見需要進(jìn)行分析。在本文中,我們對文本觀點(diǎn)挖掘、情感分析以及相關(guān)技術(shù)進(jìn)行了研究。

      關(guān)鍵詞:觀點(diǎn)抽取;觀點(diǎn)挖掘;情感分析;文本挖掘

      中圖分類號:TP311 文獻(xiàn)標(biāo)識碼:A 文章編號:1009-3044(2016)05-0235-03

      Abstract: Opinion mining and sentiment analysis is the field to analyzes the user point of view, feedback, emotion, sentiment, evaluations, attitudes, and emotions. This is one of the most active research areas in Natural Language Processing. Data mining, web mining and text mining have also been widely studied. With the development of social media, Web2.0 Technology (such as news, forum, blog, micro-blog and social network), the importance of sentiment analysis growth. For the first time in human history, we have to analyze a large number of opinions in digital form. In this paper, we research on text opinion mining, sentiment analysis and related technology.

      Key words: Opinion extraction; Opinion mining;Sentiment analysis;Text mining

      1 概述

      在過去的十五年里,作為情感計(jì)算和自然語言處理(NLP)的子任務(wù),關(guān)于主觀性和情感分析(SSA)的自動(dòng)化處理研究已經(jīng)有了蓬勃的發(fā)展。社交網(wǎng)絡(luò)的誕生并飛速發(fā)展使得在世界各地的人們可以隨時(shí)分享、評論或討論任何話題成為了可能。在這種情況下,社會(huì)媒體文本中表達(dá)的意見、情緒和情感已被證明是有一個(gè)對全球社會(huì)和經(jīng)濟(jì)具有較高影響力的行為。SSA系統(tǒng)對許多現(xiàn)實(shí)世界的應(yīng)用高度相關(guān)(如市場營銷,電子管理,商業(yè)智能,社會(huì)分析),并在自然語言處理(NLP)的許多領(lǐng)域,例如信息抽取、問答、文本含義等。近十年來,已經(jīng)有大量的相關(guān)研究方法和成果,以及由這項(xiàng)技術(shù)創(chuàng)建的應(yīng)用,這些都足以證明這一領(lǐng)域的重要性。盡管已經(jīng)有大量的資源和方法去處理情感分析[1],但SSA依然是一個(gè)亟待解決的問題。

      2 情感分析研究的難點(diǎn)

      情感分析文本可以看作是積極的,消極的或者其他客觀的分類,因此它能夠作為文本分類任務(wù)。由于文本有很多不同主題,因此它也可以被分為多種種類,但是情感分析只有三種分類。然而,有很多因素使得情感分析比傳統(tǒng)的文本分類要難的多。

      1)域依賴:觀點(diǎn)挖掘和情感分析[2]面臨的最大的挑戰(zhàn)是情感詞的從屬域的性質(zhì)。一個(gè)特征集可能在一個(gè)領(lǐng)域會(huì)有很好的性能,同時(shí)它在其他一些領(lǐng)域性能又非常差。

      2)限制分類過濾:在決定最受歡迎的想法或概念時(shí),分類過濾中有一個(gè)限制。為了得到更好的情感分類結(jié)果這個(gè)限制應(yīng)該減少。這存在過濾器給無關(guān)的意見的風(fēng)險(xiǎn)并且它能夠?qū)е虑楦蟹诸惖呐袛噱e(cuò)誤。

      3)觀點(diǎn)挖掘軟件可用性不對稱:觀點(diǎn)挖掘軟件非常昂貴,并且當(dāng)前只有大型企業(yè)和政府能夠負(fù)擔(dān)得起。它超出了普遍公民的預(yù)期,這本應(yīng)該是所有小到中型企業(yè)都可以承受的價(jià)格,這樣才能讓每個(gè)人都能從中受益。

      4)合并隱式觀點(diǎn)和行為數(shù)據(jù):對于成功的情感分析,觀點(diǎn)詞應(yīng)該和隱式數(shù)據(jù)結(jié)合。隱式數(shù)據(jù)決定情感詞的真實(shí)行為。

      5)自然語言處理限制:自然語言處理技術(shù)在處理一些模棱兩可的句子時(shí)結(jié)果往往不準(zhǔn)確。這些也給情感分析造成阻礙。

      3 情感分析技術(shù)研究

      3.1 文章級別的情感分類

      這種方法將整個(gè)文檔作為一個(gè)單一的實(shí)體,將情感分為積極或消極的或中性的。文章級別的情感分類[3]假定文章對單一目標(biāo)表達(dá)一個(gè)單一的情感,這個(gè)情感歸屬于某個(gè)人或某個(gè)產(chǎn)品或某個(gè)服務(wù)。很顯然,這種假設(shè)在一個(gè)產(chǎn)品說明文檔中才成立。但是在論壇或者博客等中,對比的語句就會(huì)出現(xiàn),評論者對比兩個(gè)產(chǎn)品有類似的特征。因此,文章級別的情感分析在論壇和博客中是不可取的。

      文章級別的情感分類主要有兩種分類技術(shù):有監(jiān)督學(xué)習(xí)和無監(jiān)督學(xué)習(xí)。

      3.1.1 有監(jiān)督學(xué)習(xí)方法

      情感分類作業(yè)可以被配置為有兩個(gè)類別的有監(jiān)督學(xué)習(xí),積極的類別和消極的類別。產(chǎn)品評論大多被用作訓(xùn)練和測試數(shù)據(jù)。分別對每一條評論進(jìn)行1至5分的評分,評分決定了他們是積極的類別還是消極的類別。例如,4分或者5分的評價(jià)就認(rèn)定為一個(gè)積極的評價(jià),1分或2分就認(rèn)定為一個(gè)消極的評價(jià)。大多數(shù)研究論文為了簡便沒有使用中性分類,我們把3分的評價(jià)認(rèn)定為一個(gè)中性的評價(jià)。

      現(xiàn)有的一些有監(jiān)督學(xué)習(xí)技術(shù)都可以用于情感分類,例如樸素貝葉斯和支持向量機(jī)(SVM)。在大多數(shù)情況下,支持向量機(jī)比樸素貝葉斯分類器有更好的邊際改善。當(dāng)訓(xùn)練數(shù)據(jù)集很小,樸素貝葉斯分類可能更合適,因?yàn)橹С窒蛄繖C(jī)需要大量的數(shù)據(jù)集才能建立高可靠的分類器。研究人員在機(jī)器學(xué)習(xí)中使用了許多技術(shù)和特征,在情感分類中最重要的步驟是選擇一個(gè)適當(dāng)?shù)奶卣骷?,情感分類中最常用的特征有?

      1)術(shù)語及其頻率:單個(gè)的詞被稱為一元模型以及包含相應(yīng)詞頻的多元模型。這些特征已經(jīng)被證明對情感分類非常有效。

      2)詞性(POS):POS信息是情緒表達(dá)的一個(gè)非常重要的指標(biāo)。例如形容詞包含大量關(guān)于文章情感的信息。

      3)情感詞和短語:情感詞和短語表達(dá)積極或消極的情感。例如優(yōu)秀的、聰明的、出色的是積極情感詞匯,糟糕的、枯燥的、不好的是消極情感詞匯。雖然大多數(shù)情感詞匯都是形容詞或副詞,但名詞和動(dòng)詞同樣也可以表達(dá)觀點(diǎn)。例如在一些文章中垃圾、喜歡、討厭等都可以表達(dá)觀點(diǎn)。

      4)否定詞:顯然,否定詞是評價(jià)一個(gè)句子的極性非常重要,因?yàn)樗麄兛梢愿淖兦楦袃A向。例如,“我不喜歡這輛車”就有消極的意思。

      在此方法研究中,本文使用了三種機(jī)器學(xué)習(xí)技術(shù),樸素貝葉斯、最大熵分類和SVM技術(shù)對影評文章進(jìn)行分類。測試了多種特征(一元模型、二元模型、POS、詞語的位置)去尋找最優(yōu)特征集。結(jié)果表明,在SVM分類器中使用一元模型性能達(dá)到最佳。

      有監(jiān)督學(xué)習(xí)最大的限制在于訓(xùn)練數(shù)據(jù)的質(zhì)量和數(shù)量,當(dāng)訓(xùn)練數(shù)據(jù)存在偏頗或不充分結(jié)果可能會(huì)失敗?;谟斜O(jiān)督學(xué)習(xí)的子文檔的情感分類難度更大,因?yàn)榭捎玫男畔⒘勘容^少。

      3.1.2 無監(jiān)督學(xué)習(xí)方法

      顯然,情感詞和短語是情感分類的主要指標(biāo)。一些研究已經(jīng)實(shí)現(xiàn)了利用這些情感詞和短語的無監(jiān)督學(xué)習(xí)方法的情感分類。文章[4]提出了一個(gè)簡單無監(jiān)督學(xué)習(xí)算法對評論進(jìn)行分類,通過計(jì)算詞語的評分來判斷詞語是積極的還是消極的以及情感強(qiáng)度。這種方法掃描整個(gè)短文匹配POS模式,計(jì)算出這些短語的情感傾向,然后統(tǒng)計(jì)所有短語從而得出整體的傾向。

      總之,文章級別的情感分類最大的好處在于提取一個(gè)主題或事件的主要觀點(diǎn)。不過,他并不能提供人們的詳細(xì)情感。

      3.2 句子級別的情感分類

      在這種方法中,每個(gè)句子的極性被確定。這種方法假設(shè)每個(gè)句子是由一個(gè)人寫的,并表示一個(gè)單一的正面或負(fù)面的情緒。這種方法主要分為兩個(gè)步驟。第一,判斷哪些句子具有主觀意見。第二,對每個(gè)句子進(jìn)行分類,判斷是積極的還是消極的。

      這種方法存在的困難在于,一些客觀語句隱含了情感,一些主題語句卻不包含情感,或者一句話包含多種情感。

      3.2.1 情感詞庫構(gòu)建

      情感詞在許多情感分類任務(wù)中使用。根據(jù)他們的傾向,情感詞通常被分為兩類,積極的和消極的。構(gòu)建情感詞庫主要有三種方法:手動(dòng)構(gòu)建、基于語料庫[5]的構(gòu)建方法和基于字典的構(gòu)建方法。手動(dòng)構(gòu)建方法難度較大,并且耗時(shí)比較長,常常與其他兩種方法結(jié)合起來使用。

      3.2.2 基于語料庫的方法

      使用一個(gè)已知極性的情感詞種子集合,利用語法模式或共生模式,以推斷一個(gè)新的更大的情感詞庫?;谡Z料庫的方法可以產(chǎn)生一個(gè)精度相對較高的語料庫。大多數(shù)這些方法需要非常大的已標(biāo)記的訓(xùn)練數(shù)據(jù),以實(shí)現(xiàn)其完整的功能。

      3.2.3 基于字典的方法

      基于字典的方法,情感詞匯建設(shè)不需要大型語料庫或搜索引擎具有特殊功能。相反,可以利用可用資源WordNet詞典。這個(gè)方法的主要策略是收集情感詞匯的初始種子集,然后在字典中尋找近義詞和反義詞來擴(kuò)展種子集,這個(gè)新的種子集再用來迭代生成新的種子集合?;谧值涞姆椒ㄖ饕秉c(diǎn)是在特殊領(lǐng)域很難找到相應(yīng)的情感詞匯,同一個(gè)情感詞在某個(gè)領(lǐng)域可能表達(dá)積極情感,在另一個(gè)領(lǐng)域則表達(dá)消極情感。

      4 情感分類評估

      準(zhǔn)確度是所有正確預(yù)測的實(shí)例和所有實(shí)例的比值,準(zhǔn)確度為100%表示全部預(yù)測正確。精度是正確預(yù)測的積極實(shí)例和所有預(yù)測的積極實(shí)例的比值。命中率是正確預(yù)測的積極實(shí)例和所有積極實(shí)例的比值。最終得分是精度和命中率的調(diào)和平均數(shù)。

      5 結(jié)語

      本文對不同級別(如文章級別、句子級別)的情感分類問題進(jìn)行了研究,并對現(xiàn)有的一些方法和技術(shù)做了分析和總結(jié)。目前一些觀點(diǎn)挖掘技術(shù)已經(jīng)被用于解決這類實(shí)際問題。例如,觀點(diǎn)挖掘能夠幫助企業(yè)了解用戶對于他們產(chǎn)品的看法。公司可以基于用戶對產(chǎn)品的反饋信息做決策。公司也能夠修改他們產(chǎn)品的特性并且根據(jù)用戶意見以更好更快的方式引出新的產(chǎn)品。公司通過更加準(zhǔn)確提供用戶想要的,而不是公司想出售的,以此提高用戶體驗(yàn)。幫助公司發(fā)現(xiàn),吸引和留住顧客,節(jié)省生產(chǎn)成本。

      在今后的工作中,更多的研究將集中在改善方法和性能指標(biāo)。

      參考文獻(xiàn):

      [1] 周立柱, 賀宇凱, 王建勇.情感分析研究綜述[J]. 計(jì)算機(jī)應(yīng)用,2008,28(11):2725-2728.

      [2] 楊卉. Web文本觀點(diǎn)挖掘及隱含情感傾向的研究[D]. 吉林大學(xué), 2011.

      [3] 張冬梅. 文本情感分類及觀點(diǎn)摘要關(guān)鍵問題研究[D]. 山東大學(xué), 2012.

      [4] P. D. Turney, "Thumbs up or thumbs down: semantic orientation applied to unsupervised classification of re-views," presented at the Proceedings of the 40th Annual Meeting on Association for Computational Linguistics, Philadelphia, Pennsylvania, 2002.

      [5] 萬源. 基于語義統(tǒng)計(jì)分析的網(wǎng)絡(luò)輿情挖掘技術(shù)研究[D]. 武漢理工大學(xué), 2012.

      猜你喜歡
      文本挖掘情感分析
      基于word2vec擴(kuò)充情感詞典的商品評論傾向分析
      基于語義的互聯(lián)網(wǎng)醫(yī)院評論文本情感分析及應(yīng)用
      基于雙向循環(huán)神經(jīng)網(wǎng)絡(luò)的評價(jià)對象抽取研究
      數(shù)據(jù)挖掘技術(shù)在電站設(shè)備故障分析中的應(yīng)用
      基于SVM的產(chǎn)品評論情感分析系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)
      基于詞典與機(jī)器學(xué)習(xí)的中文微博情感分析
      基于LDA模型的95598熱點(diǎn)業(yè)務(wù)工單挖掘分析
      在線評論情感屬性的動(dòng)態(tài)變化
      預(yù)測(2016年5期)2016-12-26 17:16:57
      文本數(shù)據(jù)挖掘在電子商務(wù)網(wǎng)站個(gè)性化推薦中的應(yīng)用
      商(2016年34期)2016-11-24 16:28:51
      從《遠(yuǎn)程教育》35年載文看遠(yuǎn)程教育研究趨勢
      景宁| 隆尧县| 宁晋县| 长沙市| 东至县| 兖州市| 花垣县| 东乡县| 蓬溪县| 公安县| 威海市| 噶尔县| 湖州市| 星座| 吉林省| 泰宁县| 枝江市| 三台县| 泾阳县| 都安| 若羌县| 南康市| 沙坪坝区| 娱乐| 昔阳县| 扎赉特旗| 铜山县| 望奎县| 衡东县| 东兴市| 陕西省| 桑日县| 肃南| 凤庆县| 府谷县| 凤台县| 嫩江县| 左云县| 安西县| 正安县| 遂川县|