• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      基于意群劃分的中文微博情感傾向分析研究

      2015-04-21 08:33:30楊小平朱建林張中夏肖文韜
      中文信息學報 2015年3期
      關鍵詞:意群傾向性語義

      桂 斌,楊小平,朱建林,張中夏,肖文韜

      (1. 中國人民大學 信息學院, 北京 100872;2. 淮陰師范學院 計算機科學與技術學院,江蘇 淮安 223300)

      ?

      基于意群劃分的中文微博情感傾向分析研究

      桂 斌1,2,楊小平1,朱建林1,張中夏1,肖文韜1

      (1. 中國人民大學 信息學院, 北京 100872;2. 淮陰師范學院 計算機科學與技術學院,江蘇 淮安 223300)

      微博作為一種新興的社交網(wǎng)絡平臺,逐漸成為公眾發(fā)布個人信息,獲取實時信息,表達個人觀點的新平臺。針對微博情感傾向判斷的問題,提出了一種基于意群劃分的中文微博情感傾向分析(STDSG)方法。引入意群的概念,提出微博意群劃分算法,根據(jù)意群間的關系,考慮否定詞、程度詞及標點符號的對情感傾向分析的影響,提出計算微博意群情感傾向的方法。在給定的數(shù)據(jù)集上,實驗結果準確率達到了80.1%,總體性能優(yōu)于基于情感詞典的方法及基于支持向量機的方法。

      微博; 意群; 情感傾向

      1 引言

      近年來,隨著互聯(lián)網(wǎng)的發(fā)展,論壇、博客等網(wǎng)絡交流平臺相繼出現(xiàn),人們越來越習慣于在網(wǎng)上發(fā)表主觀性的言論,形成了大量帶有情感傾向性的文本。微博作為一種新興動態(tài)交流的多媒體博客,逐漸成為公眾發(fā)布個人信息,獲取實時信息,表達個人觀點的新平臺。

      情感傾向分析是指利用計算機技術自動分析帶有觀點信息的句子或文檔,從而提取出用戶感興趣的主題或特征,并分析其語義極性傾向(褒義、貶義或中性)和強度[1]。情感傾向性涉及人們的觀點、看法和評價,包括人類行為相對于社會標準的評價,產(chǎn)品相對于國家和行業(yè)強制標準、用戶偏好、審美觀的評價等。情感傾向包括文本所反映的情感的方向(褒或貶)及其強度。微博的傾向性分析可廣泛應用于社會輿情分析、產(chǎn)品在線跟蹤與質(zhì)量評價、影視評價、博客聲譽評價、新聞報道評述、事件分析、股票評論、圖書推薦、企業(yè)情報系統(tǒng)、客戶關系管理(CRM)等方面,在社會經(jīng)濟和人民生活方面具有重要意義。

      2 相關研究

      情感分析是近年來才興起的一個研究方向,是目前數(shù)據(jù)挖掘、文本挖掘、自然語言處理等領域的熱點研究課題之一,主要研究如何識別、分類、標注和提取主觀文本及其所表達的情感、情緒和觀點。它也被稱為意見挖掘(Opinion Mining)、意見分析 (Opinion Analysis)、情感分類(Sentiment Classification)或者主觀性分析(Subjectivity Analysis)[2]。情感分析可分為詞語級、句子級、篇章級等幾個研究層次。詞語級語義傾向計算是句子級和篇章級語義傾向分析的基礎。Turney[3]將情感傾向量化為一個實數(shù)值測度,單個詞或短語的情感傾向可以進一步被用來判斷整個句子或篇章的情感傾向,通過機器學習算法把整個文本區(qū)分為“贊揚”和“批評”的情感傾向。Hatzivassiloglou[4]用詞語間的語義關系判斷詞語的情感傾向性。Kamps等人利用WordNet提供的詞語相似度進行詞語語義傾向計算[5],但該方法只針對形容詞, 并只考慮了詞語間的同義關系。杜偉夫等提出一個可擴展的詞匯語義傾向計算框架, 將詞語語義傾向計算問題歸結為優(yōu)化問題[6]。Meena[7]等則提出了針對句子的情感分析,不僅考慮單個詞語的情感傾向,還結合了句子的結構,語法以及其他語義信息。Wang 等[8]將啟發(fā)式規(guī)則和貝葉斯分類結合,將形容詞和副詞抽取出來作為特征詞來計算句子的情感傾向。王根等[9]將條件隨機場應用于句子情感分析,提出基于多重冗余標記的方法。楊超等[10]加入了句子出現(xiàn)的副詞的影響因子計算每個網(wǎng)絡評論中的每個句子的情感極性。Pang首次在篇章級情感分類任務中引入機器學習的方法[11],他們通過對比NB,ME和SVM三種分類模型,同時使用n-gram詞語特征和詞性特征,發(fā)現(xiàn)unigram特征效果最好。Cui的實驗證明,unigram的效果只有在訓練語料較少時較好;當訓練語料增多時,n-gram(n>3)發(fā)揮了更大作用[12]

      微博作為一種新興的網(wǎng)絡平臺,從一誕生起就吸引了大批學者對其進行研究。對于微博的情感分析的研究目前主要是以Twitter為研究對象,中文微博的情感分析研究正方興未艾。Davidiv等[13]利用Tweets中的標簽中的標簽和笑臉符號作為訓練標簽,訓練出一個有監(jiān)督的類似KNN的分類器,然后應用分類器對Tweets進行情感分類。Barbosa等[14]針對Tweets的情感分類問題,采用了二步法: 他們首先采用抽象特征訓練分類進行主客觀分類,然后采用相同特征但修改詞的情感極性的權重來進行情感極性分類。謝麗星等[15]提出了一種基于層次結構的多策略中文微博情感方法,取得了較好的情感分析效果。

      目前關于微博的情感傾向性分析的準確率還比較低,與實際應用的要求相比還有大的差距。我們認為相比于新聞、博客等長文本,微博內(nèi)容要短小精悍得多,也更加口語化和不規(guī)范,包含的信息量少,這些為微博的情感分析增加了難度。因此我們引入了意群的概念,對微博進行意群劃分,在意群劃分的基礎上進行微博情感傾向性分析,總體的分析處理流程如圖1所示。

      圖1 總體分析流程

      3 意群的劃分

      關于意群目前還沒有統(tǒng)一的定義,索翠萍[16]認為意群是指復句中由意義和形式關系相對密切的兩個以上的分句所組成的結構中心。周昌樂等[17]認為所謂意群,指的是我們的語言所表達的思想都是通過一群相互關聯(lián)的意義單位體現(xiàn)出來的,而這些意義單元根據(jù)其所處語言片段的角色,有大有小,因此意群分割也就有一個多尺度問題。

      句子是由詞語和短語組成的,是具有一定語調(diào)并表達一個完整意思的語言運用單位。按照結構來分,句子通常劃分為單句和復句。相對于復句,通常單句表達的結構簡單,意思簡明。而復句是由兩個或以上意義相關,結構上互相不構成句子成分的分句組成的句子。復句相對于單句來說結構更加復雜,句子表達的含義也更多。通常,復句都包含多個分句,每一個分句都表達了獨立的含義。我們比較認同文獻[17]的觀點,為了處理的方便,本文將句子中的分句作為意群,運用逗號和分號作為句子意群的分隔符。

      意群的情感傾向主要由帶有情感傾向的詞語決定,但如果只對情感詞進行處理,忽略意群的內(nèi)部結構以及上下文環(huán)境,會降低意群情感傾向分析的準確率。例如,“好看卻很難吃”,如果只考慮情感詞,最后分析出來的情感傾向就是中性的,而實質(zhì)上意群所表達的意思是負向的,程度詞“很”在這里是加強了“難吃”的程度。為了提高意群情感傾向分析的準確性本文將轉(zhuǎn)折詞也作為意群劃分的依據(jù)。換句話說,意群通常是復句中的分句,或者被轉(zhuǎn)折詞隔開的短語。劃分意群的算法如下所示。

      算法1: 句子意群劃分算法

      輸入: 句子

      輸出: 意群

      Step1 根據(jù)逗號和分號將句子劃分成一個個意群O

      Step2 將意群進行分詞,并逐個讀取劃分后的詞語word,若word屬于轉(zhuǎn)折詞,那么截取該意群

      Step3 若所有句子處理完畢,則轉(zhuǎn)入Step4,否則轉(zhuǎn)入Step1

      Step4 算法結束

      4 微博情感傾向分析

      對意群進行情感傾向分析時,情感詞是影響意群情感傾向的主要成分,但是僅考慮情感詞是不夠的。本文除了要考慮意群中出現(xiàn)的情感詞以外,還要考慮否定詞、程度詞及標點符號。否定詞的出現(xiàn)能夠讓情感詞的情感傾向性反轉(zhuǎn),而程度詞則會影響情感詞表達的情感傾向的程度。一些標點符號也會表現(xiàn)出情感傾向,起到加強意群或否定的作用。

      如果在一個意群中,情感詞前面存在否定詞,那么該情感詞的傾向性反轉(zhuǎn)具體的辦法是對于一個情感詞,檢查它前面是否存在否定詞,并且兩個詞語的距離在一定范圍內(nèi),那么該否定詞有效,情感詞情感傾向反轉(zhuǎn),否則否定詞無效。這是中文中的“雙重否定”的現(xiàn)象。雙重否定就是存在兩次否定,表達的是肯定的意思。例如,“我不得不說這件事情有問題?!本渥永锏摹安坏貌弧北硎镜木褪请p重否定,起到了肯定的作用,因此上句話的意思表達的是“我說這件事情有問題”。對于一個否定詞,需要檢查它前面一個否定詞是否有效并且兩個詞在一定的距離以內(nèi),若滿足條件,則可以確定為“雙重否定”,兩個否定詞的效果消失。

      程度詞對情感傾向性分析有著重要的作用,當一個情感詞被程度詞修飾時,它的情感傾向強度會被增強或者減弱。例如,“我非常喜歡這雙鞋子”和“我喜歡這雙鞋子?!北磉_的情感傾向強度就不一樣,雖然句子中同樣使用了情感詞語“喜歡”,但第一句中“喜歡”被程度詞“非?!毙揎棧跋矚g”所表達的正面情感傾向被加強。為了能夠準確的識別程度詞,本文對知網(wǎng)提供的程度詞進行修正,建立了程度詞表。按照程度詞表達的強烈程度,將程度詞劃分為: 最、很、較和弱四個級別。

      標點符號不僅能夠表達語法信息表示停頓信息以外,還能傳達情感信息。不同的標點符號在語法上有不同的功能,在修辭上也表達不同的感情色彩。本文計算情感傾向時,還考慮了標點符號的作用,主要選取了感情色彩比較明顯的感嘆號“!”和“?”。通常,感嘆號能夠加強語氣,表示對前面所說話語的肯定。問號多代表疑問語句,有懷疑的意思,有一定的否定意義在里面。但是否定的程度沒有直接使用否定強烈。本文分別給予感嘆號權重1.5,疑問號權重-0.5,其他符號權重1。

      每個意群的情感傾向可按公式(1)計算。

      (1)

      其中n表示情感詞的個數(shù),αneg表示情感詞的否定權重,βadv表示情感詞的程度權重,γpun表示意群的標點符號權重。

      意群間通常有一定的關系,主要包括并列關系,遞進關系和轉(zhuǎn)折關系。在遞進關系中,后面的句子表達的意思比前一句更進一層,表達的情感更強烈。轉(zhuǎn)折關系中,后一句的意思通常不是順著前一句說的,而是做了轉(zhuǎn)折,表達相反的意思。在轉(zhuǎn)折關系中,通常前面的分句只是為了后面的分句做鋪墊,主要是為了突出轉(zhuǎn)折詞以后的概念。表示并列關系的詞語: 和,跟,同時,同,及,與,并,并且。表示遞進關系的詞語: 不但……而且……,況且,不僅……并且……;不僅……而且……,而且。表示轉(zhuǎn)折關系的詞語: 但,但是,可是,然而,不過,雖然……但是……。根據(jù)意群間的關系,句子的情感傾向值計算公式如式(2)。

      (2)

      其中sensegroup表示意群,n表示意群的個數(shù),ai表示的是權重。在并列關系中,每個意群占相同的權重。在遞進關系的意群中,a1

      由于140字的限制,微博一般都比較短小,包含多個句子的微博較少。因此,本文計算微博的情感傾向時不考慮句子之間關系。根據(jù)公式(1)、(2),某條原創(chuàng)微博的情感傾向計算公式如式(3)所示。

      (3)

      根據(jù)公式(3)可以判斷微博的情感傾向為式(4)。

      (4)

      5 實驗結果及分析

      5.1 實驗數(shù)據(jù)及平臺

      通過爬蟲程序從新浪微博上抓取了3 000條關于“京滬高鐵”事件的微博,人工標注每條微博的情感傾向。為保證微博情感傾向標注的可靠性,由三個標注者分別對數(shù)據(jù)集進行情感傾向標注,然后應用投票法確定情感的情感傾向。使用中科院分詞工具ICTCLAS對微博語料進行分詞及詞性標注,選用知網(wǎng)提供的情感詞典(HowNet)作為情感傾向分析的依據(jù)。實現(xiàn)程序使用JAVA語言并在eclipse平臺實現(xiàn),選擇的數(shù)據(jù)庫平臺是MYSQL5.0。

      5.2 實驗分析

      為了更好地評價本文的實驗結果,我們引入了準確率和召回率及F-值作為評價指標。準確率是指算法分析準確的某一傾向性的微博條數(shù)與進行該傾向分析時分析到的微博總條數(shù)的比率;召回率是指算法分析準確的某一傾向性的微博條數(shù)與所有該傾向微博總條數(shù)的比率;F-值是準確率與召回率的調(diào)和值。在標注的數(shù)據(jù)集中選取600條微博,其中包括正面微博210條,負面微博210條,中性微博180條。表1給出了本文算法的實驗結果。

      表1中給出了本文提出的基于微博話題的情感分析算法實驗結果,其中正向情感傾向的準確率為77.1%,召回率為91.4%;負向情感傾向的準確率為92.1%,召回率為59.8%;中立情感傾向的準確

      表1 本文算法實驗結果

      率為71.2%,召回率為84.1%。從以上數(shù)據(jù)可以看出,負向情感傾向存在準確率高,召回率相對較低的情況。負向情感傾向的召回率低,其原因我們分析主要有以下幾點: (1)表達負向的情感詞不在情感詞典中。由于HowNet的并不能將所有的情感詞都囊括其中,以目前網(wǎng)絡中負面評論占主流的情況來看,負向情感詞要比其他情感詞要豐富得多。因此,有必要HowNet的情感詞典進行擴充,以提高情感分析的召回率;(2)中性詞表達負面傾向。中文表達的靈活性,使得許多詞義上的中性詞可以表達出情感傾向性,這是中文的優(yōu)越性所在,但也給文本情感傾向分析帶來了較大的困難;(3)反諷,人們使用帶有正面情感傾向的詞語來表示負面的意思。目前后兩種情況還比較難以解決,因為牽涉到語義理解的問題。

      5.3 實驗對比

      在標注的數(shù)據(jù)集中選取2 400條微博,其中包括正面微博840條,負面微博840條,中性微博720條。在相同實驗環(huán)境下,將本文的算法(STDSG)與基于情感詞典的情感傾向分析算法(SL)以及基于支持向量機(SVM)的情感傾向分析算法進行對比分析。基于情感詞典的情感傾向分析算法(SL)是僅以HowNet作為微博情感傾向性判斷的依據(jù)?;谥С窒蛄繖C(SVM)的情感傾向分析算法,訓練集與測試集的比例為4∶1,核函數(shù)選用最常用的徑向基核函數(shù):K(x,y)=e-‖x-y‖2/2σ2。運用SVM進行模式分類時需要確定兩個參數(shù): 懲罰因子C和RBF核函數(shù)中的半徑參數(shù)σ。通過網(wǎng)格搜索法來確定最佳的懲罰因子C和核半徑參數(shù)σ。圖2~4分別給出了不同算法的準確率、召回率以及F-值結果。

      從圖2~4的對比實驗結果來看,本文的算法總體上要優(yōu)于其他兩種算法。

      另外也可以看出,使用情感詞典的算法對微博進行情感分析的準 確 率要高于使用SVM機器學習

      圖2 準確率的對比實驗結果

      圖3 召回率的對比實驗結果

      圖4 F-值的對比實驗結果

      的方法。原因可能是微博中包含的信息量少,因此從微博中提取的特征會非常稀疏,高維的稀疏矩陣影響了機器學習的分類精度,同時機器學習方法比較適用于包含多個特征詞語的長文本。在對微博進行情感傾向分析時,添加了否定詞,程度副詞等上下文信息的分類方法要優(yōu)于只使用情感詞語的方法,顯然否定詞、程度副詞等上下文信息對于微博情感傾向分析具有重要作用,是不可不考慮的語義信息。

      6 結論

      本文引入意群的概念,將微博中句子結構不單單是從句法結構上加以劃分,而是在語義角度進行劃分。將逗號、分號以及轉(zhuǎn)折詞均作為意群的分隔符,根據(jù)意群間的并列、遞進、轉(zhuǎn)折等關系建立了基于意群的情感傾向計算公式。然后考慮否定詞、程度詞及標點符號的影響,進行微博情感傾向分析,提出了基于意群的微博情感傾向性算法。實驗結果表明了該算法相對于基于情感詞典(SL)和基于SVM的情感傾向分析算法,具有較高的準確率和召回率,能更加準確地判斷出微博用戶的情感傾向。算法的不足之處在于,在負向情感的微博的召回率方面相對較低,有必要在意群的語義理解方面進行更深一步的研究。

      [1] 婁德成,姚天防.漢語句子語義極性分析和觀點抽取方法的研究[J].計算機應用,2006, 26(11): 2622-2625.

      [2] B Pang, L Lee. Opinion Mining and Sentiment Analysis[J].Foundations and Trends in Information Retrieval, 2008, 2(1-2):1-135.

      [3] Peter D Turney. Unsupervised Learning of Semantic Orientation from a Hundred-billion-word Corpus. Technical Report [ R ], National Research Council of Canada: M. L. Littman, 2002: 1-9.

      [4] Hatzivassiloglou,V, McKeown,K Predicting the semantic orientation of adjectives[J].In: ACL.1997:174-181.

      [5] Kamps J, Marx M, Mok ken R J, et al. Using WordNet to measure semantic orientation of adjectives[C]//Proceedings of LREC-04,4th Int Conf on Language Resources and Evaluation.Lisbon:LREC,2004: 1115-1118.

      [6] 杜偉夫,譚松波,云曉春,等.一種新的情感詞匯語義傾向計算方法[J].計算機研究與發(fā)展, 2009, 46(10): 1713-1720.

      [7] Meena,A,Prabhakar,T V. Sentence level sentiment analysis in the presence of conjuncts using linguistic analysis. In:Amat i,G.,Carp inet o, C.,Romano,G.(eds.)ECIR 2007.LNCS,vol. 4425: 573-580.

      [8] Wang Chao, Lu Jie, Zhang Guangquan.A semantic classification approach for online product reviews[C]//Proceedings of the 2005 IEEE/WIC/ACM International Conference on Web Intelligence (WI′5), 2005.

      [9] 王根,趙軍.基于多重冗余標記CRF的句子情感分析研究[J].中文信息學報, 2007, 21 (5): 51-55.

      [10] 楊超, 馮時, 王大玲等. 基于情感詞典擴展技術的網(wǎng)絡輿情傾向性分析[J]. 小型微型計算機系統(tǒng), 2010,4:691-695.

      [11] B Pang,L Lee, S Vaithyanathan.Thumbs up?Sentiment classification using machine learning techniques[C]//Proceeding of the Conference on Empirical Methods in Natural Language Processing(EMNLP),2002: 79-86.

      [12] Cui H,Mittal VO,Datar M.Comparative experiments on sentiment classification for online product revies[C]//Proceedings of the AAAI2006.2006: 1265-1270.

      [13] Dmitry Davidiv, Oren Tsur, Ari Rappoport. Enhanced Sentiment Learning Using Twitter Hash-tags and Smileys. In Coling 2010(poster paper), 2010: 241-249.

      [14] Luciano Barbosa, Junlan Feng. Robust Sentiment Detection on Twitter from Biased and Noisy Data.In Coling 2010(poster paper),2010: 36-44.

      [15] 謝麗星,周明,孫茂松. 基于層次結構的多策略中文微博情感分析和特征抽取[J].中文信息學報, 2012,26(1):691-695.

      [16] 索翠萍.意群—一種劃分多層復句的好方法[J].職業(yè)技術教育,1999,18:25.

      [17] 周昌樂,丁曉君. 漢語機器理解的困難與對策一種意群動力學的觀點[J].現(xiàn)代外語, 2000,23 (2):195-201.

      Chinese Micro-blog Sentiment Orientation Identification Based on Sense Group Partition

      GUI Bin1,2, YANG Xiaoping1, ZHU Jianlin1, ZHANG Zhongxia1, XIAO Wentao1

      (1. School of Information, Remin University of China, Beijing 100872, China; 2. School of Computer Science and Technology, Huaiyin Normal University, Huaian, Jiangsu 223300, China)

      Micro-blog as a new interaction social networking is rich in people’s opinions. Aiming at the Microblog sentiment orientation indetification,this paper proposes an algorithm based on the Sense Group partition.After an introduction to the concept of sense group, we propose the algorithm for the sense group partition. Then, together with the negative words, the degree words and punctuation, we establish the formula of sentiment identification based on the relationship between the sense groups. The experiments reveals an accuracy of 80.1%, outperformed the sentiment lexicon based approach and the SVM based method.

      Micro-blog; sense group; sentiment orientation

      桂斌(1977—),博士,講師,主要研究領域為文本挖掘、智能信息處理。E?mail:guibin_163@163.com楊小平(1956—),博士,教授,主要研究領域為信息系統(tǒng)工程。E?mail:yang@ruc.edu.cn朱建林(1979—),博士研究生,講師,主要研究領域為語義分析、機器學習。E?mail:linjie_zhu@126.com

      1003-0077(2015)03-0100-06

      2013-04-08 定稿日期: 2013-07-15

      國家自然科學基金項目資助(61203242)

      TP391

      A

      猜你喜歡
      意群傾向性語義
      基于模糊數(shù)學法的阿舍勒銅礦深部巖體巖爆傾向性預測
      英語中的停頓
      語言與語義
      談談英語句子的意群
      英語中“意群”對英語學習者的影響
      考試周刊(2016年61期)2016-08-16 06:22:06
      “上”與“下”語義的不對稱性及其認知闡釋
      關于醫(yī)患沖突報道的傾向性分析——以“湘潭產(chǎn)婦死亡案”為例
      “沒準兒”“不一定”“不見得”和“說不定”的語義傾向性和主觀性差異
      語言與翻譯(2015年4期)2015-07-18 11:07:43
      認知范疇模糊與語義模糊
      一種面向博客群的主題傾向性分析模型
      西畴县| 嘉峪关市| 若尔盖县| 瓦房店市| 大安市| 上栗县| 平邑县| 静乐县| 深圳市| 志丹县| 卢湾区| 旺苍县| 绥德县| 都安| 棋牌| 乐都县| 云林县| 郯城县| 漠河县| 临海市| 宿松县| 汶上县| 将乐县| 浦城县| 竹山县| 宁陵县| 云和县| 休宁县| 和龙市| 彩票| 勐海县| 冷水江市| 郑州市| 扎赉特旗| 阳城县| 横山县| 新丰县| 双鸭山市| 宜兰县| 日照市| 灵川县|