• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      結合微博網(wǎng)絡特征和用戶信用的微博情感分析

      2016-11-08 08:43:47葉爾蘭何扎提
      計算機應用與軟件 2016年10期
      關鍵詞:分類文本情感

      葉爾蘭·何扎提 李 鵬

      1(新疆人民廣播電臺 新疆 烏魯木齊 830000)2(北京大學信息科學技術學院 北京 100871)

      ?

      結合微博網(wǎng)絡特征和用戶信用的微博情感分析

      葉爾蘭·何扎提1李鵬2

      1(新疆人民廣播電臺新疆 烏魯木齊 830000)2(北京大學信息科學技術學院北京 100871)

      傳統(tǒng)的情感分析方法沒有充分地考慮微博自身的特點,在短小、不規(guī)范并且充滿噪音的微博數(shù)據(jù)上難以取得良好的效果。結合微博內(nèi)容本身的特點,提出了適于微博情感分類任務的情感語言模型。并進一步考慮了微博用戶和社交網(wǎng)絡的特征,基于微博轉發(fā)網(wǎng)絡上情感的傳播和用戶的信用值對提出的情感語言模型進行改進。在經(jīng)過標注的新聞事件數(shù)據(jù)集上的實驗結果表明,該方法能夠有效地對新聞事件相關微博進行情感分類,在準確率等指標上都要優(yōu)于傳統(tǒng)的基于語言模型的方法,而且加入微博的網(wǎng)絡特征和用戶信用能明顯地提高微博情感分類的效果。

      微博情感分析社交網(wǎng)絡文本分類語言模型

      0 引 言

      國外著名的微博網(wǎng)站twitter早在2006年就上線,而微博作為一種社交工具被人們普遍接受則是在2009年以后。用戶在使用微博時,可以通過發(fā)布最長140字的文章(也有鏈接、圖片等其他形式)來分享信息。在諸如新浪微博等國內(nèi)著名的微博網(wǎng)站中,每天都有數(shù)以億計的活躍用戶創(chuàng)造、轉發(fā)或者評論微博,產(chǎn)生大量的微博數(shù)據(jù),也使得對微博數(shù)據(jù)進行分析、挖掘和理解的相關自然語言處理技術的需求變得十分迫切[1]。情感分析用自然語言處理的方法來識別和提取素材中的主觀信息,以找出說話者在話題或者文本中兩極的態(tài)度,在公司產(chǎn)品反饋[2]、社會輿情監(jiān)測[3]等方面有很多應用。微博作為各種意見、評論和情感等信息的集散地,十分值得通過情感分析挖掘出有用的信息,這些信息往往潛在著巨大的商業(yè)和社會價值。在對微博數(shù)據(jù)進行情感分析時,傳統(tǒng)的對文本進行情感分析的方法[4]并不適用,因為微博與傳統(tǒng)的文本數(shù)據(jù)存在很大的區(qū)別,微博的內(nèi)容短小精悍,表意上不如文本明確,而且微博數(shù)據(jù)中有很多俗語、非正式的表達以及噪音,對傳統(tǒng)的情感分析帶來很多困難,而微博中包含的大量表情、符號和圖片等信息又為微博的情感分析提供了新的途徑。

      另一方面,隨著網(wǎng)絡的快速發(fā)展,網(wǎng)絡新聞逐漸成為人們接受信息的主要方式,人們往往會對同一個新聞事件產(chǎn)生不同的觀點和情感。微博龐雜的用戶群體使得微博中的新聞事件具有實時性、傳播性和敏感性等特點,如果能通過情感分析及時對微博中新聞事件的產(chǎn)生、傳播和評論進行發(fā)現(xiàn)、監(jiān)測和跟蹤,對于新聞事件相關利益群體的決策將具有重要的幫助。我們希望通過對微博中新聞事件的情感分析,挖掘出人們對于各種新聞事件的情感和態(tài)度,在一定程度上體現(xiàn)出新聞事件的影響力。

      機器學習中傳統(tǒng)的樸素貝葉斯、支持向量機等方法在對微博進行情感分析時受限于微博噪音較多的訓練集難以取得理想的效果,而基于情感詞典的情感分析方法則受限于情感詞典的構建,對于充滿各種符號、網(wǎng)絡新詞和不規(guī)范表達的微博文本,基于情感詞典的方法在很多情況下不能有效地進行情感分析。因此,本文考慮將傳統(tǒng)的語言模型引入到微博情感分析的任務中來,并為了使基于語言模型的方法更適合于情感分析,在已有的有監(jiān)督的語言模型基礎之上提出了情感語言模型,來對微博中的新聞事件進行情感分類。結合微博用戶和社交網(wǎng)絡的特點,加入用戶的信用特征,考慮了用戶情感在微博轉發(fā)網(wǎng)絡中的傳播,對提出的情感語言模型進一步改進,使得模型更適于微博情感分析。我們在從新浪微博中抓取的多個新聞事件數(shù)據(jù)集上進行了實驗,實驗結果顯示本文情感語言模型能夠有效對微博進行情感分析,加入用戶和網(wǎng)絡特征對于微博情感分析的效果具有顯著提升。

      1 相關工作

      情感分類作為情感分析的主要部分,近年來隨著機器學習技術的飛速發(fā)展,逐漸成為主流的研究課題[5]。情感分類通過具有不同語義傾向的詞語特征來對文檔進行分類,傳統(tǒng)的情感分類算法都主要基于機器學習中的經(jīng)典分類算法,如樸素貝葉斯、決策樹、支持向量機等。Wiebe等[6]首先提出利用樸素貝葉斯對文本進行主客觀分類的方法,隨后Pang等[7]受此啟發(fā),提出用于文本主客觀分類的層次模型,先將文本進行主客觀分類再進行情感分類。Pang等[8]還最先將機器學習的方法應用到文本的情感分類問題中,他們用機器學習經(jīng)典的樸素貝葉斯、最大熵和支持向量機方法對電影評論進行了情感分類。目前多數(shù)情感分析的研究都是基于評論等主觀性較強的文本,對于新聞事件這樣客觀性較強的文本的情感分析研究并不多。

      有監(jiān)督的學習算法主要通過人工標注的數(shù)據(jù)進行學習和訓練。Jansen等[9]使用多項樸素貝葉斯模型對微博進行情感分析,Bermingham等[10]則在微博和博客的情感分析中對比了支持向量機和多項樸素貝葉斯方法,發(fā)現(xiàn)多項樸素貝葉斯方法在微博情感分析中比支持向量機方法更好。除了有監(jiān)督的情感分類,還有很多基于情感詞和詞組的無監(jiān)督情感分類方法,Hu等[11]提出了基于情感詞典的方法,通過WordNet[12]中的同義詞和反義詞關系建立情感詞典,通過統(tǒng)計正、負極性的情感詞進行產(chǎn)品評論分析。Kim等[13]則通過情感詞的組合來判斷句子的情感??紤]到微博長度較短,詞匯量豐富的特點,本文針對微博的情感分析方法并未采用基于情感詞典的方法,而是采用基于語料庫的方法。其它還有很多基于話題或者詞向量等的情感分類方法,比如Tang等[14]用詞向量嵌入的方法進行微博情感分類,Xiang等[15]使用基于話題的混合主題模型和半監(jiān)督學習的方法提升微博情感分類的效果,Sun等[16]提出無監(jiān)督的主題情感混合模型,通過采樣情感標簽對文本進行情感分類。本文在有監(jiān)督的語言模型基礎之上提出了情感語言模型,因此并沒有考慮利用主題模型或者無監(jiān)督的方法進行情感分類。

      微博的情感分析方法源自傳統(tǒng)文本的情感分析,但由于微博短小、表達不規(guī)范以及摻雜表情符號、鏈接和網(wǎng)絡用語等特點,又產(chǎn)生了獨特的研究方法,如Go等[17]用表情來分析微博情感,并用帶表情的微博作為訓練集對微博情感進行分類。Barbosa等[18]用帶噪音微博情感預測作為訓練集,使用感嘆詞、微博表情作為額外特征對微博情感分類。Zhao等[19]將新浪微博中的表情符號分類,然后將訓練集中的微博按照表情進行標注,最后用樸素貝葉斯方法對微博進行分類。本文就采用了這種基于微博表情標注的分類方法進行模型的平滑,另外還結合了微博用戶和社交網(wǎng)絡的特征進一步提高分類效果。

      2 微博情感分類模型

      2.1語言模型的引入

      語言模型分為概率語言模型和非概率語言模型兩種。目前的主流是概率語言模型,本文中也將采用這種語言模型。微博情感分類問題實際上是一個分類問題。在概率語言模型中,每一個詞都有一個概率,使用概率語言模型便可對分類問題進行計算。為了將語言模型應用到微博情感分類的問題上來,首先需要對微博情感分類問題進行定義。將同一個類別c的微博形成的集合視為一篇文檔d,對于情感分類問題會有兩篇文檔,一篇是通過正面的微博訓練數(shù)據(jù)得到的文檔d1,另一篇是負面的微博訓練數(shù)據(jù)得到的文檔d2,然后需要對這兩篇文檔分別學習語言模型。在測試階段,將每條待測試的微博t視為查詢語句,分別計算這個查詢語句與兩篇文檔的相似度,以此來對微博進行分類。用c1和c2分別表示正面和負面的微博類別。對于一條微博t,分別計算P(t|c1)和P(t|c2)的值,即微博t在這兩個類別中的條件概率,通過這個條件概率來確定微博t的類別,通過下面的公式計算:

      (1)

      其中n是微博t中包含的詞的個數(shù),P(wi|c)就是t中的詞wi在不同類別中的概率,需要通過語言模型計算得到,可以通過下面的公式計算:

      (2)

      其中Ni,c表示wi在類別c中出現(xiàn)的次數(shù),Nc表示類別c中所有詞出現(xiàn)的次數(shù)。通過這種方式計算的結果很大程度上依賴訓練集形成的詞典,對于在測試集中出現(xiàn)但未在訓練集中出現(xiàn)的詞,這個方法會出現(xiàn)問題。因此需要一種平滑方法來減少這種情況帶來的誤差。

      2.2情感語言模型

      根據(jù)Liu等[20]的假設,包含表情符號”:)”的微博都為正面的,所以考慮通過結合表情符號對語言模型進行平滑,平滑公式如下:

      P(wi|c)=βPα(wi|c)+(1-β)Pu(wi|c)

      (3)

      基于這個假設,為了計算Pu(wi|c)的值,需要統(tǒng)計wi和”:)”共同出現(xiàn)的微博數(shù)量nwi,這些微博發(fā)布的時間長度twi,包含”:)”表情符號的微博數(shù)量ns和時間長度ts。從而可以通過下面的公式計算Pu(wi|c1):

      (4)

      式中分子部分表示單位時間內(nèi),wi在類別c的微博中出現(xiàn)的次數(shù),分母部分表示單位時間內(nèi),在類別c的微博中出現(xiàn)的詞的總數(shù),L是微博的長度,一般微博的長度約為15,因此L的取值定為15。引入標準化因子:

      (5)

      其中|V|表示數(shù)據(jù)集中所有詞的數(shù)量。從而可以通過下面的公式對Pu(wi|c1)進行標準化:

      (6)

      經(jīng)過標準化后可以發(fā)現(xiàn),Pu(wi|c1)的取值與ns和ts無關。同樣基于假設可以計算Pu(wi|c2),只需將表情符號換成”:(”即可。

      2.3情感分類

      有了微博的條件概率,通過計算每條微博的條件概率對微博的情感進行分類。我們將情感分類的問題分為兩個步驟,首先是主客觀的分類,其次是情感分類。對于主客觀分類,可以將前面的c1和c2分別視為主觀類別和客觀類別,利用前面的式(1)和式(2)計算每條微博的條件概率,并根據(jù)條件概率的大小對文本進行分類。接著進行情感分類,利用式(3)計算得到每條微博正面和負面兩種類別的條件概率,再根據(jù)條件概率的大小進行分類。

      3 情感分類模型的改進

      3.1用戶信用值

      微博是用戶發(fā)布的,從而發(fā)布微博的用戶信用值具有一定的重要性。一個正常用戶和一個試圖改變輿論的用戶所發(fā)表的微博應該是不同的,因此在計算微博的情感分類值時,應當將發(fā)布微博的用戶的特征也計算在內(nèi)。在微博中針對每個用戶都有一個個人認證,同時有微博會員,微博達人等多種身份認證。獲得個人認證的用戶,都經(jīng)過了微博的實名認證,因此這類人是可信的。微博達人則是參與微博活動較多的用戶,其可信度較個人認證的用戶稍低一些,但仍然是可信的。微博會員則需要用戶花錢去購買,這類用戶也具有一定的可信度。因此,根據(jù)用戶的身份認證可以對用戶的信用值進行設定,賦予每一個用戶一個介于0到1之間的信用值,用P(ui)表示,其值越高,可信度越高。

      3.2微博的網(wǎng)絡特征

      微博具有很強的社交性,微博可以被廣泛地轉發(fā)和評論,微博的這些特點使得微博中的信息能夠廣泛傳播。用戶轉發(fā)微博這一行為,說明用戶對于所發(fā)微博是感興趣的,并且認同或者否定所轉發(fā)微博觀點的。對于用戶對所發(fā)的微博是認同還是否定則根據(jù)轉發(fā)時附加的文本內(nèi)容來判斷。如果文本內(nèi)容中包含否定或者轉折詞,則認為是否定,否則認為是認同。根據(jù)這種轉發(fā)行為可以看出,轉發(fā)與情感也存在一定的相關性。由于微博的社交特性,某一事件的微博隨著用戶的轉發(fā)往往能形成一個網(wǎng)絡,而用戶的情感也會隨著網(wǎng)絡而傳遞?;谖⒉┑倪@種特性,我們引入因子Pg(t|c),根據(jù)網(wǎng)絡的傳播特性,可以使用鏈接分析中的TrustRank[21]算法來進行計算。對于兩條微博u和v,如果v轉發(fā)了u,那么就存在一條從u指向v的有向邊,如果沒有否定詞或轉折詞,則權值為1,否則為-1。

      3.3情感分類模型的改進

      在引入P(ui)和Pg(t|c)之后,對上面的情感分類模型進行調(diào)整如下:

      Pi(t|c)=αPf(t|c)P(ui)+(1-α)Pg(t|c)

      (7)

      其中,Pf(t|c)是式(1)中的P(t|c),i表示用戶ui所發(fā)布的微博,P(ui)是用戶ui的信用度,Pg(t|c)是該條微博經(jīng)過網(wǎng)絡迭代計算后的值。這樣我們得到了改進的情感分類模型。這個模型結合了微博的特點,考慮了微博的用戶和傳播網(wǎng)絡的特征,使得對微博的情感分類更加合理。

      4 實 驗

      4.1實驗數(shù)據(jù)集

      為了減少重新進行人工標注所花費的時間,我們使用了之前邀請志愿者已經(jīng)標注好的微博數(shù)據(jù)集,并通過分屬于四個領域的八個事件來驗證本文方法在不同領域下的效果。該數(shù)據(jù)集通過新浪微博的開放接口抓取微博數(shù)據(jù),在抓取時盡量貼近事件發(fā)生的時間(例如兩會和神九的抓取時間跨度分別為16天和14天,這分別是兩會的開會時間和神九上天的時間)。抓取的數(shù)據(jù)集的統(tǒng)計信息在表1中。我們用E1到E8來表示這八個事件。在具體進行實驗時,我們又從數(shù)據(jù)集中選取了抓取到的事件的一天內(nèi)的全部微博,在對一些廣告微博進行處理之后,每個事件的數(shù)據(jù)量在1000左右。

      表1 微博數(shù)據(jù)集

      4.2實驗設定和評價標準

      通過對比實驗來驗證本文方法以及基于微博特點改進的方法的有效性,我們實現(xiàn)了基于有監(jiān)督學習的語言模型方法作為本文基于情感語言模型的方法的對比。對于本文所提的改進的情感分類模型的實驗,我們首先使用僅增加用戶信用值的模型以及僅增加微博網(wǎng)絡特征的模型與本文所提的情感語言模型進行對比實驗,以考察用戶信用值和微博網(wǎng)絡特征在改進的情感分類模型中的貢獻度,最后再用同時結合用戶信用和網(wǎng)絡特征的模型與本文所提的情感語言模型進行對比以考察改進的方法對原語言模型的提升。我們使用LM表示基于有監(jiān)督學習的語言模型方法,SLM表示基于情感語言模型的方法,SLM-u表示僅增加用戶信用值的模型,SLM-n表示僅增加微博網(wǎng)絡特征的模型,SLM-u,n表示同時結合用戶信用和網(wǎng)絡特征的模型。

      在對微博語料進行分詞時,由于微博中的網(wǎng)絡詞匯較多,我們進行了人工詞典增補,添加了一些網(wǎng)絡流行詞匯(如“給力”等),以減少微博分詞效果不好帶來的影響。對于實驗結果的評價,我們采用信息檢索領域傳統(tǒng)的評價指標準確率和F1對實驗結果進行評價。

      4.3實驗結果與分析

      基于語言模型的LM方法與本文情感語言模型的SLM方法在八個事件的數(shù)據(jù)集中對比實驗的結果如圖1所示。圖中對每一個事件的微博情感分類結果分別列出了LM和SLM方法的準確率和F1值,最后一列M為所有事件情感分類結果的均值。從圖中可以看出,本文所提的SLM方法在每個事件上的情感分類結果都要優(yōu)于LM方法,而且本文的SLM方法準確率和F1值之間的差別較LM方法更小,表明本文基于情感語言模型的SLM方法比LM方法能對更多的微博進行情感分類,更適合于微博的情感分類任務。

      圖1 微博情感分類結果

      為了比較不同改進模型的情感分類效果,我們直接比較這些改進的模型和原模型在八個新聞事件上情感分類結果的平均值。不同的改進后情感分類模型的實驗結果如圖2所示。從圖中可以看出加入用戶信用值比加入微博網(wǎng)絡特征對原模型的提升更多,并且最終改進的情感分類模型比原模型有顯著的提升。SLM-u方法將每個用戶的信用特征都加入到模型中,而由于微博轉發(fā)網(wǎng)絡的稀疏性,微博缺乏足夠的轉發(fā)量,SLM-n方法中用戶的情感沒有廣泛地傳播,因而SLM-n方法沒有SLM-u方法對模型的提升更明顯。SLM-u,n方法充分結合了微博的特點,從而能夠更好地對微博進行情感分類。

      圖2 微博情感分類改進結果

      5 結 語

      本文結合微博的相關特點對微博情感分析問題進行了研究。首先將語言模型引入微博情感分類的問題中,并在原有的語言模型基礎之上提出了情感語言模型,通過微博表情符號的標注,計算微博的條件概率對微博進行情感分類。此外,我們還結合微博用戶和社交網(wǎng)絡的特點,將用戶的信用值和情感在微博網(wǎng)絡中的傳播特征加入到情感語言模型中,進一步改進了情感語言模型。在新聞事件數(shù)據(jù)集上的實驗結果表明,本文所提出的基于情感語言模型的方法能夠很好地對微博情感進行分類,而且加入微博網(wǎng)絡特征和用戶信用對模型的情感分類效果有顯著的提升。

      雖然本文基于微博網(wǎng)絡特征和用戶信用的情感分類模型在新聞事件數(shù)據(jù)集上取得了良好的效果,但是本文的情感分類方法對于中文分詞和表情標注的效果依賴度很高,糟糕的分詞結果或者表情標注的噪音都會影響最終的分類效果。另外,本文有監(jiān)督的學習方法在數(shù)據(jù)量特別大的數(shù)據(jù)集上效率不高,未來還可以考慮無監(jiān)督的學習方法。

      [1]AlexanderPak,PatrickParoubek.Twitterasacorpusforsentimentanalysisandopinionmining[C] //ProceedingsoftheInternationalConferenceonLanguageResourcesandEvaluation.Valletta,Malta:LREC, 2010: 1320-1326.

      [2]FeldmanR.Techniquesandapplicationsforsentimentanalysis[J].CommunicationsoftheACM, 2013, 56(4): 82-89.

      [3]BingLiu.SentimentAnalysisandopinionmining[M].Morgan&ClaypoolPublishers, 2012: 1-167.

      [4]BautinMikhail,LohitVijayarenu,StevenSkiena.InternationalsentimentanalysisforNewsandBlogs[C] //ProcoftheInternationalConferenceonWeblogsandSocialMedia.Seattle:ICWSM, 2008: 19-26.

      [5]BoPang,LillianLee.Opinionminingandsentimentanalysis[J].JournalFoundationsandTrendsinInformationRetrieval, 2008, 2(1): 1-135.

      [6]WiebeJanyceM,BruceRebeccaF.O’haraThomasP.Developmentanduseofagold-standarddatasetforsubjectivityslassifications[C] //Proceedingsofthe37thAnnualMeetingoftheAssociationforComputationalLinguisticsonComputationalLinguistics.Maryland,USA:ACL,1999: 246-253.

      [7]PangB,LeeL.Asentimentaleducation:sentimentanalysisusingsubjectivitysummarizationbasedonminimumcuts[C] //Proceedingsofthe42ndAnnualMeetingonAssociationforComputationalLinguistics.Barcelona,Spain:ACL, 2004: 271.

      [8]PangB,LeeL,SVaithyanathan.Thumbsup?sentimentclassificationusingmachinelearningtechniques[C] //ProceedingsoftheACL-02ConferenceonEmpiricalMethodsinNaturalLanguageProcessing,EMNLP, 2002: 79-86.

      [9]BernardJJansen,MimiZhang,KateSobel,etal.Twitterpower:tweetsaselectronicwordofmouth[J].JournaloftheAmericanSocietyforInformationScienceandTechnology, 2009, 60(11): 2169-2188.

      [10]AdamBermingham,AlanFSmeaton.Classifyingsentimentinmicroblogs:isbrevityanadvantage? [C] //Proceedingsofthe19thACMInternationalConferenceonInformationandKnowledgeManagement.Toronto:CIKM, 2010: 1833-1836.

      [11]HuM,LiuB.Miningandsummarizingcustomerreviews[C] //ProceedingsofthetenthACMSIGKDDInternationalConferenceonKnowledgeDiscoveryandDataMining.Seattle:SIGKDD, 2004: 168-177.

      [12]MillerGA.WordNet:alexicaldatabaseforenglish[J].CommunicationsoftheACM, 1995, 38(11): 39-41.

      [13]KimSM,HovyE.Determiningthesentimentofopinions[C]//Proceedingsofthe20thInternationalConferenceonComputationalLinguistics,ICCL2004: 1367.

      [14]DuyuTang,FuruWei,NanYang,etal.Learningsentiment-specificwordembeddingfortwittersentimentclassification[C] //Proceedingsofthe52ndAnnualMeetingoftheAssociationforComputationalLinguistics.Baltimore,Maryland,USA:ACL, 2014: 1555-1565.

      [15]BingXiang,LiangZhou.ImprovingtwittersentimentanalysiswithTopic-Basedmixturemodelingandsemi-supervisedtraining[C] //Proceedingsofthe52ndAnnualMeetingoftheAssociationforComputationalLinguistics.Baltimore,Maryland,USA:ACL, 2014: 434-439.

      [16] 孫艷, 周學廣, 付偉. 基于主題情感混合模型的無監(jiān)督文本情感分析[J]. 北京大學學報:自然科學版, 2013, 49(1): 102-108.

      [17]GoA,BhayaniR,HuangL.Twittersentimentclassificationusingdistantsupervision.CS224N[R]ProjectReport,Stanford, 2009: 1-12.

      [18]BarbosaL,FengJ.Robustsentimentdetectionontwitterfrombiasedandnoisydata” [C] //Proceedingsofthe23rdInternationalConferenceonComputationalLinguistics:Posters, 2010: 36-44.

      [19]ZhaoJ,DongL,WuJ,etal.Moodlens:anemoticon-basedsentimentanalysissystemforChinesetweets[C] //Proceedingsofthe18thACMSIGKDDInternationalConferenceonKnowledgeDiscoveryandDataMining2012: 1528-1531.

      [20]KunLinLiu,WuJunLi,MinyiGuo.Emoticonsmoothedlanguagemodelsfortwittersentimentanalysis[C] //ProceedingsofTwenty-SixthAAAIConferenceonArtificialIntelligence. 2012: 1678-1684.

      [21]Gy?ngyiZ,Garcia-MolinaH,PedersenJ.CombatingWebspamwithtrustrank[C] //Proceedingsofthe30thVLDBConference.Toronto,Canada: 2004:576-587.

      MICROBLOGSENTIMENTANALYSISCOMBININGFEATUREOFMICROBLOGGINGNETWORKANDUSER’SCREDIT

      YeErlan·HeZhati1LiPeng2

      1(XinjiangPeople’sBroadcastingStation,Urumqi830000,Xinjiang,China)2(SchoolofElectronicsEngineeringandComputerScience,PekingUniversity,Beijing100871,China)

      Traditionalsentimentanalysismethoddoesnotadequatelyconsiderthecharacteristicsofmicroblogitself,andishardtoachieveexcellenteffectonmicrobloggingdatawhichisshort,irregularandfullofnoises.Combiningwiththecharacteristicsofmicrobloggingcontentitself,inthispaperweproposeasentimentlanguagemodelsuitableforthetaskofmicroblogsentimentclassification,andfurtherconsiderthefeaturesofmicroblogginguserandsocialnetwork.Moreover,wemaketheimprovementsontheproposedsentimentlanguagemodelbasedonthepropagationofthesentimentonnetworkforwardedbymicroblogsandthevalueofuser’scredit.Itisdemonstratedbytheresultsofexperimentonannotatednewseventsdatasetsthatthismethodcaneffectivelycarryoutsentimentclassificationonthemicroblogscorrelatedwithnewsevents,andoutperformstraditionallanguagemodel-basedmethodinindexessuchasprecision,etc.,furthermore,theadditionofthenetworkcharacteristicsofmicroblogsanduser’screditcansignificantlyimprovetheeffectofmicrobloggingsentimentclassification.

      MicroblogSentimentanalysisSocialnetworkTextclassificationLanguagemodel

      2015-07-26。葉爾蘭·何扎提,高工,主研領域:信息檢索,文本挖掘。李鵬,碩士。

      TP

      ADOI:10.3969/j.issn.1000-386x.2016.10.022

      猜你喜歡
      分類文本情感
      分類算一算
      如何在情感中自我成長,保持獨立
      失落的情感
      北極光(2019年12期)2020-01-18 06:22:10
      情感
      在808DA上文本顯示的改善
      分類討論求坐標
      基于doc2vec和TF-IDF的相似文本識別
      電子制作(2018年18期)2018-11-14 01:48:06
      如何在情感中自我成長,保持獨立
      數(shù)據(jù)分析中的分類討論
      教你一招:數(shù)的分類
      乌拉特中旗| 建德市| 郁南县| 巍山| 河东区| 公安县| 盐津县| 龙井市| 定西市| 五台县| 新乡县| 隆尧县| 娄底市| 西安市| 朝阳县| 滨州市| 即墨市| 建瓯市| 苍山县| 永吉县| 宁晋县| 阳朔县| 大兴区| 麻江县| 沅陵县| 金坛市| 乌鲁木齐县| 松阳县| 仙游县| 秭归县| 台江县| 泸西县| 高尔夫| 阿图什市| 罗江县| 兴山县| 文化| 沾益县| 宜州市| 黎川县| 来凤县|