基于微博文本的個性化興趣關(guān)注點及情緒變遷趨勢研究

2015-03-11 07:46:56王九碩高國江

河北科技大學學報 2015年2期

王九碩，高凱，趙捷，高國江

(1.河北科技大學信息科學與工程學院，河北石家莊 050018;2.國家保密科技測評中心(河北省)分中心，河北石家莊 050000)

隨著互聯(lián)網(wǎng)的迅速發(fā)展，新興的社交網(wǎng)絡(luò)正快速走進人們的生活。由于微博具有即時性、互動性等特點，較傳統(tǒng)媒體等，它更迎合了廣大用戶，特別是年輕一代網(wǎng)民的需求，博文也傳達了社會各方面的輿情和用戶的情感信息。對博主個性化興趣關(guān)注點及情緒變遷分析的研究是自然語言處理、文本挖掘與心理學交叉領(lǐng)域的重要研究課題，它能分析微博用戶的興趣及情感，分析其情緒變遷趨勢，這對探究自然語言信息背后隱藏著的輿情及情感趨勢分析具有重要的應(yīng)用價值。例如，在2013-04-20到2013-04-23的幾天時間內(nèi)，廣大的新浪微博博主的關(guān)注點就從“4.20雅安地震”事件轉(zhuǎn)為“4.23新疆暴力恐怖案”;而在一年之后的這個時間段內(nèi)，用戶的關(guān)注點又從“馬航MH370失聯(lián)客機”事件轉(zhuǎn)移到“蘭州自來水苯污染”事件上。及時有效地分析社會網(wǎng)絡(luò)用戶的興趣關(guān)注點及其變遷，對輿情分析具有重要價值，這就需要有效地處理機制來對此進行分析。然而，由于公眾關(guān)注的信息(如社會熱點事件)是經(jīng)常變化的，每個人的關(guān)注點亦有所不同，人們在不同的時期對不同的熱點事件也有不同的關(guān)注度，且在缺乏言論主體背景知識的前提下，很多情感分析面臨的歧義問題得不到有效解決，這就使得傳統(tǒng)的文本挖掘算法在分析和處理微博話題的過程中，不能有效地與話題變遷過程結(jié)合起來。本文提出一種特征權(quán)重計算方法，并將特征詞權(quán)重與話題變遷時間段結(jié)合起來進行分析。具體地，首先利用點互信息方法提取出情緒特征詞，為使得到的特征詞權(quán)重更有針對性，本文通過基于距離的語義相似度選擇方法，選擇具有相似語義的不同特征詞，然后將其應(yīng)用到特征權(quán)重計算中，以此來修正特征詞的權(quán)重;最后將時間因素加入到特征詞權(quán)重計算方法中，以便能反映用戶在不同時間段關(guān)注的相關(guān)信息。另一方面，使用情緒分類方法，將博主的情緒分成高興、悲傷、厭惡、憤怒和恐懼，同時也將時間因素添加進來，從而實現(xiàn)對博主在不同時期情緒變遷過程的分析。

自2006年Twitter出現(xiàn)以來，微博等社交網(wǎng)絡(luò)快速發(fā)展，越來越多的研究人員開始研究微博信息的傳播模式，或者通過分析網(wǎng)絡(luò)結(jié)構(gòu)來識別具有影響力的博主［1］。文獻［2］對早期研究工作中通過文本內(nèi)容來分析社會網(wǎng)絡(luò)的方法進行探討。文獻［3］指出了發(fā)現(xiàn)社交網(wǎng)絡(luò)中熱點話題的問題，并提出一個融合話題、社會關(guān)系和微博的概率框架來實現(xiàn)有效的社區(qū)發(fā)現(xiàn)。模型方法方面，文獻［4］展示了一些常見的統(tǒng)計模型方法(如逐步回歸、基于偏最小二乘回歸的徑向基函數(shù)、偏魯棒M-回歸和主成分回歸等)，將其應(yīng)用到多重共線性域中。文獻［5］提出一種基于傳統(tǒng)的多信息特征選擇的改進方法，通過對不同類別中詞的不同表示來構(gòu)建域特征詞。文獻［6］提出一個基于TFIDF的權(quán)重計算框架，通過文檔詞頻率歸一化來決定對應(yīng)詞的重要性。文獻［7］實現(xiàn)了對微博網(wǎng)絡(luò)結(jié)構(gòu)的分析。

在情緒分析方面，文獻［8］提出一種利用情緒誘因提取技術(shù)進行微博文本情緒分類的算法;文獻［9］通過一個多任務(wù)多標記的分類模型，來實現(xiàn)情緒與話題的同步分類;文獻［10］通過抽取特征向量和使用SVM分類方法實現(xiàn)情緒的分類;文獻［11］基于社會網(wǎng)絡(luò)理論抽取出博文的情緒關(guān)系;文獻［12］使用SVM算法完成了對微博文本的情緒識別;文獻［13］通過分析微博文本的特性，包括表情符號、標點符號以及語法框架中核心情緒詞間的距離，并采用改進的依存句法分析來識別文本中包含的情緒;文獻［14］通過使用微博中的表情符號、由頻率統(tǒng)計和標簽傳遞算法構(gòu)造的情緒詞典、以及微博中的語言特征來實現(xiàn)情緒分類;文獻［15］提出以深信度網(wǎng)為基礎(chǔ)框架，并利用偽標記數(shù)據(jù)進行句子的表達學習，以實現(xiàn)微博文本中的情緒分類。文獻［16］提出一種基于類序列規(guī)則的微博情緒分類方法。文獻［17］提出了一個高階的隱馬爾可夫模型來進行文本情緒探測。文獻［18］分別使用SVM以及人工神經(jīng)網(wǎng)絡(luò)(ANN)這兩種方法進行情緒分類，并全面論證了這兩種方法在情緒分類的性能。文獻［19］通過利用上下文情緒詞以及句子的語法結(jié)構(gòu)來提取出特征集，并將其應(yīng)用到情緒分類中，最后使用不同的分類方法來評估特征集的性能。

和上述工作不同，本文是從博主的個性化興趣關(guān)注點進行分析，通過一種基于微博文本的特征權(quán)重計算方法，將時間因素加入到此方法中，來計算不同時間段內(nèi)特征詞的權(quán)重，從而得到博主的關(guān)注信息，并根據(jù)此關(guān)注信息來分析博主在此時間段內(nèi)情緒的變化情況，進而完成了社會網(wǎng)絡(luò)個性化興趣關(guān)注點及情緒的變遷分析工作。

1 基于微博文本的權(quán)重計算方法

定義1 博主和它對應(yīng)的博文可用四元組Q形式化表示，如公式(1)所示:

式中:User-id代表博主;keywords表示在某一時間段從博文中提取出的特征詞;weight代表對應(yīng)特征詞權(quán)重;timestamp表示相應(yīng)的博文發(fā)布時間。

首先，對于四元組Q中特征詞keywords參數(shù)的確定，使用基于篇章分析、中文分詞、同義詞和未登錄詞處理的算法，完成對博文主題詞的抽取，此方法可彌補單獨使用統(tǒng)計方法的缺陷以及避免語義分析中的低頻詞;其次，對于四元組Q中特征詞權(quán)重weight參數(shù)的確定，是以傳統(tǒng)的TFIDF為基礎(chǔ)的，但傳統(tǒng)的TFIDF方法只反映靜態(tài)文檔集中特征詞的權(quán)重，不能有效地表示特征詞在不同時間段內(nèi)的分布信息。因此，本文首先利用基于點互信息(PMI)的方法提取出特征詞，然后提出與時間參數(shù)timestamp相結(jié)合的特征詞權(quán)重計算方法(參見公式(4))。在此過程中，本文從已有的4種情感詞庫(清華大學詞典、臺灣大學詞典、大連理工大學詞典、WordNet)中構(gòu)造關(guān)于(高興、憤怒、厭惡、恐懼、悲傷)基本情緒的標準詞庫，然后從微博語料庫中選取待定詞匯，并根據(jù)它與標準情緒詞匯在語料庫中的互信息大小來確定特征詞［20-21］，以下為互信息計算公式，見式(2):

式中:WDk表示在語料庫中屬于k(1≤k≤6)類情緒下的詞;STkj表示標準詞庫中第k類情緒下的第j個標準詞。最后本文從語料庫中選擇與標準詞匯的互信息最大的詞作為特征詞。

鑒于微博中不同特征詞可能表達相同或者相似的語義，且在不同時間段內(nèi)博主關(guān)注的內(nèi)容在不斷變化，故使用公式(3)來計算特征詞的相似度，并為特征權(quán)重計算做準備，其中δ代表可調(diào)參數(shù)，Dis(wi，t，wk，t)代表語義距離，i和k分別代表不同的關(guān)鍵詞序號，若2個特征詞的語義相似度Sim(wi，t，wk，t)＞0，意味著在給定時間段t內(nèi)的2個特征詞(wi，t，wk，t)屬于博主所關(guān)注的相關(guān)信息，故可將兩者作為同一個關(guān)注點對待。

在式(4)中，t表示時間段，α和β分別代表經(jīng)驗因子。本文設(shè)置博主關(guān)注點變化的初始時間段t=1，此時用每個特征詞的頻率Si，1來計算權(quán)重Wi1;WSim(wi，t－1，wk，t－1)代表在 Sim(wi，t－1，wk，t－1)＞0情況下特征詞wk，t－1的權(quán)重;γt－1代表在特定時間段(t－1)下特征詞的影響度，即在時間段(t－1)中的特征詞在時間段t下受到外界因素的影響而發(fā)生變化的程度，“total number of keyword”表示特征詞的總數(shù)，“the number of ranking”表示當前特征詞按照權(quán)重由大到小的順序進行排序后的名次，其定義如公式(5)所示。如果Wit值低于一定的經(jīng)驗閾值，說明用戶此時已對該關(guān)注內(nèi)容不感興趣。

從上面給出的定義和公式可見，特征詞權(quán)重在不同時期會有所改變。因此，隨著特征詞權(quán)重排名的不斷更改，一些新的特征詞將代替舊的特征詞出現(xiàn)在特征詞集合中，這與實際情況中博主關(guān)注點的變化是一致的，也反映了特征詞與關(guān)注點之間的關(guān)系。

2 基于SVR算法的博主情緒分析

雖然目前在情緒認知分析領(lǐng)域還沒有形成一個統(tǒng)一的基礎(chǔ)情緒類別標準，但有些基本的情緒類別通常是被認可的。本文使用基本情緒(高興、憤怒、厭惡、恐懼、悲傷)作為基礎(chǔ)情緒來分析博主的情緒及其變遷過程。另外，除利用自然語言處理工具從文本信息中挖掘用戶的基礎(chǔ)情緒外，對表情信息的分析也至關(guān)重要。因此，建立一個微博表情庫，形成一個情緒類型與表情圖片的對應(yīng)關(guān)系庫來對表情符號進行分析。借鑒文獻［8］的情緒分析方法，采用基于SVR(support vector regression)的情緒分類方法，分析過程如圖1所示。

首先，進行數(shù)據(jù)預處理(包括過濾鏈接博文、繁體與簡體的轉(zhuǎn)換以及博文去重等);其次，提取出微博文本特征，比如在微博文本中往往包含大量的表情信息，而這些表情最能直接反映用戶當時的情緒，拿這一表情來說，它包含了強烈的高興情緒。本文將抽取出的表情符號與基礎(chǔ)情緒聯(lián)系起來，形成一個表情庫，如表1所示。對于修飾詞、否定詞、關(guān)聯(lián)詞、標點符號等，這些特征在影響情緒產(chǎn)生過程中也起到一定的作用。

表1 表情集Tab.1 Emotion sets

圖1 情緒分析過程Fig.1 Process of emotion analysis

最后，利用式(6)所示的卡方測試方法(式中Ni表示觀察頻數(shù)，n是總頻數(shù)，pi是期望頻率)，將文本中的高頻詞以及類別相關(guān)度大的情緒特征詞挑選出來，作為輔助的情緒特征，并選擇最優(yōu)的特征數(shù)量形成VSM向量維度，以此為基礎(chǔ)來調(diào)節(jié)SVR參數(shù)和分類使用的閾值，實現(xiàn)對微博文本的最佳情緒分類效果。

3 實驗結(jié)果與分析

3.1 實驗數(shù)據(jù)集

為了更好地分析微博文本，文本采用基于模擬登錄技術(shù)的方法，從新浪微博平臺weibo.com獲取了大量的微博數(shù)據(jù)。模擬登錄的主要方法是通過使用網(wǎng)頁瀏覽器獲得相應(yīng)的數(shù)據(jù)，圖2顯示了從新浪微博中采用上述方法隨機獲取的154 678條微博的統(tǒng)計圖(水平軸表示博文的長度，縱軸則表示對應(yīng)的比例)，從圖中可以看出，博文均較短，即使對博文進行忽略詞處理，也難掩其內(nèi)容碎片化、口語化、不規(guī)范等特點，這使得常規(guī)的基于關(guān)鍵詞或主題詞的分類、聚類等傳統(tǒng)算法難以發(fā)揮應(yīng)有的作用。

為驗證本文算法的有效性，在數(shù)據(jù)采集階段，有針對性地抓取了一些特殊人群的微博數(shù)據(jù)，完成對核心話題的數(shù)據(jù)采集。隨機選取李開復(http://weibo.com/kaifulee)的微博數(shù)據(jù)進行分析。首先，抓取其在2013-04-20到2013-05-20期間發(fā)表的博文作為數(shù)據(jù)源，并分成10個時間段作為觀測區(qū)間(如Time=1，Time=2，…，Time=10)，具體數(shù)據(jù)集如表2所示。

表2 數(shù)據(jù)集表Tab.2 Data set table

圖2 微博內(nèi)容統(tǒng)計圖Fig.2 Statistical figure ofmicro-blog content

表2中的有效微博數(shù)指的是經(jīng)過預處理(指對博文去重、簡繁體轉(zhuǎn)換、過濾無關(guān)成分、全半角轉(zhuǎn)換等)之后剩下的微博數(shù)目。

為了更好地對本算法進行評估，本文將語料庫交給3名情緒挖掘領(lǐng)域的人員進行人工標注，標注的內(nèi)容包括情緒的類別(如:“高興”、“憤怒”、“厭惡”、“恐懼”、“悲傷”)。具體標注過程如下所示:1)2個標注人員對博文中包含明顯情緒類型的博文進行標注;2)如果博文不包含任何情緒，則不對其進行標記;3)如果2個標注人員都無法確定此博文屬于哪類情緒，則此博文將被標注為中性;4)如果2個標注人員在標記過程中出現(xiàn)沖突，則最終的結(jié)果交由第3個標注人員決定。

3.2 個人關(guān)注點與情緒變遷分析

為了更好地分析微博用戶在不同時間段對關(guān)注話題的變化與情緒變遷情況，本文選取具有較高權(quán)重的前N個特征詞(表3中，經(jīng)驗參數(shù)N取值5)作為分析博主的興趣關(guān)注點信息。為了分析本方法的實驗效果，使用傳統(tǒng)的TFIDF方法作為對比。從實驗結(jié)果中可看到本文方法得到的特征詞權(quán)重有所提高(表3中的劃線部分為特征詞權(quán)重提高部分)，說明時間因素和特征詞相似度在特征詞權(quán)重計算方面也起到了一定的作用，而基于傳統(tǒng)的TFIDF得到特征詞權(quán)重不能較好地反映該詞在微博中隨時間變化而產(chǎn)生的影響。統(tǒng)計表明，基于時間因素和特征詞相似度的算法得到的反映用戶特征的關(guān)鍵詞集合的權(quán)重值，比常規(guī)TFIDF算法提高了10.81%(限于篇幅，表3僅給出針對特定博主的部分特征詞權(quán)重計算結(jié)果)，從而說明了本文方法的可行性。選取具有最高權(quán)重的特征詞作為該用戶的關(guān)注點話題，并利用標簽云技術(shù)將分析結(jié)果顯示出來，如圖3所示，可更加直觀而有效地展示特定博主在某個時期的關(guān)注情況。

表3 Top-5特征詞權(quán)重分析Tab.3 Analysis of Top-5 feature terms’weights

利用對基礎(chǔ)情緒的分類算法，對相關(guān)博主在一個月內(nèi)發(fā)表的博文進行分析，得到博主在不同時間段內(nèi)表現(xiàn)出來的情緒如圖4所示(其中，橫坐標表示時間段，縱坐標表示微博數(shù)目)。從圖4中可以看出，博主在時間段內(nèi)所表現(xiàn)出的基礎(chǔ)情緒以波浪式的方式變化，其中，在第1個時間段內(nèi)發(fā)生了“4.20雅安地震”事件，正好與博主在這個時間段的關(guān)注點“災區(qū)”相符，此時用戶主要表現(xiàn)出“悲傷”的情緒，說明用戶情緒與當時發(fā)生的社會環(huán)境有關(guān)。另一方面，從博主的整體情緒變化來看，用戶多數(shù)情況下是處于“高興”或者無情緒的狀態(tài)，這也說明了用戶在日常生活中一直表現(xiàn)積極的態(tài)度。從宏觀方面來說，有效地提取出用戶的情緒可以幫助研究人員研究其心理活動，對于構(gòu)建健康的網(wǎng)絡(luò)環(huán)境和社會環(huán)境具有深遠的意義。

圖3 個性化興趣關(guān)注點標簽云Fig.3 Tag cloud of personal interests

圖4 情緒變遷情況Fig.4 Case of emotion transition tendency

4 結(jié)語

本文給出基于微博文本的個人興趣關(guān)注點動態(tài)變遷算法以及基于SVR的博主情緒變遷方法，該方法雖然達到了預期的目標，但是在特征權(quán)重計算方法上仍有改進的空間，在情緒分析方面可能存在部分片面性，如未將博主的性格特征與博主的情緒結(jié)合起來進行分析，觀察用戶的情緒變遷情況。分析結(jié)果以標簽云的形式展現(xiàn)出來，達到了關(guān)注點可視化的效果。未來的工作中，將完善相關(guān)方法，并對情緒產(chǎn)生的誘因進行分析，以實現(xiàn)較好的情緒誘因抽取效果，并計算出不同的誘因成分所占的比例。

/References:

［1］ KWAK H，LEE C，PARK H，et al.What is twitter，a social network or a newsmedia［A］.Proceedings of the19th International Conference on World WideWeb［C］.New York:ACM，2010:591-600.

［2］ DANESCU-NICULESCU-MIZIL C，LEE L，PANG B.Echoes of power:Language effects and power differences in social interaction［A］.Proceedings of the 21st International Conference on World WideWeb［C］.New York:ACM，2012:699-708.

［3］ SACHANM，CONTRACTOR D，F(xiàn)ARUQUIE TA，etal.Using contentand interactions for discovering communities in social networks［A］.Proceedings of the21st International Conference on World WideWeb［C］.New York:ACM，2012:331-340.

［4］ GARG A，TAIK.Comparison of statistical and machine learningmethods in modelling of data with multicollinearity［J］.International Journal of Modelling，Identification and Control，2013，18(4):295-312.

［5］ LUO Y，OUYANG N.Text similarity calculation based on domain featureword［A］.International Conference on Automatic Control and Artificial Intelligence［C］.New York:IEEE，2012:2049-2051.

［6］ PAIK JH.A novel tf-idfweighting scheme for effective ranking［A］.Proceedings of the 36th International ACM SIGIR Conference on Research and Development in Information Retrieval［C］.New York:ACM，2013:343-352.

［7］ WENG Jianshu，LIM E P，JIANG Jing.Twitterrank:finding topic sensitive influential twitterers［A］.Proceedingsof the Third ACM International Conference on Web Search and Data Mining［C］.New York:ACM，2010:261-270.

［8］ LIWeiyuan，XU Hua.Text-based emotion classification using emotion cause extraction［J］.Expert SystemsWith Applications，2014，41(4):1742-1749.

［9］ HUANG Shu，PENGWei，LIJingxuan，etal.Sentiment and topic analysis on socialmedia:amulti-taskmulti-label classification approach［A］.Proceedings of the 5th Annual ACMWeb Science Conference［C］.New York:ACM，2013:172-181.

［10］ CHO SH，KANG H B.Text sentiment classification for sns-based marketing using domain sentiment dictionary［A］.2012 IEEE International Conference on Consumer Electronics(ICCE)［C］.New York:IEEE，2012:717-718.

［11］ HU Xia，TANG Lei，TANG Jiliang，et al.Exploiting social relations for sentiment analysis inmicroblogging［A］.Proceedings of the sixth ACM International Conference on Web Search and Data Mining［C］.New York:ACM，2013:537-546.

［12］ ZHENG Yuan，MATTHEW P.Predicting emotion labels for chinesemicroblog texts［A］.CEURWorkshop Proceedings［C］.UK:School of computing University of Portsmouth Buckingham Building，2012，917(4):40-47.

［13］ GUO Fuliang，ZHOUGang.Research onmicro-blog sentimentorientation analysisbased on improved dependency parsing［A］.2013 3rd International Conference on Consumer Electronics，Communications and Networks(CECNet)［C］.New York:IEEE，2013:546-550.

［14］ JIANG Fei，CUIAnqi，LIU Yiqun，etal.Every Term has Sentiment:Learning from Emoticon Evidences for ChineseMicroblog Sentiment Analysis［M］.Berlin:Springer Berlin Heidelberg，2013:224-235.

［15］ TANGDuyu，QIN Bing，LIU Ting，etal.Learning Sentence Representation for Emotion Classification on Microblogs［M］.Berlin:Springer Berlin Heidelberg，2013:212-223.

［16］ WEN Shiyang，WAN Xiaojun.Emotion classification inmicroblog texts using class sequential rules［A］.Twenty-Eighth AAAIConference on Artificial Intelligence［C］.Canada:AAAIPress，2014:187-193.

［17］ HO D T，CAO T H.A High-order Hidden Markov Model for Emotion Detection from Textual Data［M］.Berlin:Springer Berlin Heidelberg，2012:94-105.

［18］ MORAESR，VALIATIJF，NETOW P.Document-level sentiment classification:an empirical comparison between svm and ann［J］.Expert Systemswith Applications，2013，40(2):621-633.

［19］ GHAZID，INKPEN D，SZPAKOWICZ S.Prior and contextual emotion ofwords in sentential context［J］.Computer Speech＆ Language，2014，28(1):76-92.

［20］徐琳宏，林鴻飛，潘宇，等.情感詞匯本體的構(gòu)造［J］.情報學報，2008，27(2):180-185.XU Linhong，LIN Hongfei，PAN Yu，etal.Constructing the affective lexicon ontology［J］.Journal of the China Society for Scientific and Technical Information，2008，27(2):180-185.

［21］于瀟，萬軍，何翔，等.校園微博情感分析系統(tǒng)的設(shè)計與實現(xiàn)［J］.河北工業(yè)大學學報，2013，42(6):24-29.YU Xiao，WAN Jun，HE Xiang，et al.The design and realization of themicro blog sentimentanalysis system for campus network［J］.Journal of Hebei University of Technology，2013，42(6):24-29.