王鐵套,王國營,陳 越,黃惠新
(解放軍信息工程大學(xué) 電子技術(shù)學(xué)院,河南 鄭州450004)
網(wǎng)絡(luò)輿情表達(dá)快捷、信息多元、方式互動等特點使其成為社會輿情動態(tài)的實時晴雨表,對人們生活和社會穩(wěn)定的影響越來越大。突發(fā)事件易成為輿論焦點,一旦被網(wǎng)絡(luò)媒體或網(wǎng)民報道,短時間內(nèi)便會引起眾多網(wǎng)民關(guān)注,相關(guān)報道被重復(fù)轉(zhuǎn)載、迅速傳播,進(jìn)而造成突發(fā)事件事態(tài)擴(kuò)大,并可能引起新的突發(fā)事件,因此,國家和社會的相關(guān)管理者應(yīng)該對網(wǎng)絡(luò)輿情進(jìn)行及時的掌控。
目前,一些學(xué)者已經(jīng)對網(wǎng)絡(luò)輿情態(tài)勢的分析進(jìn)行了研究,例如,謝海光[1]等從統(tǒng)計學(xué)的角度構(gòu)建了互聯(lián)網(wǎng)內(nèi)容和輿情的熱點、重點、焦點、敏點、頻點、拐點、難點、疑點、粘點和散點等十個分析模式和判據(jù);錢愛兵[2]等設(shè)計出主題關(guān)注度分析、熱點分析、焦點分析、拐點分析、重點分析,對網(wǎng)絡(luò)輿情態(tài)勢的分析提供了一種思路。
本文針對網(wǎng)絡(luò)輿情的文本信息,依據(jù)文本情感分析技術(shù),從情感詞匯和上下文語境的角度對網(wǎng)絡(luò)輿情進(jìn)行分析,判斷網(wǎng)絡(luò)輿情的發(fā)展態(tài)勢。
目前,基于語義的文本傾向性研究方法主要有兩種:一種是通過現(xiàn)有詞典構(gòu)建情感傾向詞典,基于建立的詞典,運用分詞等技術(shù)判斷文檔中包含的關(guān)鍵詞與詞典中情感詞的語義相似度來決定此關(guān)鍵詞的傾向性,把所有關(guān)鍵詞的傾向性綜合起來就可得到此文檔的傾向性。例如,Hiroya[3]等采用計算待測詞和一些具有明顯傾向性的基準(zhǔn)詞之間的互信息來判斷傾向性,即利用待測詞與褒義詞、貶義詞的語義距離計算待測詞匯的語義傾向性;Ku[4]等利用WordNet中的其他與詞匯相關(guān)的信息來判斷詞匯的語義傾向性;徐琳宏[5]等采用HowNet作為基準(zhǔn)詞,并在實驗中加入否定詞和副詞的處理,計算待測詞與關(guān)聯(lián)度確定語義傾向,從語義理解方面對電影評論進(jìn)行了傾向性識別研究。
另一種是建立一個語義模式庫,采用語義分析技術(shù)用于文本傾向性判斷。例如,Wilson等[6]探討如何結(jié)合上下文環(huán)境中判定詞語傾向性,選用了大量的特征,對信息的傾向性判別提出一種比較全面的方法;呂濱[7]等設(shè)計了一種基于語義分析的信息過濾模型,該模型針對不良信息的特點,以自然語句為處理單元,采用主題詞和語義分析的兩級過濾工作模式,實驗表明,一級過濾由于采用精確主題詞匹配,準(zhǔn)確率為100%,二級過濾的準(zhǔn)確率達(dá)到80%以上,這樣可以同時獲得較高的處理效率和精度。
綜上可知,文本情感傾向性分析技術(shù)已經(jīng)具有一定的研究成果,但是許多方法只是片面地進(jìn)行傾向性判定,不能較全面、準(zhǔn)確地判定文本傾向性。針對突發(fā)事件網(wǎng)絡(luò)輿情,本文把語義模式和詞匯情感傾向性分析技術(shù)結(jié)合起來,對輿情話題評論進(jìn)行文本情感傾向性分析,判定輿情話題評論的正負(fù)導(dǎo)向性。
基于語義模式的方法不具有通用性,針對每個話題要抽取的語義模式不一樣,另外,無法實現(xiàn)自動抽取語義模式;基于情感詞匯的方法具有通用性,對于所有的話題可以使用一樣的情感詞典,而且人工操作少,但是,基于情感詞匯的方法由于沒有考慮語義關(guān)系和上下文環(huán)境,并不能真正鑒別相關(guān)文本的情感傾向性。通過以上分析可以看出,單獨使用一種方法都不能達(dá)到較好的判別效果。由此,結(jié)合兩種方法的優(yōu)點,將兩者結(jié)合起來形成如下思路:首先,基于HowNet建立基準(zhǔn)詞詞典、否定詞詞典、程度副詞詞典和語義模式庫;其次,對句子進(jìn)行中文分詞和詞性標(biāo)注,提取特征詞匯并依據(jù)HowNet相似度方法確定其傾向值,注意考慮否定詞、程度副詞對詞匯傾向值的影響;第三,對句子進(jìn)行語義模式匹配并確定句子權(quán)值,并結(jié)合前面計算的詞匯傾向值來確定文檔的傾向值;最后將文檔的傾向值與設(shè)定的閾值進(jìn)行比較來最終確定文檔的情感傾向性。
詞匯情感傾向值的計算一般基于情感詞典,基于情感詞典的計算思想[8]是首先選出具有代表性的k對基準(zhǔn)詞,而每對基準(zhǔn)詞包含一個褒義詞和一個貶義詞。若褒義基準(zhǔn)詞用key_p表示,貶義基準(zhǔn)詞用key_n表示,詞匯w的情感傾向值用Orient(w)表示,則計算公式[9]為
Orient(w)的數(shù)值大小表示詞匯w褒貶的強(qiáng)烈程度。其中,Sim(key,w)表示詞匯w與基準(zhǔn)詞之間的語義相似度。
一個詞匯可能具有多個義項,而一個義項又可能有多個義原,詞匯相似度計算可轉(zhuǎn)換為義項相似度計算,而義項相似度計算又可解析為若干義原的相似度計算[10]。兩個義原之間的語義相似度定義如下
式中:p1、p2——兩個義原,d——兩個義原在層次體系中的路徑距離,α——一個可調(diào)節(jié)的參數(shù)。
由義原之間的語義相似度可導(dǎo)出義項之間的語義相似度,其定義如下[11]
式中:Y1、Y2——兩個義項,t1、t2——義項Y1和Y2中的屬性個數(shù),原字符串——義項定義中不同位置的屬性的權(quán)重值。
由此推出兩個詞匯之間的語義相似度[12]為
式中:W1、W2——兩個詞匯,詞匯W1有M個義項Y1,Y2,...,YM,詞匯W2有N個義項Z1,Z2,...,ZN。
考慮到否定詞和程度副詞對詞匯情感傾向值的影響,除了構(gòu)建基準(zhǔn)詞詞典之外,還需要構(gòu)建否定詞詞典和程度副詞詞典。作為實驗,本文構(gòu)建的詞典中包含了漢語語言中常用的否定詞和程度副詞,這樣可以較為全面的計算詞匯的情感傾向值。構(gòu)建的否定詞詞典是從HowNet中抽取的22個否定詞,即:并非、不、不對、不再、不曾、不至于、從不、毫不、毫無、絕非、決非、沒、沒有、尚未、未、未必、未嘗、未曾、永不、不大、不太、不很等。
如果情感詞匯添加了否定前綴,其傾向值就會發(fā)生變化,有否定前綴修飾的詞匯的傾向值的計算定義為
式中:m——否定詞修飾的情感詞匯,u——否定詞出現(xiàn)的次數(shù)。
構(gòu)建的程度副詞詞典根據(jù)每個程度副詞的表達(dá)程度不同,為程度副詞定義不同的強(qiáng)度值。本文抽取59個程度副詞,將其劃分為7個級別,分別賦予不同的強(qiáng)度,其値從1.5倍到0.8倍,具體設(shè)置如表1所示[13]。
表1 程度副詞
如果情感詞匯有程度副詞修飾,其傾向值也發(fā)生變化,有程度副詞修飾的詞匯的傾向值的計算定義為
式中:n——程度副詞修飾后的情感詞匯,G(v)——程度副詞v的強(qiáng)度值。
針對話題的評論 (專指文本),利用中國科學(xué)院計算技術(shù)研究所研制的中文分詞系統(tǒng)ICTCLAS[14]進(jìn)行中文分詞和詞性標(biāo)注,查找評論中帶有情感傾向的詞匯,并依據(jù)情感詞典記錄其傾向值,判斷評論中是否出現(xiàn)否定詞和程度副詞,計算詞匯被修飾后的情感傾向值,最后,話題評論的情感強(qiáng)度為
式中:Opinion(di)——話題的評論di的情感強(qiáng)度,w——包含評論中沒有被否定詞和程度副詞修飾的情感詞匯,m——被否定詞修飾的情感詞匯,n——被程度副詞修飾的情感詞匯。
針對話題評論的情感傾向性分析,只用詞匯的情感傾向性并不能真實全面反映評論所包含的情感,還需要依賴于一些語義模式。例如:“朝鮮擊敗韓國”和 “韓國擊敗朝鮮”,在向量空間模型中,其向量形式均為 (朝鮮,韓國,擊?。?,兩者的相似度為1,兩個句子在任何情況下都是匹配的,而其實兩個句子的意思卻相反。要解決這個問題,則只有通過語義模式分析,識別文本和句子中各個特征項的角色和作用,進(jìn)而比較全面地確定話題評論的情感傾向性。
基于語義模式的情感分析不僅僅是特征提取,而且要體現(xiàn)出語義關(guān)系。在情感傾向性分析時,也可以忽略一些要素,因為它們對情感傾向性的分析結(jié)果影響不大。依據(jù)動作的施加和承受,可以將句子分為4種語義模式[15]:
(1)主體 (Who)+行為 (What)+客體 (Whom)+權(quán)值 (Power),即主謂賓模式;
(2)主體 (Who)+行為 (What)+權(quán)值 (Power),即主謂模式;
(3)行為 (What)+客體 (Whom)+權(quán)值 (Power),即動賓模式;
(4)關(guān)鍵對象+權(quán)值 (Power),即關(guān)鍵對象模式。
在一些評論中,有些對象本身就反映了情感傾向,模式 (4)將具有明顯傾向性的主體、行為或客體稱為關(guān)鍵對象。例如:主體 “東突集團(tuán)”、行為 “欺詐”本身就反映了強(qiáng)烈的情感傾向。
另外,對每個模式設(shè)置權(quán)值,表示褒義傾向的語義模式設(shè)置為正權(quán)值,表示貶義傾向的語義模式設(shè)置為負(fù)權(quán)值,例如:反對臺獨的模式權(quán)值可以分別設(shè)置為1~3,而支持臺獨的模式權(quán)值可以分別設(shè)置為-1~-3,這樣的設(shè)置可以消除因引用反面信息而造成的誤判,比如,褒義評論中可能引用一些貶義信息,出現(xiàn)這類評論的語義模式的權(quán)值可能會小于零,但是整個評論的大部分語義模式的權(quán)值大于零,則整個評論的權(quán)值就大于零,不會造成傾向性誤判。
綜合以上兩種分析,給出以下判定算法。
輸入:語義模式集合S= {s1,s2,...},需要情感傾向判定的話題T= {d1,d2,...},其中,di是話題的各條評論,設(shè)定閾值θ。
輸出:話題評論的情感傾向值R(T)。
話題評論傾向性判定步驟:
(1)為話題的每條評論di尋找與集合S中相匹配的語義模式,得到相應(yīng)的權(quán)值Q= {q1,q2,...};
(2)對話題的每條評論di進(jìn)行中文分詞和詞性標(biāo)注,提取特征對象和特征詞匯,依據(jù)以上基于詞匯的情感傾向值計算得到該評論的情感傾向值Opinion(di);
(3)結(jié)合評論的語義模式的權(quán)值qi和其情感傾向值Opinion(di)得到該話題評論的最終情感傾向值
式中:ci——評論di的字?jǐn)?shù)。
(4)將 (3)計算得到的最終情感傾向值與設(shè)定的閾值θ進(jìn)行比較,判定話題評論的情感傾向性。
本文人工采集兩個話題 (T1和T2)及其評論進(jìn)行實驗,分別采用基于語義模式的方法、基于詞匯情感傾向性的方法與基于本文提出的綜合性方法進(jìn)行情感傾向性判斷比較。話題T1是百度貼吧上對突發(fā)事件 “新疆7.5事件”的評論集,包含500條評論,其中300條正面的評論、150條負(fù)面的評論和50條中立的評論;話題T2是網(wǎng)易新聞?wù)搲嫌嘘P(guān)突發(fā)事件 “劉翔奧運退賽”的評論集,包含230條積極的評論、220條消極的評論和50條中立的評論。
為了比較3種方法的性能,對測試的話題評論集計算其判斷準(zhǔn)確率。利用下面的公式計算其判斷的準(zhǔn)確率
式中:A——被正確判斷為正面的評論個數(shù),B——被誤判為正面的評論個數(shù),C——被誤判為負(fù)面的評論個數(shù),D——被正確判斷為負(fù)面的評論個數(shù)。
表2是針對不同的話題所進(jìn)行的測試,其中,方法1、方法2、方法3分別代表 “基于語義模式的方法”、“基于情感傾向性的方法”和 “基于綜合的方法”。
表2 3種方法的實驗結(jié)果對比
實驗表明,從判斷的準(zhǔn)確率來看,方法3較方法1和方法2的評論傾向的判斷準(zhǔn)確率高,這在一定程度上驗證了方法3的有效性和實用性,即方法3綜合兩者的優(yōu)點,使文本情感傾向判定的準(zhǔn)確率達(dá)到了較理想的效果,比較全面地反映了話題評論的情感傾向性。
本文提出了一種將語義模式與計算詞匯情感傾向性相結(jié)合的方法來判斷文本的情感傾向性。該方法既考慮了詞匯的情感傾向性,又能權(quán)衡語義模式對評論的情感傾向值的影響,能比較全面地分析突發(fā)事件網(wǎng)絡(luò)輿情的態(tài)勢。但是詞典的構(gòu)建與語義模式的建設(shè)需要人工參與的操作多,個人的主觀性影響比較大,機(jī)器學(xué)習(xí)的工作不多,這些都需要改進(jìn),另外,由于網(wǎng)絡(luò)語言表達(dá)的靈活性,現(xiàn)有技術(shù)還不能完全準(zhǔn)確地判定句子的情感傾向性,需要進(jìn)一步研究。
[1]XIE Haiguang,CHEN Zhongrun.Internet Information and the pattern of public opinion analysis in depth [J].Journal of China Youth College for Political Sciences,2006,25 (3):95-100(in Chinese).[謝海光,陳中潤.互聯(lián)網(wǎng)內(nèi)容及輿情深度分析模式 [J].中國青年政治學(xué)報,2006,25 (3):95-100.]
[2]QIAN Xuebing.A model for analyzing public opinion under the Web and its implementation [J].New Technology of Library and Information Service,2008,24 (4):49-55 (in Chinese).[錢愛兵.基于主題的網(wǎng)絡(luò)輿情分析模型及其實現(xiàn) [J].現(xiàn)代圖書情報技術(shù),2008,24 (4):49-55.]
[3]Hiroya Takamura,Takashi Inui,Manabu Okumura.Extracting semantic orientations of words using spin model [C].Michigan,USA:Proceedings of the 43rd Annual Meeting on Association for Computational Linguistics,2005:133-140.
[4]KU Lun-Wei,LIANG Yu-Ting,CHEN Hsin-His.Opinion extraction,summarization and tracking in news and blog corpora[C].Proc of AAAI Spring Symposium on Computational Approaches to Analyzing Weblogs,2006:100-107.
[5]XU Linhong,LIN Hongfei,YANG Zhihao,et al.Text orientation identification based on semantic comprehension [J].Journal of Chinese Information Processing,2007,21 (1):96-100(in Chinese).[徐琳宏,林鴻飛,楊志豪,等.基于語義理解的文本傾向性識別機(jī)制 [J].中文信息學(xué)報,2007,21(1):96-100.]
[6]Theresa Wilson,Janyce Wiebe,Paul Hoffmann.Recognizing contextual polarity in phrase-level sentiment analysis [C].Vancouver:Proceedings of Human Language Technology Conference and Conference on Empirical Methods in Natural Language Processing,2005:347-354.
[7]LV Bin,LEI Guohua,YU Yanfei,et al.Reaserch on filtering system of harmful information on internet based on semantic analysis [J].Computer Applications and Software,2010,27 (2):283-285 (in Chinese).[呂濱,雷國華,于燕飛,等.基于語義分析的網(wǎng)絡(luò)不良信息過濾系統(tǒng)研究 [J].計算機(jī)應(yīng)用與軟件,2010,27 (2):283-285.]
[8]WordNet[EB/OL].http://wordnet.princeton.edu/,2008.
[9]ZHU Yanlan,MIN Jin,ZHOU Yaqian,et al.Semantic orientation computing based on HowNet [J].Journal of Chinese Information Processing2006,20 (1):14-20 (in Chinese).[朱嫣嵐,閔錦,周雅倩,等.基于HowNet的詞匯語義傾向計算 [J].中文信息學(xué)報,2006,20 (1):14-20.]
[10]HowNet[EB/OL].http://www.keenage.com,2008.
[11]LI Dun,QIAO Baojun,CAO Yuanda,et al.Word orientation recognition based on semantic analysis [J].Pattern Recognition and Artificial Intelligence,2008,21 (4):482-487 (in Chinese).[李鈍,喬保軍,曹元大,等.基于語義分析的詞匯傾向識別研究 [J].模式識別與人工智能,2008,21 (4):482-487.]
[12]JIANG Min,XIAO Shibin,WANG Hong wei,et al.An improved word similarity computing method based on HowNet[J].Journal of Chinese Information Processing,2010,22(1):5-7 (in Chinese).[江敏,肖詩斌,王弘蔚,等.一種改進(jìn)的基于 《知網(wǎng)》的語義相似度計算 [J].中文信息學(xué)報,2010,22 (1):5-7.]
[13]WEN Bin,HE Tingting,LUO Le,et al.Text sentiment classification research based on semantic [J].Computer Science,2010,20 (1):261-264 (in Chinese).[聞彬,何婷婷,羅樂,等.基于語義理解的文本情感分類方法研究 [J].計算機(jī)科學(xué),2010,20 (1):261-264.]
[14]ICTCLAS.ICTCLAS’s Home Page [EB/OL].http://ictclas.org/,2010.
[15]JIANG Baolin,LIU Yongdan,JIN Feng,et al.A tendentious text filtering system based on semantic analysis [J].Computer Applications and Software,2005,22 (1):10-11(in Chinese).[江寶林,劉永丹,金峰,等.一個基于語義分析的傾向性文檔過濾系統(tǒng) [J].計算機(jī)應(yīng)用與軟件,2005,22 (1):10-11.]