田 芳,孫 曉,孫本旺
(1.青海大學(xué) 信息化技術(shù)中心,青海 西寧 810016;2.合肥工業(yè)大學(xué) 計算機與信息學(xué)院,安徽 合肥 230009;3.青海大學(xué) 計算機技術(shù)與應(yīng)用系,青海 西寧 810016)
為了使計算機理解人類語言,自然語言處理研究越來越得到研究者的重視。自然語言處理技術(shù)的基礎(chǔ)是語料知識庫,如詞匯語義。語義信息概念最早由Bar-Hillel教授和Carnap教授在1953年提出[1]。隨后,1992年John F. Sowa教授明確了語義網(wǎng)絡(luò)(semantic network)[2]。從二十世紀(jì)九十年代中期,世界各國研究者研究開發(fā)了語義詞典[3],包括美國普林斯頓大學(xué)的WordNet[4]、美國微軟的MindNet[5]、意大利信息研究所情感詞典SentiWordNet[6]等。中文語義詞典比較著名的有中科院董振東先生提出的知網(wǎng)HowNet[7]、哈爾濱工業(yè)大學(xué)的同義詞詞林[8]、北京大學(xué)計算語言研究所的中文概念詞典[9]、現(xiàn)代漢語語義詞典[10]、中國科學(xué)院聲學(xué)研究所黃曾陽教授提出的HNC概念層次網(wǎng)絡(luò)等[11]。1997年情感計算的概念由MIT媒體實驗室Picard教授提出[12],情感詞典的構(gòu)建研究起步。情感語義詞典是文本情感分析研究的基礎(chǔ)。情感語義詞典注重情感詞的義元和各類語義關(guān)系。基于情感語義詞典的詞匯間關(guān)系,可以更好地分析文本情感信息。但現(xiàn)有的情感語義詞典缺乏情感語義關(guān)系,如何自動構(gòu)建情感語義關(guān)系顯得非常重要。
國外情感詞方面獲取研究主要集中在情感傾向詞匯獲取和極性判斷。WIEBE等基于少量標(biāo)注的詞匯種子,根據(jù)種子分布相似性對主觀形容詞進行聚類,實現(xiàn)對未標(biāo)注主觀形容詞的分類提取[13]。RILOF等采用基于模式匹配利用步步為營算法實現(xiàn)主觀性名詞抽取[14]。BARONI和KAJI等基于網(wǎng)絡(luò) 概念共現(xiàn)互信息識別主觀性形容詞[15]。MOILANEN等基于語素進行情感新詞發(fā)現(xiàn)并標(biāo)注等[16]。文獻(xiàn)[17]使用英文連詞關(guān)系,抽取形容詞情感傾向。Turney等利用情感種子在網(wǎng)絡(luò)搜索引擎查詢片段,基于情感詞匯的互信息PMI判別詞匯的情感傾向的極性[18]。
中文情感詞典構(gòu)建主要的研究思路為基于語料統(tǒng)計以及語義詞典等方法?;谡Z料的情感詞典構(gòu)建方法通過統(tǒng)計詞語間的共現(xiàn)頻率信息或語義情感詞典利用詞語相似度來計算詞語的語義傾向[19]。主要使用的中文語義詞典包括HowNet和同義詞詞林等。朱嫣嵐等提出基于語義相似度和語義相關(guān)的計算詞匯語義傾向性方法,通過計算目標(biāo)詞匯與HowNet中已標(biāo)注褒貶性詞匯間的相似度得到目標(biāo)詞匯的傾向性[20]。李軍等采用機器學(xué)習(xí)方法進行語義分類[21]。大連理工大學(xué)信息檢索研究室采用人工標(biāo)注和自動分類的方法構(gòu)建情感詞匯本體[22]。柳位平等采用人工挑選情感詞匯結(jié)合HowNet語義相似度計算的方法構(gòu)建了中文基礎(chǔ)情感詞詞典[23]。臺灣大學(xué)整理構(gòu)建了中文情感詞典NTUSD。張成功等整理了包含基礎(chǔ)情感詞典及領(lǐng)域詞典、網(wǎng)絡(luò)詞詞典及修飾詞詞典的綜合詞典[24]。周詠梅等考慮情感詞在不同語義環(huán)境的情感傾向,基于HowNet和Senti-WordNet建立中文情感詞典SLHS[25]。林江豪等利用SO-PMI技術(shù)構(gòu)建中文情感詞典[26]。陳建美等基于情感詞匯語法特征和CRF自動獲取情感詞[27]。金宇等提出基于直推式學(xué)習(xí)的中文情感詞極性判別方法,情感詞的詞源來自《現(xiàn)代漢語大辭典》[28]。很多學(xué)者對現(xiàn)有語義詞典構(gòu)建中文情感詞典的研究正說明了現(xiàn)有情感詞典的不足[29-30]。
互聯(lián)網(wǎng)匯集了很多人的智慧和知識積累,包括各類網(wǎng)站和知識百科(維基百科、互動百科、百度百科等等)。利用互聯(lián)網(wǎng)的海量知識獲取概念及語義關(guān)系,已得到很多學(xué)者的共識[31-32]。研究者主要利用互聯(lián)網(wǎng)的海量信息,基于情感種子詞匯或現(xiàn)有詞典,利用搜索引擎返回的共現(xiàn)抽取情感詞匯,計算情感詞傾向和權(quán)值等。如陽愛民等在利用NTUSD和HowNet詞典構(gòu)建基礎(chǔ)詞典的基礎(chǔ)上,選用情感種子詞,基于搜索引擎構(gòu)建情感詞典[33]。搜索引擎是面向全網(wǎng)搜索,需要經(jīng)過分詞、規(guī)則、互信息等過濾詞匯,算法復(fù)雜度高。
綜上所述,目前情感詞典的自動構(gòu)建研究中,主要是面向詞匯的發(fā)現(xiàn)、情感分類和情感傾向標(biāo)注,缺乏情感詞匯的語義關(guān)系抽取。相對全網(wǎng)數(shù)據(jù)數(shù)據(jù)源的數(shù)據(jù)抽取,尚沒有利用知識百科針對情感詞匯語義關(guān)系抽取的相關(guān)研究。由此提出基于網(wǎng)絡(luò)知識百科,獲取情感詞匯和詞匯間語義關(guān)系的方法,同時利用抽取的情感同義詞語義關(guān)系,自動擴展標(biāo)注情感詞匯傾向。
人類情感有復(fù)雜性,描述同類情感可選擇很多相近詞匯來表達(dá),由此提出一個假設(shè):每個情感概念一般都有同義詞和反義詞?;谶@個假設(shè),提出利用情感種子詞匯基于同義詞和反義詞關(guān)系抽取情感詞匯,并遞歸抽取新的情感詞匯同義詞和反義詞關(guān)系的算法。
情感語義關(guān)系抽取采用的是遞歸算法,選用網(wǎng)絡(luò)百科數(shù)據(jù)源為百度漢語。網(wǎng)絡(luò)百科是志愿者填寫,缺乏審核,選擇兩類標(biāo)簽抽取,目的是驗證數(shù)據(jù)的準(zhǔn)確性。數(shù)據(jù)源標(biāo)簽具體第一個是情感種子詞匯的近義詞和反義詞標(biāo)簽,第二個是情感詞匯的釋義標(biāo)簽。
詞匯的同義詞集合和反義詞集合不同,所以這兩個集合分別利用遞歸算法抽取,即每個新抽取詞匯被視為新的種子進入遞歸抽取其同義詞或反義詞。算法的輸入為情感種子詞匯Seed(x),用Seed(x)作為同義詞種子Syn-Seed(x)和反義詞種子Ant-Seed(x)。抽取結(jié)果為新的情感詞匯R(x),及其同義詞集合Syn(x)和反義詞集合Ant(x)。抽取算法對于每一個情感詞匯種子,首先在過濾規(guī)則1和規(guī)則2(過濾規(guī)則見2.2)的條件下,利用數(shù)據(jù)源百度漢語中抽取其近義詞Syn(x)和反義詞Ant(x),同時抽取在數(shù)據(jù)源百度漢語中的釋義Exp(x)。然后,對于抽取獲得的近義詞Syn(x)和反義詞Ant(x)經(jīng)過規(guī)則3過濾,并分別和百度漢語抽取Exp(x)結(jié)果進行合并去重,獲得的結(jié)果添加到Syn-Seed(x)和Ant-Seed(x)。最后,算法返回到第一步實現(xiàn)遞歸,直到種子集合的所有都使用過,將情感詞匯種子R(x)、同義詞集合Syn(x)和反義詞集合Ant(x)輸出為抽取結(jié)果。
抽取規(guī)則設(shè)計主要是為了減少噪音數(shù)據(jù)被抽取,提高抽取精度和效率。抽取方法采用遞歸算法,錯誤的語義和詞匯可視為噪音數(shù)據(jù)。噪音數(shù)據(jù)不僅消耗時間,且影響抽取精度。由于數(shù)據(jù)源百度漢語由非專業(yè)人士填寫,其中不乏詞匯的語義、拼寫等錯誤。如檢索詞匯“驚訝”,其近義詞里發(fā)現(xiàn)拼寫錯誤“驚呀”,“驚訝”又出現(xiàn)為自己的近義詞。經(jīng)過多次測試,提出的抽取過濾規(guī)則如表1所示。
一個詞匯自身不可以定為同義詞或反義詞,由此設(shè)計規(guī)則1;一個詞不可能既是一個詞的同義詞又是反義詞,由此設(shè)計規(guī)則2;根據(jù)假設(shè),非感情詞匯相對的同義詞和反義詞較少,此外,錯誤拼寫詞和錯誤語義在所有的數(shù)據(jù)源里出現(xiàn)可能性低,由此設(shè)計規(guī)則3。
表1 抽取算法過濾規(guī)則
抽取算法測試階段,任選五個種子詞匯抽取了情感語義詞匯。表2是從1 532個詞中連續(xù)取出了30個詞示例,表中第2列為不通過規(guī)則3抽取出來的詞匯,第3列為詞匯拼寫正確結(jié)果(不標(biāo)注的為抽取結(jié)果書寫正確的詞匯),第4列標(biāo)注了錯誤類型,包括5類錯誤拼寫、地方話、非詞、不常用詞和其他,表中標(biāo)注“1”表示是該類型,不標(biāo)表示不是該類型。拼寫錯誤詞基本都是情感詞匯,這些詞對情感詞匯抽取沒任何意義;地方話基本上是情感詞匯如“懆急”;非詞主要是由單字和詞匯組合構(gòu)成,這些結(jié)果基本上也不是情感詞匯;不常用詞基本是情感詞匯;其他主要包括非情感詞如“仙游”、“微博”,專業(yè)用詞如“解亻亦”是醫(yī)學(xué)專用詞,還有很少量情感詞匯。經(jīng)過統(tǒng)計,被過濾的1 532詞匯中近48.7%為拼寫錯誤,3%為地方話,16.9%不是常規(guī)詞匯,4%為不常用詞,其他為27.4%。
表2 無過濾規(guī)則3算法抽取的詞匯示例
利用40個情感詞匯種子,抽取算法結(jié)果經(jīng)過合并去重,最終抽取結(jié)果記作中文情感語義詞匯集合CASL(Chinese affective semantic lexicon)。CASL總計22 068個詞匯。CASL實現(xiàn)包括中文情感詞匯以及這些詞匯的同義和反義兩個語義關(guān)系。
對于CASL中22 068個詞匯,通過和現(xiàn)在常用的情感詞典做了比較(詳見表3),結(jié)果說明抽取算法有效地抽取了情感詞匯。選擇4個詞典,包括1個語義詞典HowNet(使用情感傾向詞匯)和3個常用情感詞典:清華大學(xué)褒貶義詞典、臺灣大學(xué)NTUSD和大連理工大學(xué)的情感本體。表3中“覆蓋詞量”指CASL與比較詞典重合的詞匯數(shù)量,最高覆蓋數(shù)量為10 829個詞匯。結(jié)果表明,CASL有效地抽取了中文情感詞匯,及其同義詞和反義詞等兩種語義關(guān)系;此外,也表明現(xiàn)有的中文情感詞典對情感詞匯的認(rèn)定不同。
表3 CASL對現(xiàn)有情感詞典覆蓋的詞匯量
情感詞匯的傾向標(biāo)注詞典對情感計算和分析十分重要,標(biāo)注詞匯的完整性和情感傾向分析精度直接相關(guān)。對CASL詞匯的情感傾向標(biāo)注方法是基于現(xiàn)有的情感詞典和CASL中詞匯的語義關(guān)系。抽取算法獲得的CASL包括大量的情感詞匯、詞匯的同義詞和反義詞關(guān)系。基于情感語義關(guān)系,近義詞的褒貶性一致,反義詞的褒貶性相反?;谕x詞和反義詞關(guān)系,利用現(xiàn)有的情感詞典(前面4個詞典)標(biāo)注及擴展標(biāo)注抽取詞匯的情感傾向。基于情感語義關(guān)系的CASL詞匯的情感傾向標(biāo)注結(jié)果如表4所示。CASL的情感傾向標(biāo)注方法為:首先標(biāo)注CASL覆蓋現(xiàn)有詞典的情感詞匯,結(jié)果為表4中“詞典標(biāo)注詞匯數(shù)量”。然后,基于CASL中情感詞匯的同義詞集合,對于CASL中的未標(biāo)注的詞匯Wi進行標(biāo)注。擴展標(biāo)注方法是從前向后循環(huán)檢索Wi的同義詞Si,如果發(fā)現(xiàn)有情感標(biāo)注的詞匯,則設(shè)置Wi的情感傾向和Si一致;然后,基于CASL中情感詞匯的反義詞集合,對于CASL中的未標(biāo)注的詞匯Wi,從前向后循環(huán)檢索Wi的反義詞Ai,如果發(fā)現(xiàn)有情感標(biāo)注的詞匯,則設(shè)置Wi的情感傾向和Ai一致;在傾向擴展標(biāo)注中,如果在Si和Ai都沒有找到,就不標(biāo)注Wi的情感傾向。
基于4個基本詞典,CASL的情感傾向擴展標(biāo)注實驗結(jié)果如表4所示,結(jié)果說明基于情感語義關(guān)系的情感詞匯的傾向標(biāo)注方法有效。表中第3列為基于語義關(guān)系標(biāo)注詞匯數(shù)量和標(biāo)注正確的數(shù)量;表中第4列說明方法對CASL擴展標(biāo)注了178.7%、167.3%、261.2%和59.1%的詞匯情感傾向。情感標(biāo)注的準(zhǔn)確率分別是88.1%、86.9%、86.2%和79.1%?;?個現(xiàn)有詞典,實現(xiàn)CASL詞匯平均擴展166.6%情感傾向標(biāo)注,78.1%準(zhǔn)確標(biāo)注。
表4 基于情感語義關(guān)系的CASL詞匯情感傾向標(biāo)注結(jié)果
基于情感的復(fù)雜性,提出了一個情感詞匯的假設(shè),實驗結(jié)果證明這個假設(shè)是可靠的。利用中文網(wǎng)絡(luò)知識百科,提出了一種簡單、高效的方法抽取中文情感詞匯,并成功地抽取了詞匯的兩個重要語義關(guān)系即同義詞關(guān)系和反義詞關(guān)系。通過和現(xiàn)有情感詞典的比較,該方法抽取結(jié)果基本覆蓋現(xiàn)有情感詞典的詞匯數(shù)量較高。同時,基于現(xiàn)有情感詞典和抽取的情感詞匯間語義關(guān)系,實現(xiàn)了快速地擴展情感詞語的傾向標(biāo)注。
該方法的局限性是過于依賴網(wǎng)絡(luò)詞匯的準(zhǔn)確度。雖然可以通過規(guī)則去過濾,但規(guī)則過濾會減少情感詞匯的抽取。抽取數(shù)據(jù)源的語義錯誤、錯別字等問題影響了數(shù)據(jù)的抽取結(jié)果。情感語義關(guān)系詞匯CASL的構(gòu)建,更加方便情感語義詞典的構(gòu)建和文本的情感分析。研究中已經(jīng)基于情感語義關(guān)系,進行了情感詞匯傾向自動擴展標(biāo)注。今后的研究,還可以進行情感詞匯情感權(quán)值自動擴展標(biāo)注和計算、情感詞語語義相關(guān)度計算等等。此外,基于規(guī)則抽取算法過濾出來的詞匯有很大一部分是錯誤拼寫,這一部分詞匯將被考慮生成一個中文的錯誤拼寫詞典。