孟佳娜,于玉海,趙丹丹,孫世昶
(大連民族大學 計算機科學與工程學院,遼寧 大連 116600)
?
特征和實例遷移相融合的跨領域傾向性分析
孟佳娜,于玉海,趙丹丹,孫世昶
(大連民族大學 計算機科學與工程學院,遼寧 大連 116600)
在情感傾向性分析中,經(jīng)常會發(fā)生由于領域知識的變化引起的分類精度下降的問題。為解決此類問題,該文提出了一種基于實例和特征相融合的知識遷移方法,首先通過三部圖構建了源領域和目標領域的領域依賴特征詞之間的關聯(lián),并得到一個公共的語義空間來對原有的向量空間模型進行重建,然后再通過帶偏置的馬爾科夫模型,建立源領域和目標領域實例之間的關聯(lián),從而有效的將源領域學習到的情感傾向性知識遷移到目標領域中,高于其它方法的實驗結果驗證了算法的有效性。
跨領域傾向性分析;遷移學習;偏置的馬爾科夫模型
隨著互聯(lián)網(wǎng)進入Web2.0時代,Internet逐步地從靜態(tài)的信息載體變成人們表達意見、交流情感的平臺,近些年對于主觀性信息的檢索和利用日益受到重視,這項技術的關鍵是如何識別人們的主觀意見,其中的核心技術就是文本情感傾向性分析。文本情感傾向性分析的研究已經(jīng)在理論研究和應用方面取得了許多進展,然而,Web網(wǎng)頁更新速度快,用來進行訓練的數(shù)據(jù)隨著時間的變化已經(jīng)過時,而重新標注新得到的數(shù)據(jù)又耗時耗力。由于訓練集與測試集的數(shù)據(jù)分布不同,分類器的分類準確率就會降低。我們希望分類器能夠具有較好的領域適應性,這樣就出現(xiàn)了跨領域情感傾向性分析問題。研究人員在該領域取得了一些成果,Blitzer等[1]利用來自源領域和目標領域樞軸特征和未標記數(shù)據(jù)找到兩個領域里特征的相關性,并學習一個低維、共享的特征向量映射,在新空間上解決文本情感傾向性分析問題。Pan等[2]提出了SFA算法,根據(jù)互信息得到樞軸特征,構造樞軸特征和非樞軸特征的共現(xiàn)矩陣并分解在此基礎上得到拉普拉斯矩陣,然后構造一個新的低維空間,在這個空間上進行文本的分類。Jiang等[3]提出一種統(tǒng)一的樣本權重框架,該方法移除源領域中對分類產(chǎn)生誤導的樣本,對目標領域的樣本賦予比源領域樣本更高的權重。Wu等[4]在解決中文文本評論傾向性分析中提出將圖排序與跨領域情感傾向性分析相結合的方法。
通過以上分析發(fā)現(xiàn),在跨領域的文本情感傾向性分析中,基于特征和基于實例的知識遷移是兩種主要的方法,即分別通過尋找兩個領域的共同特征空間和樣本權重的重采樣, 使知識得到遷移。對于基于特征表示的知識遷移方法,常用的方法是通過構造新的公共的低維空間來進行領域知識的遷移[1-2]。基于實例的知識遷移主要通過構建源領域和目標領域實例之間的關系達到知識遷移的目的[3]。
本文從結合基于特征和實例的知識遷移方法的角度,提出了一種基于特征和實例相融合的知識遷移方法,該方法主要分兩個步驟,第一步我們建立一種基于三部圖的源領域特征和目標領域特征之間的關聯(lián),在這種關聯(lián)下對原有的源領域和目標領域的實例進行重建。第二步我們利用一種帶偏置的馬爾科夫隨機游走模型,得到目標領域實例的概率分布預測值,當算法收斂時得到目標領域每個實例的最終的概率分布值,從而判斷其情感傾向性。
2.1 情感傾向性分析
文本情感傾向性分析主要是從文本情感的表達角度來對相關文本進行情感類別的分類。通常情感傾向性分析將一個文本按照情感類別分成兩類:褒(積極的)和貶(消極的)。目前,文本情感傾向性分析的方法主要是面向監(jiān)督學習[5]和半監(jiān)督學習[6],Pang等[5]首次將機器學習的方法應用于篇章級的情感分類任務中,Rao等[6]利用語料庫和詞典抽取和判別極性詞,徐琳宏等[7]通過建立情感詞匯本體的方法,利用支撐向量機進行文本傾向性分析,趙妍妍等[8]提出基于句法路徑的情感評價單元自動識別方法。王素格等[9]利用特征傾向強度定義賦權粗糙隸屬度,提出了基于情感傾向強度序的屬性離散化方法。
2.2 遷移學習
目前,機器學習方法一般假設訓練數(shù)據(jù)與測試數(shù)據(jù)分布相同,然而這一假設在許多實際應用中往往并不成立。當分布發(fā)生改變時,需重新訓練模型,代價會很高。將其他任務(源任務)或其他領域(源領域)中學習到的知識,遷移應用到目標任務或領域中,使之有利于目標任務或領域的完成,減少對目標任務或領域訓練數(shù)據(jù)依賴的學習方式就是遷移學習[10]。最近,遷移學習技術已經(jīng)成功地應用于很多研究領域,如文本數(shù)據(jù)挖掘、自然語言處理、計算機輔助設計和圖形/圖像處理等。
Dai等[11]、Meng等[12]分別提出使用遷移學習技術來學習跨領域文本數(shù)據(jù),Arnold等[13]提出使用遷移學習方法解決命名實體識別問題,Wu等[14]提出既使用不充分的目標領域的數(shù)據(jù),又使用大量低質量的源領域的數(shù)據(jù)解決圖像分類問題,Raykar等[15]提出一個新的貝葉斯多重樣本學習方法,該方法能夠自動識別相關的特征子集并為學習多樣性使用歸納遷移。
3.1 問題描述
一個領域D包含了兩個組成部分: 特征空間χ和邊緣概率分布P(X),這里χ是所有特征向量組成的空間,X是某個學習樣本,如果源領域和目標領域不同,它們將具有不同的邊緣概率分布或特征空間。本文定義源領域數(shù)據(jù)為DS={(XS1,YS1),…,(XSn,YSn)},其中XSi∈XS,YSi∈Y是對應的類標簽。在產(chǎn)品評論的例子中,DS是評論文本的集合,Y∈{1,-1}是標簽集合,標簽為1表示該評論是正面的,標簽為-1表示該評論是負面的。定義目標領域數(shù)據(jù)為DT={(XT1,YT1),…,(XTm,YTm)},Yi∈Y是輸入值XTi∈XT對應的輸出。
3.2 基于特征的知識遷移
3.2.1 特征關聯(lián)的三部圖描述
對于跨領域傾向性分析問題,由于源領域和目標領域特征分布的差異性,造成源領域訓練的分類器不能很好地應用于目標領域。深入地分析源領域和目標領域的特征可以發(fā)現(xiàn),在這兩個領域之間存在很多共同的特征, 這些特征在遷移學習中具有潛在作用。除了這些公共的特征之外,源領域和目標領域還存在著大量的領域特有特征,建立這些領域特有特征之間的聯(lián)系,將對不同領域知識的遷移起到很重要的作用。文獻[1]將這種不同領域特征的共現(xiàn)關系用一個二部圖來描述,在此基礎上對特征進行聚類。基于這種考慮,本文使用了一種基于三部圖的方法分析了特征之間的關系,并在此基礎上進行特征的變換。
互聯(lián)網(wǎng)產(chǎn)品評論文本中的特征可以分為兩類: 一類是源領域和目標領域的特有特征,這些特征具有領域相關性,是在某一領域多次出現(xiàn)而在另一領域很少出現(xiàn)或不出現(xiàn)的特征,將這些特征定義為領域依賴詞。另一類是源領域和目標領域中的公共特征,這些特征同時高頻出現(xiàn)在源領域和目標領域中,能夠表示兩個領域的一些公共知識,因此將這些特征定義為領域獨立詞。例如,“bad”,“good”等詞匯在不同領域中所表達的情感是相似的,在AmazonReviews的商品評論中,無論是在源領域還是在目標領域都高頻出現(xiàn),這些詞匯稱之為領域獨立詞。表1給出了在AmazonReviews的商品評論中,DVD和Electronic兩個領域的評論。
表1 DVD和Electronic兩個領域的評論
在這兩個評論中,“+”表示后面的實例具有正面的推薦,“-”表示后面的實例具有負面的推薦。將帶下劃線的詞標記為領域獨立詞(love、bad),這些詞無論在何種領域當中都具有極性,而將標記為斜體的詞標記為領域依賴詞(funny、quality等),這些詞在某個領域具有極性,而在其他領域可能不具有極性,領域依賴詞在源領域和目標領域的詞頻的差異導致了領域之間的差別。而對目標領域文本的傾向性進行分類時,目標領域的情感極性詞作用是關鍵的,因此需要通過領域獨立詞將兩個領域的領域依賴詞建立起對應關系,圖1是一個用來表示這種關聯(lián)性的三部圖。
圖1 特征關聯(lián)性的三部圖描述
3.2.2 特征變換
本文首先計算出源領域和目標領域的領域獨立詞,為了建立不同領域之間的領域依賴詞的關聯(lián)構造一種特征變換方法。然后,求得源領域和目標領域的領域依賴詞與每個領域獨立詞之間的關聯(lián)度值,與某個領域獨立詞關聯(lián)度值越高的特征,與其相關性越高,特征之間的關聯(lián)度值用式(1)計算:
(1)
其中freq(xi)表示詞特征xi在樣本集中出現(xiàn)的次數(shù),freq(xi,xj)表示詞特征xi和xj在樣本集中共同出現(xiàn)的次數(shù),t為特征總數(shù)。顯然,wij取值區(qū)間為[0,1],等于0時說明這兩個特征之間沒有相關性;等于1時說明這兩個特征之間相關性最高。
假設xk為某個領域獨立詞,通過式(1)計算出的與其關聯(lián)度最高的源領域和目標領域的領域獨立詞分別是xi和xj,則xi與xj之間的關系通過領域獨立詞xk進行了建立,這樣我們可以建立如下的特征變換方法: 對于源領域中的某篇評論文本X={x1,…,xi,…,xt},則將xi和xj加入到評論文本X中,這樣評論文本X的向量空間模型變?yōu)閄={x1,…,xi,…,xj,…,xt}或X={x1,…,xj,…,xi,…,xt},對于目標領域中的評論文本也做類似變換。
3.3 基于實例關聯(lián)性分析的知識遷移
3.3.1Markov鏈模型
Markov鏈模型是馬爾科夫過程的模型化,它把一個總隨機過程看成一系列狀態(tài)的不斷轉移。馬爾科夫鏈模型的特征主要用“轉移概率”來表示,后一狀態(tài)出現(xiàn)的概率決定于其前出現(xiàn)過的狀態(tài)次序。即: 狀態(tài)q(t)出現(xiàn)的概率為Pr[q(t-1),q(t-2),…,q1]。馬爾科夫隨機游走根據(jù)轉移矩陣來判斷下一個要發(fā)生狀態(tài)的概率分布,該概率分布刻畫了圖中每一個頂點被訪問到的概率。用這個概率分布作為下一次游走的輸入并反復迭代這一過程。當滿足一定前提條件時,這個概率分布會趨于收斂,收斂后,即可以得到一個穩(wěn)定的概率分布。隨機游走模型廣泛應用于數(shù)據(jù)挖掘和互聯(lián)網(wǎng)領域,PageRank算法[16]可以看作是隨機游走模型的一個實例。鄭偉等[17]將文本用隨機游走圖中的一個結點表示,當輸入一個未分類文本時,對圖系列中的每個圖應用隨機游走模型,得到文本的最終概率分布。
本文借鑒文獻[17]的思想,將一個文本實例用馬爾科夫隨機游走圖中的一個結點表示,結點之間的邊的權重表示了兩個實例之間的距離,顯然,兩個實例越相似,其結點之間連接的邊的權重越小。本節(jié)中所說的圖指的是同一類型的圖模型。
3.3.2 基于偏置的Markov鏈的實例關聯(lián)性分析
(2)
(3)
(4)
(5)
式(2)中的β為源領域和目標領域的數(shù)據(jù)之間的相似性在求輸出概率分布向量中所占的比例,其取值區(qū)間為(0,1],在式(2)中,1-β為目標領域的數(shù)據(jù)之間的相似性在求輸出概率分布向量中所占的比例。在改進的帶偏置的馬爾科夫隨機游走計算中,源領域的實例的標注信息將對目標領域中的實例標簽的預測產(chǎn)生一定的指導作用,而目標領域數(shù)據(jù)自身也會將自己的預測標簽的信息進行傳播。
3.4 算法描述
本文提出的算法步驟如下:
輸入: 源領域已標注數(shù)據(jù)集{(XS,YS)},目標領域未標注數(shù)據(jù)集{(XT)},參數(shù)α和β。
輸出: 目標領域數(shù)據(jù)的標簽YT。
1 計算出領域獨立詞,將領域獨立詞按在源領域和目標領域出現(xiàn)的次數(shù)和從高到低排序,按閾值α截取;
2 根據(jù)式(1)分別計算出源領域和目標領域與領域獨立詞關聯(lián)度高的領域依賴詞;
3 建立新的特征語義空間,并將源領域和目標領域中的每個實例進行變換,得到源領域和目標領域的新的數(shù)據(jù)集;
4 在新數(shù)據(jù)集上使用某種分類器進行分類,得到目標領域數(shù)據(jù)的預測標簽。
5 利用公式分別計算出初始相似性矩陣和分布向量的值。
6do
7 根據(jù)參數(shù)β的值迭代地計算目標領域實例的輸出分布概率。
8while算法收斂。
9得到最終的目標領域實例的輸出概率分布向量,確定其標簽。
4.1 語料來源
本文在實驗中主要采用Blitzer等[1]提出的來自于AmazonReviews的語料,該語料包含了四個領域的產(chǎn)品評價:Book,DVD,Electronic,Kitchen。實驗中每次挑選兩個領域, 其中一個作為源領域, 另外一個作為目標領域。表2列出了語料中包含的領域信息,表2中,“DVDvsBook"表示源領域為DVD,目標領域為Book,其他與此類似。每個領域中的實例個數(shù)為2 000。
4.2 實現(xiàn)細節(jié)
實驗中使用了傳統(tǒng)的Bag-of-Word的文本表示方法,并對語料進行了數(shù)據(jù)預處理,過濾掉了語料中的低頻詞。本文使用精度(Accuracy) 作為傾向性分析系統(tǒng)的評價標準,其定義如下:
(6)
實驗中使用SVM_light[18]作為Baseline算法,使用線性核,并將所有參數(shù)設為缺省值,Baseline是指只使用源領域實例所為訓練集。實驗中進行了特征選擇,按詞頻從高到低選擇了原特征總數(shù)的30%的特征。
表2 語料描述
4.3 實驗結果及分析
實驗中參數(shù)α取值分別為0.01、0.02、0.03、0.04和0.05,β取值從0.1至1,每次增加0.1。我們首先利用算法1至4步得到α取不同值時實例的預測標簽,取其最好的結果進行基于實例的遷移,即算法中的5至9步。圖2給出了最終算法在各個語料集上β取不同值時的最優(yōu)結果。其中橫軸為β值,縱軸為分類精度。我們使β在0.1到1之間變化,每一次增加0.1。當β設置為1時,意味著我們的算法僅使用源領域的實例,不包括目標領域的信息。我們能夠從圖2發(fā)現(xiàn),在大多數(shù)語料集上,當β值為1時精度最低,這說明由于目標領域中的實例都是未標注的,在馬爾科夫隨機游走圖中,只有目標領域實例之間的鏈接,沒有目標領域到源領域實例之間的任何鏈接,造成源領域已標注信息沒有利用上,所以分類的結果最差。當β值為0.1時,分類結果也很差,這主要是因為源領域中的實例與目標領域實例的分布不同,源領域的信息對于分類是不充分的。在大多數(shù)語料集上,當β逐漸增大時,精度變大,當β=0.5 或0.6時,精度最大,當β>0.5或0.6后,精度逐漸變小。β=0.5時,源領域和目標領域在最終的輸出概率向量中占相同的比例,這說明源領域數(shù)據(jù)和目標領域數(shù)據(jù)之間存在大量的公共知識,從源領域向目標領域遷移足夠的知識可以幫助分類,同時目標領域中的實例具有相同的特征分布,未標注的實例的信息對于分類同樣非常重要,源領域和目標領域的實例基本平衡時,既最大化的應用了源領域實例的標注信息,又最大化的使用了目標領域未標注實例之間關系信息,所以能夠取得最好的結果。綜上所述,β是一個重要的參數(shù),精度會根據(jù)它取不同的值而隨之變化,這說明算法對于β是敏感的。
圖2 β取不同值時各個語料集上最優(yōu)結果的變化曲線
我們將本文方法的最好結果與其他方法的最好結果進行了對比,其他的主要方法包括:SCL以及SCL-MI算法[1]、SFA算法[2]。表3列出了本文算法與這些算法的結果對比。其中,第5列的“算法1”表示只使用本文算法的1至4步的結果,第6列的“算法2”表示只使用本文算法的5至9步的結果,最后一列的結果為本文算法的最終結果。表3中第1行至第4行為每個領域的平均結果,例如第1行表示目標領域為Book時的結果,即DvsB、EvsB和KvsB的平均結果,其他行相類似。從表3可以看出,本文算法在所有數(shù)據(jù)集上的結果顯著的優(yōu)于SCL、SCL-MI和SFA算法,這也說明了該方法的有效性。同時,只使用算法1或算法2的結果都要差于本文最終結果,這也說明基于特征和實例相結合的知識遷移方法要優(yōu)于單一的使用一種知識遷移方法。
表3 本文結果與其他算法結果的對比(粗體表示最好值)
本文提出了一種解決跨領域產(chǎn)品評論情感傾向性分析的基于實例和特征相融合的知識遷移方法,該方法首先通過領域獨立詞建立了源領域和目標領域中的領域依賴詞之間的關聯(lián),得到了一種特征變換的方法,從而得到了變換后的數(shù)據(jù)集,然后再通過帶偏置的馬爾科夫圖模型,建立源領域和目標領域實例之間的關聯(lián)進行知識的遷移。實驗結果說明了兩種方法相結合要好于單一的一種知識遷移方法,同時也驗證了本文提出方法的有效性。
[1] John Blitzer, Mark Dredze, Fernando Pereira. Biographies, Bollywood, Boomboxes and Blenders: Domain Adaptation for Sentiment Classification[C]//Proceedings of the 45th Annual Meeting of the Association of Computational Linguistics, 2007: 432-439.
[2] Sinno Jialin Pan, Xiaochuan Ni, Jiantao Sun, et al.. Cross-domain Sentiment Classification via Spectral Feature Alignment[C]//Proceedings of the 19th International World Wide Web Conference-Raleigh, North Carolina USA, 2010.
[3] Jiang Jing, Zhai Chengxiang. Instance weighting for domain adaptation in NLP[C]//Proceedings of the 45th Annual Meeting of the Association of Computational Linguistics, 2007: 264-271.
[4] Wu Qiong, Tan Songbo, Zhai Haijun et al. SentiRank: Cross-Domain Graph Ranking for Sentiment Classification[C]//Proceedings of the IEEE/WIC/ACM International Joint Conference on Web Intelligence and Intelligent Agent Technology. 2009.
[5] Bo Pang, Lillian Lee, Shivakumar Vaithyanathan, Thumbs up? Sentiment classification using machine learning techniques[C]//Proceedings of the Conference on Empirical Methods in Natural Language Processing, 2002: 79-86.
[6] Delip Rao, Deepak Ravichandran. Semi-supervised Polarity Lexicon Induction[C]//Proceedings of 12th Conference of the European Chapter of the Association for Computational Linguistics. 2009: 675-682.
[7] 徐琳宏,林鴻飛,潘宇,情感詞匯本體的構造[J],情報學報,2008,(27):180-185.
[8] 趙妍妍,秦兵,車萬翔,劉挺, 基于句法路徑的情感評價單元識別[J], 軟件學報. 2011(22):887-898.
[9] 王素格, 李德玉, 魏英杰. 基于賦權粗糙隸屬度的文本情感分類方法[J], 計算機研究與發(fā)展, 2011,48(5):855-861.
[10] Sinno Jialin Pan, Yang Qiang. A survey on transfer learning[J], IEEE Transactions on Knowledge and Data Engineering, 2009, 22(10):1345-1359.
[11] Dai Wenyuan, Xue Guirong, Yang Qiang, et al. Transferring naive bayes classifiers for text classification[C]//Proceedings of the 22nd AAAI Conference on Artificial Intelligence, Canada, 2007:540-545.
[12] Meng Jiana, Lin Hongfei, Li Yanpeng. Knowledge transfer based on feature representation mapping for text classification [J], Expert Systems with Applications, 2011, 38(8): 10562-10567
[13] Andrew Arnold, Ramesh Nallapati, William W. Cohen. A comparative study of methods for transductive transfer learning[C]//Proceedings of the 7th IEEE International Conference on Data Mining Workshops. Omaha, Nebraska, USA: IEEE Computer Society, 2007: 77-82.
[14] Pengcheng Wu, Thomas G. Dietterich. Improving svm accuracy by training on auxiliary data sources[C]//Proceedings of the 21st International Conference on Machine Learning, Morgan Kaufmann,2004: 871-878.
[15] Vikas C. Raykar, Balaji Krishnapuram, Jinbo Bi, et al. Bayesian multiple instance learning: automatic feature selection and inductive transfer[C]//Proceedings of the 25th International Conference on Machine learning. 2008: 808-815.
[16] Lawrence Page, Sergey Brin, Rajeev Motwani, et al. The PageRank citation ranking: bringing order to the web, Technical Report[R], Stanford University, Stanford, CA, 1998.
[17] 鄭偉,王朝坤,劉璋等,一種基于隨機游走模型的多標簽分類算法[J], 計算機學報,2010,33(8):1418-1425
[18] Thorsten Joachims. Text Categorization with Support Vector Machines: Leaning with Many Relevant Features[C]//Proceedings of the 10th European Conference on Machine Learning, 1998: 137-142.
Cross-domain Sentiment Analysis Based on Combination of Feature and Instance -transfer
MENG Jiana, YU Yuhai, ZHAO Dandan, SUN Shichang
(School of Computer Science and Engineering, Dalian Nationalities University, Dalian, Liaoning 116600 ,China)
The accuracy decrease across different domains is commor in current sentiment analysis. To solve the problem, this paper presents a knowledge transferring approach based on the combination of the features and the instancetransfer. Firstly, the proposed approach builds the relevance of the domain dependent features between the source domain and the target domain via a tripartite graph so that a common semantic space is projected to rebuild the original vector space model. Then the proposed approach builds the relevance of the instances between the source domain and the target domain via a biased Markov model. This approach transfers sentiment analysis knowledge from the source domain to the target domain. The enhanced experimental performance confirms the effectiveness of the approach.
cross-domain sentiment analysis; transfer learning; biased Markov model
孟佳娜(1972—),博士,教授,主要研究領域為自然語言處理及文本挖掘。E-mail:mengjn@dlnu.edu.cn于玉海(1980—),碩士,講師,主要研究領域為深度學習及情感計算。E-mail:yuyh@dlnu.edu.cn趙丹丹(1975—),碩士,講師,主要研究領域為自然語言處理及機器學習。E-mail:zhaodd@dlnu.edu.cn
1003-0077(2015)04-0074-06
2013-07-18 定稿日期: 2015-04-03
國家自然科學基金(61202254); 高校自主科研基金(DC201502030202, DC201502030405)
TP391
A