李海明, 陳 萍
(上海電力大學(xué) 計算機科學(xué)與技術(shù)學(xué)院, 上海 200090)
隨著電力改革的深入進(jìn)行,電力企業(yè)愈發(fā)重視供電服務(wù)和客戶服務(wù)的質(zhì)量。運用情感分析對電力短文本進(jìn)行文本挖掘,對提升客服服務(wù)質(zhì)量和客戶滿意度都有幫助。但迄今為止,由于沒有電網(wǎng)相關(guān)的語料庫,人工標(biāo)注也存在數(shù)據(jù)不準(zhǔn)確、耗時且昂貴等缺點,使得利用傳統(tǒng)統(tǒng)計學(xué)習(xí)方法進(jìn)行情感分析的效果較差。本文采用遷移學(xué)習(xí)方法,以具有豐富標(biāo)注信息的酒店評論作為源域,電力文本數(shù)據(jù)集作為目標(biāo)域,提出了一種新的基于電力短文本的跨域遷移學(xué)習(xí)的情感分析方法。
文本情感分類通過挖掘和分析文本中的立場、觀點、看法、情緒、好惡等主觀信息,對文本的情感傾向做出類別判斷[1]。從用戶參與的評論信息中獲得人們對某一事物、事件、產(chǎn)品等的喜好、態(tài)度,可以為政府制定政策法規(guī)與監(jiān)督社會輿論,企業(yè)改進(jìn)產(chǎn)品質(zhì)量與服務(wù)態(tài)度等提供必要的決策依據(jù)。
情感分類研究中,有學(xué)者重在構(gòu)建情感詞典。但基于詞典的分析方法需要研究者有很強的語法敏感性,且現(xiàn)實生活中同一詞語可能會被賦予完全不同的涵義,使得傳統(tǒng)的分析方法如樸素貝葉斯、支持向量機無法應(yīng)對。深度學(xué)習(xí)則可以將神經(jīng)網(wǎng)絡(luò)運用于多層網(wǎng)絡(luò)的學(xué)習(xí)任務(wù)中來處理龐大復(fù)雜的數(shù)據(jù)。在情感分析任務(wù)中,其性能不弱于機器學(xué)習(xí)方法,卻可以大大節(jié)省人工標(biāo)注的工作量。如RANI S等人[2]應(yīng)用卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Networks,CNN)來執(zhí)行印地語電影評論的情感分析。WANG X Y等人[3]提出了用于短文本情感分類的聯(lián)合CNN和循環(huán)神經(jīng)網(wǎng)絡(luò)(Recurrent Neural Network,RNN)架構(gòu),利用了CNN生成的粗粒度局部特征和通過RNN學(xué)習(xí)的長距離依賴性。針對中國文本情感分析的困難,XIAO K C等人[4]提出了一種基于CNN的深度學(xué)習(xí)中文文本情感分析方法,用歸一化特征值來克服訓(xùn)練后CNN的特征值不均勻分布的問題,提高了分析的準(zhǔn)確性。
注意力機制是一種在神經(jīng)網(wǎng)絡(luò)中增加可解釋性的方法。在情緒分析任務(wù)中,注意力機制有助于將注意力集中在決定輸入情緒的重要詞語上。WANG Y Q等人[5]提出的基于方面的情感分類方法,將與方面相關(guān)概念的額外知識納入模型,并利用關(guān)注度來適當(dāng)權(quán)衡概念與內(nèi)容本身的區(qū)別。PENG Y等人[6]基于目標(biāo)和背景在隱喻情感分析中的相互作用提供了可靠的情感相關(guān)分類特征,提出了一種基于注意力的長期短期記憶(Long Short Term Memory,LSTM)網(wǎng)絡(luò)的中國隱喻情緒分析方法。
雖然深度學(xué)習(xí)模型已經(jīng)在許多情感分析中得到運用,但這些模型從頭開始訓(xùn)練,需要大量的數(shù)據(jù)集,并且收斂速度慢。針對上述問題,尤其當(dāng)不同領(lǐng)域中存在某種關(guān)聯(lián)時,可以采用遷移學(xué)習(xí)來提升分類性。TAN B等人[7]探究了遠(yuǎn)程域遷移學(xué)習(xí)的新型遷移學(xué)習(xí)問題,在目標(biāo)域與源域完全不同的情況下實現(xiàn)遷移學(xué)習(xí)。HOWARD J等人[8]提出通用語言模型微調(diào)(Universal Language Model Fine-turing for Text Classification,ULMFiT),為自然語言處理(Natural Language Processing,NLP)的任何任務(wù)實現(xiàn)類似計算機視覺(Computer Version,CV)的遷移學(xué)習(xí)。TAN S B等人[9]將樸素貝葉斯和期望最大化(Expectation-Maximum,EM)算法的一種半監(jiān)督學(xué)習(xí)方法應(yīng)用于跨領(lǐng)域的情感分析中。總之,現(xiàn)有的遷移學(xué)習(xí)方法大多是通過學(xué)習(xí)一個新的特征代表來增強或取代源特征空間,以減少源領(lǐng)域與目標(biāo)領(lǐng)域的情感特征的差別,但當(dāng)目標(biāo)領(lǐng)域與源領(lǐng)域之間的差別很大時,這種方法的性能顯著下降。
通過以上綜述可以發(fā)現(xiàn),目前對于文本情感分析雖然取得了不少成果,但還存在以下幾個問題:首先,因保密性原因,可搜集到的有限數(shù)據(jù)數(shù)量無法支撐進(jìn)一步的實驗;其次,缺乏語料庫時進(jìn)行人工標(biāo)注費時費力;最后,若采用遷移學(xué)習(xí)方法,會因源域與目標(biāo)域的差異導(dǎo)致最后的分析效果不盡如人意。為解決以上問題,本文提出了一種基于跨領(lǐng)域遷移學(xué)習(xí)的情感分析方法用于電力短文本情感分類。具體而言,使用基于注意力機制的長短型記憶神經(jīng)網(wǎng)絡(luò)(Attention-Based Bidirectional Long Short Term Memory Networks,Attention Bi-LSTM)作為基礎(chǔ)模型,通過共享網(wǎng)絡(luò)結(jié)構(gòu)與參數(shù)進(jìn)行參數(shù)遷移,并在網(wǎng)絡(luò)模型中引入域自適應(yīng)層來減少源域與目標(biāo)域的差異。
RNN是傳統(tǒng)前饋神經(jīng)網(wǎng)絡(luò)的擴展[9]。然而,標(biāo)準(zhǔn)RNN存在梯度消失或爆炸問題,作為其變體,LSTM通過組合存儲器單元來捕獲長程依賴性。LSTM架構(gòu)有3個門和1個單元存儲器狀態(tài)。正式的LSTM中的每個單元格可以計算為
it=σ(WxiXt+Whiht-1+Wcict-1+b)
(1)
ft=σ(WxfXt+Whfht-1+Wcfct-1+b)
(2)
ct=ft?ct-1+it?tanh(WxcXt+Whcht-1+b)
(3)
ot=σ(WxoXt+Whoht-1+Wcoct+b)
(4)
ht=ot?tanh(ct)
(5)
式中:i——輸入門;
b——偏參;
t——時間狀態(tài);
σ——sigmoid激活函數(shù);
Wxi,Whi,Wci,Wxf,Whf,Wcf,Wxc,Whc,Wxo,Who,Wco——矩陣權(quán)重,下標(biāo)表示門和單元之間的連接;
ht-1——作為輸入、輸出一個在0和1之間的數(shù)給Ct-1記憶單元的輸出值;
ft——遺忘門,決定信息的丟棄;
ot——輸出門,決定信息的輸出;
ht——隱藏層的向量。
所有這些狀態(tài)的尺寸大小都與隱藏矢量大小相同。權(quán)重矩陣下標(biāo)表示每個門和單元之間的連接。
(6)
(7)
(8)
為解決Bi-LSTM網(wǎng)絡(luò)無法檢測哪個詞語是句子級別情緒分類的重要部分這一問題,采用基于注意力機制的Attention Bi-LSTM來捕捉句子中發(fā)生情緒變化的關(guān)鍵部分。圖1為Attention Bi-LSTM進(jìn)行情感分析的概述,圖2為其具體的執(zhí)行步驟。
圖1 Attention Bi-LSTM情感分析概述
圖2 Attention Bi-LSTM情感分析執(zhí)行步驟
本文使用的注意力機制策略是對Bi-LSTM網(wǎng)絡(luò)提取后的全局特征向量進(jìn)行處理,合并Bi-LSTM層中每一個時間步獲取的信息,以不同的權(quán)重大小重新分配整個序列內(nèi)不同的特征向量,進(jìn)行相加后得到新的特征向量。經(jīng)過注意力機制處理后新的特征向量即為Attention Bi-LSTM模型當(dāng)前的狀態(tài),記為A。
(9)
式中:at——注意力權(quán)重。
Bi-LSTM網(wǎng)絡(luò)接收各詞向量輸入序列Xt后輸出提取隱藏特征向量序列Ht,注意力機制的當(dāng)前狀態(tài)A由該特征向量序列中的所有特征向量重新分配后得到
Mt=tanh(XtHt+b)
(10)
再使用Softmax函數(shù)對注意力權(quán)重值歸一化,為
(11)
式中:Mi——輸入門的特征向量。
最后,將Attention機制的輸出A,輸入Softmax層進(jìn)行分類預(yù)測。預(yù)測結(jié)果為
(12)
式中:wa——注意力機制當(dāng)前狀態(tài)a的矩陣權(quán)重。
(13)
本文參考文獻(xiàn)[10-11]給出了一個用于電力短文本的情感分類的跨領(lǐng)域遷移學(xué)習(xí)框架。圖3為跨領(lǐng)域遷移模型。
圖3 跨領(lǐng)域遷移模型
由圖3可以看出,自下而上每個輸入句子被轉(zhuǎn)換成嵌入向量序列,然后將其饋送到Bi-LSTM,依次將上下文信息編碼成固定長度的隱藏向量;再將隱藏向量輸入到注意力機制模型中,重新分配各維向量得到權(quán)重;最后將注意力機制層的輸出向量輸入Softmax函數(shù)進(jìn)行分類。在源/目標(biāo)域中共享詞向量嵌入層和Bi-LSTM層,但使用不同的注意力機制層和Softmax層。利用域自適應(yīng)層保留兩個域之間的特定域知識,將隱藏向量直接饋送到源/目標(biāo)域特定的注意力機制層和Softmax層中以預(yù)測最終的分類標(biāo)簽。
由于源域和目標(biāo)域具有不同的語言樣式并且涉及大量不跨域共享相同語義的特定于域的術(shù)語,即目標(biāo)域和源域都具有特定于域的“領(lǐng)域知識”,因此在源域上訓(xùn)練的分類模型可能在目標(biāo)域上不具有最佳性能。為有效利用源域中強大的特征表示,又能減少源與目標(biāo)之間的差異,本文引入了一個域自適應(yīng)層,添加在目標(biāo)域的Bi-LSTM層之后。這樣既能學(xué)習(xí)到源域的強大特征表示,又能充分學(xué)習(xí)到特定領(lǐng)域知識。本文使用的域自適應(yīng)策略是特征擴充的方法[12],假設(shè)輸入特征空間為X∈n,Ds是源域數(shù)據(jù)集,Dt是目標(biāo)域數(shù)據(jù)集。經(jīng)過特征擴充后,特征空間映射為x∈3n。源域的映射策略為目標(biāo)域的映射策略為因此,經(jīng)過特征擴充后,源域的特征空間為:Ts(a)=ms?a=[a1,a2,0],a=[a1,a2,a3]∈Ds,目標(biāo)域的特征空間為:Tt(b)=mt?b=[b1,0,b3],b=[b1,b2,b3]∈Dt。
具體算法描述如下:通過交替訓(xùn)練方式,首先使用源域數(shù)據(jù)集訓(xùn)練Attention Bi-LSTM模型,然后使用目標(biāo)域數(shù)據(jù)集重新訓(xùn)練Attention Bi-LSTM模型,源域和目標(biāo)域共享Attention Bi-LSTM模型中的詞向量層和Bi-LSTM層的網(wǎng)絡(luò)參數(shù)與網(wǎng)絡(luò)結(jié)構(gòu),但源域和目標(biāo)域使用不同的注意力機制層和Softmax輸出分類層。
使用Adam優(yōu)化算法以端到端的方式訓(xùn)練跨領(lǐng)域遷移的情感分析模型,采用的學(xué)習(xí)率為0.001。通過參數(shù)遷移的方式共享源域和目標(biāo)域中詞向量嵌入層和Bi-LSTM層的網(wǎng)絡(luò)結(jié)構(gòu)及參數(shù)[13]。即ωs和ωt分別為源域和目標(biāo)域的模型參數(shù)集,共享模型參數(shù)為ωs,shared=ωs∩ωt=ωt,shared=ωshared。
由于源域和目標(biāo)域都有不同的數(shù)據(jù)集,因此使用替代優(yōu)化策略,交替訓(xùn)練每個域的數(shù)據(jù)。在訓(xùn)練期間,使用每批次20條語句來訓(xùn)練100個時期。訓(xùn)練時對詞向量嵌入進(jìn)行微調(diào),以調(diào)整實際數(shù)據(jù)分布。為避免過度擬合,在輸入詞向量特征表示Bi-LSTM層之前使用丟失訓(xùn)練,丟失概率為0.5。域自適應(yīng)層、注意力機制層和輸出層分別各自訓(xùn)練。在每次迭代周期中,根據(jù)給定域的損失函數(shù)執(zhí)行梯度更新。
最后,更新共享參數(shù)和各個域的特定參數(shù),并重復(fù)上述迭代,直到停止為止。
為了驗證跨領(lǐng)域遷移學(xué)習(xí)情感分析方法的有效性,將基于真實電力短文本數(shù)據(jù)集與近幾年來其他流行的情感分析方法進(jìn)行了比較。實驗中使用的數(shù)據(jù)集、預(yù)訓(xùn)練的詞向量嵌入、參數(shù)設(shè)置、實驗細(xì)節(jié)以及結(jié)果分析如下。
目標(biāo)域數(shù)據(jù)集:獲取了某縣級電力企業(yè)的客服工單,提取其中受理內(nèi)容與回訪內(nèi)容約1 050條為研究語料。此外,通過網(wǎng)絡(luò)爬蟲算法從新浪微博中爬取熱門電力事件的評論信息約900條,也作為研究語料。隨機打亂手動標(biāo)注的各條語料的情感狀態(tài),其中70%劃分為訓(xùn)練集,20%劃分為測試集,10%劃分為驗證集。表1為目標(biāo)域數(shù)據(jù)集樣本例。
表1 目標(biāo)域數(shù)據(jù)集樣本例
源域數(shù)據(jù)集:使用譚松波老師整理的酒店評論語料[14]。語料規(guī)模為10 000篇,從攜程網(wǎng)上自動采集并經(jīng)過去重整理而成。選取其中一個子集,平衡語料、正負(fù)類各3 000篇。同樣將酒店評論數(shù)據(jù)集中70%劃分為訓(xùn)練集、20%劃分為測試集、10%劃分為驗證集。表2為源域數(shù)據(jù)集樣本例。
表2 源域數(shù)據(jù)集樣本例
數(shù)據(jù)預(yù)處理:采用jieba分詞工具,去除分詞列表中的停用詞和標(biāo)點符號。
預(yù)訓(xùn)練詞向量:使用預(yù)先訓(xùn)練的詞向量嵌入代替隨機初始化。詞向量嵌入使用gensim工具包的word2ve,經(jīng)在中文百度百科語料預(yù)訓(xùn)練而成[15],詞向量維度為60維。源域和目標(biāo)域都使用相同的詞向量嵌入。
超參數(shù)和初始化設(shè)置:超參數(shù)包括初始學(xué)習(xí)率(0.01)、訓(xùn)練時期(100個周期)、批量訓(xùn)練樣本大小(20個句子)、丟失訓(xùn)練的丟失率(0.5)、LSTM隱藏層向量維度(60維)。 所有其他模型參數(shù)在[-1,1]范圍內(nèi)隨機均勻初始化。
跨領(lǐng)取遷移學(xué)習(xí)情感分析算法的步驟如下。
輸入:源域數(shù)據(jù)為Xs=(x1,x2,x3,…,xn)
目標(biāo)域數(shù)據(jù)為Xt=(x1,x2,x3,…,xn)
源域:
(1) 初始化模型參數(shù)ωs;
(2) 詞向量嵌入;
(3) 輸出Bi-LSTM層隱藏狀態(tài)向量;
(4) 進(jìn)入注意力機制模型,重新分配向量權(quán)重;
(5) 采用Softmax輸出分類結(jié)果;
(6) 保存共享參數(shù)ωshared。
目標(biāo)域:
(1) 學(xué)習(xí)共享參數(shù)ωshared;
(2) 初始化特定模型參數(shù)ωt,spec;
(3) 詞向量嵌入;
(4) 輸出Bi-LSTM層隱藏狀態(tài)向量;
(5) 進(jìn)入域自適應(yīng)層,充分學(xué)習(xí)特定領(lǐng)域知識;
(6) 進(jìn)入注意力機制模型,重新分配向量權(quán)重;
(7) 采用Softmax輸出分類結(jié)果。
將本文提出的基于跨領(lǐng)域遷移學(xué)習(xí)的情感分析方法與其他4種方法進(jìn)行對比。
(1) Bi-LSTM方法 由LI D等人[16]提出,只使用Bi-LSTM雙向長短型記憶神經(jīng)網(wǎng)絡(luò)來提取特征,采用Softmax輸出分類結(jié)果。
(2) Attention Bi-LSTM方法 由ZHOU Y等人[17]提出,在使用Bi-LSTM來提取特征的同時,加入注意力機制模型以更好地把握文本中的情感。
(3) ConvLSTM方法 由HASSAN A等人[18]提出,利用LSTM作為CNN中池化層的替代,以減少詳細(xì)文本信息的丟失并捕獲句子序列中的長期依賴性。
(4) Transfer Bi-LSTM方法 由LYU W L等人[19]通過共享Bi-LSTM的網(wǎng)絡(luò)架構(gòu)與模型參數(shù),實現(xiàn)參數(shù)遷移,更好地利用源域中豐富的標(biāo)注信息幫助目標(biāo)域分類。
所有實驗都對目標(biāo)域的訓(xùn)練集和測試集進(jìn)行了10次交叉驗證,并在開發(fā)集中找到最佳模型參數(shù)后,對目標(biāo)域中測試集再進(jìn)行分類預(yù)測。不同方法的實驗效果比較如表3所示。
表3 不同方法的實驗結(jié)果比較 單位:%
從表3的實驗結(jié)果可以看出,雖然只采用Bi-LSTM提取特征進(jìn)行情感分類可以取得不錯的效果,但加入注意力機制模型可以更好地提取文本的局部特征,在F值的評價指標(biāo)上能提升0.11%。采用ConvLSTM方法也能取得不錯的分類效果,但略低于加入注意力機制的Transfer Bi-LSTM模型。相比之下,采用本文提出的基于跨領(lǐng)域遷移學(xué)習(xí)的情感分析方法,在準(zhǔn)確率、召回率、F值等評價指標(biāo)上都有不錯的提升。由此可知,本文提出的方法能有效地學(xué)習(xí)到源域中強大的特征表示,又能通過域自適應(yīng)層減少源域與目標(biāo)域的差異,并且通過基于注意力機制模型能更有效地提取文本的局部特征,幫助情感的分類。
在不同方法中加入注意力機制策略,結(jié)果如表4所示。
表4 不同方法中加入注意力機制策略的結(jié)果比較 單位:%
從表4的實驗結(jié)果可以看出,在不同方法中加入注意力機制策略,相比于原來的方法都有略微的提升。這說明采用注意力機制可以更好地提取文本的局部特征來捕捉句子中發(fā)生的情緒變化。
綜上所述,根據(jù)遷移學(xué)習(xí)的特點,訓(xùn)練語料被少量標(biāo)注的情況下,利用遷移其他領(lǐng)域的訓(xùn)練集樣本,采用領(lǐng)域自適應(yīng)以及注意力機制模型,實驗性能比采用相同規(guī)模標(biāo)注訓(xùn)練語料的其他監(jiān)督方法略高,比只使用遷移學(xué)習(xí)策略沒有進(jìn)行域自適應(yīng)的方法F值性能提升了4.32%。本文提出的方法只采用少量的有標(biāo)注樣本便可取得很好的分類性能,大大降低了對大規(guī)模人工標(biāo)注語料的依賴性。
本文提出了一種新的基于跨域遷移學(xué)習(xí)的情感分析方法,用于電力短文本的情感分類。該方法只使用少量的具有標(biāo)注信息的電力短文本數(shù)據(jù),在現(xiàn)有的Attention Bi-LSTM模型之上加入域自適應(yīng)層,能有效學(xué)習(xí)到源域中強大的特征表示,又能通過域自適應(yīng)層減少源域與目標(biāo)域的差異,并且通過基于注意力機制模型更有效地提取文本的局部特征,更好地幫助情感的分類。在未來的工作中,將進(jìn)一步探索句子的語法構(gòu)造知識與半監(jiān)督分類方法結(jié)合,更好地對電力短文本進(jìn)行情感分類。