李衛(wèi)疆, 唐 銘,余正濤
(1. 昆明理工大學 信息工程與自動化學院,云南 昆明 650500;2. 昆明理工大學 云南省人工智能重點實驗室,云南 昆明 650500)
情感分析是對帶有情感色彩的主觀性文本進行分析、處理、歸納和推理的過程[1]。隨著深度學習近年來的研究與發(fā)展,使用基于深度學習的方法進行情感分析已經(jīng)成為了研究的主流。相較于傳統(tǒng)的機器學習方法,基于深度學習的方法在情感分析上表現(xiàn)得更加優(yōu)秀。深度學習能夠自動獲取從數(shù)據(jù)本身到高層抽象的語義映射,在最終的結(jié)果上表現(xiàn)更好。此外,相較于傳統(tǒng)機器學習方法而言,深度學習方法不需要對數(shù)據(jù)集樣本進行過多的處理。目前,在情感分析分支上最常見的深度學習方法主要包括: 卷積神經(jīng)網(wǎng)絡(luò)(CNN)、長短時記憶網(wǎng)絡(luò)(LSTM),以及長短時記憶網(wǎng)絡(luò)的變形(Bi-LSTM,GRU)等。
雖然使用神經(jīng)網(wǎng)絡(luò)進行情感分類的任務(wù)取得了顯著成效,但依然存在以下不足: 在基于深度學習的情感分類任務(wù)中,通常都假定了數(shù)據(jù)集中不同類別間的樣本是平衡的(data-balanced)[2-3]。這樣的假設(shè)存在一個問題: 對于競賽類的數(shù)據(jù)集,樣本經(jīng)過預處理,類別間較為平衡,訓練出的模型效果好。但是在真實數(shù)據(jù)集中,多數(shù)類樣本與少數(shù)類樣本之間差異較大,同樣的模型在真實數(shù)據(jù)集中對少數(shù)類樣本的分類效果不理想。少數(shù)類樣本會被誤分到多數(shù)類樣本中,造成誤判。
殷昊等[2]提出了一種對數(shù)據(jù)進行重采樣的多通道LSTM模型,對不平衡樣本進行隨機欠采樣,使樣本數(shù)達到平衡后再進行訓練。該方法使神經(jīng)網(wǎng)絡(luò)不依賴于多數(shù)類樣本,取得了較好的實驗結(jié)果。但該模型的通道數(shù)不確定,需要人工進行調(diào)試。陳志等[3]提出了一種對類別標簽重賦權(quán)的CNN模型(weight_CNN),通過引入一個與該標簽下所有樣本總數(shù)成反比的參數(shù)對CNN的誤差函數(shù)進行了改進。該方法降低了多數(shù)類樣本的權(quán)重,使得少數(shù)類樣本更加容易被檢測到,犧牲了多數(shù)類樣本的分類精度。
針對以上問題,本文提出了使用多通道雙向GRU神經(jīng)網(wǎng)絡(luò)和再平衡損失的情感分類方法,本模型由兩部分組成: 多通道的采樣方式融合與損失的再平衡(re-balance)。首先,本文對訓練集中的樣本分別進行保留原始樣本,隨機欠采樣(random under-sampling)處理和隨機過采樣(random over-sampling)處理,將處理后的樣本作為三個BiGRU通道的輸入,使模型充分利用不同采樣方式的優(yōu)點且不需要人工規(guī)定通道數(shù)。然后再根據(jù)每一個通道的各類別樣本數(shù)進行損失函數(shù)的再賦權(quán)處理。與傳統(tǒng)再平衡方法不同的是,本文基于有限覆蓋原理評估樣本對整體分類效果的貢獻,使每一個參與訓練的樣本都能對損失的計算提供同等的貢獻。避免分類對樣本不均情況的依賴,可以使模型訓練更加均衡。
本文的主要工作如下:
(1) 提出了隨機過采樣和隨機欠采樣相結(jié)合的多通道神經(jīng)網(wǎng)絡(luò),通過平衡類別間的樣本數(shù)來解決神經(jīng)網(wǎng)絡(luò)對多數(shù)類樣本有明顯依賴性的問題。
(2) 在分類器中引入了一種損失再平衡方法。將每一部分樣本對分類的貢獻進行了平衡,緩解了經(jīng)過重采樣后模型訓練的過擬合問題,解決了新加入樣本在學習過程中的貢獻遞減問題。
(3) 提出的模型在不同的數(shù)據(jù)集上進行了驗證,G-mean指標與整體分類準確率得到了較大的提升,證明所提出模型在各大數(shù)據(jù)集上的有效性和準確性。
本部分將介紹當前對于情感分類特別是對基于方面(aspect)的情感分類研究與目前對于樣本不平衡的相關(guān)研究。
目前情感分類使用的方法以深度學習為主,其中使用的深度學習框架包括卷積神經(jīng)網(wǎng)絡(luò)(CNN)、循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)、長短時記憶網(wǎng)絡(luò)(LSTM)、門控循環(huán)單元(GRU)等。Kim[4]首次將 CNN 應用到文本分類任務(wù)中。Mikolov等[5]提出了循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN),相較于CNN,RNN具有上下文語義捕捉能力,能夠?qū)⒂洃泝?nèi)容應用到當前情景下,并且支持變長樣本的輸入。Zhu等[6]提出使用長短時記憶(long short term memory,LSTM),這是RNN的變種,考慮了詞序列之間順序依賴關(guān)系,能夠很好地解決長時、長距離依賴問題。以上框架已成為情感分類任務(wù)中的主流基礎(chǔ)框架模型。近年來的研究主要集中于對神經(jīng)網(wǎng)絡(luò)中的輸入向量和輸入通道數(shù)的改進。學者們發(fā)現(xiàn)在文本中加入方面(aspect)信息能夠有效提升模型預測的準確率。Wang等[7]在傳統(tǒng)的LSTM模型中引入了方面詞嵌入和自注意力機制,提出了ATAE_LSTM,該方法能將一個句子中的不同方面的情感進行劃分。Tang等[8]將文本處理分為目標詞左側(cè)文本和目標詞右側(cè)文本,在左側(cè)文本上使用正向LSTM,右側(cè)文本上使用反向LSTM,分別學習句子的情感信息,解決了文本與目標詞之間語義關(guān)系的建立問題。Ma等[9]提出了在神經(jīng)網(wǎng)絡(luò)外部引入共識知識的策略來進行方面詞的識別。Wang等[10]認為解決方面級(aspect-level)情感分類的關(guān)鍵在于如何將方面詞的檢測與情感分類更加有效地結(jié)合起來,據(jù)此他們提出AS-Capsule模型,該方法將文本與方面詞進行膠囊嵌入層、編碼層和注意力層的共享,有效地將方面詞檢測與情感分類結(jié)合起來,提高了分類準確率。Shams等[11]將目光聚集于“方面詞/情感詞”對,提出了一種無監(jiān)督的方面級情感分類模型。該方法首先識別文本,確定其所屬領(lǐng)域,然后使用最大期望算法得出文本中的情感詞所屬方面的概率,最后計算“方面詞/情感詞”對的概率,得出預測結(jié)果。
目前的情感分類方法基本上都是假設(shè)樣本間的數(shù)據(jù)是平衡的,關(guān)于不平衡樣本的情感分類研究比較缺乏。
與文獻[8-9]相同的是,本文的模型同樣將方面(aspect)信息納入到分類考慮的范疇,與它們不同的是,本文考慮了多分類數(shù)據(jù)的分布情況,使用多通道對數(shù)據(jù)進行重采樣與損失再平衡處理,能夠讓模型關(guān)注到數(shù)據(jù)集級別上的情感分布信息。
目前關(guān)于情感分類的研究都做了如下假設(shè): 數(shù)據(jù)集中各情感類別的樣本數(shù)是平衡的。實際上,在真實數(shù)據(jù)集中,類別間的數(shù)據(jù)是不平衡的,如SemEval競賽數(shù)據(jù)集,其多數(shù)類與少數(shù)類的樣本數(shù)之比達到了3:1,這個情況在其他真實數(shù)據(jù)集(如微博數(shù)據(jù)集)中更加明顯,因為人們在某一時間段會傾向于對某一特定產(chǎn)品發(fā)表大量相似情感的看法,這會導致分類結(jié)果偏向于多數(shù)類樣本,少數(shù)類的分類效果無法達到預期。目前,對于類別不平衡樣本的分類主要有基于采樣方式的方法和基于分類器優(yōu)化的方法?;诓蓸臃绞降姆椒ㄖ饕羞^采樣、欠采樣與混合采樣方法。Chawla等[12]提出了SMOTE方法。Ramentol等[13]提出將模糊粗糙集的編輯技術(shù)應用于過采樣中,該方法提高了少數(shù)類的分類正確率。
基于分類器優(yōu)化的方法又稱代價敏感學習方法,其主要思想是通過對損失函數(shù)的權(quán)重進行重新分配來實現(xiàn)總體誤分最小化。Chan等[14]提出了一種cost-based sampling方法,該方法通過代價來重新定義少數(shù)類樣本采樣的比例。Elkan等[15]開創(chuàng)性地提出了一種損失再平衡(e-balance)技術(shù),該技術(shù)將代價敏感問題看成優(yōu)化問題,通過調(diào)整訓練數(shù)據(jù)集中數(shù)據(jù)實例的分布來解決代價敏感分類問題。Cui等[16]根據(jù)數(shù)據(jù)分布的長尾特性提出了一種新的re-balance方法,該方法根據(jù)每一次訓練所取的數(shù)據(jù)中的有效樣本數(shù)對損失進行一個重新調(diào)整。
以上關(guān)于不平衡樣本的處理方法都是在傳統(tǒng)算法上進行的改進,然而近年來基于深度學習的模型中對于不平衡樣本的處理較少,數(shù)據(jù)不平衡導致的分類效果對多數(shù)類樣本的依賴給神經(jīng)網(wǎng)絡(luò)的訓練帶來了極大的挑戰(zhàn)。因此研究如何改善不平衡樣本的依賴問題成為了一個重要的研究方向。
在情感分類和類別不平衡的分類這兩個問題上,學者們分別進行了大量的研究,但針對不平衡樣本的情感分類研究卻很少。殷昊等[2]提出使用隨機欠采樣的方法對不平衡數(shù)據(jù)進行重采樣處理,得到多組數(shù)據(jù)輸入到多通道LSTM網(wǎng)絡(luò)中進行情感分類。Xiao等[17]首先在平衡數(shù)據(jù)集上對CNN模型進行訓練,將訓練好的模型遷移到不平衡數(shù)據(jù)集,同時對不平衡數(shù)據(jù)集進行欠采樣,使數(shù)據(jù)集平衡。Cao等[18]提出了一種基于邊界最小化損失的方法對不平衡樣本進行分類。該方法取代了傳統(tǒng)的交叉熵損失,同時加入了一個訓練表,使得模型推遲對損失權(quán)重的更新,使其更加注重關(guān)鍵信息。
以上方法主要是針對不平衡樣本的其中一方面進行改進,而沒有考慮同時從樣本重采樣與損失再平衡解決不平衡樣本的分類問題。本文擬從這兩方面同時改進模型。
與文獻[2]相同的是,本文提出的模型同樣對數(shù)據(jù)進行了再平衡處理,與其不同之處主要有以下三點: ①本文提出的模型在進行數(shù)據(jù)重采樣時,并不是對整體數(shù)據(jù)集進行重采樣,而是在取每一批時,對小部分不平衡數(shù)據(jù)同時進行過采樣與欠采樣,如此一來,本文所使用的多通道是穩(wěn)定的三通道模型(三個通道分別為原始數(shù)據(jù)、過采樣數(shù)據(jù)、欠采樣數(shù)據(jù)),避免了隨機超參數(shù)n的使用。②本文考慮到在取每一批時只使用一次欠采樣帶來的信息缺失的影響,于是加入了過采樣步驟,使過采樣與欠采樣相互制約。③本文所提出的模型除了使用重采樣方式對數(shù)據(jù)進行平衡,還加入了損失再平衡學習,重新平衡了每一個數(shù)據(jù)對整體學習效果的影響。
本文提出的模型整體架構(gòu)如圖1所示,在形式上,模型先對每一個batch的數(shù)據(jù)分別進行過采樣與欠采樣處理,然后再通過已經(jīng)訓練完畢的詞向量映射到一個多維的連續(xù)向量空間中,經(jīng)過拼接之后形成了完整句子的詞向量矩陣W,其中原始樣本、過采樣與欠采樣后的詞向量矩陣分別表示為:
W1=w1⊕w2⊕…⊕wn,W2=w1⊕w2⊕...⊕wm,W3=w1⊕w2⊕...⊕wt。但本文不單獨采用詞向量矩陣,而是將詞向量與方面詞向量進行拼接后作為輸入。這是由于在近年來的情感分類研究中,方面詞成為了一個較為重要的特征。在現(xiàn)實情況中,一個句子可能包含了多個方面詞,而針對每一個方面詞會存在不同的情感極性。這就使得方面級別的情感分類相較于傳統(tǒng)分類更加貼近實際。其中經(jīng)過詞嵌入處理后的詞向量為Wr∈Rn×s,方面詞向量為Wa∈Rn×t。本文從文獻[7-8]所提出的方法得到靈感,將方面詞向量與詞向量進行拼接得到神經(jīng)網(wǎng)絡(luò)的輸入,如式(1)所示。
圖1 多通道GRU體系結(jié)構(gòu)
其中,Wn×(s+t)為整體詞嵌入矩陣,其維度與每個通道所提取的樣本數(shù)一致,Wrn×s為經(jīng)過預處理的詞嵌入向量,Wan×t為方面詞嵌入向量。
隨機采樣的基本思想是: 在采樣過程中隨機復制少數(shù)類樣本(隨機過采樣)和隨機刪除多數(shù)類樣本(隨機欠采樣),最終達到需要的樣本數(shù)。
由算法1可以看出,經(jīng)隨機過采樣后的訓練集會存在大量的重復樣本,這會導致在訓練過程中對某些樣本的重復訓練,可能會造成訓練過擬合,從而降低分類準確率。
算法1
由算法2可以看出,經(jīng)隨機欠采樣后的訓練集缺失了部分樣本,可能會導致信息丟失,從而降低分類準確率。
為了平衡不同采樣方式產(chǎn)生的不足,提高分類器性能,本文提出了一種基于多通道的雙向GRU分類模型。該方法同時應用隨機過采樣與隨機欠采樣對每一批次樣本數(shù)進行平衡,并將過采樣與欠采樣后的平衡樣本分別輸入到不同的通道中,最終聯(lián)合原始樣本形成一個三通道的神經(jīng)網(wǎng)絡(luò)模型,以此來平衡不同采樣方式所帶來的的局限。
算法2
具體的操作如下: 首先將訓練集樣本復制兩份,其中原始樣本作為第一個通道的輸入。根據(jù)該原始樣本使用隨機過采樣得到一個新的訓練集,將其作為第二個通道的輸入。同理,根據(jù)原始樣本使用隨機欠采樣得到另一新的訓練集,將其作為第三個通道的輸入。以此,構(gòu)成了三通道神經(jīng)網(wǎng)絡(luò)的輸入。
RNN具有很強的序列建模能力,在句子中可以捕捉到詞語的長期依賴信息,在自然語言處理的任務(wù)中廣泛應用于文本的語義建模。GRU 按時間步處理輸入序列,每個時間步輸入除了前時刻輸入還有前一刻的狀態(tài)。相較于LSTM網(wǎng)絡(luò),GRU網(wǎng)絡(luò)把LSTM中的遺忘門和輸入門用更新門來替代。這使得GRU網(wǎng)絡(luò)的參數(shù)更少,用起來更方便。
本文假設(shè)當前文本與之前和之后的文本都有關(guān)聯(lián),選用單向GRU網(wǎng)絡(luò)無法學習到當前文本與之后文本的關(guān)系。所以,本實驗采用雙向GRU(BiGRU)模型來訓練樣本,如圖2所示。
圖2 雙向門控單元循環(huán)神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)圖
雙向GRU網(wǎng)絡(luò)的前向與后向在t時刻的輸出由式(2)、式(3)計算:
該式表示t時刻的輸出由前向輸出和后向輸出拼接構(gòu)成。其中ht∈R2h。最終雙向GRU網(wǎng)絡(luò)由T個時刻構(gòu)成,則最終的隱層語義編碼表示如式(5)所示。
但是,直接應用隱層輸出易導致模型過擬合。本文使用文獻[19]所提出的層歸一化方法計算每一輪訓練中所有輸入的均值和差,然后進行歸一化操作以穩(wěn)定神經(jīng)網(wǎng)絡(luò)中的隱層向量,防止模型過擬合。在層歸一化中,使用“協(xié)變量變換”的方法對BiGRU網(wǎng)絡(luò)中隱藏層的神經(jīng)元hi,i=1,2,…,n賦予自適應偏差與增益。在整個隱藏層中,所有神經(jīng)元共用同一套歸一化參數(shù):μ,σ,其歸一化操作計算如式(6)~式(8)所示。
最終,經(jīng)過層歸一化后的隱層向量如式(9)所示。
其中,h′i,i=1,2,…,n為經(jīng)過層歸一化后i時刻的隱層向量輸出。H′∈Rn×H。
本文考慮在損失函數(shù)層面根據(jù)每一次訓練的數(shù)據(jù)及其鄰域中包含的預測信息對損失進行一個重新調(diào)整,而不是單純地將每一個數(shù)據(jù)點的預測結(jié)果作為損失。
根據(jù)以上思想,當有N個樣本時,其構(gòu)成的樣本空間為N個數(shù)據(jù)點及其包含的鄰域,但該樣本空間的樣本量在實際操作中難以計算,故引入有效樣本數(shù)En來表示該樣本空間的理論樣本量,其中n表示樣本類別數(shù)。
根據(jù)有限覆蓋原理(有限個樣本能夠完全覆蓋住整個樣本空間),當樣本數(shù)足夠大時,使用有限個樣本能夠覆蓋整個樣本空間。
當有一個新樣本加入到樣本空間中時,本文使用覆蓋操作來計算新的有效樣本數(shù)。覆蓋操作基于以下假設(shè): 進行覆蓋的新樣本,在樣本空間上只存在被樣本空間覆蓋和未被覆蓋兩種情況。令已被覆蓋的概率為p,則未被覆蓋的概率為1-p。因此,一個新樣本x被已有的樣本空間所覆蓋的概率如式(10)所示。
本文參考了Cui[21]的方法,使用有效樣本數(shù)對空間進行覆蓋。該方法引入超參數(shù)β,對有效樣本數(shù)En進行劃分。其有效樣本數(shù)計算如式(11)、式(12)所示。
首先證明有效樣本數(shù)En的計算公式。
假設(shè)樣本類別為n-1時上式成立,則當類別數(shù)為n時,根據(jù)所提出的假設(shè),新取樣本被已取樣本形成的樣本空間覆蓋的概率如式(13)所示。
則此時
將n-1時成立的有效樣本數(shù)En-1帶入式(11)得:
由此有效樣本數(shù)公式得證。
下面證明超參數(shù)β的計算公式。
證明2由等比數(shù)列的計算如式(16)所示。
該式表明第i個樣本對有效樣本數(shù)的貢獻為βi-1,根據(jù)有限覆蓋理論,當n→∞時,有效樣本數(shù)無限趨近于樣本數(shù),則樣本數(shù)可接下式計算:
經(jīng)過變換可得:
由此,超參數(shù)β的計算公式得證。
其中,L(p,y)為一般的損失計算。
在每一通道訓練結(jié)束后,最終會得到三個預測向量Y1、Y2、Y3,由于采用了不同的采樣策略,而且在采樣過程中通道間的預測結(jié)果并不與通道同序,本研究中擬將三部分預測結(jié)果進行拼接融合。其表現(xiàn)形式如式(21)所示。
其形式化表現(xiàn)如圖3所示。
圖3 拼接融合層示意圖
本文在SemEval 2014 restaurant數(shù)據(jù)集與SemEval 2014 laptop數(shù)據(jù)集下進行了實驗。本節(jié)闡述了實驗細節(jié),對模型性能進行了評估,并分析了結(jié)果。
實驗數(shù)據(jù)集分布如表1所示。
SemEval 2014 laptop: 本數(shù)據(jù)集是一個三分類的競賽數(shù)據(jù)集,總共包括1 462個訓練樣本,411個測試樣本,在訓練樣本中,消極類、中性類和積極類樣本個數(shù)分別為987、460、866。在測試樣本中,消極類、中性類和積極類樣本個數(shù)分別為 341、169、128。
SemEval 2014 restaurant: 本數(shù)據(jù)集是一個三分類競賽數(shù)據(jù)集,總共包括1 978個訓練樣本,600個測試樣本,在訓練樣本中,消極類、中性類和積極類樣本個數(shù)分別為2164、633、805。在測試樣本中,消極類、中性類和積極類樣本個數(shù)分別為728、196、196。
表1 實驗數(shù)據(jù)集分布
(b) 各數(shù)據(jù)集的測試數(shù)據(jù)分布
本文在對數(shù)據(jù)集進行預處理時去掉了數(shù)據(jù)集中的沖突(conflict)分類的數(shù)據(jù)來進行實驗。
本文使用NLTK包對所取的實驗數(shù)據(jù)進行分詞和方面詞提取。本文使用了Penninaton等[20]提出的GloVe向量對單詞進行初始向量嵌入,每個單詞的詞嵌入向量維度為300。對于未登錄詞,使用滿足均勻分布U(-0.01,0.01)的隨機向量來進行初始化。詞向量與方面詞向量的維度均為300。所有數(shù)據(jù)集的dropout rate均為0.5。不同數(shù)據(jù)集的其他超參數(shù)設(shè)置如表2所示。
本文將提出的模型與基準模型進行了對比,以驗證本文所提出模型的有效性。其中基準方法如下:
表2 各數(shù)據(jù)集下的最佳超參數(shù)配置
(1) 基礎(chǔ)模型
CNN[4]: 使用預訓練得到詞嵌入的卷積神經(jīng)網(wǎng)絡(luò)。
RNN[5]: 循環(huán)神經(jīng)網(wǎng)絡(luò)。
LSTM[6]: 長短時記憶神經(jīng)網(wǎng)絡(luò)。
BiLSTM[21]: 雙向長短時記憶神經(jīng)網(wǎng)絡(luò)。
GRU[22]: 門控單元循環(huán)神經(jīng)網(wǎng)絡(luò)。
(2) 基于方面的模型
ATAE_LSTM[7]: 在輸入層與隱層向量中加入方面詞向量嵌入后使用注意力機制的長短時記憶神經(jīng)網(wǎng)絡(luò)。
TD_LSTM[8]: 在目標詞前后分別使用長短時記憶神經(jīng)網(wǎng)絡(luò)的模型。
TC_LSTM[8]: 在文本上拼接方面詞,并在目標詞前后文使用長短時記憶神經(jīng)網(wǎng)絡(luò)的模型。
(3) 基于不平衡數(shù)據(jù)集的模型
Weighted_CNN[3]: 在CNN的誤差函數(shù)中引入標簽權(quán)重函數(shù),對誤差函數(shù)進行改進。
UnderS+LSTM[2]: 使用隨機欠采樣構(gòu)成5個通道的輸入后使用長短時記憶網(wǎng)絡(luò)訓練。
不同于以往的情感分類模型,本文提出的模型關(guān)注了不同類別下的分類效果,因此,本文所使用的評價指標除了準確率外,還使用了每一個分類別下的準確率和G-mean評價指標。
各類別準確率:
其中,Ni為第i類的樣本數(shù),I()為計分函數(shù),表示若分類正確(即預測值與真實值一致)則計1,否則計0。
使用各類別的分類精度這一評價指標可以看出模型針對每一類樣本的分類情況。對于不平衡情感分類任務(wù)來說,需要判斷模型分類結(jié)果是否依賴于多數(shù)類樣本的分類效果。如果只使用整體分類精度的話則無法進行判斷,而使用各類別分類精度可以直觀得出結(jié)論。故選擇此評價指標。
G-mean的定義如式(23)所示。
G-mean測度計算了n個類別間樣本預測精度的幾何均值,若其中一類分類效果好,而其他類別分類效果欠佳,則G-mean測度值必然偏小,只有當各類別精度較接近時G-mean測度才可達到峰值。
在不平衡情感分類任務(wù)中,由于類別間樣本數(shù)量不同,各類別的分類情況也不盡相同,因此需要G-mean指標來評價各類別分類的差異情況,以此衡量模型的優(yōu)劣。實驗結(jié)果如表3所示。
表3 各數(shù)據(jù)集下的情感分類準確率與G-mean值
(b) laptop數(shù)據(jù)集下的各類別準確率、全局準確率與G-mean
續(xù)表
表3中的所有實驗結(jié)果均在同一環(huán)境下得出??梢钥闯觯疚奶岢龅哪P驮趓estaurant和laptop數(shù)據(jù)集中取得了91%與89%的準確率,且G-mean值也高于其他方法,其G-mean值分別為0.907 3、0.909 5。本文模型與基于方面的模型相比,各分類準確率更高,說明了本文融合的多通道混合采樣與損失再平衡方法讓模型更加關(guān)注少數(shù)類樣本,同時對多數(shù)類樣本的學習影響較低。與基于不平衡數(shù)據(jù)集的模型相比,本文提出的模型的G-mean值更高,這表明同時融合混合采樣與損失再平衡的方法在不平衡樣本上不同類別之間的差異性更小。
本文提出的模型包括兩個部分,使用隨機采樣部分和re-balance部分,本節(jié)將對這兩部分分別進行實驗來驗證其有效性。具體來說,本節(jié)將對模型中各組成部分分別進行實驗。本文進行驗證的數(shù)據(jù)集為SemEval 2014 restaurant和SemEval 2014 laptop,所使用的數(shù)據(jù)集皆已去除conflict分類。
3.5.1 不同采樣方式與損失再平衡的影響
本文提出的模型主要包含了以下兩方面: 隨機過采樣與隨機欠采樣相結(jié)合的策略、基于隨機覆蓋的再平衡損失策略。本文在兩個數(shù)據(jù)集上討論了這兩部分的影響,其結(jié)果如表4所示。
通過對表4的分析,可以看出:
(1) 從G-mean評價指標出發(fā)。本文所提出的模型的G-mean值達到了所有模型的最高值,其中restaurant數(shù)據(jù)集為0.907 3,laptop數(shù)據(jù)集為0.909 5,均超過了0.9,這說明本文提出的模型在各類別上分類效果更加均衡; 只使用損失再平衡策略的模型在G-mean上的波動最小,這是由于其有限覆蓋原理保證了各樣本貢獻的一致性。
表4 不同采樣方式下模型的準確率與G-mean值
(b) Laptop數(shù)據(jù)集下的準確率與G-mean值
(2) 從全局分類準確率出發(fā),只使用多通道進行情感分類的模型在全局準確率上達到最佳。這是因為重采樣后的樣本增加了數(shù)據(jù)量且類間平衡,模型在一個更接近理想狀態(tài)的條件下進行訓練,故全局準確率更高。但其對樣本分布更加敏感,模型在面對不同數(shù)據(jù)分布的數(shù)據(jù)集時表現(xiàn)不穩(wěn)定。本文所提出的模型在全局準確率下雖不如多通道的模型,但差距不大,在restaurant數(shù)據(jù)集上相差0.005 9,在laptop數(shù)據(jù)集上相差0.012 2,這樣的差距在實際分類任務(wù)中是可以接受的;
3.5.2 不同采樣率對分類效果的影響
圖4 不同采樣率下的模型G-mean值
3.5.3 不同超參數(shù)β的影響
本文使用的損失再平衡策略中存在超參數(shù)β,根據(jù)文獻[21]所提出的思想,超參數(shù)的設(shè)置應在集合{0.9,0.99,0.999,0.999 9}中,本文對集合中的參數(shù)進行結(jié)果驗證。其結(jié)果如表5所示。
表5 不同超參數(shù)取值下的模型準確率與G-mean
(b) laptop數(shù)據(jù)集下超參數(shù)變化后的準確率與G-mean
從表5可以看出,在β取不同的值時,模型的G-mean呈現(xiàn)一個波動趨勢。其中,在β=0.999 9時,兩個數(shù)據(jù)集中G-mean測度均達到最大值,但是對每一類分類的準確率來說,當β=0.999 9時,正類(少數(shù)類)產(chǎn)生了過擬合。為避免模型過擬合,應當根據(jù)不同的數(shù)據(jù)情況選取合適的超參數(shù)。在本文驗證的數(shù)據(jù)集中,restaurant數(shù)據(jù)集應取β=0.9,laptop數(shù)據(jù)集應取β=0.99。
本文提出了一個混合采樣和損失再平衡相結(jié)合的多通道雙向GRU模型。該模型由混合重采樣形成的多通道網(wǎng)絡(luò)和基于有限覆蓋原理的損失再平衡分類器兩部分組成。首先對數(shù)據(jù)樣本進行隨機欠采樣、隨機過采樣操作,使各類別數(shù)據(jù)達到基本平衡,然后連同原始樣本生成三個通道作為神經(jīng)網(wǎng)絡(luò)的輸入。利用BiGRU網(wǎng)絡(luò)對輸入的樣本進行序列建模,獲得其中的情感信息。最后使用損失再平衡策略對損失函數(shù)進行再平衡處理,平衡新老樣本間對分類的貢獻,緩解樣本貢獻的衰減問題,提高模型的穩(wěn)定性與準確率。實驗結(jié)果表明,模型能夠有效提高各類別的分類精度,緩解分類對多數(shù)類樣本的依賴情況,比當前最先進模型分類效果要好。
未來工作的重點是對樣本集的采樣設(shè)計和損失再平衡的改進設(shè)計。①在采樣方面,本文使用了較為簡單的隨機采樣技術(shù),在未來將考慮優(yōu)化采樣方法來保持樣本的多樣性與維持樣本分布。②再平衡策略的假設(shè)是: 樣本被已有樣本空間完全覆蓋或完全在樣本空間外。未來計劃根據(jù)樣本分布情況對假設(shè)條件進行改進,使其更符合實際情況。③將本文提出的方法應用到實際工作中。