田鋒,王媛媛,吳凡,鄭慶華
(1.西安交通大學(xué)陜西省天地網(wǎng)技術(shù)重點(diǎn)實(shí)驗(yàn)室,710049,西安; 2.西安交通大學(xué)電子與信息工程學(xué)院,710049,西安)
交互文本是網(wǎng)絡(luò)用戶的重要交流方式之一,如QQ和微博。面向交互文本的情感分析技術(shù)在E-learning、輿情分析、人機(jī)對(duì)話等領(lǐng)域具有重意義?,F(xiàn)實(shí)中,非平衡特性在交互文本中普遍存在,即一類情感類別的樣本數(shù)遠(yuǎn)遠(yuǎn)大于其他情感類別的樣本數(shù),導(dǎo)致在其上訓(xùn)練的分類模型忽視少數(shù)類信息,產(chǎn)生過擬合問題。同時(shí),網(wǎng)絡(luò)上的交互文本更新速度快,用原始數(shù)據(jù)集構(gòu)建的模型對(duì)新生數(shù)據(jù)的分類效果比較差,即形成分類模型泛化性能差的問題。如何提高非平衡情感分類模型的泛化分類性能是當(dāng)前研究的難點(diǎn)之一。
在處理非平衡問題時(shí),已有的很多方法都是在單一訓(xùn)練數(shù)據(jù)集上變化,近年來,遷移學(xué)習(xí)的概念被引入到非平衡分類中[1-2],此類方法基于目標(biāo)數(shù)據(jù)集與源數(shù)據(jù)集實(shí)例間的相似度進(jìn)行源數(shù)據(jù)集中遷移實(shí)例篩選,進(jìn)而合成新的數(shù)據(jù)集并在其上訓(xùn)練出情感分類模型。從源數(shù)據(jù)集向目標(biāo)數(shù)據(jù)集遷移高質(zhì)量的實(shí)例極其重要,但是基于實(shí)例遷移的方法在解決非平衡問題時(shí)很少考慮泛化問題。
受SVM[3]方法中超平面構(gòu)造的思路啟發(fā),本文提出一種基于實(shí)例同超平面距離的源數(shù)據(jù)集可遷移實(shí)例篩選算法,以解決如何有效地向目標(biāo)數(shù)據(jù)集引入新信息的問題。在構(gòu)造的合成數(shù)據(jù)集上訓(xùn)練出泛化性能優(yōu)的分類模型,克服泛化性能弱的難點(diǎn)。
在現(xiàn)實(shí)中非平衡問題廣泛存在,目前解決非平衡分類問題主要采用從數(shù)據(jù)集層面上和算法層面上處理兩類方法。數(shù)據(jù)集層面的方法通過改變訓(xùn)練集的規(guī)模與特征分布,降低不平衡度來提高分類性能,典型方法有Oversampling、Subsampling、SMOTE等;算法層面的方法有集成方法、代價(jià)敏感學(xué)習(xí)方法、特征選擇方法和單類學(xué)習(xí)方法等[4]。然而,上述方法都是在單一訓(xùn)練數(shù)據(jù)集上進(jìn)行構(gòu)造,信息的更新度不夠,在新數(shù)據(jù)集上分類性能差。
最近,因遷移學(xué)習(xí)[5]從一個(gè)或多個(gè)源數(shù)據(jù)集中提取知識(shí),給訓(xùn)練數(shù)據(jù)集帶來了新的信息,所以遷移學(xué)習(xí)應(yīng)用于文本情感分類逐漸成為研究熱點(diǎn)。按照被識(shí)別對(duì)象的粒度可分為句子級(jí)上、段落級(jí)上和文檔級(jí)上的文本情感分類研究。
在句子級(jí)上,文本情感分類在社交網(wǎng)絡(luò)中應(yīng)用最為廣泛[6]。Yong等提出基于word2vec情感詞語義相似性的遷移方式[7];Wu等提出在遷移之前使用兩階段采樣方式,根據(jù)共現(xiàn)特征和目標(biāo)數(shù)據(jù)集特征篩選合適的數(shù)據(jù)[8];田鋒等針對(duì)多領(lǐng)域類分布不均衡問題提出分領(lǐng)域?qū)嵗x取與遷移方法,采用目標(biāo)數(shù)據(jù)集單一實(shí)例最相似N個(gè)實(shí)例無差別遷移的策略[9]。
在段落級(jí)上,文本情感分類在商品、電影評(píng)論中應(yīng)用廣泛。Zhang等提出一種新的基于非負(fù)矩陣三因子分解的遷移學(xué)習(xí),通過鏈接相似特征簇進(jìn)行情感分類[10]。
在文檔級(jí)上,Li等通過源領(lǐng)域的學(xué)習(xí)將文檔類別信息遷移到詞特征上,然后把情感分類信息通過詞特征遷移到目標(biāo)領(lǐng)域的文檔[11];莊福振在此基礎(chǔ)上將詞特征改進(jìn)為詞特征聚類進(jìn)行遷移學(xué)習(xí)[12]。
雖然上述遷移學(xué)習(xí)文本情感分類涉及了非平衡分類,改善了目標(biāo)數(shù)據(jù)集的特征分布,但是沒有考慮交互文本內(nèi)容與情感隨著時(shí)間而不斷變化、不同時(shí)段內(nèi)數(shù)據(jù)特征分布差異較大的現(xiàn)象,所訓(xùn)練模型并不能滿足對(duì)未來數(shù)據(jù)的分類需求、仍易過擬合,并未緩解泛化問題。
針對(duì)此問題,本文擬結(jié)合SVM分類超平面特點(diǎn)引入新信息的效用理論來指導(dǎo)篩選高質(zhì)量遷移實(shí)例,提升交互文本情感分類的泛化性能。
心理學(xué)家威廉·麥克斯·華德特提出的信息效用理論反映了人們對(duì)于事物中所含信息的心理反應(yīng)強(qiáng)度,這種新穎程度(新奇度)只有在一定的范圍內(nèi)才會(huì)對(duì)人和動(dòng)物產(chǎn)生激勵(lì)作用[13]。這種事物的新奇度與人們心理反應(yīng)之間的關(guān)系可用一條倒U型的曲線來表示,即被認(rèn)為心理學(xué)第一定律的Wundt曲線,如圖1所示。本文將信息效用理論引入文本情感分類,利用文本的新奇度與最優(yōu)信息效用篩選高質(zhì)量遷移實(shí)例。本文假設(shè)文本的新奇度和最優(yōu)信息效用是由源數(shù)據(jù)集蘊(yùn)含的知識(shí)、目標(biāo)數(shù)據(jù)集知識(shí)和分類超平面距離3個(gè)因素決定的。
圖1 Wundt曲線
由于交互文本特征維度高,使用分布之間的差異相加(如KL距離)來衡量源數(shù)據(jù)集中待遷移實(shí)例的新奇度不準(zhǔn)。本文采用源數(shù)據(jù)集實(shí)例與分類超平面距離的遠(yuǎn)近作為新奇度的一個(gè)維度,即距離分類超平面越遠(yuǎn)的實(shí)例蘊(yùn)含的舊信息越多,新奇度越低,無益于提升分類性能,向分類超平面附近添加適量的少數(shù)類,更有益于提升分類性能。
最優(yōu)信息效用表示遷入多少源數(shù)據(jù)集實(shí)例時(shí)能夠達(dá)到最佳分類性能。當(dāng)遷移實(shí)例過多,引入過多新奇度低或噪聲實(shí)例,將使數(shù)據(jù)集偏離原始分布太遠(yuǎn),產(chǎn)生誤導(dǎo)作用,使分類器分類性能下降。相反,加入適量新奇度高的實(shí)例,能明顯提升分類性能。遷移實(shí)例比例是決定文本新奇度的另一個(gè)維度。
本文受SVM分類器超平面構(gòu)造方法的啟發(fā),提出將位于少數(shù)類和多數(shù)類支持向量之間的源數(shù)據(jù)集實(shí)例作為待遷實(shí)例,并基于目標(biāo)數(shù)據(jù)集上的分類超平面構(gòu)造一個(gè)偏移超平面?;诖w實(shí)例到偏移超平面的距離最短來篩選遷入的實(shí)例,同時(shí)采用遷入比例控制遷入實(shí)例規(guī)模生成合成數(shù)據(jù)集。該方法旨在通過向非平衡目標(biāo)數(shù)據(jù)集加入與偏移超平面一定距離的源數(shù)據(jù)集實(shí)例,促使超平面向多數(shù)類實(shí)例方向偏移,減少錯(cuò)分的少數(shù)類實(shí)例個(gè)數(shù)。同時(shí),源數(shù)據(jù)集實(shí)例的加入增加了目標(biāo)數(shù)據(jù)集少數(shù)類信息,可緩解非平衡交互文本特征空間稀疏的問題,改變目標(biāo)數(shù)據(jù)集的特征空間分布,提高目標(biāo)數(shù)據(jù)集泛化分類性能。圖2是基于實(shí)例與超平面距離的遷移實(shí)例篩選示意圖。
(a)原始數(shù)據(jù)集 (b)加入遷移實(shí)例 (c)新的合成數(shù)據(jù)集圖2 基于超平面距離的遷移實(shí)例篩選示意圖
本文提出的遷移方法首先將目標(biāo)數(shù)據(jù)集和源數(shù)據(jù)集實(shí)例合并提取特征,包括語法特征、統(tǒng)計(jì)特征、uni-gram和bi-gram詞頻特征(基于中文情感詞匯本體構(gòu)建詞典),使源數(shù)據(jù)集實(shí)例可以直接遷移到目標(biāo)數(shù)據(jù)集中,完成預(yù)處理;然后,使用基于超平面距離的遷移實(shí)例篩選算法在源數(shù)據(jù)集上篩選滿足條件的實(shí)例加入目標(biāo)數(shù)據(jù)集構(gòu)成合成數(shù)據(jù)集。
基于實(shí)例與超平面距離的遷移實(shí)例篩選方法的核心是如何利用新奇度來遷移實(shí)例。本文中新奇度考慮實(shí)例與超平面的距離和遷入實(shí)例比例兩個(gè)變量。由于加入位于超平面附近的實(shí)例對(duì)超平面的影響比較明顯,故本文設(shè)置位于支持向量之間的實(shí)例為待遷實(shí)例。首先,將由目標(biāo)數(shù)據(jù)訓(xùn)練得到的線性核SVM分類器命名為C,通過間隔最大化學(xué)習(xí)得到的分類超平面為
w*x+b*=0
(1)
相應(yīng)的分類決策函數(shù)為
f(x)=sign(w*x+b*)
(2)
假設(shè)將支持向量與SVM分類超平面的距離視為1,多數(shù)類支持向量所在的超平面距離分類超平面的距離表示為1,少數(shù)類表示為-1。使用訓(xùn)練好的分類器C對(duì)源數(shù)據(jù)集中的實(shí)例進(jìn)行類別預(yù)測(cè),計(jì)算源數(shù)據(jù)集中每個(gè)實(shí)例(xi,yi)與從分類器C構(gòu)造的偏移超平面的距離公式如下
di=w*xi+b*-β
(3)
式中:β是控制偏移超平面位置的距離閾值,取值集合為{-1,-0.5,0,0.5,1}。閾值取-1時(shí)選取的偏移超平面是少數(shù)類支持向量所在的超平面,閾值取1時(shí)選取的偏移超平面是多數(shù)類支持向量所在的超平面。
由于遷移實(shí)例個(gè)數(shù)在不同規(guī)模數(shù)據(jù)集上不同,本文以遷移實(shí)例占目標(biāo)數(shù)據(jù)集少數(shù)類的比例為度量,記為遷入比例γ,根據(jù)遷入比例計(jì)算遷移實(shí)例數(shù)M。將計(jì)算出的源數(shù)據(jù)集中每個(gè)實(shí)例與偏移超平面的距離進(jìn)行從小到大的排序,選擇前M個(gè)實(shí)例加入目標(biāo)數(shù)據(jù)集構(gòu)成合成數(shù)據(jù)集。
本實(shí)驗(yàn)以二分類問題(正負(fù)面情感)為研究對(duì)象,采用的數(shù)據(jù)集為微博數(shù)據(jù)集、BBS論壇數(shù)據(jù)和QQ數(shù)據(jù)集。微博數(shù)據(jù)集來自新浪微博網(wǎng)友互動(dòng),BBS論壇數(shù)據(jù)來自某校內(nèi)論壇用戶互動(dòng),均是涵蓋多種類型話題的交互短文本。QQ數(shù)據(jù)集來自騰訊QQ上某學(xué)習(xí)小組的交互短文本。
實(shí)驗(yàn)共兩組數(shù)據(jù)集,第一組的目標(biāo)數(shù)據(jù)集來自微博短文本,命名為weibo,共5 065條,非平衡比(少數(shù)類實(shí)例個(gè)數(shù)∶多數(shù)類實(shí)例個(gè)數(shù))為1∶4,稀疏度約為1.697 4×10-4,記為Dweibo。源數(shù)據(jù)集來自BBS論壇數(shù)據(jù)中的3 137條負(fù)面情感實(shí)例,命名為BBS。第二組的目標(biāo)數(shù)據(jù)集來自QQ數(shù)據(jù)集,命名為QQ,共4 778條,非平衡比為1∶4,稀疏度約為9.425 8×10-5,記為DQQ。源數(shù)據(jù)集來自微博數(shù)據(jù)集中學(xué)習(xí)主題的4 268條負(fù)面情感實(shí)例,命名為w_study。兩組的測(cè)試數(shù)據(jù)集分別為和兩個(gè)目標(biāo)數(shù)據(jù)集不同時(shí)段的數(shù)據(jù)集,各為1 045條和959條實(shí)例。Syn_W數(shù)據(jù)集表示第一組實(shí)驗(yàn)中的weibo數(shù)據(jù)集和BBS數(shù)據(jù)集構(gòu)成的合成數(shù)據(jù)集,非平衡比為1∶3.3,記為Dsyn_w。Syn_Q數(shù)據(jù)集表示QQ數(shù)據(jù)集和w_study數(shù)據(jù)集構(gòu)成的合成數(shù)據(jù)集,非平衡比為1∶3.3,記為Dsyn_q。
合成數(shù)據(jù)集生成時(shí),在遷移實(shí)例中為了確定最優(yōu)信息效用,設(shè)置不同的參數(shù)執(zhí)行實(shí)驗(yàn)實(shí)現(xiàn)對(duì)目標(biāo)數(shù)據(jù)集引入新信息的比例控制策略。該策略首先采用目標(biāo)數(shù)據(jù)集訓(xùn)練分類器,每次篩選一定比例的實(shí)例加入目標(biāo)數(shù)據(jù)集形成合成數(shù)據(jù)集。在每個(gè)合成數(shù)據(jù)集上訓(xùn)練分類模型,比較不同遷入比例下的泛化分類性能,確定最優(yōu)信息效用。設(shè)置方法中的一些參數(shù)為:遷入比例參數(shù)以10%為步長,從10%遞增至300%,使數(shù)據(jù)集達(dá)到平衡。實(shí)例與超平面的距離d分別取-1.0,-0.5,0.0,0.5,1.0。
對(duì)比數(shù)據(jù)集及實(shí)驗(yàn)方法:使用SMOTE[14]、Subsampling[4]、Oversampling[4]方法分別生成的3類數(shù)據(jù)集,其非平衡比例均為1∶1,分別記為DSMOTE、DSub、DOver。在目標(biāo)數(shù)據(jù)集以及各個(gè)合成數(shù)據(jù)集上使用SMO、LibSVM、RandomForest(RF)、代價(jià)敏感的SMO(Cost+SMO)、代價(jià)敏感的LibSVM(Cost+LibSVM)和代價(jià)敏感的RandomForest(Cost+RF)、CNN[15]共7種分類方法進(jìn)行分類泛化性能測(cè)試實(shí)驗(yàn)。
本文選擇加權(quán)受試者工作曲線下方的面積(加權(quán)ROC)、少數(shù)類(負(fù)面情感類)F值和多數(shù)類(正面情感類)F值為非平衡交互文本情感分類的評(píng)價(jià)指標(biāo)。加權(quán)ROC準(zhǔn)確反映了真正率和假正率之間的關(guān)系,設(shè)為R,是非平衡問題分類準(zhǔn)確性的綜合代表。F值是情感分類準(zhǔn)確率和召回率的綜合評(píng)價(jià)指標(biāo)。
按如上步驟的實(shí)驗(yàn)結(jié)果如圖3~4、表1~6所示。
圖3 不同距離參數(shù)下泛化分類性能R 隨遷入比例的變化
圖3是不同距離參數(shù)下隨著遷入比例增加,Syn_W數(shù)據(jù)集在SMO分類方法下泛化分類性能加權(quán)ROC值的變化圖。隨著遷入比例越來越大,所訓(xùn)練分類模型的R呈現(xiàn)出先快速增長、后緩慢下降的現(xiàn)象。圖3證實(shí)遷移文本帶來的新信息在一定程度上才能對(duì)非平衡情感分類產(chǎn)生正面作用,比較符合信息效用理論。
圖4 不同距離參數(shù)下的分類超平面圖
圖4是在不同距離參數(shù)下隨著遷入比例變化時(shí)的分類超平面圖。采用余弦計(jì)算超平面法向量w與初始超平面法向量w0的夾角θ,用夾角的變化衡量超平面變化。由圖4可以看出,當(dāng)遷入比例達(dá)到一定值時(shí),超平面均不再改變,形成穩(wěn)定狀態(tài)。該現(xiàn)象是由于源數(shù)據(jù)集中滿足距離約束的遷移實(shí)例個(gè)數(shù)有限,即新奇度高的實(shí)例有限。遷入比例較小時(shí),其恰好能全部遷移進(jìn)入目標(biāo)數(shù)據(jù)集,遷入比例過大時(shí),新奇度低的實(shí)例對(duì)超平面的影響越來越小。
在weibo和QQ數(shù)據(jù)集上分別使用本文方法獲得最佳合成數(shù)據(jù)集與使用SMOTE、Subsampling、Oversampling方法處理獲得平衡數(shù)據(jù)集,5種分類模型進(jìn)行泛化分類性能測(cè)試的R、少數(shù)類F值和多數(shù)類F值結(jié)果見表1~表6。由表1和表4的黑體數(shù)值可以看出,本文方法在代價(jià)敏感的RandomForest上的分類結(jié)果與對(duì)比方法中最好的SMOTE
+RandomForest方法相比,R有2%的微弱下降,但是由表2和表5的黑體數(shù)值可以看出,本文方法在少數(shù)類F值上均有顯著上升,平均增幅為11%。在QQ數(shù)據(jù)集上,本文方法在代價(jià)敏感的RandomForest上與SMOTE方法對(duì)比,將少數(shù)類F值提升21%。由表3和表6的黑體數(shù)值可以看出,與目標(biāo)數(shù)據(jù)集相比,在所有對(duì)照方法上多數(shù)類F值均有明顯下降,但是本文方法中遷移實(shí)例使多數(shù)類F值略微下降,很少會(huì)出現(xiàn)微弱上升的現(xiàn)象,可能與新信息的引入使分離間隔更準(zhǔn)確有關(guān)。由于訓(xùn)練數(shù)據(jù)集的規(guī)模不夠大,同時(shí)存在非平衡問題,使用深度學(xué)習(xí)CNN方法進(jìn)行分類并未表現(xiàn)出很好的泛化分類性能。從整體上來看,由于兩個(gè)目標(biāo)數(shù)據(jù)集特征稀疏度不同,在weibo數(shù)據(jù)集上使用SMOTE、Subsampling和Oversampling方法使數(shù)據(jù)集達(dá)到平衡后少數(shù)類F值出現(xiàn)下降的現(xiàn)象,這是將更多多數(shù)類錯(cuò)分為少數(shù)類導(dǎo)致的過擬合問題,而本文方法并未出現(xiàn)過擬合,分類結(jié)果較好。
表1 weibo數(shù)據(jù)集上不同方法R的比較
表2 weibo數(shù)據(jù)集上不同方法的少數(shù)類F值的比較
表3 weibo數(shù)據(jù)集上不同方法的多數(shù)類F值的比較
表4 QQ數(shù)據(jù)集不同方法R的比較
表5 QQ數(shù)據(jù)集不同方法的少數(shù)類F值的比較
表6 QQ數(shù)據(jù)集不同方法的多數(shù)類F值的比較
根據(jù)上文信息效用理論中的新奇度和最優(yōu)信息效用進(jìn)行遷移,在非平衡比較小的數(shù)據(jù)集上,遷移位于非平衡超平面與少數(shù)類支持向量所在平面之間的實(shí)例,當(dāng)遷入比例為20%~30%左右時(shí),可獲得泛化分類性能優(yōu)的模型。
針對(duì)交互文本存在非平衡、特征維度高、特征值稀疏問題,導(dǎo)致高性能分類模型難構(gòu)建,本文提出基于超平面距離的非平衡交互文本情感實(shí)例遷移方法。在信息的效用理論啟發(fā)下,遷移富含新信息的少數(shù)類實(shí)例緩解非平衡特性,利用遷入比例控制策略改變特征分布、緩解特征值稀疏問題,獲得了泛化分類性能優(yōu)的模型。與Subsampling、Oversampling等基于目標(biāo)數(shù)據(jù)集的采樣方法不同,本文方法在一定程度上緩解了這些方法中存在的訓(xùn)練模型過擬合問題。通過兩組大量的對(duì)比實(shí)驗(yàn)證明:與SMOTE、Subsampling、Oversampling 3種數(shù)據(jù)層處理方法和SMO、LibSVM、隨機(jī)森林、代價(jià)敏感、CNN等分類方法相比,本文方法所訓(xùn)練的分類模型在加權(quán)ROC指標(biāo)微弱降低的代價(jià)下,可獲得少數(shù)類識(shí)別F值上的較大增幅。
本文的研究思路不僅適用于SVM分類,同樣可用于其他分類方法,具有可拓展性。但是,本文僅用實(shí)驗(yàn)結(jié)果驗(yàn)證了理論方法的有效性和可信性,后續(xù)將結(jié)合隨機(jī)矩陣?yán)碚?進(jìn)一步探索該方法的機(jī)理,以及最優(yōu)合成數(shù)據(jù)集的參數(shù)估計(jì)方法,并推廣應(yīng)用。