賈熹濱 曾 檬 米 慶 胡永利
1(北京工業(yè)大學(xué)信息學(xué)部 北京 100124) 2(多媒體與智能軟件技術(shù)北京市重點(diǎn)實(shí)驗(yàn)室(北京工業(yè)大學(xué)) 北京 100124) 3(北京人工智能研究院(北京工業(yè)大學(xué)) 北京 100124)
隨著互聯(lián)網(wǎng)的迅速發(fā)展和社交媒體平臺(tái)的快速普及,包含個(gè)人情感傾向的文本評(píng)論數(shù)據(jù)大量產(chǎn)生,文本情感分析技術(shù)(sentiment analysis)應(yīng)運(yùn)而生.該技術(shù)采用有監(jiān)督學(xué)習(xí)的方式,利用標(biāo)定樣本訓(xùn)練文本情感分類(lèi)模型,實(shí)現(xiàn)了對(duì)評(píng)論數(shù)據(jù)情感傾向的自動(dòng)判別[1].目前文本情感分析技術(shù)被廣泛地應(yīng)用在輿情監(jiān)測(cè)[2]、智能客服[3]、社交網(wǎng)絡(luò)情感分析[4]等實(shí)際業(yè)務(wù)場(chǎng)景中,該技術(shù)實(shí)現(xiàn)了對(duì)輿情信息的及時(shí)把控和商業(yè)價(jià)值的有效挖掘.然而全新的產(chǎn)業(yè)領(lǐng)域?qū)映霾桓F,未標(biāo)定的文本數(shù)據(jù)日益劇增,為一個(gè)新領(lǐng)域重新標(biāo)定大量的訓(xùn)練數(shù)據(jù)并學(xué)習(xí)全新的情感分類(lèi)模型無(wú)疑費(fèi)時(shí)費(fèi)力.
因此,學(xué)術(shù)界提出了領(lǐng)域自適應(yīng)(domain adap-tation)方法[5]以減輕數(shù)據(jù)標(biāo)定的負(fù)擔(dān).領(lǐng)域自適應(yīng)是遷移學(xué)習(xí)(transfer learning)的一條分支,其目標(biāo)是利用標(biāo)定的源領(lǐng)域數(shù)據(jù)訓(xùn)練一個(gè)分類(lèi)性能良好的源領(lǐng)域模型,并將該模型遷移到少量標(biāo)定甚至無(wú)標(biāo)定的目標(biāo)領(lǐng)域數(shù)據(jù)[6],以完成跨領(lǐng)域情感分析任務(wù).
然而,源領(lǐng)域模型無(wú)法直接遷移到目標(biāo)領(lǐng)域,其原因在于跨領(lǐng)域文本數(shù)據(jù)在包含部分公共信息的同時(shí),也具有大量的領(lǐng)域?qū)S行畔?該專(zhuān)有信息將導(dǎo)致領(lǐng)域偏移問(wèn)題(domain shift),使源領(lǐng)域模型無(wú)法擬合目標(biāo)領(lǐng)域數(shù)據(jù).例如2個(gè)領(lǐng)域都共享“好”“不錯(cuò)”“質(zhì)量不佳”等通用型描述詞,在跨領(lǐng)域情感分析任務(wù)中,這類(lèi)詞匯有助于挖掘領(lǐng)域不變信息.但是各領(lǐng)域也存在專(zhuān)有的描述詞匯,如在書(shū)籍評(píng)論中,通常采用“生動(dòng)”“不易理解”“有趣”等描述詞匯.在電子產(chǎn)品評(píng)價(jià)中,通常采用“便攜”“順滑”“性能卓越”等領(lǐng)域?qū)S忻枋鲈~,這些詞匯導(dǎo)致了跨領(lǐng)域文本數(shù)據(jù)的分布差異.
因此,為了解決跨領(lǐng)域情感分析任務(wù)中的領(lǐng)域偏移問(wèn)題,研究者提出了2類(lèi)解決方案:1)提取領(lǐng)域不變特征,其中包括基于特征選擇[7-9]和基于領(lǐng)域?qū)箤W(xué)習(xí)的領(lǐng)域自適應(yīng)算法[10-11];2)減小領(lǐng)域?qū)S刑卣鞑町?,包括基于分布自適應(yīng)[12-15]和基于子空間學(xué)習(xí)的領(lǐng)域自適應(yīng)算法[16-21].目前主要采取一種解決方案緩解領(lǐng)域偏移問(wèn)題.然而實(shí)際上跨領(lǐng)域文本數(shù)據(jù)同時(shí)包含領(lǐng)域不變信息和領(lǐng)域?qū)S行畔?,?種信息的占比不定.因此本文擬在提取領(lǐng)域不變特征的同時(shí),減少領(lǐng)域?qū)S刑卣鞑町?,以提升現(xiàn)有跨領(lǐng)域情感分析算法的遷移性能和分類(lèi)性能.
為此,本文提出了一種領(lǐng)域?qū)R對(duì)抗的無(wú)監(jiān)督跨領(lǐng)域文本情感分析算法(domain alignment adversarial unsupervised cross-domain text sentiment analysis algorithm, DAA).該算法以漸進(jìn)式的遷移策略學(xué)習(xí)跨領(lǐng)域知識(shí),依次構(gòu)建了特征提取模塊、領(lǐng)域?qū)R模塊和領(lǐng)域?qū)鼓K.首先經(jīng)由特征提取模塊將源領(lǐng)域和目標(biāo)領(lǐng)域數(shù)據(jù)映射到公共的子空間,再將源領(lǐng)域和目標(biāo)領(lǐng)域特征輸入領(lǐng)域?qū)R模塊和領(lǐng)域?qū)鼓K.在領(lǐng)域?qū)R模塊中,本文基于對(duì)跨領(lǐng)域文本數(shù)據(jù)差異度量完備性和計(jì)算復(fù)雜性的考慮,引入了中心矩差異構(gòu)建領(lǐng)域一致性約束以減小領(lǐng)域?qū)S行畔⒉町?其次,在領(lǐng)域?qū)鼓K中,本文基于領(lǐng)域?qū)箤W(xué)習(xí)的領(lǐng)域自適應(yīng)算法,構(gòu)造了領(lǐng)域判別器和梯度反轉(zhuǎn)層(gradient reversal layer, GRL)[10],通過(guò)領(lǐng)域?qū)箤W(xué)習(xí)的方式使領(lǐng)域判別器無(wú)法判別數(shù)據(jù)的領(lǐng)域類(lèi)別,以提取領(lǐng)域不變特征.最后,本文通過(guò)協(xié)同優(yōu)化的訓(xùn)練方式,使網(wǎng)絡(luò)在提取領(lǐng)域不變特征的同時(shí),減小領(lǐng)域?qū)S刑卣鞑町?
本文的主要貢獻(xiàn)有3個(gè)方面:
1) 提出了一種領(lǐng)域?qū)R對(duì)抗的無(wú)監(jiān)督跨領(lǐng)域文本情感分析算法.該算法通過(guò)漸進(jìn)式的遷移策略實(shí)現(xiàn)了領(lǐng)域知識(shí)的遷移,即在底層特征提取層共享參數(shù),以完成底層文本特征到公共語(yǔ)義空間的映射,并進(jìn)一步在高維語(yǔ)義空間通過(guò)領(lǐng)域?qū)R模塊和領(lǐng)域?qū)鼓K協(xié)同優(yōu)化的方式,迭代地減小領(lǐng)域差異.
2) 考慮到跨領(lǐng)域文本數(shù)據(jù)同時(shí)包含領(lǐng)域不變特征和領(lǐng)域?qū)S刑卣鞯奶攸c(diǎn),本文分別在領(lǐng)域?qū)R模塊和領(lǐng)域?qū)鼓K,構(gòu)造領(lǐng)域一致性約束和領(lǐng)域不變性約束.并在訓(xùn)練過(guò)程中通過(guò)協(xié)同優(yōu)化的訓(xùn)練方式優(yōu)化這2種約束,以提升跨領(lǐng)域文本情感分析算法的遷移性能.
3) 為了證明本算法在跨領(lǐng)域文本情感分析任務(wù)中的分類(lèi)性能和遷移性能,本研究在2個(gè)標(biāo)準(zhǔn)的亞馬遜跨領(lǐng)域情感分類(lèi)數(shù)據(jù)集上進(jìn)行了24組實(shí)驗(yàn),包含12組區(qū)分積極、消極情感的2分類(lèi)實(shí)驗(yàn)和12組區(qū)分積極、中性、消極情感的3分類(lèi)實(shí)驗(yàn).實(shí)驗(yàn)結(jié)果顯示,本算法在24組跨域情感分類(lèi)任務(wù)中的平均分類(lèi)準(zhǔn)確率都超過(guò)了最先進(jìn)的模型.其次為了進(jìn)一步驗(yàn)證本算法的遷移性能,本研究分別從定量分析和定性分析2個(gè)角度,分析遷移前后的Proxy A-distance和特征分布圖.實(shí)驗(yàn)結(jié)果顯示即使當(dāng)2個(gè)領(lǐng)域存在較大的領(lǐng)域差異時(shí),本算法依然展現(xiàn)出顯著的遷移性能.
目前,領(lǐng)域自適應(yīng)算法主要被劃歸為4類(lèi):基于特征選擇、基于領(lǐng)域?qū)箤W(xué)習(xí)、基于數(shù)據(jù)分布對(duì)齊和基于子空間學(xué)習(xí)的領(lǐng)域自適應(yīng)算法.前2種方法從提取領(lǐng)域不變特征的角度進(jìn)行遷移,后2種方法通過(guò)減小領(lǐng)域?qū)S刑卣鞑町惖姆绞竭M(jìn)行遷移.
在早期工作中,大多數(shù)研究者主要采用基于特征選擇的領(lǐng)域自適應(yīng)算法,通過(guò)學(xué)習(xí)源領(lǐng)域和目標(biāo)領(lǐng)域的公共特征的方式減小領(lǐng)域差異.
結(jié)構(gòu)對(duì)應(yīng)學(xué)習(xí)(structural correspondence learning, SCL)[7]是較早被提出的跨領(lǐng)域文本情感分析算法,該算法通過(guò)奇異值分解的計(jì)算過(guò)程,預(yù)測(cè)在領(lǐng)域間頻繁出現(xiàn)且表現(xiàn)相似的樞紐特征(pivot features),以建立不同領(lǐng)域間特征的對(duì)應(yīng)關(guān)系.Blitzer等人[8]進(jìn)一步對(duì)SCL進(jìn)行改進(jìn),通過(guò)源領(lǐng)域標(biāo)簽出現(xiàn)的頻率和互信息預(yù)測(cè)樞紐特征.Pan等人[9]提出的譜特征對(duì)齊算法(spectral feature alignment, SFA)構(gòu)建了領(lǐng)域?qū)S刑卣鞯亩謭D,并基于圖譜理論的譜聚類(lèi)算法,將連接到共有領(lǐng)域無(wú)關(guān)特征的領(lǐng)域?qū)S刑卣饔成涞焦蔡卣髯涌臻g中.Bollegala等人[22]通過(guò)挖掘領(lǐng)域間共性的情感表達(dá)方式創(chuàng)建情緒敏感詞庫(kù),以獲取不同領(lǐng)域間單詞的相關(guān)性,并采用該詞庫(kù)在2分類(lèi)器中擴(kuò)展特征向量表示訓(xùn)練模型.Bollegala等人[5]通過(guò)挖掘源領(lǐng)域標(biāo)定信息、領(lǐng)域間公共特征的分布式屬性、領(lǐng)域間無(wú)標(biāo)定樣本的局部幾何信息,構(gòu)造詞嵌入表示模型,以學(xué)習(xí)源領(lǐng)域和目標(biāo)領(lǐng)域間的樞紐特征.Xi等人[23]提出的基于類(lèi)別注意力網(wǎng)絡(luò)與卷積神經(jīng)網(wǎng)絡(luò)的模型(category attention network and convolutional neural network based model, CAN-CNN)將類(lèi)別注意力網(wǎng)絡(luò)作為核心模塊,使網(wǎng)絡(luò)關(guān)注有助于分類(lèi)器判別的類(lèi)別特征,以提取源領(lǐng)域和目標(biāo)領(lǐng)域的可遷移特征.Zhang等人[24]提出的分層注意力生成對(duì)抗網(wǎng)絡(luò)(hierarchical attention generative adversarial networks, HAGAN)通過(guò)分層注意力機(jī)制,自動(dòng)提取樞紐特征與非樞紐特征.
綜上,基于特征選擇的領(lǐng)域自適應(yīng)算法的關(guān)鍵在于學(xué)習(xí)領(lǐng)域不變特征,因此該類(lèi)算法適合源領(lǐng)域和目標(biāo)領(lǐng)域包含較多公共特征的遷移任務(wù).
隨著生成對(duì)抗網(wǎng)絡(luò)(generative adversarial net-work, GAN)的提出,基于領(lǐng)域?qū)箤W(xué)習(xí)的領(lǐng)域自適應(yīng)算法受到了研究者們的廣泛關(guān)注.
Ganin等人[10]提出的領(lǐng)域?qū)股窠?jīng)網(wǎng)絡(luò)(domain-adversarial neural networks, DANN)將生成對(duì)抗思想應(yīng)用于遷移學(xué)習(xí)領(lǐng)域.該研究提出的領(lǐng)域?qū)顾惴ㄖ苯訕?gòu)造了領(lǐng)域判別器,并在反向傳播過(guò)程中配合梯度翻轉(zhuǎn)層,令該判別器無(wú)法判定樣本的領(lǐng)域來(lái)源,以提取領(lǐng)域不變特征.Tzeng等人[11]提出的對(duì)抗判別領(lǐng)域自適應(yīng)算法(adversarial discriminative domain adaptation, ADDA),利用領(lǐng)域判別器判別樣本領(lǐng)域來(lái)源的同時(shí),在固定源領(lǐng)域特征提取器的基礎(chǔ)上,為目標(biāo)領(lǐng)域額外訓(xùn)練特征提取器,以保證2個(gè)領(lǐng)域提取到相似的特征.
隨后,研究者們?cè)贒ANN和ADDA的基礎(chǔ)上進(jìn)行改進(jìn).Sankaranarayanan等人[25]在領(lǐng)域分類(lèi)分支下同時(shí)構(gòu)建了生成器與判別器,通過(guò)源領(lǐng)域和目標(biāo)領(lǐng)域樣本生成偽樣本,并將真實(shí)樣本和偽樣本同時(shí)輸入判別器,并采用對(duì)抗學(xué)習(xí)的訓(xùn)練方式提取領(lǐng)域不變特征.Volpi等人[26]以加噪的方式增強(qiáng)特征表示,使訓(xùn)練過(guò)程更魯棒,并且令源領(lǐng)域和目標(biāo)領(lǐng)域共用一個(gè)特征提取器,以提取領(lǐng)域不變特征.Long等人[27]提出的CDANs(conditional domain adversarial networks)通過(guò)計(jì)算特征與預(yù)測(cè)標(biāo)簽概率向量的互協(xié)方差以提升分類(lèi)器的判別性.Saito等人[28]使用2個(gè)獨(dú)立的分類(lèi)器,通過(guò)迭代地最大最小化2個(gè)分類(lèi)器的判別矛盾區(qū)域,間接優(yōu)化領(lǐng)域的決策邊界.Lee等人[29]提出DTA(drop to adapt)以正則化的思想,針對(duì)卷積層和全連接層設(shè)計(jì)了2種dropout機(jī)制,使決策邊界穿過(guò)目標(biāo)領(lǐng)域的低密度區(qū)域,以提升遷移模型的泛化性能.Zhang等人[30]提出的SymNets(domain-symmetric networks)將源領(lǐng)域類(lèi)別分類(lèi)器和目標(biāo)領(lǐng)域類(lèi)別分類(lèi)器拼接成聯(lián)合的分類(lèi)器,在預(yù)測(cè)標(biāo)簽類(lèi)別的同時(shí)對(duì)預(yù)測(cè)結(jié)果加和,隱性地構(gòu)建領(lǐng)域判別器.針對(duì)源領(lǐng)域標(biāo)簽空間是目標(biāo)領(lǐng)域標(biāo)簽空間的子集時(shí),直接將源領(lǐng)域分類(lèi)器遷移到目標(biāo)領(lǐng)域可能會(huì)出現(xiàn)負(fù)遷移的問(wèn)題,Zhang等人[31]提出的選擇對(duì)抗網(wǎng)絡(luò)(selective adversarial network, SAN)構(gòu)造了2個(gè)領(lǐng)域判別器:第1個(gè)判別器為相關(guān)的源領(lǐng)域樣本賦予權(quán)重,第2個(gè)判別器將源領(lǐng)域加權(quán)數(shù)據(jù)和目標(biāo)領(lǐng)域數(shù)據(jù)作為特征判別器的輸入.不同于Zhang等人[30]提出的為樣本加權(quán)的操作,Cao等人[32]提出的SAN(selective adversarial network)設(shè)計(jì)了實(shí)例級(jí)別和類(lèi)別級(jí)別的2種判別器加權(quán)機(jī)制,從而同時(shí)減弱甚至消除不相關(guān)樣本和不相關(guān)類(lèi)別的影響.
還有研究者結(jié)合各個(gè)領(lǐng)域自適應(yīng)算法的優(yōu)勢(shì),提出了融合多種遷移策略的領(lǐng)域?qū)箤W(xué)習(xí)算法.Qu等人[33]提出的對(duì)抗類(lèi)別對(duì)齊網(wǎng)絡(luò)(adversarial category alignment network, ACAN),在衡量跨領(lǐng)域數(shù)據(jù)底層特征邊緣分布差異的同時(shí),最大化2個(gè)領(lǐng)域同類(lèi)別特征的平均絕對(duì)差值,并在優(yōu)化生成器時(shí)最小化平均絕對(duì)差值,進(jìn)而增強(qiáng)領(lǐng)域間的類(lèi)別一致性.Cao等人[34]提出的對(duì)稱(chēng)對(duì)抗遷移網(wǎng)絡(luò)(symmetric adver-sarial transfer network, SATNet)為源領(lǐng)域和目標(biāo)領(lǐng)域分別構(gòu)造分類(lèi)器,并通過(guò)優(yōu)化類(lèi)別級(jí)和領(lǐng)域級(jí)的對(duì)齊損失,增強(qiáng)類(lèi)別級(jí)領(lǐng)域不變特征的學(xué)習(xí).
綜上,領(lǐng)域?qū)箤W(xué)習(xí)適用于源領(lǐng)域和目標(biāo)領(lǐng)域有大量領(lǐng)域公共特征的情況,其優(yōu)勢(shì)在于簡(jiǎn)潔的遷移過(guò)程,只需采用對(duì)抗學(xué)習(xí)的方式優(yōu)化領(lǐng)域判別器,即可提取領(lǐng)域不變特征.
當(dāng)源領(lǐng)域和目標(biāo)領(lǐng)域僅包含部分公共特征,而領(lǐng)域?qū)S刑卣鞅硎据^為顯著時(shí),一般采用基于數(shù)據(jù)分布對(duì)齊的領(lǐng)域自適應(yīng)算法.具體劃分為基于邊緣分布對(duì)齊、基于條件分布對(duì)齊和基于聯(lián)合分布對(duì)齊的領(lǐng)域自適應(yīng)算法.
當(dāng)假設(shè)2個(gè)領(lǐng)域的邊緣分布差異較大時(shí),通常采用基于邊緣分布對(duì)齊的領(lǐng)域自適應(yīng)算法.Pan等人[12]提出的TCA(transfer component analysis)在再生核希爾伯特空間下利用最大均值差異(maximum mean discrepancy, MMD)度量跨領(lǐng)域數(shù)據(jù)的邊緣分布差異.Gretton等人[13]在文獻(xiàn)[12]研究的基礎(chǔ)上提出多核MMD(multi-kernel maximum mean discrepancy, MK-MMD),通過(guò)構(gòu)造多核加權(quán)的MMD提升單核的表征能力.Long等人[14]在深度網(wǎng)絡(luò)中構(gòu)建多層MK-MMD的領(lǐng)域差異度量約束,增強(qiáng)特定任務(wù)層中特征的遷移能力.Zellinger等人[15]提出中心矩差異(central moment discrepancy, CMD)通過(guò)顯性地刻畫(huà)領(lǐng)域間的高階中心矩差異,度量領(lǐng)域間的邊緣分布差異.
基于條件分布對(duì)齊的領(lǐng)域自適應(yīng)算法通常假設(shè)領(lǐng)域間的條件分布概率存在一定差異.Gong等人[35]在協(xié)變量分布和目標(biāo)領(lǐng)域條件分布都發(fā)生變化的情況下,通過(guò)學(xué)習(xí)領(lǐng)域間條件概率中保持不變的條件轉(zhuǎn)移成分(conditional transferable components),實(shí)現(xiàn)源領(lǐng)域到目標(biāo)領(lǐng)域的遷移.Xie等人[36]通過(guò)對(duì)齊標(biāo)定源領(lǐng)域數(shù)據(jù)的中心和包含偽標(biāo)簽的目標(biāo)領(lǐng)域中心的方法,學(xué)習(xí)遷移任務(wù)中的語(yǔ)義信息,以減小同類(lèi)但不同領(lǐng)域特征的差異.傳統(tǒng)的無(wú)監(jiān)督領(lǐng)域自適應(yīng)方法通過(guò)對(duì)齊領(lǐng)域分布差異的方式進(jìn)行遷移,但是這種方式破壞了目標(biāo)領(lǐng)域數(shù)據(jù)判別性的內(nèi)在結(jié)構(gòu).因此為了保持目標(biāo)領(lǐng)域數(shù)據(jù)內(nèi)在的判別性,Wang等人[37]提出了基于結(jié)構(gòu)預(yù)測(cè)的偽標(biāo)簽選擇算法(structured prediction based selective pseudo-labeling),該算法將預(yù)測(cè)結(jié)果可信的目標(biāo)領(lǐng)域標(biāo)簽作為下一輪迭代中特征對(duì)齊網(wǎng)絡(luò)的輸入,進(jìn)而對(duì)齊特征的條件概率分布.類(lèi)似地,Tang等人[38]提出的SRDC(structurally regularized deep clustering)基于判別性聚類(lèi)的深度網(wǎng)絡(luò),利用KL散度(Kullback-Leibler divergence)最小化目標(biāo)領(lǐng)域預(yù)測(cè)標(biāo)簽分布和引入輔助標(biāo)簽分布之間的距離,以目標(biāo)領(lǐng)域數(shù)據(jù)的分布推測(cè)目標(biāo)領(lǐng)域偽標(biāo)簽,并依靠源領(lǐng)域數(shù)據(jù)的真實(shí)標(biāo)簽形成輔助分布,通過(guò)聯(lián)合網(wǎng)絡(luò)訓(xùn)練策略,保證目標(biāo)領(lǐng)域內(nèi)在的判別性.Zhu等人[39]針對(duì)全局領(lǐng)域遷移難以學(xué)習(xí)特征結(jié)構(gòu)的問(wèn)題,提出了局部最大化均值差異(local maximum mean discrepancy, LMMD).該距離度量函數(shù)根據(jù)樣本所屬類(lèi)別,在度量領(lǐng)域經(jīng)驗(yàn)分布核均值嵌入的希爾伯特施密特范數(shù)(Hilbert-Schmidt norm)的同時(shí),根據(jù)預(yù)測(cè)標(biāo)簽的概率向量為源領(lǐng)域和目標(biāo)領(lǐng)域樣本賦予權(quán)重,并對(duì)齊領(lǐng)域間相關(guān)子領(lǐng)域的數(shù)據(jù)分布.
假設(shè)領(lǐng)域間聯(lián)合概率分布存在一定差異時(shí),通常采用基于聯(lián)合分布對(duì)齊的領(lǐng)域自適應(yīng)算法,即綜合考慮邊緣分布對(duì)齊與條件分布對(duì)齊.Long等人[40]提出了基于聯(lián)合分布對(duì)齊的遷移算法(joint distri-bution adaptation, JDA),該算法參考了Pan等人[12]提出的TCA,構(gòu)建了針對(duì)邊緣分布對(duì)齊的損失函數(shù),計(jì)算目標(biāo)領(lǐng)域的偽標(biāo)簽,并利用貝葉斯公式逼近條件概率以實(shí)現(xiàn)條件分布自適應(yīng),最后經(jīng)過(guò)多輪的迭代獲取精度較高的偽標(biāo)簽,間接提升領(lǐng)域遷移性能.Tahmoresnezhad等人[41]在減小邊緣分布和條件分布的同時(shí),構(gòu)造了類(lèi)內(nèi)距與類(lèi)間距約束,以提升源領(lǐng)域分類(lèi)器向目標(biāo)領(lǐng)域數(shù)據(jù)遷移的擬合能力.由于不同的特定任務(wù)層各側(cè)重于不同的數(shù)據(jù)分布對(duì)齊,Long等人[42]提出的JAN(joint adaptation networks)基于聯(lián)合最大均值差異策略(joint maximum mean discrepancy, JMMD),通過(guò)對(duì)齊多層的聯(lián)合分布差異,實(shí)現(xiàn)領(lǐng)域知識(shí)的遷移.
基于子空間學(xué)習(xí)的算法將源領(lǐng)域和目標(biāo)領(lǐng)域從2個(gè)不同的子空間,經(jīng)由映射矩陣投影到全局的公共子空間,并進(jìn)行領(lǐng)域重構(gòu).對(duì)于基于線(xiàn)性函數(shù)映射的子空間學(xué)習(xí)算法,F(xiàn)ernando等人[21]提出的SA(subspace alignment)直接為源領(lǐng)域計(jì)算線(xiàn)性變換,令投影后的源領(lǐng)域數(shù)據(jù)的概率分布近似目標(biāo)領(lǐng)域數(shù)據(jù).Sun等人[18]提出的CORAL(corelation alignment)通過(guò)學(xué)習(xí)二階特征變換,對(duì)齊源領(lǐng)域和目標(biāo)領(lǐng)域的二階協(xié)方差矩陣信息.除了上述線(xiàn)性的函數(shù)映射外,還有研究者采用非線(xiàn)性映射實(shí)現(xiàn)樣本到特征子空間的投影.Glorot等人[16]所提出的堆疊降噪自編碼器(stacked denoising auto-encoders, SDA),通過(guò)構(gòu)建非線(xiàn)性編碼器學(xué)習(xí)映射矩陣.Chen等人[17]提出的邊緣堆疊降噪自編碼器(marginalized stacked denoising auto-encoders, mSDA)在SDA的基礎(chǔ)上進(jìn)行改進(jìn),以閉式求解代替隨機(jī)梯度下降進(jìn)行參數(shù)的更新.Aljundi等人[19]提出的基于標(biāo)記的子空間對(duì)齊方法從2個(gè)領(lǐng)域中選擇標(biāo)記以最大化領(lǐng)域重疊信息,并利用高斯核投影將源領(lǐng)域和目標(biāo)領(lǐng)域樣本映射到公共子空間,以學(xué)習(xí)新的領(lǐng)域特征表示.Bousmalis等人[20]提出的領(lǐng)域分離網(wǎng)絡(luò)(domain separation network, DSN)通過(guò)最小化源領(lǐng)域和目標(biāo)領(lǐng)域之間的相似性損失和約束重建損失,獲取領(lǐng)域不變特征,同時(shí)利用正交約束將私有和共享的表示分量分開(kāi)以獲取領(lǐng)域?qū)S刑卣?Bermúdez-Chacón等人[43]提出的多分支網(wǎng)絡(luò)(multibranch networks)通過(guò)加權(quán)組合操作集成多條分支,自動(dòng)地為各領(lǐng)域構(gòu)建描述領(lǐng)域性質(zhì)的特征提取網(wǎng)絡(luò)結(jié)構(gòu),并將經(jīng)過(guò)多分支網(wǎng)絡(luò)提取的源領(lǐng)域和目標(biāo)領(lǐng)域特征輸入領(lǐng)域判別器,以提取領(lǐng)域不變特征.
總之,經(jīng)由子空間投影后,在源領(lǐng)域數(shù)據(jù)分布與目標(biāo)領(lǐng)域數(shù)據(jù)分布相互匹配的全局子空間下,源領(lǐng)域分類(lèi)器對(duì)目標(biāo)領(lǐng)域數(shù)據(jù)具有更好的分類(lèi)性能.
跨領(lǐng)域文本情感分類(lèi)任務(wù)具有2個(gè)顯著特征:
1) 不同語(yǔ)義層次的特征具有不同程度的領(lǐng)域差異,具體反映在低層特征的領(lǐng)域差異集中在文本特征表示上,而高層特征的差異體現(xiàn)在更為抽象的語(yǔ)義信息中.因此,多層漸進(jìn)式的遷移策略有助于促進(jìn)跨領(lǐng)域文本情感分類(lèi)任務(wù)中的知識(shí)遷移過(guò)程.
2) 在實(shí)際的跨領(lǐng)域情感分析任務(wù)中,數(shù)據(jù)同時(shí)包含領(lǐng)域?qū)S行畔⒑皖I(lǐng)域不變信息,且2種信息的占比難以確定,因此考慮到遷移模型泛化性,探究領(lǐng)域一致性約束和領(lǐng)域不變性約束的協(xié)同優(yōu)化方法對(duì)知識(shí)遷移的影響,同樣是跨領(lǐng)域文本情感分類(lèi)任務(wù)中的研究重點(diǎn)之一.
因此,基于跨領(lǐng)域文本情感分類(lèi)任務(wù)中的2個(gè)特點(diǎn),本研究結(jié)合文獻(xiàn)[10,15]的優(yōu)勢(shì),提出一種領(lǐng)域?qū)R對(duì)抗的無(wú)監(jiān)督跨領(lǐng)域文本情感分析算法.
本節(jié)主要介紹領(lǐng)域?qū)R對(duì)抗的無(wú)監(jiān)督跨領(lǐng)域文本情感分析算法DAA.
(1)
本文提出了一種協(xié)同優(yōu)化的領(lǐng)域自適應(yīng)算法以最小化領(lǐng)域差異損失.該算法由2部分組成:1)通過(guò)領(lǐng)域?qū)箤W(xué)習(xí)的方式提取領(lǐng)域不變特征;2)通過(guò)基于數(shù)據(jù)分布對(duì)齊的領(lǐng)域自適應(yīng)算法計(jì)算領(lǐng)域間的分布差異.
目前,基于數(shù)據(jù)分布對(duì)齊的領(lǐng)域自適應(yīng)算法通常采用KL散度[44]、MMD[12]及MK-MMD[13]等標(biāo)準(zhǔn)分布度量函數(shù)計(jì)算領(lǐng)域差異.但是KL散度僅僅在一階矩下度量概率分布差異,而MMD及其變體MK-MMD盡管匹配了多階矩的加權(quán)和,但是仍然需要相對(duì)較為復(fù)雜的核函數(shù)計(jì)算過(guò)程.相比之下,中心矩差異CMD[15]通過(guò)顯性地刻畫(huà)領(lǐng)域間的高階中心矩差異,包括方差、偏度、峰態(tài)等,彌補(bǔ)了KL散度、MMD和MK-MMD這3個(gè)標(biāo)準(zhǔn)分布度量函數(shù)的不足.
定義2.中心矩差異.設(shè)X和Y為有界的隨機(jī)樣本,數(shù)據(jù)分布分別為p和q,其區(qū)間為[a,b]N,中心矩差異為
(2)
(3)
本算法以漸進(jìn)式的遷移策略,實(shí)現(xiàn)了跨領(lǐng)域文本數(shù)據(jù)的領(lǐng)域知識(shí)遷移.網(wǎng)絡(luò)結(jié)構(gòu)如圖1所示,網(wǎng)絡(luò)主要由3部分組成,包括特征提取模塊、領(lǐng)域?qū)R模塊和領(lǐng)域?qū)鼓K.其中特征提取模塊將2個(gè)領(lǐng)域的樣本xs和xt映射到全局子空間,實(shí)現(xiàn)了底層文本特征的對(duì)齊.其次將底層特征分別輸入領(lǐng)域?qū)R模塊和領(lǐng)域?qū)鼓K,并通過(guò)協(xié)同優(yōu)化的領(lǐng)域自適應(yīng)算法,在高層語(yǔ)義空間進(jìn)一步遷移領(lǐng)域知識(shí).在領(lǐng)域?qū)R層中,首先在多層高維語(yǔ)義層,通過(guò)CMD度量源領(lǐng)域和目標(biāo)領(lǐng)域的領(lǐng)域差異,提取領(lǐng)域可遷移特征.并將源領(lǐng)域樣本特征輸入標(biāo)簽預(yù)測(cè)器,保證遷移模型的分類(lèi)性能.此外本算法構(gòu)建了與領(lǐng)域?qū)R模塊平行的領(lǐng)域?qū)鼓K,該模塊構(gòu)造了梯度反轉(zhuǎn)層,并后接領(lǐng)域判別器,通過(guò)網(wǎng)絡(luò)的迭代訓(xùn)練,令領(lǐng)域判別器無(wú)法判別數(shù)據(jù)的領(lǐng)域來(lái)源,以提取領(lǐng)域不變特征.
Fig. 1 The network structure of DAA圖1 DAA網(wǎng)絡(luò)結(jié)構(gòu)圖
在特征提取模塊中,源領(lǐng)域和目標(biāo)領(lǐng)域向量共享映射函數(shù)φ,2個(gè)領(lǐng)域的數(shù)據(jù)同時(shí)被映射到公共子空間下:
(4)
(5)
其中xs和xt分別代表源領(lǐng)域和目標(biāo)領(lǐng)域的原始樣
其次,令映射后的跨領(lǐng)域數(shù)據(jù)特征經(jīng)過(guò)全連接層,采用非線(xiàn)性激活函數(shù)獲得底層特征,并拼接源領(lǐng)域和目標(biāo)領(lǐng)域底層特征,方便領(lǐng)域?qū)鼓K的處理.計(jì)算過(guò)程為:
(6)
(7)
(8)
經(jīng)由底層特征初步的特征映射后,本文構(gòu)建了領(lǐng)域?qū)R模塊,實(shí)現(xiàn)多重語(yǔ)義層中領(lǐng)域?qū)S行畔⒃诟邔诱Z(yǔ)義空間的數(shù)據(jù)分布對(duì)齊.本文引入了CMD在各層高層語(yǔ)義層構(gòu)建領(lǐng)域?qū)R損失,通過(guò)最小化該損失項(xiàng),可減小2個(gè)領(lǐng)域的高階分布差異.領(lǐng)域分布一致性約束為:
(9)
(10)
(11)
同時(shí)為保證分類(lèi)器的判別性,本文還在領(lǐng)域?qū)R模塊構(gòu)建了源領(lǐng)域情感分類(lèi)器,分類(lèi)器的輸入是源領(lǐng)域特征和源領(lǐng)域情感極性標(biāo)簽:
(12)
(13)
除了領(lǐng)域?qū)R模塊外,本文還設(shè)計(jì)了一個(gè)具有領(lǐng)域不變性約束的領(lǐng)域?qū)鼓K,用于提取領(lǐng)域不變性特征.領(lǐng)域判別器為2分類(lèi)器,判別輸入樣本所屬領(lǐng)域,即來(lái)自源領(lǐng)域還是目標(biāo)領(lǐng)域.并且為了提取領(lǐng)域不變特征,還需在分類(lèi)器之前構(gòu)建梯度反轉(zhuǎn)層,在反向傳播時(shí)將梯度乘以負(fù)標(biāo)量以逆轉(zhuǎn)梯度,在模型的迭代訓(xùn)練中學(xué)習(xí)領(lǐng)域不變特征.領(lǐng)域?qū)箵p失為:
(14)
(15)
(16)
其中,α和β為損失項(xiàng)權(quán)重.
本文所提出的領(lǐng)域?qū)R對(duì)抗的無(wú)監(jiān)督跨領(lǐng)域文本情感分析算法DAA完成了源領(lǐng)域情感分類(lèi)器到無(wú)標(biāo)定目標(biāo)領(lǐng)域的遷移任務(wù),算法優(yōu)化過(guò)程如算法1所示:
算法1.領(lǐng)域?qū)R對(duì)抗的無(wú)監(jiān)督跨領(lǐng)域文本情感分析算法.
輸出:經(jīng)優(yōu)化后的網(wǎng)絡(luò){φ,We,be,Ws,bs,ηlabel}.
② 初始化網(wǎng)絡(luò)參數(shù)包括We,be,Ws,bs,Wt,bt;/*特征提取模塊*/
③ 將源領(lǐng)域和目標(biāo)領(lǐng)域樣本映射到公共子空間,如式(4)(5);
④ 獲取底層特征表示,如式(6)(7);
⑤ 拼接源領(lǐng)域和目標(biāo)領(lǐng)域底層特征,如式(8);
⑥ while損失未收斂do /*領(lǐng)域?qū)R模塊*/
⑦ forj←0到N:
⑧ 提取高層特征,如式(10)(11);
⑨ end for
⑩ 計(jì)算領(lǐng)域?qū)R損失,如式(9);
為了驗(yàn)證領(lǐng)域?qū)R對(duì)抗的無(wú)監(jiān)督跨領(lǐng)域文本情感分析算法DAA的可行性與有效性,本文在2個(gè)公開(kāi)的亞馬遜評(píng)論數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn),包括積極和消極情感的2分類(lèi)評(píng)論數(shù)據(jù)集,以及包含積極、中性、消極情感的3分類(lèi)評(píng)論數(shù)據(jù)集.
第1個(gè)數(shù)據(jù)集是Blitzer等人[8]公開(kāi)的早期2分類(lèi)亞馬遜評(píng)論數(shù)據(jù)集,如表1所示,包括書(shū)籍B(books)、光盤(pán)D(DVD)、電子產(chǎn)品E(electronics)和廚房用具K(kitchen)這4個(gè)領(lǐng)域,每個(gè)領(lǐng)域包含2 000個(gè)訓(xùn)練樣本和3 000~6 000個(gè)測(cè)試樣本.情感標(biāo)簽來(lái)源于顧客給出的評(píng)價(jià)星級(jí),若產(chǎn)品獲得4星或5星,則標(biāo)簽被設(shè)置為1,代表積極情感,否則其標(biāo)簽被設(shè)置為0,表示消極情感.本研究在該數(shù)據(jù)集上劃分出12個(gè)跨領(lǐng)域任務(wù),即B→D,B→E,B→K,D→B,D→E,D→K,E→B,E→D,E→K,K→B,K→D,K→E.
Table 1 Profile of Two-category Amazon Review Dataset表1 2分類(lèi)亞馬遜評(píng)論數(shù)據(jù)集
最新的亞馬遜評(píng)論數(shù)據(jù)集如表2所示,該數(shù)據(jù)集由McAuley等人[45]公開(kāi).該數(shù)據(jù)集包括積極情感、中性情感和消極情感3個(gè)類(lèi)別,包含書(shū)籍BK(books)、電子產(chǎn)品E(electronics)、美容產(chǎn)品BT(beauty)、音樂(lè)M(music)這4個(gè)領(lǐng)域,每個(gè)領(lǐng)域分別包含2 000個(gè)樣本.本文將每個(gè)領(lǐng)域中的1 600個(gè)樣本用于訓(xùn)練,剩余400個(gè)樣本用于測(cè)試.盡管該數(shù)據(jù)集與Blitzer等人[8]公開(kāi)的數(shù)據(jù)集在領(lǐng)域上看似有所重疊,但由于數(shù)據(jù)收集時(shí)間不同,同類(lèi)領(lǐng)域樣本分布也具有本質(zhì)上的差異.同樣在該數(shù)據(jù)集中,本研究將其劃分為12個(gè)跨領(lǐng)域任務(wù),即BK→E,BK→BT,BK→M,E→BK,E→BT,E→M,BT→BK,BT→E,BT→M,M→BK,M→E,M→BT.
Table 2 Profile of Three-category Amazon Review Dataset表2 3分類(lèi)亞馬遜評(píng)論數(shù)據(jù)集
為了驗(yàn)證算法的有效性,本文所提出的DAA與1個(gè)基線(xiàn)方法、4類(lèi)面向跨領(lǐng)域文本情感分類(lèi)任務(wù)的無(wú)監(jiān)督領(lǐng)域自適應(yīng)算法中的代表性方法以及最先進(jìn)的方法(state of the art, SOTA)進(jìn)行對(duì)比.基線(xiàn)方法為SO(source-only),即不采用任何遷移算法的分類(lèi)結(jié)果.4類(lèi)遷移學(xué)習(xí)算法包括:
1) 基于特征選擇的領(lǐng)域自適應(yīng)算法.該類(lèi)算法通過(guò)選擇源領(lǐng)域和目標(biāo)領(lǐng)域公共特征的方式,實(shí)現(xiàn)領(lǐng)域知識(shí)的遷移.代表算法包括SCL[7]和SFA[9],跨領(lǐng)域文本情感分類(lèi)任務(wù)中的SOTA為HAGAN算法[24].
2) 基于領(lǐng)域?qū)箤W(xué)習(xí)的領(lǐng)域自適應(yīng)算法.該算法通過(guò)構(gòu)建領(lǐng)域判別器并最大化領(lǐng)域判別器損失,實(shí)現(xiàn)領(lǐng)域不變特征的提取.DANN[10]是該類(lèi)算法中通過(guò)構(gòu)建梯度反轉(zhuǎn)層和領(lǐng)域判別器實(shí)現(xiàn)領(lǐng)域?qū)箤W(xué)習(xí)的代表性算法.ACAN[33]和SATNet[34]是以領(lǐng)域?qū)箤W(xué)習(xí)方式為主、融合多種領(lǐng)域自適應(yīng)策略的代表性算法,其中SATNet是該類(lèi)算法中的SOTA.為達(dá)成最公平的比較,本實(shí)驗(yàn)復(fù)現(xiàn)DANN時(shí),同樣采用mSDA提取底層特征,并在領(lǐng)域?qū)鼓P椭袠?gòu)造1層全連接層.
3) 基于數(shù)據(jù)分布對(duì)齊的領(lǐng)域自適應(yīng)算法.該類(lèi)算法的核心在于對(duì)齊源領(lǐng)域和目標(biāo)領(lǐng)域的數(shù)據(jù)分布,代表算法包括DAN[14],其中CMD是現(xiàn)有跨領(lǐng)域文本數(shù)據(jù)距離度量算法中的SOTA,為了達(dá)成最公平的比較,本實(shí)驗(yàn)中將CMD的中心矩階數(shù)設(shè)置為3.
4) 基于子空間學(xué)習(xí)的領(lǐng)域自適應(yīng)算法.該類(lèi)算法將源領(lǐng)域和目標(biāo)領(lǐng)域映射到公共的子空間,代表算法包括mSDA[17]和DSN[20],其中mSDA是基于離散特征輸入的領(lǐng)域自適應(yīng)算法中的SOTA,為達(dá)成最公平的比較,本實(shí)驗(yàn)中將mSDA輸入向量的維度同樣設(shè)置為30 000維,堆疊層數(shù)設(shè)置為5.
實(shí)驗(yàn)采用針對(duì)遷移學(xué)習(xí)任務(wù)的反轉(zhuǎn)交叉驗(yàn)證方法(reverse cross-validation criteria)實(shí)現(xiàn)模型調(diào)優(yōu),該方法過(guò)程有4步:
1) 將標(biāo)定的源領(lǐng)域樣本S和未標(biāo)定的目標(biāo)領(lǐng)域樣本T按照10折交叉驗(yàn)證的方式劃分,得到源領(lǐng)域訓(xùn)練集S′、目標(biāo)領(lǐng)域訓(xùn)練集T′、源領(lǐng)域驗(yàn)證集Sv,目標(biāo)領(lǐng)域驗(yàn)證集Tv;
2) 采用源領(lǐng)域訓(xùn)練集S′和目標(biāo)領(lǐng)域訓(xùn)練集T′訓(xùn)練情感分類(lèi)器η,并在源領(lǐng)域驗(yàn)證集Sv上進(jìn)行模型驗(yàn)證和早停機(jī)制;
3) 基于上一步訓(xùn)練的模型,獲得帶標(biāo)簽的目標(biāo)領(lǐng)域樣本{(x,η(x))}x∈T′,并將標(biāo)定的目標(biāo)領(lǐng)域和無(wú)標(biāo)簽的源領(lǐng)域樣本S′分別作為源領(lǐng)域和目標(biāo)領(lǐng)域輸入,訓(xùn)練獲得反轉(zhuǎn)分類(lèi)器ηr,同時(shí)在帶標(biāo)簽的目標(biāo)領(lǐng)域驗(yàn)證集{(x,η(x))}x∈Tv中進(jìn)行模型驗(yàn)證和早停機(jī)制;
4) 在源領(lǐng)域驗(yàn)證集上采用反轉(zhuǎn)分類(lèi)器ηr進(jìn)行驗(yàn)證,并計(jì)算反轉(zhuǎn)驗(yàn)證損失RSv(ηr).
這4個(gè)步驟不斷重復(fù),直至獲得最低的反轉(zhuǎn)驗(yàn)證損失,此時(shí)得到最優(yōu)的遷移模型.經(jīng)上述反轉(zhuǎn)交叉驗(yàn)證方法可獲得最優(yōu)超參設(shè)置.在特征提取模塊中,全連接層的神經(jīng)元個(gè)數(shù)為48.在領(lǐng)域?qū)R模塊中,采用2層全連接層,神經(jīng)元個(gè)數(shù)分別為32和16.在領(lǐng)域?qū)鼓K中,采用1層全連接層,神經(jīng)元個(gè)數(shù)為48.中心矩階數(shù)為3,學(xué)習(xí)率為10-3,根據(jù)遷移任務(wù)的不同,損失項(xiàng)權(quán)重α和β分別取自[0.1,1]中的9個(gè)數(shù).
表3給出本算法在跨領(lǐng)域2分類(lèi)評(píng)論數(shù)據(jù)集的分類(lèi)準(zhǔn)確率,并與3.2節(jié)中給出的4類(lèi)領(lǐng)域自適應(yīng)算法進(jìn)行對(duì)比.由表3所示,本算法DAA相比SO高出6%,證明算法具備基本的遷移能力.其次,與基于特征選擇的領(lǐng)域自適應(yīng)算法SCL,SFA和該類(lèi)算法中的SOTA算法HAGAN相比,DAA在12個(gè)2分類(lèi)跨領(lǐng)域文本情感分類(lèi)任務(wù)中的平均準(zhǔn)確率分別高出了5.1%,4.6%,1.1%.與基于數(shù)據(jù)分布對(duì)齊的領(lǐng)域自適應(yīng)算法DAN,CMD的對(duì)比結(jié)果顯示,DAA的平均準(zhǔn)確率相比2種算法高出2.8%和2.2%.證明本文提出的DAA的領(lǐng)域?qū)R損失和領(lǐng)域?qū)箵p失的聯(lián)合優(yōu)化有助于促進(jìn)跨領(lǐng)域文本數(shù)據(jù)的知識(shí)遷移.同樣地,DAA在12個(gè)任務(wù)中的準(zhǔn)確率均高于基于子空間學(xué)習(xí)的領(lǐng)域自適應(yīng)算法mSDA,在大多數(shù)的任務(wù)中高于DSN,其中在B→K和D→B任務(wù)中比DSN,DAA低0.4%,0.3%.在K→E任務(wù)中,DSN比DAA高出0.6%,其原因在于DSN中私有編碼器和共享編碼器的協(xié)作有助于提取良好的特征表示.與只采用領(lǐng)域?qū)箤W(xué)習(xí)算法的DANN相比,本算法的平均準(zhǔn)確率高出1.4%.而相比于融合多種領(lǐng)域自適應(yīng)算法的ACAN和SATNet,本算法分別提高了0.6%和0.4%.
Table 3 Accuracy of Twelve Two-category Cross-domain Text Sentiment Analysis Tasks表3 12個(gè)2分類(lèi)跨領(lǐng)域文本情感分析任務(wù)的準(zhǔn)確率 %
表該分類(lèi)任務(wù)的最優(yōu)值.
由表3的實(shí)驗(yàn)結(jié)果表明本文提出的DAA在12個(gè)2分類(lèi)子任務(wù)上的平均準(zhǔn)確率相對(duì)近年所提出的ACAN和SATNet有一定提升,特別是在子任務(wù)B→E,D→K和E→K上均有較大幅度的提升.其中本算法DAA在B→E任務(wù)上分別提升了1.2%和3.2%,在D→K任務(wù)上分別提升了7%和7.4%,在E→K任務(wù)上相比ACAN提升了4.9%.分析對(duì)比11種算法,本文所提出的DAA的網(wǎng)絡(luò)結(jié)構(gòu)、遷移約束項(xiàng)和算法優(yōu)化過(guò)程更簡(jiǎn)潔.首先對(duì)于網(wǎng)絡(luò)結(jié)構(gòu),本算法對(duì)源領(lǐng)域和目標(biāo)領(lǐng)域都采用單個(gè)統(tǒng)一的領(lǐng)域判別器,而ACAN和SATNet為源領(lǐng)域和目標(biāo)領(lǐng)域分別構(gòu)建了2個(gè)分類(lèi)器.其次對(duì)于遷移約束項(xiàng),本文以領(lǐng)域?qū)箤W(xué)習(xí)和邊緣分布對(duì)齊的思想構(gòu)建了2個(gè)約束,而ACAN融合邊緣分布對(duì)齊、條件對(duì)抗、生成器正則化的思想構(gòu)建了3個(gè)約束項(xiàng).最后對(duì)于算法的優(yōu)化過(guò)程,ACAN和SATNet都采用最大化最小化的2步式對(duì)抗生成訓(xùn)練方式,而本算法以構(gòu)建領(lǐng)域反轉(zhuǎn)層的方式,采用更簡(jiǎn)潔的協(xié)同優(yōu)化方式統(tǒng)一訓(xùn)練特征提取模塊和2個(gè)遷移模塊,單步協(xié)同訓(xùn)練相對(duì)2步式訓(xùn)練,更有利于避免局部最優(yōu),獲得優(yōu)化訓(xùn)練結(jié)果.因此通過(guò)表3的實(shí)驗(yàn)結(jié)果證明了本算法DAA對(duì)跨領(lǐng)域情感分析模型的優(yōu)化和跨領(lǐng)域數(shù)據(jù)分類(lèi)性能的提升.
此外由表3數(shù)據(jù)可見(jiàn),基于特征選擇的算法SCL和SFA的準(zhǔn)確率相比其他領(lǐng)域自適應(yīng)算法準(zhǔn)確率更低.其原因在于該算法的優(yōu)勢(shì)是提取領(lǐng)域間共享的全局特征,然而當(dāng)源領(lǐng)域和目標(biāo)領(lǐng)域差異較大時(shí),很難找到所需的全局共享特征,進(jìn)而導(dǎo)致在沒(méi)有對(duì)齊領(lǐng)域的情況下算法分類(lèi)性能的下降.
表4顯示了12個(gè)3分類(lèi)跨領(lǐng)域情感分析子任務(wù)的實(shí)驗(yàn)結(jié)果.在該實(shí)驗(yàn)中,相比積極和消極情感,中性情感極性在特征表現(xiàn)上不太明顯,因此本文考慮選擇一種特征提取性能更優(yōu)的特征編碼器.本實(shí)驗(yàn)分別采用mSDA和單層text-CNN(text convolutional neural networks),進(jìn)一步探討特征提取器的選擇對(duì)遷移效果的影響.其中,mSDA的輸入是經(jīng)過(guò)詞袋模型(bag of words)處理所得的詞頻矩陣,mSDA[17]采用閉式求解,因此相比于傳統(tǒng)的神經(jīng)網(wǎng)絡(luò),該算法計(jì)算速度更快.而單層的text-CNN由Kim[46]提出,該網(wǎng)絡(luò)的輸入是詞向量矩陣,本文通過(guò)Mikolov等人[47]提出的詞嵌入模型獲得詞向量表示.
在表4中,DAA(CNN)表示使用text-CNN的DAA, DAA(mSDA)表示采用mSDA編碼器提取特征的DAA.實(shí)驗(yàn)結(jié)果表明,不論是DAA(CNN)或是DAA(mSDA),都在所有子任務(wù)中高于其他的對(duì)比算法.因此該實(shí)驗(yàn)結(jié)果進(jìn)一步證明,同時(shí)對(duì)齊特定領(lǐng)域特征和提取領(lǐng)域不變特征在跨領(lǐng)域情感分類(lèi)任務(wù)中的必要性和有效性.
Table 4 Accuracy of Twelve Three-category Cross-domain Text Sentiment Analysis Tasks表4 12個(gè)3分類(lèi)跨領(lǐng)域文本情感分析任務(wù)的準(zhǔn)確率 %
而對(duì)于特征提取器的選擇對(duì)遷移效果的影響,由表4數(shù)據(jù)可知,DAA(mSDA)在12個(gè)子任務(wù)上的平均準(zhǔn)確率比DAA(CNN)高4.5%,而DAA(CNN)只在跨領(lǐng)域任務(wù)BT→E上比DAA(mSDA)稍高一些.經(jīng)分析后得出子空間映射能力會(huì)對(duì)分類(lèi)性能造成影響.其原因在于,mSDA將輸入映射為底層特征表示前,為輸入添加了噪聲.并通過(guò)邊緣化降噪自編碼器,以增強(qiáng)去噪變換的計(jì)算過(guò)程,增強(qiáng)特征的魯棒性表達(dá).然而在DAA(CNN)中,底層特征通過(guò)卷積網(wǎng)絡(luò)提取獲得,而在卷積網(wǎng)絡(luò)中,良好的特征表示很大程度上取決于訓(xùn)練數(shù)據(jù)的多樣性.相比之下,CNN面向新數(shù)據(jù)的魯棒性相對(duì)較差,進(jìn)而導(dǎo)致特征提取效果不佳,而領(lǐng)域自適應(yīng)算法又建立在特征提取的基礎(chǔ)之上,導(dǎo)致后續(xù)的遷移效果不佳.故本文經(jīng)實(shí)驗(yàn)結(jié)果推斷后得出,在跨領(lǐng)域情感分類(lèi)任務(wù)中,特征提取器的選擇和領(lǐng)域自適應(yīng)算法的優(yōu)化缺一不可.
另外,結(jié)合表3和表4進(jìn)一步分析發(fā)現(xiàn),領(lǐng)域類(lèi)型相似的遷移任務(wù)的分類(lèi)準(zhǔn)確率在每種領(lǐng)域自適應(yīng)算法下,都具有相對(duì)較高的準(zhǔn)確率.而不同類(lèi)型的領(lǐng)域遷移任務(wù),即使采取了對(duì)應(yīng)的遷移策略,分類(lèi)準(zhǔn)確率也相對(duì)較低.例如,如表3所示,在2分類(lèi)跨領(lǐng)域情感分析子任務(wù)中,廚房用具K和電子產(chǎn)品E都屬于工具類(lèi)商品,書(shū)籍B屬于娛樂(lè)文化類(lèi)商品.實(shí)驗(yàn)結(jié)果顯示,E→K在SO上的準(zhǔn)確率高于其他的遷移任務(wù),并且經(jīng)過(guò)遷移后,對(duì)于任意遷移學(xué)習(xí)算法中的E→K任務(wù),準(zhǔn)確率都遠(yuǎn)遠(yuǎn)高于其余11個(gè)遷移任務(wù).因此通過(guò)實(shí)驗(yàn)結(jié)果可以推斷出,E和K屬于同一類(lèi)商品,故領(lǐng)域差異更小、遷移過(guò)程更容易.然而屬于不同類(lèi)型的遷移任務(wù)K→B在SO和各類(lèi)遷移學(xué)習(xí)算法中的準(zhǔn)確率都相對(duì)較低.同理,對(duì)于表4中3分類(lèi)跨領(lǐng)域情感分析子任務(wù),E和BT都屬于日常生活用品,M屬于休閑用品.E→BT任務(wù)同樣表現(xiàn)出更高的準(zhǔn)確率,而B(niǎo)T→M不論在SO抑或在其他的遷移學(xué)習(xí)算法中,準(zhǔn)確率都相對(duì)較低.由此推斷出,各領(lǐng)域間的原始領(lǐng)域差異對(duì)跨領(lǐng)域情感分類(lèi)任務(wù)遷移性能的影響,即領(lǐng)域差異越大,跨領(lǐng)域情感分類(lèi)任務(wù)遷移難度越大,準(zhǔn)確率相對(duì)越低.然而該結(jié)論是相對(duì)主觀的推測(cè),還需要客觀的領(lǐng)域差異度量結(jié)果加以驗(yàn)證.因此4.2和4.3節(jié)將給出定量和定性的遷移性能結(jié)果,進(jìn)一步證明本算法的有效性以及上述推論的可靠性.
Fig. 3 Proxy A-distanceon SO and DAA in 12 three- category cross-domain text sentiment analysis tasks圖312個(gè)3分類(lèi)跨領(lǐng)域文本情感分析任務(wù)中SO與 DAA的Proxy A-distance
由圖2和圖3實(shí)驗(yàn)結(jié)果所示,所有任務(wù)的數(shù)據(jù)點(diǎn)皆處于邊界線(xiàn)右側(cè),且離邊界線(xiàn)偏移程度較大,因而證明了DAA算法具備良好的遷移性能.
此外,表5和表6給出數(shù)據(jù)點(diǎn)的具體數(shù)值和領(lǐng)域差異減小值(discrepancy reduction values),以進(jìn)一步從定量的角度驗(yàn)證算法的遷移性能,若領(lǐng)域差異減小值為0,則說(shuō)明算法的無(wú)遷移效果,反之領(lǐng)域差異減小值越大,則遷移效果越好.
Table 5 Proxy A-distance and Discrepancy Reduction Valuesof SO and DAA in 12 Two-category Cross-domainText Sentiment Analysis Tasks表5 12個(gè)2分類(lèi)跨領(lǐng)域文本情感分析任務(wù)中SO與DAA的Proxy A-distance和領(lǐng)域差異減小值
Table 6 Proxy A-distance and Discrepancy Reduction Valuesof SO and DAA in 12 Three-category Cross-domainText Sentiment Analysis Tasks表6 12個(gè)3分類(lèi)跨領(lǐng)域文本情感分析任務(wù)中SO與DAA的Proxy A-distance和領(lǐng)域差異減小值
如表5和表6所示,即使對(duì)于領(lǐng)域差異較大的任務(wù),DAA依然表現(xiàn)出了良好的遷移性能,如表5數(shù)據(jù)所示,在SO上領(lǐng)域差異較大的B→E任務(wù),經(jīng)過(guò)DAA的遷移后,領(lǐng)域差異減少了1.070.同樣如表6所示,即使在源領(lǐng)域和目標(biāo)領(lǐng)域?qū)儆诓煌念?lèi)別、原始領(lǐng)域差異較大的任務(wù)BK→E中,領(lǐng)域差異在經(jīng)過(guò)協(xié)同優(yōu)化的領(lǐng)域自適應(yīng)算法后,也有顯著降低.因此,經(jīng)過(guò)圖2、圖3和表5、表6的定量遷移實(shí)驗(yàn)結(jié)果進(jìn)一步證明,本文提出算法具備良好的遷移性能,可以有效地減小領(lǐng)域差異.
另外結(jié)合4.1節(jié)中,各領(lǐng)域間的原始領(lǐng)域差異對(duì)跨領(lǐng)域情感分類(lèi)任務(wù)遷移性能影響的推斷,此處基于領(lǐng)域差異度量結(jié)果,對(duì)推斷給出了更客觀的驗(yàn)證結(jié)果.在表5中,本研究發(fā)現(xiàn)屬于同一領(lǐng)域類(lèi)別、領(lǐng)域差異較小的E→K任務(wù)的Proxy A-distance在SO和DAA上低于其他跨領(lǐng)域任務(wù),相反,屬于不同領(lǐng)域類(lèi)別的K→B在所有任務(wù)的SO中取得了最大值.相應(yīng)地,在表6中,E→BT的Proxy A-distance在所有任務(wù)的SO中為最小值,而B(niǎo)T→M為最大值.說(shuō)明屬于同一類(lèi)型的E和BT,領(lǐng)域差異較小,而屬于不同類(lèi)型的BT和M的領(lǐng)域差異較大.因此,根據(jù)表5和表6的實(shí)驗(yàn)結(jié)果得出,原始領(lǐng)域差異會(huì)對(duì)遷移性能產(chǎn)生一定影響.
本實(shí)驗(yàn)繪制特征分布圖,從定性的角度分析DAA的遷移性能,如圖4和圖5所示.
圖4為2分類(lèi)跨領(lǐng)域情感分類(lèi)任務(wù)的特征分布圖.其中紅色點(diǎn)和藍(lán)色點(diǎn)分別代表源領(lǐng)域和目標(biāo)領(lǐng)域的積極情感類(lèi)別數(shù)據(jù),黃色點(diǎn)和綠色點(diǎn)分別代表源領(lǐng)域和目標(biāo)領(lǐng)域的消極情感類(lèi)別數(shù)據(jù).M1代表特征提取模塊,M2代表領(lǐng)域?qū)R模塊,M3代表領(lǐng)域?qū)鼓K.每一行分別代表2分類(lèi)的跨領(lǐng)域情感分類(lèi)任務(wù)B→K,D→E和K→D.
Fig. 4 The feature distribution maps on two-category cross-domain text sentiment analysis tasks圖4 2分類(lèi)跨領(lǐng)域文本情感分析任務(wù)的特征分布圖
Fig. 5 The feature distribution maps on three-category cross-domain text sentiment analysis tasks圖5 3分類(lèi)跨領(lǐng)域文本情感分析任務(wù)的特征分布圖
圖4(d)(h)(l)代表只采用特征提取模塊的特征分布情況,可見(jiàn)不同領(lǐng)域同類(lèi)別的數(shù)據(jù)擬合效果不佳,且無(wú)明顯的分類(lèi)邊界.圖4(c)(g)(k)代表采用特征提取模塊和領(lǐng)域?qū)R模塊的特征分布情況,相比圖4(d)(h)(l),其分類(lèi)效果有明顯改善,但是仍然有部分點(diǎn)被錯(cuò)分.圖4(b)(f)(j)代表采用特征提取模塊和領(lǐng)域?qū)鼓K的特征分布情況,可以看出分類(lèi)效果較圖4(d)(h)(l)有明顯改善,但是領(lǐng)域間同類(lèi)數(shù)據(jù)分布呈塊狀,擬合效果不佳.圖4(a)(e)(i)為融合DAA三個(gè)模塊的特征分布情況,該情況下遷移效果最佳,領(lǐng)域間同類(lèi)數(shù)據(jù)均勻擬合,且類(lèi)別之間有明顯的分類(lèi)邊界.由此推斷本研究提出的領(lǐng)域?qū)R對(duì)抗算法面向2分類(lèi)跨領(lǐng)域情感分類(lèi)任務(wù),具備較好的遷移性能和分類(lèi)性能圖5為3分類(lèi)跨領(lǐng)域情感分類(lèi)任務(wù)的特征分布圖.其中紅色點(diǎn)和藍(lán)色點(diǎn)分別代表源領(lǐng)域和目標(biāo)領(lǐng)域的積極情感類(lèi)別數(shù)據(jù),黃色點(diǎn)和綠色點(diǎn)分別代表源領(lǐng)域和目標(biāo)領(lǐng)域的消極情感類(lèi)別數(shù)據(jù),紫紅色點(diǎn)和青色點(diǎn)代表源領(lǐng)域和目標(biāo)領(lǐng)域的中性情感類(lèi)別數(shù)據(jù).M1,M2,M3所對(duì)應(yīng)的模塊與圖4相同.每一行分別代表3分類(lèi)的跨領(lǐng)域情感分類(lèi)任務(wù)E→BT,BK→M,E→BK.
由圖5(d)(h)(l)可看出,只采用特征提取模塊而無(wú)遷移機(jī)制的情況下,數(shù)據(jù)點(diǎn)分布散亂,無(wú)分類(lèi)邊界,分類(lèi)效果和遷移效果不佳.圖5(c)(g)(k)和圖5(b)(f)(j)中,特征分布較為混亂.而圖5(a)(e)(i)相比之下呈現(xiàn)較為明顯的分類(lèi)邊界,且同類(lèi)數(shù)據(jù)點(diǎn)的擬合程度有所改善.由此證明DAA在3分類(lèi)跨領(lǐng)域情感分類(lèi)任務(wù)中,同樣具備有效的分類(lèi)性能和遷移性能.
面向無(wú)監(jiān)督領(lǐng)域自適應(yīng)任務(wù),本研究提出了領(lǐng)域?qū)R對(duì)抗的無(wú)監(jiān)督跨領(lǐng)域文本情感分析算法DAA.該算法充分利用實(shí)際跨領(lǐng)域文本數(shù)據(jù)同時(shí)包含領(lǐng)域特定信息和領(lǐng)域不變信息的本征特點(diǎn),以漸進(jìn)式的遷移策略,逐層減小不同語(yǔ)義層的領(lǐng)域差異.并在高層特征提取層以協(xié)同優(yōu)化的領(lǐng)域自適應(yīng)算法,分別在領(lǐng)域?qū)R模塊和領(lǐng)域?qū)鼓K,構(gòu)造領(lǐng)域一致性約束和領(lǐng)域不變性約束.經(jīng)由2個(gè)約束在訓(xùn)練過(guò)程中迭代地協(xié)同優(yōu)化,實(shí)現(xiàn)跨領(lǐng)域文本數(shù)據(jù)的領(lǐng)域知識(shí)遷移.
本研究在24個(gè)跨領(lǐng)域文本情感分析任務(wù)上驗(yàn)證了算法的有效性.對(duì)比實(shí)驗(yàn)結(jié)果顯示,本算法有效提升了現(xiàn)有無(wú)監(jiān)督跨領(lǐng)域文本情感分析算法的準(zhǔn)確率.并結(jié)合領(lǐng)域差異度量的定量實(shí)驗(yàn)和特征可視化的定性實(shí)驗(yàn),進(jìn)一步證明算法的分類(lèi)性能和遷移性能.此外,本文還對(duì)實(shí)驗(yàn)結(jié)果進(jìn)行更為細(xì)致的分析,深入探討原始領(lǐng)域差異和特征提取器的選擇,對(duì)跨領(lǐng)域文本情感分析算法的影響.
本文針對(duì)無(wú)監(jiān)督跨領(lǐng)域文本情感分析任務(wù)進(jìn)行了相關(guān)的研究和探討.但是在實(shí)際應(yīng)用場(chǎng)景中,跨領(lǐng)域文本情感分析任務(wù)還面臨著各種各樣的挑戰(zhàn),如各領(lǐng)域的語(yǔ)言不同導(dǎo)致數(shù)據(jù)分布差異過(guò)大,領(lǐng)域間各類(lèi)別數(shù)據(jù)不平衡導(dǎo)致源領(lǐng)域分類(lèi)器向某一類(lèi)別的數(shù)據(jù)偏移的問(wèn)題.因此未來(lái)的研究工作將進(jìn)一步考慮如何設(shè)計(jì)子空間映射能力更強(qiáng)的跨語(yǔ)言特征提取器,以及如何從類(lèi)別標(biāo)簽語(yǔ)義信息的角度對(duì)齊領(lǐng)域差異,以解決跨領(lǐng)域數(shù)據(jù)類(lèi)別不平衡問(wèn)題.
作者貢獻(xiàn)聲明:賈熹濱提出研究問(wèn)題和思路,提出實(shí)驗(yàn)改進(jìn)建議和論文修改思路;曾檬完善算法設(shè)計(jì)及實(shí)驗(yàn)驗(yàn)證,撰寫(xiě)論文;米慶參與實(shí)驗(yàn)改進(jìn)和論文修訂;胡永利提出實(shí)驗(yàn)方案及實(shí)驗(yàn)改進(jìn)建議.