馬儀 邵玉斌 杜慶治 龍華 馬迪南
摘要: 多領(lǐng)域文本分類存在領(lǐng)域差異和詞匯差異,導(dǎo)致分類的準(zhǔn)確性和泛化性低,傳統(tǒng)方法無法取得很好的效果. 針對上述問題,本文提出基于變分信息瓶頸多任務(wù)算法的多領(lǐng)域文本分類方法,將任務(wù)建模為從綜合特征中提取任務(wù)專屬特征的分層學(xué)習(xí)表示問題. 首先基于信息瓶頸原理,將綜合特征和任務(wù)專屬特征之間存在的冗余信息建模為均值為零,方差為對角矩陣的加性噪聲,通過重參數(shù)化方法讓噪聲參與模型訓(xùn)練;其次通過信息瓶頸的變分邊界構(gòu)建模型損失函數(shù)以限制模型的信息流動(dòng),從而將帶有加性噪聲的綜合特征解耦為任務(wù)專屬特征;最后通過解碼器中的分類器處理任務(wù)專屬特征得到文本分類結(jié)果. 實(shí)驗(yàn)表明,該模型在FDU-MTL 多領(lǐng)域文本分類數(shù)據(jù)集上的平均分類準(zhǔn)確率達(dá)到92. 17%,較多個(gè)對比模型有明顯提升,且該模型具有更好的可解釋性.
關(guān)鍵詞: 信息瓶頸; 多任務(wù)模型; 多領(lǐng)域; 變分邊界; 可解釋性
中圖分類號: TP393 文獻(xiàn)標(biāo)志碼: A DOI: 10. 19907/j. 0490-6756. 2024. 032004
1 引言
多領(lǐng)域文本分類訓(xùn)練數(shù)據(jù)的多樣性一定程度上能緩解標(biāo)簽資源不足問題[1-3],更貼近現(xiàn)實(shí)場景. 但它存在兩個(gè)主要問題:首先,由于數(shù)據(jù)的稀疏性,導(dǎo)致部分領(lǐng)域標(biāo)簽資源缺乏或沒有標(biāo)簽,嚴(yán)重影響模型泛化[4,5];其次,不同領(lǐng)域的文本數(shù)據(jù)存在領(lǐng)域差異和詞匯差異,包括語言表達(dá)方式、領(lǐng)域?qū)S械男g(shù)語和詞匯、文本主題等[1,4-6]. 如多領(lǐng)域情感分類中,許多詞有多種定義,兩個(gè)句子中相同的單詞可以表達(dá)不同的含義,即使是只有一個(gè)定義的單詞,也可以根據(jù)上下文表達(dá)不同的情感. 如,“容易”或“預(yù)期”可以在嬰兒產(chǎn)品評論中傳遞積極情緒,而在電影或書評中傳達(dá)的是負(fù)面情緒.這些問題導(dǎo)致多領(lǐng)域文本分類的準(zhǔn)確性和泛化性難以提升.
目前構(gòu)建多領(lǐng)域文本分類模型時(shí),域適應(yīng)[7]、對抗性學(xué)習(xí)[3,5,8]、共享私有范式[3,9]和熵最小化技術(shù)[10]是優(yōu)化模型的主要方向. 域適應(yīng)將數(shù)據(jù)分為源域和目標(biāo)域,利用源域豐富的訓(xùn)練數(shù)據(jù)學(xué)到的特征對另一個(gè)資源較低的目標(biāo)領(lǐng)域進(jìn)行分類,然而域適應(yīng)的方法難以訓(xùn)練一個(gè)或多個(gè)域的有效分類器,并且有些域沒有標(biāo)記數(shù)據(jù),難以提升模型泛化性. 對抗性學(xué)習(xí)通過減少領(lǐng)域之間的數(shù)據(jù)分布差異進(jìn)行特征對齊,并學(xué)習(xí)領(lǐng)域不變特征來提高模型的泛化性.但域間文本數(shù)據(jù)分布差異很大,目前的方法不能保證域完全對齊[3,5,8],導(dǎo)致預(yù)測時(shí)模型不能區(qū)分不同的領(lǐng)域,難以提升預(yù)測準(zhǔn)確性. 共享私有范式包含共享特征提取器和領(lǐng)域特征提取器,然后通過兩類特征提取器的結(jié)合來提升模型的準(zhǔn)確性. 其中,共享特征提取器構(gòu)建共享的潛在空間來學(xué)習(xí)領(lǐng)域不變特征,領(lǐng)域特征提取器提取領(lǐng)域特定特征. 但現(xiàn)有方法不能很好地平衡兩類特征提取器的權(quán)重[3,9].共享特征提取器過于側(cè)重域間的相似性,忽略域間的差異性;而領(lǐng)域特定特征提取器則過度關(guān)注單一領(lǐng)域,忽略通用特征,導(dǎo)致模型將不同類別的樣本錯(cuò)誤地匹配在一起,影響模型整體性能. 熵最小化技術(shù)用于正則化多領(lǐng)域文本分類模型,降低模型對未標(biāo)記數(shù)據(jù)預(yù)測的不確定性. 但未加約束的熵最小化技術(shù)使模型在未標(biāo)記數(shù)據(jù)上的表現(xiàn)過于自信,錯(cuò)誤地確定某些樣本的標(biāo)簽,將未標(biāo)記數(shù)據(jù)中相似但不同的樣本歸為同一類別,導(dǎo)致模型的準(zhǔn)確性下降[10].
本文提出了一種基于變分信息瓶頸多任務(wù)算法的多領(lǐng)域文本分類方法(Variational InformationBottleneck and Multi-Task Multi-Domain Text ClassificationMethod,VIBM)來緩解上面的問題.VIBM 通過構(gòu)建多任務(wù)網(wǎng)絡(luò)的同時(shí)實(shí)現(xiàn)領(lǐng)域分類和文本分類任務(wù). VIBM 為編碼器、信息瓶頸和包含多個(gè)任務(wù)分類器的解碼器的分層結(jié)構(gòu). 基于信息瓶頸降低輸入數(shù)據(jù)的復(fù)雜性,同時(shí)保留任務(wù)所需的最重要信息的思想,將問題重構(gòu)為:從編碼器提取的綜合特征中獲取輸入到解碼器的任務(wù)專屬特征的分層學(xué)習(xí)表示問題,將綜合特征與任務(wù)專屬特征之間的冗余信息視為加性噪聲. 噪聲的構(gòu)建與信息瓶頸的優(yōu)化目標(biāo)有關(guān),通過理論推導(dǎo)提高了模型的解釋性. 具體來說,首先使用BiGRU 和CNN 構(gòu)建編碼器來提取文本的全局和局部特征,融合全局和局部特征得到綜合特征;其次信息瓶頸網(wǎng)絡(luò)對綜合特征進(jìn)行壓縮,以降低數(shù)據(jù)復(fù)雜度,壓縮后的綜合特征添加一個(gè)均值為零、協(xié)方差矩陣為對角矩陣的高斯噪聲進(jìn)行重參數(shù)化,得到不同任務(wù)的專屬特征,使噪聲的方差可以參與訓(xùn)練;最后將任務(wù)的專屬特征傳入解碼器中得到最終的分類結(jié)果,將信息瓶頸的優(yōu)化目標(biāo)的變分邊界表示擴(kuò)展到多任務(wù)網(wǎng)絡(luò)中得到變分損失函數(shù),利用變分損失函數(shù)更新網(wǎng)絡(luò)參數(shù)和訓(xùn)練噪聲來解開綜合特征的糾纏,獲得最佳的專屬特征. 該模型不需要任務(wù)之間具有相關(guān)性[11],VIBM 的編碼器的設(shè)計(jì)能提取出更豐富的特征,多任務(wù)網(wǎng)絡(luò)的結(jié)構(gòu)能更好地利用域間數(shù)據(jù)的差異性和相似性,提高數(shù)據(jù)的利用效率,利用信息瓶頸網(wǎng)絡(luò)得到任務(wù)專屬特征避免共享私有范式下的特征權(quán)衡問題,并且通過最小化信息瓶頸約束下的變分損失提高了模型泛化到未標(biāo)記數(shù)據(jù)領(lǐng)域的能力[12].實(shí)驗(yàn)結(jié)果表明,該方法能夠有效提升多領(lǐng)域文本分類任務(wù)的準(zhǔn)確性和泛化性,且更具有可解釋性.
2 相關(guān)工作
2. 1 信息瓶頸
信息瓶頸原理是信息論率失真理論的拓展,其基本思想是僅保留對于任務(wù)最重要的信息,并最大限度地壓縮輸入數(shù)據(jù)的復(fù)雜性,以實(shí)現(xiàn)學(xué)習(xí)的最有效性[13-15]. Alemi 等[16]提出了一種信息瓶頸的變分近似,應(yīng)用在深度學(xué)習(xí)模型中提高其泛化性和魯棒性. 自然語言處理中變分信息瓶頸用來實(shí)現(xiàn)快速非線性壓縮詞嵌入,讓標(biāo)簽序列在相同的標(biāo)簽粒度級別上被更準(zhǔn)確地解析[17]. West 等人[18]引入信息瓶頸層,使模型能夠壓縮輸入的原始句子信息的同時(shí)又能夠保留與句子中最重要的信息相關(guān)的部分來實(shí)現(xiàn)無監(jiān)督文本摘要. Mahabadi 等人[19]使用變分信息瓶頸來對大規(guī)模語言模型的微調(diào),改進(jìn)低資源場景大規(guī)模語言學(xué)習(xí)模型的效果,在文本分類等任務(wù)上取得較好的效果. Chen 等人[20]提出變分詞掩碼方法使用信息瓶頸對詞嵌入進(jìn)行約束,自動(dòng)學(xué)習(xí)任務(wù)專屬的重要詞,提高了文本分類模型的可解釋性.