• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      基于小樣本數(shù)據(jù)增強(qiáng)的科技文檔不平衡分類研究

      2022-06-27 13:51:54黃金鳳高巖徐童陳恩紅
      預(yù)測 2022年3期
      關(guān)鍵詞:數(shù)據(jù)增強(qiáng)文本分類

      黃金鳳 高巖 徐童 陳恩紅

      摘 要:科學(xué)技術(shù)的飛速發(fā)展衍生出海量的科技文檔,其有效管理與查詢依賴于準(zhǔn)確的文檔自動化分類。然而,由于學(xué)科門類眾多且發(fā)展各異,導(dǎo)致相關(guān)文檔數(shù)量存在嚴(yán)重的不平衡現(xiàn)象,削弱了分類技術(shù)的有效性。雖然相關(guān)研究證實(shí)預(yù)訓(xùn)練語言模型在文本分類任務(wù)上能夠取得很好的效果,但由于科技文檔較強(qiáng)的領(lǐng)域性導(dǎo)致通用預(yù)訓(xùn)練模型難以取得良好效果。更重要的是,不同領(lǐng)域積累的文檔數(shù)量存在顯著差異,其不平衡分類問題仍未完善解決。針對上述問題,本文通過引入和改進(jìn)多種數(shù)據(jù)增強(qiáng)策略,提升了小樣本類別的數(shù)據(jù)多樣性與分類魯棒性,進(jìn)而通過多組實(shí)驗(yàn)討論了不同預(yù)訓(xùn)練模型下數(shù)據(jù)增強(qiáng)策略的最佳組合方式。結(jié)果顯示,本文所提出的技術(shù)框架能夠有效提升科技文檔不平衡分類任務(wù)的精度,從而為實(shí)現(xiàn)科技文檔自動化分類及智能應(yīng)用奠定了基礎(chǔ)。

      關(guān)鍵詞:文本分類;預(yù)訓(xùn)練模型;類別不平衡;數(shù)據(jù)增強(qiáng)

      中圖分類號:TP391.1文獻(xiàn)標(biāo)識碼:A文章編號:2097-0145(2022)03-0023-08doi:10.11847/fj.41.3.23

      Research of Imbalanced Classification for Technical Documents

      Based on Few-shot Data Augmentation

      HUANG Jin-feng, GAO Yan, XU Tong, CHEN En-hong

      (School of Computer Science, University of Science and Technology of China, Hefei 230027, China)

      Abstract:Recent years have witnessed the rapid development of science and technologies, which results in the abundant technical documents. Along this line, automatic classification tools are urgently required to support the management and retrieval of technical documents. Though prior arts have mentioned that the pre-trained models could achieve competitive performance on textual classification tasks, considering the domain-specific characters of technical documents, effectiveness of these pre-trained models might be still limited. Even worse, due to the imbalanced accumulation of documents for different research fields, there exists the severe imbalanced classification issue, which impair the effectiveness of classification tool. To deal with these issues, in this paper, we propose a comprehensive framework, which adapts the multiple data augmentation strategies, for improving the diversity and robustness of document samples in few-shot categories. Moreover, extensive validations have been executed to reveal the most effective combination of data augmentation strategies under different pre-trained models. The results indicate that our proposed framework could effectively improve the performance of imbalanced classification issue, and further support the intelligent services on technical documents.

      Key words:text classification; pre-trained language model; class imbalance; data augmentation

      1 引言

      近年來,隨著科研投入力度的不斷加大,各學(xué)科研究的長足發(fā)展衍生出了海量的科技文檔。以作為測度科技發(fā)展水平重要指標(biāo)的科技論文產(chǎn)出情況為例,自2012年至今的10年來,SCI數(shù)據(jù)庫收錄的我國作者論文數(shù)量不斷攀升,并于2019年突破50萬篇。這一趨勢既體現(xiàn)了科研領(lǐng)域蓬勃發(fā)展的新局面,也帶來了科技文檔有效管理與高效檢索的巨大挑戰(zhàn)。由于作者所提供的少量關(guān)鍵詞信息難以適應(yīng)層次復(fù)雜的標(biāo)簽體系和動態(tài)變化的分類標(biāo)準(zhǔn),在實(shí)踐中往往無法獲得所需的精度。因此,借助機(jī)器學(xué)習(xí)技術(shù),基于科技文檔中的豐富文本進(jìn)行自動化分類已成為應(yīng)時(shí)之需。

      事實(shí)上,由于自然語言表達(dá)本身有著復(fù)雜的語義結(jié)構(gòu)、豐富的多樣性和多義性,并且會隨著不同的外部語境而發(fā)生變化,導(dǎo)致科技文檔等長文本的理解與分類任務(wù)本身具有較高的困難性。近年來,隨著BERT[1]等預(yù)訓(xùn)練語言模型[1~3]的提出,越來越多的研究者聚焦于預(yù)訓(xùn)練加微調(diào)的遷移學(xué)習(xí)方式進(jìn)行文本分類。其中預(yù)訓(xùn)練語言模型按照設(shè)計(jì)的代理任務(wù)在海量的無標(biāo)簽語料中學(xué)習(xí)文本表征,獲取語言中蘊(yùn)含的結(jié)構(gòu)信息。由此,通過使用預(yù)訓(xùn)練好的語言模型并在特定下游任務(wù)中微調(diào)訓(xùn)練,可以有效地將海量無標(biāo)簽語料中的信息泛化到下游任務(wù),在各種文本分類中取得了不錯的效果。

      然而,科技文檔由于其自身領(lǐng)域性和專業(yè)性的特點(diǎn),在詞語分布與表達(dá)結(jié)構(gòu)上與通用語料存在較大差異。因此,基于通用語料的預(yù)訓(xùn)練語言模型往往在科技文檔的表征學(xué)習(xí)任務(wù)上存在一定偏差,這在一定程度上削弱了其有效性。更為重要的是,由于各學(xué)科分支發(fā)展的差異性,不同領(lǐng)域的文檔積累數(shù)量存在顯著區(qū)別,從而導(dǎo)致了嚴(yán)重的不平衡分類問題。例如,據(jù)2019年中國科技論文統(tǒng)計(jì)分析顯示,國內(nèi)科技論文最多的

      10個學(xué)科所發(fā)表的論文總數(shù)占全部國內(nèi)科技論文的62.9%,其中排名第一的“臨床醫(yī)學(xué)”學(xué)科占總量的26.4%。顯然,這種不平衡性會導(dǎo)致分類標(biāo)簽傾向于熱門學(xué)科,從而導(dǎo)致冷門學(xué)科難以有效分類,限制了分類技術(shù)在科技文檔管理與檢索任務(wù)上的應(yīng)用。

      針對這一問題,本文通過引入和改進(jìn)多種數(shù)據(jù)增強(qiáng)策略,提升了小樣本類別的數(shù)據(jù)多樣性與分類魯棒性。具體而言,首先借助各類現(xiàn)有預(yù)訓(xùn)練語言模型,對科技文檔的長文本進(jìn)行初步的表征學(xué)習(xí),進(jìn)而將學(xué)習(xí)到的表征輸入下游網(wǎng)絡(luò)結(jié)構(gòu)進(jìn)行語義分類。其中為有效解決冷門學(xué)科小樣本所面臨的分類不平衡的問題,采用簡單增強(qiáng)、混類增強(qiáng)等策略增強(qiáng)小樣本數(shù)據(jù),從而提升模型的泛化性能;同時(shí),借鑒視覺領(lǐng)域所采用的知識蒸餾思想實(shí)現(xiàn)專家模型向小樣本分類任務(wù)的數(shù)據(jù)增強(qiáng)指導(dǎo)。實(shí)驗(yàn)結(jié)果證實(shí),本文所采用的策略組合能夠有效緩解科技文檔分類中的不平衡分類問題,從而提升整體的文檔分類效果。在2021年舉行的首屆“人郵杯”高校人工智能挑戰(zhàn)賽中,我們借助本方案的初步版本脫穎而出,最終獲得該競賽冠軍。

      2 相關(guān)文獻(xiàn)綜述

      在本節(jié)中,我們將從兩個方面總結(jié)與本文相關(guān)的文獻(xiàn),分別為文本分類技術(shù)及不平衡分類問題。

      2.1 文本分類技術(shù)

      文本分類是自然語言處理中的經(jīng)典問題。近年來,隨著文本語料的積累與深度學(xué)習(xí)技術(shù)的成熟,基于深度學(xué)習(xí)的文本分類方法逐漸成為主流。其中Liu等[4]針對RNN網(wǎng)絡(luò)能夠有效建模時(shí)間序列的歷史信息和位置信息的優(yōu)勢,基于多任務(wù)學(xué)習(xí),通過共享部分層RNN網(wǎng)絡(luò)的權(quán)重,在不同文本分類任務(wù)中提升了效果。而Tai等[5]提出了樹形LSTM模型,通過建模語句中的樹形語法層次結(jié)構(gòu),在預(yù)測語句語義關(guān)聯(lián)和語句情感的分類任務(wù)中取得了顯著的提升。此外,Zhou等[6]提出將LSTM與CNN模型相結(jié)合并用于文本分類,借助CNN模型加強(qiáng)LSTM輸出中的局部短期關(guān)聯(lián),使模型能夠兼顧語言中的長短期依賴。近年來,基于注意力機(jī)制的文本分類模型也備受關(guān)注,例如Pappas和Popescu-Belis[7]使用層次化的注意力機(jī)制,建模語言中復(fù)雜的依賴關(guān)系,在多語言環(huán)境中共享了編碼器和注意力模塊權(quán)重,超過了單語言設(shè)置下的分類效果。然而,這些技術(shù)往往無法有效應(yīng)對嚴(yán)重的不平衡分類問題,因此限制了其在科技文檔分類任務(wù)上的有效應(yīng)用。

      2.2 不平衡分類問題

      樣本不平衡分類問題是有監(jiān)督學(xué)習(xí)中的基礎(chǔ)性問題,主要指不同類別樣本數(shù)量差距過大,導(dǎo)致小樣本類別訓(xùn)練數(shù)據(jù)不全面且缺乏多樣性,在測試中難以有效識別。針對這一問題,Elkan[8]使用代價(jià)敏感學(xué)習(xí),將不同的類別預(yù)測錯誤賦予不同的代價(jià)權(quán)重,調(diào)高模型將小樣本類別預(yù)測為大樣本類別的懲罰權(quán)重,這一定程度上能夠緩解樣本不均衡問題。由于樣本不均衡問題的本質(zhì)是部分類別沒有足夠的訓(xùn)練樣本,很多基于數(shù)據(jù)增強(qiáng)的方法被提出來解決這一問題。例如,Zhang等[9],Wei等[10]通過同義替換的方式,將語句中的詞語用同義詞字典或者詞向量中的近鄰進(jìn)行替換,擴(kuò)大了小樣本類別語料的數(shù)量和多樣性。Goodfellow等[11]提出FGM方法,通過計(jì)算樣本相對損失的梯度,對樣本在梯度上升的方向做隨機(jī)擾動,旨在讓模型學(xué)習(xí)更難分類的樣本,這種在樣本空間中引入噪聲的方式能夠提升模型的魯棒性。不僅是文本任務(wù),在圖片分類和目標(biāo)識別任務(wù)中也存在著嚴(yán)重的長尾問題,例如Hu等[12]通過按照樣本數(shù)量將所有類別切分為幾個大類,保證大類中的類別樣本數(shù)量相對均衡,模型按照降序每次增量學(xué)習(xí)一個大類,用小樣本遷移學(xué)習(xí)的方式實(shí)現(xiàn)每一次增量學(xué)習(xí)。在本文中,我們將通過引入多種數(shù)據(jù)增強(qiáng)策略,并借鑒視覺領(lǐng)域處理長尾分類問題的知識蒸餾技術(shù)等多種手段,嘗試解決科技文檔的不平衡分類問題。

      3 基礎(chǔ)模型

      在本節(jié)中,我們首先簡要介紹面向文檔分類任務(wù)的基礎(chǔ)模型作為本文技術(shù)框架的預(yù)備知識,其中包括基本的預(yù)訓(xùn)練語言模型及其下游網(wǎng)絡(luò)結(jié)構(gòu)。

      3.1 預(yù)訓(xùn)練語言模型

      由于現(xiàn)階段大多數(shù)自然語言處理任務(wù)的數(shù)據(jù)標(biāo)注成本較為高昂,構(gòu)建大規(guī)模的高質(zhì)量標(biāo)注數(shù)據(jù)集非常困難。近年來,在深度學(xué)習(xí)技術(shù)和豐富語料積累的支撐下,基于大規(guī)模無標(biāo)注語料訓(xùn)練學(xué)習(xí)通用語言表示,再將其應(yīng)用到下游任務(wù),已成為當(dāng)前研究的基本范式。本節(jié)將介紹經(jīng)典BERT[1]模型作為預(yù)訓(xùn)練語言模型的代表,而其他預(yù)訓(xùn)練語言模型在基本思路上與其類似。

      具體而言,BERT模型采用兩階段訓(xùn)練模式。第一個階段為預(yù)訓(xùn)練階段,基于兩個無監(jiān)督預(yù)測任務(wù):遮擋語言模型和下一句預(yù)測,從語料中學(xué)習(xí)到一種通用語言表示。第二個階段為微調(diào)階段,在已經(jīng)訓(xùn)練好的語言模型基礎(chǔ)上引入下游網(wǎng)絡(luò)架構(gòu),再基于具體下游任務(wù)對模型進(jìn)行訓(xùn)練,使其在下游任務(wù)上能夠取得良好的性能。

      3.2 下游網(wǎng)絡(luò)結(jié)構(gòu)

      在基于預(yù)訓(xùn)練語言模型學(xué)習(xí)到文本表征之后,可以通過將其輸入到下游網(wǎng)絡(luò)結(jié)構(gòu),利用分類任務(wù)中的有標(biāo)注數(shù)據(jù)完成網(wǎng)絡(luò)的訓(xùn)練,從而實(shí)現(xiàn)文本的有監(jiān)督分類。本節(jié)將介紹三種代表性的下游網(wǎng)絡(luò)架構(gòu),分別為線性分類器、CNN+線性分類器,BiLSTM+線性分類器。

      (1)線性分類器。在BERT模型基礎(chǔ)上,將學(xué)習(xí)到的表征(融合了文本的所有信息)輸入到一個全連接層,模型通過特征的線性組合做出相應(yīng)的分類決策。

      (2)CNN+線性分類器。通過在BERT模型基礎(chǔ)上加入CNN和全連接層,將BERT模型每層的輸出結(jié)果輸入到多層卷積神經(jīng)網(wǎng)絡(luò),每層卷積操作之后再接一個最大池化操作。合并所有池化操作的輸出結(jié)果,輸入到一個全連接層,最終判別得到樣本分類結(jié)果。

      (3)BiLSTM+線性分類器。在BERT模型基礎(chǔ)上加入一個雙向的LSTM層和全連接層。具體的操作和上述方法類似,將BERT模型每層的輸出結(jié)果輸入到一個雙向的LSTM層,然后將雙向的LSTM層輸出與BERT模型最后兩層的輸出拼接在一起,輸入到一個全連接層,最終給出樣本分類結(jié)果。

      4 基于小樣本增強(qiáng)的不平衡分類

      如前所述,科技文檔存在著嚴(yán)重的類別不平衡問題,削弱了現(xiàn)有分類技術(shù)的精度。在本節(jié)中,我們將介紹多種小樣本數(shù)據(jù)增強(qiáng)的策略,以嘗試解決數(shù)據(jù)類別不均衡的問題。

      4.1 技術(shù)框架概述

      本文所采用的技術(shù)框架如圖1所示。其中虛線框中的部分為上文所介紹的基礎(chǔ)語言模型,包括預(yù)訓(xùn)練語言模型與相應(yīng)的下游分類網(wǎng)絡(luò)結(jié)構(gòu)。如前所述,這一基礎(chǔ)模型框架雖然可以在通用文本分類任務(wù)上獲得較好結(jié)果,但在面臨不平衡分類問題的科技文檔分類任務(wù)上有一定的局限性。為此,本文擬通過引入多種數(shù)據(jù)增強(qiáng)策略,包括基于簡單/混類增強(qiáng)的模型泛化策略和基于知識蒸餾的專家指導(dǎo)策略等。下文將分別介紹這些數(shù)據(jù)增強(qiáng)策略。

      4.2 簡單數(shù)據(jù)增強(qiáng)

      由于各學(xué)科分支發(fā)展的差異性,部分冷門學(xué)科所積累的文檔數(shù)據(jù)量小且缺乏多樣性,難以將這些文檔歸類到正確的類別。我們期望增加這些小樣本文檔的數(shù)據(jù)量和樣本豐富度,以幫助模型對其進(jìn)行正確分類。為此,我們啟發(fā)式地引入了簡單數(shù)據(jù)增強(qiáng)[10](Easy Data Augmentation,EDA)策略,它包含一系列傳統(tǒng)的數(shù)據(jù)增強(qiáng)方法,比如按照一定的概率對文本中的詞語按照同義詞字典進(jìn)行文本替換,隨機(jī)插入或者刪除文本中的字詞,隨機(jī)交換文本中字詞位置等方法來實(shí)現(xiàn)數(shù)據(jù)擴(kuò)增,借助一些先驗(yàn)知識,基于文本經(jīng)過少量變換不改變語義的假設(shè),生成一批新的數(shù)據(jù),從有限的數(shù)據(jù)中挖掘出等價(jià)于更多數(shù)據(jù)的價(jià)值,利用這些數(shù)據(jù)指導(dǎo)模型進(jìn)行學(xué)習(xí)。

      4.3 混類增強(qiáng)

      目前對于文檔分類任務(wù),往往采用大規(guī)模深度神經(jīng)網(wǎng)絡(luò)加以實(shí)現(xiàn),它們訓(xùn)練模型以使訓(xùn)練數(shù)據(jù)的平均誤差最小化,即經(jīng)驗(yàn)風(fēng)險(xiǎn)最小化[13](Empirical Risk Minimization,ERM)原則。但是,使用ERM方法訓(xùn)練后,神經(jīng)網(wǎng)絡(luò)可能會記住訓(xùn)練數(shù)據(jù),而不是去泛化它,如果測試分布和訓(xùn)練分布略有不同,模型的預(yù)測性能可能會發(fā)生斷崖式下跌。針對這一問題,我們期望增加模型的泛化能力,減少模型對噪聲的敏感性,提升模型訓(xùn)練時(shí)的穩(wěn)定性。對此,考慮增加樣本的多樣性,使得模型能夠從豐富的樣本數(shù)據(jù)中學(xué)習(xí)到一般規(guī)律,提升其泛化能力。

      在上一節(jié)中,我們引入了簡單數(shù)據(jù)增強(qiáng)策略,它可以實(shí)現(xiàn)對每一類的樣本分別進(jìn)行數(shù)據(jù)擴(kuò)增,屬于同類增強(qiáng),但是這種方法與數(shù)據(jù)集密切相關(guān),且需要一定的領(lǐng)域知識。針對這一局限性,我們希望能夠?qū)崿F(xiàn)一種簡單且獨(dú)立于數(shù)據(jù)集的數(shù)據(jù)擴(kuò)增方式,通過挖掘出不同類不同樣本之間的關(guān)系,構(gòu)建虛擬的數(shù)據(jù)樣本?;谏鲜鰡l(fā),我們引入并改進(jìn)了Mixup[14]的思想,按照一定的權(quán)重對訓(xùn)練集中隨機(jī)抽取出的兩個樣本以及它們的標(biāo)簽進(jìn)行加權(quán)求和,實(shí)現(xiàn)虛擬數(shù)據(jù)樣本的構(gòu)建。其中符號λ表示組合的權(quán)重,超參數(shù)γ控制特征-標(biāo)簽對之間的插值強(qiáng)度。

      =λxi+(1-λ)xj(1)

      =λyi+(1-λ)yj(2)

      λ=Beta(γ,γ)(3)

      最后,將構(gòu)建好的虛擬數(shù)據(jù)樣本輸入模型進(jìn)行訓(xùn)練,幫助模型優(yōu)化。

      4.4 正則化丟棄

      同時(shí),針對數(shù)據(jù)不平衡可能導(dǎo)致的過擬合問題,我們還將采用正則化丟棄(Regularized Dropout,RDrop[15])策略。它通過兩次dropout的方式得到同一個輸入的不同特征,構(gòu)建對抗樣本對,同時(shí)計(jì)算模型兩次輸出結(jié)果之間的KL散度,使得不同dropout得到的模型輸出基本一致,從而提升訓(xùn)練和測試時(shí)模型的一致性,增加模型的魯棒性,最終提升模型性能。

      具體而言,在本問題中,訓(xùn)練數(shù)據(jù)可以表示為{(xi,yi)}Ni=1,模型表示為P(y|x)。RDrop的損失函數(shù)包括兩個部分,一部分是基于每個模型的輸出結(jié)果計(jì)算損失值

      L(CE)i=-logP(1)θ(yi|xi)-logP(2)θ(yi|xi)(4)

      另一部分是計(jì)算兩個模型之間的對稱KL散度

      L(KL)i=12[KL(P(2)θ(y|xi)‖P(1)θ(y|xi))+

      KL(P(1)θ(y|xi)‖P(2)θ(y|xi))](5)

      最終的損失函數(shù)是對這兩個部分的損失進(jìn)行加權(quán)求和,通過最小化該目標(biāo)即可實(shí)現(xiàn)優(yōu)化求解

      Li=L(CE)i+αL(KL)i(6)

      4.5 多專家學(xué)習(xí)策略

      之前引入的各種策略都是在數(shù)據(jù)輸入端,為提升模型魯棒性和泛化性而進(jìn)行的操作。然而,如前所述,科技文檔存在嚴(yán)重的類別不平衡性,而這些模型并沒有有效借助那些數(shù)據(jù)量較少的類別。事實(shí)上,我們發(fā)現(xiàn)在樣本數(shù)較為平衡的原數(shù)據(jù)類別子集中訓(xùn)練的模型效果要比直接在所有類別中訓(xùn)練的模型效果好。為此,一種可行的策略是首先訓(xùn)練多個分類子任務(wù),然后在分類子任務(wù)的指導(dǎo)下,訓(xùn)練對所有類別的分類任務(wù),而這正是在視覺領(lǐng)域常用于解決不平衡分類問題的LFME[16]方法的出發(fā)點(diǎn)。為此,我們將LFME模型遷移到自然語言處理領(lǐng)域,其總體框架如圖2所示。

      具體而言,LFME方法先將所有類別按照樣本切分為L個子集,并針對L個類別相對均衡的類別子集分別訓(xùn)練分類模型,從而得到L個專家模型,再通過知識蒸餾的方式將L個專家模型遷移為針對所有類別的統(tǒng)一模型。其中知識蒸餾損失的權(quán)重由統(tǒng)一模型在不同類別子集上達(dá)到的驗(yàn)證集準(zhǔn)確率決定,驗(yàn)證集準(zhǔn)確率越低,代表越需要向?qū)?yīng)的專家模型學(xué)習(xí),蒸餾損失如下

      LKDl=-H(τ(z(l)),τ((l)))

      =-∑|Sl|i=1τ(z(l)i)log(τ((l)i))(7)

      τ(z(l)i)=exp(z(l)i/T)∑jexp(z(l)j/T)

      τ((l)i)=exp((l)i/T)∑jexp((l)j /T)(8)

      wl=1.0if AccMβAccEl

      AccEl-AccMAccEl(1-α)if AccM>βAccEl(9)

      LKD=∑Ll=1wlLKDl(10)

      其中T為溫度超參數(shù),β為知識蒸餾的閾值超參數(shù),AccEl為第l個專家模型的驗(yàn)證集準(zhǔn)確率,AccM為當(dāng)前統(tǒng)一模型在第l個樣本子集的驗(yàn)證集準(zhǔn)確率,wl會在每個訓(xùn)練周期結(jié)束后更新。

      同時(shí),LFME也進(jìn)行了課程學(xué)習(xí)的設(shè)置,即從簡單到困難學(xué)習(xí),使模型能夠平滑地收斂,其中樣本的難易程度由專家模型給出的置信度決定。交叉熵?fù)p失如下定義

      LCE=∑Ni=1v(k)iLCE(xi)(11)

      v(k)i=(1-piNSminNSl)eE+piNSminNSl(12)

      其中LCE為交叉熵?fù)p失函數(shù),e為所處的訓(xùn)練周期序號,pi為專家模型得到的樣本置信度,NSl為第l個類別子類的樣本數(shù)量,NSmin為NSl中的最小值。最后,優(yōu)化以下的總體損失函數(shù)

      L=∑Ni=1viLCE(xi,yi)+∑Ll=1

      ∑Ni=1wlLKDl(M,Mexp;xi)(13)

      5 實(shí)驗(yàn)驗(yàn)證與討論

      在本節(jié)中,我們將首先介紹實(shí)驗(yàn)驗(yàn)證所使用的數(shù)據(jù)集與數(shù)據(jù)處理過程,進(jìn)而通過多組實(shí)驗(yàn),討論不同預(yù)訓(xùn)練語言模型、下游網(wǎng)絡(luò)結(jié)構(gòu)及相應(yīng)的小樣本數(shù)據(jù)增強(qiáng)策略的最佳組合方式,并通過案例分析討論不同策略組合效果提升的可能原因及其潛在局限性。

      5.1 數(shù)據(jù)集介紹

      本文采用“人郵杯”有關(guān)測評的圖書分類數(shù)據(jù)集近似科技文檔數(shù)據(jù),并通過分層抽樣將原始數(shù)據(jù)集按照18∶1∶1的比例劃分為訓(xùn)練集、驗(yàn)證集和測試集,三部分分別包含92549條、5142條和5141條記錄。整體文本長度分布如圖3所示,其中標(biāo)題平均長度約為13,摘要平均長度約為240。樣本類別總共22類,其分布如圖4所示,可以看到數(shù)據(jù)存在嚴(yán)重的分布不平衡問題。例如,其中T類書籍在訓(xùn)練集中占比超過30%,而S類書籍在訓(xùn)練集中僅有13條。為進(jìn)一步提升數(shù)據(jù)質(zhì)量,我們對數(shù)據(jù)進(jìn)行了簡單的清洗,去除了數(shù)據(jù)集中存在的特殊字符、重復(fù)字符等。

      5.2 實(shí)驗(yàn)設(shè)置

      本次實(shí)驗(yàn)所使用的預(yù)訓(xùn)練語言模型均來自HuggingFace資源庫,訓(xùn)練中使用的顯卡型號為NVIDIA GeForce RTX 3090。具體的參數(shù)設(shè)置如下:對于一般的預(yù)訓(xùn)練語言模型,max_len設(shè)為200,對于長文本語言模型longformer,max_len設(shè)為456,學(xué)習(xí)率設(shè)為2e-4,batch_size設(shè)為32, dropout設(shè)為0.1, epoch設(shè)為20,混類增強(qiáng)方法中的γ設(shè)為0.25,RDrop方法中的α設(shè)為1,LFME方法中的溫度超參數(shù)T設(shè)置為2,知識蒸餾的閾值超參數(shù)β設(shè)置為0.8。在訓(xùn)練LFME中的統(tǒng)一模型時(shí),過采樣小樣本類別,使用類別獨(dú)立的采樣方式。

      在實(shí)驗(yàn)過程中,我們采用了micro-f1和macro-f1作為文本多分類任務(wù)的評估指標(biāo)。其中macro-f1側(cè)重于小樣本,能夠更好地體現(xiàn)類別不均衡場景下小樣本類別上的性能。

      5.3 基礎(chǔ)語言模型及其對比效果

      在本實(shí)驗(yàn)中,為了充分比較分析不同預(yù)訓(xùn)練語言模型與下游網(wǎng)絡(luò)結(jié)構(gòu)組合在科技文檔分類任務(wù)上的效果,我們采用了多種預(yù)訓(xùn)練語言模型+線性分類器作為基準(zhǔn)模型,其在驗(yàn)證集和測試集上的分類效果如表1所示。由實(shí)驗(yàn)結(jié)果可知,實(shí)驗(yàn)中采用的所有基于預(yù)訓(xùn)練語言模型的文本分類方法相對于傳統(tǒng)的文本分類方法,在各項(xiàng)指標(biāo)上均有大幅度的提升,說明相較于隨機(jī)初始化詞向量,在大規(guī)模無標(biāo)注語料庫上學(xué)習(xí)到的語言表征可以很好地遷移到下游任務(wù),提升下游任務(wù)上的模型性能。同時(shí),對于不同的預(yù)訓(xùn)練語言模型,可以發(fā)現(xiàn)Longformer模型的性能最好,推測與其采用了局部注意力機(jī)制,可以有效地對長文本信息進(jìn)行建模相關(guān)。

      5.4 下游網(wǎng)絡(luò)結(jié)構(gòu)對比

      我們在多個預(yù)訓(xùn)練語言模型的基礎(chǔ)上研究下游分類網(wǎng)絡(luò)對預(yù)訓(xùn)練語言模型分類效果的影響,結(jié)果如表2所示,可以發(fā)現(xiàn)在BERT、NEZHA、Longformer三個預(yù)訓(xùn)練語言模型中,BiLSTM作為下游網(wǎng)絡(luò)效果最好,而CNN下游網(wǎng)絡(luò)相對于線性分類器沒有明顯提升。

      5.5 小樣本分類策略對比

      針對前文所述的科技文檔嚴(yán)重的樣本不均衡問題,在本環(huán)節(jié)中,我們以Longformer為基準(zhǔn)模型,在測試集上驗(yàn)證和對比在第4節(jié)中介紹的多種數(shù)據(jù)增強(qiáng)方法。

      具體而言,我們將數(shù)據(jù)中的22個類別按照出現(xiàn)頻次分成兩部分,并將出現(xiàn)頻次高的11個類別稱為head,出現(xiàn)頻次低的11個類別稱為tail,其中tail類別只占總樣本數(shù)的約5%。實(shí)驗(yàn)結(jié)果如表3所示,其中分別列出了在tail類別、head類別和所有類別中的f1-micro和f1-macro等指標(biāo),數(shù)據(jù)增強(qiáng)方法名稱后有tail的代表僅僅在tail類別的樣本中進(jìn)行數(shù)據(jù)增強(qiáng)。

      通過實(shí)驗(yàn)結(jié)果對比,我們發(fā)現(xiàn)LFME、RDrop、EDA、Mixup這四種數(shù)據(jù)增強(qiáng)方法,對比基線方法,在整體性能上均有不小的提升,通過分別評估head類別和tail類別中的f1-score,我們發(fā)現(xiàn)數(shù)據(jù)增強(qiáng)能夠在不影響大樣本類別分類效果的同時(shí),極大地提升小樣本類別的分類表現(xiàn)。對比第2行和第3行以及第5行和第6行,我們發(fā)現(xiàn)僅僅在占5%的tail類別樣本中使用EDA或RDrop的方法,和與在所有樣本上做數(shù)據(jù)增強(qiáng)相比,在整體性能上能獲得差不多的提升,但在小樣本類別中明顯更優(yōu)。對比第8行和第9行,在小樣本類別上利用Mixup能在整體性能和小樣本兩方面獲得更好的效果。對比第6行和第7行以及第9行和第10行,我們發(fā)現(xiàn)在RDrop或Mixup方法上疊加EDA會造成性能損失,我們推測是EDA生成的噪聲數(shù)據(jù)被RDrop或Mixup放大所造成的。

      5.6 消融實(shí)驗(yàn)

      在前述策略組合的基礎(chǔ)之上,我們對于LFME中的重要模塊進(jìn)行了消融實(shí)驗(yàn),其在測試集上的實(shí)驗(yàn)結(jié)果如表4所示,其中“-課程學(xué)習(xí)”表示不根據(jù)專家模型區(qū)分樣本的難易程度,即公式(11)中的v(k)i設(shè)置為0,而“-動態(tài)蒸餾權(quán)重”表示在head和tail合集中不根據(jù)準(zhǔn)確率動態(tài)調(diào)整蒸餾權(quán)重,即公式(9)中的wl在前一半訓(xùn)練周期設(shè)置為1,后一半訓(xùn)練周期設(shè)置為0。實(shí)驗(yàn)結(jié)果驗(yàn)證了課程學(xué)習(xí)和動態(tài)蒸餾權(quán)重模塊的有效性,在總體macro-f1和小樣本指標(biāo)上,LFME模型都優(yōu)于消融后的模型。

      同時(shí),對于EDA中插入、刪除、替換和交換4種數(shù)據(jù)增強(qiáng)方式,我們通過刪去一種增強(qiáng)方式而保留其他三種進(jìn)行對比,驗(yàn)證EDA中每種增強(qiáng)方式的有效性,實(shí)驗(yàn)結(jié)果如表5所示。通過消融實(shí)驗(yàn),我們驗(yàn)證了所有4種數(shù)據(jù)增強(qiáng)方式對小樣本分類任務(wù)均有幫助,其中交換操作提升最少。

      5.7 案例分析

      最后,我們通過部分案例的分析,討論在效果最好的預(yù)訓(xùn)練語言模型Longformer模型的基礎(chǔ)上,Mixup和LFME兩種策略在小樣本分類問題上各自提升的可能原因及潛在的局限性。

      [樣例1]:

      標(biāo)簽:C類圖書(社會科學(xué)總論)

      標(biāo)題:國際大都市文化導(dǎo)論,《國際大都市文化導(dǎo)論》對國際都市文化的比較研究

      摘要:置于全球視野之下,試圖在全球化與全球新的城市世紀(jì)到來之際,比較研究不同全球城市精神文化的特點(diǎn),進(jìn)而揭示全球城市精神文化的共同本質(zhì)及其深層價(jià)值…

      在該案例中,該樣本被Longformer基線模型錯誤分類為T類圖書(工業(yè)技術(shù)),但在使用LFME方法后卻可以被正確分類,而且能夠達(dá)到0.93的置信度。我們預(yù)測的原因?yàn)?,在一般的?xùn)練過程中,由于類別樣本數(shù)量的失衡,不同類別辨別特征的學(xué)習(xí)速率存在著很大的差異,C類樣本數(shù)量只占T類樣本的1/16,模型在C類樣本上的泛化能力不足。但在LFME方法中,C類樣本作為tail子集中樣本數(shù)量最多的分類,tail專家模型能夠有效地識別C類樣本,通過知識蒸餾用tail專家模型指導(dǎo)LFME統(tǒng)一模型學(xué)習(xí),能夠使得不同類別間的學(xué)習(xí)速率相對同步。并且在C類圖書上LFME方法相對于基線模型在f1-score上能有4個百分點(diǎn)的提升,這也印證了我們的推測。

      [樣例2]:

      標(biāo)簽:C類圖書(社會科學(xué)總論)

      標(biāo)題:大國空巢:反思中國計(jì)劃生育政策

      摘要:《大國空巢:反思中國計(jì)劃生育政策》曾于2007年在香港出過一版,書一出版就受到了廣泛關(guān)注,并引發(fā)了激烈爭論…

      在該案例中,Longformer基線模型將該樣本錯誤分類為D類圖書(政治、法律),我們推測原因?yàn)?,“政策”一詞在D類訓(xùn)練樣本中高頻出現(xiàn),導(dǎo)致模型只根據(jù)“政策”這一關(guān)鍵詞進(jìn)行判別。這一方面是由于“政策”在該案例的標(biāo)題和摘要中多次出現(xiàn),容易混淆模型,干擾模型接收其他有效信息;另一方面,C類圖書數(shù)據(jù)量比較少,樣本多樣性不足,導(dǎo)致模型在C類樣本上的泛化能力比較差。而通過Mixup進(jìn)行混類增強(qiáng),能夠減少對錯誤標(biāo)簽的記憶,增加模型的泛化能力,使模型在訓(xùn)練和預(yù)測時(shí)性能比較一致。

      6 結(jié)論與啟示

      本文研究了如何將預(yù)訓(xùn)練語言模型遷移到科技文檔多標(biāo)簽分類任務(wù)上,并借助小樣本數(shù)據(jù)增強(qiáng)技術(shù)解決科技文檔不平衡分類的技術(shù)挑戰(zhàn)。我們通過實(shí)驗(yàn)發(fā)現(xiàn),在小樣本上做數(shù)據(jù)增強(qiáng)和在所有數(shù)據(jù)上做數(shù)據(jù)增強(qiáng)的效果差不多,不過前者相對后者在訓(xùn)練時(shí)間上縮短了5倍。同時(shí),本文通過引入和改進(jìn)多種數(shù)據(jù)增強(qiáng)策略,提升了小樣本類別的數(shù)據(jù)多樣性,并通過多組實(shí)驗(yàn)討論了不同預(yù)訓(xùn)練模型下數(shù)據(jù)增強(qiáng)策略的最佳組合方式。結(jié)果顯示這一技術(shù)框架能夠有效提升科技文檔不平衡分類任務(wù)的精度,且大多數(shù)據(jù)增強(qiáng)策略都能幫助提升小樣本分類效果。

      借助于上述技術(shù)框架的初步版本,我們在首屆“人郵杯”高校人工智能挑戰(zhàn)賽中取得了冠軍的成績。在未來工作中,將進(jìn)一步結(jié)合集成學(xué)習(xí)技術(shù),在發(fā)揮各預(yù)訓(xùn)練模型與策略組合專長的基礎(chǔ)上進(jìn)一步提升整體方案的魯棒性,并結(jié)合元學(xué)習(xí)等手段更有效地應(yīng)對冷門學(xué)科中的小樣本學(xué)習(xí)問題。

      參 考 文 獻(xiàn):

      [1]Vaswani A, Shazeer N, Parmar N, et al.. Attention is all you need[A]. Proceedings of the 31st International Conference on Neural Information Processing Systems[C]. Curran Associates, Red Hook, NY, USA, 2017. 6000-6010.

      [2]Wei J, Ren X, Li X, et al.. NEZHA: neural contextualized representation for Chinese language understanding[J]. arXiv:

      1909. 00204, 2021.

      [3]Beltagy I, Peters M E, Cohan A. Longformer: the long-document transformer[J]. arXiv: 2004. 05150, 2020.

      [4]Liu P, Qiu X, Huang X. Recurrent neural network for text classification with multi-task learning[A]. Proceedings of the Twenty-Fifth International Joint Conference on Artificial Intelligence[C]. NY, USA, 2016. 2873-2879.

      [5]Tai K S, Socher R, Manning C D. Improved semantic representations from tree-structured long short-term memory networks[A]. Proceedings of the 53rd Annual Meeting of the Association for Computational Linguistics and the 7th International Joint Conference on Natural Language Processing (Volume 1: Long Papers)[C]. Association for Computational Linguistics, Beijing, China, 2015. 1556-1566.

      [6]Zhou C, Sun C, Liu Z, et al.. A C-LSTM neural network for text classification[J]. arXiv: 1511. 08630, 2015.

      [7]Pappas N, Popescu-Belis A. Multilingual hierarchical attention networks for document classification[A]. Proceedings of the Eighth International Joint Conference on Natural Language Processing (Volume 1: Long Papers)[C]. Asian Federation of Natural Language Processing, Taipei, Taiwan, 2017. 1015-1025.

      [8]Elkan C. The foundations of cost-sensitive learning[A]. International Joint Conference on Artificial Intelligence[C]. Lawrence Erlbaum Associates Ltd, Seattle, Washington, USA, 2001. 973-978.

      [9]Zhang X, Zhao J, LeCun Y. Character-level convolutional networks for text classification[A]. Advances in Neural Information Processing Systems[C]. Curran Associates, Montreal, Canada, 2015. 649-657.

      [10]Wei J, Zou K. EDA: easy data augmentation techniques for boosting performance on text classification tasks[A]. Proceedings of the 2019 Conference on Empirical Methods in Natural Language Processing and the 9th International Joint Conference on Natural Language Processing[C]. Association for Computational Linguistics, Hong Kong, China, 2019. 6382-6388.

      [11]Goodfellow I J, Shlens J, Szegedy C. Explaining and harnessing adversarial examples[J]. arXiv: 1412. 6572, 2015.

      [12]Hu X, Jiang Y, Tang K, et al.. Learning to segment the tail[A]. 2020 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR)[C]. IEEE, Seattle, WA, USA, 2020. 14042-14051.

      [13]Vapnik V. Principles of risk minimization for learning theory[A]. Advances in Neural Information Processing Systems[C]. Curran Associates, Denver, Colorado, USA, 1991. 831-838.

      [14]Zhang H, Cisse M, Dauphin Y N, et al.. Mixup: beyond empirical risk minimization[A]. International Conference on Learning Representations[C]. OpenReview.net, Vancouver, BC, Canada, 2018. 1-13.

      [15]Wu L, Li J, Wang Y, et al.. R-drop: regularized dropout for neural networks[A]. Advances in Neural Information Processing Systems[C]. Curran Associates, New Orleans, LA, USA, 2021. 10890-10905.

      [16]Xiang L, Ding G, Han J. Learning from multiple experts: self-paced knowledge distillation for long-tailed classification[A]. European Conference on Computer Vision[C]. Springer, Glasgow, UK, 2020. 247-263.

      [17]Chen Y. Convolutional neural network for sentence classification[D]. Waterloo:? University of Waterloo, 2015.

      [18]Joulin A, Grave , Bojanowski P, et al.. Bag of tricks for efficient text classification[A]. Proceedings of the 15th Conference of the European Chapter of the Association for Computational Linguistics(Volume 2: Short Papers)[C]. Association for Computational Linguistics, Valencia, Spain, 2017. 427-431.

      [19]Johnson R, Zhang T. Deep pyramid convolutional neural networks for text categorization[A]. Proceedings of the 55th Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers)[C]. Vancouver, Canada, 2017. 562-570.

      猜你喜歡
      數(shù)據(jù)增強(qiáng)文本分類
      一種算法對于深層神經(jīng)網(wǎng)絡(luò)訓(xùn)練速度的提升
      基于深度學(xué)習(xí)網(wǎng)絡(luò)的乳腺癌圖片分類研究
      基于卷積神經(jīng)網(wǎng)絡(luò)的森林火災(zāi)煙霧探測算法研究
      基于深度網(wǎng)絡(luò)的車輛前后端圖像識別方法研究
      基于雙卷積神經(jīng)網(wǎng)絡(luò)的鐵路集裝箱號OCR
      基于卷積神經(jīng)網(wǎng)絡(luò)的圖像分類研究
      基于組合分類算法的源代碼注釋質(zhì)量評估方法
      基于貝葉斯分類器的中文文本分類
      基于蟻群智能算法的研究文本分類
      基于樸素貝葉斯分類的Java課程網(wǎng)絡(luò)答疑反饋系統(tǒng)
      青川县| 开原市| 东光县| 普宁市| 江山市| 左贡县| 丹阳市| 延安市| 南丹县| 满洲里市| 柳河县| 宣化县| 抚顺市| 内乡县| 红桥区| 师宗县| 绥芬河市| 大渡口区| 苗栗市| 宜都市| 修武县| 宽甸| 西乡县| 五家渠市| 霍城县| 玉树县| 秀山| 伊宁市| 精河县| 武清区| 文昌市| 安顺市| 保靖县| 巴楚县| 图们市| 龙门县| 历史| 五原县| 普兰店市| 浦东新区| 安新县|