EDA 文本增強技術在中英文語料上的差異性分析

2021-11-15 15:31:48靳大尉王雯慧

現(xiàn)代計算機 2021年27期

靳大尉，王雯慧

（陸軍工程大學指揮控制工程學院，南京 210000）

0 引言

數(shù)據(jù)驅動的機器學習模型訓練中模型的精度與模型的復雜度往往成正比。但這種正比的前提是要有足夠多的訓練樣本數(shù)據(jù)，否則很容易造成欠擬合現(xiàn)象。在很多實際的項目中，難以有充足的數(shù)據(jù)來完成訓練任務，為了提升模型的泛化能力，要么尋找更多的數(shù)據(jù)，要么充分利用已有的數(shù)據(jù)通過數(shù)據(jù)增強技術來產生新樣本。

在計算機視覺領域，已有旋轉、縮放、剪切等通用增強方法。文本數(shù)據(jù)增強實踐中，Jason Wei等人提出了一套簡單的用于自然語言處理的通用數(shù)據(jù)擴充技術EDA［1］，并針對其在英文文本上的應用效果進行了研究。為了研究EDA技術在與英文文本差距較大的中文文本上的應用效果，本文選擇三種公開中文語料和文本分類任務，在中文數(shù)據(jù)集上實驗并驗證了EDA技術的增強效果，并分析了中英文文本語料上EDA增強技術的應用差異，提出了中文數(shù)據(jù)集中推薦的增強參數(shù)，同時驗證了EDA技術在以Bert為代表的預訓練語言模型上的應用效果。

1 文本增強方法概述

依據(jù)文本增強的原理不同，文本增強的技術可以分為面向原始文本的增強方法和面向文本表示的增強方法兩種。

面向原始文本的增強方法主要是通過對原始文本中的字詞進行操作來進行增強。大部分研究都通過引入各種外部資源來提升增強效果，包括同義詞、外部噪聲等。除了典型的EDA技術，還包括基于復雜模型的增強方法，如條件BERT（CBERT）［2］和利用RL來選擇增強操作［3］。

面向文本表示的增強方法是對原始文本的特征表示進行處理，比如利用在表示層注入隨機噪音等方法獲得增強后的文本表示。增強后的表示可以再進行解碼獲得增強文本或者直接用于訓練模型。這方面的代表包括Szegedy等人提出的利用標簽平滑（label smoothing）來提升模型泛化能力［4］；Zhang等人提出的基于Mixup的文本增強方法［5］以及Malandrakis等人提出的受限變分自編碼器（CVAE）［6］等文本增強技術。

相對于面向表示的文本增強方法，面向原始文本的增強方式通常是對句子內容進行微調，實現(xiàn)較為簡單，增強比例可自由調整，效率更高；能夠直接觀察增強后的數(shù)據(jù)內容，具有更好的可讀性和可解釋性。EDA方法的四種基本操作包括：同義詞替換（SR）、隨即插入（RI）、隨即交換（RS）以及隨機刪除（RD），較好的代表了原始文本增強方法“多、快、好、省”的特點。

2 實驗設計與結果

本實驗選擇了三種文本分類任務的數(shù)據(jù)集和兩種基本模型框架以及一種預訓練模型來研究EDA技術在中文文本上的應用效果，并與英文進行對比。

2.1 數(shù)據(jù)集介紹

本實驗使用了三類中文數(shù)據(jù)集，涵蓋短文本、長文本、二分類以及多分類數(shù)據(jù)，簡要介紹如下：

（1）短文本二分類［7］。采用酒店評價數(shù)據(jù)集hotel，共7000多條酒店評論數(shù)據(jù)，分為正面、負面兩個類別，其中5000多條正向評論，2000多條負向評論；

（2）短文本多分類［8］。采用今日頭條新聞標題數(shù)據(jù)集tnews，其中訓練數(shù)據(jù)53360條，驗證數(shù)據(jù)約10000條，測試數(shù)據(jù)約10000條，共分為15個類別，類別數(shù)據(jù)量相差較大；

（3）長文本多分類［9］。采用復旦大學中文文本分類語料fudan，選取C19、C31、C34、C39四類文檔，分別包含2712、2436、3201、2507條數(shù)據(jù)。

EDA方法對于英文小數(shù)據(jù)集的增強作用較為明顯，本文對于中文數(shù)據(jù)集采用了相同的方法，將數(shù)據(jù)劃分為不同大小的數(shù)據(jù)集進行研究，同時改變文本增強百分比、增強句數(shù)等參數(shù)進行實驗驗證。

文本增強百分比參數(shù)代表一個句子中參與增強的字詞所占句子長度的百分比。例如，一個句子長度為100，增強百分比為2%，那么參與增強操作的詞最多不超過兩個。

增強句數(shù)參數(shù)表示一句話進行增強操作后新形成的句子的數(shù)量。例如，設定增強句子數(shù)參數(shù)為9，那么一句話分別進行9次增強操作，形成9個新句子參與訓練。同時默認的增強操作包括：對句子的30%進行同義詞替換操作，進行隨機插入操作，插入比例為句子的20%，對句子的10%進行隨機交換操作，對15%的句子進行隨機刪除操作，百分比計算結果均向下取整。

2.2 模型與文本分類任務選擇

為了能夠反映文本增強技術對于模型結果的影響，不失一般性地采用簡單的RNN［10］、CNN［11］和基礎的Bert模型。RNN模型包括兩層RNN隱藏層以及兩層全連接層；CNN模型包括一層CNN層、一層最大池化層以及兩層全連接層。Bert模型采用基于Pytorch的Bert-base-chinese模型［12］。

文本分類任務是自然語言處理中的一項基本任務，其評判規(guī)則較為明確，能較有效的衡量一個模型的準確率，從而反映出文本增強技術的作用效果。文本分類任務可以分為短文本分類和長文本分類任務，也可劃分為多分類任務和二分類任務。本文實驗任務涵蓋以上各種文本分類任務。

2.3 EDA應用效果

2.3.1 EDA技術應用效果概述

為了能夠準確反映出EDA技術的效果，本文分別從三個數(shù)據(jù)集劃分抽樣出500、2000、5000條，組成不同大小的數(shù)據(jù)集，同時保留原始數(shù)據(jù)集大小，四種大小的數(shù)據(jù)集分別用tiny、small、standard、full set代表。分別利用隨機刪除、隨機插入、隨機交換以及同義詞替換操作對其原始文本進行增強，同時文本增強百分比從0逐步增加到1。分別利用增強后的數(shù)據(jù)集訓練RNN、CNN模型，通過預測模型的準確性衡量增強效果。最終將增強后的模型表現(xiàn)分別求平均，得出利用EDA技術訓練后的平均模型準確性。多次利用原始數(shù)據(jù)集訓練模型，分別得出其準確性求取平均，得到未經增強操作的模型準確性表現(xiàn)作為基準，與增強后的模型的平均表現(xiàn)對比，最終形成模型準確性數(shù)據(jù)見表1。

表1 EDA增強后模型平均準確性及原始準確性

表1中數(shù)值代表各模型訓練后的準確度，最后一行代表模型的準確度提升的平均值。表中的結果顯示，雖然RNN模型的表現(xiàn)不如CNN模型，但是EDA技術對兩個模型均有一定的提升效果，這種效果相差不大，對RNN模型的提升效果相較而言較好。采用EDA技術，對于所有大小的數(shù)據(jù)集，模型的準確性均有一定的提升，并且隨著數(shù)據(jù)量的增多，模型的提升效果逐漸減小。當數(shù)據(jù)集僅為500條時，EDA技術能夠有效的提高模型的表現(xiàn)，使得準確率平均提升了大約16.6%；當使用所有的數(shù)據(jù)集進行訓練時，模型平均準確率仍有超0.3%的提升。

2.3.2 不同數(shù)據(jù)集大小下增強的性能比較

為了更精準的驗證不同數(shù)據(jù)集大小下增強方法的效果，我們在三個數(shù)據(jù)集上進行隨機抽樣，分別抽取{1,5,10,20,30,40,50,60,70,80,90,100}不同百分比的數(shù)據(jù)子集作為訓練集，訓練了原始模型以及EDA技術增強后訓練所得的模型。對于多次實驗進行結果平均，圖1展示了最終實驗的結果。

圖1 不同大小數(shù)據(jù)集下增強方法性能比較

從圖1可以看出，使用EDA技術和不使用EDA技術訓練所得的模型準確率均出現(xiàn)由低至高的變化趨勢，最后兩者趨近統(tǒng)一，得到大致相同的最高準確性?？傮w而言，使用增強技術能可以盡快到達準確度穩(wěn)定的階段，即僅使用較少的數(shù)據(jù)（20%～30%）進行模型訓練能夠獲得較高的準確度。注意到當采用5%～10%的數(shù)據(jù)的時候，利用原始數(shù)據(jù)訓練模型，模型會在hotel以及fudan數(shù)據(jù)集上出現(xiàn)模型的準確度的大幅“波動”。此現(xiàn)象在利用EDA技術增強后的數(shù)據(jù)集進行模型訓練時并未出現(xiàn)，說明EDA技術能夠增加小數(shù)據(jù)集上的模型表現(xiàn)穩(wěn)定性。

2.3.3 不同增強方式下增強的性能比較

為驗證不同增強方法的提升效果，從三類數(shù)據(jù)集中分別隨機抽取tiny、small、standand和full四個不同數(shù)量集合，選擇{5,10,20,30,40,50}的文本增強百分比，對基于四種增強操作增強后的模型進行了準確性測試。多次訓練模型并且評估模型準確性，進行平均后得到最終實驗結果，如圖2所示。

圖2 不同增強方式性能提高比較

如圖2，實驗結果證明，四種EDA操作都有利于提高模型的性能，同時對于小數(shù)據(jù)集的增強效果最為明顯，均能夠將模型準確率提升30%左右，對于大數(shù)據(jù)集效果較差，平均僅提升1.5%左右。

具體增強操作上，同義詞替換SR操作增強效果較好，提升比例超過35%，隨機插入RI增強效果較差，提升比例僅為25%～30%左右。究其原因，同義詞替換操作在盡可能保留原始句子信息的情況下進行句子改寫，與原句之間的相似度較高；隨機插入操作在句子中引入了外部噪聲，即有可能較大的改變原句的意思，相似距離較大。隨即交換RS以及隨機刪除RD操作的提升比均在30%～35%之間，進行操作后句子的變化不如隨機插入，也對提升模型質量有一定作用。

2.3.4 不同增強句數(shù)的性能比較

每個原始句子所生成的增強句子的個數(shù)即數(shù)據(jù)集擴充的大小對實驗結果也會產生一定的影響。本文采用不同的增強句數(shù)參數(shù)，分別對應{1,2,4,8,16,32}，比較模型的平均性能。利用CNN和RNN模型以及EDA技術進行了實驗，最后結果如圖3所示。

圖3 不同增強數(shù)量的性能比

由圖3可以看出，對于數(shù)據(jù)量較小的模型，EDA增強句數(shù)的大小對結果的影響顯著；對于較大的數(shù)據(jù)集，無論增強句數(shù)參數(shù)大小也無明顯的模型提升作用。所以增強的句數(shù)不是越多越好，但是對于小數(shù)據(jù)集可以適當?shù)脑龆嘣鰪娋渥訑?shù)。不準確的增強數(shù)據(jù)也會對模型表現(xiàn)造成一定的干擾，往往出現(xiàn)應用增強技術之后性能不升反降的情況。

2.3.5 數(shù)據(jù)增強后分類標簽一致性判定

文本數(shù)據(jù)增強后類標簽保持不變是有效增強的必要前提。我們通過增強操作后模型預測的標簽一致性來檢驗EDA操作是否顯著地改變了句子的意義。

首先，不應用EDA技術在原始完整數(shù)據(jù)集上訓練了一個RNN。然后將EDA技術應用于測試集，每個原句生成9個新句子，采用數(shù)據(jù)集介紹中的默認增強操作。這些增強后的句子和原始的句子一起被送入RNN，統(tǒng)計增強后的句子標簽預測情況與原始句子標簽預測情況是否一致，最后以此檢驗增強操作是否會改變句子的原始標簽。

以Hotel數(shù)據(jù)為例，測試集大小為671，增強后的數(shù)據(jù)有6039條。根據(jù)表2可以看出，EDA操作基本不改變增強句子的情感色彩，增強導致標簽更改的樣本的占比僅為1%。

表2 EDA增強標簽一致性統(tǒng)計表

3 EDA技術在中文預訓練模型的應用

Jason Wei等人猜想EDA技術在該類預訓練語言模型上可能不會發(fā)揮作用，甚至出現(xiàn)反作用［1］。本文利用中文Bert預訓練語言模型［12］，結合EDA技術驗證其對于該類模型是否能提升其下游任務的表現(xiàn)。

最終實驗結果如表3和圖4中所示，EDA技術在預訓練語言模型的基礎上仍有其提升空間，能夠有效提升模型最終預測的表現(xiàn)，并且與基本模型對不同的數(shù)據(jù)集的作用規(guī)律基本表現(xiàn)一致。但因數(shù)據(jù)集過小的影響，使用Bert模型的分類效果普遍不及RNN或CNN模型。

表3 EDA技術在預訓練語言模型上的表現(xiàn)

圖4給出了通過對于不同操作在Bert模型上的提升，隨機插入操作與隨機刪除操作對于模型的影響基本一致，同義詞替換操作以及隨機交換操作基本一樣。前兩者主要是在句中加入噪音，后兩者涉及到語言學的部分變換，語言學的變化會導致部分的信息損失。同義詞替換操作以及隨機交換操作在增強比例到達0.2左右就開始下降，0.3時下降到最低點。當增強百分比繼續(xù)增加，損失效果出現(xiàn)抵消，提升比轉為上升趨勢。

圖4 Bert模型上不同增強方式性能提高比較

4 中英文數(shù)據(jù)集的不同對比

中文文本與英文文本特點具有較大的不同，導致EDA技術在中英文數(shù)據(jù)集上的表現(xiàn)有差異也有相似。語言信息熵［13］相關理論指出，中文每個字提供的信息量大于英文數(shù)據(jù)量，字與字之間的關聯(lián)更小，這可能會導致增強技術的效果不同。

如表4所示，不論中英文數(shù)據(jù)，EDA技術針對小數(shù)據(jù)集上訓練的分類模型準確性的提升作用更為明顯；EDA技術在中文數(shù)據(jù)集上的平均應用效果高于英文數(shù)據(jù)集上的效果；當數(shù)據(jù)集大小超過5000條之后，模型的提升作用基本不發(fā)生變化，中英文均趨于平緩。同時，在中文文本中，由于中文文本信息熵較大，應用EDA技術對于原始文本進行改變之后增加、改變或者刪除的信息量較大，模型的泛化效果得到提升，導致在中文文本上的增強作用強于英文文本，最好的增強結果可以達到英文增強效果的十倍。

表4 中英文不同大小數(shù)據(jù)集EDA技術的平均提升度對比

通過上文對于不同增強方式、增強比例以及增強句數(shù)對于模型準確性提升的影響的研究，可以得到中文數(shù)據(jù)集推薦的經驗增強參數(shù)，最終形成表5，其中文數(shù)據(jù)來源于Jason Wei等人的實驗結果［1］，且均以在中文實驗設備上進行了驗證。

表5 中英文推薦增強參數(shù)對比

根據(jù)表5，中英文在不同數(shù)據(jù)量上增強比例與增強句子數(shù)對比，可以發(fā)現(xiàn)中英文數(shù)據(jù)集在小數(shù)據(jù)集上推薦的增強句子數(shù)均較大，之后隨著數(shù)據(jù)集的增大逐漸減小，中文減少的速度更快。

文本增強技術通過改變句子的表述，擴充訓練數(shù)據(jù)集以提高模型訓練的效果，但是為了保證數(shù)據(jù)的真實有效不可過分改變句子的意思，所以本文推薦將句子的增強比控制在0.5之內。根據(jù)上文所述不同增強方式下增強的性能比較實驗中，各增強方式增強效果隨增廣比例的上升均出現(xiàn)一定的上升，同時數(shù)據(jù)增強后分類標簽基本保持一致。所以推薦的中文數(shù)據(jù)集增強比均為效果較好的0.5。

中文文本上下文關聯(lián)性比英文文本小，當增強百分比較小時，增廣后的句子基本與原句保持一致，所含信息熵以及表述方式較為類似，無法較好起到擴充原數(shù)據(jù)集實現(xiàn)數(shù)據(jù)增強的效果，所以中文文本中的推薦增強比較英文數(shù)據(jù)集相比均取值較大。

5 結語

本文的研究結果表明，EDA技術包含的四項基本文本增強技術可以提升中文文本分類模型的準確率，在對文本增強的有效性上，具有中英文的適用性。EDA技術采用不同增強方式的增強效果不盡相同，但平均效果還是比較明顯的。由實驗可知，隨機刪除操作以及近義詞替換操作可能會損失原句的信息，建議搭配隨機交換與隨機插入操作進行信息彌補，以減少句子信息的損失做到有效的增強。

此外，實驗證明EDA技術除了在基本的RNN、CNN語言模型上能夠有效的提升模型的表現(xiàn)，在Bert等預訓練語言模型上也有其用武之地。在數(shù)據(jù)集較大的情況下，Bert模型配合EDA技術能夠有更好的表現(xiàn)與提升效果。