基于語義上下文感知的文本數(shù)據(jù)增強方法研究

2024-09-22 00:00:00張軍況澤李鈺彬

現(xiàn)代電子技術(shù) 2024年17期

摘" 要：在文本分類任務(wù)中，數(shù)據(jù)的質(zhì)量和數(shù)量對分類模型的性能有著重要影響，而在現(xiàn)實場景中獲取大規(guī)模標記數(shù)據(jù)往往是昂貴和困難的。數(shù)據(jù)增強作為一種解決數(shù)據(jù)匱乏問題的低成本方法，已在各種深度學習和機器學習任務(wù)中取得了顯著效果。由于文本語言具有離散性，在語義保留的條件下進行數(shù)據(jù)增強具有一定困難。因此，提出基于語義上下文感知的數(shù)據(jù)增強方法，采用由WordNet 3.0中的詞義定義（Gloss）和預(yù)訓(xùn)練模型BERT進行整合的Gloss選擇模型，進一步識別上下文中目標詞（尤其是多義詞）的實際詞義；然后根據(jù)下一個句子預(yù)測策略，將目標詞的實際詞義與被遮蓋目標詞的句子結(jié)合為一個句子對，使用掩碼語言模型對句子對進行預(yù)測采樣；最后計算語義文本相似度，并在三個基準分類數(shù)據(jù)集上對文中方法進行驗證。實驗結(jié)果表明，提出的方法在語義保留條件下，與選取的基線數(shù)據(jù)增強方法相比，在三個數(shù)據(jù)集的平均準確率指標上都有所提升，證明了文中方法的有效性。

關(guān)鍵詞：人工智能；自然語言處理；文本分類；數(shù)據(jù)增強； Gloss；低資源

中圖分類號： TN919?34； TP391" " " " " " " " " " "文獻標識碼： A" " " " " " " " " " 文章編號： 1004?373X（2024）17?0159?07

Text data augmentation method based on semantic context awareness

ZHANG Jun， KUANG Ze， LI Yubin

（School of Information Engineering， East China University of Technology， Nanchang 330013， China）

Abstract： In text classification tasks， the quality and quantity of data have a significant impact on the performance of classification models. Usually， it is costly and difficult to obtain large?scaled labeled data in real scenarios. Data augmentation （DA）， as a low?cost method to cope with the data desert， has achieved significant results in various deep learning and machine learning tasks. Due to the discrete nature of text language， it is difficult to perform DA in case of semantic preservation. Therefore， a DA method based on semantic context awareness is proposed. The Gloss selection model integrated by the word sense definition （Gloss） in WordNet 3.0 and the pre?training model BERT is employed， so as to identify the actual word senses of the target words （especially polysemous words） in the context. According to the next sentence prediction strategy， the actual word senses of the target words and the sentences of the masked target words are combined into a sentence pair， which are subjected to prediction sampling with a masked language model （MLM）. The semantic text similarity is calculated. The proposed method is validated on three benchmark categorization datasets. The experimental results show that the average accuracy of the proposed method on the three datasets is improved to some extent in case of semantic preservation in comparison with the selected baseline data enhancement methods， which proves the effectiveness of the proposed method.

Keywords： artificial intelligence; natural language processing; text classification; data augmentation; Gloss; low resource

0" 引" 言

數(shù)據(jù)增強（Data Augmentation， DA）是一種廣泛使用的技術(shù)。尤其在低資源條件下，數(shù)據(jù)增強增加了訓(xùn)練數(shù)據(jù)的規(guī)模，這樣不僅可以防止模型過擬合，還能夠提高深度神經(jīng)網(wǎng)絡(luò)的魯棒性。最初，數(shù)據(jù)增強應(yīng)用于計算機視覺領(lǐng)域，并取得顯著成就。隨著該領(lǐng)域的技術(shù)進步，數(shù)據(jù)增強的應(yīng)用范圍逐漸擴展到其他領(lǐng)域，包括自然語言處理（Natural Language Processing， NLP）、語音識別、自動駕駛等。

在自然語言處理領(lǐng)域，研究人員提出了多種數(shù)據(jù)增強的方法。如文獻[1]提出的簡單數(shù)據(jù)增強方法（Easy Data Augmentation， EDA）對原句進行隨機替換、交換、插入和刪除操作實現(xiàn)增強數(shù)據(jù)的多樣性。為了避免引入過多噪聲，文獻[2]提出了一種更簡單的數(shù)據(jù)增強方法（An Easier Data Augmentation， AEDA），將隨機插入token改為隨機插入標點符號，在一定程度上緩解了噪聲引起的語義偏差問題。然而，隨機插入標點符號是不確定性的，錯誤的斷句可能會改變原句所表達的意思，語義保留無法得到有效控制。

在處理復(fù)雜語義時，保持上下文語義一致是數(shù)據(jù)增強最基本的要求，數(shù)據(jù)生成的語義一致性對目標任務(wù)至關(guān)重要[3]。針對這個問題，文獻[4]提出了上下文增強的方法，通過長短期記憶（Long Short?Term Memory， LSTM）[5]網(wǎng)絡(luò)語言模型預(yù)測替換單詞的概率分布，并根據(jù)概率分布對替換詞進行采樣。由于技術(shù)的不斷發(fā)展，保持上下文語義一致的數(shù)據(jù)增強方法大多使用基于Transformer的預(yù)訓(xùn)練模型（Bidirectional Encoder Representations from Transformer， BERT）[6]。然而，在預(yù)訓(xùn)練過程中，某些token在類似上下文中出現(xiàn)的頻率高于其他token，這將導(dǎo)致模型對這些token產(chǎn)生偏好，易背離原始標簽分類。對此，文獻[7]提出了CBERT模型，通過訓(xùn)練標簽嵌入約束掩碼語言模型（Masked Language Model， MLM），以更有效地預(yù)測標簽兼容的token。然而，CBERT的調(diào)整策略是專為BERT架構(gòu)設(shè)計的，特別是其對片段嵌入的重復(fù)使用，使其不易直接應(yīng)用于其他預(yù)訓(xùn)練語言模型。

一般來說，語義一致性和標簽一致性的目標是共存的，但是預(yù)訓(xùn)練模型所預(yù)測的結(jié)果可能導(dǎo)致語義發(fā)生變化。因此，生成數(shù)據(jù)時需同時考慮標簽一致性與語義一致性。本文提出了基于語義上下文感知的數(shù)據(jù)增強方法（Semantic?Context?Aware， SCA），在文本數(shù)據(jù)增強領(lǐng)域引入Gloss進行數(shù)據(jù)增強。Gloss的作用在于提供詞義的直觀理解或描述，能夠準確把握一個詞或短語的含義。在上下文增強時，與傳統(tǒng)的MLM預(yù)測不同，SCA利用目標詞在上下文所表示的Gloss和被遮蓋目標詞的句子組成一個句子對，再通過MLM預(yù)測與目標詞詞義相近的單詞。這樣可以保證替換單詞在上下文的語義一致性，并且該方法不需要引入標簽嵌入，就能夠很好地控制生成樣本不偏離原本的標簽。

1" 語義上下文感知數(shù)據(jù)增強方法

為了確保文本增強過程中生成的替代詞在語義上與原詞接近并適應(yīng)其語境，本文提出了一個基于語義上下文感知的數(shù)據(jù)增強方法，如圖1所示。

該方法在句子中選擇合適的目標詞，首先針對目標詞采用Gloss選擇模型[8]選擇符合上下文的詞義定義，然后結(jié)合MLM預(yù)測候選替代詞的概率分布，并通過概率分布對候選替換詞進行采樣，最后利用語義文本相似度過濾不適合的替代詞。

1.1" 目標詞選擇

給定樣本[S={w1，w2，…，wn}]，[S]表示文本序列，[wi]表示文本中第[i{1≤i≤n}]個單詞。由于語言的多樣性和復(fù)雜性，許多單詞在不同的情境下有不同的含義。在選擇目標詞之前，配合使用停用詞表，遍歷樣本[S]中的所有單詞，保留詞性為名詞、動詞、形容詞和副詞的單詞，并去掉其他詞性的單詞。隨后檢查樣本[S]中的[wi]是否含有WordNet 3.0[9]中所提供該單詞的Glosses信息（如表1所示），如果樣本中所有單詞均不含有Glosses信息，則不采取任何操作；相反，如果樣本中存在多個帶有Glosses信息的單詞，將采用隨機選擇的方式來確定目標詞[Wtarget]。

1.2" Gloss選擇

為了精確地揭示[Wtarget]在上下文的含義，本文采用了一種基于Context?Gloss Pair訓(xùn)練的模型，即文獻[8]提出的一種基于BERT預(yù)訓(xùn)練的Gloss選擇模型，它在WSD（Word Sense Disambiguation）任務(wù)上展現(xiàn)出了卓越的表現(xiàn)。該模型將SemCor語料庫中的注釋句子和 WordNet 3.0 中的Gloss結(jié)合起來，構(gòu)建了正向和負向上下文詞匯對。正向詞匯對包含一個代表目標詞正確意義的詞匯，而反向詞匯對則包含一個否定的候選詞匯。通過在[Wtarget]前后標注兩個“[TGT]”特殊符號，將具有相同上下文和目標詞的上下文?詞匯對組合為一個訓(xùn)練實例，計算對應(yīng)的相關(guān)性得分，并通過Softmax層將同一組的相關(guān)性得分歸一化。此處使用交叉熵作為損失函數(shù)：

[L=-1Ni=1Nj=1mil（si， j）log（pij）] （1）

式中：[N]是批量大??；[mi]是第[i]個訓(xùn)練實例的候選詞匯的數(shù)量；[l（si， j）]是索引[j]與正向上下文詞匯對[si]的索引相同時的二進制指示符；[pij]是第[i]個訓(xùn)練實例的第[j]個候選詞義的概率。[pij]的計算公式如下：

[pij=expScore（contexti， Glossij）k=1niexpScore（contexti， Glossik）] （2）

式中[Score（contexti， Glossij）]表示上下文?詞匯對相關(guān)性得分。

針對每個[Wtarget]，Gloss選擇模型以句子的上下文信息為依托，計算出Glosses與上下文的相關(guān)概率，如表2所示。在這一過程中，得分最高的Gloss被視為與[Wtarget]在當前上下文中的含義最為吻合的解釋。

1.3" 目標詞的候選替換詞預(yù)測

為了預(yù)測出最合適的替換詞，傳統(tǒng)語言模型是根據(jù)歷史信息預(yù)測序列中下一個單詞，但是傳統(tǒng)語言模型難以理解上下文中的復(fù)雜關(guān)系。BERT是一種用于預(yù)訓(xùn)練深度Transformer編碼器的自監(jiān)督方法，利用Transformer的雙向注意力機制學習單詞的上下文表示，這使得它可以同時考慮每個單詞左右兩側(cè)的上下文信息，從而捕捉更豐富的語言特征。受文獻[10]啟發(fā)，本文采用了一種NSP策略（如圖2所示）作為MLM預(yù)測輸入。由于得到目標詞的Gloss是文本序列，因此將它作為輸入的第一個句子，被遮蓋目標詞的句子作為輸入的第二個句子，將兩個句子結(jié)合成為一個句子對，最終通過MLM預(yù)測候選替換詞的概率分布，并對候選替換詞進行采樣。

在數(shù)據(jù)預(yù)處理階段，由于原有基于WordPiece的分詞方式會把一個完整的詞切分成若干個子詞，因此這些被分開的子詞在訓(xùn)練過程中會被隨機遮蓋，但是這不利于完整單詞的預(yù)測。因此，本文使用了BERT的變體模型BERT?Large?Uncased（Whole Word Masking）[6]。該模型中，如果一個完整詞的部分WordPiece子詞被遮蓋，則同屬該詞的其他部分也會被遮蓋，可有效提升BERT遮蓋部分WordPiece分詞的性能。

1.4" 語義文本相似度計算（STS）

采樣后的候選詞[C={c1，c2，…，cn}]，[C]表示候選詞替換詞集合，[n]表示候選替換詞的數(shù)量（[n]=10），這里[n]的取值是根據(jù)大量實驗決定的。為了衡量候選詞[C]和[Wtarget]在同一上下文中的語義相似度，本文采用文獻[11]提出的Sentence?BERT（簡稱SBERT）框架，結(jié)合預(yù)訓(xùn)練模型all?MiniLM?L6?v2生成句子嵌入，然后計算句子嵌入之間的余弦相似度，以此來衡量文本之間的語義相似度。all?MiniLM?L6?v2是一個輕量級的模型，它提供了一個小而快的解決方案，而SBERT則提供了一個針對句子嵌入優(yōu)化的結(jié)構(gòu)。結(jié)合兩者可以在保持快速響應(yīng)的同時，提升語義理解的精度。

對于每一對句子，都是由原始句子SentenceA與帶有候選詞[C]的句子SentenceB組成。SentenceA和SentenceB的句子嵌入[wA]和[wB]的具體實現(xiàn)如式（3）和式（4）所示：

[wA=mean_pooling（model（SentenceA））] （3）

[wB=mean_pooling（model（SentenceB））] （4）

式中：model表示使用的all?MiniLM?L6?v2模型；mean_pooling表示平均池化操作。

得到句子對的嵌入后，利用式（5）進行余弦相似度計算，余弦相似度是常用的計算語義文本相似度的方法。向量余弦相似度為1，表示兩個句子在語義上相似；為-1則表示兩個句子在語義上不相似。

[cosin_sim（wA，wB）=wA?wBwA×wB=i=1n（wA）i×（wB）ii=1n（wA）2i×i=1n（wB）2i] （5）

通過對比原始句子與候選句子之間的余弦相似度，確定與原始句子最為相似的候選句子，最終將與原始句子最相似的候選句子作為最終的增強樣本。

2" 實驗與分析

為了驗證SCA數(shù)據(jù)增強方法的有效性，本文設(shè)計了多組對比實驗，并對相關(guān)實驗結(jié)果進行了分析。

2.1" 數(shù)據(jù)集

本文使用了如下三個文本分類數(shù)據(jù)集。

1） SST?2（斯坦福情感樹庫）[12]。它是一個用于電影評論情感分類的數(shù)據(jù)集，包含兩個標簽（正面情感和負面情感）。

2） TREC[13]是一個細粒度問題分類數(shù)據(jù)集。它包含六種問題類型（Description， Entity， Human， Abbreviation， Location， Numeric）。

3） SNIPS（自然語言理解基準）[14]數(shù)據(jù)集是一個包含16 000 多個眾包查詢的數(shù)據(jù)集，分布在7個不同復(fù)雜度的用戶意圖中（SearchCreativeWork， GetWeather， BookRestaurant， PlayMusic， AddToPlaylist， RateBook， SearchScreeningEvent），訓(xùn)練集包含13 084個話語，驗證集和測試集各包含700個話語，每個意圖有100個查詢。

2.2" 實驗設(shè)置

本文在訓(xùn)練集和驗證集的每次實驗，對每類隨機抽取10個示例以模擬低資源條件下的文本分類。為了評估數(shù)據(jù)增強方法，將生成的示例添加到每個任務(wù)在低資源條件下的訓(xùn)練數(shù)據(jù)中，并在完整測試集上評估其性能。為了避免隨機性帶來的誤差，本文在不同基線方法下的對比實驗中使用相同的數(shù)據(jù)集，并且所有實驗均重復(fù)15次。通過多次實驗，可以減少這些誤差的影響，并通過統(tǒng)計分析獲得更準確的實驗數(shù)據(jù)。實驗結(jié)果按照完整測試集上的平均（STD）準確率為準。

在微調(diào)MLM階段，設(shè)置批次大小為16，學習率為4×10-5，迭代次數(shù)為10，樣本最大長度為128。

在微調(diào)分類器階段，由于BERT已經(jīng)在大量數(shù)據(jù)上進行了預(yù)訓(xùn)練，并且在分類任務(wù)上取得了先進的性能，因此，本文選擇BERT模型中的“BERT?Base?Uncased”作為分類器，采用自適應(yīng)矩估計（Adaptive Moment Estimation， Adam）[15]算法進行優(yōu)化。設(shè)置批次大小為16，學習率為4×10-5，樣本最大長度為64，對訓(xùn)練數(shù)據(jù)集進行30次迭代訓(xùn)練，并在驗證集上選擇最好的模型進行評估。

本文實驗環(huán)境選用NVIDIA RTX A5000 顯卡（顯存24 GB）作為算力加速部件，操作系統(tǒng)為Ubuntu 18.04.5 LTS，編程語言為Python 3.8.10。

2.3" 對比方法

EDA[1]是一種被廣泛使用的文本數(shù)據(jù)增強方法，包含四個簡單的操作：同義詞替換、隨機插入、隨機交換和隨機刪除。

AEDA[2]是一種更簡單的數(shù)據(jù)增強方法，在句子中隨機插入標點符號實現(xiàn)數(shù)據(jù)增強。

反向翻譯[16]使用了文獻[17]預(yù)先訓(xùn)練好的EN?DE模型將初始樣本翻譯為另一種語言，再使用DE?EN模型將樣本翻譯為原來的語言。

CBERT[7]通過上下文和句子標簽來預(yù)測一個標簽兼容的單詞，在不破壞標簽兼容性的情況下實現(xiàn)增強數(shù)據(jù)。

GPT2context[18]將標簽和句子拼接成一個訓(xùn)練數(shù)據(jù)集：[y1]SEP[x1]EOS[y2]…[yn]SEP[xn]EOS。SEP表示類標簽和句子之間的分隔標記，EOS表示句子的結(jié)尾。通過添加[yi]SEP[w1…wk]作為生成數(shù)據(jù)的提示，持續(xù)生成數(shù)據(jù)，直到生成EOS標記。其中[w1，w2，…，wk]是序列[xi]的前[k]個字。

BERTexpand[18]通過在給定類別的所有示例中預(yù)置類別標簽來限制BERT。它是將類標簽加入到模型的詞匯表中。

BERTprepend[18]與BERTexpand類似，但是它不將類標簽加入到模型詞匯表中。

2.4" 實驗結(jié)果與分析

如表3所示，本文在低資源環(huán)境下，對比了不同數(shù)據(jù)增強方法在不同數(shù)據(jù)集中的分類準確率。

為了更加直觀地呈現(xiàn)和比較各種方法的性能，本文根據(jù)表3的數(shù)據(jù)繪制了一個點線圖（見圖3），該圖展示了不同數(shù)據(jù)增強方法在三個數(shù)據(jù)集上相對于基線BERT模型（未使用數(shù)據(jù)增強，記為No DA）的準確率差異。這種方式能夠清晰地觀察各方法在不同數(shù)據(jù)集上的表現(xiàn)差異。

從圖3中可以觀察到，各個方法在不同數(shù)據(jù)集上表現(xiàn)出了不同程度的效果。在TREC數(shù)據(jù)集上，本文的方法展現(xiàn)出了最顯著的性能提升。相比于基線BERT模型，準確率提高了1.57%。盡管在SST?2和SNIPS這兩個數(shù)據(jù)集上，本文方法也實現(xiàn)了準確率的提升，但提升幅度并非最大，這可能是因為數(shù)據(jù)結(jié)構(gòu)的差異。通過觀察，SNIPS中大部分句子不能作為一個獨立的句子，因為它沒有明確的主謂賓結(jié)構(gòu)，這使得句子的意思不完整，Gloss選擇模型很難判斷目標詞的真實含義。SST?2包含較少的不完整句子，達到最次結(jié)果的原因可能和SNIPS類似。 TREC是一個問題類型的數(shù)據(jù)集，具有完整的句子結(jié)構(gòu)，并且達到了最優(yōu)結(jié)果。以上分析說明，句子完整結(jié)構(gòu)可能會影響模型的性能。然而本文方法的特點就是引入Gloss獲取目標詞在上下文的真實語義，這極大地依賴句子結(jié)構(gòu)的完整性。

本文對比了不同增強方法在三個數(shù)據(jù)集的整體表現(xiàn)，并根據(jù)表3繪制了不同方法在三個數(shù)據(jù)集上的平均準確率散點圖，如圖4所示。可以發(fā)現(xiàn)，在本研究中，所提出的數(shù)據(jù)增強方法相比于各種現(xiàn)有技術(shù)，在平均準確率方面取得了顯著的提升。具體來看，與未使用數(shù)據(jù)增強的BERT（No DA）模型相比，本文方法將準確率提高了1.704 1%。進一步比較EDA及AEDA這兩種簡單但普遍應(yīng)用的增強策略，本文方法分別取得了0.514 9%和0.512 1%的準確率提升。當與BackTrans和CBERT增強技術(shù)對比時，本文方法同樣表現(xiàn)優(yōu)異，平均準確率分別提升了1.055 2%和0.790 9%。與GPT2context、BERTexpand和BERTprepend相比，本文方法的平均準確率分別提升3.144 5%、1.434 8%和1.336 2%。上述實驗結(jié)果表明，本文方法在提升模型準確率方面表現(xiàn)良好。

2.5" 消融實驗

本文研究了STS對模型性能的影響，分別在3個數(shù)據(jù)集上進行了消融實驗，實驗結(jié)果如表4所示。

由表4可以發(fā)現(xiàn)，在刪除STS后，本文模型在三個數(shù)據(jù)集上的準確率均有下降。這表明STS對候選替換詞進行篩選時，有效選擇了符合語義上下文的替換詞，這對分類模型性能的提升有著至關(guān)重要的影響。

3" 結(jié)" 語

在低資源條件下，為了提高模型的分類性能，本文提出了基于語義上下文感知的數(shù)據(jù)增強方法。該方法通過引入目標詞的Gloss信息作為替換詞的基礎(chǔ)詞義，再結(jié)合被遮蓋目標詞的句子形成一個能夠被BERT模型識別的句子對。這樣模型能夠根據(jù)Gloss信息和原句的上下文來預(yù)測單詞，保證了上下文語義一致性和數(shù)據(jù)的多樣性。結(jié)果表明，本文提出的方法在整體上是有效的。

在未來的工作中，將針對特定的任務(wù)或者模型進一步優(yōu)化，提高模型在各個數(shù)據(jù)集上的分類性能。

注：本文通訊作者為況澤。

參考文獻

[1] WEI J W， ZOU K. EDA： Easy data augmentation techniques for boosting performance on text classification tasks [C]// Procee?dings of the 2019 Conference on Empirical Methods in Natural Language Processing and the 9th International Joint Conference on Natural Language Processing. New York： ACM， 2019： 6381?6387.

[2] KARIMI A， ROSSI L， PRATI A. AEDA： An easier data augmentation technique for text classification [C]// Findings of the Association for Computational Linguistics. [S.l.]： ACL， 2021： 2748?2754.

[3] ASH J T， ZHANG C C， KRISHNAMURTHY A， et al. Deep batch active learning by diverse， uncertain gradient lower bounds [EB/OL]. [2020?05?07]. https：//openreview.net/forum？id=ryghZJBKPS.

[4] KOBAYASHI S. Contextual augmentation： Data augmentation by words with paradigmatic relations [C]// Proceedings of the 2018 Conference of the North American Chapter of the Association for Computational Linguistics： Human Language Technologies. [S.l.]： ACL， 2018： 452?457.

[5] HOCHREITER S， SCHMIDHUBER J. Long short?term memory [J]. Neural computation， 1997， 9（8）： 1735?1780.

[6] DEVLIN J， CHANG M W， LEE K， et al. BERT： Pre?training of deep bidirectional transformers for language understanding [EB/OL]. [2018?10?30]. http：//arxiv.org/abs/1810.04805.

[7] WU X， Lü S W， ZANG L J， et al. Conditional BERT contextual augmentation [C]// Proceedings of 19th International Conference on Computational Science. Heidelberg： Springer， 2019： 84?95.

[8] YAP B P， KOH A， CHNG E S. Adapting BERT for word sense disambiguation with gloss selection objective and example sentences [C]// Findings of the Association for Computational Linguistics. [S.l.]： ACL， 2020： 41?46.

[9] MILLER G A. WordNet： A lexical database for English [J]. Communications of the ACM， 1995， 38（11）： 39?41.

[10] QIANG J P， LI Y， ZHU Y， et al. LSBert： A simple framework for lexical simplification [EB/OL]. [2021?10?28]. https：//arxiv.org/abs/2006.14939.

[11] REIMERS N， GUREVYCH I. Sentence?BERT： Sentence embeddings using Siamese BERT?networks [C]// Proceedings of the 2019 Conference on Empirical Methods in Natural Language. [S.l.]： ACL， 2019： 3980?3990.

[12] PANG B， LEE L. Seeing stars： Exploiting class relationships for sentiment categorization with respect to rating scales [C]// Proceedings of the Conference on 43rd Annual Meeting of the Association for Computational Linguistics. [S.l.]： ACL， 2005： 115?124.

[13] LI X， ROTH D. Learning question classifiers [EB/OL]. [2021?08?06]. https：//aclanthology.org/C02?1150/.

[14] COUCKE A， SAADE A， BALL A， et al. Snips voice platform： An embedded spoken language understanding system for private?by?design voice interfaces [EB/OL]. [2018?08?13]. http：//arxiv.org/abs/1805.10190.

[15] KINGMA D P， BA J. Adam： A method for stochastic optimization [EB/OL]. [2019?07?25]. http：//arxiv.org/abs/1412.6980.

[16] SHLEIFER S. Low resource text classification with ULMFit and backtranslation [EB/OL]. [2019?04?01]. http：//arxiv.org/abs/1903.09244.

[17] NG N， YEE K， BAEVSKI A， et al. Facebook FAIR′s WMT19 news translation task submission [C]// Proceedings of the Fourth Conference on Machine Translation. [S.l.]： ACL， 2019： 314?319.

[18] KUMAR V， CHOUDHARY A， CHO E. Data augmentation using pre?trained transformer models [EB/OL]. [2020?05?10]. https：//arxiv.org/abs/2003.02245.

[19] PELLICER L F A O， FERREIRA T M， COSTA A H R. Data augmentation techniques in natural language processing [J]. Applied soft computing， 2023， 132： 109803.

99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

基于語義上下文感知的文本數(shù)據(jù)增強方法研究