方子卿 陳一飛
摘要:短文本的表示方法和特征提取方法是自然語言處理基礎(chǔ)研究的一個(gè)重要方向,具有廣泛的應(yīng)用價(jià)值。本文提出了BERT_BLSTM_TCNN模型,該神經(jīng)網(wǎng)絡(luò)模型利用BERT的遷移學(xué)習(xí),并在詞向量編碼階段引入對(duì)抗訓(xùn)練方法,訓(xùn)練出包括句的語義和結(jié)構(gòu)特征的且泛化性能更優(yōu)的句特征,并將這些特征輸入BLSTM_TCNN層中進(jìn)行特征抽取以完成對(duì)短文本的語義層面上的相似判定。在相關(guān)數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果表明:與最先進(jìn)的預(yù)訓(xùn)練模型相比,該模型在有著不錯(cuò)的判定準(zhǔn)確率的同時(shí)還有參數(shù)量小易于訓(xùn)練的優(yōu)點(diǎn)。
關(guān)鍵詞:詞向量模型;自然語言處理;短文本相似度;卷積神經(jīng)網(wǎng)絡(luò);循環(huán)神經(jīng)網(wǎng)絡(luò)
Abstract: Short text representation methods and feature extraction methods are an important direction of basic research in natural language processing, and have a wide range of applications. This paper proposes the BERT_BLSTM_TCNN model. The neural network model uses BERT's transfer learning and introduces an adversarial training method in the word vector encoding stage to train sentence features that include the semantic and structural features of the sentence and have better generalization performance, and combine these The feature is input into the BLSTM_TCNN layer for feature extraction to complete the similarity determination on the semantic level of the short text. The experimental results on the relevant data set show that: compared with the most advanced pre-training model, this model has a good judgment accuracy rate and also has the advantages of small parameters and easy training.
Key words: word embedding model; natural language processing; short text similarity; convolutional neural networks; recurrent neural networks
近些年來隨著個(gè)人計(jì)算機(jī)的普及和各種網(wǎng)絡(luò)信息技術(shù)的快速進(jìn)步,數(shù)字化的文本數(shù)量也隨之呈現(xiàn)爆炸式的增長(zhǎng)。其中很大一部分是短文本,如微信、微博等社交網(wǎng)絡(luò)上的信息和博文、京東、淘寶等網(wǎng)絡(luò)商城上關(guān)于出售商品的評(píng)價(jià)、電子政務(wù)平臺(tái)里的群眾意見反饋等。雖然數(shù)據(jù)量的激增對(duì)現(xiàn)行的信息處理系統(tǒng)是一種挑戰(zhàn),但大數(shù)據(jù)的出現(xiàn)也使得新方法的研究成為可能。如何將這些語料資源進(jìn)行篩選分類,使之成為有用的、真正有價(jià)值的素材,成為最需要解決的核心問題。文本的相似度判定是自然語言處理領(lǐng)域中的一個(gè)基礎(chǔ)任務(wù),研究準(zhǔn)確快速的相似度判定方法對(duì)信息的初步篩選分類和更進(jìn)一步的處理都有重大意義。
文本相似度判定可以被看成是一種特殊的文本分類任務(wù),即一個(gè)二分類(相似或者不相似)問題。近幾年的機(jī)器學(xué)習(xí)尤其是深度學(xué)習(xí)快速發(fā)展也使得其成為研究文本分類的一個(gè)熱門方向。目前深度學(xué)習(xí)中主流的神經(jīng)網(wǎng)絡(luò)模型結(jié)構(gòu)有卷積神經(jīng)網(wǎng)絡(luò)(CNN)和循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)兩種。卷積神經(jīng)網(wǎng)絡(luò)在提取特征方面具有不錯(cuò)的效果并首先在圖像領(lǐng)域取得突破,然后逐步應(yīng)用于文本領(lǐng)域。Kim Y[1]首次將卷積神經(jīng)網(wǎng)絡(luò)應(yīng)用于句子分類任務(wù)的模型設(shè)計(jì)中,并通過一系列實(shí)驗(yàn)證明了方法的有效性。Lei等[2]為了使CNN更好地適應(yīng)文本處理,在標(biāo)準(zhǔn)卷積層基礎(chǔ)上進(jìn)行非線性化改造。Wang等[3]利用聚類算法進(jìn)行語義擴(kuò)展,再通過CNN進(jìn)行分類。Joulin等[4]將訓(xùn)練好的詞向量進(jìn)行加權(quán)求和形成可以良好表示句子的句向量。循環(huán)神經(jīng)網(wǎng)絡(luò)能夠很好地處理任意長(zhǎng)度的序列并捕獲上下文信息,LSTM(長(zhǎng)短期記憶網(wǎng)絡(luò))是循環(huán)神經(jīng)網(wǎng)絡(luò)的一種改進(jìn)模型,其具有能夠存儲(chǔ)上下文信息的特點(diǎn)。Arevian[5]在實(shí)際文本分類任務(wù)中應(yīng)用了循環(huán)神經(jīng)網(wǎng)絡(luò)。Yang Z等[6]在LSTM的基礎(chǔ)上通過引入了注意力機(jī)制進(jìn)行改進(jìn)并在文本分類任務(wù)上獲得了不錯(cuò)的效果。Tang等[7]在處理情感分類任務(wù)時(shí)結(jié)合使用了卷積神經(jīng)網(wǎng)絡(luò)和門控神經(jīng)網(wǎng)絡(luò)來進(jìn)行文本表示。Zhou等[8]使用卷積神經(jīng)網(wǎng)絡(luò)對(duì)向量化的詞語進(jìn)特征抽取后輸入長(zhǎng)短時(shí)記憶網(wǎng)絡(luò)形成句子的表示。Lai等[9]在使用RNN構(gòu)建文本表示后直接進(jìn)行最大池化操作以獲取最有效的分類信息。上述研究表明CNN與RNN(尤其是LSTM等改進(jìn)模型)已經(jīng)在文本分類領(lǐng)域取得一定的進(jìn)展,利用深度學(xué)習(xí)的方法構(gòu)建模型表示文本和文本相似度判定,已經(jīng)被證明可以獲得了良好的效果。
如何將短文本的信息更加有效的表示是進(jìn)行相似句對(duì)判定的基礎(chǔ)?;诮y(tǒng)計(jì)學(xué)知識(shí)的文本表示模型等模型雖然簡(jiǎn)單有效,但是在處理短文本時(shí)由于本身的維度過高和數(shù)據(jù)稀疏的問題使得其無法更進(jìn)一步提升。2013年,Mikolov等[10]人提出了基于word embedding(即詞嵌入方法)的word2vec模型。相比于其他文本表示方法word2vec不僅可以從根本上解決了“維度災(zāi)難”問題,訓(xùn)練獲得的向量還能夠在語義層面上體現(xiàn)詞間的關(guān)系 [11]。用這種方法訓(xùn)練出來的詞向量,能從根本上來提升文本分類任務(wù)的效果。ELMo[12]和BERT[13]兩種最新的詞向量模型在2018相繼被提出。尤其是后者,剛一問世就在多個(gè)自然語言處理任務(wù)上取得了突破。目前,BERT預(yù)訓(xùn)練模型由于其靈活的訓(xùn)練方式和不錯(cuò)效果,在許多任務(wù)中被深入的研究和應(yīng)用。因此,在一系列BERT預(yù)訓(xùn)練模型中選用小參數(shù)量的BERT-base作為模型的向量編碼層,采用了遷移學(xué)習(xí)中fine-tune(微調(diào))的方法來調(diào)整預(yù)訓(xùn)練模型,使得訓(xùn)練出來的模型可以更好地適應(yīng)金融領(lǐng)域的短文本相似句對(duì)判定任務(wù)。
1 BERT_BLSTM_TCNN模型
基于BERT預(yù)訓(xùn)練模型提出了BERT_BLSTM_TCNN模型,該模型主要由詞嵌入階段的BERT-base層和用于特征抽取的BLSTM_TCNN層兩大部分組成。將文本預(yù)處理后的相似句對(duì),對(duì)輸入BERT-base層。在詞嵌入階段利用BERT-base預(yù)訓(xùn)練模型并引入對(duì)抗訓(xùn)練的FGM(快速梯度方法)訓(xùn)練相似句對(duì)進(jìn)行詞向量編碼,再將訓(xùn)練好的[CLS]向量輸入進(jìn)入BLSTM_TCNN層,該階段主要對(duì)其進(jìn)行特征抽取,過濾掉對(duì)相似度判定任務(wù)沒有幫助的特征,使得效果相比于直接利用BERT-base模型連接全連接層(Dense層),在相似句對(duì)判定表現(xiàn)上有所提高。BERT_BLSTM_TCNN模型結(jié)構(gòu)如圖1所示。
1.1文本預(yù)處理
文本預(yù)處理是進(jìn)行詞嵌入之前的重要步驟,對(duì)詞嵌入生成的向量有較大的影響。中文文本與拉丁語系文本不同的是,中文文本中既沒有空格作為天然分詞符號(hào),同時(shí)也存在大量的單字成詞現(xiàn)象。所以使用分詞的方式處理中文短文本雖然可行,但是由于中文詞語數(shù)量巨大,如果對(duì)其進(jìn)行向量化則需要大量相關(guān)語料,同時(shí)也容易導(dǎo)致維度災(zāi)難。對(duì)于中文短文本來說,基于字的編碼方式直接利用BERT遷移學(xué)習(xí)進(jìn)行向量化已經(jīng)被實(shí)踐證明是十分有效的。
經(jīng)過對(duì)數(shù)據(jù)集的分析,實(shí)驗(yàn)所用數(shù)據(jù)集較為干凈且由于大多數(shù)句子為問句,所以在句尾一般包含更多的有效信息。因此在數(shù)據(jù)預(yù)處理階段,主要工作是對(duì)數(shù)據(jù)集中的長(zhǎng)句進(jìn)行處理。因?yàn)殚L(zhǎng)句包含的信息干擾較多,這給其核心含義的提取增加了難度,所以對(duì)于一些長(zhǎng)句需要進(jìn)行截?cái)嗖僮鱽硐拗破溟L(zhǎng)度從而達(dá)到消除干擾的目的,提高文本表示的效率。
1.2 BERT-base層
將預(yù)處理后的相似句對(duì)進(jìn)行拼接,在拼接時(shí)在首位添加[CLS]向量和兩句之間增加[SEP]向量,并進(jìn)行相應(yīng)的初始化后輸入BERT預(yù)訓(xùn)練模型。BERT采用了Transformer進(jìn)行編碼,預(yù)測(cè)詞或者字的時(shí)候通過在訓(xùn)練中引入了Self-attention(自注意力)機(jī)制 [14]雙向綜合的考慮了上下文特征,這樣可以使訓(xùn)練出的句向量更加準(zhǔn)確的獲得語義層面的信息(Token embeddings)。同時(shí)BERT還通過判斷給定的兩個(gè)句子是否是連續(xù)的方式捕捉句子級(jí)別的特征(Segment Embeddings)。此外BERT還通過對(duì)句中每個(gè)字符獨(dú)立編碼的設(shè)計(jì),在訓(xùn)練后可以獲得字符間相對(duì)位置的信息(Position embeddings)。最后得到的句向量為Token embeddings(包含詞或者字的信息)、Segment Embeddings(包含句子和句間信息)和Position embeddings(包含位置信息)三者相加的結(jié)果。該向量可以直接作為相似句對(duì)的表示輸入后續(xù)的BLSTM_TCNN層完成特征提取。
1.3 對(duì)抗學(xué)習(xí)生成對(duì)抗樣本
對(duì)抗訓(xùn)練是通過正則化的手段增強(qiáng)模型的抗干擾能力的一種訓(xùn)練技巧,目前已經(jīng)有多種算法可以實(shí)現(xiàn)。其目的是通過對(duì)攻擊樣本的構(gòu)造,讓模型在不同的攻擊樣本中訓(xùn)練得到較強(qiáng)的識(shí)別性。選擇在Token embeddings階段引入Fast Gradient Method(快速梯度方法,F(xiàn)GM)[15]技術(shù)來生成對(duì)抗樣本并加入訓(xùn)練集中一同訓(xùn)練,使得訓(xùn)練得到的模型擁有識(shí)別對(duì)抗樣本的能力,其增加的擾動(dòng)為:
通過在訓(xùn)練中添加擾動(dòng)生成對(duì)抗樣本并輸入,可以幫助優(yōu)化模型參數(shù)來提高魯棒性,從而實(shí)現(xiàn)對(duì)干擾的防御。實(shí)驗(yàn)結(jié)果顯示,在Token embedding階段進(jìn)行對(duì)抗擾動(dòng)能有效提高模型的性能。
1.3 BLSTM_TCNN層
長(zhǎng)短時(shí)記憶網(wǎng)絡(luò)(LSTM)是一種特殊的RNN,其既保持了傳統(tǒng)RNN能夠接受任意長(zhǎng)度序列的輸入,又規(guī)避了傳統(tǒng)RNN存在的梯度消失和梯度爆炸的缺陷。雙向長(zhǎng)短時(shí)記憶網(wǎng)絡(luò)(BLSTM)則在原有基礎(chǔ)上加強(qiáng)了上下文的關(guān)聯(lián)性,實(shí)際應(yīng)用中證明有著更好的效果。利用卷積神經(jīng)網(wǎng)絡(luò)(CNN)進(jìn)行卷積和池化操作來提取對(duì)文本相似度判定任務(wù)有用的特征,來提高準(zhǔn)確率。通過對(duì)BLSTM_TCNN設(shè)計(jì)和構(gòu)建,在使用BERT-base預(yù)訓(xùn)練模型進(jìn)行文本表示后將BLSTM與CNN相結(jié)合進(jìn)行特征抽取,使之更好地適應(yīng)短文本相似句對(duì)判定任務(wù)。
BLSTM_TCNN模型主要由兩大部分組成:雙向長(zhǎng)短時(shí)記憶網(wǎng)絡(luò)(BLSTM)和文本卷積神經(jīng)網(wǎng)絡(luò)(TCNN)。其中,BLSTM 層捕捉輸入的句向量中可能相關(guān)的上下文信息,TCNN層用于篩選和提取對(duì)相似判定有效的特征。
1.3.1 BLSTM
前向LSTM和后向LSTM分別捕捉輸入序列的上下文信息,二者之間沒有信息交換,僅在輸出時(shí)將二者進(jìn)行拼接,形成最終的輸出。其對(duì)應(yīng)轉(zhuǎn)換函數(shù)公式如下:
1.3.2 TCNN層
卷積神經(jīng)網(wǎng)絡(luò)最先應(yīng)用于計(jì)算機(jī)視覺領(lǐng)域,其優(yōu)點(diǎn)是可以很好地提取對(duì)象的局部特征,比如相同的一個(gè)物體,雖然可能周邊環(huán)境發(fā)生改變但是物體本身的特征沒有發(fā)生改變,可以通過這個(gè)特點(diǎn)識(shí)別出物體 [18]。輸入的文本信息經(jīng)過前述BERT-base層和BLSTM層后,已經(jīng)有相當(dāng)多的信息被向量化,此時(shí)需要CNN來進(jìn)行特征抽取以篩選出對(duì)相似度判定有效的特征。通常來說,單層卷積捕捉的特征是有限的,因此為了獲取較為全面的特征需要根據(jù)文本特點(diǎn)對(duì)卷積層和池化層進(jìn)行設(shè)計(jì)。在單個(gè)通道中,輸入的向量在卷積層進(jìn)行一維卷積得到特征,然后在池化層選取這些特征中的最大值。最后將每個(gè)通道中得到的特征進(jìn)行拼接構(gòu)成新的向量來表示文本。重復(fù)前述卷積與池化操作若干次,直至提取的特征滿足相似度判定要求后輸入下一層。經(jīng)過閱讀相關(guān)資料和實(shí)驗(yàn)測(cè)試,在前三次卷積層池化層交替設(shè)置后,模型效果都有一定提升,而再往上堆疊卷積層和池化層后效果下降。綜合BLSTM輸出向量的維度,以及對(duì)有效特征的估計(jì),需要利用三層尺度遞減的卷積核捕捉向量有效的特征,這樣既保證了信息的全面性也在一定程度上減輕了過擬合的影響。設(shè)輸入的向量為M,其中的維度為d,卷積操作如式(12)所示。
1.3.3 SoftMax層
最后選用SoftMax作為判定層,并使用交叉熵函數(shù)(式13所示)作為代價(jià)函數(shù)進(jìn)行訓(xùn)練:
2實(shí)驗(yàn)結(jié)果和分析
2.1數(shù)據(jù)集介紹
螞蟻金融語義相似度數(shù)據(jù)集 AFQMC(Ant Financial Question Matching Corpus),該數(shù)據(jù)集是金融領(lǐng)域(阿里螞蟻金融)的專業(yè)數(shù)據(jù)集,對(duì)研究金融領(lǐng)域的相似度判定以及后續(xù)的真實(shí)性驗(yàn)證有很強(qiáng)的相關(guān)性。同時(shí)它也開放了模型得分排行榜方便比較模型的優(yōu)劣。數(shù)據(jù)示例如表1所示。
其中l(wèi)abel 為1代表短文本句對(duì)相同,label為 0代表短文本句對(duì)不同。這類的短文本相似句對(duì)的數(shù)據(jù)量為訓(xùn)練集34334,驗(yàn)證集4316,測(cè)試集3861。
2.2實(shí)驗(yàn)設(shè)置和評(píng)估指標(biāo)
實(shí)驗(yàn)設(shè)備為個(gè)人臺(tái)式電腦(PC),在Windows 10專業(yè)版系統(tǒng)下的Anaconda虛擬環(huán)境下進(jìn)行的實(shí)驗(yàn),內(nèi)存16GB,利用GPU加速,GPU為 RTX2060。訓(xùn)練時(shí)長(zhǎng)根據(jù)模型大小的不同和參數(shù)的不同在40分鐘至3小時(shí)不等。
檢驗(yàn)輸出的結(jié)果和標(biāo)準(zhǔn)答案對(duì)比。 測(cè)評(píng)指標(biāo)為準(zhǔn)確率,計(jì)算公式為:
準(zhǔn)確率 = 正確預(yù)測(cè)數(shù)目 / 總問題對(duì)數(shù)目
2.4實(shí)驗(yàn)結(jié)果
2.4.1在CLUE benchmark進(jìn)行與其他模型對(duì)比
其中 RoBERTa-wwm-large [19]和BERT-wwm-ext [19]模型是哈工大訊飛實(shí)驗(yàn)室基于BERT和Roberta[21]訓(xùn)練方法引入全詞遮蓋和中文語料訓(xùn)練等改進(jìn)的模型。NEZHA-large[20]和NEZHA-base[20]則是華為諾亞方舟實(shí)驗(yàn)室在BERT訓(xùn)練方法的基礎(chǔ)上增加了相對(duì)位置編碼函數(shù)、全詞掩碼、混合精度訓(xùn)練、優(yōu)化器改進(jìn)等優(yōu)化的模型。BERT-base[13]是谷歌提出的小參數(shù)預(yù)訓(xùn)練模型。ALBERT-xxlarge[21]是在BERT訓(xùn)練方法的基礎(chǔ)上通過參數(shù)共享的方式降低了內(nèi)存,從而達(dá)到提升訓(xùn)練速度效果的改進(jìn)模型。RoBERTa-large[22] 是Facebook提出的模型,其主要改進(jìn)是在更多語料和訓(xùn)練時(shí)長(zhǎng)下,通過在訓(xùn)練方法上使用動(dòng)態(tài)Masking機(jī)制代替BERT原有的靜態(tài)Masking機(jī)制、引入輸入多個(gè)句子判斷連續(xù)性任務(wù)代替雙句連續(xù)性判斷任務(wù)等。ERNIE-base[23]則是百度提出的基于知識(shí)增強(qiáng)的模型,其主要通過對(duì)實(shí)體概念的建模學(xué)習(xí)更加符合實(shí)際應(yīng)用中的語義關(guān)系。通過在測(cè)試集上表現(xiàn)已認(rèn)證模型排行榜可以看出以下幾點(diǎn)結(jié)論:①與BERT-base模型相比,BERT_BLSTM_TCNN模型因?yàn)楦郊犹卣魈崛拥木壒?,參?shù)量有較小的增加,而準(zhǔn)確率卻提高了0.6%,在小參數(shù)模型中擁有比較優(yōu)秀的表現(xiàn);②盡管提出的模型在最終準(zhǔn)確率上并沒有做到最高的準(zhǔn)確率,與表中最好的RoBERTa-wwm-large相比準(zhǔn)確率差2.2%左右,但是由于在詞向量階段使用的預(yù)訓(xùn)練模型BERT-base參數(shù)量較小,最終參數(shù)量卻僅僅是其三分之一。小參數(shù)量意味了更快的訓(xùn)練速度和更低的運(yùn)算資源需求,其訓(xùn)練和使用也是更加方便的;③模型的參數(shù)量對(duì)最終相似句對(duì)判定準(zhǔn)確率有一定的影響,但是并不是參數(shù)越多結(jié)構(gòu)越復(fù)雜的模型效果就越好。例如RoBERTa-wwm-large表現(xiàn)要比 NEZHA-large和NEZHA-base要好,其參數(shù)量卻遠(yuǎn)小于后兩者。因?yàn)榇髤?shù)模型擁有更多的層數(shù)和更復(fù)雜的結(jié)構(gòu),其綜合性能可能更優(yōu),但是在某些特定任務(wù)中,其中一些參數(shù)對(duì)最終結(jié)果會(huì)產(chǎn)生一定干擾致使模型性能下降。
2.4.2不同模型結(jié)構(gòu)比較
由上表可以明顯看出,相比于直接加入全連接層,加入TCNN和BLSTM效果都有所提升,并且BERT_BLSTM_TCNN的效果最好。說明經(jīng)過一定的結(jié)構(gòu)設(shè)計(jì),是能夠在特征抽取階段對(duì)BERT訓(xùn)練出的[CLS]向量在相似度相關(guān)的維度上進(jìn)行修正以提高相似度判定的準(zhǔn)確度。
2.4.3預(yù)處理和對(duì)抗學(xué)習(xí)對(duì)模型效果的影響
與沒有引入擾動(dòng)和進(jìn)行短文本的句子截?cái)嘞啾?,引入擾動(dòng)后,在合適的擾動(dòng)權(quán)重下效果有所提升。同時(shí)截?cái)嚅L(zhǎng)句也能在一定程度上提高模型的對(duì)相似度判定的準(zhǔn)確率。
3結(jié)論
相比于直接使用大參數(shù)的預(yù)訓(xùn)練模型進(jìn)行微調(diào)來適配任務(wù),對(duì)小參數(shù)模型進(jìn)行改良來獲得一個(gè)比較良好的效果是更具有應(yīng)用價(jià)值的。使用大參數(shù)模型意味著更多的計(jì)算資源的需求,這無疑是在無形中增加模型研究和應(yīng)用的成本。雖然大數(shù)據(jù)量和大參數(shù)量的模型也有著調(diào)試方便、特征多樣等優(yōu)點(diǎn),但是其研究和使用門檻也會(huì)隨著參數(shù)量的增加越來越高,阻礙了其的實(shí)際應(yīng)用。尤其在涉及語義相似度的任務(wù)研究時(shí),基于大參數(shù)預(yù)訓(xùn)練模型進(jìn)行調(diào)試可以較快地獲得較好的效果,但是如果一個(gè)任務(wù)用簡(jiǎn)單模型就可以達(dá)成相對(duì)不錯(cuò)的效果,其應(yīng)用價(jià)值無疑是更為廣泛的。提出的BERT_BLSTM_TCNN模型利用小參數(shù)的預(yù)訓(xùn)練模型附加特征抽取層等方法,可以在小參數(shù)量的前提下在相似句對(duì)判定任務(wù)中達(dá)到較好的效果,說明小參數(shù)的預(yù)訓(xùn)練模型仍有很大的潛力可以挖掘。相比于近年來大熱且不斷更新的大參數(shù)量模型設(shè)計(jì),對(duì)已經(jīng)發(fā)布小參數(shù)詞嵌入模型的調(diào)優(yōu)改良的關(guān)注度相對(duì)較低,但是這并不代表BERT-base甚至是參數(shù)量更小的預(yù)訓(xùn)練模型已經(jīng)沒有研究?jī)r(jià)值。未來,如何特定任務(wù)場(chǎng)景下取得計(jì)算資源和模型參數(shù)量之間的平衡,使模型最具研究和應(yīng)用價(jià)值會(huì)是一個(gè)值得給予關(guān)注的方向。
參考文獻(xiàn):
[1] Kim Y. Convolutional Neural Networks for Sentence Classification[EB/OL]. [2014-9-3]. https://arxiv.org/abs/1408.5882.
[2] Lei T, Barzilay R, Jaakkola T. Molding CNNs for text: non-linear, non-consecutive convolutions[J]. Indiana University Mathematics Journal, 2015, 58(3):1151-1186.
[3] Wang P. Semantic Clustering and Convolutional Neural Network for Short Text Categorization[J]. 數(shù)字內(nèi)容技術(shù)與服務(wù)研究中心, 2015:352-357.
[4] Joulin A,Grave E,Bojanowski P, et a1. Bag of tricks for efficient text classification[C].Proceedings of the 15th Conference ofthe European Chapter of the Association for Computational Linguistics.2017: 427-431.
[5] Arevian G. Recurrent Neural Networks for Robust Real-World Text Classification[C].IEEE/WIC/ACM International Conference on Web Intelligence. IEEE, 2007:326-329.
[6] Yang Z, Yang D, Dyer C, et al. Hierarchical Attention Networks for Document Classification[C]. Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies. 2017.
[7] Tang D, Qin B, Liu T . Document Modeling with Gated Recurrent Neural Network for Sentiment Classification[C]. Proceedings of the 2015 Conference on Empirical Methods in Natural Language Processing. 2015.
[8] Zhou C, Sun C, Liu Z, et al. A C-LSTM Neural Network for Text Classification[J]. Computer ence, 2015, 1(4):39-44.
[9] Lai S W,Xu L H,Liu K,et a1. Current convolutional neural networks for text lassification[C]. oceedings of the Twenty-Ninth A AAI Conference Oil rtificial Intelligence,2016:2268-2273.
[10] Mikolov T, Sutskever I, Chen K, et al. Distributed Representations of Words and Phrases and their Compositionality[J]. Advances in Neural Information Processing Systems, 2013: 3111-3119.
[11] 牛雪瑩, 趙恩瑩. 基于Word2Vec的微博文本分類研究[J]. 計(jì)算機(jī)系統(tǒng)應(yīng)用, 2019(8):256-261.
[12] Peters M E, Neumann M, Iyyer M, et al. Deep contextualized word representations[C]. Proceedings of the 56th Annual Meeting of the Azssociation for Computational Linguistics, Stroudsburg: ACL press,2018:2227-2237.
[13] Devlin J , Chang M W , Lee K , et al. BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding[EB/OL].[2019-5-24]. https://arxiv.org/abs/1810.04805.
[14] Vaswani A, Shazeer N, Parmar N, et al. Attention Is All You Need[C]. Advances in neural information processing systems. Stroudsburg: MIT Press,2017: 5998-6008.
[15] Goodfellow I J, Shlens J, Szegedy C. Explaining and harnessing adversarial examples[EB/OL]. [2015-3-20]. https://arxiv.org/abs/1412.6572.
[16] 徐銘輝, 姚鴻勛. 基于句子級(jí)的唇語識(shí)別技術(shù)[J]. 計(jì)算機(jī)工程與應(yīng)用, 2005(08):89-91.
[17] Nowak J, Taspinar A, Scherer R. LSTM recurrent neural networks for short text and sentiment classification[A]. International Conference on Artificial Intelligence and Soft Computing[C]. Cham, 2017: 553-562.
[18] 周飛燕, 金林鵬, 董軍. 卷積神經(jīng)網(wǎng)絡(luò)研究綜述[J]. 計(jì)算機(jī)學(xué)報(bào), 2017,40(6):1229-1251.
[19] Cui Y, Che W, Liu T, et al. Pre-Training with Whole Word Masking for Chinese BERT[EB/OL]. [2019-10-29]. https://arxiv.org/abs/1906.08101.
[20] Wei J, Ren X, Li X, et al. NEZHA: Neural Contextualized Representation for Chinese Language Understanding[EB/OL]. [2019-9-5]. https://arxiv.org/abs/1909.00204.
[21] Lan Z, Chen M, Goodman S, et al. ALBERT: A Lite BERT for Self-supervised Learning of Language Representations[EB/OL]. [2020-2-9]. https://arxiv.org/abs/1909.11942.
[22] Liu Y, Ott M, Goyal N, et al. RoBERTa: A Robustly Optimized BERT Pretraining Approach[EB/OL].[2019-7-26]. https://arxiv.org/abs/1907.11692.
[23] Sun Y, Wang S, Li Y, et al. ERNIE: Enhanced Representation through Knowledge Integration[EB/OL].[2019-4-19]. https://arxiv.org/abs/1904.09223.
【通聯(lián)編輯:王力】