• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      基于BERT的復(fù)合網(wǎng)絡(luò)模型的中文文本分類

      2020-12-23 09:10:14方曉東劉昌輝王麗亞
      武漢工程大學(xué)學(xué)報 2020年6期
      關(guān)鍵詞:語義準(zhǔn)確率向量

      方曉東,劉昌輝,王麗亞,殷 興

      武漢工程大學(xué)計算機科學(xué)與工程學(xué)院,湖北 武漢430205

      文本分類[1]是自然語言處理(natural language process,NLP)任務(wù)的基礎(chǔ)工作也是其研究領(lǐng)域的熱點之一,主要目的是針對文本進(jìn)行歸類,便于對文本進(jìn)行高效管理配置與檢索并解決信息過載的問題。由于網(wǎng)絡(luò)上產(chǎn)生的媒體新聞、科技、報告、電子郵件、網(wǎng)頁、書籍、微博等文本內(nèi)容呈現(xiàn)指數(shù)增長,需要對這些文本進(jìn)行歸類加以組織管理,也可根據(jù)用戶的偏好,進(jìn)行信息過濾或精確優(yōu)先推薦,增強用戶黏性,因此具有一定的應(yīng)用研究價值。

      transformers的 雙 向 編 碼 器(bidirectional encoder representations from transformer,BERT)在文本分類上的成功應(yīng)用,有效地促進(jìn)了文本分類的研究與發(fā)展[2]。但基于BERT的文本主題分類大多數(shù)都是以英文數(shù)據(jù)集為對象,針對中文網(wǎng)絡(luò)新聞文本的研究多數(shù)都是在詞語級詞向量的基礎(chǔ)上提出網(wǎng)絡(luò)模型結(jié)構(gòu)。本文通過學(xué)習(xí)BERT模型、雙向門控循環(huán)神經(jīng)網(wǎng)絡(luò)(bi-directional gated recur?rent unit,BiGRU)模型,為提高文本主題分類的準(zhǔn)確率,提出基于BERT的復(fù)合網(wǎng)絡(luò)模型(BiGRU+BERT混合模型,bG-BERT)的文本主題分類方法,在實驗所用中文新聞數(shù)據(jù)集上使用NLP的綜合評價指標(biāo)Accuracy值、F1值,證明了bG-BERT模型在文本分類方面的有效性。

      1 相關(guān)研究

      文本主題分類方法主要有詞匹配法、統(tǒng)計學(xué)習(xí)方法和基于深度學(xué)習(xí)的方法[3]。詞匹配法是根據(jù)查詢文檔中的詞語是否出現(xiàn)在需要分類的文檔內(nèi)容中,這種方法沒有考慮上下文聯(lián)系,方法過于簡單機械。統(tǒng)計和機器學(xué)習(xí)的方法[4-5],是通過特征工程然后再結(jié)合機器學(xué)習(xí)的方法,首先將標(biāo)注的訓(xùn)練集的內(nèi)容部分轉(zhuǎn)換為特征,再使用特征提取分類特征,最后使用樸素貝葉斯、回歸模型、支持向量機等文本分類器進(jìn)行分類。由于分類器性能的好壞主要依賴查詢詞典設(shè)計有效的特征,需要專業(yè)知識豐富的的專家來設(shè)計分類特征,人為影響因素大。因此早期的文本分類方法難以勝任復(fù)雜的篇章級別新聞文本主題分類任務(wù)。后期出現(xiàn)的基于深度學(xué)習(xí)的方法是傳統(tǒng)機器學(xué)習(xí)的重要分支。

      文本表示方面,Zhang等[6]應(yīng)用的word2vec模型,其核心思想是通過上下文得到字詞的向量化表示,一種根據(jù)前后的字詞預(yù)測中間字詞的CBOW模型和另一種利用中間字詞去預(yù)測前后的字詞的Skip-gram模型,解決了高效表達(dá)一篇文檔的難點。鄭亞南等[7]使用glove模型進(jìn)行特征提取,再使用SVM進(jìn)行分類。趙亞歐等[8]使用ELMo模型,動態(tài)調(diào)整word emdedding,解決了詞語用法的復(fù)雜性以及這些復(fù)雜用法在不同上下文中的變化。胡春濤等[9]使用BERT模型,采用雙向Trans?former進(jìn)行句子篇章級別的提取特征,彌補了word2vec無法理解不同字詞在不同位置語義不同的不足,相對ELMo的單向Transformer,BERT綜合考慮前后兩個方向的信息,具有更優(yōu)的并行性。

      構(gòu)建語言模型方面,陳巧紅等[10]將卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural networks,CNN)應(yīng)用于文本分類,將經(jīng)過向量化的文本作為輸入,最大程度提取深層局部特征,但缺少學(xué)習(xí)序列相關(guān)性的能力。孫敏等[11]把長短時記憶網(wǎng)絡(luò)(long short-term memory,LSTM)應(yīng)用于情感分析,由若干遺忘記憶模塊組成復(fù)雜網(wǎng)絡(luò)結(jié)構(gòu),能更好獲取上下文特征,有效解決梯度消失問題。盧健等[12]提到門控循環(huán)神經(jīng)網(wǎng)絡(luò)(gated recurrent unit,GRU),是由LSTM而來,其結(jié)構(gòu)更簡單,收斂速率更快。吳小華等[13]將雙向長短時記憶網(wǎng)絡(luò)(bi-directional long short-term memory,BiLSTM)用于情感分析,BiL?STM由雙向的LSTM網(wǎng)絡(luò)組成,可更好獲取文本句法信息。王麗亞等[14]等將雙向門控循環(huán)神經(jīng)網(wǎng)絡(luò)的雙通道模型用于文本分類,BiGRU是由正向的、方向相反的,且輸出由這兩個GRU的狀態(tài)共同決定的GRU組成的神經(jīng)網(wǎng)絡(luò)模型,并且能有效彌補LSTM訓(xùn)練時間長,GRU不能同時捕獲前后詞的特征的不足。

      本文針對中文新聞文本,綜合考慮BERT模型在文本表示方面,BiGRU在語言模型構(gòu)建的特征優(yōu)化方面的優(yōu)點,提出了基于BERT的復(fù)合網(wǎng)絡(luò)模型(bG-BERT)。充分利用BERT模型強大的語義信息獲取能力,提取語句特征,然后使用BiGRU網(wǎng)絡(luò)強化在不同時間段更新后的上下文特征,減少特征在傳遞過程中的信息損失,篩選出豐富包含全局特征,深化模型的特征學(xué)習(xí)能力,從而提高新聞文本分類的準(zhǔn)確率和高效性,減少訓(xùn)練時長,實驗最后驗證了模型的實際應(yīng)用能力。

      2 基于BERT的復(fù)合網(wǎng)絡(luò)模型

      基于BERT的復(fù)合網(wǎng)絡(luò)模型(bG-BERT),主要圍繞以下三部分展開:第一部分為BERT模型輸入和預(yù)訓(xùn)練,第二部分為bG-BERT模型網(wǎng)絡(luò)結(jié)構(gòu)的建立,第三部分為bG-BERT模型訓(xùn)練。

      2.1 BERT模型輸入表征及預(yù)訓(xùn)練

      與傳統(tǒng)的word2vec和glove模型相比較,傳統(tǒng)模型的嵌入為文本內(nèi)的每個字詞提供一個只含有局部信息表示的表示。BERT模型,目的是利用無標(biāo)注預(yù)料進(jìn)行訓(xùn)練,獲得包含豐富語義信息的表示。BERT模型的輸入可以是一個句子或句子對c=[w1,w2,…,wn],[s1],[s2],…,[sn]](wn為第一句話里面的第n個單詞,sn表示一段話里的第n個句子),實際的輸入值是經(jīng)過Word Piece?token的中文字向量(Token Embedding),Etoken=,判 斷 前 后 句 的Segment Embedding,Esegment={EA1,EA2,…EAn,EB1,EB2…,EBn}(An表示句子對中的前一句話的第n個單詞,Bn表示對子對后面一句話的第n個單詞)和區(qū)分不同位置字詞所攜帶信息存在差異的Position Em?bedding,Eposition={E0,E1,…,En},三者的信息的總和。

      BERT模型預(yù)訓(xùn)練分成兩個階段,第一個階段是Masked LM,為訓(xùn)練雙向transformer[15]表示,采用隨機掩蓋每個序列中的15%的輸入詞,然后基于上下文來預(yù)測被掩蓋的詞語。第二個階段是Next Sentence Prediction,這一任務(wù)中主要學(xué)習(xí)判斷兩個句子之間的關(guān)聯(lián)性,使模型具備理解長序列上下文的聯(lián)系能力。

      2.2 bG-BERT模型結(jié)構(gòu)特征

      該混合模型由3部分組成:首先BERT提取文本的語義表示特征,主要使用BERT的核心模塊Transformer獲取全局的語義信息;其次使雙向GRU加強深層特征表示,最后引入分類器,主要由dropout防止混合網(wǎng)絡(luò)過擬合,使用softmax函數(shù)預(yù)測新聞文本所屬類別。模型如圖1所示。

      圖1 bG-BERT模型Fig.1 bG-BERT model

      1)獲取輸入表征后,首先使用具有12個Transformer特征抽取器,逐層傳遞并細(xì)化特征表示,計算如公式1所示:

      式中,l表示對應(yīng)的層數(shù),Rl為經(jīng)過對應(yīng)層的特征的上下文表示。

      Self-Attention機制是Transformer中的關(guān)鍵部分,Self-Attention機制主要分為4個步驟:首先輸入為目標(biāo)字詞、上下文各個字詞的語義向量表示,通過線性變換獲取目標(biāo)字詞的Query向量表示、上下文各個字詞的Key向量表示和目標(biāo)字詞與上下文各個字詞的原始Value向量表示;其次計算Que?ry向量和各個Key向量的相似度得到權(quán)重,常用的相似度函數(shù)有點積、拼接、感知機等;然后使用softmax函數(shù)對這些權(quán)重進(jìn)行歸一化處理;最后將權(quán)重和目標(biāo)詞的原始Value和各上下文字的Value向量進(jìn)行求和,得到最后的增強語義向量表示;作為Attention的輸出,計算過程如下:

      式中,Q為文本中的字詞,K為上下文的各個字,V為目標(biāo)字及其上下文的字都有各自的原始Value,Ki為第i個字的Key值,Wi為第i個字時的權(quán)值向量,為相似度,Self-Attention為注意力概率分布,j表示維數(shù),J表示維數(shù)上界。

      通過Embedding的向量輸入到BERT模型的Transformer的編碼器和解碼器之后,對于單文本分類來說,BERT模型在文本前插入一個[CLS]符號,與其他文本中已有的字詞相比,該符號無明顯語義信息會更公平地融合文本中各個字詞的相關(guān)信息,該符號對應(yīng)的輸出向量作為整篇文檔的語義表示,可作為輸入到后續(xù)模型進(jìn)行特征加強或分類。

      2)將BERT模型輸出的融入語義篇章信息的特征向量,輸入到BiGRU模型。其中更新門和重置門是其核心組件。更新門Ut用于控制前一時刻的狀態(tài)信息傳入到當(dāng)前狀態(tài)的程度,重置門Ft用于遺忘前一時刻狀態(tài)信息的程度。將重要特征保留,保證其在long-term傳播的時候也不會被丟失。其計算過程如公式6~9所示。式中,Ut表示t時刻的更新門,F(xiàn)t表示t時刻的重置門表示t時刻的候選激活狀態(tài),ht表示t時刻的激活狀態(tài),Wt為權(quán)值矩陣,xt為t時刻GRU的輸入。

      3)獲取語義篇章信息,加強特征的表示向量,傳給softmax函數(shù)進(jìn)行預(yù)測分類結(jié)果b={y1,y2,…,yn},對應(yīng)相應(yīng)的新聞主題。

      2.3 bG-BERT模型訓(xùn)練

      訓(xùn)練模型是為了最小化損失函數(shù)。本文選取的損失函數(shù)為交叉熵?fù)p失函數(shù),優(yōu)化器選取Adam。

      算法:bG-BERT模型的新聞文本分類算法

      輸入:訓(xùn)練數(shù)據(jù)集x=[x1,x2,…,xn],對應(yīng)標(biāo)簽y=[y1,y2,…,yn]

      輸出:輸入樣本屬于每個類別的概率pi=(0,0,0,1,0,0,0,0,0,0)

      初始化模型中的參數(shù)。

      數(shù)據(jù)預(yù)處理:將分類的文本轉(zhuǎn)化為字向量、句子向量和位置向量三者的綜合e=[e1,e2,…,en]。然后作為bG-BERT模型的輸入。

      For each text:

      用softmax進(jìn)行分類:

      其中k為維數(shù),z為實向量。y是10維向量表示預(yù)測屬于該類的概率。

      3 結(jié)果與討論

      3.1 實驗數(shù)據(jù)、環(huán)境與參數(shù)

      實驗采用的數(shù)據(jù)集是THUCNews,數(shù)據(jù)來自新浪新聞RSS訂閱頻道2005-2011年的歷史數(shù)據(jù)篩選過濾生成,包含74萬篇新聞文檔。從原始數(shù)據(jù)集上選取10個分類標(biāo)簽(體育、娛樂、家居、房產(chǎn)、教育、時尚、時政、游戲、科技、財經(jīng))。訓(xùn)練集、驗證集和測試集分別為5 000×10,500×10,1 000×10,總共6.5萬條。對本文提出的bG-BERT模型新聞文本分類方法進(jìn)行驗證和分析。

      實驗環(huán)境配置如下,語言:Python3.7,工具:Google Colaboratory,框架:Keras2.2.5,處理器:Tes?la K80 GPU。

      本文模型參數(shù)具體設(shè)置如下:嵌入向量維度VEC的維度為128,BERT的 維 度 為768,BiGRU的維度為10,BERT的學(xué)習(xí)率為0.000 01,VEC的學(xué)習(xí)率為0.001。

      3.2 對比實驗設(shè)置

      為測試模型的有效性,選擇了多個對比模型進(jìn)行比較,主要包括以下5個:

      1)Word2Vec-BiGRU(W2V-bG):單一的BiGRU網(wǎng)絡(luò),利用word2vec訓(xùn)練得到的詞向量作為輸入。

      2)CNN-BiLSTM-Attention(CNN-bL-Att):CNN-bL-Att組合的復(fù)合網(wǎng)絡(luò)模型。

      3)BERT:單一的bert模型。

      4)BERT-BiLSTM(bL-BERT):單一的BiLSTM網(wǎng)絡(luò),利用BERT訓(xùn)練得到的詞向量作為輸入。

      5)bG-BERT:單一的BiGRU網(wǎng)絡(luò),利用BERT訓(xùn)練得到的詞向量作為輸入。

      1、5對照為證明BERT特征抽取能力高于word2vec模型。3、4、5對照為證明BiGRU模型的能使特征更加優(yōu)化。2、5比較證明比現(xiàn)已提出的國際最新的新聞文本分類的效果更加優(yōu)化。

      3.3 實驗結(jié)果分析

      由于用測試集所得的評測指標(biāo)分?jǐn)?shù)比用訓(xùn)練集所得的分?jǐn)?shù)更能反映一個模型的優(yōu)劣。實驗選擇在測試集上的具體驗證對比結(jié)果如表1所示。

      表1模型對比結(jié)果Tab.1 Results of model comparison %

      從表1可以看出,bG-BERT模型的準(zhǔn)確率和F1值均高于第3組和第4組,可以證明BiGRU對于序列化的語義特征具有更好的更新強化作用。在與第1、2組實驗對比結(jié)果可以看出,BERT能有效提升準(zhǔn)確率和F1值,證明BERT對于預(yù)訓(xùn)練時能準(zhǔn)確高效地提取文本中的特征,有利于下游任務(wù)進(jìn)行分類。整體來看,本文提出的bG-BERT模型的分類效果更好,充分發(fā)揮了BERT對于語義表示特征的能力,并遷移到下游分類任務(wù)提升模型整體的性能,BiGRU對于預(yù)處理的特征表示的特征抽取以及深層次特征學(xué)習(xí)的能力。并且與現(xiàn)已提出的國際最新的CNN-BiLSTM-Attention復(fù)合網(wǎng)絡(luò)模型新聞文本分類的的F1值高出1.78個百分點。其中bG-BERT在Accuracy、F1上取得最高值為97.22%、97.21%。

      為清晰地反映5組模型的優(yōu)劣,分別繪制了各模型的準(zhǔn)確率a和損失率l在驗證集上的變化曲線,如圖2所示。

      圖2驗證集評測圖:(a)準(zhǔn)確率變化,(b)損失率變化Fig.2 Validation set evaluation diagrams:(a)accuracy rate variation,(b)loss rate variation

      本次實驗訓(xùn)練迭代次數(shù)為5次(W2V-bG,CNN-bL-Att的Epoch為10,圖2中 的W2V-bG,CNN-bL-Att的取值為訓(xùn)練10次中的后面5次的數(shù)據(jù)),從圖2的準(zhǔn)確率和損失率變化可以看出,使用BERT進(jìn)行特征抽取,明顯要優(yōu)于傳統(tǒng)的Word2Vec模型。而使用BERT的3組模型雖然很接近,但是結(jié)果相比BERT模型、bL-BERT模型仍然有微小的提升。準(zhǔn)確率的最高值97.52%,損失率的最低值9.51%均為bG-BERT模型上計算得出(Epoch為1時),此外bG-BERT模型整體也較為穩(wěn)定,在新聞文本分類上更具有優(yōu)勢。

      綜上所述,在相同數(shù)據(jù)集中,bG-BERT表現(xiàn)性能優(yōu)于其他模型,能夠提高文本分類的準(zhǔn)確率,且具有很好的應(yīng)用能力。

      4 結(jié)論

      本文采用復(fù)合網(wǎng)絡(luò)的bG-BERT模型,應(yīng)用在中文新聞文本分類任務(wù)中,在中文新聞文本上進(jìn)行訓(xùn)練和測試取得較好的分類效果。并且與單獨的BERT模型,BiGRU以及最新融入注意力的bL-BERT模型進(jìn)行比較,取得的準(zhǔn)確率和F1值更優(yōu),結(jié)果表明基于bG-BERT模型能有效學(xué)習(xí)到長文本中的深層次重要特征,以及上下文的信息。但由于混合后的模型需要的網(wǎng)絡(luò)參數(shù)更多,結(jié)構(gòu)更加復(fù)雜,需要更多的算力和時間代價。下一步的研究目標(biāo)將探究如何優(yōu)化高分類準(zhǔn)確率下且計算與時間代價和損失更小的參數(shù)更少的輕量型復(fù)合網(wǎng)絡(luò)模型。

      猜你喜歡
      語義準(zhǔn)確率向量
      向量的分解
      乳腺超聲檢查診斷乳腺腫瘤的特異度及準(zhǔn)確率分析
      健康之家(2021年19期)2021-05-23 11:17:39
      不同序列磁共振成像診斷脊柱損傷的臨床準(zhǔn)確率比較探討
      2015—2017 年寧夏各天氣預(yù)報參考產(chǎn)品質(zhì)量檢驗分析
      聚焦“向量與三角”創(chuàng)新題
      語言與語義
      高速公路車牌識別標(biāo)識站準(zhǔn)確率驗證法
      “上”與“下”語義的不對稱性及其認(rèn)知闡釋
      向量垂直在解析幾何中的應(yīng)用
      向量五種“變身” 玩轉(zhuǎn)圓錐曲線
      达拉特旗| 景谷| 太谷县| 青神县| 广丰县| 普兰店市| 黔江区| 和林格尔县| 友谊县| 新营市| 古田县| 聂荣县| 东乌珠穆沁旗| 钟山县| 密山市| 邮箱| 建昌县| 英山县| 碌曲县| 栾城县| 冕宁县| 油尖旺区| 泰和县| 焦作市| 孝感市| 宕昌县| 涞源县| 雷山县| 南木林县| 镇远县| 确山县| 即墨市| 庄河市| 方山县| 乐亭县| 大同市| 银川市| 天峨县| 登封市| 泰兴市| 玉屏|