• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      基于Bert-A-BiR神經(jīng)網(wǎng)絡(luò)的文本情感分類模型

      2021-12-13 06:32:00李明超張壽明
      電視技術(shù) 2021年10期
      關(guān)鍵詞:微調(diào)集上注意力

      李明超,張壽明

      (昆明理工大學(xué) 信息工程與自動(dòng)化學(xué)院,云南 昆明 650500)

      0 引言

      文本情感分析是自然語(yǔ)言處理領(lǐng)域(Natural Language Processing,NLP)一個(gè)重要的研究方向,是利用計(jì)算機(jī)手段對(duì)帶有情感傾向的文本進(jìn)行處理、分析、歸納及推斷的過(guò)程。

      在基于深度學(xué)習(xí)的文本情感分析研究方向上,KALCHBRENNER等人[1]提出了第一個(gè)基于卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Networks,CNN)的TC模型,該模型使用動(dòng)態(tài)-max-pooling,稱為動(dòng)態(tài)CNN(DCNN);此后又出現(xiàn)了循環(huán)神經(jīng)網(wǎng)絡(luò)[2](Rerrent Neural Network,RNN)及其各種變體,如長(zhǎng)短期記憶網(wǎng)絡(luò)(Long Short-Term Memory,LSTM)和門控循環(huán)網(wǎng)絡(luò)(Gated Recurrent neural network,GRU)[3],都是旨在更好地捕獲長(zhǎng)期依賴關(guān)系。隨著訓(xùn)練模型復(fù)雜度不斷提升和模型處理語(yǔ)料日益龐大,研究人員提出了預(yù)訓(xùn)練模型(Bidirectional Encoder Representations from Transformers,BERT)[4]。 通過(guò)大量基準(zhǔn)語(yǔ)料對(duì)模型預(yù)訓(xùn)練,使模型能夠?qū)o定語(yǔ)句中的詞語(yǔ)嵌入更豐富語(yǔ)義,這些嵌入將被應(yīng)用到相關(guān)模型后續(xù)任務(wù)中,極大地改善模型情感分 析性能。

      但是,在以上的單一神經(jīng)網(wǎng)絡(luò)模型中依然存在各種問(wèn)題:卷積神經(jīng)網(wǎng)絡(luò)無(wú)法提取文本時(shí)序特征,而LSTM和GRU雖能提取到時(shí)序特征,但只能利用到當(dāng)前和過(guò)去信息,不能利用未來(lái)信息;另外,BERT模型的輸入長(zhǎng)度是固定的,被截取的超出部分可能包含有價(jià)值信息,因此還有提升空間。

      針對(duì)上述問(wèn)題,本文提出Bert-BiR-A模型架構(gòu),利用訓(xùn)練集對(duì)BERT模型進(jìn)行微調(diào),然后利用預(yù)訓(xùn)練BERT模型對(duì)文本序列進(jìn)行詞嵌入,使詞語(yǔ)獲得更豐富表征;利用雙向GRU對(duì)文本進(jìn)行雙向特征提取,并引入注意力機(jī)制對(duì)提取特征賦予不同權(quán)重,給予關(guān)鍵信息更高關(guān)注度,更有利于情感分析,提取語(yǔ)句深層語(yǔ)義;為驗(yàn)證不同BERT模型對(duì)整個(gè)模型框架的影響,設(shè)計(jì)了6組模型進(jìn)行試驗(yàn)獲得最優(yōu)模型。

      1 Bert-BiR-A模型構(gòu)建

      Bert-BiR-A模型結(jié)構(gòu)包括BERT預(yù)訓(xùn)練層、雙向循環(huán)網(wǎng)絡(luò)層、注意力層以及輸出層4個(gè)信息處理層,如圖1所示。

      圖1 Bert-BiR-A模型結(jié)構(gòu)圖

      1.1 訓(xùn)練BERT詞向量

      輸入詞向量序列記為X={w1,w2,…,wm},將X輸入BERT模型中進(jìn)行訓(xùn)練,最終獲得相應(yīng)詞向量表示,如式(1)所示:

      式中:X'為BERT詞嵌入后的向量,W'為轉(zhuǎn)置矩陣,b'為偏置值。

      1.2 BIGRU層特征提取

      對(duì)于任意一條給定的評(píng)論S={t1,t2,…,ti,ti+1,…,tm},經(jīng)過(guò)BERT網(wǎng)絡(luò)模型訓(xùn)練后轉(zhuǎn)化為序列X'。BIGRU網(wǎng)絡(luò)使用了雙向GRU模型,其中一路GRU向前傳播建模,一路向后傳播建模,使得每個(gè)詞對(duì)應(yīng)的輸出能夠同時(shí)提取到基于上下文兩個(gè)方向的信息,獲得信息更充分。在進(jìn)行建模的過(guò)程中,前向GRU與后向GRU參數(shù)不進(jìn)行共享,兩者的表 達(dá)式為:

      最后將每個(gè)詞向量對(duì)應(yīng)的前向GRU輸出值和后向GRU輸出值進(jìn)行拼接,結(jié)果即為BIGRU網(wǎng)絡(luò)的模型的輸出,如式(4)所示:

      1.3 注意力目標(biāo)詞向量

      將從BiGRU層的輸出連接到Attention層,然后加入注意力機(jī)制算出其注意力值。從BiGRU層輸出的句子為S={t1,t2,…,ti,ti+1,…,tm},計(jì)算目標(biāo)詞向量t2注意力,通過(guò)Attention層將t2訓(xùn)練出其基于注意力機(jī)制的序列t2'。然后可以按照對(duì)t2的計(jì)算方式推出整個(gè)文本序列的詞向量訓(xùn)練。通過(guò)分析詞與詞之間的相關(guān)性及詞與序列之間的重要程度,利用注意力機(jī)制算出其權(quán)重值,構(gòu)建出上下文向量,最后將構(gòu)建出的向量連接到對(duì)應(yīng)詞上。訓(xùn)練詞向量的具體步驟如式(5)、式(6)所示:

      式中:tju和tjv代表第j條語(yǔ)句中任意兩個(gè)不同的詞的向量,αju,jv代表權(quán)重系數(shù)。

      對(duì)輸入詞矩陣進(jìn)行多次遍歷以上計(jì)算步驟后,計(jì)算出每個(gè)詞所對(duì)應(yīng)的權(quán)重,最終生成權(quán)重矩陣A,最后將權(quán)重矩陣與后續(xù)BIGRU網(wǎng)絡(luò)的輸出進(jìn)行 拼接。

      1.4 輸出層

      將經(jīng)過(guò)注意力機(jī)制的得到的輸出Ai連接到輸出層,然后送入softmax分類器中進(jìn)行感情極性分類,最終的分類結(jié)果如式(7)所示:

      式中:W0為輸出層權(quán)重矩陣,bo為偏置值。

      利用交叉熵定義損失函數(shù)如式(8)所示:

      2 實(shí)驗(yàn)與分析

      2.1 實(shí)驗(yàn)設(shè)置

      為了能夠?qū)Ρ菊滤岢龅哪P虰ERT-A-BIR進(jìn)行更好的評(píng)估,本章選用了兩個(gè)在文本情感分析領(lǐng)域廣泛應(yīng)用的公開(kāi)數(shù)據(jù)集IMDB和SST-5。其中,IMDB數(shù)據(jù)集主要用于二分類,情感極性分為積極和消極,訓(xùn)練集包括25000條評(píng)論,測(cè)試集包含 25000條評(píng)論;SST-5數(shù)據(jù)集主要應(yīng)用于情感分析五分類,情感極性分為非常消極、消極、中立、積極以及非常積極,訓(xùn)練集包含157918條評(píng)論,測(cè)試集包含2210條評(píng)論。

      2.2 評(píng)估指標(biāo)

      用被分對(duì)的樣本數(shù)除以總的樣本數(shù)得出正確率(Accuarcy)。在通常情況下,正確率越高,代表分類效果越好,其計(jì)算方法如式(9)所示:

      式中:FP是指實(shí)際積極的樣本被判別為消極的樣本;TP是指實(shí)際積極的樣本被判定積極樣本;TN是指實(shí)際消極的樣本被判別為消極的樣本;FN是指實(shí)際消極樣本被判別為消極的樣本。

      2.3 對(duì)比實(shí)驗(yàn)

      模型分別在數(shù)據(jù)集IMDB和數(shù)據(jù)集SST-5上進(jìn)行情感分析任務(wù),同時(shí)設(shè)置多組對(duì)照實(shí)驗(yàn)。

      2.3.1 分類模型對(duì)比實(shí)驗(yàn)

      不同模型的預(yù)測(cè)準(zhǔn)確率結(jié)果如表1所示。由表1可以看出,在IMDB數(shù)據(jù)集上,單一神經(jīng)網(wǎng)絡(luò)中CNN的準(zhǔn)確率最高,為87.6%,但是本文提出的BERT-A-BiR模型均優(yōu)于其他模型,且相對(duì)CNN提升了7.1個(gè)百分點(diǎn);在SST-5數(shù)據(jù)集上進(jìn)行單句預(yù)測(cè),CNN相對(duì)BiLSTM準(zhǔn)確率降低1.1個(gè)百分點(diǎn),但本文提出的模型與BiLSTM相比提升了1.8個(gè)百分點(diǎn);BERT-A-BiR與BERT-BiR相比在兩個(gè)數(shù)據(jù)集上準(zhǔn)確率都更高,說(shuō)明了引入注意力機(jī)制的有效性。整體而言,本文的模型在了IMDB和SST-5數(shù)據(jù)集上都取得了不俗的表現(xiàn)。

      表1 不同模型的預(yù)測(cè)準(zhǔn)確率

      2.3.2 不同BERT對(duì)比實(shí)驗(yàn)

      為了提升整體模型性能,研究不同BERT對(duì)本章提出的BERT-A-BiR模型架構(gòu)的影響,在模型的BERT模塊分別采用BERT_base、RoBERTa[5]及DistillBERT[6]三種BERT,同時(shí)雙向循環(huán)網(wǎng)絡(luò)模塊(BiR)采用了BiGRU和BiLSTM兩種循環(huán)網(wǎng)絡(luò)的變體模型,共設(shè)計(jì)了6個(gè)模型,相關(guān)實(shí)驗(yàn)組的結(jié)果如表2所示。

      表2 6組不同模型在IMDB和SST-5數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果

      對(duì)比1、2、3組實(shí)驗(yàn)可以發(fā)現(xiàn),當(dāng)BiR模塊同為BiLSTM時(shí),RoBERTa在兩個(gè)數(shù)據(jù)集上表現(xiàn)最優(yōu);同理,對(duì)比4、5、6實(shí)驗(yàn)組可以發(fā)現(xiàn),當(dāng)BiR模塊同為BiGRU時(shí),RoBERTa在兩個(gè)數(shù)據(jù)集上表現(xiàn)最優(yōu),故在BERT模塊上RoBERTa最優(yōu)。通過(guò)對(duì)比1和4、2和5、3和6可以發(fā)現(xiàn),當(dāng)BERT相同時(shí),整體上而言,BiGRU更優(yōu),最終最優(yōu)模型為RoBERTa-A-BiR_(BiGRU),在SST-5上取得了53.30%的準(zhǔn)確率,在IMDB上取得93.66%的成績(jī)。

      2.3.3 微調(diào)實(shí)驗(yàn)

      為了提升BERT模型的效果,利用訓(xùn)練集Dtrain對(duì)BERTbase進(jìn)行微調(diào)。為了驗(yàn)證微調(diào)的效果,首先利用Dtest對(duì)沒(méi)有經(jīng)過(guò)微調(diào)的BERTbase進(jìn)行測(cè)試,BERTbase經(jīng)過(guò)微調(diào)后再次使用Dtest對(duì)其測(cè)試,實(shí)驗(yàn)結(jié)果如圖2所示:

      圖2 BERTbase在IMDB數(shù)據(jù)集上的微調(diào)效果

      在對(duì)IMDB影評(píng)數(shù)據(jù)集上進(jìn)行情感二分類的過(guò)程中,對(duì)BERTbase進(jìn)行微調(diào)后的準(zhǔn)確率、召回率和F1值比沒(méi)有微調(diào)前分別高出0.54、0.39和0.46。結(jié)合BERT預(yù)訓(xùn)練后在兩個(gè)數(shù)據(jù)上的準(zhǔn)確率、召回率及F1值可以看出,對(duì)BERT進(jìn)行微調(diào)后的效果都要優(yōu)于未對(duì)BERT進(jìn)行微調(diào)的效果。這說(shuō)明對(duì)BERT進(jìn)行微調(diào)應(yīng)用于特定任務(wù),要優(yōu)于不進(jìn)行微調(diào)的BERT模型,證明了BERT微調(diào)的有效性。

      3 結(jié)語(yǔ)

      本文針對(duì)文本情感分析任務(wù)提出了BERT-ABiR模型架構(gòu),通過(guò)對(duì)BERT微調(diào)后利用其預(yù)訓(xùn)練模型進(jìn)行詞嵌入,然后通過(guò)雙向RNN變體LSTM或GRU進(jìn)行特征提取,此后引入注意力機(jī)制讓模型對(duì)與當(dāng)前任務(wù)相關(guān)的信息賦予更多關(guān)注度,提升模型情感分析能力。在不同數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果表明,與其他對(duì)照組相比,提出的模型準(zhǔn)確率最高,證明了該模型的可行性。同時(shí),為進(jìn)一步提升模型架構(gòu)性能,基于不同BERT對(duì)模型框架的影響設(shè)計(jì)了6組模型,通過(guò)實(shí)驗(yàn)選出最優(yōu)模型。最終在IMDB數(shù)據(jù)集上取得了93.66%的成績(jī),在SST-5數(shù)據(jù)集上取得了53.3%的成績(jī)。模型還有一定的優(yōu)化空間,將在未來(lái)工作中進(jìn)一步優(yōu)化。

      猜你喜歡
      微調(diào)集上注意力
      讓注意力“飛”回來(lái)
      Cookie-Cutter集上的Gibbs測(cè)度
      鏈完備偏序集上廣義向量均衡問(wèn)題解映射的保序性
      一種新型微調(diào)擠塑模具的設(shè)計(jì)及應(yīng)用
      電線電纜(2018年2期)2018-05-19 02:03:44
      復(fù)扇形指標(biāo)集上的分布混沌
      靈活易用,結(jié)合自動(dòng)和手動(dòng)微調(diào)達(dá)到好效果 StormAudio ISP 3D.16 ELITE/PA 16 ELITE
      “揚(yáng)眼”APP:讓注意力“變現(xiàn)”
      A Beautiful Way Of Looking At Things
      全國(guó)大部省份結(jié)束2014高考 多地高考模式微調(diào)
      幾道導(dǎo)數(shù)題引發(fā)的解題思考
      鄂托克旗| 长汀县| 武安市| 神农架林区| 绥阳县| 余姚市| 东辽县| 达尔| 星子县| 吉林市| 孙吴县| 五峰| 富平县| 西平县| 凤凰县| 祁门县| 革吉县| 泰来县| 彰化市| 赤水市| 张掖市| 寿宁县| 海晏县| 德格县| 图们市| 岐山县| 黄骅市| 宾川县| 沙洋县| 衢州市| 洛宁县| 五家渠市| 林口县| 金门县| 同仁县| 伊金霍洛旗| 冀州市| 绍兴县| 衡山县| 井冈山市| 库车县|