石杰
關鍵詞: 預訓練模型; 雙通道模型; TCN網(wǎng)絡; BiGRU網(wǎng)絡; 情感分類
中圖分類號:TP18 文獻標識碼:A
文章編號:1009-3044(2023)20-0031-05
0 引言
隨著人工智能技術的不斷發(fā)展,情感分類技術在現(xiàn)實生活中變得越來越重要,目前已在多個領域得到了廣泛應用,例如輿情分析、產(chǎn)品推薦、情感監(jiān)測等。深度學習興起以來,基于深度學習的神經(jīng)網(wǎng)絡方法已成了自然語言處理任務的研究熱點。Mikolov等人[1]最先提出了Word2vec 模型,包括 CBOW 詞袋模型和Skip-gram 模型用于當前詞與上下文內(nèi)容的預測。Pennington 等人[2]提出了具有將全局統(tǒng)計信息與局部上下文相結合特點的 GloVe 模型。Devlin 等人[3] 結合ELMo 和 GPT 模型提出了 BERT 模型,通過字向量和多頭自注意力機制,解決了現(xiàn)有詞向量模型無法捕獲完整文本語義信息的問題。隨后百度團隊以 BERT 模型為基礎,針對中文文本任務進行優(yōu)化提出了ERNIE [4]模型,并取得了良好的效果。Bai等人[5]提出了TCN網(wǎng)絡,并將因果卷積、膨脹卷積和殘差連接應用其中,使其得到了廣泛應用。GRU網(wǎng)絡是Tang 等人[6]在繼 LSTM 網(wǎng)絡之后對RNN做出的又一次優(yōu)化,將LSTM 中的三個門結構進行了簡化,提升了訓練效率。Adabelief算法[7]是一種新興的優(yōu)化算法,它結合了Adam和AMSGrad的優(yōu)點,能夠為模型訓練提供高效穩(wěn)定的支持,特別是在處理文本任務時表現(xiàn)出色。綜上,本文基于詞向量表示、情感特征提取、模型訓練優(yōu)化三方面考慮,提出了一種基于預訓練模型的雙通道情感分類方法。
1 相關理論技術
1.1 ERNIE模型
ERNIE 模型是為了使模型訓練時能夠更好地匹配中文語義語法所做出的改進,在結構上,仍然是采用雙向Transformer進行特征學習。和BERT模型的不同之處在于該模型訓練所使用的數(shù)據(jù)全部來自中文語料庫,通過大量中文語料的訓練使其能夠更好地適用于中文文本處理任務。另外,ERNIE 模型在掩碼機制方面也做出了改進,它不同于BERT 模型隨機地遮蓋單個漢字,而是利用詞語掩碼和實體掩碼來遮蓋詞語或命名實體,因為漢語的語法結構不同于其他語言,如果只遮蓋某個單獨漢字,極大可能會拆散字詞間的關系,導致特征提取不準確,而ERNIE 模型的掩碼機制能很好地預測完整語義信息。
1.2 TCN網(wǎng)絡
TCN(Temporal Convolutional Network) 網(wǎng)絡基于卷積神經(jīng)網(wǎng)絡的時間序列進行建模,一般用于時序數(shù)據(jù)的建模任務,其主要思想是利用卷積神經(jīng)網(wǎng)絡提取數(shù)據(jù)中的特征,通過殘差網(wǎng)絡進一步優(yōu)化模型的性能。相較于傳統(tǒng)的循環(huán)神經(jīng)網(wǎng)絡,TCN網(wǎng)絡在處理長序列數(shù)據(jù)時更為高效,而且可以避免梯度消失的問題。TCN網(wǎng)絡所具有的因果卷積和膨脹卷積,不僅可以用于時間序列預測,而且在語音識別、自然語言處理、圖像處理等多個領域也得到了廣泛應用。TCN網(wǎng)絡的模型結構如圖1所示。
1.3 GRU網(wǎng)絡
GRU(Gated Recurrent Unit) 網(wǎng)絡,即門控循環(huán)單元,是傳統(tǒng)循環(huán)神經(jīng)網(wǎng)絡的變體模型。相比傳統(tǒng)的循環(huán)神經(jīng)網(wǎng)絡,GRU具有更好的長期記憶能力和更少的參數(shù)量,可以有效避免傳統(tǒng)RNN中遇到的梯度消失和梯度爆炸問題。GRU的結構也比較簡單,由更新門、重置門和候選隱藏狀態(tài)組成。其中,更新門控制了前一時刻的隱藏狀態(tài)有多少信息需要傳遞給當前時刻,重置門控制了前一時刻的隱藏狀態(tài)需要被多大程度地忘記,而候選隱藏狀態(tài)則是當前時刻的輸入和前一時刻的隱藏狀態(tài)的線性組合。GRU網(wǎng)絡結構如圖2 所示:
2 基于預訓練模型的雙通道情感分類方法
由于情感特征的提取具有一定的復雜性,因此基于深度學習的神經(jīng)網(wǎng)絡方法目前仍是情感分類任務中研究最為廣泛的方法之一。黃澤民等人[8]提出在BERT模型的預訓練下,利用BiSRU網(wǎng)絡和注意力機制進行情感特征提取。胡玉琦等人[9]針對文本評論數(shù)據(jù)利用BiGRU-CNN模型和注意力機制進行情感分類任務。蘇天等人[10]提出利用BERT模型結合BiGRU網(wǎng)絡對水利新聞數(shù)據(jù)進行情感分析研究。本文基于Adabelief 算法,并結合ERNIE 預訓練語言模型和TCN、Att-BiGRU雙通道網(wǎng)絡提出了一種基于預訓練模型的雙通道情感分類方法。其結構如圖3所示:
2.1 預訓練層
原始文本數(shù)據(jù)經(jīng)過預處理后以詞向量的形式輸入預訓練層中,經(jīng)過多層的雙向Transformer 進行訓練后形成最終的文本特征。該模型中預訓練層使用ERNIE模型,由于ERNIE模型基于雙向結構的Trans?former進行訓練,且本身具有多頭注意力機制,因此能夠很好地增強文本的情感語義特征表示,其計算方式如下所示:
2.2 雙通道層
在模型的特征提取部分,分別使用TCN網(wǎng)絡和Att-BiGRU網(wǎng)絡進行數(shù)據(jù)特征的訓練提取。由于兩種網(wǎng)絡模型在文本特征的處理上有著各自不同的優(yōu)勢,利用雙通道模型進行文本信息提取,再對兩者進行特征融合,從而獲取到更豐富的情感特征信息。
1) TCN網(wǎng)絡
TCN網(wǎng)絡所具有的因果卷積和膨脹卷積,能夠很好地對時序數(shù)據(jù)進行處理。因果卷積具有嚴謹?shù)囊蚬?,它只能利用當前時刻之前的時間步信息來進行預測,而不能利用之后的時間步信息進行預測,因此,可以有效避免未來因素所造成的影響。將預訓練后得到的特征輸入TCN網(wǎng)絡中,從右至左進行計算來提取特征,其公式如式(13)所示:
3 實驗與分析
3.1 實驗環(huán)境及參數(shù)設置
實驗所使用的操作系統(tǒng)為Windows10,內(nèi)存為32GB,CPU 為英特爾的E5-2678v3,GPU 為NVIDIARTX3080。模型所用的深度學習框架為PyTorch,在Pycharm上使用Python3.8完成編程和訓練。
實驗參數(shù):ERNIE預訓練模型保持原有的默認參數(shù)不變;TCN網(wǎng)絡的卷積層數(shù)為4,卷積核大小為3,膨脹因子為2,詞向量維度為768。另外,學習率為1e-5,損失率為0.25,BiGRU的隱藏層為256,使用ReLU 作為激活函數(shù),Adabelief 算法作為模型訓練時的優(yōu)化器。
3.2 數(shù)據(jù)集及評價指標
1) 實驗數(shù)據(jù)集
本模型訓練所用的數(shù)據(jù)集為中文情感分析語料庫提供的新浪微博評論數(shù)據(jù)集和平板商品評論數(shù)據(jù)集,所有數(shù)據(jù)均按積極和消極兩類情感進行了標注,并按照8:2劃分訓練集和測試集。數(shù)據(jù)集條目統(tǒng)計及示例如表1、表2所示。
其中,TP 表示將正樣本預測為正樣本的數(shù)量;FP表示將負樣本預測為正樣本的數(shù)量;FN 表示將正樣本預測為負樣本的數(shù)量。
3.3 結果分析與對比
1) 評價指標對比
為證明該雙通道模型在情感分類任務中的有效性,該實驗從精確率、召回率和F1值方面,對該模型進行消融實驗對比分析。實驗結果如圖4、圖5所示:
通過圖4、圖5可知,在新浪微博評論數(shù)據(jù)集上,TCN+Att-BiGRU 模型相比單一的TCN 和Att-BiGRU 模型,F(xiàn)1值分別提升了2.05%和1.98%,在平板商品評論數(shù)據(jù)集上,則提升了2.4%和2.3%,這是由于雙通道模型對各自提取的特征進行融合后,所提取的情感特征更加豐富;在新浪微博評論數(shù)據(jù)集上,RENIETCN+Att-BiGRU 模型相比于TCN+Att-BiGRU 模型,F(xiàn)1值提升了3.24%,在平板商品評論數(shù)據(jù)集上,則提升了3.51%,這說明使用ERNIE模型進行預訓練后,使得詞向量的情感特征表示更加充分,模型性能有了很大提升;本文模型相比于RENIE-TCN+Att-BiGRU 模型,在兩個數(shù)據(jù)集上,其F1值則分別提升了0.32% 和0.26%,這主要是由于該模型在訓練過程中引入了Adabelief算法,在加速收斂的同時,也使模型的訓練更加穩(wěn)定,因此其性能指標也有所上升。
2) 優(yōu)化算法收斂性對比
為證明基于Adabelief算法的雙通道模型在情感分類任務中的有效性,分別將Adam算法和Adabelief 算法的損失率情況進行了對比。對比結果如圖6、圖7 所示:
由圖6和圖7可以看出,在新浪微博評論數(shù)據(jù)集上,基于Adabelief算法的雙通道模型在訓練之初,其收斂速度就要明顯優(yōu)于Adam算法,雖然在訓練到2000步時發(fā)生了波動,但在3 000步左右時又很快恢復了正常收斂,并保持穩(wěn)定狀態(tài),損失率最終收斂到0.22。在平板商品評論數(shù)據(jù)集上,基于Adabelief算法的雙通道模型仍然在訓練開始時,其收斂速度仍然優(yōu)于Adam算法,雖然在訓練到1 000步左右時發(fā)生了波動,但在3 000步之后又開始正常收斂,并逐漸超越Adam算法,最終損失率保持到0.18。整體可知,基于Adabelief算法的雙通道模型在情感分類任務上,其收斂速度更快,具有較強的泛化性,整體表現(xiàn)性能要優(yōu)于Adam算法。
4 結束語
針對中文文本情感分類任務,本文提出了一種基于預訓練模型的雙通道情感分類方法。通過將處理后的文本數(shù)據(jù)輸入ERNIE 模型中進行預訓練,然后將預訓練后的特征向量分別輸入TCN 網(wǎng)絡和Att-BiGRU網(wǎng)絡中進行特征提取,最后將雙通道模型獲取的特征進行融合拼接后經(jīng)由Softmax計算輸出。同時在訓練過程中,使用Adabelief算法進行模型優(yōu)化。經(jīng)實驗證明,該模型在新浪微博評論數(shù)據(jù)集和平板商品評論數(shù)據(jù)集上各方面表現(xiàn)性能均優(yōu)于對比模型。下一步,將對更加復雜的多模態(tài)情感分類任務展開研究,進一步提升情感分類應用范圍。