韓健 郝剛
摘要:針對(duì)預(yù)訓(xùn)練模型BRET所面臨的模型復(fù)雜、參數(shù)規(guī)模大帶來(lái)的訓(xùn)練難度提升問(wèn)題,提出一種基于 ALBERT(A Little BERT)的情感分析模型ALBERT-BiGRU-attention-CRF。在online_shopping_10_cats 網(wǎng)絡(luò)購(gòu)物評(píng)論數(shù)據(jù)集上取得了93.58%的 F1 值,同傳統(tǒng)BiGRU-CRF 等情感分析模型相比均有所提升,同BERT 模型相比在P值上提升0.61%,且縮短將近一半運(yùn)行速度時(shí)間。實(shí)驗(yàn)結(jié)果最終表明該模型在縮減模型參數(shù)需求,增加運(yùn)行效率的同時(shí)能有效保留類似 BERT 模型的模型表現(xiàn)。
關(guān)鍵詞:中文情感分析;ALBERT預(yù)訓(xùn)練模型;雙向門(mén)控制循環(huán)單元網(wǎng)絡(luò)BIGRU;注意力機(jī)制Attention
中圖分類號(hào):TP391? ? ? ? 文獻(xiàn)標(biāo)識(shí)碼:A
文章編號(hào):1009-3044(2022)01-0012-03
文本中的情感分析作為一項(xiàng)自然語(yǔ)言處理(Natural Language Processing, NLP)中的基本任務(wù),目標(biāo)是從具有強(qiáng)主觀性的文本中抽取出文章作者的情感。Bengio等人最早在語(yǔ)言模型中加入了神經(jīng)網(wǎng)絡(luò)[1]。
Bahdanau等人提出了注意力機(jī)制理論,Mnih等人在RNN模型上使用了注意力機(jī)制來(lái)進(jìn)行圖像分類的成功,使注意力機(jī)制廣受關(guān)注[2]。王偉等人提出BiGRU-Attention模型進(jìn)行情感分類[3]。楊東等人提出了Attention-C-GRU模型,有效提高了F值[4]。鄭雄風(fēng)等人提出將雙向GRU和Attention機(jī)制與產(chǎn)品文本分類融合一起,提升了模型的訓(xùn)練速度和準(zhǔn)確率[5] 。趙勤魯?shù)热颂岢隽薒STM-Attention模型,有效地提取了文本語(yǔ)義結(jié)構(gòu)相關(guān)的信息[6]。朱星嘉等人提出了改進(jìn)的Attention-Based LSTM特征選擇模型,強(qiáng)化提取了文本的重點(diǎn)特征信息[7]。白靜等人提出將BiLSTM、CNN、Attention機(jī)制融合的混合神經(jīng)網(wǎng)絡(luò)進(jìn)行兩種特征融合的分類[8]。司念文等人提出的Attention和LSTM混合模型可以高效地對(duì)中文詞性進(jìn)行標(biāo)注[9]。以上機(jī)制的成功均說(shuō)明了恰當(dāng)引用注意力機(jī)制可以有效提高情感分析的準(zhǔn)確率。
為了將人類語(yǔ)言轉(zhuǎn)換化成計(jì)算機(jī)理解的語(yǔ)言,需要文本向量化技術(shù)。One-hot向量可以解決此問(wèn)題,但One-hot向量在處理具有順序特征的信息文本時(shí)暴露出很大的局限性,它未將詞序也作為參考條件,因此提取的特征散亂無(wú)章。基于上述問(wèn)題,2018年谷歌提出了能解決一詞多義基于字符的文本向量化模型BERT模型[10]。
本文構(gòu)建了一個(gè)ALBERT-BiGRU-Attention-CRF綜合模型,相較于傳統(tǒng)的基于BiGRU模型,可以充分利用上下文信息解決一詞多義問(wèn)題。經(jīng)測(cè)試在準(zhǔn)確率和F1值方面取得了較好的分類效果。
1 相關(guān)工作
1.1 BERT預(yù)訓(xùn)練語(yǔ)言模型
在訓(xùn)練階段中主要將模型劃分為MASK LM(MLM)與“預(yù)知未來(lái)”任務(wù)。為訓(xùn)練雙向表征,該模型隨機(jī)將輸入的部分Token進(jìn)行遮蔽處理,對(duì)遮蔽的Token進(jìn)行預(yù)測(cè)。提取15%的訓(xùn)練集中的詞訓(xùn)練,將有80%的概率把其中被標(biāo)記的詞替換為MASK標(biāo)簽,而剩下的詞中的一半將替換成隨機(jī)詞,另一半保留原始Token,讓模型判斷打上MASK單詞的意義。為獲得能夠理解句子關(guān)系的模型,在“預(yù)知未來(lái)”任務(wù)中選擇句子甲和乙為預(yù)訓(xùn)練樣本:乙有可能是甲的下一句,或是存放在語(yǔ)料庫(kù)中的語(yǔ)句,判斷語(yǔ)句是否呈接續(xù)關(guān)系。
Input Embedding模塊將輸入詞進(jìn)行處理,獲取詞向量的同時(shí)對(duì)其位置信息進(jìn)行編碼化。MultiHead-attention模塊由多層自注意力層組成,可從語(yǔ)句中提取不同詞語(yǔ)的關(guān)聯(lián)。它的輸出會(huì)經(jīng)過(guò)ADD& Norm層。該層輸出將傳遞至前饋神經(jīng)網(wǎng)絡(luò)處,再次經(jīng)過(guò)ADD&Norm 層后進(jìn)行輸出。
1.2 雙向門(mén)控制循環(huán)單元網(wǎng)絡(luò)
GRU網(wǎng)絡(luò)模型使每一個(gè)循環(huán)單元都具備捕獲不同尺度時(shí)間依賴性的能力且具備自適應(yīng)性。單向的GRU結(jié)構(gòu)的狀態(tài)是單向傳播的,忽略了后文單詞對(duì)整體邏輯狀態(tài)的影響。而B(niǎo)iGRU的輸出受雙向影響,解決了單向GRU的問(wèn)題,結(jié)果更加穩(wěn)定、準(zhǔn)確。
1.3 注意力機(jī)制
早在2014年,注意力機(jī)制就在機(jī)器翻譯領(lǐng)域上因其出色的效果而備受關(guān)注。對(duì)于一個(gè)句子每個(gè)詞的重要程度不同,需提取重要的單詞的語(yǔ)義信息。注意力機(jī)制可以概括為由Encoder和Decoder兩部分組成。Encoder處理輸入數(shù)據(jù),Encoder得到輸出。
1.4 條件隨機(jī)場(chǎng)
條件隨機(jī)場(chǎng)(CRF)是一種綜合了隱馬爾可夫模型和最大熵模型的優(yōu)勢(shì)的概率無(wú)向圖模型。它通過(guò)觀察序列來(lái)推測(cè)對(duì)應(yīng)狀態(tài)序列,將鄰近的前后標(biāo)簽關(guān)系加工處理獲取最優(yōu)當(dāng)前標(biāo)記。
2 基于ALBERT-BiGRU的情感分析模型
本文提出了基于ALBERT-BiGRU-Attention-CRF情感分析模型。該模型主要由ALBERT向量表示層、BiGRU層、Attention層以及CRF層共同組成。通過(guò)ALBERT模型對(duì)輸入文本進(jìn)行編碼操作,從而獲取其對(duì)應(yīng)的詞向量,然后經(jīng)過(guò)BiGRU層雙向捕捉語(yǔ)義,再經(jīng)過(guò)Attention層對(duì)BiGRU層的隱含變量進(jìn)行加權(quán)運(yùn)算處理,獲取上下文信息,最后將處理后的信息送入CRF層進(jìn)行處理得到情感分析結(jié)果。如圖1所示為本文提出的模型的結(jié)構(gòu)圖。
2.1 ALBERT向量表示層
由于BERT模型參數(shù)量過(guò)于龐大,時(shí)間需求過(guò)高等缺點(diǎn),本文采用了優(yōu)化后的ALBERT模型。ALBERT模型基于BERT模型做了如下改進(jìn):
1)嵌入向量參數(shù)化的因式分解:基于模型結(jié)構(gòu)的限制,BERT模型中WordPiece embedding的大小E恒等于隱層大小H。詞嵌入僅對(duì)單詞進(jìn)行學(xué)習(xí),而隱層需要針對(duì)與上下文關(guān)系進(jìn)行學(xué)習(xí),后者需要更多的參數(shù),可以適當(dāng)增大H的大小,或者滿足H>>E。但現(xiàn)實(shí)情況下詞匯表V非常大,若維持E=H,增大隱層H會(huì)使得embedding matrix(V×E)的維度變得龐大。
為了打破E、H之間的綁定,將embedding matrix分解為兩個(gè)大小為V×E和E×H矩陣對(duì)嵌入向量參數(shù)化因式分解,提升模型表現(xiàn),使embedding matrix的維度從O(V×H)縮小至O(V×E+E×H)。當(dāng)H>>E時(shí),優(yōu)化將非常明顯。
2)共享跨層參數(shù)機(jī)制:在ALBERT中默認(rèn)共享全部參數(shù)。實(shí)驗(yàn)表明,當(dāng)加入上述機(jī)制后,基于L2距離以及余弦相似度的角度觀察該機(jī)制能使模型參數(shù)更趨于穩(wěn)定。
3)句間連貫性損失:BERT模型中,預(yù)訓(xùn)練任務(wù)Next-Sentence Prediction(NSP)的正例是文章中連續(xù)的句子,而負(fù)例則各從兩個(gè)文章中選擇一個(gè)構(gòu)成。它在對(duì)兩個(gè)句子的關(guān)系給出合理化推斷時(shí)綜合考慮了句子的連貫性與不同句子的主題,降低了判斷的難度。而ALBERT提出了Sentence-Order Prediction (SOP)任務(wù),SOP任務(wù)采用別無(wú)二致的正例,但負(fù)例是來(lái)源于相同的文章,改進(jìn)后兩個(gè)句子將具有同樣的主題,訓(xùn)練的主要任務(wù)傾向于句子的連貫性。
4)刪除drop out機(jī)制:在BERT模型中并未出現(xiàn)任何過(guò)擬合現(xiàn)象,刪除drop out機(jī)制可以進(jìn)一步提升模型表現(xiàn)。
2.2 BiGRU層
為了進(jìn)一步降低時(shí)間需求,不同于其他基于BiLSTM的情感分析模型,我們采用了BiGRU模型。同LSTM模型的繁雜冗余相比,GRU模型顯得更為簡(jiǎn)潔,其僅由更新門(mén)z和重置門(mén)r構(gòu)成,比LSTM少了一個(gè)門(mén),所以在訓(xùn)練的時(shí)候參數(shù)更少,收斂時(shí)間更快。
2.3 Attention層
在本模型中,Attention層的主要目的是衡量隱藏層向量特征的權(quán)重,通過(guò)對(duì)不同時(shí)刻的輸出根據(jù)權(quán)重計(jì)算,在此之上再進(jìn)行降噪處理。在傳統(tǒng)模型中,隱藏層特征的權(quán)重相同,先輸入的內(nèi)容會(huì)被稀釋掉,語(yǔ)義向量不能完整覆蓋。
2.4 CRF層
在實(shí)驗(yàn)中,BiGRU 模型的輸出是完全獨(dú)立的,雖然BiGRU學(xué)習(xí)到了輸入中前后信息的特征,但是不具備利用輸出標(biāo)簽的能力。因此本文在 BiGRU 后新增加了一層CRF層,從而增加效果的真實(shí)性。
3 實(shí)驗(yàn)與分析
3.1 數(shù)據(jù)集
實(shí)驗(yàn)采用了online_shopping_10_cats 網(wǎng)絡(luò)購(gòu)物評(píng)論數(shù)據(jù)集。該數(shù)據(jù)集種類繁雜且其評(píng)論覆蓋范圍極廣。本次實(shí)驗(yàn)從中均勻選取數(shù)據(jù):總數(shù)為22000條,測(cè)試集17600條,驗(yàn)證集2000條,測(cè)試集2400條。
3.2 實(shí)驗(yàn)環(huán)境
實(shí)驗(yàn)環(huán)境如表1所示。
3.3 評(píng)價(jià)指標(biāo)
本文采用的評(píng)價(jià)指標(biāo)為精確率(Precision,P)、召回率(Recall,R)和F1值。
其公式依次如公式(1)~(3)所示。
3.4 參數(shù)設(shè)置
在參數(shù)方面,本次實(shí)驗(yàn)設(shè)置文本最大長(zhǎng)度為128,batchsize設(shè)置為32,dropout 設(shè)置為 0.1,使用Adam優(yōu)化器,學(xué)習(xí)率初始值設(shè)為 2e-5。
3.5 對(duì)比實(shí)驗(yàn)設(shè)置與結(jié)果分析
實(shí)驗(yàn)設(shè)置多組對(duì)比實(shí)驗(yàn),除本文采用的網(wǎng)絡(luò)模型外,其他模型默認(rèn)輸入引用word2vec訓(xùn)練的詞向量,實(shí)驗(yàn)在測(cè)試集上測(cè)試的Precision、Recall、F1結(jié)果如表2所示。
從表3的六組模型的對(duì)比結(jié)果可以看出,SVM模型雖然取得了較好效果,但基于深度學(xué)習(xí)的其他五組模型均優(yōu)于SVM,BERT+BIGRU+CRF模型的三項(xiàng)結(jié)果表現(xiàn)均高于ALBERT+BIGRU+CRF模型,大約1%~2%,這是由于在使用ALBERT模型時(shí),大規(guī)模降低參數(shù)使用量的結(jié)果,使識(shí)別能力有小幅度下降。本文使用的ALBERT-BIGRU-Attention-CRF模型同其他模型相比,精確度的F1值高達(dá)94.06%,與其他五組模型相比均有小幅提升。說(shuō)明在BIGRU后加入Attention層,實(shí)體種類增加時(shí),注意力機(jī)制可以劃分實(shí)體邊界,提升效果,且以10個(gè)epoch為指標(biāo),基于ALBERT的模型用時(shí)約為5小時(shí),BERT模型超過(guò)10小時(shí),可見(jiàn)僅以運(yùn)行速度為考量,基于ALBERT的模型也有可觀的提升。說(shuō)明ALBERT 模型的優(yōu)化主要在于提升運(yùn)行速度、降低訓(xùn)練難度,在大幅減少訓(xùn)練時(shí)間、降低資源占用的情況下能最大限度地保留 BERT 的性能。
為進(jìn)一步展現(xiàn)模型的優(yōu)劣,本文在樣本總數(shù)為2400的測(cè)試集上進(jìn)行了測(cè)試。實(shí)驗(yàn)對(duì)TP值、TN值、FP值、FN值、TURE和FALSE六種數(shù)據(jù)進(jìn)行評(píng)判。為了便于統(tǒng)計(jì),我們將輸出結(jié)果大于0.5的值視為1,小于0.5的值視為0。測(cè)試結(jié)果如表3所示。
表3中ALBERT-BIGRU-Attention-CRF模型預(yù)測(cè)正確的次數(shù)最多,錯(cuò)誤的次數(shù)最少,可見(jiàn)ALBERT-BiGRU-Attention-CRF模型時(shí)效果最優(yōu)。
4 結(jié)束語(yǔ)
本文提出了一種基于ALBERT-BIGRU-Attention-CRF模型的中文文本情感分析方法。經(jīng)過(guò)在online_shopping_10_cats 網(wǎng)絡(luò)購(gòu)物評(píng)論數(shù)據(jù)集上進(jìn)行訓(xùn)練和測(cè)試,實(shí)驗(yàn)結(jié)果表明本文模型可以在時(shí)間需求很低的前提下有效地提高文本情感分類準(zhǔn)確率。但是對(duì)于表達(dá)相對(duì)曖昧的文本,識(shí)別置信度還需要進(jìn)一步提高。為進(jìn)一步提高模型性能,后續(xù)可以考慮從細(xì)化實(shí)體分類規(guī)則、擴(kuò)大預(yù)料集規(guī)模、替換其他預(yù)訓(xùn)練模型等方面著手進(jìn)行。
參考文獻(xiàn);
[1] Bengio Y.Learning deep architectures for AI[J].Foundations and Trends in Machine Learning,2009,2(1):1-127.
[2] Bahdanau D, Cho K, Bengio Y. Neural machine translation by jointly learning to align and translate[C]//Proceedings of the 3rd International Conference on Learning Representations.San Diego:ICLR,2015.
[3] 王偉,孫玉霞,齊慶杰,等.基于BiGRU-attention神經(jīng)網(wǎng)絡(luò)的文本情感分類模型[J].計(jì)算機(jī)應(yīng)用研究,2019,36(12):3558-3564.
[4] 楊東,王移芝.基于Attention-based C-GRU神經(jīng)網(wǎng)絡(luò)的文本分類[J].計(jì)算機(jī)與現(xiàn)代化,2018(2):96-100.
[5] 鄭雄風(fēng),丁立新,萬(wàn)潤(rùn)澤.基于用戶和產(chǎn)品Attention機(jī)制的層次BGRU模型[J].計(jì)算機(jī)工程與應(yīng)用,2018,54(11):145-152.
[6] 趙勤魯,蔡曉東,李波,等.基于LSTM-Attention神經(jīng)網(wǎng)絡(luò)的文本特征提取方法[J].現(xiàn)代電子技術(shù),2018,41(8):167-170.
[7] 朱星嘉,李紅蓮,呂學(xué)強(qiáng),等.一種改進(jìn)的Attention-Based LSTM特征選擇模型[J].北京信息科技大學(xué)學(xué)報(bào)(自然科學(xué)版),2018,33(2):54-59.
[8] 白靜,李霏,姬東鴻.基于注意力的BiLSTM-CNN中文微博立場(chǎng)檢測(cè)模型[J].計(jì)算機(jī)應(yīng)用與軟件,2018,35(3):266-274.
[9] 司念文,王衡軍,李偉,等.基于注意力長(zhǎng)短時(shí)記憶網(wǎng)絡(luò)的中文詞性標(biāo)注模型[J].計(jì)算機(jī)科學(xué),2018,45(4):66-70,82.
[10] Devlin J, Chang M W,Lee K , et al. Bert: Pre-training of deep bidirectional transformers for language understanding [C]//Proceedings of the 2019 Conference of the North American Chapter of the Association for Computational Linguistics:Human Language Technologies,2019,1:4171-4186.
【通聯(lián)編輯:代影】
收稿日期:2021-05-26
作者簡(jiǎn)介:韓?。?993—),男,碩士研究生,CCF會(huì)員,主要研究方向?yàn)樽匀徽Z(yǔ)言處理;郝剛(1968—),男,通信作者,教授,CCF會(huì)員,主要研究方向?yàn)榫W(wǎng)絡(luò)信息安全、自然語(yǔ)言處理。
3778500589279