胡文燁 許鴻奎 郭旭斌 趙京政
摘? 要: 針對(duì)政務(wù)文本分析語(yǔ)境復(fù)雜、分類(lèi)準(zhǔn)確率低的問(wèn)題,提出基于BERT詞嵌入和BiLCNN-Attention混合模型的文本分類(lèi)方法。首先采用BERT模型對(duì)政務(wù)文本進(jìn)行詞嵌入向量表示,然后混合使用雙向長(zhǎng)短時(shí)記憶網(wǎng)絡(luò)BiLSTM和卷積神經(jīng)網(wǎng)絡(luò)CNN,同時(shí)引入注意力機(jī)制進(jìn)行特征提取,融合了時(shí)序特征及局部特征并使特征得到強(qiáng)化,最后使用Softmax進(jìn)行文本分類(lèi)。實(shí)驗(yàn)表明,BERT詞嵌入處理后混合模型的準(zhǔn)確率較CNN和BiLSTM模型分別提升了3.9%和2.51%。
關(guān)鍵詞: 政務(wù)文本分析; 詞嵌入; 雙向長(zhǎng)短時(shí)記憶網(wǎng)絡(luò); 卷積神經(jīng)網(wǎng)絡(luò); 注意力機(jī)制
中圖分類(lèi)號(hào):TP391.1? ? ? ? ? 文獻(xiàn)標(biāo)識(shí)碼:A? ? ?文章編號(hào):1006-8228(2023)06-92-05
Method of government text classification based on word embedding
and BiLCNN-Attention hybrid model
Hu Wenye1, Xu Hongkui1,2, Guo Xubin1, Zhao Jingzheng1
(1. School of Information and Electrical Engineering, Jinan, Shandong 250000, China;
2. Shandong Provincial Key Laboratory of Intelligent Buildings Technology)
Abstract: Aiming at the problems of complex context and low classification accuracy of government texts, a text classification method based on BERT word embedding and BiLCNN-Attention hybrid model is proposed. Firstly, the BERT model is used to represent the word embedding vector of the government text. Then, BiLSTM and CNN are mixed, and the attention mechanism is introduced for feature extraction. The timing features and local features are integrated and strengthened. Finally, Softmax is used for text classification. Experiments show that the accuracy of the hybrid model after BERT word embedding is improved by 3.9% and 2.51% compared with CNN and BiLSTM models, respectively.
Key words: analysis of government texts; word embedding; bi-directional long and short-term memory (BiLSTM); convolutional neural network (CNN); attention mechanism
0 引言
信息技術(shù)的快速發(fā)展為各行業(yè)發(fā)展注入了新的活力。隨著電子政務(wù)由信息化向智慧化轉(zhuǎn)變,文本分類(lèi)技術(shù)作為能夠加速政務(wù)工單審批、提高互動(dòng)效率的可行途徑之一,逐漸受到了廣泛認(rèn)可和關(guān)注[1]。
文本分類(lèi)研究始于二十世紀(jì)五十年代[2],其方法主要包括機(jī)器學(xué)習(xí)算法和深度學(xué)習(xí)算法[3],機(jī)器學(xué)習(xí)算法如樸素貝葉斯、支持向量機(jī)等,深度學(xué)習(xí)算法如卷積神經(jīng)網(wǎng)絡(luò)、循環(huán)神經(jīng)網(wǎng)絡(luò)等。政務(wù)文本分析語(yǔ)境,其復(fù)雜性所導(dǎo)致的數(shù)據(jù)與算法匹配不充分問(wèn)題是文本分類(lèi)的一個(gè)難點(diǎn)。要提高文本分類(lèi)準(zhǔn)確性,分類(lèi)模型構(gòu)建、詞嵌入表示及特征提取是重要環(huán)節(jié)。分類(lèi)模型需根據(jù)研究場(chǎng)景調(diào)整,文本詞嵌入在很大程度上決定了后續(xù)任務(wù)的整體性能,基于數(shù)據(jù)挖掘的特征提取可以構(gòu)建數(shù)學(xué)模型,以解決傳統(tǒng)二進(jìn)制表示[4]方法應(yīng)用時(shí)維度災(zāi)難的問(wèn)題。本文采用BERT模型作為詞嵌入表示,提出了BiLCNN-Attention混合神經(jīng)網(wǎng)絡(luò),實(shí)現(xiàn)對(duì)政務(wù)文本分類(lèi)效果的提升。
1 相關(guān)研究
政務(wù)文本分類(lèi)場(chǎng)景使用神經(jīng)網(wǎng)絡(luò)模型可自動(dòng)提取特征并進(jìn)行文本分類(lèi),而文本詞嵌入表示是提高模型效果的方法之一。2003年Bengio等人[5]提出了詞向量的概念,之后Collobert和Weston里程碑式的引入了神經(jīng)網(wǎng)絡(luò)模型結(jié)構(gòu)[6],2013年Tomas Mikolov[7]等提出word2vec,2018年ELMo模型[8]和BERT[9]模型相繼被提出。應(yīng)用方面,文獻(xiàn)[10-11]實(shí)現(xiàn)了BERT模型在政民互動(dòng)留言的分類(lèi),文獻(xiàn)[12]采用融合BERT和注意力機(jī)制的方法進(jìn)行中文文本分類(lèi)研究,文獻(xiàn)[13]將BERT與BiLSTM算法結(jié)合進(jìn)行命名實(shí)體識(shí)別。
在CNN的應(yīng)用發(fā)展中,2008年Collobert和Weston[14]率先提出了CNNs,2014年Kim Yoon[15]提出TextCNN模型用于文本分類(lèi)。RNN也用于文本分類(lèi),并衍生出了長(zhǎng)短期記憶網(wǎng)絡(luò)LSTM,在中文文本分類(lèi)上取得了較好結(jié)果。文獻(xiàn)[16-17]均采用CNN與LSTM模型結(jié)合的方式提高文本分類(lèi)任務(wù)的準(zhǔn)確性,文獻(xiàn)[18-19]融入了注意力機(jī)制,以更好的捕捉文本數(shù)據(jù)中的局部信息。
2 BERT詞嵌入和BiLCNN-Attention混合神經(jīng)網(wǎng)絡(luò)模型
2.1 BERT+BiLCNN-Attention模型
BERT+BiLCNN-Attention模型結(jié)構(gòu)如圖1所示。圖1中,預(yù)處理后的政務(wù)文本數(shù)據(jù)作為輸入,利用BERT模型進(jìn)行詞嵌入表示,而后輸入BiLCNN-Attention混合神經(jīng)網(wǎng)絡(luò)中進(jìn)行特征提取和學(xué)習(xí)并融合,經(jīng)過(guò)Softmax層進(jìn)行分類(lèi)結(jié)果預(yù)測(cè),輸出模型識(shí)別結(jié)果。
2.2 BERT詞嵌入模型
BERT作為動(dòng)態(tài)詞嵌入模型的典型代表,既可以直接進(jìn)行文本分類(lèi),也可以作為詞嵌入層處理文本數(shù)據(jù)。BERT模型架構(gòu)如圖2所示,它可以共同調(diào)節(jié)left-to-right和right-to-left的transformer,并通過(guò)將預(yù)訓(xùn)練模型和下游任務(wù)模型結(jié)合在一起,更注重于識(shí)別句子中單詞之間或句子之間的關(guān)系,使整體性能大大提升。
BERT詞嵌入的本質(zhì)是運(yùn)用自監(jiān)督的方法進(jìn)行特征學(xué)習(xí),并給目標(biāo)單詞或句子賦予特征表示。經(jīng)過(guò)BERT模型處理后的詞向量由三種不同向量求和而成,包括Token Embeddings、Segment Embeddings、Position Embeddings。按元素相加后得到(1,n,768)的合成表示,句向量之間的分隔以[CLS]作為開(kāi)頭標(biāo)記,[SEP]作為結(jié)尾標(biāo)記,加入向量表示結(jié)果中即為詞嵌入層的編碼結(jié)果。
2.3 BiLCNN-Attention混合神經(jīng)網(wǎng)絡(luò)
詞嵌入表示后的向量經(jīng)過(guò)BiLSTM和CNN處理形成特征向量,再引入Attention機(jī)制進(jìn)行參數(shù)優(yōu)化以提高模型的擬合能力,而后進(jìn)行特征融合,最后經(jīng)由sofmax層得到分類(lèi)預(yù)測(cè)結(jié)果。圖3為BiLCNN-Attention混合神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)圖。
2.3.1 BiLSTM模型
原始RNN在訓(xùn)練時(shí)容易出現(xiàn)梯度爆炸或梯度消失的問(wèn)題,因此不能處理距離較遠(yuǎn)的序列數(shù)據(jù),而LSTM能夠克服這一問(wèn)題。LSTM通過(guò)控制細(xì)胞狀態(tài)對(duì)信息進(jìn)行讀取、寫(xiě)入和刪除操作,其核心結(jié)構(gòu)如圖4所示。
LSTM細(xì)胞由輸入門(mén)、遺忘門(mén)、輸出門(mén)和單元狀態(tài)組成。其中輸入門(mén)決定當(dāng)前時(shí)刻輸入數(shù)據(jù)量[Ct],遺忘門(mén)決定上一時(shí)刻需要保留的狀態(tài)量[Ct-1],輸出門(mén)控制輸出量。以[ht-1]代表上一時(shí)刻輸出,[xt]代表當(dāng)前時(shí)刻輸入,[Vt]代表當(dāng)前時(shí)刻暫時(shí)狀態(tài),[ht]代表最終輸出,其工作過(guò)程如式⑴~式⑹所示。
[ft=σWf?ht-1,xt+bf]? ⑴
[it=σWx?ht-1,xt+bi]? ⑵
[Vt=tanhWc?ht-1,xt+bc]? ⑶
[Ct=ft*Ct-1+it*Vt]? ⑷
[Ot=σWo?ht-1,xt+bo]? ⑸
[ht=Ot*tanhCt]? ⑹
其中,[W]、[b]分別表示單元的權(quán)重向量和偏置值,[σ?]表示sigmoid激活函數(shù),[tanh]表示雙曲正切激活函數(shù)。
為了在特征提取中兼顧過(guò)去和未來(lái)時(shí)刻的序列信息,Graves等人[20]提出BiLSTM模型。BiLSTM模型由前向和后向的兩個(gè)LSTM疊加構(gòu)成,可以更好的捕捉雙向的語(yǔ)義依賴(lài)。在某一時(shí)刻[i],BiLSTM的輸出向量為前向和后向的向量按位加和操作結(jié)果,如式⑺表示:
[hi=hi⊕hi]? ⑺
2.3.2 CNN模型
CNN的核心結(jié)構(gòu)包括輸入層、卷積層、池化層以及全連接層。詞向量輸入CNN模型時(shí)工作過(guò)程如下。
對(duì)于輸入序列輸入序列[S=t1,…,tn],[S∈Rd×n],其中,[ti]為詞向量,[n]為詞向量數(shù)量,[d]為詞向量的維數(shù)。設(shè)置卷積核[K]進(jìn)行卷積操作[S∈Rd×h],[h]為卷積窗口取詞數(shù),則利用卷積核[K]對(duì)輸入序列[S]的卷積運(yùn)算及池化運(yùn)算如式⑻-式⑼表示:
[Ci=tanh
[yi=maxiCi]? ⑼
其中,[yi]為池化計(jì)算得到的向量結(jié)果,[yi∈R]。當(dāng)選擇不同尺度卷積核進(jìn)行卷積計(jì)算時(shí),將[yi]進(jìn)行向量合并,得到最終運(yùn)算結(jié)果。利用這種方式進(jìn)行卷積計(jì)算,可以更好的表征政務(wù)文本數(shù)據(jù)的特征。
2.3.3 Attention機(jī)制
注意力模型在訓(xùn)練過(guò)程中將計(jì)算每個(gè)單詞的權(quán)重系數(shù),計(jì)算過(guò)程如式⑽~式⑿所示:
[ei=tanh(hi)]? ⑽
[αi=Softmax(wTiei)]? ⑾
[yi=hiαTi]? ?⑿
其中,[hi]為特征提取層的模型輸出,[αi]為注意力權(quán)重系數(shù),[wi]為權(quán)重矩陣,[yi]為注意力機(jī)制的輸出。
本文聯(lián)合使用BiLSTM及CNN神經(jīng)網(wǎng)絡(luò)建立語(yǔ)義向量信息,在特征提取層的輸出端引入Attention機(jī)制,突顯語(yǔ)義信息與上下文之間的關(guān)聯(lián)性,有效增強(qiáng)語(yǔ)義信息的特征表達(dá),從而提升模型分類(lèi)性能。
3 實(shí)驗(yàn)
3.1 實(shí)驗(yàn)環(huán)境
實(shí)驗(yàn)基于Windows10操作系統(tǒng),CPU為Intel(R) Core(TM) i5-10300H CPU@2.50 GHz,內(nèi)存容量為16GB,GPU為NVIDIA GeForce GTX 1650,Python版本為3.7,Pytorch版本為1.5。
3.2 實(shí)驗(yàn)數(shù)據(jù)
實(shí)驗(yàn)數(shù)據(jù)來(lái)自政務(wù)熱線(xiàn)系統(tǒng)脫敏數(shù)據(jù),原始數(shù)據(jù)量123277條。文本類(lèi)型按照政務(wù)事件處理部門(mén)進(jìn)行直接劃分,類(lèi)型標(biāo)簽包含城管、交警、供電公司、管委會(huì)、熱電、民政、消防、林業(yè)等90個(gè)政務(wù)部門(mén)。原始數(shù)據(jù)采用隨機(jī)劃分的方式,將每個(gè)標(biāo)簽對(duì)應(yīng)的數(shù)據(jù)以8:1:1的比例劃分為訓(xùn)練集、驗(yàn)證集、測(cè)試集。使用訓(xùn)練集作為模型訓(xùn)練數(shù)據(jù),使用驗(yàn)證集在訓(xùn)練過(guò)程中評(píng)價(jià)模型性能,使用測(cè)試集在訓(xùn)練完成后評(píng)價(jià)模型性能。
3.3 實(shí)驗(yàn)評(píng)價(jià)指標(biāo)
實(shí)驗(yàn)過(guò)程中,模型性能評(píng)價(jià)指標(biāo)為準(zhǔn)確率(Accuracy)、精確率(Precision)、召回率(Recall)、F1分?jǐn)?shù),其中統(tǒng)計(jì)全類(lèi)別精確率、召回率、F1分?jǐn)?shù)的方法為macro方法。
3.4 實(shí)驗(yàn)設(shè)置
在綜合考慮實(shí)驗(yàn)中的準(zhǔn)確率與過(guò)擬合因素后,實(shí)驗(yàn)參數(shù)設(shè)置方面使用Adam優(yōu)化器,詞嵌入向量維度設(shè)置768,epoch參數(shù)設(shè)置20,學(xué)習(xí)率設(shè)置1e-5。
3.5 實(shí)驗(yàn)結(jié)果與分析
選擇不同的詞嵌入方式和不同的特征提取方法進(jìn)行對(duì)比實(shí)驗(yàn),實(shí)驗(yàn)結(jié)果如表1所示。
⑴ 在詞嵌入層上BERT模型具有明顯的性能優(yōu)勢(shì),各項(xiàng)性能指標(biāo)明顯高于word2vec,在與CNN、RNN/BiLSTM進(jìn)行融合時(shí),BERT+CNN的準(zhǔn)確率比word2vec+CNN高1.71%,BERT+BiLSTM的準(zhǔn)確率比word2vec+RNN高1.81%。
⑵ 在單一特征提取模型處理上,RNN/BiLSTM模型的處理效果優(yōu)于CNN模型,更適合處理政務(wù)文本分類(lèi)任務(wù)。
⑶ BERT+BiLCNN模型準(zhǔn)確率相較于BERT+CNN模型和BERT+BiLSTM模型分別提升了2.50%、1.11%??梢?jiàn),混合神經(jīng)網(wǎng)絡(luò)BiLCNN融合了BiLSTM以及CNN的特征和優(yōu)點(diǎn),使得特征向量表示信息更加豐富。
⑷ BERT+BiLCNN+Attention模型相較BERT+CNN、BERT+BiLSTM以及BERT+BiLCNN模型準(zhǔn)確率提升了3.9%、2.51%和1.4%,注意力機(jī)制的加入使得重點(diǎn)特征更加突出,類(lèi)別間特征區(qū)分更加明顯。
4 總結(jié)
本文基于實(shí)際應(yīng)用中政務(wù)熱線(xiàn)系統(tǒng)脫敏數(shù)據(jù)進(jìn)行文本分類(lèi)分析,提出了詞嵌入和BiLCNN-Attention混合神經(jīng)網(wǎng)絡(luò)的文本分類(lèi)方法。實(shí)驗(yàn)結(jié)果表明,BERT模型相較于word2vec模型表現(xiàn)出明顯的性能優(yōu)勢(shì),BiLCNN-Attention混合神經(jīng)網(wǎng)絡(luò)能夠融合多方優(yōu)點(diǎn),在特征向量表示上更加豐富,各項(xiàng)評(píng)價(jià)指標(biāo)都有所提升。
參考文獻(xiàn)(References):
[1] 陳思琪.基于深度學(xué)習(xí)的電子政務(wù)文本分類(lèi)算法研究[D].
碩士,西安電子科技大學(xué),2021
[2] 畢云杉.基于深度學(xué)習(xí)的中文文本分類(lèi)研究[D].碩士,浙江
科技學(xué)院,2021
[3] 賈澎濤,孫煒.基于深度學(xué)習(xí)的文本分類(lèi)綜述[J].計(jì)算機(jī)與
現(xiàn)代化,2021(7):29-37
[4] 李炳臻,劉克,顧佼佼,等.卷積神經(jīng)網(wǎng)絡(luò)研究綜述[J].計(jì)算機(jī)
時(shí)代,2021(4):8-12,17
[5] Bengio, Y., Ducharme, R., Vincent, P., & Jauvin, C.
(2003). A neural probabilistic language model. Journal of machine learning research,2003,3(Feb):1137-1155
[6] Collobert, R., & Weston, J. (2008). A unified architecture
for natural language processing. In Proceedings of the 25th International Conference on Machine Learning (pp. 160-167)
[7] Mikolov T, Chen K, Corrado G, et al. Efficient estimation
of word representations in vector space[J].arXiv preprint arXiv:1301.3781,2013
[8] Peters M, Neumann M, Iyyer M, et al. Deep Contextualized
Word Representations[C]// Proceedings of the 2018 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies, Volume 1 (Long Papers),2018
[9] Devlin J, hang Mingwei, ee K, et al. BERT: Pre-training of
eep Bidirectional Transformers for Language Understanding[J]. 2018
[10] 茶麗菊.基于深度學(xué)習(xí)的政民互動(dòng)留言文本分類(lèi)研究[D].
碩士,東華大學(xué),2022
[11] 范昊,何灝.融合上下文特征和BERT詞嵌入的新聞標(biāo)題分
類(lèi)研究[J].情報(bào)科學(xué),2022,40(6):90-97
[12] 孫紅,陳強(qiáng)越.融合BERT詞嵌入和注意力機(jī)制的中文文本
分類(lèi)[J].小型微型計(jì)算機(jī)系統(tǒng),2022,43(1):22-26
[13] 胡為,劉偉,石玉敬.基于BERT-BiLSTM-CRF的中醫(yī)醫(yī)案
命名實(shí)體識(shí)別方法[J].計(jì)算機(jī)時(shí)代,2022(9):119-122,135
[14] COLLOBERT R, WESTON J, BOTTOU L, et al. Natural
language processing (almost) from scratch[J]. Journal of machine learning research,2011,12(1):2493-2537
[15] YOON KIM. Convolutional Neural Networks for
Sentence Classification[C]. //Conference on empirical methods in natural language processing, (EMNLP 2014),25-29 October 2014, Doha,Qatar:Association for Computational Linguistics,2014:1746-1751
[16] 馬正奇,呼嘉明,龍銘,等.運(yùn)用CNN-LSTM混合模型的短
文本分類(lèi)[J].空軍預(yù)警學(xué)院學(xué)報(bào),2019,33(4):295-297,302
[17] 王星峰.基于CNN和LSTM的智能文本分類(lèi)[J].遼東學(xué)院
學(xué)報(bào)(自然科學(xué)版),2019,26(2):126-132
[18] 趙云山,段友祥.基于A(yíng)ttention機(jī)制的卷積神經(jīng)網(wǎng)絡(luò)文本
分類(lèi)模型[J].應(yīng)用科學(xué)學(xué)報(bào),2019,37(4):541-550
[19] 汪嘉偉,楊煦晨,琚生根,等.基于卷積神經(jīng)網(wǎng)絡(luò)和自注意力
機(jī)制的文本分類(lèi)模型[J].四川大學(xué)學(xué)報(bào)(自然科學(xué)版),2020,57(3):469-475
[20] Graves A, Schmidhuber J. Framewise phoneme classifi-
cation with bidirectional LSTM and other neural network architectures. Neural Networks,2005,18(5-6):602-610