陳潔
摘? 要: 預(yù)訓(xùn)練語言模型具有強(qiáng)大的特征表達(dá)能力但無法直接應(yīng)用于長文本。為此,提出分層特征提取方法。在BERT允許的最大序列長度范圍內(nèi)按句子的自然邊界分割文本,應(yīng)用自注意力機(jī)制獲得首塊和尾塊的增強(qiáng)特征,再利用PCA算法進(jìn)行壓縮獲取主要特征成分。在THUCNews和Sogou數(shù)據(jù)集上進(jìn)行5折交叉驗證,分類準(zhǔn)確率和加權(quán)F1-score的均值分別達(dá)到95.29%、95.28%和89.68%、89.69%。該方法能夠提取與主題最相關(guān)的特征,提高長文本分類效果,PCA壓縮特征向量能夠降低分類模型的復(fù)雜度,提高時間效率。
關(guān)鍵詞: 文本分類; 預(yù)訓(xùn)練語言模型; 注意力機(jī)制; 特征向量; PCA
中圖分類號:TP391.1? ? ? ? ? 文獻(xiàn)標(biāo)識碼:A? ? ?文章編號:1006-8228(2023)05-136-04
Research on long text classification based on the combination of BERT
feature representation and attention mechanism
Chen Jie
(School of Data Science and Information Technology, China Women's University, Beijing 100101, China)
Abstract: The pre-trained language models have strong feature expression ability, but could not be applied to long text directly. A hierarchical feature extraction method is proposed for this purpose. Within the maximum sequence length allowed by BERT, the text is segmented into blocks according to the natural boundary of the sentence. The self-attention mechanism is applied to obtain the enhanced features of the first block and the last block. Then PCA algorithm is used to compress the initial feature vector to obtain the main feature components. The 5-fold cross validation is carried out on THUCNews and Sogou datasets, and the mean values of the classification accuracy and weighted F1-score on the two datasets are 95.29%, 95.28% and 89.68%, 89.69%, respectively. The proposed classification model can extract the text features most related to the topic and improve the classification effect of long text. PCA compression feature vector can reduce the model complexity and improve time efficiency.
Key words: text classification; pre-trained language model; attention mechanism; feature vector; PCA
0 引言
海量文本的自動分類在知識發(fā)現(xiàn)、主題挖掘、輿情監(jiān)控等任務(wù)中發(fā)揮了巨大作用,成為自然語言處理(NLP)的重要研究內(nèi)容。文本表征對文本分類效果至關(guān)重要,長文本因其語義更加多樣化,文本蘊(yùn)含的主題不惟一且存在冗余和噪聲等問題,增加了分類難度。
傳統(tǒng)的向量空間模型可以生成文本特征向量,但丟失詞序,不能表征全局語義。神經(jīng)網(wǎng)絡(luò)語言模型可以獲得分布式文本表示,使得文本能基于語義關(guān)聯(lián)進(jìn)行分類。目前,神經(jīng)網(wǎng)絡(luò)分類模型的文本表征有基于詞嵌入方式和基于預(yù)訓(xùn)練語言模型方式。
以BERT[1]為代表的預(yù)訓(xùn)練模型具有強(qiáng)大的特征提取功能,但是Transformer結(jié)構(gòu)對輸入序列有一個固定的長度限制,在BERT中最大為512?;贐ERT模型,層次法成為長文本編碼的主要方式。文獻(xiàn)[2]以句子為單位進(jìn)行編碼,以首句作為主題句,采用首句拼接注意力加權(quán)句向量方式生成文檔向量,由于句子長短不一,短句通常包含較少的上下文信息,并且如果首句不是主題句則會影響文檔表征效果。文獻(xiàn)[3]以200字的文本片段分割文檔,對每個片段進(jìn)行嵌入表示,兩個連續(xù)片段之間有50字的重疊,然后利用LSTM循環(huán)神經(jīng)網(wǎng)絡(luò)組合各個片段向量獲得全局特征表示;文獻(xiàn)[4]將長文本分割為500字的重疊塊,再通過平均池化獲得全局特征表示,根據(jù)固定長度劃分序列,沒有考慮句子的自然邊界,會因分割片段在語義上的不完整而影響整體的語義理解。
針對已有研究中存在的問題,構(gòu)建HT-ATT-CONC模型,在BERT允許的最大序列長度范圍內(nèi),將文檔分割為具有完整語義的數(shù)據(jù)塊,再結(jié)合文本分類任務(wù)的特點,利用BERT編碼并結(jié)合自注意力機(jī)制整合數(shù)據(jù)塊,有效獲取全局語義表征,在THUCNews和Sogou新聞數(shù)據(jù)集上通過5折交叉驗證模型在長文本上的分類性能。
1 注意力機(jī)制
BERT采用深度雙向Transformer結(jié)構(gòu),使用多頭自注意力(Self-Attention)機(jī)制對文本建模,不僅可以捕捉長距離的文本特征,而且在編碼當(dāng)前單詞的時候還關(guān)注上下文中和它有關(guān)的單詞,將注意力集中在重要的信息上,并通過深層網(wǎng)絡(luò)結(jié)構(gòu)學(xué)習(xí)深層次的上下文關(guān)聯(lián),增強(qiáng)了模型的表達(dá)能力。注意力機(jī)制的核心邏輯就是從全局信息中挖掘重點信息,并給予更多的重視[5]。
利用Self-Attention機(jī)制,可以通過注意力分布生成不同的權(quán)重,使得權(quán)重與數(shù)據(jù)本身的重要性相關(guān),即焦點詞語的權(quán)重大,由此得到目標(biāo)字的注意力加權(quán)值,獲取全局上下文信息[6,7]。
2 BERT與注意力機(jī)制結(jié)合的分類模型
利用BERT進(jìn)行長文本編碼,為了獲取全局語義特征,需要切分文本,再組合分片向量以解決文檔碎片問題。本文構(gòu)建HT-ATT-CONC模型,首先將文本分割為具有完整語義的數(shù)據(jù)塊,并對每個數(shù)據(jù)塊進(jìn)行嵌入表示;再利用自注意力機(jī)制整合塊向量,突出與分類主題最相關(guān)的內(nèi)容特征;最后通過一個全連接層和Softmax層,完成文本分類。
2.1 分割文本塊
從閱讀行為可知:段落比單個句子會包含更多與文本主題相關(guān)的語義;文本中存在的各種標(biāo)點符號對閱讀起著重要作用,保持這種分割可以有效保留原始文本中的語義信息;新聞首尾部分的內(nèi)容通常與新聞主題的相關(guān)性最大。
為此,在BERT允許的最大序列長度范圍內(nèi),將文本分割為具有完整語義的文本塊。方法如下:
⑴ 按照句子的自然邊界,將文檔分割為不超過 510字符的數(shù)據(jù)塊,數(shù)據(jù)塊中的句子保持完整,不跨段,否則將最后一句劃分到下一個數(shù)據(jù)塊。
⑵ 分割后的數(shù)據(jù)塊如果超過三個,則調(diào)整最后兩塊,從后往前截取不超過510字符的內(nèi)容,數(shù)據(jù)塊中的句子保持完整。
2.2 文檔特征表示
⑴ 文本塊的編碼
在BERT模型中,“[CLS]”作為特殊字符,本身不具備任何語義,可用來代表輸入文本的綜合語義信息,本文用該字符的嵌入表示作為每個數(shù)據(jù)塊的特征向量,文檔中第i個數(shù)據(jù)塊的特征編碼為Ei。
預(yù)訓(xùn)練語言模型利用不同領(lǐng)域的大規(guī)模語料預(yù)訓(xùn)練以學(xué)習(xí)通用的先驗語義知識,生成的向量維度通常都是上百維,而下游任務(wù)一般只涉及某個領(lǐng)域的應(yīng)用,因此可以利用PCA(Principal Component Analysis,主成分分析法)算法對分布式表示的Ei進(jìn)行壓縮,提取主要特征成分。
⑵ 全局語義表征
為獲得全局語義特征,需要組合文檔中的塊向量。Self-Attention具有關(guān)注全局又聚焦重點的特性,并且新聞的首尾部分通常與主題的相關(guān)性更高,為此,將文檔中的各個塊向量分別與首塊和尾塊對齊,通過注意力權(quán)重突出與分類主題最相關(guān)的內(nèi)容特征。本文采用Scaled dot-product attention方法進(jìn)行注意力加權(quán):
[α=softmaxQKTd] ? ⑴
[att=α*V]? ⑵
Q(Query)表示目標(biāo)文本、K(Key)表示上下文中的文本、V(Value)表示文本塊的原始向量,通過計算Q和K的注意力得分對V加權(quán)。[α]為注意力權(quán)值,利用Softmax函數(shù)進(jìn)行歸一化,得到(0,1)范圍的注意力分布;d是一個調(diào)節(jié)參數(shù),較小的取值可以保持指數(shù)函數(shù)的輸入盡可能大,關(guān)注最重要的文本塊;[att]為注意力加權(quán)向量,代表目標(biāo)向量Q的增強(qiáng)語義表示。
具體過程如下:
⑴ 利用PCA算法來對Ei進(jìn)行主成分分析,得到降維后的特征編碼Ei。
⑵ 利用公式⑴計算文檔第一個塊向量E0對文檔所有塊向量Ej(j=0,1,2,…,n-1)的注意力得分(Q為E0,K、V為Ej)得到注意力加權(quán)的文檔特征向量Eatt(h),第一個數(shù)據(jù)塊的特征權(quán)重最大,其次是與第一塊關(guān)系密切的其他數(shù)據(jù)塊,由此,可以增強(qiáng)首塊的語義表示,使分類特征更加顯著。
⑶ 利用公式⑴計算文檔最后一個塊向量En-1對文檔所有塊向量Ej的注意力得分,得到注意力加權(quán)后的文檔特征向量Eatt(t),增強(qiáng)尾塊的語義表示。
⑷ 將Eatt(h)與Eatt(t)進(jìn)行拼接,得到文檔表征E,作為初始的分類特征向量。
[E=Eatt(h)⊕Eatt(t)] ⑶
2.3 分類性能度量
本文采用準(zhǔn)確率(Acc)和加權(quán)F1-score(WF1)來評價模型的性能。
準(zhǔn)確率是分類正確的樣本數(shù)占總樣本數(shù)的比例,計算公式為:
[acc=TP+TNTP+FP+TN+FN] ⑷
其中,TP表示正確分類的樣本數(shù),F(xiàn)P表示錯誤分類的樣本數(shù)。
F1-score是精確率P和召回率R的調(diào)和值,是一個綜合指標(biāo)。當(dāng)數(shù)據(jù)類別不平衡時,加權(quán)F1-score(WF1)可以更準(zhǔn)確的評價分類性能,計算公式為:
[F1=2*P*RP+R] ⑸
[WF1=i=1kwi*F1i] ? ⑹
其中,k是樣本類別數(shù),[wi]是數(shù)據(jù)集中第i類樣本占總樣本的比例,[F1i]是第i類樣本的F1-score。
3 實驗與結(jié)果分析
3.1 實驗設(shè)置
⑴ 實驗數(shù)據(jù)集
實驗選擇THUCNews 和Sogou兩個公開的新聞數(shù)據(jù)集進(jìn)行測試,隨機(jī)選擇長度在100~10000之間的新聞,如表1所示。
⑵ 數(shù)據(jù)塊編碼與對比模型
實驗采用BERT改進(jìn)版的Roberta(Chinese_Roberta_wwm_ext)作為編碼器,嵌入向量的維度為768,Roberta在訓(xùn)練語料和MASK方式上與BERT存在差異,編碼效果更出色。利用THUCNews數(shù)據(jù)集微調(diào)后再編碼。對比實驗有以下4種,文本特征維度均為768。
① Baseline模型:使用文本第一個數(shù)據(jù)塊的特征向量作為文檔的特征表示。
② H-ATT模型:使用注意力加權(quán)的首塊特征向量作為文檔的特征表示。
③ HT-CONC模型:使用PCA算法對初始塊向量進(jìn)行主成分分析,得到維度為384的新的塊向量,再將首塊與尾塊拼接,得到文檔特征向量。
④ HT-ATT-CONC模型:使用PCA算法對初始塊向量進(jìn)行主成分分析,得到維度為384的新的塊向量,再將注意力加權(quán)后的首塊與尾塊拼接,得到文檔特征向量。
3.2 實驗結(jié)果
基于Keras的bert4keras框架構(gòu)建模型,分類訓(xùn)練和預(yù)測的神經(jīng)網(wǎng)絡(luò)包含一個全連接層、Dropout層和Softmax層,使用 ADAM 優(yōu)化器。采用5折交叉驗證,用5次結(jié)果的準(zhǔn)確率(Acc)和加權(quán)F1-score(WF1)的均值作為分類性能的評估。為考查長文本特征表示方法在分類應(yīng)用上的效果,進(jìn)一步對不同長度范圍內(nèi)不同類別的文檔分別評估Acc和WF1性能。
⑴ THUCNews數(shù)據(jù)集的實驗結(jié)果
全連接層的隱藏單元數(shù)為64,Softmax層的隱藏單元數(shù)為14,結(jié)果如表2所示。
Baseline模型的ACC均值和WF1均值都超過94%,表明文檔開頭部分包含了較強(qiáng)的主題特征。三種對比模型的分類性能均超過Baseline,說明對文檔開頭和結(jié)尾部分的特征補(bǔ)充,可以增強(qiáng)主題特征,提高分類效果。其中,H-ATT模型通過注意力機(jī)制關(guān)注了文檔其他部分的相關(guān)特征;HT-CONC模型通過文檔首尾兩部分特征的拼接表達(dá)全局語義,這也表明,新聞?wù)Z料的開頭和結(jié)尾部分通常包含了更多的主題特征;HT-ATT-CONC模型不僅利用了首、尾部分的特征信息,還通過注意力機(jī)制融合了文檔其他部分特征,因此模型效果最好,與Baseline相比,ACC均值提高1.134%,WF1均值提高1.142%,
對于長度大于1000的樣本,HT-ATT-CONC模型的WF1均值提高了1.56%,表明該模型能夠很好地提取THUCNews實驗集中長文檔的主題特征。
⑵ Sogou數(shù)據(jù)集的實驗結(jié)果
全連接層的隱藏單元數(shù)為128,softmax層的隱藏單元數(shù)為10,結(jié)果如表3所示。
Baseline模型的ACC均值和WF1均值都超過88%,三種對比模型的分類性能均超過Baseline,且HT-ATT-CONC模型效果最好,與Baseline相比,ACC均值提高1.128%,WF1均值提高1.140%。對于長度大于1000的樣本,HT-ATT-CONC比Baseline模型的WF1均值提高了1.47%。
⑶ 壓縮文檔特征對分類性能的影響
上述模型采用PCA算法降維,文檔特征維度均為768。若直接使用初始特征,則文檔特征的維度為1536,使用HT-ATT-CONC模型在兩個數(shù)據(jù)集上的分類結(jié)果如表4所示。
特征維度為1536時的分類性能并沒有明顯的改善,甚至稍有降低;而且,訓(xùn)練參數(shù)增多,也增加了模型的訓(xùn)練時間。采用PCA算法對數(shù)據(jù)塊的初始特征進(jìn)行降維,提取主要特征再進(jìn)行分類是有效的。
4 結(jié)束語
BERT具有強(qiáng)大的特征提取能力,注意力機(jī)制具有關(guān)注全局又聚焦重點的特性,將二者結(jié)合應(yīng)用于長文本特征表示,構(gòu)建HT-ATT-CONC分類模型,在分割文檔時保證語義的完整性、在應(yīng)用注意力時選擇合適的對齊目標(biāo),對文檔開頭部分和結(jié)尾部分進(jìn)行語義增強(qiáng)表示,再將兩者拼接起來,形成全局語義表征,能夠提高長文檔分類效果。
HT-ATT-CONC模型在一些數(shù)據(jù)上的分類性能不太顯著,后續(xù)將進(jìn)一步改進(jìn),應(yīng)用多頭注意力使提取的語義信息特征更為全面和魯棒,以取得更好的分類效果。
參考文獻(xiàn)(References):
[1] DEVLIN J, CHANG M W, LEE K, et al. BERT: pre-
training of deep bidirectional transformers for language understanding[EB/OL].(2019-05-24)[2022-10-7].https://arxiv.org/pdf/1810.04805.pdf.
[2] 葉瀚,孫海春,李欣等.融合注意力機(jī)制與句向量壓縮的長文
本分類模型[J].數(shù)據(jù)分析與知識發(fā)現(xiàn),2022(6):84-94
[3] Raghavendra Pappagari,Piotr Zelasko,Jesus Villalba etal.
Hierarchical Transformers for Long Document Classification[EB/OL].(2019-10-23) [2022-10-07].https://arxiv.org/pdf/1910.10781.pdf.
[4] Mandal A, Ghosh K, Ghosh S et al. Unsupervised
approaches for measuring textual similarity between legal court case reports. Artificial Intelligence and Law[J].Springer,2021,(29):417-451
[5] Vaswani A, Shazeer N, Parmar N, et al. Attention is all you
need[C]//Proceedings of the Advances in neural information processing systems.2017:5998-6008
[6] Guo Q,Qiu X,Liu P,et al. Multi-Scale Self-Attention for
Text Classification[J].American Association for Artificial Intelligence(AAAI),2020,34(5):7847-7854
[7] Ran Jing.A Self-attention Based LSTM Network fffor Text
Classification[C]//Proceedings of 2019 3rd International Conference on Control Engineering and Artificial Intelligence(CCEAI 2019).Los Angeles,USA,2019:75-79