李湘東 石健 孫倩茹 賀超城
(1. 武漢大學(xué)信息管理學(xué)院,武漢 430072;2. 武漢大學(xué)電子商務(wù)研究與發(fā)展中心,武漢 430072)
基于科學(xué)分類體系的分類法在網(wǎng)絡(luò)信息資源的系統(tǒng)組織和知識導(dǎo)航中具有重要作用。但隨著數(shù)字資源的激增,人工分類組織效率低下導(dǎo)致其中一些資源網(wǎng)關(guān)已停止服務(wù),迫切需要自動分類技術(shù)來解決上述問題[1]。在《中國圖書館分類法》(以下簡稱《中圖法》)中,同一大類的眾多下位類之間內(nèi)容十分相近、語義關(guān)聯(lián)度大、區(qū)分度小[2],這些下位類在自動分類研究中稱為內(nèi)容相近類目,是人工分類和自動分類的共同難點。
《中圖法》中存在大量內(nèi)容相近類目,例如E大類下的E271(中國陸軍)和E712.51(美國陸軍)。這兩個類別的書目信息雖然都是陸軍主題,但所使用的詞語里大多沒有明確提及中國或美國等地區(qū)概念,難以在E大類的二級層次分類時予以區(qū)分至E2或者E7之中,更多是通過“游擊隊”和“野戰(zhàn)排”、“坑道戰(zhàn)中使用手榴彈”和“叢林戰(zhàn)中使用手雷”等細微語義差別來區(qū)分,給基于機器學(xué)習方法的自動分類任務(wù)造成極大的困難。為切實提高區(qū)分兩個內(nèi)容相近類目文本之間細微語義差別的能力,本文以《中圖法》中兩個內(nèi)容相近類目的書目信息作為分類對象,針對目前主流的BERT(Bidirectional Encoder Representations from Transformers)深度學(xué)習模型不能充分利用學(xué)習到的全部語義信息的缺點,通過多層級注意力機制對BERT不同層參數(shù)進行動態(tài)融合,提出改進的BERT-MLDFA(BERT with Multi-Layers Dynamic Fusion based on Attention)模型,并在該模型的基礎(chǔ)上對任務(wù)數(shù)據(jù)集進一步預(yù)訓(xùn)練,提高分類效果。本研究提出的方法是實現(xiàn)3個及以上內(nèi)容相近類目之間自動分類的核心技術(shù),是實現(xiàn)《中圖法》自動分類的基礎(chǔ)性研究。
在《中圖法》的自動分類研究中,分類的對象一般是由題名、關(guān)鍵詞和摘要等構(gòu)成的文本信息,分類方法包括經(jīng)典機器學(xué)習方法和深度學(xué)習方法。有學(xué)者[3-6]使用最近鄰(K Nearest Neighbor,KNN)、樸素貝葉斯(Naive Bayes,NB)、支持向量機(Support Vector Machine,SVM)等經(jīng)典機器學(xué)習分類算法中的一種或多種在《中圖法》分類體系下對圖書、網(wǎng)頁或者其他類型的文獻進行自動分類。近些年,基于長短期記憶模型(Long Short-Term Memory,LSTM)、卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Networks,CNN)和BERT等深度學(xué)習模型在自動分類領(lǐng)域取得了極大的成功,鄧三鴻等[7]、郭利敏[8]和羅鵬程等[9]分別將LSTM、CNN和BERT用于《中圖法》自動分類中,均取得了不錯的分類效果。以上研究有一個共同點,即這些分類研究的對象一般是《中圖法》上位類和中位類中比較容易區(qū)分的類別,沒有聚焦于下位類中內(nèi)容相近類目之間的難分類對象上。然而,《中圖法》龐大的分類體系本身以及其特有的復(fù)分仿分機制使得同一大類下具有眾多下位類,這些下位類別之間的主題非常接近、難以區(qū)分。因此,在自動分類時需要模型能夠捕捉《中圖法》內(nèi)容相近類目文本之間的細微語義差別。在《中圖法》內(nèi)容相近類目分類方面,已有為數(shù)不多的相關(guān)研究是基于經(jīng)典機器學(xué)習方法的,李湘東等[10]基于KNN、NB和SVM經(jīng)典機器學(xué)習方法實現(xiàn)內(nèi)容相近類目的分類;此外,還通過改進互信息特征選擇法實現(xiàn)內(nèi)容相近類目特征提取,并結(jié)合KNN分類算法實現(xiàn)內(nèi)容相近類目的分類[11],尚未見使用深度學(xué)習方法的相關(guān)研究。這些經(jīng)典機器學(xué)習方法在處理文本時未考慮詞語的上下文語義信息,而LSTM、CNN和BERT深度學(xué)習方法在一定程度上考慮了詞語的上下文語義關(guān)系或者局部語義關(guān)系,在捕捉細微語義差別的能力上強于經(jīng)典機器學(xué)習方法。因此,《中圖法》內(nèi)容相近類目自動分類需要探索使用深度學(xué)習方法,以取得更好的分類效果。
《中圖法》中內(nèi)容相近類目由2個及以上類目構(gòu)成,需要二分類或者多分類技術(shù)對其進行自動分類。3個及以上類目的多分類問題可以通過一對一分解轉(zhuǎn)換為多組二分類問題,因此二分類是多分類的基礎(chǔ)[12]。目前,二分類技術(shù)主要集中在自動分類研究中的情感二分類上[11],例如微博評論情感分析等。在兩類擇一的分類目標上以及兩個類目的文本內(nèi)容高度相似方面,情感二分類與《中圖法》中兩個內(nèi)容相近類目的自動分類極為相似。實際上,李湘東等[10-11]就是針對《中圖法》中兩個內(nèi)容相近類目的分類時使用了二分類技術(shù)。Li[13]和Ling[14]等指出微博情感分析實際上是一個將微博評論信息歸類為積極或者消極的二分類問題,歸類的難點在于評論信息中存在一些相似性極高卻從屬不同情感詞,以及同一個詞語在不同的語義環(huán)境下表達相反的情感,這些詞語造成不同類目之間文本的高度相似性?,F(xiàn)有研究[15-17]通過LSTM、CNN和BERT等深度學(xué)習模型獲取這些詞語在文中的語義信息,并應(yīng)用于微博情感分析,取得了不錯的分類效果,其中BERT表現(xiàn)最好。為了解釋BERT為何能夠取得很好的分類效果,Jawahar等[18]證明了具有12層級結(jié)構(gòu)的BERT的不同層學(xué)習到了不同的語義信息,在BERT的底層、中間層和頂層分別學(xué)習到了表面特征、句法特征和語義特征,BERT利用頂層學(xué)習的語義特征信息為BERT的分類效果打下了良好的基礎(chǔ)。但是BERT在做分類任務(wù)時,只利用最后一層參數(shù)進行分類,忽略了BERT其他層學(xué)習的語義信息。為了利用這些語義信息,李寧健等[19]通過CNN連接BERT的12層層級結(jié)構(gòu),提出BERT-MLF模型,并將該模型應(yīng)用于情感分析任務(wù)中,取得了比BERT更好的分類效果。然而,BERT-MLF中的CNN結(jié)構(gòu)不能為BERT不同層學(xué)習到的語義信息分配不同的權(quán)重,對BERT不同層參數(shù)進行動態(tài)融合時,在去除部分噪聲語義信息的同時可能會丟失關(guān)鍵語義信息,從而導(dǎo)致分類性能下降?;诙鄬蛹壸⒁饬C制對BERT的12層參數(shù)賦予不同的權(quán)重是一個很好的思路,能為關(guān)鍵語義信息和噪聲語義信息做自適應(yīng)的權(quán)重分配,進而提升分類效果。本文使用的BERT是在使用中文維基百科等一般性語料上進行預(yù)訓(xùn)練所生成的,中文維基百科在內(nèi)容上涵蓋各學(xué)科領(lǐng)域以及社會生活的各個方面,具有較強的通用性,但也不能保證在面對文獻分類等特定任務(wù)時具有較強的專指性。為此,需要針對具體的任務(wù)在上述中文維基百科等一般性語料的基礎(chǔ)上進一步追加任務(wù)數(shù)據(jù)集繼續(xù)進行預(yù)訓(xùn)練(Task-Adaptive Pretraining,以下簡稱“TAPT操作”)[20]。TAPT操作使BERT及其改進模型在具體任務(wù)上具有較強的專指性,通過擴大TAPT操作時任務(wù)數(shù)據(jù)集的內(nèi)容使得模型在該任務(wù)上的專指性范圍更廣,或者通過更換TAPT操作的任務(wù)數(shù)據(jù)集使得模型在各自的任務(wù)上都具有各自相應(yīng)的專指性,因此BERT及其改進模型結(jié)合TAPT操作可以適用于任務(wù)范圍的擴大以及任務(wù)的更換,具有較強普適性。因此,針對《中圖法》內(nèi)容相近類目分類,BERT及其改進模型結(jié)合TAPT操作,分類效果可以得到更大程度的提升。
基于在《中圖法》內(nèi)容相近類目分類中缺乏并且需要深度學(xué)習方法的現(xiàn)狀,同時內(nèi)容相近類目分類研究主要集中在二分類方向上,本文在實驗對象的選擇上使用《中圖法》兩個內(nèi)容相近類目開展二分類,并采用LSTM、CNN、BERT深度學(xué)習模型對其進行自動分類,比較這些深度學(xué)習方法相對于KNN、NB和SVM經(jīng)典機器學(xué)習方法的優(yōu)越性。針對BERT相比于LSTM、CNN分類效果更好并且BERT未能充分利用全部語義信息的現(xiàn)狀,本文基于注意力機制對BERT不同層參數(shù)進行動態(tài)融合,提出改進的BERT-MLDFA模型。針對BERT及其改進模型結(jié)合TAPT操作可以更大程度提升分類效果,文本在BERT-MLDFA模型的基礎(chǔ)上進行TAPT操作,以優(yōu)化對《中圖法》內(nèi)容相近類目進行自動分類的效果。本文在《中圖法》兩個內(nèi)容相近類目之間進行二分類研究,為實現(xiàn)3個或3個以上內(nèi)容相近類目之間的自動分類打下更好的基礎(chǔ),具有較強的理論意義和實踐價值。
LSTM和CNN是文本分類中兩個基礎(chǔ)且經(jīng)典的深度學(xué)習模型,但在《中圖法》內(nèi)容相近類目自動分類中缺乏相關(guān)的應(yīng)用研究。LSTM模型是一種特殊的循環(huán)神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu),采用遺忘門、輸入門和輸出門3個門控函數(shù)獲取文本序列的時序關(guān)系,從而取得文本特征之間的上下文信息。CNN主要由輸入層、卷積層、池化層組成,卷積層通過卷積核獲取特征之間的局部信息。LSTM忽略了特征之間的局部信息,CNN忽略了特征之間的上下文信息,因此二者在自動分類中各有優(yōu)劣[21]。LSTM和CNN在自動分類時,通常結(jié)合Word2Vec詞嵌入模型,以獲取更好的分類效果,成為慣用的分類方法[22-23]。因此,針對《中圖法》內(nèi)容相近類目自動分類,本文首先采用典型的深度學(xué)習模型LSTM和CNN,結(jié)合Word2Vec詞嵌入模型,設(shè)計相關(guān)研究框架,如圖1所示。
圖1 基于LSTM和CNN的自動分類框架
基于LSTM和CNN的文本分類過程主要分為如下4個步驟。
(1)構(gòu)建詞語特征集合。具體包括,對訓(xùn)練集和測試集的文本使用python的jieba詞庫進行分詞,并采用哈工大停用詞表對分詞結(jié)果去停用詞,得到訓(xùn)練集和測試集的詞語特征集合。
(2)詞嵌入表示。具體包括,針對前述步驟(1)得到的訓(xùn)練集和測試集的詞語特征集合,使用在維基百科語料上訓(xùn)練的Word2Vec詞嵌入模型對其進行詞嵌入表示,得到訓(xùn)練集和測試集的詞嵌入特征表示集合。
(3)創(chuàng)建并訓(xùn)練模型。具體包括,創(chuàng)建LSTM和CNN分類模型,并將前述步驟(2)得到的訓(xùn)練集文本的詞嵌入表示集合輸入到神經(jīng)網(wǎng)絡(luò)模型中的詞嵌入層作為LSTM和CNN的輸入,然后對模型進行訓(xùn)練,得到訓(xùn)練好的LSTM和CNN神經(jīng)網(wǎng)絡(luò)模型。
(4)分類預(yù)測。具體包括,將前述步驟(2)得到的測試集文本的詞嵌入表示集合輸入到前述步驟(3)中已經(jīng)訓(xùn)練好的LSTM和CNN神經(jīng)網(wǎng)絡(luò)模型中進行分類預(yù)測,得到分類結(jié)果。
BERT是基于雙向的Transformer模塊結(jié)合而成的多層級結(jié)構(gòu)[24],在預(yù)訓(xùn)練過程中,采用遮罩語言模型(Masked Language Model,MLM)和下一句預(yù)測(Next Sentence Prediction,NSP)生成深度的雙向語言表征,通過位置編碼獲取特征的上下文位置關(guān)系,從而根據(jù)上下文得到特征的動態(tài)向量表示,在自動分類上取得了比LSTM和CNN更好的效果,成為目前的主流模型。為了提升《中圖法》內(nèi)容相近類目自動分類效果,本文采用BERT模型并設(shè)計研究框架,如圖2所示。
圖2 基于BERT的自動分類框架
基于BERT模型的自動分類過程主要分為如下4個步驟。
(1)構(gòu)建BERT特征向量表示。將訓(xùn)練集和測試集文本按照BERT預(yù)訓(xùn)練模型的輸入格式進行預(yù)處理,構(gòu)造特征向量表示,特征向量包括字向量、分段向量和位置編碼向量3個部分。
(2)創(chuàng)建模型。創(chuàng)建BERT分類模型,并將BERT預(yù)訓(xùn)練模型權(quán)重初始化到BERT模型中。BERT模型結(jié)合TAPT操作,則將初始化權(quán)重之后的BERT模型進一步在任務(wù)數(shù)據(jù)集上預(yù)訓(xùn)練,預(yù)訓(xùn)練包括MLM任務(wù)和NSP任務(wù)[24],并將權(quán)重更新到BERT模型中。
(3)訓(xùn)練模型。將前述步驟(1)得到的訓(xùn)練集BERT特征向量表示輸入到前述步驟(2)中創(chuàng)建的BERT模型中進行訓(xùn)練,對BERT參數(shù)進行微調(diào),得到訓(xùn)練好的BERT分類模型。
(4)分類預(yù)測。具體包括,將前述步驟(1)得到的測試集BERT特征向量表示輸入到前述步驟(3)中訓(xùn)練好的BERT模型中進行分類預(yù)測,得到分類結(jié)果。
在做分類任務(wù)時,BERT只在最后一層參數(shù)上連接全連接層做分類,忽略了其他層學(xué)習的語義信息。為了進一步提升《中圖法》內(nèi)容相近類目的分類效果,本文對EBRT模型進行改進,提出一種改進的BERTMLDFA模型,該方法基于注意力機制對BERT不同層特征進行融合,在融合過層中賦予不同層特征不同的權(quán)重并且權(quán)重在訓(xùn)練過程中自適應(yīng)更新,從而可以充分利用BERT不同層學(xué)習的語義信息,得到語義信息豐富的特征表示,使得模型更好地學(xué)習和區(qū)分內(nèi)容相近類目的文本類別?;诟倪M的BERT-MLDFA模型自動分類框架如圖3所示。
圖3 基于BERT-MLDFA的自動分類框架
BERT-MLDFA模型首先將BERT的12層的每一層參數(shù)都經(jīng)過最大池化計算,得到隱含狀態(tài)h作為注意力機制層的輸入,基于注意力機制為12層參數(shù)賦予不同的權(quán)重,得到融合特征C,融合特征C經(jīng)過全連接層和softmax計算,通過兩次Dropout取平均值作為最終分類概率,兩次Dropout比率分別取值為0.1和0.2。
基于BERT-MLDFA模型的文本分類過程和BERT模型大致保持一致,需要將步驟(2)中創(chuàng)建的BERT模型替換為BERT-MLDFA模型,在使用BERT預(yù)訓(xùn)練模型對BERT模型進行初始化的同時,需要隨機初始化BERT-MLDFA模型中的注意力機制層參數(shù)。
本文的實驗對象是《中圖法》中E271與E712.51兩個類目,其原因在于這兩個類目的典型性以及與過往研究在分類效果上的可比性。從文本用詞方面看,這兩個類同屬軍事主題,僅有中國和美國地區(qū)不同,文本用詞相似,導(dǎo)致文本內(nèi)容十分相近(見表1),因此,E271與E712.51能夠比較好地代表使用自動方法難以區(qū)分的同一大類下的眾多相似的下位類。從《中圖法》體系結(jié)構(gòu)上看,在二級類目上,E7的專類復(fù)分表與E2雖然并不完全一致(這也是未直接仿E2分的原因),但體系極其類似,具體到E271和E712.51兩個類目,雖然在類目體系上不是復(fù)分仿分,但屬于相同的主題,這與《中圖法》對于地區(qū)與主題的復(fù)分仿分機制所產(chǎn)生的眾多類目在內(nèi)容的高度相似性上是一致的,在這兩個類目上檢驗的自動分類方法可以有效地應(yīng)用于其他復(fù)分仿分機制所產(chǎn)生的類目。從實驗的嚴謹性上看,這兩個類作為內(nèi)容相近類目的分類對象,已有基于經(jīng)典機器學(xué)習方法的相關(guān)成果,將其與本文的研究方法進行對比分析,以科學(xué)地驗證深度學(xué)習方法相比于經(jīng)典機器學(xué)習方法的優(yōu)越性以及本文方法的有效性。
表1 E271與E712.51數(shù)據(jù)樣本
本文從維普數(shù)據(jù)庫中提取E271和E712.51兩個內(nèi)容極為相近的語料作為實驗的數(shù)據(jù)來源。其中,一共搜集E271的文檔共616篇,E712.51文檔1 366篇。每篇文檔包括題名、關(guān)鍵詞和摘要三部分信息,且兩類文本數(shù)據(jù)集不存在交叉現(xiàn)象。對文本長度按照字符數(shù)進行統(tǒng)計,文本長度最短為37字符,最長為664字符,80%的文本長度集中在50~300字符之間。
以圖書為例,即便擁有1 000萬種(不含復(fù)本)圖書的大型圖書館,在《中圖法》5萬多個類目中,平均每一個類目不到200冊,因此,針對少樣本的自動分類方法研究必須考慮今后應(yīng)用時的可供實際使用的數(shù)據(jù)量。在實驗對象的樣本數(shù)量選擇上,本文選擇訓(xùn)練集的數(shù)量為200篇。為保證實驗結(jié)果不受隨機性和不平衡數(shù)據(jù)的影響,本文采用平衡數(shù)據(jù)集并將實驗材料分為5組,每組實驗材料在E271和E712.51中隨機抽取200篇文檔作為訓(xùn)練集,為保證訓(xùn)練集和測試集的文本無重復(fù),在剩余的文檔中隨機抽取100篇文檔作為測試集。分別對5組實驗材料進行實驗,記錄每組實驗結(jié)果,取5組實驗結(jié)果的平均值作為最終實驗結(jié)果。
為驗證本文提出方法對內(nèi)容相近類目分類的有效性,本文綜合準確率和召回率計算F1值[25],由于實驗材料中兩個類目的文本數(shù)量相等,宏平均F1值(Macro_F1)和微平均F1值(Micro_F1)保持一致,因此本文以Macro_F1值代表實驗的分類效果,Macro_F1值越接近于1,分類效果越好。
本文實驗基于Ubuntu操作系統(tǒng),顯存的大小為16G,并以Python編程語言和Torch1.8深度學(xué)習框架搭建神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)。在預(yù)備實驗中,確定了LSTM、CNN、BERT及其改進模型的超參數(shù),包括學(xué)習率、批處理大小、訓(xùn)練迭代次數(shù)、文本最大長度等。LSTM和CNN的超參數(shù)取值分別為1e-3、60、30、512,BERT及其改進模型的超參數(shù)取值分別為2e-5、9、10、512。
對于內(nèi)容相近類目的二分類,本文設(shè)置三組對比實驗。首先,基于LSTM、CNN和BERT等深度學(xué)習方法對《中圖法》的E271和E712.51進行自動分類,研究深度學(xué)習方法相比于KNN、NB和SVM等經(jīng)典機器學(xué)習方法的優(yōu)越性;其次,本文基于注意力機制對BERT不同層參數(shù)進行動態(tài)融合,提出改進的BERT-MLDFA模型,并與基于CNN對BERT不同層參數(shù)進行融合的BERT-MLF模型進行對比,分析本文方法的優(yōu)越性;最后,在BERT預(yù)訓(xùn)練模型的基礎(chǔ)上,進一步在E271和E712.51的書目信息上預(yù)訓(xùn)練,對比分析TAPT操作的效果。
第一組對比實驗的基準實驗是基于KNN、NB和SVM等經(jīng)典機器學(xué)習分類算法的分類效果,因此取文獻[11]中在不同參數(shù)組合下的最優(yōu)結(jié)果作為基準實驗結(jié)果,并與本文采用的LSTM、CNN和BERT深度學(xué)習方法取得的實驗結(jié)果進行比較。KNN、NB和SVM的Macro_F1值分別為0.951、0.959和0.963,LSTM、CNN和BERT的Macro_F1值分別為0.966、0.964和0.980。從實驗結(jié)果可以看出,針對《中圖法》內(nèi)容相近類目分類,在KNN、NB、SVM經(jīng)典機器學(xué)習方法中,SVM表現(xiàn)最好,相比于KNN和NB,Macro_F1值分別提升1.2%和0.4%;在LSTM、CNN、BERT深度學(xué)習方法中,BERT表現(xiàn)最好,相比于LSTM和CNN,Macro_F1值分別提升1.4%和1.6%;本文采用的3種深度學(xué)習方法整體優(yōu)于3種經(jīng)典機器學(xué)習方法,BERT相比于SVM的Macro_F1值提升1.7%。
第二組的對比實驗是BERT、BERT-MLF模型與本文提出的BERT-MLDFA模型分類效果對比,3個模型的Macro_F1值分別為0.980、0.981和0.983。從實驗結(jié)果可以看出,針對《中圖法》內(nèi)容相近類目分類,本文提出的BERT-MLDFA模型表現(xiàn)最好,相比于BERT提升0.3%,相比于BERT-MLF提升0.2%,在BERT的0.980的基線效果上更接近于1。
第三組對比實驗是對比分析TAPT操作在BERT及其改進模型中的效果。BERT、BERT-MLF和BERTMLDFA結(jié)合TAPT操作的Macro_F1值分別為0.983、0.983和0.987。從實驗結(jié)果可以看出,BERT及其改進模型進行TAPT操作之后,Macro_F1值都有所提升,其中BERT-MLDFA結(jié)合TAPT提升最明顯,相比于BERT-MLDFA提升0.4%,相比于BERT提升0.7%。同時,由于《中圖法》中數(shù)目數(shù)量巨大,例如對于一個有1 000萬種圖書的大型圖書館,在《中圖法》5萬多個類目中,即使是0.7%的提升,也有可能使7萬本圖書被正確分類,能夠帶來巨大的時間和經(jīng)濟效益,因此具有很強的現(xiàn)實意義。
從以上三組對比實驗分析可以得出以下3個結(jié)論。
(1)在《中圖法》內(nèi)容相近類目自動分類中,深度學(xué)習方法的分類效果優(yōu)于經(jīng)典機器學(xué)習方法。
(2)在《中圖法》內(nèi)容相近類目自動分類中,本文提出的改進的BERT-MLDFA模型表現(xiàn)最好,基于注意力機制對BERT不同層參數(shù)進行動態(tài)融合時可以結(jié)合文本的表面特征、句法特征、語義特征,能夠捕捉關(guān)聯(lián)度大、區(qū)分度小的文本之間的細微語義差別,證明了BERT-MLDFA在解決內(nèi)容相近類目分類問題時的優(yōu)越性。
(3)BERT及其改進模型在模型初始化權(quán)重之后,進行TAPT操作,即使用內(nèi)容相似類目的E271和E712.51數(shù)據(jù)集繼續(xù)進行預(yù)訓(xùn)練,可以進一步提升內(nèi)容相近類目分類效果。針對其他內(nèi)容相似類目進行分類,可以將E271和E712.51數(shù)據(jù)集更換為《中圖法》上其他內(nèi)容相似類目的數(shù)據(jù)集,因此,BERT及其改進模型結(jié)合TAPT操作具有較強普適性,可以有效應(yīng)用于《中圖法》以及其他內(nèi)容相近類目分類中。
針對內(nèi)容相近類目的分類是《中圖法》分類系統(tǒng)中一個十分重要的研究方向。由于內(nèi)容相近類目文本之間關(guān)聯(lián)度大、區(qū)分度小,在語義信息上只有細微差別,給自動分類帶來了極大的困難。本文以《中圖法》中E271和E712.51兩個類別作為兩個典型的內(nèi)容相近類目,展開自動分類研究。實驗結(jié)果表明,LSTM、CNN和BERT深度學(xué)習方法比KNN、NB、SVM更好;在深度學(xué)習方法中,BERT比LSTM和CNN更好;BERTMLDFA模型能夠獲取內(nèi)容相近類目文本之間的細微語義差別,相比于BERT分類效果進一步提升;BERTMLDFA結(jié)合TAPT操作具有較強普適性,可以取得更好的分類效果。本文方法可以較好地應(yīng)用于《中圖法》以及內(nèi)容相近類目分類中,但是BERT-MLDFA模型對BERT的不同層參數(shù)自適應(yīng)的權(quán)重是如何分配的缺乏深入研究,導(dǎo)致該模型的可解釋性不足是本文研究的一個局限。進一步探索本文提出的BERT-MLDFA模型的可解釋性以及在其他更多內(nèi)容相近類目中的應(yīng)用,成為未來的研究重點。