蔣彥廷
北京大學(xué)學(xué)報(bào)(自然科學(xué)版) 第59卷 第1期 2023年1月
Acta Scientiarum Naturalium Universitatis Pekinensis, Vol. 59, No. 1 (Jan. 2023)
10.13209/j.0479-8023.2022.070
2022-05-13;
2022-08-03
依據(jù)《中國(guó)圖書館分類法》的英文圖書分類探索
蔣彥廷1,2
1.四川省水文水資源勘測(cè)中心, 成都 610036; 2.中共金堂縣委黨校, 成都 610400; E-mail: jiangyanting@mail.bnu.edu.cn
針對(duì)帶有中圖分類號(hào)的英文圖書數(shù)據(jù)量小以及類別不平衡的問題, 將圖情領(lǐng)域的文本增強(qiáng)策略(《美國(guó)國(guó)會(huì)圖書館分類法》到《中國(guó)圖書館分類法》的類目映射方法和基于中-英文平行的《漢語主題詞表》的語義增強(qiáng)方法)與一般領(lǐng)域文本增強(qiáng)策略(向原始英文文本插入標(biāo)點(diǎn)或連詞)相結(jié)合, 旨在增強(qiáng)模型泛化能力。實(shí)驗(yàn)表明, 綜合后的策略能有效地提高模型在測(cè)試集的表現(xiàn), 正確率和宏 F1 值分別上升 3.61 和 3.35 個(gè)百分點(diǎn), 效果優(yōu)于其他單一的文本增強(qiáng)方法。最后, 通過 BERT 詞向量可視化與詞語信息熵計(jì)算, 分析出豐富的鄰近詞和語法上的連綴功能是插入標(biāo)點(diǎn)或連詞方法有效的原因。
預(yù)訓(xùn)練語言模型; 中國(guó)圖書館分類法; 類目映射; 漢語主題詞表; 文本增強(qiáng)
書籍是承載人類知識(shí)思想的重要載體。近年來, 中國(guó)進(jìn)口、加工外文圖書的規(guī)模相當(dāng)可觀。在紙質(zhì)圖書方面, 截至 2022 年 7 月, 中國(guó)圖書進(jìn)出口(集團(tuán))有限公司累計(jì)采選海外圖書超過 184 萬種, 月均新增超萬種[1]。北京大學(xué)圖書館 2022 年上半年加工編目的外文新書約 9800 冊(cè)[2]。
外文圖書的進(jìn)口給國(guó)內(nèi)圖書館或文獻(xiàn)數(shù)據(jù)庫(kù)的加工編目帶來挑戰(zhàn)[3]。與中文圖書相比, 外文圖書分類編目難度更大。第一個(gè)原因, 外文圖書分類編目對(duì)工作人員的外語水平和對(duì)具體領(lǐng)域的熟悉度都有較高的要求。第二個(gè)原因, 國(guó)內(nèi)外圖書分類體系有差異: 國(guó)內(nèi)大部分書店、圖書館、電子書網(wǎng)站參考《中國(guó)圖書館分類法》(簡(jiǎn)稱《中圖法》)給圖書分類。大部分中文圖書在版權(quán)頁(yè)已初步標(biāo)注《中圖法》分類號(hào)(簡(jiǎn)稱中圖分類號(hào)), 大大減輕了圖書分類編目的負(fù)擔(dān)。然而許多英語國(guó)家出版的圖書并未采用《中圖法》進(jìn)行分類。
基于上述背景, 本文利用預(yù)訓(xùn)練語言模型BERT (bidi-rectional encoder representations from transformers), 結(jié)合圖書情報(bào)(圖情)領(lǐng)域與一般領(lǐng)域的文本增強(qiáng)方法, 對(duì)依據(jù)《中圖法》的英文圖書分類工作進(jìn)行探索, 以期方便讀者索書查閱, 提高外文圖書的利用率和使用效益, 優(yōu)化圖書編目與知識(shí)管理。
國(guó)內(nèi)外代表性圖書館和文獻(xiàn)數(shù)據(jù)庫(kù)網(wǎng)站的英文圖書分類情況如表 1 所示?!吨袌D法》是新中國(guó)編制出版的圖書資料分類體系, 至 2012 年已經(jīng)出版第五版簡(jiǎn)本[4], 包括 22 個(gè)一級(jí)類目①http://www.ztflh.com, 250 多個(gè)二級(jí)類乃至更多的細(xì)目?!睹绹?guó)國(guó)會(huì)圖書館分類法》(Lib-rary of Congress Classification, 簡(jiǎn)稱《國(guó)會(huì)圖書分類法》)是美國(guó)國(guó)會(huì)圖書館設(shè)計(jì)的資料分類法, 將知識(shí)分為 21 個(gè)基本大類②https://www.loc.gov/catdir/cpso/lcco/?!吨袊?guó)科學(xué)院圖書館圖書分類法》簡(jiǎn)稱《科圖法》 , 1958 年出版第 1 版, 采用阿拉伯?dāng)?shù)字為類目的標(biāo)記符號(hào), 包括 25 個(gè)大類和更多的小類?!抖磐M(jìn)制分類法》(Dewey De-cimal Classification, 簡(jiǎn)稱《杜威分類法》)③https://www.britannica.com/science/Dewey-Decimal-Classification由美國(guó)圖書館專家麥爾威·杜威發(fā)明, 以 3位數(shù)字作為分類碼的開頭, 將知識(shí)分為 10 個(gè)大類, 至 2004 年已出版至第 22 版。
調(diào)查發(fā)現(xiàn), 首先, 在圖書管理實(shí)務(wù)中, 中國(guó)內(nèi)地的大多數(shù)圖書館與文獻(xiàn)數(shù)據(jù)庫(kù)網(wǎng)站都依據(jù)《中圖法》給英文圖書編目。一些機(jī)構(gòu)雖然兼用多種分類法, 但在給英文圖書編制索書號(hào)時(shí), 仍主要參考《中圖法》, 在數(shù)據(jù)庫(kù)機(jī)讀目錄(Machine-Readable Catalogue, MARC)中將其他分類號(hào)作為次要字段。第二, 《國(guó)會(huì)圖書分類法》除在美國(guó)廣泛使用外, 在新加坡、中國(guó)的香港和臺(tái)灣的大學(xué)圖書館中也有<所應(yīng)用。第三, 英國(guó)和中國(guó)香港的部分圖書館采用《杜威分類法》。< p>所應(yīng)用。第三,
中國(guó)內(nèi)地主要采用《中圖法》給外文圖書分類原因之一是《中圖法》類目詳盡, 基本涵蓋知識(shí)的各領(lǐng)域, 并與時(shí)俱進(jìn)?!吨袌D法》還設(shè)置“互見分類號(hào)”, 例如隸屬“C 社科總論”的“C8 統(tǒng)計(jì)學(xué)”與“O1數(shù)學(xué)”下轄的“O212 數(shù)理統(tǒng)計(jì)”。雙語對(duì)照的讀物按前一種語言歸類, 按后一種語言做互見分類[4]。作為樹形分類結(jié)構(gòu), 互見分類能較好地表示跨學(xué)科、交叉學(xué)科知識(shí)。此外, 《中圖法》還有 L, M, W 和 Y四個(gè)一級(jí)類目的字母沒有使用, 為未來新興學(xué)科領(lǐng)域留有空間[5]。另一個(gè)原因是中外文圖書采用統(tǒng)一的分類號(hào), 能提升檢索效率, 為科技查新、追蹤考察國(guó)外科學(xué)進(jìn)展夯實(shí)基礎(chǔ)。最后, 實(shí)體書店與圖書館通常在圖書分類號(hào)的基礎(chǔ)上編制索書號(hào)。依據(jù)《中圖法》編制索書號(hào), 能方便工作人員上架圖書, 也方便讀者查找圖書, 減輕熟悉兩套圖書分類法的記憶負(fù)擔(dān)。
主題詞表又稱敘詞表, 是一種闡釋某學(xué)科領(lǐng)域相關(guān)術(shù)語的語義詞典, 是實(shí)現(xiàn)信息智能檢索的重要資源[6]。國(guó)內(nèi)規(guī)模較大的主題詞表有兩部: 《中國(guó)分類主題詞表》[7]與《漢語主題詞表》。后者 1980年問世, 2009 年由中國(guó)科學(xué)技術(shù)信息研究所重編, 包括工程技術(shù)、自然科學(xué)、生命科學(xué)、社會(huì)科學(xué)四部分。截至 2022 年 7 月初, 《漢語主題詞表》在線服務(wù)系統(tǒng)發(fā)布術(shù)語詞條 131400 個(gè)[8]。大部分詞條由號(hào)組成, 部分術(shù)語還涉及多個(gè)中圖分類號(hào)。國(guó)際上, 著名的主題標(biāo)題表有美國(guó)的《國(guó)會(huì)圖書館主題詞表》(Library of Congress Subject Headings, LCSH)[9]和《醫(yī)學(xué)主題詞表》(Medical Subject Headings, MeSH)[10]等。
表1 國(guó)內(nèi)外代表性圖書館、文獻(xiàn)數(shù)據(jù)庫(kù)網(wǎng)站采用的英文圖書分類體系
④ 據(jù) 2022 年 7 月初的調(diào)研結(jié)果, 浙江圖書館圖書頁(yè)面顯示分類法為《科圖法》, 但實(shí)際標(biāo)注的分類號(hào)依據(jù)的是《中圖法》。
包括圖書、論文以及專利文檔在內(nèi)的文獻(xiàn)分類是文本分類技術(shù)中的特殊領(lǐng)域。在算法模型方面, 支持向量機(jī)(SVM)[11]、膠囊神經(jīng)網(wǎng)絡(luò)[12]、決策樹(DT)[13]、長(zhǎng)短期記憶(LSTM)[14]、BERT 以及預(yù)訓(xùn)練模型及其改進(jìn)版[15–16]已應(yīng)用到圖書或論文的分類任務(wù)中。在分類標(biāo)簽方面, 可以分為單標(biāo)簽與多標(biāo)簽分類[15]。在文獻(xiàn)語種與分類號(hào)方面, 目前按照《中圖法》對(duì)中文文獻(xiàn)分類的研究較豐富, 相關(guān)在線服務(wù)平臺(tái)[8,17]也得以建設(shè), 也有依據(jù)《國(guó)會(huì)圖書分類法》[18]、《杜威十進(jìn)制分類法》[13]和 Web of Science 網(wǎng)站學(xué)科分類體系[12]對(duì)英文文獻(xiàn)分類的探索。目前, 涉及跨分類法、跨文獻(xiàn)語種問題的探索還較少。
在數(shù)據(jù)稀疏的情況下, 采取文本增強(qiáng)(data aug-mentation for text)技術(shù)有助于生成訓(xùn)練文本的近似樣本, 避免過擬合, 提高文本分類的效果。文本增強(qiáng)包括回譯、隨機(jī)刪詞、詞序打亂、基于靜態(tài)或動(dòng)態(tài)詞向量的詞匯替換[19–20]、適量噪聲注入[21]、同類文本交叉重組[22]、引入詞匯釋義[23]、強(qiáng)化學(xué)習(xí)[24]以及文本復(fù)述[25]等方法。依據(jù)特定分類法的圖書分類是較為特殊的領(lǐng)域, 該領(lǐng)域的文本增強(qiáng)方法還有待探索。
根據(jù)中英文圖書論文的分類經(jīng)驗(yàn)[14,18], 當(dāng)每個(gè)文本的輸入字段為書名和若干反映主題的關(guān)鍵詞時(shí), 分類效果基本上達(dá)到最佳水平。由于文本較長(zhǎng), 圖書簡(jiǎn)介字段中非關(guān)鍵信息較多, 對(duì)分類的貢獻(xiàn)不明顯, 也不利于模型訓(xùn)練收斂。因此, 我們使用基于圖的 TextRank 關(guān)鍵詞提取方法[26], 首先從圖書簡(jiǎn)介文本中提取權(quán)重靠前的若干關(guān)鍵詞, 與書名一起作為訓(xùn)練數(shù)據(jù)。
在分類方法方面, 本文基于 BERT 預(yù)訓(xùn)練模型④https://huggingface.co/bert-base-uncased, 結(jié)合全連接神經(jīng)網(wǎng)絡(luò)(FCN)分類器, 實(shí)現(xiàn)中圖法一級(jí)分類號(hào) B 到 X 的 20 類文獻(xiàn)分類。將支持向量機(jī)(SVM)模型、隨機(jī)森林(random forests, RF)模型、Fasttext 模型[27]、基于 114 萬篇英文文獻(xiàn)預(yù)訓(xùn)練的 SCI-BERT 模型⑤https://huggingface.co/allenai/scibert_scivocab_uncased和蒸餾輕量化的 DistilBERT模型⑥https://huggingface.co/distilbert-base-uncased作為基線模型。由于 BERT 等預(yù)訓(xùn)練模型會(huì)采用 Wordpiece 算法[28], 將英文單詞切分為子詞(subword), 因此我們只在文本輸入非預(yù)訓(xùn)練模型前, 使用 NLTK 工具庫(kù)⑦h(yuǎn)ttps://www.nltk.org/api/nltk.stem.porter.html將單詞詞干化。
本文提出的的英文文獻(xiàn)分類與文本增強(qiáng)策略框架如圖1所示。
圖1 英文圖書分類與文本增強(qiáng)策略框架
從《國(guó)會(huì)圖書館分類法》到《中圖法》類目映射(classification mapping), 擴(kuò)充分類效果較差的類別文本。類目映射是使不同圖書文獻(xiàn)分類體系關(guān)聯(lián)起來的過程, 通常以不同體系間分類號(hào)對(duì)應(yīng)規(guī)則的形式表現(xiàn)。如果一冊(cè)英文圖書帶有其他體系的分類號(hào), 通過既有的映射規(guī)則, 外文圖書的其他分類號(hào)也能轉(zhuǎn)化為中圖分類號(hào)。但由于每種分類法層次復(fù)雜, 不同的分類法在編制原則、體系側(cè)重點(diǎn)和類目顆粒度等方面存在差異, 所以只能得到粗略的不全面的類目映射結(jié)果[29]。另外, 并非所有英文圖書都預(yù)先標(biāo)注了其他體系的分類號(hào)。因此, 類目映射單一方法稍顯力不從心。
我們將類目映射視為文本增強(qiáng)的一種手段, 在得到原始文本分類結(jié)果的基礎(chǔ)上, 通過類目映射, 擴(kuò)充分類效果較差的類別的文本。類目映射的源文本采集自“古登堡”網(wǎng)站⑧https://www.gutenberg.org/ebooks/。每一個(gè)文本都包含圖書的標(biāo)題、關(guān)鍵詞和《國(guó)會(huì)圖書分類法》的分類號(hào)。映射規(guī)則參考蔣彥廷等[30]構(gòu)建并開放的 106 條中從《國(guó)會(huì)圖書分類法》到《中圖法》的單向映射規(guī)則, 部分規(guī)則如表2所示。
通過上述類目映射方法, 我們將古登堡項(xiàng)目網(wǎng)站 19870 冊(cè)英文圖書的《國(guó)會(huì)圖書分類法》分類號(hào)轉(zhuǎn)換為中圖分類號(hào), 作為文本增強(qiáng)的備用數(shù)據(jù)。
基于《漢語主題詞表》的語義增強(qiáng)。如 1.2 節(jié)所述, 《漢語主題詞表》(簡(jiǎn)稱《主題詞表》)大部分詞條由漢語術(shù)語、英語翻譯和中圖分類號(hào)組成, 部分術(shù)語還涉及多個(gè)中圖分類號(hào)。我們從漢語主題詞表服務(wù)網(wǎng)站[8]采集各學(xué)科領(lǐng)域詞條共 11886 個(gè)。對(duì)于訓(xùn)練集與測(cè)試集中的文本, 如果出現(xiàn)上述的英文術(shù)語, 就在該文本中補(bǔ)充一個(gè)特定的主題詞, 表示中圖分類號(hào)的含義。補(bǔ)充的單詞一般是中圖分類號(hào)一級(jí)大類英譯的關(guān)鍵詞, 例如分類號(hào) C 補(bǔ)充 so-cial, 分類號(hào) D 補(bǔ)充單詞political, 分類號(hào) E 補(bǔ)充單詞 military, 分類號(hào) F 補(bǔ)充 economy, 分類號(hào) G 補(bǔ)充culture, 分類號(hào) H 補(bǔ)充 language, 分類號(hào) I 補(bǔ)充lite-rature, 分類號(hào) J 補(bǔ)充 art, 分類號(hào) K 補(bǔ)充 history, 分類號(hào) N 補(bǔ)充 natural, 分類號(hào) O 補(bǔ)充 math, 分類號(hào) P補(bǔ)充 astronomy, 分類號(hào) Q 補(bǔ)充 biology , 分類號(hào) R補(bǔ)充 medical, 分類號(hào) S 補(bǔ)充 agriculture, 分類號(hào) T補(bǔ)充 industry, 分類號(hào) U 補(bǔ)充 transport, 分類號(hào) V 補(bǔ)充 aviation, 分類號(hào) X 補(bǔ)充 environment。如果一個(gè)術(shù)語涉及多個(gè)中圖分類號(hào)一級(jí)大類, 則添加多個(gè)對(duì)應(yīng)的主題詞。
隨機(jī)插入標(biāo)點(diǎn)或連詞。前兩項(xiàng)依據(jù)類目映射、主題詞表的增強(qiáng)策略適用于圖書情報(bào)這一特定領(lǐng)域, 一般領(lǐng)域的文本增強(qiáng)可以推廣到其他領(lǐng)域。受 Karimi 等[21]啟發(fā), 一般領(lǐng)域文本增強(qiáng)策略的具體步驟如下: 對(duì)于單詞數(shù)為的文本, 隨機(jī)插入 0.3(向下取整)個(gè)符號(hào), 符號(hào)從集合={".", ";", "?", ":", "!", ","}或={and, or, so, but, as, since}中隨機(jī)選擇。前者的元素均為英文的標(biāo)點(diǎn)符號(hào), 后者的元素為實(shí)義較弱的連詞。將隨機(jī)插入標(biāo)點(diǎn)符號(hào)的文本作為新樣本加入訓(xùn)練集, 比較它與如下 6 種文本增強(qiáng)策略的效果。
1)機(jī)器翻譯回譯: 我們選用基于 transformer 架構(gòu)的兩個(gè)機(jī)器翻譯模型, 分別為 opus-mt-en-zh⑨https://huggingface.co/Helsinki-NLP/opus-mt-en-zh(英譯中, 1.41 GB)和 opus-mt-zh-en⑩https://huggingface.co/Helsinki-NLP/opus-mt-zh-en(中譯英, 852MB)。采用“英→中→英”回譯路徑, 生成近似文本。
表2 美國(guó)《國(guó)會(huì)圖書分類法》到《中圖法》的類目映射表
2)隨機(jī)打亂文本詞序: 每個(gè)文本隨機(jī)打亂詞語順序, 合成新文本。
3)基于 word2vec 詞向量的近義詞替換: 預(yù)訓(xùn)練詞向量來自用 105MB 圖書標(biāo)題簡(jiǎn)介語料訓(xùn)練的詞向量項(xiàng)目?https://github.com/JiangYanting/Pretrained_gensim_word2vec。對(duì)于每個(gè)單詞數(shù)為的文本, 隨機(jī)選中 0.1(向上取整)個(gè)詞語(除部分連詞、介詞和冠詞等停用詞), 利用詞向量模型, 計(jì)算與詞語相似度最高的另一個(gè)詞語1。用詞語1替換, 生成新文本。
4)基于 WordNet 的近義詞替換: 方法與基于word2vec 詞向量的近義詞替換方法類似, 只是在查找近義詞時(shí), 使用 WordNet 知識(shí)庫(kù)?https://wordnet.princeton.edu, 從單詞的Synonym set 中隨機(jī)選擇一個(gè)近義詞1, 用詞語1替換, 生成新文本。
5)基于 BERT 遮罩語言模型的新詞隨機(jī)插入: 利用 BERT 的遮蔽語言模型(masked language mo-del, MLM)機(jī)制, 對(duì)于單詞數(shù)為的原文本, 隨機(jī)將每個(gè)文本中 0.1(向上取整)個(gè)詞替換為[MASK]符號(hào), 使 BERT-base-uncased 模型完成完形填空任務(wù), 預(yù)測(cè)出可能的候選詞。為了不缺損原有信息, 將文本還原, 并在其末尾插入 MLM 預(yù)測(cè)的新詞語。若向上取整的 0.1大于 1, 則多次遮蔽原文本的單詞, 并預(yù)測(cè)新詞。
6)隨機(jī)插入其他種類的標(biāo)點(diǎn)或其他詞性的功能詞: 將上述集合中的逗號(hào)、句號(hào)和問號(hào)替換為左括號(hào)、單引號(hào)和雙引號(hào)。將集合中的連詞替換為助動(dòng)詞、介詞、冠詞和代詞等其他實(shí)義較弱的語法詞。將其隨機(jī)插入文本中, 生成新的訓(xùn)練樣本。
已標(biāo)注的中圖分類號(hào)的英文圖書實(shí)驗(yàn)數(shù)據(jù)來自北京師范大學(xué)圖書館公開的《外文圖書選購(gòu)目錄》。圖書領(lǐng)域涵蓋從“B 哲學(xué)”到“X 環(huán)境、安全科學(xué)”共 20 類。為保證數(shù)據(jù)平衡, 對(duì)于圖書超過 2000冊(cè)的學(xué)科領(lǐng)域, 從中隨機(jī)抽取 2000 冊(cè)。對(duì)于不足2000 冊(cè)圖書的領(lǐng)域, 將該領(lǐng)域的所有圖書信息納入實(shí)驗(yàn)數(shù)據(jù)。最終, 除 V 航空航天、U 交通運(yùn)輸、N 自科總論和 E 軍事 4 類圖書數(shù)量分別為 684, 833, 562 和 1430 冊(cè)(少于 2000 冊(cè))外, 其余 16 類圖書數(shù)量均為 2000 冊(cè)。數(shù)據(jù)集共包含 35509 冊(cè)圖書。
如 1.1 節(jié)所述, 北京師范大學(xué)圖書館公開的外文圖書選購(gòu)目錄下, 每?jī)?cè)圖書沒有標(biāo)引關(guān)鍵詞和主題詞。因此如圖 1 所示, 我們采用 TextRank 方法, 從簡(jiǎn)介文本中提取出若干關(guān)鍵詞, 與書名字段一起作為輸入模型的文本。按 20%的比例, 從 35509 冊(cè)文獻(xiàn)中劃分出測(cè)試集 7102 冊(cè)。測(cè)試集中各類文獻(xiàn)數(shù)量的比例與訓(xùn)練集一致。在文本增強(qiáng)過程中, 我們只擴(kuò)充訓(xùn)練和驗(yàn)證集, 測(cè)試集始終不變。
我們將每?jī)?cè)文獻(xiàn)的標(biāo)題和關(guān)鍵詞作為輸入模型的文本。實(shí)驗(yàn)所用的 GPU 為一塊 RTX 2080Ti, Cuda 版本為 10.2。各模型參數(shù)設(shè)置如下: 支持向量機(jī)的種類為線性 SVM; 隨機(jī)森林的分類樹數(shù)量上限為 200; Fasttext 模型詞向量維數(shù)為 300, 學(xué)習(xí)率為0.1, N-gram 參數(shù)為 2-gram, 損失函數(shù)為Softmax。3種預(yù)訓(xùn)練模型的初始學(xué)習(xí)率均為 2×10–5, batch size為 32, 從訓(xùn)練集中切分出驗(yàn)證集的比例為 10%。模型均采用早停策略, 訓(xùn)練到損失(loss)在驗(yàn)證集上不再下降為止。測(cè)試集上的正確率(Acc)和宏 F1 (Macro- F1)分?jǐn)?shù)表現(xiàn)如表 3 所示。
從表 3 可以發(fā)現(xiàn), 首先, 無論文本預(yù)處理時(shí)是否詞干化, 基于一元語法的 Random Forests 和 SVM的分類效果都比較差, 而 Fasttext 模型在詞干化后, Acc 與 Macro-F1 有所提升, 但是與 BERT 等預(yù)訓(xùn)練模型相比仍有差距。其次, 在 3 個(gè)預(yù)訓(xùn)練模型中, BERT-base-uncased 均取得最佳效果。壓縮蒸餾的 DistilBERT 雖然模型大小只有 BERT-base-uncased的約 60%, 但其表現(xiàn)與后者相差無幾。SCI-BERT雖然曾在 114 萬篇英文論文語料上預(yù)訓(xùn)練, 但其表現(xiàn)不及另外兩個(gè)預(yù)訓(xùn)練模型。我們推測(cè)有如下兩這方面的原因。第一, SCI-BERT 的預(yù)訓(xùn)練論文的分布不平衡。SCI-BERT 的 114 萬篇預(yù)訓(xùn)練論文, 有18%來自計(jì)算機(jī)科學(xué), 其余 82%來自生物醫(yī)學(xué)領(lǐng)域, 缺乏其他領(lǐng)域的語料[31]。在各類的 F1 值表現(xiàn)方面, SCI-BERT 也只有 O 數(shù)理類、T 工業(yè)技術(shù)類和 Q 生物科學(xué)類超過 BERT-base-uncased, 其余類別的表現(xiàn)皆低于 BERT-base-uncased。第二, 用于預(yù)訓(xùn)練的論文, 其風(fēng)格與圖書數(shù)據(jù)集中的標(biāo)題和簡(jiǎn)介語體不盡相同?;?BERT-base-uncased 模型分類時(shí), 各類的 F1 分?jǐn)?shù)如圖 2 所示。
表3 基于原始文獻(xiàn)數(shù)據(jù)的分類實(shí)驗(yàn)結(jié)果(%)
由圖 2 可以發(fā)現(xiàn), 首先, 在數(shù)據(jù)總規(guī)模均為2000 冊(cè)的情況下, H 語言文字、S 農(nóng)業(yè)、O 數(shù)理科學(xué)和化學(xué)的分類表現(xiàn)較好。U 交通運(yùn)輸和 E 軍事類的圖書雖然分別只有 833 和 1430 冊(cè), 但仍居分類效果前五位。第二, D 政治法律、T 工業(yè)技術(shù)、C 社科總論和 K 歷史地理四類雖然各有 2000 冊(cè)圖書的數(shù)據(jù), 但分類的 F1 分?jǐn)?shù)均低于 70%, 說明它們的圖書主題較為廣泛和分散, 達(dá)到相同分類效果需要比其他類別更多的訓(xùn)練數(shù)據(jù)。第三, N 自科總論的分類效果最不理想, 一方面是由于數(shù)據(jù)量不足造成(N類圖書僅 562 冊(cè), 另一方面也有該類本身定位和特征的因素: 自然科學(xué)總論是對(duì)具體各類自然科學(xué)門類的抽象綜合和概述, 還涉及科學(xué)技術(shù)史、系統(tǒng)科學(xué)和非線性科學(xué), 不可避免地與 O, P, Q 和 X 等具體門類存在千絲萬縷的關(guān)系, 導(dǎo)致分類難度較大。
在文本增強(qiáng)實(shí)驗(yàn)中, 我們繼續(xù)使用表現(xiàn)最佳的BERT-base-uncased 模型。從表 4 可以看出, BERT- base-uncased 模型的效果隨圖書簡(jiǎn)介關(guān)鍵詞個(gè)數(shù)的變化而變化。當(dāng)關(guān)鍵詞在 20 個(gè)以上時(shí), 效果提升不再明顯。因此在后續(xù)實(shí)驗(yàn)中, 我們用 TextRank 從每?jī)?cè)圖書簡(jiǎn)介里提取最多 20 個(gè)關(guān)鍵詞, 與書名一起作為輸入文本。
基于圖情領(lǐng)域文本增強(qiáng) 1 方法, 我們將 19870冊(cè)英文圖書的《國(guó)會(huì)圖書分類法》分類號(hào)轉(zhuǎn)換為中圖一級(jí)分類號(hào), 并從中提取分類效果較弱的 K 歷史地理、C 社科總論、T 工業(yè)技術(shù)、D 政治法律和 Q生物科學(xué)等 10 類共 3465 冊(cè)英文圖書的信息, 補(bǔ)充到訓(xùn)練集中。基于圖情領(lǐng)域文本增強(qiáng) 2 方法, 我們利用中英平行的《主題詞表》, 搜尋匹配訓(xùn)練集、驗(yàn)證集和測(cè)試集中的術(shù)語, 給術(shù)語所在的文本增添《中圖法》大類的關(guān)鍵詞, 在不增添新訓(xùn)練樣本的條件下, 增強(qiáng)原始數(shù)據(jù)集中各文本的語義信息。表5 列出 BERT 在文本增強(qiáng)后的效果優(yōu)化情況。
由表 5 可知, 經(jīng)由類目映射擴(kuò)充弱勢(shì)類以及《主題詞表》語義增強(qiáng)后, 圖書分類的結(jié)果均有所上升。專門擴(kuò)充效果較差的弱勢(shì)類, 宏 F1 值上升較為明顯, 類別不平衡問題有所緩解。如果直接將19870 冊(cè)類目映射后的圖書信息全部加入訓(xùn)練集, 分類的表現(xiàn)反而下滑。這可能是由于 19870 冊(cè)圖書中, I 文學(xué)類占絕大多數(shù)(15575 冊(cè)), 而文學(xué)類的分類效果相對(duì)較強(qiáng), 大規(guī)模擴(kuò)充強(qiáng)勢(shì)類別的文本, 會(huì)加劇數(shù)據(jù)不平衡, 淹沒弱勢(shì)類文本擴(kuò)充的效果。
圖2 基于BERT的各類別文獻(xiàn)分類的F1分?jǐn)?shù)
表4 基于BERT的分類效果隨TextRank提取的關(guān)鍵詞個(gè)數(shù)變化情況(%)
我們使用文本隨機(jī)插入標(biāo)點(diǎn)方法, 給每個(gè)文本生成一個(gè)新文本, 使整個(gè)訓(xùn)練集規(guī)模擴(kuò)大一倍, 同時(shí)比較其余 6 種文本增強(qiáng)方法的效果。實(shí)驗(yàn)結(jié)果如表 6 所示。
由表 6 可知, 第一, 在 11 種策略里, 隨機(jī)插入標(biāo)點(diǎn)的策略 6 表現(xiàn)最佳, 正確率與宏 F1 值分別提升2.14 和 2.34 個(gè)百分點(diǎn), 優(yōu)于機(jī)器翻譯回譯方法、詞序隨機(jī)交換方法、基于 BERT 的 MLM 新詞插入方法以及基于 word2vec 或 WordNet 的近義詞替換方法。策略 7 中, 將插入文本的逗號(hào)、句號(hào)和問號(hào)改為左括號(hào)、雙引號(hào)和單引號(hào)后的效果卻有所下降。第二, 在近義詞替換的策略方面, 基于 WordNet 的方法優(yōu)于基于 word2vec 詞向量的方法。這里由于WordNet 作為人工構(gòu)建的知識(shí)庫(kù), 對(duì)近義詞的選取比詞向量更加嚴(yán)格精準(zhǔn)。第三, 在隨機(jī)插入一些意義較虛的語法詞的策略方面, 隨插入詞性的不同, 總體效果呈現(xiàn)出連詞最佳, 冠詞代詞與介詞次之, 助動(dòng)詞最差的情況。其中, 向文本隨機(jī)插入連詞的策略 8 的效果與策略 6 相差無幾。
在類目映射擴(kuò)充弱勢(shì)類文本的基礎(chǔ)上, 通過策略 6 隨機(jī)插入標(biāo)點(diǎn)和策略 8 隨機(jī)插入連詞, 使訓(xùn)練集和驗(yàn)證集文本總數(shù)達(dá)到 95616, 變?yōu)樵瓉淼?3倍。最后, 查找每個(gè)文本存在于《主題詞表》的學(xué)科術(shù)語, 增強(qiáng)每個(gè)文本的語義。模型在測(cè)試集上的正確率和宏 F1 值分別達(dá)到 76.84%和 76.41%, 比文本增強(qiáng)前(表 4 關(guān)鍵詞數(shù)目為 20)分別提升 3.61 和3.35 個(gè)百分點(diǎn)。
向原文本隨機(jī)插入標(biāo)點(diǎn)或連詞的策略較為簡(jiǎn)便, 其表現(xiàn)卻超越基于模型、算法、知識(shí)庫(kù)的其他文本增強(qiáng)方法, 我們認(rèn)為這與 BERT 模型中這些字符/詞的初始表示有關(guān)。本文提取 BERT 模型頂層的若干詞語和字符的 768 維向量, 通過主成分分析降至2 維投影至平面, 結(jié)果如圖 3 所示。
表5 類目映射和《主題詞表》語義增強(qiáng)后的效果上升幅度
表6 一般領(lǐng)域的文本增強(qiáng)策略效果比較
由圖 3 可知, 無論是標(biāo)點(diǎn)符號(hào), 還是連詞、介詞、助動(dòng)詞和冠詞等一些語法詞, 其向量表示與“math”“medical”“military”“geography”等與特定學(xué)科關(guān)聯(lián)緊密的主題詞界限明顯, 句號(hào)、問號(hào)、分號(hào)和感嘆號(hào)等標(biāo)點(diǎn)與學(xué)科主題詞的距離尤其遠(yuǎn), 意味著其向量表示與具體的學(xué)科主題無關(guān)?;谟⑽木S基百科等海量語料, 在 BERT 完型填空式的預(yù)訓(xùn)練階段, 標(biāo)點(diǎn)和功能詞也參與預(yù)訓(xùn)練, 但由于標(biāo)點(diǎn)符號(hào)和語法詞缺乏實(shí)義, 與它們共現(xiàn)的詞語種類眾多, 分布規(guī)律不明顯。我們采集 909MB 的維基百科語料為樣本, 統(tǒng)計(jì)部分字符與詞語相鄰的字符/詞頻次(“相鄰”界定在左右各 3 個(gè)詞的范圍內(nèi)), 并依據(jù)每個(gè)字符/詞所鄰接字符詞的頻率分布情況, 計(jì)算其信息熵(information entropy)并降序排列, 結(jié)果如表 7 所示。
從表 7 可以看出, 除單雙引號(hào)外, 大多數(shù)標(biāo)點(diǎn)符號(hào)、連詞和助動(dòng)詞的相鄰字詞種類和信息熵都高于“economy”“math”“l(fā)inguistics”等反映特定學(xué)科領(lǐng)域的詞語。在標(biāo)點(diǎn)符號(hào)方面, 逗號(hào)、句號(hào)和問號(hào)的信息熵明顯高于左括號(hào)、單引號(hào)和雙引號(hào), 從而解釋了表 6 中策略 6 的效果優(yōu)于策略 7 的原因: 前三者作為適量的噪聲信息, 鄰接字符/詞分布更加復(fù)雜, 不確定性更強(qiáng)。后三者中的單雙引號(hào)往往成對(duì)出現(xiàn), 且常與“say”等表示說話的單詞共現(xiàn), 意味著前三者的向量表示比后三者更加中立, 無偏向。
圖3 來自 BERT-base-uncased 頂層的字詞向量可視化示意圖
表7 部分字詞的相鄰字詞與信息熵統(tǒng)計(jì)
在語法詞方面, 對(duì)比表 6 中策略 8 與策略 10 可知, 隨機(jī)插入連詞的策略明顯優(yōu)于隨機(jī)插入助動(dòng)詞, 但在表 7 中, 6 個(gè)連詞的信息熵并不總高于 4 個(gè)助動(dòng)詞。我們認(rèn)為這可以從語法的角度解釋: 根據(jù)Zhou 等[32]對(duì) BERT 的探針(probing)實(shí)驗(yàn), 即使在不微調(diào)(fine-tune)參數(shù)的情況下, 模型在詞性標(biāo)注任務(wù)中已能取得超過 93%的正確率, 十分接近微調(diào)的表現(xiàn)。因此, BERT 在相當(dāng)程度上學(xué)習(xí)了單詞的詞性和語法信息。如果向文本隨機(jī)插入助動(dòng)詞、冠詞和介詞, 則文本產(chǎn)生主謂不一致、動(dòng)詞連用、語法角色錯(cuò)誤以及搭配不合語法的概率較大。連詞的主要功能是在詞與詞、短語與短語、句子與句子之間起連綴作用, 尤其在本文中用 TextRank 提取了若干關(guān)鍵詞的情況下, 在關(guān)鍵詞之間插入連詞對(duì)文本原本語法結(jié)構(gòu)的擾動(dòng)相對(duì)較小, 造成嚴(yán)重語法錯(cuò)誤的可能性較低。另外, 連詞的相鄰字詞種類和信息熵指標(biāo)都不低, 表 6 中插入連詞的文本增強(qiáng)效果優(yōu)于插入其他語法詞的現(xiàn)象也在一定程度上得以解釋。
本文通過對(duì)圖書館和文獻(xiàn)數(shù)據(jù)庫(kù)的實(shí)際調(diào)研, 基于預(yù)訓(xùn)練語言模型 BERT, 結(jié)合圖書情報(bào)(圖情)領(lǐng)域與一般領(lǐng)域的文本增強(qiáng)方法, 針對(duì)面向《中圖法》的英文圖書自動(dòng)分類進(jìn)行探索。首先利用TextRank 從圖書簡(jiǎn)介中提取關(guān)鍵詞, 與書名一起作為輸入, 然后在 BERT 文本分類模型下, 對(duì)比多種文本增強(qiáng)方法, 證明了圖情領(lǐng)域的類目映射、《主題詞表》語義增強(qiáng)與一般領(lǐng)域的標(biāo)點(diǎn)和連詞隨機(jī)插入策略的有效性。綜合上述 4 種文本增強(qiáng)策略, 模型在測(cè)試集上的正確率和宏 F1 值分別提升 3.61和 3.35 個(gè)百分點(diǎn)。插入分布情況多樣、信息熵較高的標(biāo)點(diǎn)符號(hào)和連詞, 可在不造成文本語法嚴(yán)重錯(cuò)誤的情況下, 為文本提供語義均衡的適量的噪聲信息, 從而防止文本分類模型過擬合, 改進(jìn)模型的表現(xiàn)。
在未來的工作中, 我們計(jì)劃擴(kuò)大數(shù)據(jù)集規(guī)模, 結(jié)合更多種類的文本增強(qiáng)方法, 以期進(jìn)一步優(yōu)化英文圖書的中圖分類號(hào)自動(dòng)標(biāo)注效果。
致謝感謝中國(guó)電子科技集團(tuán)第十研究所提供服務(wù)器支持。
[1]中國(guó)圖書進(jìn)出口(集團(tuán))總公司. 海外圖書采選系統(tǒng)[EB/OL]. (2022–07–03) [2022–07–17]. https://www. cnpbook.com/
[2]北京大學(xué)圖書館. 新書通報(bào)[EB/OL] (2022–06–29)[2022–07–09]. http://newbooks.lib.pku.edu.cn/index.jsp
[3]曹曉寬. 如何提高英文圖書分類標(biāo)引的效率. 農(nóng)業(yè)圖書情報(bào)學(xué)刊, 2009, 21(8): 74–78
[4]中國(guó)圖書館分類法編輯委員會(huì). 中國(guó)圖書館分類法簡(jiǎn)本. 5 版. 北京: 國(guó)家圖書館出版社, 2012
[5]周沫. 《中圖法(第五版)》在西文編目中的應(yīng)用與發(fā)展. 江蘇科技信息, 2011(7): 51–53
[6]李景, 錢平. 敘詞表與本體的區(qū)別與聯(lián)系. 中國(guó)圖書館學(xué)報(bào), 2004, 30(1): 38–41
[7]中國(guó)圖書館分類法編輯委員會(huì). 《中國(guó)圖書館分類法》[EB/OL]. (2010–03–17) [2022–07–11]. http:// clc.nlc.cn/ztfzfbgk.jsp
[8]中國(guó)科學(xué)技術(shù)信息研究所. 《漢語主題詞表》服務(wù)系統(tǒng)[EB/OL]. (2017–01–01) [2022–07–09]. https:// ct.istic.ac.cn/site/organize/word
[9]The Library of Congress. Introduction to library of congress subject headings [EB/OL]. (2011–04–26)[2022–07–09]. https://id.loc.gov/authorities/subjects. html
[10]邊釗, 唐娉, 閆珺. 關(guān)鍵詞規(guī)范化對(duì)文獻(xiàn)主題信息挖掘的影響——以遙感領(lǐng)域?yàn)槔? 中國(guó)科技期刊研究, 2021, 32(12): 1535–1548
[11]王昊, 嚴(yán)明, 蘇新寧. 基于機(jī)器學(xué)習(xí)的中文書目自動(dòng)分類研究. 中國(guó)圖書館學(xué)報(bào), 2010, 36(6): 28–39
[12]倪斌, 陸曉蕾, 童逸琦, 等. 膠囊神經(jīng)網(wǎng)絡(luò)在期 刊文本分類中的應(yīng)用. 南京大學(xué)學(xué)報(bào)(自然科學(xué)), 2021, 57(5): 750–756
[13]De Luca E, Fallucchi F, Morelato R. Teaching an algorithm how to catalog a book. Computers, 2021, 10(11): No. 155
[14]鄧三鴻, 傅余洋子, 王昊. 基于 LSTM 模型的中文圖書多標(biāo)簽分類研究. 數(shù)據(jù)分析與知識(shí)發(fā)現(xiàn), 2017, 1(7): 52–60
[15]蔣彥廷, 胡韌奮. 基于 BERT 模型的圖書表示學(xué)習(xí)與多標(biāo)簽分類研究. 新世紀(jì)圖書館, 2020(9): 38–44
[16]李湘東, 石健, 孫倩茹, 等. 基于 BERT-MLDFA 的內(nèi)容相近類目自動(dòng)分類研究——以《中圖法》E271和 E712.51 為例. 數(shù)字圖書館論壇, 2022(2): 18–25
[17]張智雄, 趙旸, 劉歡. 構(gòu)建面向?qū)嶋H應(yīng)用的科技 文獻(xiàn)自動(dòng)分類引擎[J/OL]. 中國(guó)圖書館學(xué)報(bào), 2022[2022–08–03]. http://kns.cnki.net/kcms/detail/11.2746. G2.20220624.1437.002.html
[18]Frank E, Paynter G. Predicting library of congress classifications from library of congress subject hea-dings. Journal of the American Society for Information Science and Technology, 2004, 55(3): 214–227
[19]Wei J, Zou K. EDA: easy data augmentation tech-niques for boosting performance on text classification tasks // Proceedings of the 2019 Conference on Empirical Methods in Natural Language Processing, Hong Kong, 2019: 6382–6388
[20]Wu X, Lv S, Zang L, et al. Conditional BERT contex-tual augmentation [EB/OL]. (2018–12–17)[2022–08–03]. https://arxiv.org/abs/1812.06705v1
[21]Karimi A, Rossi L, Prati A. AEDA: an easier data augmentation technique for text classification // Pro-ceedings of the 2021 Conference on Empirical Me-thods in Natural Language Processing. Punta Cana, 2021: 2748–2754
[22]Luque F M. Atalaya at TASS 2019: data augmentation and robust embeddings for sentiment analysis [EB/ OL]. (2019–09–25) [2022–08–03]. https://arxiv.org/ abs/1909.11241
[23]張衛(wèi), 王昊, 陳玥彤, 等. 融合遷移學(xué)習(xí)與文本增強(qiáng)的中文成語隱喻知識(shí)識(shí)別與關(guān)聯(lián)研究. 數(shù)據(jù)分析與知識(shí)發(fā)現(xiàn), 2022, 6(Z1): 167–183
[24]Ren S, Zhang J, Li L, et al. Text autoaugment: learning compositional augmentation policy for text classification // Proceedings of the 2021 Conference on Empirical Methods in Natural Language Proces-sing (EMNLP 2021). Punta Cana, 2021: 9029–9043
[25]Zhang B, Sun W, Wan X, et al. PKU paraphrase bank: a sentence-level paraphrase corpus for Chinese // CCF International Conference on Natural Language Pro-cessing and Chinese Computing, Dunhuang, 2019: 814–826
[26]Mihalcea R, Tarau P. TextRank: bringing order into text // Proceedings of Empirical Methods in Natural Language Processing. Barcelona, 2004: 404–411
[27]Joulin A, Grave E, Bojanowski P, et al. Bag of tricks for efficient text classification [EB/OL]. (2016–08–09) [2022–08–03]. https://arxiv.org/abs/1607.01759
[28]Schuster M, Nakajima K. Japanese and Korean voice search // 2012 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP). Kyoto, 2012: 5149–5152
[29]童劉奕, 張鵬翼. 《中國(guó)圖書館分類法》和《美國(guó)國(guó)會(huì)圖書館圖書分類法》人工映射分析與差異性探究. 數(shù)字圖書館論壇, 2018(3): 53–58
[30]蔣彥廷, 吳鈺潔. 英文文獻(xiàn)的《中圖法》分類號(hào)自動(dòng)標(biāo)注研究——基于文本增強(qiáng)與類目映射策略. 數(shù)字圖書館論壇, 2022(5): 39–46
[31]Beltagy I, Lo K, Cohan A. SciBERT: a pretrained language model for scientific text // Proceedings of the 2019 Conference on Empirical Methods in Natural Language Processing and the 9th International Joint Conference on Natural Language Processing (EMNLP- IJCNLP). HongKong, 2019: 3615–3620
[32]Zhou Y, Srikumar V. A closer look at how fine-tuning changes BERT // Proceedings of the 60th Annual Meeting of the Association for Computational Ling-uistics. Dublin, 2022: 1046–1061
English Books Automatic Classification According to CLC
JIANG Yanting1,2
1. Sichuan Hydrological and Water Resources Survey Center, Chengdu 610036; 2. CPC Party School of Jintang County, Chengdu 610400; E-mail: jiangyanting@mail.bnu.edu.cn
Faced with lacking of English books annotated with CLC (Chinese Library Classification) label and imbalance data, this paper combines augmentation strategies from library, information and general fields: 1) classification mapping from Library of Congress Classification (LCC) to CLC; 2) semantic enhancement based on Chinese-English parallel thesaurus; 3) punctuation or 4) conjunction inserting to initial texts. Experiments show that combining 4 strategies can optimize the performance of models on test set. Accuracy and Macro-F1 respectively increase by 3.61 and 3.35 percentage points. Comprehensive methods is superior to other text enhancement strategies. By BERT word embeddings visualization and words information entropy computing, this paper inferred that the reason why punctuation or conjunction inserting works was the various adjacent words and connection function in grammar.
pre-trained language models; Chinese Library Classification; classification mapping; Chinese thesaurus; text augmentation.