• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      面向數(shù)字人文的《四庫全書》子部自動分類研究
      ——以SikuBERT和SikuRoBERTa預(yù)訓(xùn)練模型為例*

      2022-12-15 02:50:38胡昊天張逸勤鄧三鴻王東波馮敏萱
      圖書館論壇 2022年12期
      關(guān)鍵詞:子部四庫全書古籍

      胡昊天,張逸勤,鄧三鴻,王東波,馮敏萱,劉 瀏,李 斌

      0 引言

      數(shù)字人文(Digital Humanities)是將人文社科研究內(nèi)容和計算機技術(shù)相結(jié)合的新研究范式。面對數(shù)字化的海量中華傳統(tǒng)典籍與文獻,借助高性能的算法模型與軟件工具,挖掘共性與特異性的隱含知識并建立聯(lián)系,可以實現(xiàn)對傳統(tǒng)文化與歷史信息的再組織與再利用,構(gòu)建知識與實體的新關(guān)聯(lián)。從古籍中挖掘出的精神財富、智慧資源與文化傳統(tǒng)能進一步服務(wù)于新時代的歷史學(xué)、古漢語文學(xué)、圖書與文獻學(xué)、語言學(xué)等學(xué)科研究,促進大眾科普與社會教育,對傳承中華文化具有指導(dǎo)意義。

      中華古籍圖書的集大成者《欽定四庫全書》(以下簡稱《四庫全書》)是清乾隆時期編纂的大型叢書,同期誕生的四庫分類法是一套完整的古籍分類體系?!端膸烊珪吠ㄟ^將典籍圖書按照經(jīng)、史、子、集四部分類,實現(xiàn)了對傳統(tǒng)文化體系化的組織與整理,類別范圍幾乎覆蓋全部古籍。其中,子部被劃分為儒家、兵家、法家、農(nóng)家、醫(yī)家、天文算法、術(shù)數(shù)、藝術(shù)、譜錄、雜家、類書、小說家、釋家、道家14個類別。子部內(nèi)容最龐雜、思想多元,最具文化與文學(xué)價值,在中國思想史和文學(xué)史上具有特殊意義[1]。這使得研究子部分類體系具有重要價值。不同類別的古籍能反映出共性與特性的文化關(guān)聯(lián)與時代特征,基于數(shù)據(jù)分析技術(shù)對特定類別的古籍進行數(shù)據(jù)挖掘,能揭示文字背后蘊含的隱式知識。

      隨著越來越多的紙本古籍數(shù)字化,需要對電子古籍遵循特定的類別進行組織與存儲,以便于檢索與使用。大量古書缺少類別信息,而且眾多典籍在傳世過程中遭到損壞或遺失,僅僅依靠人工進行分類,任務(wù)巨大,也難以準確歸入某一類別。為此,本文基于面向古文自然語言處理任務(wù)的SikuBERT和SikuRoBERTa預(yù)訓(xùn)練語言模型,在《四庫全書》子部古籍文本上進行微調(diào),與BERT、BERT-wwm、RoBERTa和RoBERTawwm預(yù)訓(xùn)練模型對比在《四庫全書》子部上的文本自動分類效果,最終構(gòu)建四庫子部自動分類模型,實現(xiàn)對典籍的類別自動劃分。

      1 相關(guān)研究

      (1)文本分類。深度學(xué)習(xí)技術(shù)與預(yù)訓(xùn)練語言模型在文本分類領(lǐng)域得到廣泛應(yīng)用。以卷積神經(jīng)網(wǎng)絡(luò)(CNN)、循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)為代表的深度神經(jīng)網(wǎng)絡(luò)模型能自主學(xué)習(xí)待分類語料的類別特征,分類性能提升顯著。比如,Hao等[2]提出用于短文本分類的互注意力卷積神經(jīng)網(wǎng)絡(luò)(Mutual-Attention CNN)模型,通過結(jié)合字符和詞匯級別特征,提升了分類性能。Qiao等[3]提出結(jié)合詞匯和字符兩個級別注意力模型的分類方法(WCAM),能同時捕捉具有語義相關(guān)性和類別區(qū)分度的文本,最后聯(lián)合Word-GRU和Character-CNN的預(yù)測結(jié)果獲得最佳分類標簽。

      限制深度學(xué)習(xí)模型分類效果提升的原因之一是昂貴的標注成本導(dǎo)致數(shù)據(jù)匱乏。而以BERT為代表的預(yù)訓(xùn)練語言模型能直接在超大規(guī)模無標注數(shù)據(jù)集上進行語言建模,通過遷移學(xué)習(xí)的形式將預(yù)訓(xùn)練階段學(xué)習(xí)的語言與文本特征應(yīng)用到下游特定任務(wù)。其強大的語義學(xué)習(xí)與上下文表征能力使越來越多的學(xué)者將其引入分類任務(wù)。比如,Yu等[4]提出基于BERT 改進的文本自動分類模型BERT4TC,通過構(gòu)建不同粒度的輔助句對,使BERT具備面向特定分類任務(wù)的領(lǐng)域知識,在多分類任務(wù)上表現(xiàn)優(yōu)異。

      古代漢語在詞法、句法等層面均與現(xiàn)代漢語存在差異,難以直接將在現(xiàn)代漢語上學(xué)習(xí)的文本特征遷移至古文自動分類任務(wù),需要構(gòu)建面向古文分類的標注數(shù)據(jù)集,訓(xùn)練機器學(xué)習(xí)與深度學(xué)習(xí)自動分類模型。比如,王東波等[5]探究SVM模型在不同特征下的分類性能,分別將TF-IDF、信息增益、卡方統(tǒng)計和互信息作為輸入特征,對比在《論語》《孟子》等9部先秦典籍上的分類效果,實驗結(jié)果表明基于TF-IDF特征的SVM分類器在古漢語分類任務(wù)上表現(xiàn)最佳。

      上述研究表明,深度學(xué)習(xí)與預(yù)訓(xùn)練語言模型已廣泛用于文本分類任務(wù),但在古籍文本分類領(lǐng)域缺少對預(yù)訓(xùn)練語言模型應(yīng)用的探究。當前主要采用傳統(tǒng)的機器學(xué)習(xí)和深度學(xué)習(xí)模型,需要面向特定語料構(gòu)建標注數(shù)據(jù)集,訓(xùn)練所得的分類模型也難以遷移到不同風(fēng)格體裁的古籍分類任務(wù)。此外,現(xiàn)有研究用于古籍分類的數(shù)據(jù)集大多數(shù)為先秦典籍等規(guī)模較小的標注語料,缺乏可供深度學(xué)習(xí)和預(yù)訓(xùn)練模型訓(xùn)練的大規(guī)模古籍分類數(shù)據(jù)集。

      (2)預(yù)訓(xùn)練模型。LSTM、CNN等深度學(xué)習(xí)模型在古文自動處理領(lǐng)域得到較多應(yīng)用[6],但隨著模型結(jié)構(gòu)復(fù)雜度提升,昂貴的標注成本與時間成本制約了模型性能提升[7]。而基于自監(jiān)督學(xué)習(xí)的預(yù)訓(xùn)練模型(PTMs)能在未標注的大規(guī)模語料上自主學(xué)習(xí)通用文本表示與語言特征,在面向下游任務(wù)時僅需少量標注數(shù)據(jù)集即可取得超越深度學(xué)習(xí)模型的表現(xiàn),成為研究熱點。

      BERT(Bidirectional Encoder Representations from Transformers)模型基于預(yù)訓(xùn)練和微調(diào)兩部分的形式進行構(gòu)建。在預(yù)訓(xùn)練階段,采用雙向語言模型,即通過掩碼語言模型隨機遮蔽輸入序列中的詞匯,以自監(jiān)督方式使得模型利用前后兩個方向的信息預(yù)測詞匯,獲得雙向深層文本表示。該模型還引入下一句預(yù)測任務(wù)學(xué)習(xí)句子關(guān)系。BERT的出現(xiàn)在預(yù)訓(xùn)練模型發(fā)展史上具有里程碑式的意義[8],催生了大批改型。

      RoBERTa(Robustly optimized BERT approach)[9]對BERT模型進行3大優(yōu)化:更深度的訓(xùn)練方法、更有效的掩碼方式、更全面的輸入表示。BERT-wwm[10]模型針對中文詞匯與英文詞匯的不同,將BERT 原始字符級掩碼機制替換為全詞掩碼(Whole Word Masking)的方式。ERNIE(Baidu,Enhanced Representation through Knowledge Integration)[11]在BERT字符掩碼的基礎(chǔ)上額外增加中文實體層面和短語層面的掩碼,引入更多外部知識。ERNIE(THU,Enhanced Language Representation with Informative Entities)[12]將知識圖譜中的命名實體信息與原始文本信息對齊后共同作為模型輸入,引入外部的實體信息以增強原始的文本表示,最終在知識驅(qū)動型等任務(wù)上取得超越BERT 的效果。MASS[13]針對序列到序列任務(wù),提出序列掩碼訓(xùn)練(Masked Sequence to Sequence Pretraining)方式,對輸入文本序列,直接遮蔽指定長度的連續(xù)文本段,通過訓(xùn)練實現(xiàn)對詞匯間依賴關(guān)系的語言建模。該模型在摘要生成、自動翻譯、對話生成等任務(wù)上表現(xiàn)較優(yōu)。

      上述預(yù)訓(xùn)練語言模型研究,對自然語言理解相關(guān)的文本分類、知識抽取等任務(wù),以BERT為代表的雙向語言表示模型能取得更優(yōu)表現(xiàn)。對中文文本處理,基于全詞掩碼、實體掩碼等方式的預(yù)訓(xùn)練模型較基于字符掩碼的BERT可以更充分地對中文詞匯建模。但現(xiàn)有的中文預(yù)訓(xùn)練模型多是基于通用現(xiàn)代漢語文本進行語言特征學(xué)習(xí),在面向古文自然語言處理任務(wù)時,由于預(yù)訓(xùn)練和下游任務(wù)語料不適配,難以充分發(fā)揮性能。

      2 SikuBERT預(yù)訓(xùn)練語言模型

      2.1 SikuBERT

      SikuBERT 模 型 (https://huggingface.co/SIKU-BERT/sikubert.)是基于BERT 框架,在BERT-base-Chinese模型上繼續(xù)訓(xùn)練得到,其訓(xùn)練數(shù)據(jù)集為文淵閣版繁體字《四庫全書》全文語料。與原始BERT 模型相比,在預(yù)訓(xùn)練過程中僅保留掩碼語言模型(Masked Language Model,MLM)任務(wù),移除了對性能提升表現(xiàn)不佳的下一句預(yù)測任務(wù)(Next Sentence Prediction,NSP)。圖1 是SikuBERT 模型預(yù)訓(xùn)練過程示例。對輸入語句,隨機遮蔽15%字符并采用[MASK]標記替代,基于雙向Transformer編碼器,使模型以自監(jiān)督方式從前后兩個方向同時預(yù)測被遮蔽字符,從而更有效地學(xué)習(xí)典籍文本的文法、句法、語言風(fēng)格等特征。

      圖1 SikuBERT模型預(yù)訓(xùn)練示意圖

      2.2 SikuRoBERTa

      SikuRoBERTa 模 型 (https://huggingface.co/SIKU-BERT/sikuroberta)是基于中文版Ro-BERTa-wwm模型在《四庫全書》全文語料上預(yù)訓(xùn)練后構(gòu)建的。與原始RoBERTa模型不同的是,RoBERTa-wwm模型在采用掩碼語言模型預(yù)訓(xùn)練過程中采用全詞遮蔽技術(shù)(whole word masking,wwm),實現(xiàn)對中文文本詞匯層面的遮蔽,使模型能進一步學(xué)習(xí)到深層的中文詞義與詞法信息。SikuRoBERTa 在保留RoBERTawwm模型優(yōu)勢的基礎(chǔ)上,從5億余字的《四庫全書》全文語料(已刪去原文中注釋部分)上學(xué)習(xí)古代漢語的遣詞造句與語言學(xué)信息,從而提升在繁體文本上的表現(xiàn)。圖2 是SikuBERT 和Siku-RoBERTa模型用于典籍自動分類微調(diào)任務(wù)的架構(gòu)圖。對輸入序列“子曰所謂大臣者以道事君不可則止”,會被SikuBERT 或SikuRoBERTa 模型根據(jù)詞表映射為字符嵌入、句子嵌入和位置嵌入3種向量的組合形式,經(jīng)過Transformer編碼器提取特征后,通過Softmax分類器計算輸入序列的各類別概率,并輸出概率最大類別作為該序列的四庫子部類別信息。

      圖2 SikuBERT與SikuRoBERTa分類模型架構(gòu)圖

      3 《四庫全書》子部數(shù)據(jù)統(tǒng)計分析

      通過網(wǎng)絡(luò)爬蟲獲取繁體字版本的文淵閣《四庫全書》子部全文數(shù)據(jù),該語料未經(jīng)過加注標點符號,也無斷句標記。除標題、目錄、編撰人信息外,正文部分文本均以段落為最小單位進行組織。此外,注釋內(nèi)容也包含在正文文本中。

      3.1 外部特征分析

      《四庫全書》子部數(shù)據(jù)集中包含897 部古籍、2,233,410個段落、186,521,284個字符,見圖3。圖3中數(shù)據(jù)標簽數(shù)值顯示各類別古籍的具體段落數(shù)量。綜合段落數(shù)和字數(shù)分布情況,《四庫全書》子部中數(shù)據(jù)量較大的類別有類書、醫(yī)家、雜家,數(shù)據(jù)量較小的類別為法家、兵家、農(nóng)家等。無論是字數(shù)還是段落數(shù),法家類數(shù)據(jù)量均為最小,類書類的數(shù)據(jù)量最大。

      圖3 各類別古籍段落數(shù)與字數(shù)分布

      圖4 呈現(xiàn)《四庫全書》子部中14個類別古籍的平均段落長度。法家類字符數(shù)與段落數(shù)最少,但平均段落長度最長,每個段落平均由175.48個字符構(gòu)成。平均段落長度大于100的古籍類別還有儒家、類書、小說家、釋家和道家類。醫(yī)家類數(shù)據(jù)量位居第二,但平均段落長度最短,每個段落平均僅包含47.55個字符。平均段落長度小于50的類別還有藝術(shù)和天文算法。

      圖4 各類別古籍平均段落長度

      圖5中前14個子圖橫坐標為段落長度,縱坐標為段落數(shù)對應(yīng)各類別古籍的段落長度分布情況。每種類別的古籍均呈現(xiàn)長度介于1-200的段落數(shù)量。各類別段落長度的變化趨勢總體相似,在長度1-50內(nèi)均呈現(xiàn)出明顯的下降趨勢,在長度大于100 后數(shù)量降幅放緩,但各類古籍的段落數(shù)量下降趨勢與幅度并不相同。例如,醫(yī)家、藝術(shù)、雜家類的段落數(shù)量隨長度增加下降幅度較大,說明對上述類別,絕大部分段落長度較短。

      圖5 各類別古籍段落長度分布

      圖5 中最后一個子圖展示了長度小于200的各類別古籍段落數(shù)量。其中,類書和醫(yī)家類圖書的段落數(shù)量較多,法家、兵家、農(nóng)家類的段落數(shù)量最少。這一分布情況也與《四庫全書》子部整體段落的分布相似。表1展示各個類別長度小于200的段落數(shù)量占語料庫中全部段落數(shù)量的百分比,除法家類的占比為79.81%外,其余全部類別均超過80%,有7個類別的占比超過90%,說明各個類別絕大多數(shù)段落的長度都在200字以內(nèi)。

      表1 各類別長度小于200的段落占比

      3.2 內(nèi)部特征分析

      由于《四庫全書》子部語料未經(jīng)過分詞標注,也未進行斷句標點,因此本部分從字的角度出發(fā)統(tǒng)計各類別古籍的高頻一元字。由于古文中含有大量“之”“不”“也”“而”等助詞、副詞、語氣詞,沒有實際含義,很難體現(xiàn)出類別信息,因此在統(tǒng)計字頻時刪除上述字。最終得到清洗后各類別高頻出現(xiàn)的漢字。為直觀呈現(xiàn)不同類別古籍字級別內(nèi)容的差異,表2 列出字符特征最為明顯的6 個類別古籍中的部分高頻字。在表2 中,各漢字均明顯體現(xiàn)出不同古籍的類別信 息 。 例如,對兵家類古籍,高頻出現(xiàn)的漢字 “ 兵 ”“軍”“將”等具有軍事與戰(zhàn)爭的特征;在農(nóng)家類中,高頻字“水”“種”“葉”均與農(nóng)耕息息相關(guān);藝術(shù)類古籍的高頻漢字“書”“字”“畫”,均是文學(xué)藝術(shù)的代表性字詞。僅僅通過《四庫全書》子部各類別的高頻字就可以容易地區(qū)分部分古籍的類別特征,說明采用文本自動分類的方式對《四庫全書》子部古籍進行類別劃分,并構(gòu)建子部分類體系是可行的。

      表2 部分類別高頻字統(tǒng)計

      4 實驗與分析

      4.1 評價指標

      對各類別圖書分類性能,采用精確率(Precision)、召回率(Recall)、F值(F-score)指標進行評價。對總體分類性能,使用微平均精確率(Micro_P)、微平均召回率(Micro_R)、微平均F 值(Micro_F)進行計算,公式如下:

      4.2 探索性實驗

      為獲得最佳的超參數(shù)設(shè)置與數(shù)據(jù)集選取范圍,前期基于SikuRoBERTa模型進行多個維度的探索性實驗。

      (1)數(shù)據(jù)清洗程度。在《四庫全書》子部語料中除正文文本外,還包含注釋信息。此類文本均為編纂《四庫全書》時留下的注釋,對解釋圖書內(nèi)容和體現(xiàn)不同類別的特征具有意義。語料中還包含目錄、題名等信息。為探究上述信息的保留與否對整體分類性能具有何種影響,本文對比了保留全部數(shù)據(jù)、刪除注釋、刪除注釋目錄標題等3種情況下的效果。從表3可知,保留注釋、目錄、標題等信息的模型F值最高,說明注釋等文本對提升分類性能具有正向作用,因此在構(gòu)建數(shù)據(jù)集時對此類解釋性文本予以保留。

      表3 數(shù)據(jù)清洗程度對模型性能影響

      (2)序列長度。由于原始文本未經(jīng)過斷句與標點,均以段落為單位存儲,因此模型序列長度的選取較重要。對語料中字數(shù)少于10的段落,一方面長度較小,信息量較低,另一方面大多數(shù)為“上篇”“欽定四庫全書卷”“總校官【臣】陸費墀”等書名、卷號、編撰校對者信息。據(jù)圖4-5和表1 可知,各個類別古籍的段落在長度大于100后的數(shù)量均較少。為探究不同輸入序列長度對模型分類性能的影響,開展表4 所示對比實驗,當輸入序列最小長度為10,最大長度為128時,模型可獲得最優(yōu)的分類性能。

      表4 不同序列長度對模型性能影響

      (3)數(shù)據(jù)平衡。由圖3可知,14個類別古籍的數(shù)據(jù)量相差懸殊,數(shù)據(jù)量最大的類書類的段落數(shù)是最小的法家類段落數(shù)的200余倍,容易導(dǎo)致模型過度學(xué)習(xí)大樣本類的特征而無法充分提取小樣本類的特征。因此,本文探究是否采取類別平衡以及數(shù)據(jù)量大小對性能的影響。表5中,實驗2是以法家類的全部段落數(shù)3,828為基準,對其他所有類別進行下采樣。實驗3是在維持法家類為3,828條數(shù)據(jù)的基礎(chǔ)上,將其他類別均下采樣至10,000條數(shù)據(jù)。實驗4全連接指的是將每一本古籍的文本全部按順序首尾相接,然后按照給定的最大序列長度進行切分,設(shè)定的最大序列長度為128。結(jié)果表明,全部類別均保留3,828 條數(shù)據(jù)時可以獲得最佳效果。最終構(gòu)建的數(shù)據(jù)集包含53,592個段落,共3,263,008個字符。數(shù)據(jù)集中各類別圖書的字數(shù)分布情況如圖6所示。與圖3字數(shù)相比,數(shù)據(jù)集得到了很好的平衡。對學(xué)習(xí)率、迭代次數(shù)等其他超參數(shù)的預(yù)實驗此處不再贅述。綜合全部探索性實驗的結(jié)果,本文最終獲得了下一小節(jié)所列出的最佳超參數(shù)設(shè)置。

      表5 是否采取類別平衡對模型性能影響

      圖6 數(shù)據(jù)集各類別字數(shù)分布

      4.3 超參數(shù)與環(huán)境配置

      由 于 SikuBERT、 SikuRoBERTa 模 型 和BERT、BERT-wwm、RoBERTa、RoBERTawwm均采用相同的架構(gòu)預(yù)訓(xùn)練,因此采用統(tǒng)一的超參數(shù)進行自動分類任務(wù),設(shè)置見表6。本文實驗環(huán)境配置中,CPU:Intel(R)Xeon(R)CPU E5-2650 v4@2.20GHz;內(nèi)存:512GB;GPU:NVIDIA?Tesla?P40;顯存:24GB;操作系統(tǒng)為:CentOS 3.10.0。所有模型均基于Pytorch后端的BERT框架進行訓(xùn)練與測試。用于對比的BERT(https://huggingface.co/bert- base- chinese)、BERT-wwm(https://huggingface.co/hfl/chinesebert-wwm)、RoBERTa(https://github.com/brig htmart/roberta_zh/)和 RoBERTa-wwm(https://huggingface.co/hfl/chinese-roberta-wwm-ext)均選用開源的Pytorch版本預(yù)訓(xùn)練模型。

      表6 主要超參數(shù)設(shè)置

      4.4 自動分類對比實驗

      SikuBERT和SikuRoBERTa模型和其他4種用于對比的基線模型均采用十折交叉驗證方式進行自動分類任務(wù),取十折實驗的均值作為模型最終的評價結(jié)果。表7 給出6 種模型在《四庫全書》子部上的整體分類性能得分。SikuBERT和SikuRoBERTa 模型表現(xiàn)最優(yōu),是因為相較于其他基線模型,二者更充分學(xué)習(xí)了古文的詞法、句法、語義等特征。基于全詞遮蔽的BERT-wwm模型在全部3 種評價指標上均超過原始BERT,說明對于BERT模型來說,全詞遮蔽的預(yù)訓(xùn)練方式更加適合開展面向中文的自然語言處理任務(wù)。RoBERTa-wwm在全部模型中表現(xiàn)最差。

      表7 各模型整體分類效果對比

      進一步對比SikuBERT 和SikuRoBERTa 模型的各類別古籍具體分類效果,探究模型在《四庫全書》子部各個類別上的分類性能。在十折交叉驗證中,整體表現(xiàn)最優(yōu)的SikuBERT模型各類別詳細的精確率、召回率、F值的測評得分見表8。在14個類別中,SikuBERT模型對天文算法和釋家類的識別在精確率、召回率和F值3種評價指標上均取得較高的得分,而對小說家、雜家、儒家類的分類效果差。這是由于天文算法類書籍具有非常明顯的特征,如段落“晦朔?為坤象三日朏而出於庚為震象五日上”具有極強的描述天文現(xiàn)象的特征。釋家類主要收錄佛教書籍,而佛經(jīng)的篇章結(jié)構(gòu)、段落布局、遣詞造句等與其他各類別文本都存在較大差異,因此分類準確率較高。小說家和雜家類圖書由于收錄范圍較廣,類別特性相對不明顯,因此效果欠佳。

      表8 SikuBERT性能最優(yōu)模型各類別分類效果

      對F 值得分排名第二的SikuRoBERTa 模型,表9給出十折交叉驗證中各個類別詳細的測評情況。SikuRoBERTa 模型同樣對天文算法類識別的效果最佳,精確率、召回率和F值均超過98%,再次印證天文算法類圖書具有較獨特的語言特征。該模型對小說家和雜家類的識別表現(xiàn)差,但F值均超過80%,優(yōu)于SikuBERT模型在小說家類的分類表現(xiàn)。雖然SikuBERT模型平均F值得分高于SikuRoBERTa模型,但十折交叉中表現(xiàn)最佳的SikuRoBERTa 模型取得92.02%F值,較表現(xiàn)最佳SikuBERT模型提升0.33%。

      表9 SikuRoBERTa性能最優(yōu)模型各類別分類效果

      綜合 SikuBERT 和 SikuRoBERTa 的各類別分類表現(xiàn),發(fā)現(xiàn)模型對天文算法、釋家、醫(yī)家類3種類別的識別效果最好,說明3個類別的文本具有較強的類別特性,文本內(nèi)容與行文手法相對較為獨立,自成一派。兩種模型對小說家和雜家的識別表現(xiàn)差,說明一方面小說家和雜家類書籍收錄范圍較廣泛,涵蓋各家之長,形式多樣,內(nèi)容繁多,共性特征不明顯;另一方面,說明預(yù)訓(xùn)練語言模型對類別特征存在交叉的文本進行分類時,存在改進空間。表10列出各模型在十折交叉驗證中表現(xiàn)最佳的模型整體分類效果,無論是十折交叉的平均結(jié)果,還是表現(xiàn)最佳的一折模型,SikuRoBERTa模型和SikuBERT模型均取得最優(yōu)的分類性能。

      表10 十折交叉最佳模型整體分類效果對比

      4.5 自動分類預(yù)測結(jié)果對比

      為更細致地檢查模型對各類別古籍的分類效果,分析錯誤分類,設(shè)計自動分類預(yù)測對比任務(wù)。首先,隨機從子部14個類別的古籍中采樣一定數(shù)量的段落,用以構(gòu)建古籍類別自動預(yù)測數(shù)據(jù)集。其次,采用6種模型中各自十折交叉表現(xiàn)最優(yōu)的模型,對該數(shù)據(jù)集進行自動標注,實現(xiàn)對古籍段落類別的預(yù)測。最后,從宏觀和微觀角度對比各模型正確預(yù)測類別的段落數(shù)量。6種模型具體自動分類結(jié)果見表11。SikuRoBERTa在全部模型中表現(xiàn)最優(yōu),測試集中95.30%的段落都被正確歸類到所屬古籍類別。緊隨其后的SikuBERT模型分類正確率也超過95%。BERT和RoBERTa-wwm 模型均取得94.53%的分類正確率,在全部5,231個段落中將4,945個段落正確歸類。本文提出的方法在自動分類預(yù)測任務(wù)中的表現(xiàn)優(yōu)于基線模型,能精準正確預(yù)測典籍文本所屬古籍類別。

      表11 各模型自動分類預(yù)測效果對比

      對預(yù)測效果較好的SikuBERT 和SikuRoBERTa 模型,進一步按照子部14 個類別,給出每個類別模型預(yù)測正確的段落數(shù)量,以及錯誤預(yù)測為其他類別的段落數(shù)量,從微觀角度對模型的分類性能進行分析。表12-13分別是SikuBERT和SikuRoBERTa 模型的自動分類預(yù)測結(jié)果匯總,縱向為段落的真實類別,橫向為模型自動預(yù)測的類別。

      表12 SikuBERT自動分類預(yù)測結(jié)果

      絕大部分類別的預(yù)測結(jié)果正確,且錯誤預(yù)測的類別數(shù)量也相對較少。但在雜家類361 個段落中有10 個被錯誤預(yù)測為醫(yī)家;在小說家類370 個段落中,17 個段落被錯誤的預(yù)測為譜錄類。進一步檢查被錯誤預(yù)測的段落原文,如小說家類的文本“紅沫練丹砂爲黃金碎以染筆書入石中削去逾明名曰紅沫”被錯誤的預(yù)測為譜錄類。而在子部總序中對譜錄類的描述為:“《詩》取‘多識’,《易》稱‘制器’,博聞有取,利用攸資,故次以譜錄?!盵1]因此,推測可能是此段落和譜錄類文本的內(nèi)容特征存在相似之處,模型錯誤地將其預(yù)測為譜錄類。

      SikuRoBERTa 模型整體預(yù)測錯誤率低,但與SikuBERT模型類似,雜家類有9個段落被錯誤歸類為醫(yī)家類,小說家類中有9 個段落被錯誤歸類為雜家,道家類有10個段落被歸類為儒家類。檢查分類錯誤的原始段落,發(fā)現(xiàn)通常是該段落具有被錯誤劃分類別的特征。例如,雜家類段落“香身丸治遍身熾氣惡氣及口齒氣”,具有明顯的醫(yī)學(xué)類古籍語言與內(nèi)容特征,被SikuRoBERTa 模型錯誤預(yù)測為醫(yī)家類。再如,道家典籍《莊子》中的段落“知天之所為知人之所為者至矣”,被錯誤預(yù)測為儒家類。由于道家和儒家均有對天與人思想的闡述,因此模型未能很好區(qū)分該段落的類別信息。

      表13 SikuRoBERTa自動分類預(yù)測結(jié)果

      5 古籍自動分類模塊構(gòu)建及應(yīng)用

      為實現(xiàn)對古籍文本的多粒度、多維度、智能化處理,輔助學(xué)者以便捷的可視化方式開展數(shù)字人文科研,本文基于SikuBERT預(yù)訓(xùn)練語言模型構(gòu)建了古籍自動分類模塊,并融入單機版SIKUBERT典籍智能處理系統(tǒng)。該系統(tǒng)基于Python程序語言設(shè)計,采用PyQt5工具包搭建平臺并實現(xiàn)前端與后臺數(shù)據(jù)傳輸,其主界面見圖7。

      圖7 SIKU-BERT典籍智能處理系統(tǒng)主界面

      系統(tǒng)提供單文本處理和語料庫處理兩種入口,可根據(jù)數(shù)據(jù)量大小選擇最適合的處理方式。用戶可調(diào)用訓(xùn)練好的SikuBERT 預(yù)訓(xùn)練語言模型,僅通過鼠標點擊方式,即可實現(xiàn)對古籍文本的自動分詞、詞性標注、自動分類等功能。在典籍智能處理過程中,用戶無需掌握復(fù)雜的編程知識,也不需要了解自然語言處理的基本原理,上手即用。圖8是單文本模式下,調(diào)用典籍自動分類模塊對古文進行自動類別判斷的示例。

      圖8 SIKU-BERT典籍自動分類模塊(單文本模式)

      在圖8界面的左側(cè)為原始文本輸入框,此處輸入的“孔子曰其如示諸斯乎指其掌……施諸已而不願亦勿施於人此又掠下教人”選自儒家類古籍。界面右側(cè)文本框用于輸出分類結(jié)果。用戶點擊“自動分類”按鈕后,系統(tǒng)自動調(diào)用SikuBERT模型對其進行類別判定,最終正確識別出該輸入文本的四庫子部分類法類別為“儒家類”。圖9展示系統(tǒng)對用戶本地語料庫進行批量自動分類的過程。

      圖9 SIKU-BERT典籍自動分類模塊配置過程(語料庫模式)

      用戶點擊“瀏覽”按鈕分別選擇待分類語料庫所對應(yīng)的文件夾路徑,以及分類后文本的輸出路徑,系統(tǒng)即會在信息提示框中輸出語料庫中全部待分類文本的路徑信息。點擊“自動分類”按鈕后,系統(tǒng)會調(diào)用SikuBERT古籍分類模型進行自動分類,并在信息提示框中動態(tài)顯示當前處理進度(見圖10)。全部分類完成后,用戶進入輸出路徑,即可查看語料庫中文本經(jīng)模型預(yù)測后,被自動分類的古籍類別信息。

      圖10 SIKU-BERT典籍自動分類模塊運行過程(語料庫模式)

      6 結(jié)語

      本文基于面向古文自然語言處理與自然語言理解的SikuBERT 與SikuRoBERTa 預(yù)訓(xùn)練語言模型,分別構(gòu)建兩種四庫子部典籍自動分類模型,實現(xiàn)對古漢語文本的類別自動劃分。在此基礎(chǔ)上開發(fā)SIKU-BERT典籍智能處理系統(tǒng),提供典籍自動分類工具。本文提出的模型在自動分類與預(yù)測上的表現(xiàn)均優(yōu)于用于對比的BERT、BERT-wwm、RoBERTa、RoBERTa-wwm基線模型,具有較強的分類準確性與魯棒性。開發(fā)的典籍自動分類工具可服務(wù)于古漢語文學(xué)、歷史學(xué)、語言學(xué)等學(xué)科研究,減少人力、物力與時間成本投入。

      未來一方面將采用上采樣與下采樣結(jié)合的方式,增加參與訓(xùn)練的數(shù)據(jù)量,篩選能夠全面涵蓋類別特性的古籍參與訓(xùn)練,進一步提升分類效果;另一方面,將Transformer 架構(gòu)替換為Transformer-XL,實現(xiàn)對長文本的學(xué)習(xí),并嘗試對數(shù)字化后的現(xiàn)存典籍殘本進行類別預(yù)測。此外,由于當前基于BERT改進的預(yù)訓(xùn)練模型大多基于字級別數(shù)據(jù)進行預(yù)訓(xùn)練,為了保證上下游數(shù)據(jù)的一致性,目前采用的《四庫全書》子部語料為未經(jīng)過分詞標注,也未添加斷句與標點符號的字級別文本,缺失了詞匯和句子特征,可能在一定程度上會對最終分類結(jié)果產(chǎn)生影響。在后續(xù)的研究中,擬采用人工與算法相結(jié)合的標注方式,對原始文本進行加工,構(gòu)建更適用于文本分類任務(wù)的數(shù)據(jù)集。

      猜你喜歡
      子部四庫全書古籍
      《四庫全書總目》子部天文演算法、術(shù)數(shù)類提要獻疑
      國學(xué)(2021年0期)2022-01-18 05:59:08
      《四庫全書考證》新近出版
      中醫(yī)古籍“疒”部俗字考辨舉隅
      《四庫全書總目》提要辨證五則
      天一閣文叢(2020年0期)2020-11-05 08:28:32
      關(guān)于版本學(xué)的問答——《古籍善本》修訂重版說明
      天一閣文叢(2020年0期)2020-11-05 08:28:06
      整理本《欽定四庫全書總目》子部儒家類標點志誤
      天一閣文叢(2019年0期)2019-11-25 01:32:12
      于敏中與《四庫全書薈要》纂修
      天一閣文叢(2019年0期)2019-11-25 01:31:58
      《文獻通考·經(jīng)籍考》的分類淵源與歸類調(diào)整
      關(guān)于古籍保護人才培養(yǎng)的若干思考
      天一閣文叢(2018年0期)2018-11-29 07:48:08
      我是古籍修復(fù)師
      金橋(2017年5期)2017-07-05 08:14:41
      连州市| 杭锦后旗| 印江| 渑池县| 巴青县| 武宁县| 碌曲县| 双峰县| 芦溪县| 武宣县| 平定县| 深水埗区| 兰州市| 茌平县| 曲阳县| 昌都县| 邳州市| 锡林浩特市| 武乡县| 青川县| 朔州市| 绍兴市| 桃江县| 阿图什市| 抚顺县| 辉县市| 宁晋县| 瑞丽市| 澳门| 泰来县| 尖扎县| 安庆市| 澄迈县| 贡嘎县| 玉门市| 定西市| 双江| 吉木萨尔县| 曲沃县| 南汇区| 徐州市|