徐潤華,王東波,劉 歡,梁 媛,陳 康
古籍文獻(xiàn)是中華文化的璀璨瑰寶,21世紀(jì)以來,數(shù)字人文(Digital Humanities)開辟了古籍文獻(xiàn)信息化處理乃至知識挖掘新思路和途徑。目前針對古籍文獻(xiàn)的信息處理研究在自動(dòng)分詞、詞性標(biāo)注、命名實(shí)體識別等領(lǐng)域取得突破,但對古籍文獻(xiàn)特別是篇幅較長的古籍文獻(xiàn)進(jìn)行自動(dòng)摘要的尚未涉及。通過自動(dòng)摘要任務(wù)可以給古籍文獻(xiàn)貼上清晰易懂的標(biāo)簽,降低古文閱讀門檻,也為計(jì)算機(jī)深度挖掘提供便利,促進(jìn)中華文化傳承和發(fā)展。學(xué)術(shù)界針對古籍文獻(xiàn)的自動(dòng)摘要研究尚處于空白階段,據(jù)此,本文提出基于SikuBERT和SikuRoBERTa預(yù)訓(xùn)練模型的古籍文獻(xiàn)自動(dòng)摘要方法。
(1)面向古籍文獻(xiàn)信息處理的數(shù)字人文研究。數(shù)字人文是信息技術(shù)與人文學(xué)科相交叉、相融合的研究領(lǐng)域,面向古籍文獻(xiàn)的數(shù)字人文研究中,學(xué)者多采取語言計(jì)算模型和深度學(xué)習(xí)方法對古籍文獻(xiàn)開展深度挖掘等研究[1]。近年隨著數(shù)字技術(shù)的迅速發(fā)展,LSTM、CNN等深度學(xué)習(xí)模型在古文自動(dòng)處理領(lǐng)域得到廣泛應(yīng)用[2],但隨著模型結(jié)構(gòu)復(fù)雜度提升,昂貴的標(biāo)注成本與時(shí)間成本制約模型性能的提升[3]。Devlin等提出深度學(xué)習(xí)模型BERT[4],能在未標(biāo)注的大規(guī)模語料上自主學(xué)習(xí)通用文本表示與語言特征,在面向下游任務(wù)時(shí)僅需要少量標(biāo)注數(shù)據(jù)集即可取得超越深度學(xué)習(xí)模型的表現(xiàn),因此成為新的研究熱點(diǎn)。
(2)古籍文獻(xiàn)自動(dòng)分詞及詞性標(biāo)注。自動(dòng)分詞是中文信息處理的基礎(chǔ)性應(yīng)用課題,是計(jì)算機(jī)理解文本內(nèi)容的起點(diǎn)。對古籍文獻(xiàn)進(jìn)行自動(dòng)分詞需考慮到古文詞匯語法特征,難度很大。在面向古籍文獻(xiàn)的自動(dòng)分詞過程中,基于統(tǒng)計(jì)機(jī)器學(xué)習(xí)的方法是目前主流的分詞方法。比如,劉暢等[5]基于SikuBERT預(yù)訓(xùn)練模型對記載春秋至魏晉的6部具有代表性的官修史籍進(jìn)行多組對比實(shí)驗(yàn),構(gòu)建古籍文獻(xiàn)分詞語料庫并開發(fā)面向古籍文獻(xiàn)的分詞工具。
詞性標(biāo)注是在自動(dòng)分詞基礎(chǔ)上進(jìn)行的更深一層級的標(biāo)注,對古籍文獻(xiàn)進(jìn)行詞性標(biāo)注可以為詞語標(biāo)注對應(yīng)的詞性,幫助計(jì)算機(jī)更好理解古籍文本。比如,耿云冬等[6]使用人工校對后的高質(zhì)量古籍文獻(xiàn)《四庫全書》語料作為模型的訓(xùn)練集,利用SikuBERT模型構(gòu)建預(yù)訓(xùn)練語言模型,進(jìn)行詞性標(biāo)注實(shí)驗(yàn),發(fā)現(xiàn)利用SikuBERT模型進(jìn)行古籍文獻(xiàn)的詞性標(biāo)注可以取得優(yōu)異的效果。
(3)古籍文獻(xiàn)實(shí)體識別及自動(dòng)分類。對古籍文獻(xiàn)進(jìn)行自動(dòng)分詞、詞性標(biāo)注等基礎(chǔ)的加工標(biāo)注,是為后續(xù)開展更深層面的詞匯知識挖掘任務(wù)做準(zhǔn)備,如命名實(shí)體識別、文本自動(dòng)分類,這些都是古籍文獻(xiàn)信息處理過程中的關(guān)鍵環(huán)節(jié)。隨著深度學(xué)習(xí)技術(shù)的發(fā)展,基于深度學(xué)習(xí)的語言計(jì)算模型被應(yīng)用于古籍文獻(xiàn)的信息處理。比如,朱鎖玲等[7]采用基于規(guī)則和基于統(tǒng)計(jì)相結(jié)合的方法來識別命名實(shí)體,以《方志物產(chǎn)》作為實(shí)驗(yàn)語料,實(shí)現(xiàn)了對物產(chǎn)地名進(jìn)行命名實(shí)體識別的目標(biāo)。
(4)自動(dòng)摘要方法研究。自動(dòng)摘要技術(shù)旨在對海量信息進(jìn)行壓縮和提煉,提高知識獲取效率。自動(dòng)摘要技術(shù)的產(chǎn)生和發(fā)展為信息利用效率低下、閱讀成本過高等問題提供了解決途徑。自動(dòng)摘要技術(shù)主要有抽取式自動(dòng)摘要和生成式自動(dòng)摘要兩種。抽取式自動(dòng)摘要技術(shù)研究起步早、成熟度高,隨著深度學(xué)習(xí)技術(shù)的發(fā)展,生成式自動(dòng)摘要技術(shù)因能達(dá)到生成更流暢、更易于閱讀和理解的高質(zhì)量文本摘要的目的,而受到廣泛關(guān)注。比如,王永成等[8]提出基于OA系統(tǒng)的中文文獻(xiàn)自動(dòng)摘要系統(tǒng),并歸納中文自動(dòng)摘要的歷史、現(xiàn)狀和意義;譚金源等[9]融合多個(gè)深度學(xué)習(xí)模型,分別提出基于BERT和指針生成網(wǎng)絡(luò)的生成式自動(dòng)摘要模型,實(shí)驗(yàn)表明融合后的模型能改善自動(dòng)摘要內(nèi)容的流暢度和準(zhǔn)確性。
綜上,在數(shù)字人文研究浪潮和深度學(xué)習(xí)技術(shù)發(fā)展背景下,針對古籍文獻(xiàn)的信息處理研究已經(jīng)進(jìn)入結(jié)構(gòu)化程度更高的層面且取得豐碩成果,但對古籍文獻(xiàn)自動(dòng)摘要領(lǐng)域的研究鮮有學(xué)者涉足。古籍文獻(xiàn)的時(shí)代語言特點(diǎn)和過長篇幅使得自動(dòng)摘要研究迫在眉睫。據(jù)此,本文面向古籍文獻(xiàn)的自動(dòng)摘要任務(wù),基于SikuBERT 和SikuRoBERTa預(yù)訓(xùn)練模型進(jìn)行《左傳》《資治通鑒》的自動(dòng)摘要實(shí)驗(yàn),探索對古籍文獻(xiàn)自動(dòng)摘要思路。
BERT(Bidirectional Encoder Representa-tions from Transformers)[4]模型基于預(yù)訓(xùn)練和微調(diào)兩部分的形式進(jìn)行構(gòu)建。在預(yù)訓(xùn)練階段,BERT采用雙向語言模型,即通過掩碼語言模型(Masked Language Model,MLM)隨機(jī)遮蔽輸入序列中的詞匯,以自監(jiān)督方式使得模型利用前后兩個(gè)方向的信息預(yù)測詞匯,從而獲得雙向深層文本表示。該模型還引入下一句預(yù)測(Next SentencePrediction,NSP)任務(wù)學(xué)習(xí)句子關(guān)系。BERT的提出在預(yù)訓(xùn)練模型發(fā)展史上具有里程碑意義[10],催生了大批改型。SikuBERT 模型是基于BERT框架,在BERT-base-Chinese模型上繼續(xù)訓(xùn)練得到的,使用的訓(xùn)練數(shù)據(jù)集為文淵閣版的繁體字《四庫全書》全文語料。與原始BERT模型相比,在預(yù)訓(xùn)練過程中僅保留掩碼語言模型任務(wù),移除對性能提升表現(xiàn)不佳的下一句預(yù)測任務(wù)。圖1是SikuBERT模型的預(yù)訓(xùn)練過程示例。對輸入語句,隨機(jī)遮蔽15%字符并采用[MASK]標(biāo)記替代,基于雙向Transformer的編碼器,使得模型以自監(jiān)督的方式從前后兩個(gè)方向同時(shí)預(yù)測被遮蔽字符,從而更有效地學(xué)習(xí)到典籍文本的文法、句法、語言風(fēng)格等特征。
圖1 SikuBERT模型預(yù)訓(xùn)練示意圖
RoBERTa(Robustly optimized BERT approach)[11]對BERT模型進(jìn)行三大優(yōu)化:更深度的訓(xùn)練方法、更有效的掩碼方式、更全面的輸入表示。在訓(xùn)練中,采用更大的訓(xùn)練集、更長的訓(xùn)練時(shí)間,通過FULL-SENTENCES 方式輸入更長的連續(xù)文本,以動(dòng)態(tài)掩碼(Dynamic Masking)替代原始的靜態(tài)掩碼,提升了訓(xùn)練集利用率。該模型還移除BERT的NSP任務(wù),擴(kuò)充了詞表大小。BERT-wwm[12]模型針對中文詞匯與英文詞匯的不同,將BERT原始字符級別的掩碼機(jī)制替換為全詞掩碼(Whole Word Masking,WWM)的方式,即對輸入序列中的任意詞匯,只要一個(gè)漢字被遮蔽剩余全部漢字均會被遮蔽,讓模型在預(yù)訓(xùn)練階段預(yù)測整個(gè)被遮蔽的中文詞匯,從而提升模型對中文構(gòu)詞規(guī)則的學(xué)習(xí)能力。ERNIE(Baidu, Enhanced Representation through Knowledge Integration)[13]在 BERT 字 符 掩碼的基礎(chǔ)上額外增加了中文實(shí)體層面掩碼和短語層面的掩碼,從而引入更多外部知識。ERNIE(THU, Enhanced Language Representation with Informative Entities)[14]將知識圖譜中的命名實(shí)體信息與原始文本信息對齊后共同作為模型輸入,從而引入了外部的實(shí)體信息以增強(qiáng)原始的文本表示,最終在知識驅(qū)動(dòng)型等任務(wù)上取得了超越BERT 的效果。MASS[15]針對序列到序列的任務(wù),提出了一種序列掩碼訓(xùn)練(Masked Sequence to Sequence Pre-training)的方式,對于輸入文本序列,直接遮蔽指定長度的連續(xù)文本段,通過訓(xùn)練實(shí)現(xiàn)對詞匯間依賴關(guān)系的語言建模。該模型在摘要生成、自動(dòng)翻譯、對話生成等任務(wù)上表現(xiàn)較優(yōu)。
SikuRoBERTa模型是基于中文版RoBERTawwm模型在《四庫全書》全文語料上預(yù)訓(xùn)練后構(gòu)建的。與原始RoBERTa模型不同的是,Ro-BERTa-wwm模型在采用掩碼語言模型預(yù)訓(xùn)練的過程中采用全詞遮蔽技術(shù),實(shí)現(xiàn)對中文文本詞匯層面的遮蔽,從而使得模型能夠更進(jìn)一步學(xué)習(xí)到深層的中文詞義與詞法信息。SikuRoBERTa在保留了RoBERTa-wwm模型優(yōu)勢的基礎(chǔ)上,進(jìn)一步從5億余字的《四庫全書》全文語料上學(xué)習(xí)了古代漢語的遣詞造句與語言學(xué)信息,并提升了在繁體文本上的表現(xiàn)。
《資治通鑒》是由司馬光主編的多卷本編年體史書,共294 卷,主要以時(shí)間為綱、事件為目,上起周威烈王二十三年,下迄后周顯德六年。全書按朝代分為十六紀(jì),見表1。本文通過網(wǎng)絡(luò)爬蟲方式獲取繁體字版本《資治通鑒》子部全文語料,未經(jīng)過加注標(biāo)點(diǎn)符號,也無斷句標(biāo)記。除標(biāo)題、目錄、編撰人信息等,正文文本均以段落作為最小單位進(jìn)行組織。
表1 《資治通鑒》十六紀(jì)詳細(xì)信息
使用SikuBERT 預(yù)訓(xùn)練模型對《資治通鑒》全文進(jìn)行自動(dòng)斷句和自動(dòng)分詞,詞語間隔標(biāo)記使用空格。分詞結(jié)果示例:“/休之/謂/王友/王晞/曰/:/昔/周公/朝/讀/百/篇/書/,/夕/見/七十/士/,/猶/恐/不/足/。”根據(jù)分詞單位的長度,本文將分詞結(jié)果劃分為3種類型:單字詞、雙字詞、多字詞(3字及以上)。每種長度詞語的數(shù)量及占比如表2所示,單字詞數(shù)量最多,其次為雙字詞和多字詞,多字詞多為人名、地名等命名實(shí)體詞匯。古籍文獻(xiàn)中的單字詞居多現(xiàn)象給自動(dòng)摘要任務(wù)帶來更多困難。
表2 《資治通鑒》分詞結(jié)果
《資治通鑒》全文數(shù)據(jù)共包含29,951 個(gè)段落、3,151,726 個(gè)字符。按照《資治通鑒》全文、十六紀(jì)每紀(jì)平均、294卷每卷平均分別統(tǒng)計(jì)詞數(shù)、句子數(shù)、平均句長、最大句長、段落數(shù)、標(biāo)點(diǎn)數(shù)等數(shù)據(jù),見表3。《資治通鑒》篇幅長,達(dá)到300 萬詞次規(guī)模,平均句長只有20.95849,遠(yuǎn)低于現(xiàn)代漢語的句長均值區(qū)間,較長篇幅和較短的句長使得對《資治通鑒》進(jìn)行自動(dòng)摘要任務(wù)的難度增加。根據(jù)每紀(jì)和每卷篇幅情況,每卷篇幅長度更適合作為自動(dòng)摘要的單篇文檔進(jìn)行處理,且從內(nèi)容角度每卷記載均為特定年代所發(fā)生事情,對其進(jìn)行摘要抽取也更具有理據(jù)性。
表3 《資治通鑒》詞、標(biāo)點(diǎn)、句子、段落信息統(tǒng)計(jì)
本研究的實(shí)驗(yàn)框架見圖2。利用SikuBERT和SikuRoBERTa預(yù)訓(xùn)練模型對《資治通鑒》進(jìn)行自動(dòng)斷句和自動(dòng)分詞后,對文本進(jìn)行內(nèi)容清潔,包括清除多余空格、空行,以及自動(dòng)偵測斷行位置并合并段落等。由于通過網(wǎng)絡(luò)獲取的《資治通鑒》文本并沒有卷名信息,利用每卷的格式特征編寫算法自動(dòng)生成294卷的卷名信息,經(jīng)過數(shù)據(jù)預(yù)處理后的《資治通鑒》全文語料預(yù)覽效果見圖3。
圖2 《資治通鑒》自動(dòng)摘要實(shí)驗(yàn)框架
圖3 《資治通鑒》全文語料預(yù)覽效果
本研究中的抽取式自動(dòng)摘要算法采用的是按詞頻和簇確定關(guān)鍵詞,再通過關(guān)鍵詞對所在句打分,分?jǐn)?shù)排序確定最終生成摘要的句子。用簇(cluster)表示關(guān)鍵詞的聚類結(jié)果,這里的簇即包含多個(gè)關(guān)鍵詞的句子片段,見圖4。通過句子相似度矩陣以及設(shè)定的閾值來獲得得分較高的句子作為自動(dòng)摘要結(jié)果,這是一種無監(jiān)督的抽取式自動(dòng)摘要。
圖4 關(guān)鍵詞簇聚類示意圖
簇權(quán)重的計(jì)算公式為:
其中,簇長通常指一簇中包含詞語的數(shù)量,截取本文選取的《資治通鑒》語料為例,“行軍總管杞公亮,天元之從祖兄也”,該句分詞結(jié)果為“行軍/總管/杞公/亮/,/天元/之/從/祖兄/也”。設(shè)“行軍總管杞公亮”為一簇,簇長為4,“行軍”“總管”“杞公”“亮”為關(guān)鍵詞,“天元之從祖兄也”為另一簇,簇長為5,關(guān)鍵詞為“天元”“從”“祖兄”,則兩簇權(quán)重分別為42/4=4和32/5=1.8。按權(quán)重對文本包含的句子進(jìn)行排序,確定抽取閾值。本文設(shè)定的抽取閾值為30,即抽出重要性最高的前30個(gè)句子,將這30個(gè)句子整合,即為該文本的自動(dòng)摘要結(jié)果。抽取式自動(dòng)摘要算法實(shí)驗(yàn)主要包括6個(gè)步驟:一是《資治通鑒》文本預(yù)處理,包括去除特殊字符和空格空行等;二是分詞,將預(yù)處 理 文 本 輸 入SikuBERT 典籍智能處理系統(tǒng)中,進(jìn)行自動(dòng)分詞處理,獲得《資治通鑒》分詞語料;三是去停用詞和詞頻統(tǒng)計(jì);四是計(jì)算句子權(quán)重并進(jìn)行排序;五是選定合適的閾值提取摘要句;六是生成摘要。
(1)模型選取。本實(shí)驗(yàn)采用的SikuBERT預(yù)訓(xùn)練模型是由南京農(nóng)業(yè)大學(xué)、南京理工大學(xué)、南京師范大學(xué)聯(lián)合發(fā)布的面向古文智能處理的預(yù)訓(xùn)練模型,其學(xué)習(xí)能力和泛化能力已在自動(dòng)標(biāo)注、實(shí)體識別等層次的古籍文獻(xiàn)信息處理任務(wù)中得到驗(yàn)證。
(2)語料處理?;陬A(yù)訓(xùn)練模型的自動(dòng)摘要實(shí)驗(yàn)需要對語料進(jìn)行劃分,對于劃分顆粒度,如果選擇單個(gè)句子太過于零散,前后內(nèi)容缺乏連貫性,摘要結(jié)果會有明顯的割裂感;如果選擇段落,雖然語義層面更完整,但《資治通鑒》原文段落篇幅參差不齊,太長或太短的段落都不適合于自動(dòng)摘要任務(wù)。因此,本實(shí)驗(yàn)采用“滑動(dòng)句子”機(jī)制對語料進(jìn)行劃分,每個(gè)單句都有作為中心句的機(jī)會,向前向后以句子為單位進(jìn)行滑動(dòng),超出閾值范圍或者到達(dá)段落末尾則結(jié)束。以《資治通鑒》“陳紀(jì)八”卷的部分原文為例:“又十三環(huán)金帶遺堅(jiān)。十三環(huán)金帶者,天子之服也。堅(jiān)大悅,遣渾詣韋孝寬述穆意。穆兄子崇,為懷州刺史,初欲應(yīng)迥。后知穆附堅(jiān),慨然太息曰:‘闔家富貴者數(shù)十人,值國有難,竟不能扶傾繼絕,復(fù)何面目處天地間乎!’”表4是針對該部分原文生成的句子向量結(jié)果。
表4 滑動(dòng)句子機(jī)制示例
預(yù)訓(xùn)練模型在計(jì)算摘要句權(quán)重的時(shí)候會利用到詞語的頻率信息,統(tǒng)計(jì)詞頻信息需要過濾掉停用詞。本研究選取的基礎(chǔ)停用詞表是包含1,753個(gè)詞匯的現(xiàn)代漢語停用詞表,其中包括數(shù)字、符號、標(biāo)點(diǎn)和無實(shí)際意義的詞匯??紤]到本研究的文本為古漢語文本,在現(xiàn)代漢語停用詞表基礎(chǔ)上,根據(jù)“齊夫定律”,對《資治通鑒》進(jìn)行詞頻統(tǒng)計(jì)。將頻次出現(xiàn)在100次以上的詞匯認(rèn)定為高頻詞。高頻詞并非都是停用詞,停用詞多為形容詞、副詞、助詞、虛詞、代詞等,如“之”“乎”“者”“也”“而”“無”等沒有實(shí)際意義的詞匯。經(jīng)過逐一校對篩選,最終確定將107個(gè)詞頻雖高但不具有實(shí)際意義的詞語列入停用詞表。之后利用算法,在模型讀取時(shí)自動(dòng)去除文檔中的停用詞,以降低對最終結(jié)果的影響。過濾掉停用詞之后的《資治通鑒》詞頻統(tǒng)計(jì)數(shù)據(jù)樣例見表5。
表5 《資治通鑒》詞頻統(tǒng)計(jì)數(shù)據(jù)樣例
(3)實(shí)驗(yàn)過程。第一步,獲取詞向量。將詞語轉(zhuǎn)為向量,本研究采取的方法是基于古文領(lǐng)域的 SikuBERT 模型的Tokenizer,并采用transformers 包來直接實(shí)現(xiàn)詞、句向量的轉(zhuǎn)化。SikuBERT模型融入更多的語法、詞法和語義信息,且動(dòng)態(tài)改變詞嵌入也能讓單詞在不同語境下具有不同的詞嵌入表示。該詞向量獲取方法有更強(qiáng)的表達(dá)能力,還可以保留原字詞的特征,相比其他方法能更好地考慮上下文信息、處理一詞多義等問題。
第二步,生成句、篇向量。完成對詞語的分詞及向量化表示后,依據(jù)原始句子將其拼接為句子向量,依次讀取后得到一個(gè)由句子向量組成的句子列表向量。因后續(xù)需進(jìn)行相似度比較,不同維度的向量無法進(jìn)行直接計(jì)算,因而需對得到的篇章向量進(jìn)行降維處理。具體來說,將得到的所有句子向量進(jìn)行求和,得到合并后的篇章向量,同時(shí)求出句子數(shù)量,將二者進(jìn)行相除得到最終的篇章平均中心向量,從而可保證獲得的平均中心向量和每個(gè)句子的向量維度一致。
第三步,計(jì)算相似度。在上述步驟中完成了對文檔的句向量及中心向量計(jì)算后,通過余弦相似度算法,依次計(jì)算每一個(gè)句向量與文檔中心向量的相似度,并將句子按相似度高低進(jìn)行排序。余弦相似度計(jì)算公式如下所示:
為獲得更好的摘要效果,對句子向量的相似度數(shù)值進(jìn)行修正處理,以最大限度降低句子向量規(guī)模對相似度的影響。截取句子向量相似度排名前20的句子,設(shè)排名前20句子的平均相似度為a,去除標(biāo)點(diǎn)后的平均句長為b,則修正相似度閾值為a/b。計(jì)算每個(gè)句子向量的修正相似度數(shù)值,高于閾值則作為摘要結(jié)果輸出。
第四步,輸出摘要結(jié)果。以《資治通鑒》“宋紀(jì)六”卷為例,抽取后的最終摘要結(jié)果見圖5。
圖5 《資治通鑒》“宋紀(jì)六”卷自動(dòng)摘要結(jié)果
表6展示基于SikuBERT模型生成《資治通鑒》自動(dòng)摘要結(jié)果的相似度篩選數(shù)據(jù),表格列出“宋紀(jì)一”至“宋紀(jì)十”共10卷文本的數(shù)據(jù)示例,包括“句子向量平均相似度”“修正相似度篩選閾值”等統(tǒng)計(jì)量的值,能直觀看出對句子向量進(jìn)行相似度篩選生成摘要關(guān)鍵句的過程。
表6 《資治通鑒》自動(dòng)摘要的相似度篩選數(shù)據(jù)
本研究分別使用抽取式自動(dòng)摘要算法和SikuBERT預(yù)訓(xùn)練模型對《資治通鑒》全文語料進(jìn)行自動(dòng)摘要實(shí)驗(yàn)。由于古籍文獻(xiàn)自身語言風(fēng)格的特殊性,為更好地進(jìn)行摘要效果比對,將《資治通鑒》全文語料輸入百度智能云的摘要分析接口,百度智能云的新聞?wù)δ芸苫谏疃日Z義分析模型自動(dòng)抽取文本中的關(guān)鍵信息并生成指定長度的摘要。由此在《資治通鑒》語料上本實(shí)驗(yàn)共生成3 種方法得出的自動(dòng)摘要結(jié)果,示例見表7。
表7 《資治通鑒》自動(dòng)摘要生成結(jié)果樣例
本研究共對《資治通鑒》全文294卷文本進(jìn)行自動(dòng)摘要實(shí)驗(yàn),按卷生成摘要結(jié)果。基于抽取式算法的自動(dòng)摘要實(shí)驗(yàn)共生成256篇有效摘要,抽取摘要失敗38篇?;诎俣戎悄茉频淖詣?dòng)摘要實(shí)驗(yàn)共生成280 篇有效摘要,抽取摘要失敗14篇?;赟ikuBERT預(yù)訓(xùn)練模型的自動(dòng)摘要實(shí)驗(yàn)共生成294篇摘要,無抽取摘要失敗文本。詳細(xì)實(shí)驗(yàn)結(jié)果見表8。
表8 《資治通鑒》自動(dòng)摘要結(jié)果詳細(xì)數(shù)據(jù)
由于尚無針對《資治通鑒》全文語料標(biāo)準(zhǔn)摘要資源,因此本實(shí)驗(yàn)參考彭敏等[16]采用的1-5級自動(dòng)摘要人工評測標(biāo)準(zhǔn)及方法對《資治通鑒》的實(shí)驗(yàn)結(jié)果進(jìn)行評價(jià)。人工評測對象為《資治通鑒》294卷文本的摘要結(jié)果,評測者為20位古典文獻(xiàn)專業(yè)碩博士研究生,評測指標(biāo)為摘要內(nèi)容的信息量、流暢度和冗余度,人工評測結(jié)果見表9。
表9 《資治通鑒》自動(dòng)摘要結(jié)果人工評測得分
信息量是衡量摘要質(zhì)量的最重要指標(biāo),在計(jì)算綜合得分時(shí)權(quán)重也最高。從表9 看到,基于SikuBERT預(yù)訓(xùn)練模型的自動(dòng)摘要結(jié)果的信息量得分為4.35,明顯高于其他兩種方法,綜合得分為4.16,也遠(yuǎn)好于其他兩種方法。從內(nèi)容看,基于抽取式算法生成的自動(dòng)摘要結(jié)果更流暢自然,可讀性較高,但也存在摘要篇幅過短、無法完整概括原文信息的問題。例如,第六卷“秦紀(jì)一”的抽取式摘要結(jié)果中,摘要第一句內(nèi)容“太子聞衛(wèi)人荊軻之賢,卑辭厚禮而請見之”。位于原文篇幅過半位置的第55段第1行處,對于此處之前占原文大部分篇幅比例的內(nèi)容都沒有在摘要結(jié)果中有所體現(xiàn),并且抽取式算法對自動(dòng)摘要的聚類效果有嚴(yán)格要求,因此只生成了256 篇有效摘要,無效摘要比例達(dá)到13%?;诎俣戎悄茉粕傻淖詣?dòng)摘要結(jié)果也存在篇幅較短的情況,并且由于百度智能云的摘要分析功能主要針對現(xiàn)代漢語的新聞?wù)Z料,因此由古籍文獻(xiàn)語料得到的摘要在內(nèi)容層面上的表現(xiàn)也并不理想?;赟ikuBERT預(yù)訓(xùn)練模型生成的自動(dòng)摘要全部為有效摘要結(jié)果,并且每卷摘要的字?jǐn)?shù)都在兩三百字,篇幅控制較好,沒有出現(xiàn)其他兩種實(shí)驗(yàn)方法生成摘要的篇幅起伏變化過大的情況?;赟ikuBERT預(yù)訓(xùn)練模型生成的自動(dòng)摘要在內(nèi)容方面雖然有一些生硬和不連貫,但對于《資治通鑒》原文內(nèi)容的概括更全面更到位,也更契合自動(dòng)摘要實(shí)驗(yàn)最基本、最核心的任務(wù)需求。
綜上所述,無論是人工打分的結(jié)果,還是內(nèi)容層面的分析,針對《資治通鑒》的3種自動(dòng)摘要方法中表現(xiàn)最佳的都是基于SikuBERT預(yù)訓(xùn)練模型的自動(dòng)摘要方法。這也進(jìn)一步驗(yàn)證了使用深度學(xué)習(xí)模型對古籍文獻(xiàn)進(jìn)行自動(dòng)摘要任務(wù)的可行性和利用SikuBERT 預(yù)訓(xùn)練模型對古籍文獻(xiàn)進(jìn)行信息處理的適用性。
自動(dòng)摘要的目的是將長文本提煉為簡潔精煉的短文本以降低閱讀成本、提高知識利用率。古籍文獻(xiàn)的篇幅長而句子短、文字理解門檻高,對古籍文獻(xiàn)進(jìn)行自動(dòng)摘要任務(wù)是古籍?dāng)?shù)字人文領(lǐng)域研究不斷深化的必然需求。本研究選取《資治通鑒》全文語料,使用傳統(tǒng)抽取式自動(dòng)摘要算法、百度智能云摘要分析算法和基于SikuBERT預(yù)訓(xùn)練模型的方法對其進(jìn)行自動(dòng)摘要的對比實(shí)驗(yàn)。實(shí)驗(yàn)結(jié)果表明:基于SikuBERT預(yù)訓(xùn)練模型生成的自動(dòng)摘要結(jié)果在準(zhǔn)確性、穩(wěn)定性、覆蓋度等方面均優(yōu)于其他兩種方法。本研究還通過專家人工打分的方式對3種自動(dòng)摘要方法生成的結(jié)果進(jìn)行評價(jià),基于SikuBERT預(yù)訓(xùn)練模型生成的摘要結(jié)果平均得分最高。實(shí)驗(yàn)驗(yàn)證了數(shù)字人文技術(shù)在古文自動(dòng)摘要任務(wù)中可行性和利用SikuBERT預(yù)訓(xùn)練模型對古文進(jìn)行信息處理的適用性。
古籍文獻(xiàn)由于獨(dú)特的語言風(fēng)格特點(diǎn),使得進(jìn)行自動(dòng)摘要任務(wù)會遇到比現(xiàn)代漢語更多的困難。目前學(xué)術(shù)界針對古籍文獻(xiàn)的自動(dòng)摘要研究很少,相關(guān)古籍文獻(xiàn)摘要資源更是匱乏。本文對《資治通鑒》進(jìn)行的自動(dòng)摘要研究是一次全新的探索,后續(xù)研究將在建設(shè)古籍文獻(xiàn)摘要語料資源的基礎(chǔ)之上提高算法和模型效果,為古籍?dāng)?shù)字人文領(lǐng)域的自動(dòng)摘要研究鋪路。