關(guān)定邦,趙慶聰,2
(1.北京信息科技大學(xué)信息管理學(xué)院,北京100192; 2.綠色發(fā)展大數(shù)據(jù)決策北京市重點(diǎn)實(shí)驗(yàn)室,北京100192)
文物檔案包括對(duì)文物本身信息的記載,如文物的年代、類型、產(chǎn)地、材質(zhì)等,還包括對(duì)與文物相關(guān)活動(dòng)的記載,如挖掘文物期間的視頻資料、文物保護(hù)與收藏展覽期間的資料及保護(hù)管理規(guī)劃相關(guān)文件等。隨著國(guó)家各項(xiàng)文物保護(hù)政策的提出與文博事業(yè)的發(fā)展,實(shí)現(xiàn)文物檔案數(shù)字化成為必然趨勢(shì)。文物檔案知識(shí)圖譜可將各種文物檔案中的信息進(jìn)行可視化展示,同時(shí)通過(guò)語(yǔ)義網(wǎng)絡(luò)將這些信息進(jìn)行歸類、整合與關(guān)聯(lián),幫助人們更好地理解文物的背景、歷史與文化價(jià)值,促進(jìn)對(duì)文物的保護(hù)及活化利用。
中軸線是中國(guó)傳統(tǒng)建筑文化中重要的設(shè)計(jì)理念,北京中軸線是一條南北走向的虛擬軸線,貫穿北京市中心,連接眾多著名文化遺址與景點(diǎn)。目前,各遺產(chǎn)點(diǎn)的數(shù)字化檔案存在分散存放、檢索效率低、利用率不高等問(wèn)題。以北京市中軸線文化遺產(chǎn)部分遺產(chǎn)點(diǎn)(鐘鼓樓、正陽(yáng)門(mén)、景山、先農(nóng)壇、太廟、社稷壇)的數(shù)字化檔案為研究對(duì)象,構(gòu)建中軸線文化遺產(chǎn)檔案知識(shí)圖譜,支持全面、高效、準(zhǔn)確的文物檔案檢索與利用,以期為文物保護(hù)工作提供支持,為文物管理與研究提供參考。
知識(shí)圖譜是利用計(jì)算機(jī)技術(shù)與人工智能技術(shù)從數(shù)據(jù)中挖掘相關(guān)信息并組織成有機(jī)網(wǎng)絡(luò)的知識(shí)體系,能為研究者提供知識(shí)的可視化展示、查詢與推理等服務(wù)。知識(shí)圖譜中的實(shí)體以節(jié)點(diǎn)表示,實(shí)體間關(guān)系以邊表示,通過(guò)三元組對(duì)知識(shí)進(jìn)行結(jié)構(gòu)化呈現(xiàn)[1]。知識(shí)圖譜近年廣泛應(yīng)用于醫(yī)療、金融、文化等領(lǐng)域,幫助專業(yè)人員快速掌握關(guān)鍵概念、知識(shí)點(diǎn)與相關(guān)關(guān)系,探索新的研究方向,促進(jìn)知識(shí)共享與團(tuán)隊(duì)合作。
知識(shí)圖譜領(lǐng)域近年取得了許多成果。曾蘭蘭提出一種基于BERT與聯(lián)合學(xué)習(xí)的實(shí)體抽取方法(JLB-BiLSTM-CRF),通過(guò)對(duì)輸入文檔進(jìn)行編碼并結(jié)合實(shí)體上下文信息確定關(guān)系分類,縮短了模型訓(xùn)練時(shí)間并獲得良好的分類結(jié)果。使用余弦相似度計(jì)算方法實(shí)現(xiàn)實(shí)體對(duì)齊,最終完成知識(shí)圖譜構(gòu)建[2]。李文亮使用CNN與BiLSTM-CRF網(wǎng)絡(luò)模型,利用中文關(guān)系抽取工具DeepKE對(duì)文物相關(guān)領(lǐng)域的數(shù)據(jù)進(jìn)行實(shí)體抽取,使用Neo4j圖數(shù)據(jù)庫(kù)完成知識(shí)存儲(chǔ)[3]。
命名實(shí)體識(shí)別是構(gòu)建知識(shí)圖譜的重要技術(shù)之一,可自動(dòng)從文本中識(shí)別出具有特定意義的實(shí)體,如地名、人名、機(jī)構(gòu)名等,為知識(shí)圖譜提供實(shí)體信息,確保圖譜構(gòu)建效率與準(zhǔn)確性。命名實(shí)體識(shí)別分為預(yù)處理與實(shí)體識(shí)別兩個(gè)階段,預(yù)處理階段包括分詞、詞性標(biāo)注與命名實(shí)體識(shí)別模型的訓(xùn)練;實(shí)體識(shí)別階段則使用訓(xùn)練好的模型分析文本,并為命名實(shí)體打上標(biāo)簽。常見(jiàn)的命名實(shí)體識(shí)別技術(shù)包括規(guī)則方法、統(tǒng)計(jì)方法與深度學(xué)習(xí)方法[4]。
近年來(lái),人工智能技術(shù)的發(fā)展推動(dòng)了命名實(shí)體識(shí)別的研究。馬文祥基于BERT-BiGRU-CRF構(gòu)建了中文電子簡(jiǎn)歷實(shí)體抽取模型,成功提取出中文電子簡(jiǎn)歷命名實(shí)體,有效提高了識(shí)別準(zhǔn)確率[5]。易黎等提出自監(jiān)督深度學(xué)習(xí)模型訓(xùn)練方法,通過(guò)BERT-BiLSTM-CRF實(shí)體識(shí)別模型完成檔案實(shí)體識(shí)別任務(wù)[6]。馮強(qiáng)構(gòu)建了BTBL-CRF模型,通過(guò)BiTCN與BiLSTM提取文物藏品句子特征,將二者融合后使用條件隨機(jī)場(chǎng)對(duì)融合結(jié)果進(jìn)行解碼,標(biāo)注文物藏品實(shí)體[7]。
知識(shí)圖譜實(shí)體關(guān)系構(gòu)建是從文本中抽取實(shí)體關(guān)系,構(gòu)建實(shí)體關(guān)系圖譜的過(guò)程,可自動(dòng)提取人與人、人與組織等不同類型實(shí)體間的關(guān)系,為知識(shí)圖譜構(gòu)建提供豐富的信息。
通過(guò)實(shí)體關(guān)系圖譜可更系統(tǒng)地理解實(shí)體間的聯(lián)系與作用,更深入地開(kāi)展研究。彭博提出抽取非結(jié)構(gòu)化文物信息資源實(shí)體關(guān)系的方法,利用知識(shí)庫(kù)中的實(shí)體關(guān)系和基于規(guī)則的實(shí)體關(guān)系標(biāo)注技術(shù)對(duì)文物信息資源中的實(shí)體關(guān)系進(jìn)行標(biāo)注。利用預(yù)訓(xùn)練語(yǔ)言模型獲取字符特征,運(yùn)用深度學(xué)習(xí)技術(shù)獲取語(yǔ)義特征,成功提取出文物信息資源實(shí)體關(guān)系[8]。陳彥光提出基于刑事案例的多粒度信息抽取方法,通過(guò)訓(xùn)練基于神經(jīng)網(wǎng)絡(luò)的案情三元組抽取模型,成功提取細(xì)粒度實(shí)體關(guān)系信息。通過(guò)改進(jìn)關(guān)系抽取模塊的訓(xùn)練階段,進(jìn)一步提升模型性能,完成實(shí)體關(guān)系抽取任務(wù)[9]。
采用自頂向下的模式構(gòu)建文物檔案知識(shí)圖譜,知識(shí)圖譜模式層的設(shè)計(jì)可幫助構(gòu)建與管理知識(shí)圖譜的結(jié)構(gòu)化模式,更好地理解知識(shí)的組織結(jié)構(gòu),實(shí)現(xiàn)知識(shí)的擴(kuò)展與重用,從而提升知識(shí)圖譜的質(zhì)量與效能。對(duì)文物檔案數(shù)據(jù)集進(jìn)行分析,從六個(gè)遺產(chǎn)點(diǎn)的文物檔案文字卷數(shù)據(jù)中選取六種實(shí)體類型進(jìn)行建模,分別為 “文物”“朝代”“機(jī)構(gòu)”“時(shí)間點(diǎn)”“地點(diǎn)”“人物”。詳見(jiàn)表1。
表1 文物檔案的實(shí)體類型Tab.1 Types of entity of cultural heritage archives
選取中軸線遺產(chǎn)點(diǎn)中六個(gè)遺產(chǎn)點(diǎn)的文字卷作為研究對(duì)象,文字卷中大多是非結(jié)構(gòu)化數(shù)據(jù),對(duì)其進(jìn)行整理分析,設(shè)置如下的實(shí)體字段,詳見(jiàn)表2。
表2 文物檔案數(shù)據(jù)字段說(shuō)明Tab.2 Description of heritage archive data field
2.3.1 BERT-BiGRU-CRF模型架構(gòu)
BERT-BiGRU-CRF作為一種序列標(biāo)注模型,主要用于實(shí)體抽取任務(wù)。該模型整體上分為四層,其中:輸入層接受文本輸入,BERT層將文本轉(zhuǎn)換為向量,BiGRU層學(xué)習(xí)上下文信息,CRF層考慮上下文信息以提升標(biāo)注的準(zhǔn)確性。模型各層間的連接方式與數(shù)據(jù)流動(dòng)路徑將各部分的作用組合在一起,以提升實(shí)體抽取的準(zhǔn)確性與效率。詳見(jiàn)圖1。
圖1 BERT-BiGRU-CRF模型架構(gòu)Fig.1 BERT-BiGRU-CRF model architecture
2.3.2 BERT層
BERT是谷歌公司于2018年提出的語(yǔ)言表示模型,采用雙向Transformer編碼器,利用上下文信息提升模型效果,支持并行訓(xùn)練,加快模型訓(xùn)練速度。
BERT模型的輸入結(jié)構(gòu)由三部分組成:詞嵌入、分段嵌入與位置嵌入。詞嵌入將輸入的單詞或符號(hào)表示為向量,反映其語(yǔ)義與詞性信息。一般使用預(yù)訓(xùn)練的詞向量作為初始值。在BERT中,詞嵌入的維度與隱藏層向量維度相同。分段嵌入將輸入的段落或句子進(jìn)行區(qū)分,以劃分不同句子間的關(guān)系,輸入可能是單個(gè)句子或多個(gè)句子的組合。在BERT中,將輸入序列分為A與B兩段,每段分配一個(gè)Embedding,表示兩個(gè)不同的句子。在序列開(kāi)頭添加CLS標(biāo)記表示分類任務(wù)的輸出結(jié)果,結(jié)尾添加兩個(gè)SEP標(biāo)記表示句子分界。位置嵌入利用絕對(duì)位置與相對(duì)位置,為每個(gè)單詞或符號(hào)分配唯一的位置向量,確保模型能夠區(qū)分序列中每個(gè)單詞的位置。通過(guò)這三部分的組合,BERT能夠提供更好的句子表示。詳見(jiàn)圖2。
圖2 BERT層輸入結(jié)構(gòu)Fig.2 BERT model input structure
2.3.3 BiGRU層
BiGRU是雙向循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)中基于門(mén)控循環(huán)單元(GRU)的一種算法,通過(guò)正向與反向的GRU單元對(duì)輸入序列進(jìn)行處理,將兩個(gè)方向的結(jié)果拼接在一起輸出。
BiGRU的門(mén)控系統(tǒng)包括重置門(mén)與更新門(mén),用于控制輸入信息對(duì)隱含狀態(tài)與歷史信息的影響程度,從而增加模型的記憶功能與穩(wěn)定性。相比于傳統(tǒng)的RNN與LSTM,BiGRU能更好地處理長(zhǎng)序列數(shù)據(jù),避免梯度消失與梯度爆炸問(wèn)題,提升模型的準(zhǔn)確性,其優(yōu)勢(shì)如下:
1)雙向循環(huán):同時(shí)考慮了前向與后向的信息,可更好地捕捉序列中的依賴關(guān)系。
2)門(mén)控機(jī)制:引入GRU單元的門(mén)控機(jī)制,能夠更好地控制信息的流動(dòng),增強(qiáng)模型的記憶功能與泛化能力。
3)訓(xùn)練穩(wěn)定:由于存在梯度消失與梯度爆炸的問(wèn)題,傳統(tǒng)的RNN與LSTM在訓(xùn)練時(shí)往往穩(wěn)定性較差,而B(niǎo)iGRU可通過(guò)引入門(mén)控機(jī)制解決這一問(wèn)題,使訓(xùn)練更穩(wěn)定。
在進(jìn)行具體的門(mén)單元計(jì)算時(shí),xt是輸入數(shù)據(jù),ht是GRU單元的輸出,rt是重置門(mén),zt是更新門(mén),zt與rt共同控制從ht-1隱藏狀態(tài)到ht隱藏狀態(tài)的計(jì)算, 更新門(mén)同時(shí)控制當(dāng)前輸入數(shù)據(jù)與先前記憶信息ht-1,輸出一個(gè)0~1之間的數(shù)值z(mì)t,zt決定以多大程度將ht-1向下一個(gè)狀態(tài)傳遞,公式如下:
zt=σ(wz·[ht-1,xt])
(1)
rt=σ(wr·[ht-1,xt])
(2)
(3)
(4)
式中,σ是Sigmoid函數(shù),Wz,Wr,W分別為更新門(mén)、重置門(mén)及候選隱含狀態(tài)的權(quán)重矩陣。重置門(mén)控制ht-1對(duì)結(jié)果ht的重要程度,當(dāng)先前記憶ht-1與新記憶完全相關(guān)性較大時(shí), 可通過(guò)重置門(mén)發(fā)揮作用,提升先前記憶的影響。根據(jù)重置門(mén)、更新門(mén)與隱含狀態(tài)的計(jì)算結(jié)果可得到當(dāng)前時(shí)刻的輸出ht。
2.3.4 CRF層
條件隨機(jī)場(chǎng)(CRF)是一種用于序列標(biāo)注的概率模型,主要用于自然語(yǔ)言處理時(shí)的命名實(shí)體識(shí)別、詞性標(biāo)注等任務(wù)。CRF是基于馬爾可夫隨機(jī)場(chǎng)(Markov Random Field)的擴(kuò)展,其核心思想是通過(guò)最大化輸出給定序列的條件概率分布得到最優(yōu)的標(biāo)注序列。在命名實(shí)體識(shí)別中添加CRF層的原因在于,CRF可有效地利用上下文信息對(duì)標(biāo)注結(jié)果進(jìn)行約束,提升模型的準(zhǔn)確性與穩(wěn)定性。
CRF的算法核心是定義一個(gè)條件概率模型,模型的輸入是一組特征函數(shù)與一組特征權(quán)重。特征函數(shù)用于提取輸入序列的局部信息,特征權(quán)重用于給不同特征賦予權(quán)重,反映其對(duì)標(biāo)注結(jié)果的貢獻(xiàn)。CRF學(xué)習(xí)這些特征函數(shù)的權(quán)重,以最大化標(biāo)注結(jié)果的條件概率。具體而言,CRF模型將標(biāo)注序列視為一個(gè)隨機(jī)過(guò)程,并將標(biāo)注序列的概率建模成聯(lián)合概率分布,用馬爾可夫隨機(jī)場(chǎng)的方法建模,將標(biāo)注的聯(lián)合概率分布轉(zhuǎn)化為圖上的一個(gè)無(wú)向圖,使得給定條件下標(biāo)注的概率最大。
在自然語(yǔ)言處理問(wèn)題上,通常使用線性鏈條件隨機(jī)場(chǎng),給定觀測(cè)序列X,輸出標(biāo)記序列Y,當(dāng)X取值為x時(shí),Y取值為y的條件概率具有如下形式:
(5)
式中,λk表示權(quán)值,tk表示特征函數(shù),Z(x)表示規(guī)一化因子。
2.4.1 Neo4j圖數(shù)據(jù)庫(kù)
Neo4j圖數(shù)據(jù)庫(kù)是一種基于圖形理論的高性能、原生圖形數(shù)據(jù)庫(kù)[10],可存儲(chǔ)與查詢知識(shí)圖譜中的實(shí)體、屬性與關(guān)系,也可支持應(yīng)用程序?qū)χR(shí)圖譜進(jìn)行操作與分析。知識(shí)圖譜的數(shù)據(jù)模型與語(yǔ)義可利用Neo4j的相關(guān)特性進(jìn)行表達(dá)與查詢,Neo4j的高擴(kuò)展性與靈活性能夠?yàn)橹R(shí)圖譜的構(gòu)建與維護(hù)提供有效支持。
2.4.2 實(shí)體對(duì)齊與知識(shí)存儲(chǔ)
由于文物檔案具有特殊性,在做實(shí)體對(duì)齊時(shí)只需考慮實(shí)體統(tǒng)一問(wèn)題,且此問(wèn)題于文物檔案中存在的情況較少。采用針對(duì)性的方法,將所需對(duì)齊的實(shí)體整理匯總后,在入庫(kù)前完成實(shí)體對(duì)齊操作,實(shí)現(xiàn)實(shí)體對(duì)齊功能。
以中軸線部分遺產(chǎn)點(diǎn)的91篇文物檔案數(shù)據(jù)集作為知識(shí)圖譜構(gòu)建對(duì)象。將數(shù)據(jù)集標(biāo)注為機(jī)構(gòu)、時(shí)代、地址、文物、時(shí)間點(diǎn)與人物6個(gè)類別,并按照8∶2的比例劃分?jǐn)?shù)據(jù)集與測(cè)試集,用于模型的訓(xùn)練與測(cè)試。
使用F1值、召回率(Recall)與準(zhǔn)確率(Precision)作為對(duì)實(shí)驗(yàn)?zāi)P偷脑u(píng)價(jià)指標(biāo),各評(píng)價(jià)指標(biāo)計(jì)算公式如下:
(6)
(7)
(8)
采用BIOES的標(biāo)注方式對(duì)文物檔案數(shù)據(jù)集數(shù)據(jù)進(jìn)行標(biāo)注,通過(guò)數(shù)據(jù)標(biāo)注對(duì)實(shí)驗(yàn)?zāi)P兔麑?shí)體識(shí)別的效果進(jìn)行指標(biāo)對(duì)比。
3.3.1 數(shù)據(jù)標(biāo)注對(duì)照實(shí)驗(yàn)
用不同數(shù)據(jù)量進(jìn)行模型訓(xùn)練,根據(jù)評(píng)價(jià)指標(biāo)進(jìn)行對(duì)比分析。當(dāng)訓(xùn)練集從124條數(shù)據(jù)增加到323條數(shù)據(jù)時(shí),模型的召回率提升了17.93%,F1值也從0.813上升到0.882。實(shí)驗(yàn)結(jié)果充分說(shuō)明本次實(shí)驗(yàn)設(shè)計(jì)的模型合理有效,可完成實(shí)驗(yàn)需求,達(dá)到實(shí)驗(yàn)預(yù)期。詳見(jiàn)表3。
表3 BERT-BiGRU-CRF模型實(shí)體抽取結(jié)果Tab.3 Results of BERT-BiGRU-CRF model entity extraction
3.3.2 實(shí)體抽取模型對(duì)照實(shí)驗(yàn)
引入BERT-CRF、BERT-BiLSTM-CRF、BiLSTM-CRF三個(gè)模型與BERT-BiGRU-CRF模型進(jìn)行對(duì)比發(fā)現(xiàn),相較于其他實(shí)體抽取模型,BERT-BiGRU-CRF模型下評(píng)價(jià)指標(biāo)基本都有所提高。與傳統(tǒng)模型BiLSTM-CRF相比,準(zhǔn)確率提升了17%,F1值也提升了0.2。相較于BERT-CRF與BERT-BiLSTM-CRF模型準(zhǔn)確率分別提升了1.08%與2.19%,F1值提升了0.006與0.025,可見(jiàn)BiGRU模型能夠捕捉更多的線性特征,進(jìn)一步提升模型的特征提取能力。使用相同訓(xùn)練數(shù)據(jù)的情況下,BERT-BiGRU-CRF模型推理速度更快,訓(xùn)練速度也更快,在實(shí)體抽取任務(wù)中具有更高的精確度與召回率,可高效完成實(shí)體抽取任務(wù)。詳見(jiàn)表4。
表4 實(shí)體抽取模型對(duì)比結(jié)果Tab.4 Results of entity extraction model comparison
可見(jiàn),采用BERT-BiGRU-CRF模型完成實(shí)體抽取,模型的準(zhǔn)確率達(dá)到88.87%,F1值達(dá)到0.902,展現(xiàn)出較好的性能,高效完成了抽取任務(wù)。通過(guò)實(shí)體對(duì)齊、關(guān)系構(gòu)建、知識(shí)存儲(chǔ)等步驟構(gòu)建的中軸線部分遺產(chǎn)點(diǎn)文物檔案知識(shí)圖譜,能為文物檔案的進(jìn)一步研究與利用提供有力支持。