基于深度遷移學(xué)習(xí)的地方志多模態(tài)命名實體識別研究

2022-05-19 06:58:36陳玥彤

情報學(xué)報 2022年4期

范濤，王昊，陳玥彤

（南京大學(xué)信息管理學(xué)院，南京 210023）

1 引言

黨的十九屆五中全會通過的《中共中央關(guān)于制定國民經(jīng)濟和社會發(fā)展第十四個五年規(guī)劃和二〇三五年遠景目標(biāo)的建議》中明確提出了到2035 年建成文化強國的遠景目標(biāo)，并強調(diào)在“十四五”時期推進社會主義文化強國建設(shè)，這標(biāo)志著我國文化強國建設(shè)進入了一個新的歷史階段[1]。作為中華文化的載體和組成部分，地方志是建設(shè)文化強國的重要一環(huán)，對其進行挖掘和研究，有利于傳播中華文化和增強文化自信[2]。

命名實體識別作為文本挖掘中的一項基礎(chǔ)任務(wù)，旨在識別文本中的專有詞，如人名、地名、時間、組織等，其對后續(xù)的文本知識組織和知識圖譜的構(gòu)建都具有重要影響[3]。目前，已有學(xué)者利用相關(guān)研究方法對地方志等文化資源進行了實體抽取。例如，李娜[4]以《方志物產(chǎn)》山西分卷作為語料，基于條件隨機場模型實現(xiàn)了對物產(chǎn)別名實體的自動抽取。黃水清等[5]將部分人工標(biāo)注的先秦古漢語語料庫作為條件隨機場的訓(xùn)練數(shù)據(jù)，利用訓(xùn)練生成的最優(yōu)模型，對語料庫中的地名實體進行自動識別。從上述工作可以看出：①當(dāng)前對于地方志等文化資源命名實體識別任務(wù)的研究對象均基于文本，缺乏對多模態(tài)內(nèi)容（即文本結(jié)合圖片）的探究；②自動識別文本實體的模型依賴于大規(guī)模人工標(biāo)注的語料，需要耗費大量的人力資源和時間。然而，隨著地方志數(shù)字化進程的加快，地方志數(shù)據(jù)庫提供的內(nèi)容并不僅局限于文本這一單模態(tài)內(nèi)容，與文本相關(guān)聯(lián)的圖片資源同樣以結(jié)構(gòu)化的方式呈現(xiàn)，這為地方志多模態(tài)內(nèi)容的研究提供了契機。在文本命名實體識別任務(wù)中，當(dāng)實體邊界模糊時，僅依靠上下文難以辨別其實體類型。例如，在圖1 中，倘若僅考慮文本，難以確定句子中所包含實體的邊界，“江大橋”可以被視作人名，而“長江大橋”又可以被視作地名，但是當(dāng)結(jié)合文本對應(yīng)的圖片時，則可以確定文本中提及的實體為“長江大橋”，從而準(zhǔn)確地識別出實體。當(dāng)面向某一具體領(lǐng)域展開實體識別研究時，通常會面臨標(biāo)注語料匱乏的問題。常用的解決方法是利用人工去標(biāo)注數(shù)據(jù)集，但是會耗費大量的人力、物力，同時，在面向新領(lǐng)域時，還需標(biāo)注新的語料，并不能較好地解決面向特定領(lǐng)域的實體識別問題。然而，通過深度遷移學(xué)習(xí)方法，利用深度神經(jīng)網(wǎng)絡(luò)預(yù)學(xué)習(xí)相關(guān)領(lǐng)域知識后，再對目標(biāo)語料進行實體抽取，則可以有效避免對訓(xùn)練語料的標(biāo)注。目前，已有學(xué)者利用基于深度遷移學(xué)習(xí)的方法抽取文本中的實體，應(yīng)用公開數(shù)據(jù)集訓(xùn)練模型，結(jié)合微調(diào)的方法提升實體抽取模型的性能[6-7]。但是，目前的相關(guān)研究多集中于文本，利用深度遷移方法對多模態(tài)內(nèi)容進行命名實體識別鮮有探索?；诖耍瑸榱私鉀Q目標(biāo)領(lǐng)域標(biāo)注數(shù)據(jù)匱乏的問題以及提升實體識別性能，本文提出利用深度遷移學(xué)習(xí)并結(jié)合文本和圖片內(nèi)容展開地方志多模態(tài)命名實體識別的研究。

圖1 南京市長江大橋

多模態(tài)命名實體識別是一項新興的任務(wù)，旨在利用多模態(tài)內(nèi)容挖掘文本和圖片中存在的相關(guān)語義關(guān)系，增強文本語義信息，提升模型識別實體的性能。該任務(wù)最早由Zhang 等[8]提出，其利用基于自適應(yīng)多模態(tài)聯(lián)合注意力機制（adaptive co-attention）的命名實體識別模型，對推特中網(wǎng)民所發(fā)布的包含多模態(tài)內(nèi)容的帖子進行實體識別，并獲得了最優(yōu)結(jié)果；同時作者公開了文中所用的多模態(tài)數(shù)據(jù)集。目前，中文領(lǐng)域尚未有應(yīng)用于多模態(tài)命名實體識別的公開數(shù)據(jù)集，因此，本文以文獻[8]的數(shù)據(jù)集為基礎(chǔ)，制作了用于深度遷移學(xué)習(xí)的平行語料。盡管圖片內(nèi)容能夠在一定程度上提升命名實體識別任務(wù)的性能，但是文本中的語義信息依舊是實體抽取中的核心?；诖?，本文提出基于深度遷移學(xué)習(xí)的多模態(tài)命名實體識別模型（multimodal named entity rec‐ognition model，MNERM）。該模型主要由四個部分組成，分別是BiLSTM-attention module（BAM）模塊、adaptive co-attention module（ACAM）模塊、過濾門及CRF（conditional random fields）層。為使得BAM 模塊和ACAM 模塊分別獲取預(yù)訓(xùn)練權(quán)重，本文分別引入了面向人民日報語料庫的BiLSTM-atten‐tion-CRF（BAC）模型和面向中文平行推特多模態(tài)語料庫的adaptive co-attention CRF（ACAC）模型，BAM 模塊和ACAM 模塊同樣也是BAC 模型和ACAC模型的組成部分。通過在對應(yīng)語料庫預(yù)訓(xùn)練模型，將權(quán)重參數(shù)分別遷移至BAM 模塊和ACAM 模塊，使MNERM 模型擁有提取多模態(tài)特征的能力。盡管應(yīng)用多模態(tài)特征能夠提升模型性能，但依舊包含噪聲，本文提出利用過濾門對ACAM 模塊輸出的多模態(tài)特征進行去噪，再同BAM 模塊輸出的文本特征進行融合，最后以微調(diào)的方式將融合后的多模態(tài)特征輸入至CRF 層進行解碼。

本文的主要貢獻為：從多模態(tài)視角出發(fā)，提出結(jié)合地方志中的文本和圖片進行命名實體的識別研究；針對目標(biāo)領(lǐng)域標(biāo)注語料匱乏的問題，提出利用深度遷移學(xué)習(xí)方法進行地方志多模態(tài)命名實體識別，并構(gòu)建了MNERM 模型，該模型能夠充分獲取不同模態(tài)的信息表示，并能有效捕捉不同模態(tài)間的相關(guān)關(guān)系，增強文本的特征表示能力。

本文將提出的模型在地方志多模態(tài)數(shù)據(jù)集中進行了實證研究，并與相關(guān)基線模型進行對比。研究結(jié)果表明，本文提出的模型具有一定的優(yōu)越性。

2 相關(guān)研究

2.1 地方志命名實體識別研究

伴隨著數(shù)字化進程的加快，沉睡的人文資源逐步成為可計算的數(shù)據(jù)，這為數(shù)字人文計算打下堅實的基礎(chǔ)。而命名實體識別作為自然語言處理中的基礎(chǔ)性任務(wù)，其對文本的知識組織及實體間的關(guān)系抽取都有著重要的影響。為了探究古籍方志中的實體自動識別，徐晨飛等[9]采用BiLSTM-CRF、BERT 等模型對物產(chǎn)別名、人物、產(chǎn)地及引書等實體進行識別，實驗結(jié)果表明，采用基于深度學(xué)習(xí)的實體識別方法能夠取得較好的效果。崔競烽等[10]基于深度學(xué)習(xí)方法，構(gòu)建BiLSTM-CRF 模型對菊花古典詩詞中的菊花花名、花色等實體進行識別，并同CRF 等基線模型作對比，實驗結(jié)果表明，該文獻提出的方法能夠取得較好的效果。史書中的歷史事件名是歷史文本知識庫的重要組成部分，唐慧慧等[11]提出以字作為最小語義單元，利用CRF 模型對魏晉南北朝史書文中的歷史事件名實體進行識別，并取得良好效果。在人民日報語料庫中，殷章志等[12]利用基于BiLSTM-CRF 的序列標(biāo)注模型抽取文本序列的中間特征，并將其輸入支持向量機中進行實體識別，并取得一定的效果。石春丹等[13]提出利用雙向門控循環(huán)網(wǎng)絡(luò)與CRF 結(jié)合的模型對文本中人名、地名和機構(gòu)名等實體進行識別，該模型能夠有效學(xué)習(xí)序列的時序信息，并能捕捉長距離依賴。

從上述研究可以看出，目前面向地方志等人文資源的命名實體識別研究多基于文本，并利用基于BiLSTM-CRF 架構(gòu)的深度學(xué)習(xí)模型進行實體識別。與之不同的是，本文在BAC 模型中引入了自注意力機制，其能夠有效增強文本的特征表示，減少序列信息中的噪聲，并獲得實體識別性能上的提升。除此之外，人文資源的數(shù)字化帶來的并不止是單一的文本，同時有著大量可獲取的對應(yīng)圖片資源。已有研究表明，圖片的加入能在一定程度上增強和補充對應(yīng)的文本語義信息[14]?；诖?，本文提出結(jié)合地方志中的文本和圖片，進行命名實體識別研究。

2.2 多模態(tài)命名實體識別研究

用戶在網(wǎng)絡(luò)中產(chǎn)生內(nèi)容的多模態(tài)化，為多模態(tài)自然語言處理任務(wù)提供了豐富資源。多模態(tài)命名實體識別作為其中的一項任務(wù)，已受到學(xué)界和工業(yè)界的廣泛關(guān)注。在以文本為主要處理對象的命名實體任務(wù)中，當(dāng)實體存在多義性或?qū)嶓w邊界難以區(qū)分時，僅依靠上下文對實體類別做出準(zhǔn)確判斷存在一定困難。但是當(dāng)文本有著與之對應(yīng)的圖片時，通過觀察圖片內(nèi)容出現(xiàn)的實體，則能對歧義實體做出準(zhǔn)確預(yù)測。

在多模態(tài)命名實體識別中，文本和圖片存在語義相關(guān)關(guān)系。在圖片內(nèi)容中，與文本中提及實體存在相關(guān)關(guān)系的僅局限于圖片的部分區(qū)域。因此，Zhang 等[8]提出基于自適應(yīng)聯(lián)合注意力機制（adap‐tive co-attention）的多模態(tài)命名實體模型，利用詞引導(dǎo)和圖引導(dǎo)的注意力機制充分學(xué)習(xí)文本和圖片的語義相關(guān)關(guān)系及模態(tài)交互，應(yīng)用門機制進行多模態(tài)特征融合和噪聲過濾，之后將多模態(tài)特征與經(jīng)過BiLSTM 編碼后的文本特征再次拼接，獲得最終多模態(tài)融合特征，并將其輸入CRF 層中進行解碼，F(xiàn)1值達到70.69%。同樣地，為了充分學(xué)習(xí)圖片中與文本實體相對應(yīng)的語義特征，Yu 等[14]提出基于Trans‐former 架構(gòu)的多模態(tài)命名實體模型，該模型主要由單模態(tài)特征表示、多模態(tài)Transformer 及輔助實體邊界檢測組成，通過這些構(gòu)件，模型能夠較好地學(xué)習(xí)文本和圖片上下文敏感特征，并能夠關(guān)注到聚合多模態(tài)信息時未被充分關(guān)注的實體。為充分理解圖片中的視覺內(nèi)容，Lu 等[15]提出基于視覺注意力機制的多模態(tài)命名實體模型，該模型能夠自動忽略與文本內(nèi)容無關(guān)的視覺信息并重點關(guān)注與文本內(nèi)容最相關(guān)的視覺信息，其在多個數(shù)據(jù)集中取得較好結(jié)果。

上述研究主要通過挖掘圖片與文本之間的相關(guān)語義關(guān)系及不同模態(tài)間的交互，并結(jié)合注意力機制，在公開英文數(shù)據(jù)集中取得一定性能。然而，在中文領(lǐng)域中，多模態(tài)命名實體識別任務(wù)尚未有研究涉及，并且缺乏相關(guān)的中文多模態(tài)命名實體識別語料。因此，本文探索將公開的英文多模態(tài)命名實體識別語料庫制作成可學(xué)習(xí)的平行中文多模態(tài)命名識別語料庫，并將詞作為句子的劃分粒度，利用深度遷移學(xué)習(xí)的方法對地方志多模態(tài)數(shù)據(jù)集進行實體識別研究。

2.3 深度遷移學(xué)習(xí)研究

深度遷移學(xué)習(xí)常用的方法包括基于實例的深度遷移學(xué)習(xí)（instance-based deep transfer learning）、基于映射的深度遷移學(xué)習(xí)（mapping-based deep transfer learning）、基于神經(jīng)網(wǎng)絡(luò)的深度遷移學(xué)習(xí)（networkbased deep transfer learning）以及基于對抗的深度遷移學(xué)習(xí) （adversarial-based deep transfer learning）[16]。其基本思想是利用在源域（source domain）訓(xùn)練的深度神經(jīng)網(wǎng)絡(luò)中的知識解決目標(biāo)域（target domain）中的問題。

目前，已有相關(guān)文獻利用深度遷移學(xué)習(xí)方法進行命名實體識別研究。武惠等[17]提出利用基于實例的深度遷移方法學(xué)習(xí)樣本特征，構(gòu)建BiLSTM-CRF模型對人民日報語料庫中的實體進行識別，并取得一定效果。王瑞銀等[7]在源域中訓(xùn)練語言模型預(yù)測模型，將源域模型知識遷移至目標(biāo)域模型中，從而對實體進行識別，其在法律文書數(shù)據(jù)集中性能良好。為了緩解可利用標(biāo)注語料的不足，Lee 等[6]提出在大型源數(shù)據(jù)集中訓(xùn)練BiLSTM-CRF 實體識別模型，結(jié)合微調(diào)的方法對目標(biāo)域的實體進行識別，并取得了一定的效果。

為了有效獲取文本的語義知識和文本結(jié)合圖片的多模態(tài)知識，本文應(yīng)用基于神經(jīng)網(wǎng)絡(luò)的深度遷移學(xué)習(xí)思想，提出在兩個源域數(shù)據(jù)集中訓(xùn)練與目標(biāo)模型對應(yīng)部分有著相似結(jié)構(gòu)的深度學(xué)習(xí)模型，然后將預(yù)訓(xùn)練模型中的權(quán)重遷移至目標(biāo)模型的對應(yīng)結(jié)構(gòu)中，最后結(jié)合微調(diào)的方法對地方志多模態(tài)數(shù)據(jù)進行實體識別。

3 模型設(shè)計

為了提升地方志中模型識別實體的性能并探索解決目標(biāo)領(lǐng)域標(biāo)注語料匱乏問題，本文提出基于深度遷移學(xué)習(xí)的多模態(tài)命名實體模型MNERM，結(jié)構(gòu)具體如圖2 所示，其分別由BAM 模塊、ACAM 模塊、過濾門及CRF 層組成。本文首先分別在人民日報語料庫和中文推特多模態(tài)數(shù)據(jù)集這兩個源域預(yù)訓(xùn)練BAC 模型和ACAC 模型。然后，利用基于神經(jīng)網(wǎng)絡(luò)的深度遷移學(xué)習(xí)方法，將BAC 模型和ACAC 模型中的對應(yīng)權(quán)重分別遷移至BAM 模塊和ACAM 模塊中，使得MNERM 具備抽取文本和圖片的多模態(tài)特征能力。接著，將文本特征和經(jīng)過過濾門過濾的多模態(tài)特征進行中間層融合，輸入CRF 層中進行解碼生成標(biāo)簽，并進行微調(diào)。下文將詳述MNERM 模型及建模方法。

圖2 基于深度遷移學(xué)習(xí)的多模態(tài)命名實體識別模型

3.1 特征提取

1）文本特征提取

文本的特征表示對下游任務(wù)的表現(xiàn)有著重要影響。本文利用在百度百科大規(guī)模語料中預(yù)訓(xùn)練的中文詞向量模型[18]，對文本進行特征表示。MNERM模型以Skip-Gram 模型為基礎(chǔ)，并結(jié)合負(fù)采樣技術(shù)進行優(yōu)化，其在中文類比推理任務(wù)中取得最優(yōu)結(jié)果。本文利用MNERM 模型分別對人民日報語料庫、中文推特多模態(tài)語料及地方志多模態(tài)語料庫中的句子進行文本表示。

2）圖片特征提取

以卷積神經(jīng)網(wǎng)絡(luò)（convolutional neural network，CNN）[19]為基礎(chǔ)構(gòu)建的模型，如VGG16、VGG19等[20]，在多個計算機視覺任務(wù)中均獲得了最優(yōu)結(jié)果。這一方面得益于CNN 強大的特征學(xué)習(xí)建模能力，另一方面則受益于大規(guī)模的圖片訓(xùn)練集，如Ima‐geNet[21]。目前常用的圖片提取方法是利用ImageNet數(shù)據(jù)集中預(yù)訓(xùn)練的CNN 模型，提取最后一層全連接層的輸出作為圖片的特征表示。但為了獲取圖片的空間特征表示，本文遵循文獻[8]中的方法，以預(yù)訓(xùn)練于ImageNet 數(shù)據(jù)集的VGG19 模型中的最后一層池化層的輸出作為圖片的特征表示。本文利用MNERM 模型分別提取中文推特多模態(tài)語料及地方志多模態(tài)語料中的圖片特征。

3.2 BiLSTM-attention-CRF模型

文本的語義信息是識別實體類別的核心，已有研究表明，將人民日報語料庫（1988）作為遷移學(xué)習(xí)的學(xué)習(xí)語料，并利用基于深度遷移學(xué)習(xí)的方法對其他語料庫中的相同實體進行識別，有著良好的效果[17]。為了使MNERM 模型中的BAM 模塊擁有先驗知識，本文設(shè)計了用于權(quán)重遷移的BAC 模型。目前常用的命名實體模型多基于BiLSTM-CRF 架構(gòu)[7-8]，與之不同的是，本文引入了自注意力機制（self-attention），而利用自注意力機制能夠有效增強文本的語義表示。BAC 模型主要由BiLSTM 網(wǎng)絡(luò)、自注意力層及CRF 層。BAM 模塊由BAC 模型中的BiLSTM 網(wǎng)絡(luò)和自注意力層組成。BiLSTM 作為循環(huán)神經(jīng)網(wǎng)絡(luò)（recurrent neural network，RNN）的變體，能夠較好地學(xué)習(xí)句子中的上下文關(guān)系，具有捕捉長距離依賴的能力，并能夠克服因序列長度過長所帶來的梯度消失和梯度爆炸的問題。給定人民日報語料庫中的句子S={s1,s2,…,si,…,sn}，進行特征表示后的句子為其中，n表示句子長度，dw表示向量維度，大小為300。BiLSTM 獲得的隱藏層狀態(tài)hi∈Rd由前向的LSTM輸出和反向的LSTM 輸出拼接而成，d表示隱藏層單元數(shù)，具體公式為

注意力機制起源于人類視覺，當(dāng)人觀察物體或閱讀書本時，會對其中的某一區(qū)域投入大量注意力，獲取富含價值的信息，并抑制對其他區(qū)域的注意力投入。目前已有工作利用注意力機制進行自然語言處理任務(wù)，如機器翻譯、情感分析等；而有關(guān)利用自注意力機制進行命名實體識別任務(wù)的研究相對較少。通過利用注意力機制，能夠確定在決定詞的標(biāo)簽時，有多少詞的信息被利用，從而提升模型性能。自注意力機制關(guān)注句子內(nèi)部的特征相關(guān)性，并能夠減少對外部特征的依賴。在自注意力機制中，句子中的每個語義單元同其他語義單元進行注意力權(quán)重計算，可以有效捕捉詞間的相互關(guān)系，獲取句子結(jié)構(gòu)信息，增強特征表示。自注意力機制本質(zhì)上是輸入Query(Q) 到一系列鍵值對(Key(K),Value(V))的映射函數(shù)，對BiLSTM 生成的句子表示H={hi|hi∈ Rd,i= 1,2,…,n}，應(yīng)用自注意力機制獲得的編碼表示為E={ei|ei∈Rd,i= 1,2,…,n}，具體公式為

其中，Q、K、V為隱藏層狀態(tài)hi的特征；Softmax 為歸一化函數(shù)。將編碼后的文本表示輸入CRF 層進行解碼，獲得文本中詞對應(yīng)的預(yù)測標(biāo)簽Y={y1,y2,…,yi,…,yn}，

其中，W、b表示全權(quán)重矩陣。本文利用經(jīng)典的最大條件似然估計對CRF 層進行訓(xùn)練，具體公式為

3.3 自適應(yīng)聯(lián)合注意力機制模型

鑒于當(dāng)前尚未有中文多模態(tài)命名實體識別公開數(shù)據(jù)集，僅有英文推特多模態(tài)命名實體識別公開數(shù)據(jù)集，目前已有研究涉及利用英譯漢平行語料來進行深度遷移學(xué)習(xí)，并在公開數(shù)據(jù)集中取得了較好的性能[22]。因此，本文制作了推特多模態(tài)數(shù)據(jù)集的中文平行語料作為ACAC 模型的訓(xùn)練語料，將ACAC模型中自適應(yīng)聯(lián)合注意力網(wǎng)絡(luò)的權(quán)重灌入ACAM 模塊中，其主要由自適應(yīng)聯(lián)合注意力機制網(wǎng)絡(luò)和CRF層組成。不同于自適應(yīng)聯(lián)合注意力機制結(jié)構(gòu)[8]，在ACAC 模型中，本文將VGG-16 圖片特征提取模型替換成性能更佳的VGG-19[23]，其余部分保持一致。

自適應(yīng)聯(lián)合注意力機制由詞引導(dǎo)的注意力機制（word-guided attention，WGA）、圖引導(dǎo)的注意力機制（image-guided attention，IGA）和門機制組成。由圖1 可以看出，圖片中僅包含長江大橋的區(qū)域與文本中的“長江大橋”有關(guān)，如果考慮圖片中的全部區(qū)域，那么會帶來噪聲和信息冗余。詞引導(dǎo)的注意力機制核心思想是給序列中的一個詞，利用Softmax函數(shù)計算圖片中的各個區(qū)域同該詞的相關(guān)程度，過濾掉與其不相關(guān)的區(qū)域和信息，減少計算復(fù)雜度，以達到最優(yōu)結(jié)果。應(yīng)用詞引導(dǎo)的注意力機制，則能讓模型過濾掉噪音并找出與當(dāng)前詞最為相關(guān)的圖片區(qū)域。給定文本序列X={x1,x2,…,xt,…,xn}，利用BiLSTM 編碼后的輸出表示為M={mt|mt∈Rd,t=1,2,…,n}，利用VGG19 模型提取與文本相對應(yīng)的圖片特征為T={ti|ti∈ R512,i= 1,2,…,49}，其中特征圖的數(shù)量為49，512 表示特征圖的維度。應(yīng)用詞引導(dǎo)的注意力機制得到與詞mt相關(guān)的圖片特征向量

其中，θw為詞引導(dǎo)的注意力機制中的參數(shù)。利用WGA 能夠獲得與詞mt相關(guān)的圖片特征向量但是并不知道序列中的哪個詞與mt相關(guān)。因此，需要利用圖引導(dǎo)的注意力機制去尋找與圖片特征的最相關(guān)的詞。圖引導(dǎo)的注意力機制的核心思想是在給定新的圖片特征向量下，計算序列中的詞同圖片特征向量的相關(guān)程度，從而提升序列的特征表達能力。因此，利用IGA 可以計算出與圖片特征表示相關(guān)的詞

其中，θi為圖引導(dǎo)的注意力機制中的參數(shù)。門機制主要由融合門和過濾門組成。為獲得文本和圖片的多模態(tài)特征表示，利用門機制中的融合門對新獲得的依賴于IGA 的詞特征和依賴于WGA 的圖片特征向量進行拼接，獲得多模態(tài)融合后的中間特征表示。盡管利用WGA 和IGA 能夠生成富含多模態(tài)語義特征的中間表示，但是依然存在噪聲。例如，當(dāng)預(yù)測文本中實體所包含的副詞或形容詞標(biāo)簽時，與之對應(yīng)的圖片特征并不能提供語義表示的增強，反而會引入噪聲。因此，應(yīng)用門機制中的過濾門，采用Sigmoid 函數(shù)對融合后的多模態(tài)中間表示特征進行噪聲過濾，獲得高質(zhì)量多模態(tài)中間特征表示gt。盡管融合后的多模態(tài)中間特征能夠在一定程度上完成對文本和圖片語義的聯(lián)合表達，但是命名實體識別的核心語義依舊在于文本。因此，通過將BiLSTM 編碼后序列特征與多模態(tài)中間表示特征相拼接，獲得最終多模態(tài)表示特征ut，具體過程為

其中，gt,ut∈Rd；θg為門機制中的全部參數(shù)。將編碼的多模態(tài)特征ut表示輸入CRF 層中進行標(biāo)簽解碼，并利用最大似然估計對CRF 層進行訓(xùn)練，獲得解碼標(biāo)簽。

3.4 深度遷移學(xué)習(xí)

為了緩解當(dāng)前可利用標(biāo)注語料匱乏的現(xiàn)狀，本文提出利用深度遷移學(xué)習(xí)方法探索解決這一問題，并設(shè)計了基于深度遷移學(xué)習(xí)的MNERM 模型。利用預(yù)訓(xùn)練完成的BAC 模型和ACAC 模型，將相應(yīng)的權(quán)重分別遷移至BAM 模塊和ACAM 模塊中，使得MNERM 模型具備對目標(biāo)域（地方志多模態(tài)數(shù)據(jù)集）抽取文本和多模態(tài)特征的能力。

給定用于進行實體識別的地方志文本圖片對(C,P)，C經(jīng)過加載權(quán)重后的BAM 模塊得到的編碼輸出為C＇={ci|ci∈ Rd,i= 1,2,…,n}，(C,P) 經(jīng) 過加載權(quán)重后的ACAM 模塊得到的多模態(tài)特征表示K={ki|ki∈Rd,i= 1,2,…,n}。盡管利用遷移學(xué)習(xí)后的多模態(tài)特征能夠在一定程度上增強文本語義信息，但是其仍包含一定的噪聲，并且模型學(xué)習(xí)的語料并不是原始中文語料，而是英譯漢平行語料，經(jīng)過翻譯后會部分丟失原意，引入噪聲。因此，本文提出應(yīng)用過濾門對提取的多模態(tài)特征進行噪聲過濾，得到過濾后的多模態(tài)特征V={vi|vi∈Rd,i= 1,2,…,n}，之后將文本語義特征表示C＇與多模態(tài)特征表示V進行融合輸入至一層全連接層中進行非線性激活，獲得最終的多模態(tài)特征表示Z={zi|zi∈R2d,i=1,2,…,n}，具體過程為

其中，Wk和Wz為權(quán)重矩陣；bk和bz為偏置項；tanh 為非線性激活函數(shù)。本文將多模態(tài)特征Z輸入CRF 層中，微調(diào)后獲得最終的預(yù)測標(biāo)簽。

4 實證研究

4.1 實驗數(shù)據(jù)集

1）人民日報語料庫

本文使用的是1998 年1 月的人民日報語料庫，該語料庫由北京大學(xué)計算語言學(xué)研究所和富士通公司聯(lián)合制作并發(fā)布，被廣泛應(yīng)用在命名實體識別研究中。語料庫中包含人名、地名及機構(gòu)名實體，本文以行對語料進行切分，共獲得19484 條句子，將語料庫的80%作為訓(xùn)練集，剩余的20%作為測試集。

2）中文推特多模態(tài)數(shù)據(jù)集

本文使用的是Zhang 等[8]用于多模態(tài)命名實體任務(wù)的英文推特數(shù)據(jù)集。該數(shù)據(jù)集共包含8257 個句子和圖片對，標(biāo)注實體類別為人名、地名、機構(gòu)名及其他實體，利用BIO（begin，inside，outside）規(guī)則[24]進行實體標(biāo)注。該數(shù)據(jù)集經(jīng)雙人標(biāo)注完成，包含的實體數(shù)量為12784，訓(xùn)練集句子數(shù)量為4000，驗證集數(shù)量為1000，測試集數(shù)量為3257。為了制作平行語料，本文首先利用科大訊飛翻譯API（appli‐cation programming interface）對數(shù)據(jù)集進行翻譯，并召集5 位研究生對平行語料進行檢查，使其通順并保持原意；然后利用jieba 包對語料進行分詞，并使用相同標(biāo)注規(guī)則對照原英文語料進行實體標(biāo)注；最后得到中文推特多模態(tài)數(shù)據(jù)集。在英文推特中，語料中常包含縮寫詞及非中文對應(yīng)實體詞，同時考慮到遷移應(yīng)用的語料，本文在中文平行數(shù)據(jù)集中去除了其他實體類別。該平行數(shù)據(jù)集中的訓(xùn)練集、驗證集及測試集數(shù)量均與原數(shù)據(jù)集保持一致，在實體對照的標(biāo)注過程中，當(dāng)中文出現(xiàn)了英文中未標(biāo)注的實體，本文則加以補充，最后得到的實體數(shù)量為10636。

3）地方志多模態(tài)數(shù)據(jù)集

利用本課題組編寫的爬蟲對《南京簡志》①江蘇古籍出版社，1986年出版?！赌暇┤宋镏尽发趯W(xué)林出版社，2001年出版?！赌暇﹫@林志》③方志出版社，1997年出版?！赌暇┏菈χ尽发茗P凰出版社，2008年出版。、百度中的南京地方志等資源進行爬取，獲取志書中的圖片及相應(yīng)文本描述，文本均為現(xiàn)代文。搜集到的文本及圖片對數(shù)量為2885，經(jīng)過過濾及去重，共獲得1659 個文本圖片對。之后對數(shù)據(jù)進行實體標(biāo)注，標(biāo)注由組內(nèi)的兩位研究生完成，標(biāo)注規(guī)則為BIO[24]，標(biāo)注實體類別分別為人名、地名及機構(gòu)名，實體總量為2908。標(biāo)注后的地方志多模態(tài)數(shù)據(jù)集作為檢驗本文提出的MNERM 模型的性能測試語料。本文同時標(biāo)注了500 個用于微調(diào)的文本圖片對。

4.2 實驗設(shè)置

本文所用編程語言為Python 3.6，使用的深度學(xué)習(xí)框架為tensorflow2.3.0，本文的實驗均在兩塊GPU型號為NVIDIA GeForce RTX 2080ti、內(nèi)存為16G 的服務(wù)器中完成。

4.3 基線模型

基于深度遷移學(xué)習(xí)的MNERM 模型主要由BAM模塊、ACAM 模塊、過濾門及CRF 層構(gòu)成，組成模塊的性能影響著整體模型的表現(xiàn)。因此，本文按照使用的數(shù)據(jù)集，分別是人民日報語料庫和中文推特數(shù)據(jù)集，將組成模塊對應(yīng)的模型（BAC 和ACAC）與不同的基線模型進行對比，以驗證其性能。最后，本文將MNERM 模型在地方志多模態(tài)數(shù)據(jù)集進行性能驗證，并與基線模型作對比。

1）人民日報語料庫

本文選擇了幾種具有優(yōu)異性能的文本實體識別模型，將其與BAC 模型作對比，具體如下。

BiLSTM-Att[25]：該模型使用的注意力機制同BAC 模型相同，解碼層使用Softmax 函數(shù)作為標(biāo)簽解碼層。

BiLSTM-CRF[26]：該模型結(jié)合了BiLSTM 模型和CRF 模型，具有良好的實體識別效果，并被廣泛應(yīng)用在命名實體識別任務(wù)中。

BiLSTM[27]：相較于BiLSTM-CRF 模型，該模型利用Softmax 函數(shù)作為序列解碼層，具有一定的實體識別性能。

CRF[28]：該模型為命名實體識別任務(wù)中的經(jīng)典模型，能夠較好地考慮到序列特征并避免標(biāo)簽偏置問題。

1.1 研究對象本研究以上海市某地區(qū)失去獨生子女的父母作為研究對象。納入標(biāo)準(zhǔn)：（1）沒有領(lǐng)養(yǎng)意愿及行為，已經(jīng)喪失再生育能力的夫婦；（2）年齡≥50 歲；（3）失去獨生子女 1年以上；（4）能獨立完成問卷調(diào)查。排除認(rèn)知障礙及患有重大精神疾病者。

2）中文推特多模態(tài)數(shù)據(jù)集

ACAM 模塊主要由WGA、IGA 和門機制組成，為驗證組成部分的優(yōu)越性，本文對基于ACAM 的ACAC 模型進行了消融實驗，分別去除了WGA、IGA 和門機制，形成Without-WGA、Without-IGA 和Without-Gate 等模型。同時，為了驗證多模態(tài)融合的性能，本文將其與僅基于文本的BiLSTM-CRF 作對比，具體如下。

Without-WGA：該模型去除了詞引導(dǎo)的注意力機制，僅保留了圖引導(dǎo)的注意力機制。

Without-IGA：該模型去除了圖引導(dǎo)的注意力機制，僅保留了詞引導(dǎo)的注意力機制。

Without-Gate：該模型在自適應(yīng)聯(lián)合注意力網(wǎng)絡(luò)中去除了門機制。

BiLSTM-CRF[27]：該模型對文本序列進行命名實體識別，參數(shù)與ACAC 保持一致。

3）地方志多模態(tài)測試數(shù)據(jù)集

為了驗證MNERM 模型的性能，本文將僅在人民日報語料庫和中文推特數(shù)據(jù)集中進行預(yù)訓(xùn)練的BAC 和ACAC 作為對比模型，微調(diào)方式均保持一致。同時，為了驗證過濾門的性能，本文設(shè)計了去除過濾門的模型Without-FGate 作為對比。本文還將哈爾濱工業(yè)大學(xué)提供的Language Technology Plat‐form（LTP）[29]中的命名實體工具作為對比模型。

4.4 實驗結(jié)果及分析

1）人民日報語料庫

表1 呈現(xiàn)的是BAC 模型與其他模型的對比結(jié)果。從表1 可以看出，本文提出的模型在各個指標(biāo)中均表現(xiàn)最優(yōu)。在同BiLSTM-CRF 的比較中可以發(fā)現(xiàn)，當(dāng)模型的解碼層均保持相同時，引入自注意力機制能夠使模型更為關(guān)注那些能夠決定序列標(biāo)簽的信息，生成富含語義特征的序列特征，從而提升模型識別實體的性能，這也是BAC 模型具有一定優(yōu)勢的原因。在同BiLSTM-Att 的對比中，當(dāng)模型的編碼層保持一致時，利用Softmax 層作為識別實體的解碼層，盡管能夠取得一定的性能，但依舊劣于BAC 模型。相較于Softmax 層，CRF 能夠?qū)﹄[藏層的各個時間步進行有效建模，學(xué)習(xí)并觀察序列中的標(biāo)簽特點，從而提升模型的解碼性能。這樣的優(yōu)勢同樣體現(xiàn)在BiLSTM 和BiLSTM-CRF 的對比中。當(dāng)忽略文本的上下文關(guān)系，僅用詞向量對文本進行表示時，將其輸入CRF 層進行解碼，從結(jié)果可以發(fā)現(xiàn)，CRF 模型均劣于使用BiLSTM 或結(jié)合自注意力機制的模型作為上下文建模的模型，這充分說明了文本上下文在命名實體識別任務(wù)中的重要作用，同時也表明利用BiLSTM 等時間序列模型能夠較好地學(xué)習(xí)文本上下文關(guān)系，并能生成富含上下文關(guān)系及語義信息的序列特征。

表1 模型在人民日報語料庫中的測試結(jié)果

通過比較分析發(fā)現(xiàn)，本文引入的BAC 模型具有較好的實體識別性能，而模型包含的BiLSTM 和自注意力網(wǎng)絡(luò)在其中發(fā)揮了充分抽取語義特征的重要作用，這也是本文將BiLSTM 和自注意力網(wǎng)絡(luò)（BAM 模塊）作為MNERM 模型組成部分的原因。

2）中文推特數(shù)據(jù)集

自適應(yīng)聯(lián)合注意力機制由圖引導(dǎo)的注意力機制、詞引導(dǎo)的注意力機制及門機制組成。每個組成部分均能對ACAC 模型性能產(chǎn)生影響，為了探究不同組成成分的作用及整體組合的性能，本文對此進行了探究。

表2 呈現(xiàn)的是各對比模型在中文推特多模態(tài)數(shù)據(jù)集中的結(jié)果，可以看出，ACAC 模型在F1 這一指標(biāo)上表現(xiàn)最優(yōu)。當(dāng)去除圖引導(dǎo)的注意力機制后，Without-IGA 模型在精確率（P）這一指標(biāo)上優(yōu)于ACAC 模型，但是在召回率（R）和F1 指標(biāo)上均劣于ACAC。盡管ACAC 模型在預(yù)測序列正標(biāo)簽樣本中并沒有表現(xiàn)出最優(yōu)性能，但是在序列中的各實體類別真實標(biāo)簽樣本識別中效果最佳，并在召回率這一指標(biāo)上超出With-IGA 模型近7%。當(dāng)去除詞引導(dǎo)的注意力機制后，僅利用圖引導(dǎo)的注意力機制并不能較好地學(xué)習(xí)到文本和圖片之間的模態(tài)交互和關(guān)聯(lián)關(guān)系，這也是Without-WGA 劣于ACAC 的原因。在同Without-FGate 模型的對比中，可以發(fā)現(xiàn)門機制在模型中的重要作用，引入門機制能夠較好地聚合多模態(tài)融合特征，同時有效過濾來自模態(tài)融合中的噪聲。當(dāng)不考慮文本對應(yīng)的圖片時，通過對比BiLSTMCRF，可以發(fā)現(xiàn)圖片信息在增強文本語義特征中的作用，這也是ACAC 模型表現(xiàn)良好的原因。因此，本文將去除了CRF 層的ACAC 模型作為MNERM 模型中的ACAM 模塊，用于提取地方志數(shù)據(jù)中的多模態(tài)特征。

表2 模型在中文推特數(shù)據(jù)集的測試結(jié)果

3）地方志多模態(tài)數(shù)據(jù)集

表3 呈現(xiàn)的是經(jīng)過微調(diào)后的不同對比模型對地方志多模態(tài)數(shù)據(jù)集進行實體識別的結(jié)果，各模型所用的微調(diào)數(shù)據(jù)均一致。利用通用模型LTP 對地方志語料進行實體識別并沒有取得較好的效果。與BAC模型比較可以發(fā)現(xiàn)，當(dāng)MNERM 模型聯(lián)合多模態(tài)語料庫知識后，模型性能有了較大提升。這表明在多模態(tài)語料庫中預(yù)訓(xùn)練實體識別模型后，利用基于神經(jīng)網(wǎng)絡(luò)的深度遷移學(xué)習(xí)方法，將權(quán)重灌入MNERM模型對應(yīng)模塊中，能夠使得MNERM 具備捕捉不同模態(tài)間的語義相關(guān)關(guān)系及動態(tài)交互的能力，從而獲得更優(yōu)的性能。在與ACAC 的比較中可以發(fā)現(xiàn)，盡管利用在中文推特多模態(tài)語料庫中的預(yù)訓(xùn)練模型ACAC 能夠取得一定優(yōu)勢，但是劣于含有人民日報語料庫知識的BAC 模型以及MNERM 模型。一方面是因為在制作平行語料的過程中，會伴隨著部分英文原意信息的丟失；另一方面是因為源域英文推特數(shù)據(jù)集大多由推特平臺上用戶的發(fā)帖組成，內(nèi)容大多關(guān)于用戶生活的分享，而目標(biāo)域則是地方志多模態(tài)內(nèi)容，目標(biāo)域與源域之間存在著部分不相關(guān)的知識。當(dāng)本文引入過濾門后可以看出，采用過濾門的MNERM 模型在精確率和F1 指標(biāo)上均優(yōu)于Without-FGate 模型。盡管應(yīng)用過濾門機制使得召回率輕微下降，但是F1 值提升了1.042%。這表明，應(yīng)用過濾門能夠?qū)ι疃冗w移學(xué)習(xí)得到的多模態(tài)融合特征噪聲進行有效過濾，同時能夠彌補因源域和目標(biāo)域之間存在不匹配知識所造成的性能損失。

表3 地方志多模態(tài)數(shù)據(jù)集深度遷移學(xué)習(xí)結(jié)果

4）深度遷移學(xué)習(xí)有效性分析

為了探究深度遷移學(xué)習(xí)在地方志多模態(tài)命名實體任務(wù)中的有效性以及模型對目標(biāo)領(lǐng)域的適配性，本文通過調(diào)節(jié)預(yù)訓(xùn)練模型中訓(xùn)練集大小進行驗證[6]。圖3 展示的是當(dāng)人民日報語料庫訓(xùn)練集大小成比例增加時，BAC 模型在人民語料庫中的測試性能及在地方志多模態(tài)數(shù)據(jù)集中的文本進行深度遷移學(xué)習(xí)的結(jié)果。從圖3 可以看出，隨著預(yù)訓(xùn)練模型中訓(xùn)練集數(shù)量的增加，經(jīng)過微調(diào)后的權(quán)重遷移模型對地方志文本進行實體識別的性能呈上升趨勢。該趨勢同樣呈現(xiàn)在ACAC 模型對地方志多模態(tài)數(shù)據(jù)的實體識別中。

從圖4 可以看出，當(dāng)人民日報語料庫及中文推特多模態(tài)數(shù)據(jù)集中的訓(xùn)練集同步成比例上升時，應(yīng)用深度遷移學(xué)習(xí)的MNERM 模型在對地方志多模態(tài)數(shù)據(jù)集中的實體進行預(yù)測時，性能總體呈上升趨勢。綜合圖3、圖4 中的結(jié)果可以發(fā)現(xiàn)，預(yù)訓(xùn)練模型中訓(xùn)練集的大小影響著后續(xù)應(yīng)用深度遷移學(xué)習(xí)的效果，這表明本文提出的深度遷移方法具有一定的有效性，并且顯示出本文提出的MNERM 模型對目標(biāo)領(lǐng)域具有較強的適配性。

圖3 訓(xùn)練集比例對BAC模型和ACAC模型性能及應(yīng)用深度遷移學(xué)習(xí)的影響

圖4 預(yù)訓(xùn)練模型中的訓(xùn)練集比例對MNERM模型性能的影響

4.5 誤差分析

表4 呈現(xiàn)的是利用不同模型對地方志多模態(tài)數(shù)據(jù)集中的部分?jǐn)?shù)據(jù)進行預(yù)測的結(jié)果。在例1 中，MNERM 模型和ACAC 模型均對地名實體做出了準(zhǔn)確的預(yù)測，而BAC 模型則做出了錯誤判斷。例1 圖片中的大樓為文本的地名實體提供了語義增強作用，通過多模態(tài)融合則可以產(chǎn)生更富含語義的表示，從而提升實體識別的性能。在多模態(tài)命名實體中，文本的語義信息依舊是實體識別的核心信息。在例2 中，盡管利用ACAC 模型未能對人名實體進行有效識別，但僅依靠文本語義信息，BAC 模型做出了準(zhǔn)確判斷，而作為ACAC 模型和BAC 模型兩者的結(jié)合，依靠捕捉文本語義信息的BAM 模塊，MNERM 模型同樣預(yù)測成功。在例3 中，MNERM模型和BAC 模型均對人名和組織實體做出了準(zhǔn)確判斷，而ACAC 模型僅識別出了人名實體，未能識別出組織實體。例3 圖片中的人像為人名實體的識別提供了語義增強作用，但是在組織實體識別中，與文本相對應(yīng)的圖片未提供相應(yīng)的補充特征，ACAC模型未能對組織實體進行識別。盡管MNERM 模型在利用深度遷移學(xué)習(xí)的多模態(tài)命名實體識別任務(wù)中能夠取得一定效果，但其未能夠有效利用文本中的字級特征，而聯(lián)合字級的特征則可以增強文本的表示能力，能夠進一步改善多模態(tài)特征融合后的語義表示特征，從而提升遷移學(xué)習(xí)后實體識別的性能。

表4 不同模型對地方志多模態(tài)數(shù)據(jù)進行實體識別的結(jié)果

5 總結(jié)與展望

當(dāng)前，面向地方志等文化資源的命名實體識別研究主要基于文本，忽略了文本對應(yīng)的圖片信息，同時還面臨著在領(lǐng)域內(nèi)訓(xùn)練實體識別模型缺乏已標(biāo)注數(shù)據(jù)集的困境。為了解決該問題，本文從多模態(tài)視角出發(fā)，結(jié)合地方志對應(yīng)的圖片信息，并提出基于深度遷移學(xué)習(xí)的MNERM 模型。該模型由四個部分組成，分別是BAM 模塊、ACAM 模塊、過濾門及CRF 層。為了驗證模型組成部分的有效性，本文將包含對應(yīng)模塊的模型（BAC 和ACAC）與不同基線模型進行對比，實驗結(jié)果表明，模型各組成部分均包含一定的優(yōu)勢。利用經(jīng)過權(quán)重遷移后的BAM模塊和ACAM 模塊，MNERM 模型能夠有效獲取文本語義特征及多模態(tài)特征，應(yīng)用過濾門對ACAM 模塊輸出的多模態(tài)特征進行去噪，最后將BAM 模塊輸出的文本語義特征及過濾后的多模態(tài)特征進行融合，輸入至CRF 層進行解碼。實驗結(jié)果表明，本文提出的模型在同基線模型的比對中具有一定優(yōu)勢。同時，為了驗證深度遷移學(xué)習(xí)的有效性和對目標(biāo)領(lǐng)域的適配性，本文將預(yù)訓(xùn)練模型中的訓(xùn)練集比例作為參數(shù)進行調(diào)節(jié)，發(fā)現(xiàn)當(dāng)源域訓(xùn)練集越大，經(jīng)過深度遷移學(xué)習(xí)后的模型表現(xiàn)越佳。

本文提出的模型和方法不僅適用于地方志多模態(tài)命名實體識別，也適用于數(shù)字人文領(lǐng)域中標(biāo)注數(shù)據(jù)集匱乏的文化資源，如非遺等。在未來的研究中，本課題組將進一步提升模型的領(lǐng)域泛化能力，提升模型利用深度遷移學(xué)習(xí)進行多模態(tài)實體識別的性能以及中文多模態(tài)命名實體識別數(shù)據(jù)集的構(gòu)建。

99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

基于深度遷移學(xué)習(xí)的地方志多模態(tài)命名實體識別研究

1 引 言

2 相關(guān)研究

2.1 地方志命名實體識別研究

2.2 多模態(tài)命名實體識別研究

2.3 深度遷移學(xué)習(xí)研究

3 模型設(shè)計

3.1 特征提取

3.2 BiLSTM-attention-CRF模型

3.3 自適應(yīng)聯(lián)合注意力機制模型

3.4 深度遷移學(xué)習(xí)

4 實證研究

4.1 實驗數(shù)據(jù)集

4.2 實驗設(shè)置

4.3 基線模型

4.4 實驗結(jié)果及分析

4.5 誤差分析

5 總結(jié)與展望

1 引言