• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      基于深度遷移學(xué)習(xí)的地方志多模態(tài)命名實體識別研究

      2022-05-19 06:58:36陳玥彤
      情報學(xué)報 2022年4期
      關(guān)鍵詞:語料語料庫注意力

      范 濤,王 昊,陳玥彤

      (南京大學(xué)信息管理學(xué)院,南京 210023)

      1 引 言

      黨的十九屆五中全會通過的《中共中央關(guān)于制定國民經(jīng)濟和社會發(fā)展第十四個五年規(guī)劃和二〇三五年遠景目標(biāo)的建議》中明確提出了到2035 年建成文化強國的遠景目標(biāo),并強調(diào)在“十四五”時期推進社會主義文化強國建設(shè),這標(biāo)志著我國文化強國建設(shè)進入了一個新的歷史階段[1]。作為中華文化的載體和組成部分,地方志是建設(shè)文化強國的重要一環(huán),對其進行挖掘和研究,有利于傳播中華文化和增強文化自信[2]。

      命名實體識別作為文本挖掘中的一項基礎(chǔ)任務(wù),旨在識別文本中的專有詞,如人名、地名、時間、組織等,其對后續(xù)的文本知識組織和知識圖譜的構(gòu)建都具有重要影響[3]。目前,已有學(xué)者利用相關(guān)研究方法對地方志等文化資源進行了實體抽取。例如,李娜[4]以《方志物產(chǎn)》山西分卷作為語料,基于條件隨機場模型實現(xiàn)了對物產(chǎn)別名實體的自動抽取。黃水清等[5]將部分人工標(biāo)注的先秦古漢語語料庫作為條件隨機場的訓(xùn)練數(shù)據(jù),利用訓(xùn)練生成的最優(yōu)模型,對語料庫中的地名實體進行自動識別。從上述工作可以看出:①當(dāng)前對于地方志等文化資源命名實體識別任務(wù)的研究對象均基于文本,缺乏對多模態(tài)內(nèi)容(即文本結(jié)合圖片)的探究;②自動識別文本實體的模型依賴于大規(guī)模人工標(biāo)注的語料,需要耗費大量的人力資源和時間。然而,隨著地方志數(shù)字化進程的加快,地方志數(shù)據(jù)庫提供的內(nèi)容并不僅局限于文本這一單模態(tài)內(nèi)容,與文本相關(guān)聯(lián)的圖片資源同樣以結(jié)構(gòu)化的方式呈現(xiàn),這為地方志多模態(tài)內(nèi)容的研究提供了契機。在文本命名實體識別任務(wù)中,當(dāng)實體邊界模糊時,僅依靠上下文難以辨別其實體類型。例如,在圖1 中,倘若僅考慮文本,難以確定句子中所包含實體的邊界,“江大橋”可以被視作人名,而“長江大橋”又可以被視作地名,但是當(dāng)結(jié)合文本對應(yīng)的圖片時,則可以確定文本中提及的實體為“長江大橋”,從而準(zhǔn)確地識別出實體。當(dāng)面向某一具體領(lǐng)域展開實體識別研究時,通常會面臨標(biāo)注語料匱乏的問題。常用的解決方法是利用人工去標(biāo)注數(shù)據(jù)集,但是會耗費大量的人力、物力,同時,在面向新領(lǐng)域時,還需標(biāo)注新的語料,并不能較好地解決面向特定領(lǐng)域的實體識別問題。然而,通過深度遷移學(xué)習(xí)方法,利用深度神經(jīng)網(wǎng)絡(luò)預(yù)學(xué)習(xí)相關(guān)領(lǐng)域知識后,再對目標(biāo)語料進行實體抽取,則可以有效避免對訓(xùn)練語料的標(biāo)注。目前,已有學(xué)者利用基于深度遷移學(xué)習(xí)的方法抽取文本中的實體,應(yīng)用公開數(shù)據(jù)集訓(xùn)練模型,結(jié)合微調(diào)的方法提升實體抽取模型的性能[6-7]。但是,目前的相關(guān)研究多集中于文本,利用深度遷移方法對多模態(tài)內(nèi)容進行命名實體識別鮮有探索?;诖耍瑸榱私鉀Q目標(biāo)領(lǐng)域標(biāo)注數(shù)據(jù)匱乏的問題以及提升實體識別性能,本文提出利用深度遷移學(xué)習(xí)并結(jié)合文本和圖片內(nèi)容展開地方志多模態(tài)命名實體識別的研究。

      圖1 南京市長江大橋

      多模態(tài)命名實體識別是一項新興的任務(wù),旨在利用多模態(tài)內(nèi)容挖掘文本和圖片中存在的相關(guān)語義關(guān)系,增強文本語義信息,提升模型識別實體的性能。該任務(wù)最早由Zhang 等[8]提出,其利用基于自適應(yīng)多模態(tài)聯(lián)合注意力機制(adaptive co-attention)的命名實體識別模型,對推特中網(wǎng)民所發(fā)布的包含多模態(tài)內(nèi)容的帖子進行實體識別,并獲得了最優(yōu)結(jié)果;同時作者公開了文中所用的多模態(tài)數(shù)據(jù)集。目前,中文領(lǐng)域尚未有應(yīng)用于多模態(tài)命名實體識別的公開數(shù)據(jù)集,因此,本文以文獻[8]的數(shù)據(jù)集為基礎(chǔ),制作了用于深度遷移學(xué)習(xí)的平行語料。盡管圖片內(nèi)容能夠在一定程度上提升命名實體識別任務(wù)的性能,但是文本中的語義信息依舊是實體抽取中的核心?;诖?,本文提出基于深度遷移學(xué)習(xí)的多模態(tài)命名實體識別模型(multimodal named entity rec‐ognition model,MNERM)。該模型主要由四個部分組成,分別是BiLSTM-attention module(BAM)模塊、adaptive co-attention module(ACAM)模塊、過濾門及CRF(conditional random fields)層。為使得BAM 模塊和ACAM 模塊分別獲取預(yù)訓(xùn)練權(quán)重,本文分別引入了面向人民日報語料庫的BiLSTM-atten‐tion-CRF(BAC)模型和面向中文平行推特多模態(tài)語料庫的adaptive co-attention CRF(ACAC) 模型,BAM 模塊和ACAM 模塊同樣也是BAC 模型和ACAC模型的組成部分。通過在對應(yīng)語料庫預(yù)訓(xùn)練模型,將權(quán)重參數(shù)分別遷移至BAM 模塊和ACAM 模塊,使MNERM 模型擁有提取多模態(tài)特征的能力。盡管應(yīng)用多模態(tài)特征能夠提升模型性能,但依舊包含噪聲,本文提出利用過濾門對ACAM 模塊輸出的多模態(tài)特征進行去噪,再同BAM 模塊輸出的文本特征進行融合,最后以微調(diào)的方式將融合后的多模態(tài)特征輸入至CRF 層進行解碼。

      本文的主要貢獻為:從多模態(tài)視角出發(fā),提出結(jié)合地方志中的文本和圖片進行命名實體的識別研究;針對目標(biāo)領(lǐng)域標(biāo)注語料匱乏的問題,提出利用深度遷移學(xué)習(xí)方法進行地方志多模態(tài)命名實體識別,并構(gòu)建了MNERM 模型,該模型能夠充分獲取不同模態(tài)的信息表示,并能有效捕捉不同模態(tài)間的相關(guān)關(guān)系,增強文本的特征表示能力。

      本文將提出的模型在地方志多模態(tài)數(shù)據(jù)集中進行了實證研究,并與相關(guān)基線模型進行對比。研究結(jié)果表明,本文提出的模型具有一定的優(yōu)越性。

      2 相關(guān)研究

      2.1 地方志命名實體識別研究

      伴隨著數(shù)字化進程的加快,沉睡的人文資源逐步成為可計算的數(shù)據(jù),這為數(shù)字人文計算打下堅實的基礎(chǔ)。而命名實體識別作為自然語言處理中的基礎(chǔ)性任務(wù),其對文本的知識組織及實體間的關(guān)系抽取都有著重要的影響。為了探究古籍方志中的實體自動識別,徐晨飛等[9]采用BiLSTM-CRF、BERT 等模型對物產(chǎn)別名、人物、產(chǎn)地及引書等實體進行識別,實驗結(jié)果表明,采用基于深度學(xué)習(xí)的實體識別方法能夠取得較好的效果。崔競烽等[10]基于深度學(xué)習(xí)方法,構(gòu)建BiLSTM-CRF 模型對菊花古典詩詞中的菊花花名、花色等實體進行識別,并同CRF 等基線模型作對比,實驗結(jié)果表明,該文獻提出的方法能夠取得較好的效果。史書中的歷史事件名是歷史文本知識庫的重要組成部分,唐慧慧等[11]提出以字作為最小語義單元,利用CRF 模型對魏晉南北朝史書文中的歷史事件名實體進行識別,并取得良好效果。在人民日報語料庫中,殷章志等[12]利用基于BiLSTM-CRF 的序列標(biāo)注模型抽取文本序列的中間特征,并將其輸入支持向量機中進行實體識別,并取得一定的效果。石春丹等[13]提出利用雙向門控循環(huán)網(wǎng)絡(luò)與CRF 結(jié)合的模型對文本中人名、地名和機構(gòu)名等實體進行識別,該模型能夠有效學(xué)習(xí)序列的時序信息,并能捕捉長距離依賴。

      從上述研究可以看出,目前面向地方志等人文資源的命名實體識別研究多基于文本,并利用基于BiLSTM-CRF 架構(gòu)的深度學(xué)習(xí)模型進行實體識別。與之不同的是,本文在BAC 模型中引入了自注意力機制,其能夠有效增強文本的特征表示,減少序列信息中的噪聲,并獲得實體識別性能上的提升。除此之外,人文資源的數(shù)字化帶來的并不止是單一的文本,同時有著大量可獲取的對應(yīng)圖片資源。已有研究表明,圖片的加入能在一定程度上增強和補充對應(yīng)的文本語義信息[14]?;诖?,本文提出結(jié)合地方志中的文本和圖片,進行命名實體識別研究。

      2.2 多模態(tài)命名實體識別研究

      用戶在網(wǎng)絡(luò)中產(chǎn)生內(nèi)容的多模態(tài)化,為多模態(tài)自然語言處理任務(wù)提供了豐富資源。多模態(tài)命名實體識別作為其中的一項任務(wù),已受到學(xué)界和工業(yè)界的廣泛關(guān)注。在以文本為主要處理對象的命名實體任務(wù)中,當(dāng)實體存在多義性或?qū)嶓w邊界難以區(qū)分時,僅依靠上下文對實體類別做出準(zhǔn)確判斷存在一定困難。但是當(dāng)文本有著與之對應(yīng)的圖片時,通過觀察圖片內(nèi)容出現(xiàn)的實體,則能對歧義實體做出準(zhǔn)確預(yù)測。

      在多模態(tài)命名實體識別中,文本和圖片存在語義相關(guān)關(guān)系。在圖片內(nèi)容中,與文本中提及實體存在相關(guān)關(guān)系的僅局限于圖片的部分區(qū)域。因此,Zhang 等[8]提出基于自適應(yīng)聯(lián)合注意力機制(adap‐tive co-attention)的多模態(tài)命名實體模型,利用詞引導(dǎo)和圖引導(dǎo)的注意力機制充分學(xué)習(xí)文本和圖片的語義相關(guān)關(guān)系及模態(tài)交互,應(yīng)用門機制進行多模態(tài)特征融合和噪聲過濾,之后將多模態(tài)特征與經(jīng)過BiLSTM 編碼后的文本特征再次拼接,獲得最終多模態(tài)融合特征,并將其輸入CRF 層中進行解碼,F(xiàn)1值達到70.69%。同樣地,為了充分學(xué)習(xí)圖片中與文本實體相對應(yīng)的語義特征,Yu 等[14]提出基于Trans‐former 架構(gòu)的多模態(tài)命名實體模型,該模型主要由單模態(tài)特征表示、多模態(tài)Transformer 及輔助實體邊界檢測組成,通過這些構(gòu)件,模型能夠較好地學(xué)習(xí)文本和圖片上下文敏感特征,并能夠關(guān)注到聚合多模態(tài)信息時未被充分關(guān)注的實體。為充分理解圖片中的視覺內(nèi)容,Lu 等[15]提出基于視覺注意力機制的多模態(tài)命名實體模型,該模型能夠自動忽略與文本內(nèi)容無關(guān)的視覺信息并重點關(guān)注與文本內(nèi)容最相關(guān)的視覺信息,其在多個數(shù)據(jù)集中取得較好結(jié)果。

      上述研究主要通過挖掘圖片與文本之間的相關(guān)語義關(guān)系及不同模態(tài)間的交互,并結(jié)合注意力機制,在公開英文數(shù)據(jù)集中取得一定性能。然而,在中文領(lǐng)域中,多模態(tài)命名實體識別任務(wù)尚未有研究涉及,并且缺乏相關(guān)的中文多模態(tài)命名實體識別語料。因此,本文探索將公開的英文多模態(tài)命名實體識別語料庫制作成可學(xué)習(xí)的平行中文多模態(tài)命名識別語料庫,并將詞作為句子的劃分粒度,利用深度遷移學(xué)習(xí)的方法對地方志多模態(tài)數(shù)據(jù)集進行實體識別研究。

      2.3 深度遷移學(xué)習(xí)研究

      深度遷移學(xué)習(xí)常用的方法包括基于實例的深度遷移學(xué)習(xí)(instance-based deep transfer learning)、基于映射的深度遷移學(xué)習(xí)(mapping-based deep transfer learning)、基于神經(jīng)網(wǎng)絡(luò)的深度遷移學(xué)習(xí)(networkbased deep transfer learning)以及基于對抗的深度遷移學(xué)習(xí) (adversarial-based deep transfer learning)[16]。其基本思想是利用在源域(source domain)訓(xùn)練的深度神經(jīng)網(wǎng)絡(luò)中的知識解決目標(biāo)域(target domain)中的問題。

      目前,已有相關(guān)文獻利用深度遷移學(xué)習(xí)方法進行命名實體識別研究。武惠等[17]提出利用基于實例的深度遷移方法學(xué)習(xí)樣本特征,構(gòu)建BiLSTM-CRF模型對人民日報語料庫中的實體進行識別,并取得一定效果。王瑞銀等[7]在源域中訓(xùn)練語言模型預(yù)測模型,將源域模型知識遷移至目標(biāo)域模型中,從而對實體進行識別,其在法律文書數(shù)據(jù)集中性能良好。為了緩解可利用標(biāo)注語料的不足,Lee 等[6]提出在大型源數(shù)據(jù)集中訓(xùn)練BiLSTM-CRF 實體識別模型,結(jié)合微調(diào)的方法對目標(biāo)域的實體進行識別,并取得了一定的效果。

      為了有效獲取文本的語義知識和文本結(jié)合圖片的多模態(tài)知識,本文應(yīng)用基于神經(jīng)網(wǎng)絡(luò)的深度遷移學(xué)習(xí)思想,提出在兩個源域數(shù)據(jù)集中訓(xùn)練與目標(biāo)模型對應(yīng)部分有著相似結(jié)構(gòu)的深度學(xué)習(xí)模型,然后將預(yù)訓(xùn)練模型中的權(quán)重遷移至目標(biāo)模型的對應(yīng)結(jié)構(gòu)中,最后結(jié)合微調(diào)的方法對地方志多模態(tài)數(shù)據(jù)進行實體識別。

      3 模型設(shè)計

      為了提升地方志中模型識別實體的性能并探索解決目標(biāo)領(lǐng)域標(biāo)注語料匱乏問題,本文提出基于深度遷移學(xué)習(xí)的多模態(tài)命名實體模型MNERM,結(jié)構(gòu)具體如圖2 所示,其分別由BAM 模塊、ACAM 模塊、過濾門及CRF 層組成。本文首先分別在人民日報語料庫和中文推特多模態(tài)數(shù)據(jù)集這兩個源域預(yù)訓(xùn)練BAC 模型和ACAC 模型。然后,利用基于神經(jīng)網(wǎng)絡(luò)的深度遷移學(xué)習(xí)方法,將BAC 模型和ACAC 模型中的對應(yīng)權(quán)重分別遷移至BAM 模塊和ACAM 模塊中,使得MNERM 具備抽取文本和圖片的多模態(tài)特征能力。接著,將文本特征和經(jīng)過過濾門過濾的多模態(tài)特征進行中間層融合,輸入CRF 層中進行解碼生成標(biāo)簽,并進行微調(diào)。下文將詳述MNERM 模型及建模方法。

      圖2 基于深度遷移學(xué)習(xí)的多模態(tài)命名實體識別模型

      3.1 特征提取

      1)文本特征提取

      文本的特征表示對下游任務(wù)的表現(xiàn)有著重要影響。本文利用在百度百科大規(guī)模語料中預(yù)訓(xùn)練的中文詞向量模型[18],對文本進行特征表示。MNERM模型以Skip-Gram 模型為基礎(chǔ),并結(jié)合負(fù)采樣技術(shù)進行優(yōu)化,其在中文類比推理任務(wù)中取得最優(yōu)結(jié)果。本文利用MNERM 模型分別對人民日報語料庫、中文推特多模態(tài)語料及地方志多模態(tài)語料庫中的句子進行文本表示。

      2)圖片特征提取

      以卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural network,CNN)[19]為基礎(chǔ)構(gòu)建的模型,如VGG16、VGG19等[20],在多個計算機視覺任務(wù)中均獲得了最優(yōu)結(jié)果。這一方面得益于CNN 強大的特征學(xué)習(xí)建模能力,另一方面則受益于大規(guī)模的圖片訓(xùn)練集,如Ima‐geNet[21]。目前常用的圖片提取方法是利用ImageNet數(shù)據(jù)集中預(yù)訓(xùn)練的CNN 模型,提取最后一層全連接層的輸出作為圖片的特征表示。但為了獲取圖片的空間特征表示,本文遵循文獻[8]中的方法,以預(yù)訓(xùn)練于ImageNet 數(shù)據(jù)集的VGG19 模型中的最后一層池化層的輸出作為圖片的特征表示。本文利用MNERM 模型分別提取中文推特多模態(tài)語料及地方志多模態(tài)語料中的圖片特征。

      3.2 BiLSTM-attention-CRF模型

      文本的語義信息是識別實體類別的核心,已有研究表明,將人民日報語料庫(1988)作為遷移學(xué)習(xí)的學(xué)習(xí)語料,并利用基于深度遷移學(xué)習(xí)的方法對其他語料庫中的相同實體進行識別,有著良好的效果[17]。為了使MNERM 模型中的BAM 模塊擁有先驗知識,本文設(shè)計了用于權(quán)重遷移的BAC 模型。目前常用的命名實體模型多基于BiLSTM-CRF 架構(gòu)[7-8],與之不同的是,本文引入了自注意力機制(self-attention),而利用自注意力機制能夠有效增強文本的語義表示。BAC 模型主要由BiLSTM 網(wǎng)絡(luò)、自注意力層及CRF 層。BAM 模塊由BAC 模型中的BiLSTM 網(wǎng)絡(luò)和自注意力層組成。BiLSTM 作為循環(huán)神經(jīng)網(wǎng)絡(luò)(recurrent neural network,RNN)的變體,能夠較好地學(xué)習(xí)句子中的上下文關(guān)系,具有捕捉長距離依賴的能力,并能夠克服因序列長度過長所帶來的梯度消失和梯度爆炸的問題。給定人民日報語料庫中的句子S={s1,s2,…,si,…,sn},進行特征表示后 的 句 子 為其 中 ,n表示句子長度,dw表示向量維度,大小為300。BiLSTM 獲得的隱藏層狀態(tài)hi∈Rd由前向的LSTM輸出和反向的LSTM 輸出拼接而成,d表示隱藏層單元數(shù),具體公式為

      注意力機制起源于人類視覺,當(dāng)人觀察物體或閱讀書本時,會對其中的某一區(qū)域投入大量注意力,獲取富含價值的信息,并抑制對其他區(qū)域的注意力投入。目前已有工作利用注意力機制進行自然語言處理任務(wù),如機器翻譯、情感分析等;而有關(guān)利用自注意力機制進行命名實體識別任務(wù)的研究相對較少。通過利用注意力機制,能夠確定在決定詞的標(biāo)簽時,有多少詞的信息被利用,從而提升模型性能。自注意力機制關(guān)注句子內(nèi)部的特征相關(guān)性,并能夠減少對外部特征的依賴。在自注意力機制中,句子中的每個語義單元同其他語義單元進行注意力權(quán)重計算,可以有效捕捉詞間的相互關(guān)系,獲取句子結(jié)構(gòu)信息,增強特征表示。自注意力機制本質(zhì)上是輸入Query(Q) 到一系列鍵值對(Key(K),Value(V))的映射函數(shù),對BiLSTM 生成的句子表示H={hi|hi∈ Rd,i= 1,2,…,n},應(yīng)用自注意力機制獲得的編碼表示為E={ei|ei∈Rd,i= 1,2,…,n},具體公式為

      其中,Q、K、V為隱藏層狀態(tài)hi的特征;Softmax 為歸一化函數(shù)。將編碼后的文本表示輸入CRF 層進行解碼,獲得文本中詞對應(yīng)的預(yù)測標(biāo)簽Y={y1,y2,…,yi,…,yn},

      其中,W、b表示全權(quán)重矩陣。本文利用經(jīng)典的最大條件似然估計對CRF 層進行訓(xùn)練,具體公式為

      3.3 自適應(yīng)聯(lián)合注意力機制模型

      鑒于當(dāng)前尚未有中文多模態(tài)命名實體識別公開數(shù)據(jù)集,僅有英文推特多模態(tài)命名實體識別公開數(shù)據(jù)集,目前已有研究涉及利用英譯漢平行語料來進行深度遷移學(xué)習(xí),并在公開數(shù)據(jù)集中取得了較好的性能[22]。因此,本文制作了推特多模態(tài)數(shù)據(jù)集的中文平行語料作為ACAC 模型的訓(xùn)練語料,將ACAC模型中自適應(yīng)聯(lián)合注意力網(wǎng)絡(luò)的權(quán)重灌入ACAM 模塊中,其主要由自適應(yīng)聯(lián)合注意力機制網(wǎng)絡(luò)和CRF層組成。不同于自適應(yīng)聯(lián)合注意力機制結(jié)構(gòu)[8],在ACAC 模型中,本文將VGG-16 圖片特征提取模型替換成性能更佳的VGG-19[23],其余部分保持一致。

      自適應(yīng)聯(lián)合注意力機制由詞引導(dǎo)的注意力機制(word-guided attention,WGA)、圖引導(dǎo)的注意力機制(image-guided attention,IGA)和門機制組成。由圖1 可以看出,圖片中僅包含長江大橋的區(qū)域與文本中的“長江大橋”有關(guān),如果考慮圖片中的全部區(qū)域,那么會帶來噪聲和信息冗余。詞引導(dǎo)的注意力機制核心思想是給序列中的一個詞,利用Softmax函數(shù)計算圖片中的各個區(qū)域同該詞的相關(guān)程度,過濾掉與其不相關(guān)的區(qū)域和信息,減少計算復(fù)雜度,以達到最優(yōu)結(jié)果。應(yīng)用詞引導(dǎo)的注意力機制,則能讓模型過濾掉噪音并找出與當(dāng)前詞最為相關(guān)的圖片區(qū)域。給定文本序列X={x1,x2,…,xt,…,xn},利用BiLSTM 編碼后的輸出表示為M={mt|mt∈Rd,t=1,2,…,n},利用VGG19 模型提取與文本相對應(yīng)的圖片特征為T={ti|ti∈ R512,i= 1,2,…,49},其中特征圖的數(shù)量為49,512 表示特征圖的維度。應(yīng)用詞引導(dǎo)的注意力機制得到與詞mt相關(guān)的圖片特征向量

      其中,θw為詞引導(dǎo)的注意力機制中的參數(shù)。利用WGA 能夠獲得與詞mt相關(guān)的圖片特征向量但是并不知道序列中的哪個詞與mt相關(guān)。因此,需要利用圖引導(dǎo)的注意力機制去尋找與圖片特征的最相關(guān)的詞。圖引導(dǎo)的注意力機制的核心思想是在給定新的圖片特征向量下,計算序列中的詞同圖片特征向量的相關(guān)程度,從而提升序列的特征表達能力。因此,利用IGA 可以計算出與圖片特征表示相關(guān)的詞

      其中,θi為圖引導(dǎo)的注意力機制中的參數(shù)。門機制主要由融合門和過濾門組成。為獲得文本和圖片的多模態(tài)特征表示,利用門機制中的融合門對新獲得的依賴于IGA 的詞特征和依賴于WGA 的圖片特征向量進行拼接,獲得多模態(tài)融合后的中間特征表示。盡管利用WGA 和IGA 能夠生成富含多模態(tài)語義特征的中間表示,但是依然存在噪聲。例如,當(dāng)預(yù)測文本中實體所包含的副詞或形容詞標(biāo)簽時,與之對應(yīng)的圖片特征并不能提供語義表示的增強,反而會引入噪聲。因此,應(yīng)用門機制中的過濾門,采用Sigmoid 函數(shù)對融合后的多模態(tài)中間表示特征進行噪聲過濾,獲得高質(zhì)量多模態(tài)中間特征表示gt。盡管融合后的多模態(tài)中間特征能夠在一定程度上完成對文本和圖片語義的聯(lián)合表達,但是命名實體識別的核心語義依舊在于文本。因此,通過將BiLSTM 編碼后序列特征與多模態(tài)中間表示特征相拼接,獲得最終多模態(tài)表示特征ut,具體過程為

      其中,gt,ut∈Rd;θg為門機制中的全部參數(shù)。將編碼的多模態(tài)特征ut表示輸入CRF 層中進行標(biāo)簽解碼,并利用最大似然估計對CRF 層進行訓(xùn)練,獲得解碼標(biāo)簽。

      3.4 深度遷移學(xué)習(xí)

      為了緩解當(dāng)前可利用標(biāo)注語料匱乏的現(xiàn)狀,本文提出利用深度遷移學(xué)習(xí)方法探索解決這一問題,并設(shè)計了基于深度遷移學(xué)習(xí)的MNERM 模型。利用預(yù)訓(xùn)練完成的BAC 模型和ACAC 模型,將相應(yīng)的權(quán)重分別遷移至BAM 模塊和ACAM 模塊中,使得MNERM 模型具備對目標(biāo)域(地方志多模態(tài)數(shù)據(jù)集)抽取文本和多模態(tài)特征的能力。

      給定用于進行實體識別的地方志文本圖片對(C,P),C經(jīng)過加載權(quán)重后的BAM 模塊得到的編碼輸 出 為C'={ci|ci∈ Rd,i= 1,2,…,n},(C,P) 經(jīng) 過 加載權(quán)重后的ACAM 模塊得到的多模態(tài)特征表示K={ki|ki∈Rd,i= 1,2,…,n}。盡管利用遷移學(xué)習(xí)后的多模態(tài)特征能夠在一定程度上增強文本語義信息,但是其仍包含一定的噪聲,并且模型學(xué)習(xí)的語料并不是原始中文語料,而是英譯漢平行語料,經(jīng)過翻譯后會部分丟失原意,引入噪聲。因此,本文提出應(yīng)用過濾門對提取的多模態(tài)特征進行噪聲過濾,得到過濾后的多模態(tài)特征V={vi|vi∈Rd,i= 1,2,…,n},之后將文本語義特征表示C'與多模態(tài)特征表示V進行融合輸入至一層全連接層中進行非線性激活,獲得最終的多模態(tài)特征表示Z={zi|zi∈R2d,i=1,2,…,n},具體過程為

      其中,Wk和Wz為權(quán)重矩陣;bk和bz為偏置項;tanh 為非線性激活函數(shù)。本文將多模態(tài)特征Z輸入CRF 層中,微調(diào)后獲得最終的預(yù)測標(biāo)簽。

      4 實證研究

      4.1 實驗數(shù)據(jù)集

      1)人民日報語料庫

      本文使用的是1998 年1 月的人民日報語料庫,該語料庫由北京大學(xué)計算語言學(xué)研究所和富士通公司聯(lián)合制作并發(fā)布,被廣泛應(yīng)用在命名實體識別研究中。語料庫中包含人名、地名及機構(gòu)名實體,本文以行對語料進行切分,共獲得19484 條句子,將語料庫的80%作為訓(xùn)練集,剩余的20%作為測試集。

      2)中文推特多模態(tài)數(shù)據(jù)集

      本文使用的是Zhang 等[8]用于多模態(tài)命名實體任務(wù)的英文推特數(shù)據(jù)集。該數(shù)據(jù)集共包含8257 個句子和圖片對,標(biāo)注實體類別為人名、地名、機構(gòu)名及其他實體,利用BIO(begin,inside,outside)規(guī)則[24]進行實體標(biāo)注。該數(shù)據(jù)集經(jīng)雙人標(biāo)注完成,包含的實體數(shù)量為12784,訓(xùn)練集句子數(shù)量為4000,驗證集數(shù)量為1000,測試集數(shù)量為3257。為了制作平行語料,本文首先利用科大訊飛翻譯API(appli‐cation programming interface) 對數(shù)據(jù)集進行翻譯,并召集5 位研究生對平行語料進行檢查,使其通順并保持原意;然后利用jieba 包對語料進行分詞,并使用相同標(biāo)注規(guī)則對照原英文語料進行實體標(biāo)注;最后得到中文推特多模態(tài)數(shù)據(jù)集。在英文推特中,語料中常包含縮寫詞及非中文對應(yīng)實體詞,同時考慮到遷移應(yīng)用的語料,本文在中文平行數(shù)據(jù)集中去除了其他實體類別。該平行數(shù)據(jù)集中的訓(xùn)練集、驗證集及測試集數(shù)量均與原數(shù)據(jù)集保持一致,在實體對照的標(biāo)注過程中,當(dāng)中文出現(xiàn)了英文中未標(biāo)注的實體,本文則加以補充,最后得到的實體數(shù)量為10636。

      3)地方志多模態(tài)數(shù)據(jù)集

      利用本課題組編寫的爬蟲對《南京簡志》①江蘇古籍出版社,1986年出版?!赌暇┤宋镏尽发趯W(xué)林出版社,2001年出版?!赌暇﹫@林志》③方志出版社,1997年出版?!赌暇┏菈χ尽发茗P凰出版社,2008年出版。、百度中的南京地方志等資源進行爬取,獲取志書中的圖片及相應(yīng)文本描述,文本均為現(xiàn)代文。搜集到的文本及圖片對數(shù)量為2885,經(jīng)過過濾及去重,共獲得1659 個文本圖片對。之后對數(shù)據(jù)進行實體標(biāo)注,標(biāo)注由組內(nèi)的兩位研究生完成,標(biāo)注規(guī)則為BIO[24],標(biāo)注實體類別分別為人名、地名及機構(gòu)名,實體總量為2908。標(biāo)注后的地方志多模態(tài)數(shù)據(jù)集作為檢驗本文提出的MNERM 模型的性能測試語料。本文同時標(biāo)注了500 個用于微調(diào)的文本圖片對。

      4.2 實驗設(shè)置

      本文所用編程語言為Python 3.6,使用的深度學(xué)習(xí)框架為tensorflow2.3.0,本文的實驗均在兩塊GPU型號為NVIDIA GeForce RTX 2080ti、內(nèi)存為16G 的服務(wù)器中完成。

      4.3 基線模型

      基于深度遷移學(xué)習(xí)的MNERM 模型主要由BAM模塊、ACAM 模塊、過濾門及CRF 層構(gòu)成,組成模塊的性能影響著整體模型的表現(xiàn)。因此,本文按照使用的數(shù)據(jù)集,分別是人民日報語料庫和中文推特數(shù)據(jù)集,將組成模塊對應(yīng)的模型(BAC 和ACAC)與不同的基線模型進行對比,以驗證其性能。最后,本文將MNERM 模型在地方志多模態(tài)數(shù)據(jù)集進行性能驗證,并與基線模型作對比。

      1)人民日報語料庫

      本文選擇了幾種具有優(yōu)異性能的文本實體識別模型,將其與BAC 模型作對比,具體如下。

      BiLSTM-Att[25]:該模型使用的注意力機制同BAC 模型相同,解碼層使用Softmax 函數(shù)作為標(biāo)簽解碼層。

      BiLSTM-CRF[26]:該模型結(jié)合了BiLSTM 模型和CRF 模型,具有良好的實體識別效果,并被廣泛應(yīng)用在命名實體識別任務(wù)中。

      BiLSTM[27]:相較于BiLSTM-CRF 模型,該模型利用Softmax 函數(shù)作為序列解碼層,具有一定的實體識別性能。

      CRF[28]:該模型為命名實體識別任務(wù)中的經(jīng)典模型,能夠較好地考慮到序列特征并避免標(biāo)簽偏置問題。

      1.1 研究對象 本研究以上海市某地區(qū)失去獨生子女的父母作為研究對象。納入標(biāo)準(zhǔn):(1)沒有領(lǐng)養(yǎng)意愿及行為,已經(jīng)喪失再生育能力的夫婦;(2)年齡≥50 歲;(3)失去獨生子女 1年以上;(4)能獨立完成問卷調(diào)查。排除認(rèn)知障礙及患有重大精神疾病者。

      2)中文推特多模態(tài)數(shù)據(jù)集

      ACAM 模塊主要由WGA、IGA 和門機制組成,為驗證組成部分的優(yōu)越性,本文對基于ACAM 的ACAC 模型進行了消融實驗,分別去除了WGA、IGA 和門機制,形成Without-WGA、Without-IGA 和Without-Gate 等模型。同時,為了驗證多模態(tài)融合的性能,本文將其與僅基于文本的BiLSTM-CRF 作對比,具體如下。

      Without-WGA:該模型去除了詞引導(dǎo)的注意力機制,僅保留了圖引導(dǎo)的注意力機制。

      Without-IGA:該模型去除了圖引導(dǎo)的注意力機制,僅保留了詞引導(dǎo)的注意力機制。

      Without-Gate:該模型在自適應(yīng)聯(lián)合注意力網(wǎng)絡(luò)中去除了門機制。

      BiLSTM-CRF[27]:該模型對文本序列進行命名實體識別,參數(shù)與ACAC 保持一致。

      3)地方志多模態(tài)測試數(shù)據(jù)集

      為了驗證MNERM 模型的性能,本文將僅在人民日報語料庫和中文推特數(shù)據(jù)集中進行預(yù)訓(xùn)練的BAC 和ACAC 作為對比模型,微調(diào)方式均保持一致。同時,為了驗證過濾門的性能,本文設(shè)計了去除過濾門的模型Without-FGate 作為對比。本文還將哈爾濱工業(yè)大學(xué)提供的Language Technology Plat‐form(LTP)[29]中的命名實體工具作為對比模型。

      4.4 實驗結(jié)果及分析

      1)人民日報語料庫

      表1 呈現(xiàn)的是BAC 模型與其他模型的對比結(jié)果。從表1 可以看出,本文提出的模型在各個指標(biāo)中均表現(xiàn)最優(yōu)。在同BiLSTM-CRF 的比較中可以發(fā)現(xiàn),當(dāng)模型的解碼層均保持相同時,引入自注意力機制能夠使模型更為關(guān)注那些能夠決定序列標(biāo)簽的信息,生成富含語義特征的序列特征,從而提升模型識別實體的性能,這也是BAC 模型具有一定優(yōu)勢的原因。在同BiLSTM-Att 的對比中,當(dāng)模型的編碼層保持一致時,利用Softmax 層作為識別實體的解碼層,盡管能夠取得一定的性能,但依舊劣于BAC 模型。相較于Softmax 層,CRF 能夠?qū)﹄[藏層的各個時間步進行有效建模,學(xué)習(xí)并觀察序列中的標(biāo)簽特點,從而提升模型的解碼性能。這樣的優(yōu)勢同樣體現(xiàn)在BiLSTM 和BiLSTM-CRF 的對比中。當(dāng)忽略文本的上下文關(guān)系,僅用詞向量對文本進行表示時,將其輸入CRF 層進行解碼,從結(jié)果可以發(fā)現(xiàn),CRF 模型均劣于使用BiLSTM 或結(jié)合自注意力機制的模型作為上下文建模的模型,這充分說明了文本上下文在命名實體識別任務(wù)中的重要作用,同時也表明利用BiLSTM 等時間序列模型能夠較好地學(xué)習(xí)文本上下文關(guān)系,并能生成富含上下文關(guān)系及語義信息的序列特征。

      表1 模型在人民日報語料庫中的測試結(jié)果

      通過比較分析發(fā)現(xiàn),本文引入的BAC 模型具有較好的實體識別性能,而模型包含的BiLSTM 和自注意力網(wǎng)絡(luò)在其中發(fā)揮了充分抽取語義特征的重要作用,這也是本文將BiLSTM 和自注意力網(wǎng)絡(luò)(BAM 模塊)作為MNERM 模型組成部分的原因。

      2)中文推特數(shù)據(jù)集

      自適應(yīng)聯(lián)合注意力機制由圖引導(dǎo)的注意力機制、詞引導(dǎo)的注意力機制及門機制組成。每個組成部分均能對ACAC 模型性能產(chǎn)生影響,為了探究不同組成成分的作用及整體組合的性能,本文對此進行了探究。

      表2 呈現(xiàn)的是各對比模型在中文推特多模態(tài)數(shù)據(jù)集中的結(jié)果,可以看出,ACAC 模型在F1 這一指標(biāo)上表現(xiàn)最優(yōu)。當(dāng)去除圖引導(dǎo)的注意力機制后,Without-IGA 模型在精確率(P) 這一指標(biāo)上優(yōu)于ACAC 模型,但是在召回率(R)和F1 指標(biāo)上均劣于ACAC。盡管ACAC 模型在預(yù)測序列正標(biāo)簽樣本中并沒有表現(xiàn)出最優(yōu)性能,但是在序列中的各實體類別真實標(biāo)簽樣本識別中效果最佳,并在召回率這一指標(biāo)上超出With-IGA 模型近7%。當(dāng)去除詞引導(dǎo)的注意力機制后,僅利用圖引導(dǎo)的注意力機制并不能較好地學(xué)習(xí)到文本和圖片之間的模態(tài)交互和關(guān)聯(lián)關(guān)系,這也是Without-WGA 劣于ACAC 的原因。在同Without-FGate 模型的對比中,可以發(fā)現(xiàn)門機制在模型中的重要作用,引入門機制能夠較好地聚合多模態(tài)融合特征,同時有效過濾來自模態(tài)融合中的噪聲。當(dāng)不考慮文本對應(yīng)的圖片時,通過對比BiLSTMCRF,可以發(fā)現(xiàn)圖片信息在增強文本語義特征中的作用,這也是ACAC 模型表現(xiàn)良好的原因。因此,本文將去除了CRF 層的ACAC 模型作為MNERM 模型中的ACAM 模塊,用于提取地方志數(shù)據(jù)中的多模態(tài)特征。

      表2 模型在中文推特數(shù)據(jù)集的測試結(jié)果

      3)地方志多模態(tài)數(shù)據(jù)集

      表3 呈現(xiàn)的是經(jīng)過微調(diào)后的不同對比模型對地方志多模態(tài)數(shù)據(jù)集進行實體識別的結(jié)果,各模型所用的微調(diào)數(shù)據(jù)均一致。利用通用模型LTP 對地方志語料進行實體識別并沒有取得較好的效果。與BAC模型比較可以發(fā)現(xiàn),當(dāng)MNERM 模型聯(lián)合多模態(tài)語料庫知識后,模型性能有了較大提升。這表明在多模態(tài)語料庫中預(yù)訓(xùn)練實體識別模型后,利用基于神經(jīng)網(wǎng)絡(luò)的深度遷移學(xué)習(xí)方法,將權(quán)重灌入MNERM模型對應(yīng)模塊中,能夠使得MNERM 具備捕捉不同模態(tài)間的語義相關(guān)關(guān)系及動態(tài)交互的能力,從而獲得更優(yōu)的性能。在與ACAC 的比較中可以發(fā)現(xiàn),盡管利用在中文推特多模態(tài)語料庫中的預(yù)訓(xùn)練模型ACAC 能夠取得一定優(yōu)勢,但是劣于含有人民日報語料庫知識的BAC 模型以及MNERM 模型。一方面是因為在制作平行語料的過程中,會伴隨著部分英文原意信息的丟失;另一方面是因為源域英文推特數(shù)據(jù)集大多由推特平臺上用戶的發(fā)帖組成,內(nèi)容大多關(guān)于用戶生活的分享,而目標(biāo)域則是地方志多模態(tài)內(nèi)容,目標(biāo)域與源域之間存在著部分不相關(guān)的知識。當(dāng)本文引入過濾門后可以看出,采用過濾門的MNERM 模型在精確率和F1 指標(biāo)上均優(yōu)于Without-FGate 模型。盡管應(yīng)用過濾門機制使得召回率輕微下降,但是F1 值提升了1.042%。這表明,應(yīng)用過濾門能夠?qū)ι疃冗w移學(xué)習(xí)得到的多模態(tài)融合特征噪聲進行有效過濾,同時能夠彌補因源域和目標(biāo)域之間存在不匹配知識所造成的性能損失。

      表3 地方志多模態(tài)數(shù)據(jù)集深度遷移學(xué)習(xí)結(jié)果

      4)深度遷移學(xué)習(xí)有效性分析

      為了探究深度遷移學(xué)習(xí)在地方志多模態(tài)命名實體任務(wù)中的有效性以及模型對目標(biāo)領(lǐng)域的適配性,本文通過調(diào)節(jié)預(yù)訓(xùn)練模型中訓(xùn)練集大小進行驗證[6]。圖3 展示的是當(dāng)人民日報語料庫訓(xùn)練集大小成比例增加時,BAC 模型在人民語料庫中的測試性能及在地方志多模態(tài)數(shù)據(jù)集中的文本進行深度遷移學(xué)習(xí)的結(jié)果。從圖3 可以看出,隨著預(yù)訓(xùn)練模型中訓(xùn)練集數(shù)量的增加,經(jīng)過微調(diào)后的權(quán)重遷移模型對地方志文本進行實體識別的性能呈上升趨勢。該趨勢同樣呈現(xiàn)在ACAC 模型對地方志多模態(tài)數(shù)據(jù)的實體識別中。

      從圖4 可以看出,當(dāng)人民日報語料庫及中文推特多模態(tài)數(shù)據(jù)集中的訓(xùn)練集同步成比例上升時,應(yīng)用深度遷移學(xué)習(xí)的MNERM 模型在對地方志多模態(tài)數(shù)據(jù)集中的實體進行預(yù)測時,性能總體呈上升趨勢。綜合圖3、圖4 中的結(jié)果可以發(fā)現(xiàn),預(yù)訓(xùn)練模型中訓(xùn)練集的大小影響著后續(xù)應(yīng)用深度遷移學(xué)習(xí)的效果,這表明本文提出的深度遷移方法具有一定的有效性,并且顯示出本文提出的MNERM 模型對目標(biāo)領(lǐng)域具有較強的適配性。

      圖3 訓(xùn)練集比例對BAC模型和ACAC模型性能及應(yīng)用深度遷移學(xué)習(xí)的影響

      圖4 預(yù)訓(xùn)練模型中的訓(xùn)練集比例對MNERM模型性能的影響

      4.5 誤差分析

      表4 呈現(xiàn)的是利用不同模型對地方志多模態(tài)數(shù)據(jù)集中的部分?jǐn)?shù)據(jù)進行預(yù)測的結(jié)果。在例1 中,MNERM 模型和ACAC 模型均對地名實體做出了準(zhǔn)確的預(yù)測,而BAC 模型則做出了錯誤判斷。例1 圖片中的大樓為文本的地名實體提供了語義增強作用,通過多模態(tài)融合則可以產(chǎn)生更富含語義的表示,從而提升實體識別的性能。在多模態(tài)命名實體中,文本的語義信息依舊是實體識別的核心信息。在例2 中,盡管利用ACAC 模型未能對人名實體進行有效識別,但僅依靠文本語義信息,BAC 模型做出了準(zhǔn)確判斷,而作為ACAC 模型和BAC 模型兩者的結(jié)合,依靠捕捉文本語義信息的BAM 模塊,MNERM 模型同樣預(yù)測成功。在例3 中,MNERM模型和BAC 模型均對人名和組織實體做出了準(zhǔn)確判斷,而ACAC 模型僅識別出了人名實體,未能識別出組織實體。例3 圖片中的人像為人名實體的識別提供了語義增強作用,但是在組織實體識別中,與文本相對應(yīng)的圖片未提供相應(yīng)的補充特征,ACAC模型未能對組織實體進行識別。盡管MNERM 模型在利用深度遷移學(xué)習(xí)的多模態(tài)命名實體識別任務(wù)中能夠取得一定效果,但其未能夠有效利用文本中的字級特征,而聯(lián)合字級的特征則可以增強文本的表示能力,能夠進一步改善多模態(tài)特征融合后的語義表示特征,從而提升遷移學(xué)習(xí)后實體識別的性能。

      表4 不同模型對地方志多模態(tài)數(shù)據(jù)進行實體識別的結(jié)果

      5 總結(jié)與展望

      當(dāng)前,面向地方志等文化資源的命名實體識別研究主要基于文本,忽略了文本對應(yīng)的圖片信息,同時還面臨著在領(lǐng)域內(nèi)訓(xùn)練實體識別模型缺乏已標(biāo)注數(shù)據(jù)集的困境。為了解決該問題,本文從多模態(tài)視角出發(fā),結(jié)合地方志對應(yīng)的圖片信息,并提出基于深度遷移學(xué)習(xí)的MNERM 模型。該模型由四個部分組成,分別是BAM 模塊、ACAM 模塊、過濾門及CRF 層。為了驗證模型組成部分的有效性,本文將包含對應(yīng)模塊的模型(BAC 和ACAC)與不同基線模型進行對比,實驗結(jié)果表明,模型各組成部分均包含一定的優(yōu)勢。利用經(jīng)過權(quán)重遷移后的BAM模塊和ACAM 模塊,MNERM 模型能夠有效獲取文本語義特征及多模態(tài)特征,應(yīng)用過濾門對ACAM 模塊輸出的多模態(tài)特征進行去噪,最后將BAM 模塊輸出的文本語義特征及過濾后的多模態(tài)特征進行融合,輸入至CRF 層進行解碼。實驗結(jié)果表明,本文提出的模型在同基線模型的比對中具有一定優(yōu)勢。同時,為了驗證深度遷移學(xué)習(xí)的有效性和對目標(biāo)領(lǐng)域的適配性,本文將預(yù)訓(xùn)練模型中的訓(xùn)練集比例作為參數(shù)進行調(diào)節(jié),發(fā)現(xiàn)當(dāng)源域訓(xùn)練集越大,經(jīng)過深度遷移學(xué)習(xí)后的模型表現(xiàn)越佳。

      本文提出的模型和方法不僅適用于地方志多模態(tài)命名實體識別,也適用于數(shù)字人文領(lǐng)域中標(biāo)注數(shù)據(jù)集匱乏的文化資源,如非遺等。在未來的研究中,本課題組將進一步提升模型的領(lǐng)域泛化能力,提升模型利用深度遷移學(xué)習(xí)進行多模態(tài)實體識別的性能以及中文多模態(tài)命名實體識別數(shù)據(jù)集的構(gòu)建。

      猜你喜歡
      語料語料庫注意力
      讓注意力“飛”回來
      《語料庫翻譯文體學(xué)》評介
      “揚眼”APP:讓注意力“變現(xiàn)”
      傳媒評論(2017年3期)2017-06-13 09:18:10
      把課文的優(yōu)美表達存進語料庫
      基于語料調(diào)查的“連……都(也)……”出現(xiàn)的語義背景分析
      A Beautiful Way Of Looking At Things
      華語電影作為真實語料在翻譯教學(xué)中的應(yīng)用
      基于JAVAEE的維吾爾中介語語料庫開發(fā)與實現(xiàn)
      語言與翻譯(2015年4期)2015-07-18 11:07:45
      《苗防備覽》中的湘西語料
      國內(nèi)外語用學(xué)實證研究比較:語料類型與收集方法
      崇义县| 无为县| 台北市| 项城市| 望城县| 江北区| 玛沁县| 平安县| 紫阳县| 乌鲁木齐市| 上蔡县| 红河县| 南投市| 社旗县| 观塘区| 阜宁县| 渭南市| 红原县| 南丹县| 泸水县| 卫辉市| 姚安县| 荆门市| 武川县| 航空| 罗源县| 遂平县| 都江堰市| 德庆县| 鱼台县| 霸州市| 巩义市| 凯里市| 全南县| 伊宁市| 梓潼县| 吉林市| 农安县| 重庆市| 阿鲁科尔沁旗| 明星|