席鵬弼 靳小龍 白 碩 程學(xué)旗
(*中國科學(xué)院計算技術(shù)研究所網(wǎng)絡(luò)數(shù)據(jù)科學(xué)與技術(shù)重點實驗室 北京 100190)
(**中國科學(xué)院大學(xué)計算機科學(xué)與技術(shù)學(xué)院 北京 100408)
(***恒生電子股份有限公司 杭州 310053)
隨著人工智能技術(shù)的興起,各類應(yīng)用系統(tǒng)需要構(gòu)建更多語義較為精確的領(lǐng)域知識圖譜。細粒度實體分類(fine-grained entity typing,FET)任務(wù)為實體確定若干個樹形結(jié)構(gòu)的、語義信息更為精確的類型,在領(lǐng)域知識圖譜構(gòu)建過程中發(fā)揮著關(guān)鍵的作用。
在細粒度實體分類任務(wù)中,知識圖譜構(gòu)建中預(yù)先定義的細粒度類型通常比較多,如FIGER 數(shù)據(jù)集[1]有112 個類型、文獻[2]構(gòu)建的數(shù)據(jù)集有505個類型。同時,細粒度類型之間存在著樹形層級結(jié)構(gòu)關(guān)系,在語義上并不完全互斥[3],信息粒度比命名實體抽取任務(wù)的類型更細[4]。人工標(biāo)注訓(xùn)練數(shù)據(jù)需要花費更長的時間理解實體及上下文信息及細粒度類型的信息,因此通過人工標(biāo)注訓(xùn)練數(shù)據(jù)方法形成該任務(wù)的訓(xùn)練數(shù)據(jù)成本高,難以滿足應(yīng)用對訓(xùn)練數(shù)據(jù)的需求[5]。當(dāng)前通用的方法是采用知識庫遠程監(jiān)督生成訓(xùn)練數(shù)據(jù)[6]。例如,該任務(wù)公開的數(shù)據(jù)集BBN、OntoNotes、Wiki、DBpedia 普遍采用知識庫Freebase、Wikipedia 和DBpedia 中實體的細粒度類型遠程監(jiān)督生成[4,7-8]。遠程監(jiān)督方法[4]先采用實體鏈接算法,將文本中標(biāo)注的實體鏈接到知識庫中,如Freebase、DBpedia 等;接著通過知識庫中實體的細粒度類型對文本中的實體進行類型標(biāo)注,形成訓(xùn)練數(shù)據(jù)。在這個過程中,由于知識庫中實體的細粒度類型缺少細粒度類型對應(yīng)的上下文信息,生成的訓(xùn)練數(shù)據(jù)中會標(biāo)注與實體所在的上下文中語義不相符的噪音細粒度實體類型[9]。
現(xiàn)有考慮訓(xùn)練數(shù)據(jù)中噪音問題的細粒度實體分類研究存在對候選的細粒度實體類型的分析不足的情況,為后續(xù)的模型學(xué)習(xí)帶來了在候選細粒度類型集中選取噪音標(biāo)簽進行細粒度實體分類監(jiān)督學(xué)習(xí)的問題。具體地,采用頻次刪除訓(xùn)練數(shù)據(jù)的標(biāo)注細粒度類型中頻次較低細粒度類型的方法,完全沒有考慮實體所在的上下文信息[10];模型訓(xùn)練中選擇預(yù)測概率最高的類型作為訓(xùn)練數(shù)據(jù)唯一正確的細粒度類型,帶來Confirmation bias 問題[11],即當(dāng)模型預(yù)測概率最高的類型為錯誤類型時,后續(xù)的模型優(yōu)化過程中會在此基礎(chǔ)上持續(xù)最大化該錯誤類型的得分[12-13]。文獻[12]使用WordNet 外部詞典學(xué)習(xí)細粒度類型文本的語義信息。因為訓(xùn)練數(shù)據(jù)中細粒度類型的語義信息是對應(yīng)標(biāo)注實體及實體上下文的語義信息,不同來源的類型其文本的語義信息不一定一致,難以有效降噪。
考慮訓(xùn)練數(shù)據(jù)中噪音問題的細粒度實體分類研究的主要難點有以下幾點。(1)細粒度實體分類任務(wù)的數(shù)據(jù)集中缺少學(xué)習(xí)細粒度類型集上所有類型語義信息的數(shù)據(jù)。數(shù)據(jù)集只標(biāo)注了實體及其上下文和對應(yīng)的多個細粒度類型,因可能出現(xiàn)和上下文不相符的標(biāo)簽情況,難以確定類型和數(shù)據(jù)的對應(yīng)關(guān)系,甚至樹形結(jié)構(gòu)的細粒度類型集中的部分類型沒有訓(xùn)練數(shù)據(jù)。(2)樹形結(jié)構(gòu)的細粒度類型之間在語義上并不完全獨立,存在語義上的包含關(guān)系,分類模型難以學(xué)習(xí)到類型之間的語義上的信息。(3)訓(xùn)練數(shù)據(jù)降噪過程使細粒度實體類型的訓(xùn)練數(shù)據(jù)規(guī)模有較大減少,造成細粒度實體類型的訓(xùn)練數(shù)據(jù)過少,細粒度類型語義難以學(xué)習(xí)的問題。本文對降噪處理前后的細粒度實體分類任務(wù)常用的數(shù)據(jù)集對比統(tǒng)計,結(jié)果發(fā)現(xiàn),常用數(shù)據(jù)集Wiki、OntoNotes 和BBN 的訓(xùn)練數(shù)據(jù)的總數(shù)分別減少了36%、29%和21%。
最近有研究通過訓(xùn)練數(shù)據(jù)中實體指稱詞的表示學(xué)習(xí)部分細粒度實體類型的表示[14],并構(gòu)建圖學(xué)習(xí)實體指稱詞的特征。該研究說明通過訓(xùn)練數(shù)據(jù)中的實體及上下文可以學(xué)習(xí)到訓(xùn)練數(shù)據(jù)中對應(yīng)的細粒度類型的表示。在知識推斷中可以用實體關(guān)系三元組學(xué)習(xí)實體的語義信息,同樣,可以用該任務(wù)訓(xùn)練數(shù)據(jù)生成過程中使用的知識庫中的細粒度實體類型間關(guān)系三元組學(xué)習(xí)細粒度實體類型的語義信息。
針對上述細粒度實體分析的難點問題研究和技術(shù)的整理,本文提出實體類型相似過濾細粒度實體分類(entity type similarity filtering fine-grained entity typing,ETSF-FET)模型。該方法首先通過數(shù)據(jù)集中的具有唯一細粒度類型路徑的數(shù)據(jù),基于ELMo 預(yù)訓(xùn)練模型學(xué)習(xí)數(shù)據(jù)中細粒度類型的表示[15],結(jié)合細粒度類型間的關(guān)系信息數(shù)據(jù)[16],學(xué)習(xí)預(yù)定義細粒度類型集中剩下的細粒度類型表示;然后對數(shù)據(jù)集中的噪音標(biāo)簽數(shù)據(jù),在候選細粒度類型集中選取與實體的語義信息最相似的細粒度實體類型作為監(jiān)督學(xué)習(xí)細粒度類型;最后針對降噪處理造成的細粒度實體類型的訓(xùn)練數(shù)據(jù)規(guī)模有較大減少的情況,設(shè)計相似實體上下文信息的語義聚合方法,補充細粒度實體類型訓(xùn)練數(shù)據(jù)信息,從數(shù)據(jù)集層面學(xué)習(xí)更多的信息,建模實體在細粒度類型集上的分類模型。本文的主要貢獻概括如下。
(1)提出了細粒度實體分類任務(wù)中通過訓(xùn)練數(shù)據(jù)中實體及上下文的嵌入表示、實體對應(yīng)的細粒度類型、遠程監(jiān)督知識庫中的細粒度類型間關(guān)系進行細粒度類型嵌入表示的學(xué)習(xí)方法。
(2)針對訓(xùn)練數(shù)據(jù)降噪造成細粒度實體類型的訓(xùn)練數(shù)據(jù)少的問題,提出了基于語義聚合的細粒度實體類型特征學(xué)習(xí)方法,通過數(shù)據(jù)集中相似實體及其上下文信息的語義聚合,學(xué)習(xí)細粒度實體類型的語義特征。
(3)提出了基于細粒度類型語義表示進行訓(xùn)練數(shù)據(jù)標(biāo)簽降噪的細粒度實體分類模型ETSF-FET。先采用前面提出的細粒度類型嵌入表示的學(xué)習(xí)方法生成細粒度類型的表示;接著通過實體和上下文信息的表示和細粒度類型表示的相似度打分,為數(shù)據(jù)集中噪音數(shù)據(jù)選擇最符合實體上下文的細粒度類型;然后采取前面提出的基于語義聚合的細粒度實體類型特征學(xué)習(xí)方法學(xué)習(xí)語義信息;最后,用最符合實體上下文的細粒度類型和基于語義聚合方法學(xué)習(xí)的語義信息訓(xùn)練細粒度實體分類模型。
(4)用細粒度實體分類任務(wù)的常用Wiki、OntoNotes、BBN 數(shù)據(jù)集,對ETSF-FET 方法進行細粒度實體分類實驗,性能指標(biāo)較當(dāng)前方法有所提升。表明通過ETSF-FET 方法有效地在候選類型中選取了更符合上下文信息的細粒度類型,達到提升細粒度實體分類準(zhǔn)確率的效果。
本文從訓(xùn)練數(shù)據(jù)降噪方法這個角度整理現(xiàn)有工作,具體有實體及上下文特征學(xué)習(xí)類研究、細粒度類型間關(guān)系信息應(yīng)用類研究、數(shù)據(jù)集信息增強類研究3 個方面的研究工作。
早期的研究人員主要關(guān)注實體及其上下文特征的學(xué)習(xí),通過訓(xùn)練數(shù)據(jù)學(xué)習(xí)細粒度類型對應(yīng)的訓(xùn)練數(shù)據(jù)的更多特征,采用學(xué)習(xí)到的特征,將細粒度類型的表示映射到同一高維空間中,建模特征和類型之間的相似性打分,選取細粒度類型集中得分最好的類型為預(yù)測類型。文獻[17-19]通過訓(xùn)練數(shù)據(jù)生成使用的知識庫、訓(xùn)練數(shù)據(jù)中細粒度類型的共現(xiàn)特征為細粒度類型集上的所有類型設(shè)計距離計算函數(shù),并將實體及上下文特征、細粒度類型的表示映射到同一空間,根據(jù)實體及上下文和細粒度類型的相似性打分,選取得分最高細粒度類型進行模型訓(xùn)練。文獻[20]采用長短期記憶(long short-term memory,LSTM)神經(jīng)網(wǎng)絡(luò)模型提取實體及上下文特征,并將細粒度類型表示映射到相同空間,采用遷移學(xué)習(xí)方法,結(jié)合多個訓(xùn)練數(shù)據(jù)中獲取的實體及上下文特征進行細粒度類型相似度打分,選取得分高的細粒度類型進行模型訓(xùn)練。
隨著對問題研究的深入,研究人員發(fā)現(xiàn)細粒度實體類型間的樹形結(jié)構(gòu)信息可以用于訓(xùn)練數(shù)據(jù)降噪。文獻[21]先對實體指稱詞進行擴展,采用雙向LSTM 神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)實體上下文表示,結(jié)合正則化的層級損失函數(shù),利用細粒度類型的樹形結(jié)構(gòu)關(guān)系,細粒度類型的得分為細粒度類型本身的得分與其所有祖先類型的得分加和。通過細粒度類型的得分在訓(xùn)練數(shù)據(jù)標(biāo)注類型集中取得分最高的類型進行模型訓(xùn)練。文獻[22]采用雙向LSTM 學(xué)習(xí)實體及上下文表示的基礎(chǔ)上,同時用隨機行走算法建模細粒度類型集的樹型結(jié)構(gòu)中的細粒度類型之間關(guān)系信息,形成細粒度類型在訓(xùn)練數(shù)據(jù)中的權(quán)重矩陣。具體來說,先將預(yù)定義細粒度類型集通過補充虛擬節(jié)點規(guī)范化為只能將樹上的葉子節(jié)點作為候選類型集;然后隨機初始化細粒度類型標(biāo)簽的上下文相關(guān)權(quán)重;接著通過最大化隨機游走過程的預(yù)期回報,對訓(xùn)練數(shù)據(jù)中標(biāo)注的所有細粒度類型進行權(quán)重調(diào)整,選取訓(xùn)練數(shù)據(jù)標(biāo)注類型中具有最大權(quán)重的類型作為正確類型進行監(jiān)督模型學(xué)習(xí)。
最近,研究人員采用數(shù)據(jù)集中實體及上下文的聚類信息進行訓(xùn)練數(shù)據(jù)降噪。文獻[23]采用原型網(wǎng)絡(luò)學(xué)習(xí)數(shù)據(jù)集中細粒度類型的信息。文獻[24,25]先對多類型的訓(xùn)練數(shù)據(jù)進行聚類,借助聚類方法從該部分訓(xùn)練數(shù)據(jù)中獲取部分語義信息。具體地,先將帶噪音標(biāo)簽的訓(xùn)練數(shù)據(jù)中的標(biāo)簽用指定值覆蓋,接著對實體及上下文中提取的特征進行隱含語義壓縮聚類。該方法在模型訓(xùn)練過程中既使用了帶噪音標(biāo)簽的訓(xùn)練數(shù)據(jù),又避免了訓(xùn)練數(shù)據(jù)中的噪音標(biāo)簽對模型學(xué)習(xí)的影響。文獻[26]提出了基于數(shù)據(jù)集實體上下文信息相似關(guān)系圖分類方法。先通過訓(xùn)練數(shù)據(jù)和細粒度類型的對應(yīng)關(guān)系計算部分細粒度類型表示;接著在數(shù)據(jù)集上通過細粒度類型的表示和實體指稱詞上下文信息之間相似值,在超過閾值的實體指稱詞之間建立相似關(guān)系,構(gòu)建相似關(guān)系圖。再對訓(xùn)練數(shù)據(jù)中的實體及上下文表示分2 階段處理,第1 階段基于實體指稱詞之間的相似關(guān)系圖對基于ELmo 語音模型生成的實體指稱詞的表示進行特征提煉調(diào)優(yōu);第2 階段對提取的特征進行多標(biāo)簽分類。
本文參考了實體及上下文特征學(xué)習(xí)、細粒度類型間關(guān)系信息應(yīng)用及數(shù)據(jù)集信息增強等方面的最新研究成果,設(shè)計了細粒度類型語義表示的學(xué)習(xí)方法,將細粒度類型的表示信息應(yīng)用于細粒度實體分類任務(wù)的訓(xùn)練數(shù)據(jù)的標(biāo)簽降噪處理,并針對訓(xùn)練數(shù)據(jù)降噪造成的訓(xùn)練數(shù)據(jù)稀疏問題,設(shè)計基于實體及上下文相似度的語義聚合方法增強訓(xùn)練數(shù)據(jù)中的細粒度類型語義信息,進行細粒度實體分類。
本節(jié)提出一種利用細粒度類型語義標(biāo)簽進行標(biāo)簽降噪的細粒度實體分類方法,該方法由訓(xùn)練數(shù)據(jù)降噪、信息聚合和細粒度實體分類3 部分組成。
首先介紹模型中用到的各類信息的數(shù)學(xué)表示。本文將實體指稱詞所在的句子表示為s=w1,w2,…,wn;實體指稱詞表示為m={wl,…,wr},其中l(wèi)、r分別為實體指稱詞開始和結(jié)束的位置。對于數(shù)據(jù)集中的第i個訓(xùn)練數(shù)據(jù)instancei,先用實體抽取方法識別出句子中的實體指稱詞mi,接著通過實體鏈接方法將實體指稱詞鏈接到知識庫中的實體ai,然后分配ai在知識庫中的細粒度類型集Yi作為訓(xùn)練數(shù)據(jù)instancei中實體指稱詞mi的細粒度類型集。在形式上,一個標(biāo)注的數(shù)據(jù)集可以表示為三元組D={(mi,ci,Yi)},其中mi是數(shù)據(jù)集的第i個實體指稱詞,ci是mi的上下文,Yi是mi的候選類型集,數(shù)據(jù)集上所有的細粒度類型形成細粒度類型集T,其中Yi?T。為了對遠程監(jiān)督方法標(biāo)注的細粒度類型集進行更近一步分析,將Yi中細粒度類型路徑Y(jié)i,j的粒度最細的類型表示為該細粒度類型路徑的目標(biāo)類型,Yi中所有類型的目標(biāo)類型構(gòu)成類型集Yi的目標(biāo)類型集遠程監(jiān)督對訓(xùn)練語料進行標(biāo)注時,Yi有2 種可能。一種是Yi中的目標(biāo)類型只包含細粒度類型樹上的1 條路徑,即||=1。借鑒現(xiàn)有的研究成果,訓(xùn)練數(shù)據(jù)中的這類標(biāo)注數(shù)據(jù)被視為干凈數(shù)據(jù),表示為Dclean={(mi,ci,Yi)},當(dāng)且僅當(dāng)||=1。另一種是Yi中的目標(biāo)類型多于1 條,這類數(shù)據(jù)被視為噪音數(shù)據(jù),表示為Dnoisy。為了學(xué)習(xí)實體的特征,考慮噪音問題的細粒度實體分類任務(wù)的挑戰(zhàn)就是訓(xùn)練數(shù)據(jù)中存在噪音數(shù)據(jù)情況下,如何利用標(biāo)注數(shù)據(jù)集獲得性能較好的細粒度實體分類模型。
本文的模型框架如圖1 所示。從上到下依次分為訓(xùn)練數(shù)據(jù)降噪、類型語義信息聚合和細粒度實體分類3 個步驟。訓(xùn)練數(shù)據(jù)降噪包括細粒度類型表示學(xué)習(xí)、基于實體和細粒度類型語義相似度的細粒度類型過濾。具體地,先通過預(yù)訓(xùn)練Elmo 語言模型得到實體指稱詞的嵌入表示和實體上下文的嵌入表示,用訓(xùn)練集中干凈數(shù)據(jù)Dclean中實體和細粒度類型的對應(yīng)關(guān)系進行部分細粒度類型的學(xué)習(xí)。再使用TransE模型的關(guān)系推理方法,通過遠程監(jiān)督方法使用的知識庫獲取細粒度類型之間關(guān)系relation,組成細粒度類型關(guān)系三元組(headtype,relation,tailtype)信息,其中三元組的頭尾元素headtype∈T、tailtype∈T。對任務(wù)數(shù)據(jù)集預(yù)定義的細粒度類型集上缺失嵌入表示的部分細粒度類型進行嵌入表示推理補全?;谶h程監(jiān)督生成細粒度類型中的正確類型由實體的上下文語義信息決定的觀察,通過實體上下文信息和遠程監(jiān)督方法標(biāo)注候選類型集Yi中細粒度類型嵌入表示之間的相似性度量,選取與實體上下文信息最相似的細粒度類型為正確細粒度類型,降低訓(xùn)練數(shù)據(jù)中的噪音細粒度類型標(biāo)簽信息;針對現(xiàn)有工作在降噪中大量減少了細粒度類型訓(xùn)練數(shù)據(jù)的問題,本文采用了語義相似類型信息聚合方法,通過訓(xùn)練數(shù)據(jù)集中相似信息聚合實體指稱詞的細粒度類型信息,增強實體指稱詞特征中細粒度類型語義信息,降低訓(xùn)練數(shù)據(jù)減少對實體指稱詞特征學(xué)習(xí)的影響;最后進行細粒度實體分類,采用為噪音數(shù)據(jù)選擇最符合實體上下文的細粒度類型的訓(xùn)練數(shù)據(jù),結(jié)合信息聚合增強細粒度類型語義信息的實體指稱詞特征,訓(xùn)練2 層全連接神經(jīng)網(wǎng)絡(luò)模型進行細粒度類型分類。
圖1 ETSF-FET 模型的整體框架
在細粒度實體分類任務(wù)數(shù)據(jù)集中,細粒度類型作為實體指稱詞的標(biāo)簽,和實體所在句子相比較可用于學(xué)習(xí)語義的信息少,所以本文通過數(shù)據(jù)中細粒度類型對應(yīng)的實體指稱詞和其上下文信息學(xué)習(xí)細粒度類型表示。同時,數(shù)據(jù)集中干凈數(shù)據(jù)Dclean中實體指稱詞和其上下文信息與細粒度類型是一一映射關(guān)系,但噪音數(shù)據(jù)Dnoisy實體指稱詞和其上下文信息與細粒度類型存在一對多的映射關(guān)系,同時學(xué)習(xí)會引入噪音信息,為了防止這個問題本文設(shè)計不同的方法學(xué)習(xí)類型表示。
2.1.1 基于干凈數(shù)據(jù)的部分細粒度類型表示學(xué)習(xí)
本文采用干凈數(shù)據(jù)Dclean中實體指稱詞和其上下文信息與細粒度類型的對應(yīng)關(guān)系計算訓(xùn)練數(shù)據(jù)中干凈數(shù)據(jù)出現(xiàn)的部分細粒度類型tc,part的表示。具體而言,先采用ELMo 語言模型進行向量化表示后生成實體所在句子的向量{ew1,…,ewn},其中ewi∈Rdw是句子中詞的向量表示。然后通過句子中詞向量的均值作為句子中實體的向量表示eac,細粒度類型tc的表示etc通過數(shù)據(jù)集中所有的實體的向量表示求均值計算得到。計算如式(1)和(2)所示。
2.1.2 基于類型間關(guān)系數(shù)據(jù)的細粒度類型表示學(xué)習(xí)
本文從知識圖譜的本體層面[27]分析訓(xùn)練數(shù)據(jù)生成過程使用的知識庫中的細粒度實體類型,發(fā)現(xiàn)細粒度類型之間除了樹形層級結(jié)構(gòu)之間的關(guān)系,還存在其他關(guān)系。具體如圖2 所示。
圖2 遠程監(jiān)督知識庫中細粒度類型間關(guān)系
這個關(guān)系為細粒度實體類型表示的學(xué)習(xí)提供了數(shù)據(jù)。因此對于沒有在干凈數(shù)據(jù)Dclean中存在對應(yīng)實體的部分細粒度類型to,part,式(1)、(2)的方法會引入噪音信息。本文采用數(shù)據(jù)集生成過程中遠程監(jiān)督方法使用的知識庫中細粒度類型之間關(guān)系數(shù)據(jù)Gt,結(jié)合上節(jié)式(1)和(2)中獲得tc,part,采用TransE模型學(xué)習(xí)部分細粒度類型集to,part的表示,對三元組(headtype,r,tailtype),將r的向量表示Er作為頭實體向量表示Eheadtype和尾實體向量表示Etailtype之間的平移。學(xué)習(xí)目標(biāo)函數(shù)如式(3)所示。
在學(xué)習(xí)過程中,本工作主要學(xué)習(xí)干凈數(shù)據(jù)Dclean沒有出現(xiàn)的細粒度實體類型to,part。因此,本文調(diào)整了TransE方法頭尾實體表示的更新策略,在細粒度類型的嵌入表示的更新步驟中,只更新to,part的細粒度類型的嵌入表示eto。將上一節(jié)學(xué)習(xí)得到的etc和本節(jié)獲得的eto合并,得到細粒度類型集T中所有細粒度類型的嵌入表示Et。
2.1.3 基于實體和細粒度類型語義相似度的細粒度類型過濾
已有研究工作的Dnoisy處理,因沒有根據(jù)訓(xùn)練數(shù)據(jù)中細粒度類型的語義信息與實體所在句子的語義信息的一致性進行處理,僅選取模型預(yù)測得分最高的細粒度類型作為候選細粒度類型集的目標(biāo)類型,故無法對Dnoisy中的訓(xùn)練數(shù)據(jù)選取正確的細粒度類型進行模型訓(xùn)練。同時,該處理會造成訓(xùn)練數(shù)據(jù)多的類型,學(xué)習(xí)了更多的實體上下文信息而被較大的概率選中[17,21],模型易受到細粒度類型標(biāo)注數(shù)據(jù)分布的影響。本文通過計算實體指稱詞及其所在上下文的語義信息和細粒度類型的表示信息相似性,在Dnoisy的標(biāo)注類型集合Y中選擇適合實體指稱詞及其上下文語義信息細粒度類型,作為實體指稱詞的目標(biāo)類型進行模型訓(xùn)練。具體算法如算法1 所示。先采用式(1)、(2)基于實體指稱詞及其文本上下文信息的向量化表示、細粒度類型間關(guān)系信息獲取細粒度類型表示,進一步和采用ELmo 語言模型學(xué)習(xí)獲得實體所在句子上下文信息相似度計算,獲取噪音數(shù)據(jù)Dnoisy中的實體指稱詞mi的目標(biāo)類型。該算法的時間復(fù)雜度為O(lnh),ln為噪音數(shù)據(jù)的大小,h為訓(xùn)練數(shù)據(jù)標(biāo)注細粒度類型個數(shù)最大值。
2.2.1 實體指稱詞及上下文的表示學(xué)習(xí)
細粒度實體分類任務(wù)常用的訓(xùn)練數(shù)據(jù)生成過程如圖3 所示。
圖3 細粒度實體分類任務(wù)訓(xùn)練數(shù)據(jù)的生成過程
本文觀察發(fā)現(xiàn),在考慮噪音問題的細粒度實體分類任務(wù)中,實體指稱詞的上下文信息對實體的細粒度類型提供重要信息。基于這個觀察,實體指稱詞及上下文的表示學(xué)習(xí)采用注意力機制,重點學(xué)習(xí)實體指稱詞及上下文中細粒度類型相關(guān)語義信息。本文經(jīng)過實驗對比了文獻[28]采用ELMo 預(yù)訓(xùn)練模型進行詞向量表示方法和文獻[21]采用雙向的LSTM 進行詞向量表示方法,選用了本文方法上性能較好的雙向LSTM 進行詞向量表示方法。和文獻[21]方法不同,本文使用了全部的上下文信息,并使用注意力機制進行實體指稱詞表示學(xué)習(xí)。先采用Glove詞向量對訓(xùn)練數(shù)據(jù)進行向量化,句子s向量表示為{ew1,…,ewn}。實體指稱詞的表示學(xué)習(xí)由采用注意力的實體指稱詞表示matt和采用實體指稱詞均值表示mave拼接生成,即m=[matt;mave],其中matt表示學(xué)習(xí)采用式(4)計算,其中實體指稱詞的注意力權(quán)重ai采用式(5)計算。
實體指稱詞上下文的表示學(xué)習(xí)采用了實體指稱詞的上下文的詞注意力表示catt。其中catt表示學(xué)習(xí)采用式(6)計算。
其中實體指稱詞上下文的注意力權(quán)重āi采用式(7)計算。
最后將兩部分表示拼接形成實體指稱詞及上下文的嵌入表示F=[m;catt]。
2.2.2 語義相似信息聚合
對噪音數(shù)據(jù)Dnoisy的處理中,在噪音訓(xùn)練數(shù)據(jù)的標(biāo)注類型集中選取唯一的細粒度類型做為目標(biāo)類型,造成標(biāo)注訓(xùn)練數(shù)據(jù)少的部分細粒度類型訓(xùn)練數(shù)據(jù)嚴(yán)重不足問題,引起在降噪數(shù)據(jù)集上細粒度實體分類模型的性能指標(biāo)差于原始數(shù)據(jù)集。針對這個問題,本文在實體指稱詞和上下文進行基于語義相似度的分類前,通過數(shù)據(jù)集中Top-K個相似句子,對實體指稱詞的語義特征進行相似語義信息聚合,讓數(shù)據(jù)集三元組中的em、ec具有更多的類型語義信息。信息聚合方法如算法2 所示??梢钥吹?經(jīng)過實體指稱詞和其上下文信息的相似語義聚合,實體的特征表示更新為F′e=[udpsemm,c]∈R2dw,其中dw表示詞嵌入的維度。在該處理過程中,參數(shù)K作為信息聚合中參與相似信息聚合的句子數(shù),K的選擇比較重要。根據(jù)該算法解決的問題,參數(shù)K的確定采用了以下方法:先統(tǒng)計訓(xùn)練數(shù)據(jù)集中細粒度類型標(biāo)注數(shù)據(jù)的數(shù)量;然后根據(jù)標(biāo)注數(shù)據(jù)的規(guī)模分布特征,讓細粒度類型的訓(xùn)練數(shù)據(jù)數(shù)少的部分細粒度類型在K的作用下能達到細粒度類型的訓(xùn)練數(shù)據(jù)數(shù)量的中位數(shù)的量級。
2.3.1 實體特征和細粒度類型的相似度得分
在分類處理中,以上節(jié)通過相似語義信息聚合形成的實體指稱詞及上下文的表示F′e為輸入,本文采用了2 個全連接神經(jīng)網(wǎng)絡(luò)進行實體指稱詞特征學(xué)習(xí),計算過程為
其中y∈,W為分類器的可訓(xùn)練的特征映射參數(shù)矩陣,b為分類器的可學(xué)習(xí)的偏置參數(shù)。
2.3.2 模型優(yōu)化
在訓(xùn)練過程中,本文采用多標(biāo)簽分類的交叉熵損失函數(shù)進行模型優(yōu)化,并且針對細粒度實體類型的層級結(jié)構(gòu),結(jié)合文獻[28]實驗發(fā)現(xiàn)的細粒度類型集合層級樹上不同級別之間細粒類型預(yù)測結(jié)果不能平行處理實驗結(jié)論。本文根據(jù)細粒度類型的層級特征,設(shè)計細粒度類型層級相關(guān)的參數(shù),讓模型按照層級樹從上到下的優(yōu)先級學(xué)習(xí)細粒度類型的語義信息。目標(biāo)函數(shù)具體為
其中,βLev(y)為細粒度類型層級相關(guān)的權(quán)重參數(shù);Lev(y) 為細粒度類型在層級樹上的層級函數(shù),例如,圖3 中的“/person”類型,Lev(/person)=1。圖中的“/person/politician”類型,Lev(/person/politician)=2,α是損失函數(shù)L2 正則項參數(shù)。
本文使用細粒度實體分類任務(wù)上比較通用的3個數(shù)據(jù)集Wiki、OntoNotes 和BBN 進行實驗。Wiki數(shù)據(jù)集通過Wikipedia 遠程監(jiān)督生成,數(shù)據(jù)集的細粒度類型通過Freebase 知識庫中實例數(shù)超越指定閾值的細粒度類型形成。OntoNotes 細粒度實體分類數(shù)據(jù)集通過Freebase 知識庫中導(dǎo)出的類型,人工標(biāo)注了133 000 個新聞數(shù)據(jù)。BBN 細粒度實體分類數(shù)據(jù)集對2 311 篇文章通過Freebase 知識庫的類型標(biāo)注形成。數(shù)據(jù)集提出后出現(xiàn)了多種版本,為了對比實驗的嚴(yán)謹(jǐn)性,本文采用文獻[17]實驗中使用的版本,其中數(shù)據(jù)集的統(tǒng)計信息如表1 所示。
表1 各數(shù)據(jù)集統(tǒng)計信息
為了推理補全細粒度類型集上部分類型的語義表示,本文采用文獻[20]提出的方法,根據(jù)數(shù)據(jù)集生成中遠程監(jiān)督使用的知識庫,獲取了各個數(shù)據(jù)集上細粒度類型知識庫中細粒度類型間的關(guān)系數(shù)據(jù),形成細粒度類型之間的關(guān)系數(shù)據(jù)Gt。關(guān)系數(shù)據(jù)統(tǒng)計信息如表2 所示。
表2 各數(shù)據(jù)集類型間關(guān)系統(tǒng)計
本文模型的參數(shù)包括實體及上下文的分布式表示維度d、細粒度類型分布式表示維度dt、細粒度類型間關(guān)系表示維度dr、相似信息聚合權(quán)重超參α、模型訓(xùn)練的迭代次數(shù)p和損失函數(shù)中細粒度類型層級權(quán)重參數(shù)βLev(y)。其中實驗使用的最佳參數(shù)如表3所示。
表3 模型使用參數(shù)
在模型評估方面,本文沿用了文獻[4]提出的嚴(yán)格準(zhǔn)確率(Acc)、宏平均F1(Ma-F1)和微平均F1(Mi-F1)3 個性能指標(biāo)。嚴(yán)格準(zhǔn)確率是測試集中實體的正確類型和預(yù)測類型完全相同的數(shù)據(jù)量在整個測試集中的占比。宏平均F1 是測試集上每個實體的F1 值在整個測試集上的平均值。微平均F1 為先計算整個測試集上準(zhǔn)確率和召回率的平均值,然后再計算F1。對于這3 個評價指標(biāo),結(jié)果值越大,模型細粒度實體分類的性能越好。嚴(yán)格準(zhǔn)確率越大,表示測試集上預(yù)測結(jié)果和人工標(biāo)注結(jié)果相同的實體越多;宏平均F1 越大,表示測試集上每個實體預(yù)測的正確類型越多;微平均F1 越大,表示整個測試集所有實體的預(yù)測的細粒度類型越多。
3.2.1 細粒度類型的嵌入表示進行標(biāo)簽降噪的細粒度實體分類分析
為了分析本文提出模型的有效性,在Wiki、OntoNotes、BBN 數(shù)據(jù)集上進行了實驗,實驗結(jié)果如表4所示。從表中可以看出,本文的方法(表中的ETSFFET)實驗結(jié)果優(yōu)于現(xiàn)有的研究,證明ETSF-FET 在帶有噪音標(biāo)簽的訓(xùn)練數(shù)據(jù)中,通過實體上下文語義信息和細粒度類型語義嵌入表示的相似度計算,在遠程監(jiān)督生成多個細粒度類型標(biāo)注類型集合中選取了最符合實體上下文語義信息的細粒度類型,降低了細粒度實體分類訓(xùn)練數(shù)據(jù)的噪音標(biāo)簽,提升了細粒度實體分類任務(wù)的性能。
表4 模型性能指標(biāo)
3.2.2 細粒度類型嵌入表示進行訓(xùn)練數(shù)據(jù)標(biāo)簽降噪效果分析
為了分析本文提出的基于細粒度類型語義表示進行訓(xùn)練數(shù)據(jù)標(biāo)簽降噪方法的有效性及本文所提出降噪處理方法的通用性,本文選用文獻[21]的研究工作開源的代碼。在Wiki、OntoNotes、BBN 數(shù)據(jù)集上,將數(shù)據(jù)集中的訓(xùn)練數(shù)據(jù)和驗證數(shù)據(jù)先采用本文的方法進行數(shù)據(jù)標(biāo)簽降噪處理,然后直接運行文獻[21]開源的方法。實驗結(jié)果如表5 所示,可以看到采用本文提出的基于細粒度類型表示進行標(biāo)簽降噪處理的訓(xùn)練數(shù)據(jù),能讓已有的研究工作提升細粒度實體分類的性能。在BBN 數(shù)據(jù)集中,實驗性能接近最近的研究工作。這證明本文所提的細粒度實體分類標(biāo)簽降噪方法具有通用性,其不僅在本文自己的方法上提升了分類性能,而且可通用于其他方法,并且對已有研究工作在細粒度實體分類性能上有不小的提升。
表5 所提訓(xùn)練數(shù)據(jù)降噪方法處理在已有開源方法上的性能實驗
3.2.3 基于細粒度類型間的關(guān)系數(shù)據(jù)學(xué)習(xí)的類型嵌入表示進行標(biāo)簽降噪分析
在訓(xùn)練數(shù)據(jù)降噪過程中細粒度類型的表示提供了關(guān)鍵信息。因部分細粒度類型沒有訓(xùn)練數(shù)據(jù),無法通過訓(xùn)練數(shù)據(jù)形成細粒度類型的表示,本文結(jié)合遠程監(jiān)督知識庫中細粒度類型間的關(guān)系數(shù)據(jù)Gt獲得細粒度類型的表示。為了驗證細粒度類型間的關(guān)系數(shù)據(jù)Gt為細粒度類型表示提供語義信息的有效性,本文只使用細粒度類型間的關(guān)系數(shù)據(jù)Gt學(xué)習(xí)細粒度類型的表示進行實驗。實驗的性能指標(biāo)如表6所示。從表中可以看出,在OntoNotes 數(shù)據(jù)集上性能有明顯提升,證明細粒度類型間的關(guān)系數(shù)據(jù)為訓(xùn)練數(shù)據(jù)降噪過程中細粒度類型的表示學(xué)習(xí)提供了有效的語義信息。同時結(jié)合數(shù)據(jù)集的細粒度類型數(shù)分析發(fā)現(xiàn),OntoNotes 數(shù)據(jù)集中大于1 層的類型數(shù)據(jù)占比最高,證明細粒度類型間的關(guān)系數(shù)據(jù)能為細粒度層級數(shù)上大于1 層的類型提供更多的有效語義信息。
表6 細粒度類型間關(guān)系的學(xué)習(xí)嵌入表示進行細粒度實體分類
3.2.4 語義信息聚合實驗分析
訓(xùn)練數(shù)據(jù)的降噪過程造成了細粒度類型的訓(xùn)練數(shù)據(jù)減少,引發(fā)訓(xùn)練數(shù)據(jù)少的部分細粒度類型的語義信息學(xué)習(xí)不足的問題。本文提出通過訓(xùn)練數(shù)據(jù)中語義上相似的實體指稱詞及上下文信息,聚合數(shù)據(jù)中的細粒度類型語義信息,緩解訓(xùn)練數(shù)據(jù)降噪過程引起的負面影響。為了驗證本文提出的類型語義信息聚合方法的有效性,在BBN 數(shù)據(jù)集上進行了實驗,實驗性能指標(biāo)如表7 所示。
表7 相似信息聚合語義學(xué)習(xí)實驗性能
從表中可以看出,本文提出的方法去掉類型語義信息聚合學(xué)習(xí)模塊后的模型ETSF-FET-NoGather,雖然比2020 年以前的方法降噪類細粒式實體分類方法好,但是難以超過2020 年文獻[28]的實驗,證明類型語義信息聚合方法能為訓(xùn)練數(shù)據(jù)降噪過程引起的部分細粒度類型語義學(xué)習(xí)補充有用的語義信息,再次提升細粒式實體分類的效果。
針對細粒度實體分類任務(wù)的訓(xùn)練數(shù)據(jù)降噪過程中對實體上下文和細粒度類型標(biāo)簽之間的語義相似性學(xué)習(xí)不足、細粒度類型的訓(xùn)練數(shù)據(jù)減少等問題,本文提出了一種基于細粒度類型語義表示進行標(biāo)簽降噪的細粒度實體分類方法。該方法先基于ELMo 預(yù)訓(xùn)練模型學(xué)習(xí)數(shù)據(jù)集中干凈數(shù)據(jù)對應(yīng)的部分細粒度類型的嵌入表示,并用該嵌入表示和細粒度類型間的關(guān)系數(shù)據(jù),學(xué)習(xí)細粒度類型集中其余細粒度類型的表示;然后通過計算訓(xùn)練數(shù)據(jù)中標(biāo)注的細粒度類型和實體指稱詞及上下文信息的相似性進行訓(xùn)練數(shù)據(jù)降噪;接著通過數(shù)據(jù)集中數(shù)據(jù)之間的相似性,選取Top-K相似數(shù)據(jù)進行細粒度類型語義信息的聚合;最后,在經(jīng)過降噪和聚合處理的數(shù)據(jù)上訓(xùn)練細粒度實體分類模型。實驗結(jié)果表明,本文提出的方法可以有效地減少細粒度實體分類任務(wù)的訓(xùn)練數(shù)據(jù)中的噪音標(biāo)簽信息,提升細粒度實體分類的性能。
缺乏高質(zhì)量標(biāo)注訓(xùn)練數(shù)據(jù)是細粒度實體分類任務(wù)一直面臨的問題,最近有研究人員嘗試用小樣本學(xué)習(xí)技術(shù)探索解決方案并取得了一些研究成果。本文認(rèn)為訓(xùn)練數(shù)據(jù)中的噪音數(shù)據(jù)雖然存在噪音標(biāo)簽,但這些噪音標(biāo)簽不完全是噪音,只是在實體指稱詞所在的上下文中不表示該部分標(biāo)簽表達的語義信息。找到合理的方法合理利用這些信息可以讓細粒度實體分類任務(wù)應(yīng)用更多的遠程監(jiān)督生成的訓(xùn)練數(shù)據(jù),提升細粒度實體分類的性能,降低該任務(wù)訓(xùn)練數(shù)據(jù)標(biāo)注的人力成本。同時,本文在訓(xùn)練數(shù)據(jù)存在噪音情況下進行了最大程度用好標(biāo)注數(shù)據(jù)方面的探索,從用好訓(xùn)練數(shù)據(jù)的角度為細粒度實體分類任務(wù)探究解決方案,可以作為今后在細粒度實體分類任務(wù)上研究的探索方向。