劉波
摘??要:細(xì)粒度實(shí)體分類是自然語言處理中一項(xiàng)重要的基礎(chǔ)任務(wù),實(shí)體的類別信息為實(shí)體鏈接、關(guān)系抽取、事件抽取等下游任務(wù)提供幫助。近年來,基于深度學(xué)習(xí)的細(xì)粒度實(shí)體分類研究成為熱點(diǎn),該文從處理數(shù)據(jù)噪聲、對(duì)類別層級(jí)建模、少樣本學(xué)習(xí)和其他一些方法進(jìn)行了綜述性介紹,此外介紹了常見的數(shù)據(jù)集和評(píng)測(cè)方法,并對(duì)未來的研究方向進(jìn)行了展望。
關(guān)鍵詞:自然語言處理??細(xì)粒度實(shí)體分類??深度學(xué)習(xí)??信息抽取
中圖分類號(hào):TP391.1??????????文獻(xiàn)標(biāo)識(shí)碼:A
Research?Progress?of?Fine-Grained?Entity?Classification
LIU?Bo
(School?of?Mathematics?and?Statistics,?Hanshan?Normal?University,?Chaozhou,?Guangdong?Province,?521041?China)
Abstract:?Fine-grained?entity?classification?is?an?important?basic?task?in?natural?language?processing,?and?the?category?information?of?entities?provides?help?for?downstream?tasks?such?as?entity?linking,?relation?extraction?and?event?extraction.?In?recent?years,?the?research?on?fine-grained?entity?classification?based?on?deep?learning?has?become?a?hot?topic.?This?paper?gives?an?overview?of?dealing?with?data?noise,?category-level?modeling,?few-sample?learning?and?some?other?methods,?introduces?common?datasets?and?evaluation?methods,?and?prospects?future?research?directions.
Key?Words:?Natural?language?processing;?Fine-grained?entity?classification;?Deep?learning;?Information?extraction
細(xì)粒度實(shí)體分類任務(wù)是給定一個(gè)實(shí)體和包含這個(gè)實(shí)體的上下文預(yù)測(cè)這個(gè)實(shí)體可能的類別集合。如表1所示,文本為“?Bennett?said?the?city-owned?arena?lacked?the?amenities?to?support?an?NBA?franchise?and?moved?the?team?to?Oklahoma?City?after?failing?to?secure?a?new?arena?here”,任務(wù)是識(shí)別出給定的實(shí)體“NBA”的類別為“organization”?和?“organization/sports_league”。它是很多自然語言處理領(lǐng)域重要的基礎(chǔ)工作。細(xì)粒度實(shí)體分類任務(wù)的一個(gè)特點(diǎn)就是實(shí)體的類別更加細(xì)致,如類別有“actor”“sports_team”“car”“power_station”等[1]。常用的細(xì)粒度實(shí)體分類數(shù)據(jù)集的類別數(shù)量在50-100個(gè)左右[2,3]。而且大部分的數(shù)據(jù)集的類別有層級(jí)關(guān)系,如粗粒度類別和細(xì)粒度類別,如表?1(a)的實(shí)體只有粗粒度類別,“/person”,?表?1(b)的實(shí)體類別有粗粒度類別“/organization”和細(xì)粒度類別“organization/sports_league”。
細(xì)粒度實(shí)體分類為信息抽取下游任務(wù)提供幫助,如在關(guān)系抽取中實(shí)體的類別信息能夠提升關(guān)系抽取任務(wù)的效果[4]。實(shí)體的類別對(duì)實(shí)體之間的關(guān)系有很強(qiáng)的指示性,比如說如果知道頭尾實(shí)體類別分別是公司和人物,那么實(shí)體對(duì)之間的關(guān)系很可能是建立者這樣的關(guān)系。另外,實(shí)體類別信息也有助于實(shí)體消歧。在實(shí)體消歧任務(wù)中,已經(jīng)獲得了所有的候選實(shí)體集。如果知道其指代的知識(shí)庫中實(shí)體應(yīng)當(dāng)具有的類別,那么就能從候選實(shí)體集中確定應(yīng)該鏈接的實(shí)體是哪一個(gè)。
1基于深度學(xué)習(xí)的方法
在早期的工作中SHIMAOKA?S等人[5]提出了基于注意力機(jī)制的模型,通過編碼器得到實(shí)體的表示和上下文的表示,然后通過一個(gè)全連接網(wǎng)絡(luò)進(jìn)行預(yù)測(cè)。XIN?J等人[6]提出了KNET模型,使用了語義注意力、實(shí)體注意力、知識(shí)注意力。實(shí)體使用知識(shí)圖譜中的實(shí)體表示。近年來隨著預(yù)訓(xùn)練語言模型的發(fā)展,?LIN?Y等人[7]使用了預(yù)訓(xùn)練語言模型ELMO和BERT進(jìn)行實(shí)體和上下文的表示,而不是在之前的工作中使用的固定的詞嵌入。模型不是獨(dú)立預(yù)測(cè)每一種類別,而是預(yù)測(cè)一個(gè)低維向量,該向量由潛在類別特征編碼,并以這種潛在表示重建類別向量。以上模型使用了注意力機(jī)制、預(yù)訓(xùn)練語言模型等方法。
2??處理數(shù)據(jù)噪聲
針對(duì)遠(yuǎn)程監(jiān)督產(chǎn)生的數(shù)據(jù)噪聲問題。XU?B等人[8]提出了類似投票的方法,將數(shù)據(jù)集分成兩部分,用其中一部分?jǐn)?shù)據(jù)訓(xùn)練多個(gè)分類器,并用這些分類器對(duì)另一部分?jǐn)?shù)據(jù)打標(biāo)簽,若這些分類器都預(yù)測(cè)某個(gè)類別是錯(cuò)誤的,則將其從數(shù)據(jù)中刪除,此方法比較簡(jiǎn)單但效果有限。XU?P等人[9]提出的模型將訓(xùn)練數(shù)據(jù)集劃分成純凈集合和噪聲集合,對(duì)于純凈集合和降噪集合分別建模設(shè)置不同的目標(biāo)函數(shù)提高效果。XIN?J等人[10]提出使用語言模型來降噪的方法。思想是把文本中的實(shí)體替換成類別,正確的類別要比錯(cuò)誤的類別得到更加通順的句子。通過語言模型的作用,可以讓模型自動(dòng)去關(guān)注那些符合上下文語境的類別。
3??針對(duì)類別層級(jí)的方法
針對(duì)類別的層級(jí)關(guān)系,?CHEN?B等人[11]提出了層次損失標(biāo)準(zhǔn)化的方法,根據(jù)類別在分類樹中的相關(guān)性具有不同程度的懲罰,修正預(yù)測(cè)的概率。XU?B等人[8]將一個(gè)實(shí)體的所有的上下文和類別匯集起來,然后在類別融合的過程中使用整數(shù)規(guī)劃的方法,將層級(jí)關(guān)系顯式地寫成整數(shù)規(guī)劃中的約束,實(shí)現(xiàn)類別融合過程中關(guān)于層級(jí)結(jié)構(gòu)的檢查。ONOE?Y等人[12]使用盒嵌入來捕獲潛在類別的層次結(jié)構(gòu),即模型不需要已知數(shù)據(jù)集的類別結(jié)構(gòu)。模型將類別和實(shí)體嵌入同一個(gè)盒子空間,可以通過盒子的關(guān)系確定他們之間的層級(jí)關(guān)系,用盒子的體積表示概率,可以用來衡量計(jì)算一個(gè)實(shí)體是否屬于某個(gè)類別的概率。
4?最新的研究
最近人們?cè)噲D通過使用更豐富、超細(xì)粒度的類別集來擴(kuò)展細(xì)粒度實(shí)體類別。DAI?H等人[13]提出使用掩碼語言模型來獲取超細(xì)實(shí)體分類的訓(xùn)練數(shù)據(jù)。模型將上下文中的實(shí)體輸入到掩碼語言模型中,以便預(yù)測(cè)實(shí)體的上下文相關(guān)的超詞,它可以用作實(shí)體類別標(biāo)簽。借助這些自動(dòng)生成的標(biāo)簽,超細(xì)粒度實(shí)體分類模型的性能可以顯著提高。DING?N等人[14]研究了提示學(xué)習(xí)在有監(jiān)督、少樣本和零次學(xué)習(xí)中細(xì)粒度實(shí)體分類的應(yīng)用。模型通過構(gòu)建實(shí)體的語言表達(dá)器和模板,并進(jìn)行掩碼語言建模,提出了一個(gè)簡(jiǎn)單而有效的提示學(xué)習(xí)方法。
5?數(shù)據(jù)集和評(píng)估指標(biāo)
5.1??數(shù)據(jù)集
5.1.1?FIGER
數(shù)據(jù)集從維基百科的文章和新聞報(bào)道中取樣,在這些文本中的實(shí)體被映像到來自Freebase的113個(gè)類別中。數(shù)據(jù)集有47個(gè)粗粒度類別,66個(gè)細(xì)粒度類別[1]。
5.1.2?BBN
數(shù)據(jù)集的類別層級(jí)有兩級(jí),標(biāo)記了《華爾街日?qǐng)?bào)》的Penn?Treebank語料庫(LDC95T7)中的一部分作為BBN實(shí)體分類語料庫。數(shù)據(jù)集有17個(gè)粗粒度類別,39個(gè)細(xì)粒度類別[3]。
5.1.3?OntoNotes
數(shù)據(jù)集從OntoNotes語料庫中抽取句子,并使用類別層級(jí)結(jié)構(gòu)中的89種類別對(duì)實(shí)體進(jìn)行標(biāo)注。此數(shù)據(jù)集的類別有3個(gè)層級(jí):一級(jí)類別4個(gè)、二級(jí)類別44個(gè)和三級(jí)類別41個(gè)[15]。
5.2?評(píng)估指標(biāo)
細(xì)粒度實(shí)體分類任務(wù)采用嚴(yán)格的準(zhǔn)確率(Strict?Accuracy,Acc)、宏平均F1值(Macro-F1?score,MaF1)和微平均F1值(Micro-F1?score,MiF1)進(jìn)行評(píng)估。對(duì)于輸入,設(shè)預(yù)測(cè)的類別集合為
,設(shè)數(shù)據(jù)集的標(biāo)注類別集為
。嚴(yán)格的準(zhǔn)確率是滿足
的實(shí)例的比率。宏平均F1值是計(jì)算所有樣本的召回率和精度的平均值,然后再計(jì)算F1值。而微平均F1值是計(jì)算所有樣本的真陽性、假陰性和假陽性總數(shù),然后計(jì)算F1值。3個(gè)指標(biāo)的具體計(jì)算公式如下。
6?結(jié)語
綜上所述,在細(xì)粒度實(shí)體分類任務(wù)中,研究者主要從處理數(shù)據(jù)噪聲和類別的層級(jí)關(guān)系建模,以及掩碼語言模型、提示學(xué)習(xí)或更好的嵌入方法等。隨著實(shí)體分類任務(wù)研究的進(jìn)一步深入,未來有待進(jìn)一步研究的方向有少樣本和零樣本學(xué)習(xí)問題,如何處理新的類別,以及如何結(jié)合具體的任務(wù)如關(guān)系抽取、實(shí)體鏈接等進(jìn)行細(xì)粒度實(shí)體分類。
參考文獻(xiàn)
[1] LING?X,?WELD?D?S.Fine-grained?entity?recognition[C]//Twenty-Sixth?AAAI?Conference?on?Artificial?Intelligence.2012:94-100.[2]?Ren?X,He?W,Qu?M,et?al.Afet:?Automatic?fine-grained?entity?typing?by?hierarchical?partial-label?embedding[C]//Proceedings?of?the?2016?conference?on?empirical?methods?in?natural?language?processing.2016:1369-1378.
[3] WEISCHEDEL?R,BRUNSTEIN?A.BBN?Pronoun?Coreference?and?Entity?Type?Corpus[EB/OL].[2005-09-20].https://doi.org/10.35111/9fx9-gz10.
[4] VASHISHTH?S,JOSHI?R,PRAYAGA?S?S,et?al.RESIDE:?Improving?Distantly-Supervised?Neural?Relation?Extraction?using?Side?Information[C]//Proceedings?of?the?2018?Conference?on?Empirical?Methods?in?Natural?Language?Processing.2018:1257-1266.
[5] SHIMAOKA?S,?STENETORP?P,?INUI?K,?et?al.?Neural?Architectures?for?Fine-grained?Entity?Type?Classification[C]//Association?for?Computational?Linguistics.In?Proceedings?of?the?15th?Conference?of?the?European?Chapter?of?the?Association?for?Computational?Linguistics.?2017:1271–1280.
[6] XIN?J,ZHU?H,HAN?X,et?al.Put?It?Back:Entity?Typing?with?Language?Model?Enhancement[C]//Proceedings?of?the?2018?Conference?on?Empirical?Methods?in?Natural?Language?Processing.2018:993-998.
[7] LIN?Y,?JI?H.An?Attentive?Fine-Grained?Entity?Typing?Model?with?Latent?Type?Representation[C]//Proceedings?of?the?2019?Conference?on?Empirical?Methods?in?Natural?Language?Processing?and?the?9th?International?Joint?Conference?on?Natural?Language?Processing.2019:6197-6202.
[8] XU?B,?LUO?Z,HUANG?L,et?al.METIC:?Multi-Instance?Entity?Typing?from?Corpus[C]//Proceedings?of?the?27th?ACM?International?Conference?on?Information?and?Knowledge?Management.2018:?903-912.
[9] XU?P,?BARBOSA?D.?Neural?Fine-Grained?Entity?Type?Classification?with?Hierarchy-Aware?Loss[C]//Association?for?Computational?Linguistics.?In?Proceedings?of?the?2018?Conference?of?the?North?American?Chapter?of?the?Association?for?Computational?Linguistics:?Human?Language?Technologies,?Volume?1.2018:16–25.
[10] XIN?J,LIN?Y,LIU?Z,et?al.Improving?neural?fine-grained?entity?typing?with?knowledge?attention[C]//Thirty-second?AAAI?conference?on?artificial?intelligence.2018.
[11] CHEN?B,GU?X,HU?Y,et?al.Improving?Distantly-supervised?Entity?Typing?with?Compact?Latent?Space?Clustering[C]//Proceedings?of?the?2019?Conference?of?the?North?American?Chapter?of?the?Association?for?Computational?Linguistics.2019:2862-2872.
[12] ONOE?Y,BORATKO?M,MCCALLUM?A,et?al.Modeling?Fine-Grained?Entity?Types?with?Box?Embeddings[C]//Proceedings?of?the?59th?Annual?Meeting?of?the?Association?for?Computational?Linguistics?and?the?11th?International?Joint?Conference?on?Natural?Language?Processing.2021:2051-2064.
[13] DAI?H,SONG?Y,WANG?H.Ultra-Fine?Entity?Typing?with?Weak?Supervision?from?a?Masked?Language?Model[C]//Proceedings?of?the?59th?Annual?Meeting?of?the?Association?for?Computational?Linguistics?and?the?11th?International?Joint?Conference?on?Natural?Language?Processing.2021:1790-1799.
[14] DING?N,CHEN?Y,HAN?X,et?al.Prompt-Learning?for?Fine-Grained?Entity?Typing[J].Association?for?Computational?Linguistics.In?Findings?of?the?Association?for?Computational?Linguistics:EMNLP?2022:6888–6901.
[15] GILLICK?D,LAZIC?N,GANCHEV?K,et?al.Context-Dependent?Fine-Grained?Entity?Type?Tagging[EB/OL].?https://dblp:?Context-Dependent?Fine-Grained?Entity?Type?Tagging.