• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      中文實(shí)體關(guān)系抽取研究綜述

      2018-09-06 01:54:04武文雅陳鈺楓徐金安張玉潔
      關(guān)鍵詞:語料實(shí)體語義

      武文雅,陳鈺楓,徐金安,張玉潔

      (北京交通大學(xué)計(jì)算機(jī)與信息技術(shù)學(xué)院,北京 100044)

      0 引 言

      20世紀(jì)90年代中期以來,隨著網(wǎng)絡(luò)信息資源的日漸豐富、計(jì)算機(jī)速度的大幅度提高,主要以文字、圖像等形式為依托的信息化時(shí)代強(qiáng)勢(shì)到來。信息化時(shí)代的標(biāo)志是信息爆發(fā)價(jià)值,如今信息化成為了時(shí)代發(fā)展的主流趨勢(shì),是前沿生產(chǎn)力的主要標(biāo)志。隨著信息時(shí)代的高速發(fā)展,信息數(shù)據(jù)呈現(xiàn)規(guī)模巨大、模態(tài)多樣和高速增長等特征。在網(wǎng)絡(luò)搜索過程中,當(dāng)用戶輸入要查詢的信息時(shí),希望計(jì)算機(jī)能夠從語義層面理解用戶真實(shí)想要獲取的信息,而不只是關(guān)鍵字的提取和搜索,這就迫切要求能快速、準(zhǔn)確地獲取用戶真正所需信息的技術(shù)手段——信息抽取技術(shù)的進(jìn)一步發(fā)展,以滿足用戶搜索的需求。比如說,當(dāng)用戶輸入“英國倫敦”時(shí),希望得到的是關(guān)于英國倫敦這座城市的多方面相關(guān)信息,如政治、經(jīng)濟(jì)、文化、地理位置、旅游景點(diǎn)、教育機(jī)制等,而不僅僅是簡(jiǎn)單的關(guān)于倫敦的關(guān)鍵字的句子提取。

      近年來,自然語言處理領(lǐng)域的研究者們開始致力于知識(shí)圖譜構(gòu)建的研究。知識(shí)圖譜究其根本是一種語義網(wǎng)絡(luò)圖,通俗來講,就是把多種信息按照一定的規(guī)則融合在一起而得到的關(guān)系網(wǎng)絡(luò)。知識(shí)圖譜是從“關(guān)系”的角度來分析問題的,為搜索提供了新思路:直接返回問題的答案,而不是返回包含關(guān)鍵詞的文檔序列。信息抽取則是知識(shí)圖譜構(gòu)建的關(guān)鍵一步。

      信息抽取主要含有命名實(shí)體識(shí)別和實(shí)體關(guān)系抽取這2類子任務(wù)。命名實(shí)體識(shí)別指的是從自然語言文本中識(shí)別出實(shí)體類、時(shí)間類和數(shù)字類3大類,以及人名、機(jī)構(gòu)名、地名、時(shí)間等7小類命名實(shí)體[1]。命名實(shí)體識(shí)別準(zhǔn)確率的提高可以促進(jìn)信息提取、語篇理解、句法分析以及機(jī)器翻譯等任務(wù)的發(fā)展,對(duì)自然語言處理技術(shù)產(chǎn)業(yè)化發(fā)揮著奠基性的作用,但是實(shí)體識(shí)別得到的只是以離散形式存在的實(shí)體,并不能有效地反映命名實(shí)體之間的關(guān)系,而實(shí)體關(guān)系抽取就是用來處理這個(gè)問題的方法。實(shí)體關(guān)系抽取是從自然語言文本中辨別出2個(gè)實(shí)體間所存在的語義關(guān)系,例如,對(duì)于句子“李克強(qiáng)在阿斯塔納會(huì)見阿富汗首席執(zhí)行官阿卜杜拉?!敝械膶?shí)體“李克強(qiáng)”和“阿卜杜拉”之間存在著“會(huì)見”關(guān)系,同時(shí),實(shí)體“阿富汗”和“阿卜杜拉”間擁有“首席執(zhí)行官”的關(guān)系。作為自然語言處理的重要任務(wù)之一,實(shí)體關(guān)系抽取為海量信息處理、中文信息檢索、知識(shí)庫自動(dòng)構(gòu)建、機(jī)器翻譯和自動(dòng)文摘等眾多自然語言處理任務(wù)提供了重要的技術(shù)支持。

      1 實(shí)體關(guān)系抽取的產(chǎn)生與發(fā)展

      1.1 實(shí)體關(guān)系抽取的產(chǎn)生

      美國國防高級(jí)研究計(jì)劃委員會(huì)(DARPA)資助的MUC會(huì)議鼓勵(lì)關(guān)于信息抽取新方法的提出[2]。1995年舉辦了MUC-6會(huì)議,前面幾屆會(huì)議都聚焦在“信息提取”任務(wù)上:分析自由文本,識(shí)別某種特定類型的事件,并使用每個(gè)事件的信息去填充數(shù)據(jù)庫模板。隨著前5次MUCs的開展,任務(wù)和模板變得越來越復(fù)雜。NYU和NRaD合作提出了命名實(shí)體識(shí)別(NER)、指代(Coreference)、模板元素(Template Elements)和場(chǎng)景模板(Scenario Templates)[2]這4項(xiàng)任務(wù)。

      1998年最后一次MUC-7會(huì)議在MUC-6會(huì)議任務(wù)的基礎(chǔ)上初次提出了關(guān)系抽取(模板關(guān)系,Template Relation)任務(wù),是用模板關(guān)系來進(jìn)行描述的[3]。MUC-7會(huì)議的語料是與飛機(jī)失事事件(airplane crashes)和航天器發(fā)射事件(rocket missile launches)相關(guān)的新聞報(bào)道,主要包含LOCATION_OF、EMPLOYEE_OF和PRODUCT_OF[4]這3種實(shí)體關(guān)系類別。

      1.2 實(shí)體關(guān)系抽取的發(fā)展

      MUC會(huì)議一共舉辦了7屆,進(jìn)入21世紀(jì)后,美國國家標(biāo)準(zhǔn)技術(shù)研究所(NIST)組織的自動(dòng)內(nèi)容抽取(ACE)評(píng)測(cè)會(huì)議成為信息抽取研究進(jìn)一步發(fā)展的主要?jiǎng)恿5]。自動(dòng)內(nèi)容抽取(ACE)評(píng)測(cè)會(huì)議是21世紀(jì)初期繼MUC會(huì)議之后,文本分析會(huì)議(TAC)之前的研究先進(jìn)信息抽取技術(shù)的會(huì)議。該評(píng)測(cè)會(huì)議將實(shí)體關(guān)系識(shí)別作為一項(xiàng)重要的評(píng)測(cè)任務(wù)進(jìn)行發(fā)布[5]。

      ACE的實(shí)體關(guān)系語料是語言資源聯(lián)盟(LDC)供給的,語種已由單一的英文擴(kuò)展到了阿拉伯語、西班牙語和中文。中文的數(shù)據(jù)是由哈工大自然語言處理實(shí)驗(yàn)室標(biāo)注的,數(shù)據(jù)內(nèi)容涉及廣播新聞、新聞專線和網(wǎng)絡(luò)會(huì)話。ACE的實(shí)體關(guān)系語料的語種數(shù)量和數(shù)據(jù)規(guī)模在MUC的基礎(chǔ)上都有了大幅度的擴(kuò)展。ACE 2008的關(guān)系抽取任務(wù)共定義了組織機(jī)構(gòu)—附屬、部分—整體、人—社會(huì)等7個(gè)大類的實(shí)體關(guān)系,細(xì)分為使用者—擁有者—發(fā)明人—制造人、公民—居民—宗教人士—種族人士、組織—位置等18個(gè)子類的實(shí)體關(guān)系。ACE評(píng)測(cè)會(huì)議給實(shí)體關(guān)系抽取研究提供了新的發(fā)展平臺(tái)[5]。從2009年開始,ACE被歸入文本分析會(huì)議(TAC),成為了Knowledge Base Population工程中不可缺少的一部分[6]。

      除了MUC和ACE會(huì)議之外,語義評(píng)估(Semantic Evaluation, SemEval)會(huì)議也是自然語言處理領(lǐng)域中一個(gè)極具影響力的評(píng)測(cè)會(huì)議。該會(huì)議聚焦于句子級(jí)單元間的彼此聯(lián)系(例如語義角色標(biāo)注)、語句間的聯(lián)系(例如指代)和人們所說的自然語言(語義關(guān)系和情感分析)。SemEval-2007的評(píng)測(cè)任務(wù)4中設(shè)置了7種常用名詞和名詞短語間的實(shí)體關(guān)系,在SemEval-2010第8項(xiàng)任務(wù)中將實(shí)體關(guān)系類型擴(kuò)充到了9種:Component-Whole、Instrument-Agency、Member-Collection、Cause-Effect、Entity-Destination、Content-Container、Message-Topic、Product-Producer和Entity-Origin。在2010年的評(píng)測(cè)中掀起了普通名詞和名詞短語間實(shí)體關(guān)系抽取研究的新高潮[7]。

      MUC、ACE、SemEval評(píng)測(cè)會(huì)議所用的實(shí)體關(guān)系語料都是事先標(biāo)注好的,即由領(lǐng)域?qū)<抑贫ê藐P(guān)系類型體系,然后對(duì)大規(guī)模文本進(jìn)行人工逐個(gè)判斷。這樣的方法耗時(shí)耗力,成本極高,同時(shí)不利于擴(kuò)展語料類型。近年來,開放域?qū)嶓w關(guān)系抽取方法逐漸受到關(guān)注,相比傳統(tǒng)實(shí)體關(guān)系抽取來說,在語料方面它解決了語料獲取困難的問題。Wikipedia、HowNet、WordNet和Freebase等涵蓋大規(guī)模事實(shí)性信息的知識(shí)庫為標(biāo)注語料的獲取提供了有效的數(shù)據(jù)支持。與傳統(tǒng)的人工標(biāo)注語料方法相比較,基于Web開放語料的規(guī)模更宏大,涉及的領(lǐng)域更廣闊,囊括的關(guān)系類型也更豐富[8]。

      2 中文實(shí)體關(guān)系抽取的研究現(xiàn)狀

      在當(dāng)今時(shí)代中,中文在全球的使用越來越廣泛,因此對(duì)中文實(shí)體關(guān)系抽取的研究也日趨緊迫。根據(jù)輸入數(shù)據(jù)是否有標(biāo)簽,即語料中的實(shí)體關(guān)系是否被標(biāo)注出來,本文把中文實(shí)體關(guān)系抽取方法分為有監(jiān)督學(xué)習(xí)方法、半監(jiān)督學(xué)習(xí)方法、無監(jiān)督學(xué)習(xí)方法和開放域抽取方法[9],下面對(duì)這幾種方法分別進(jìn)行相關(guān)介紹。

      2.1 有監(jiān)督的中文實(shí)體關(guān)系抽取

      有監(jiān)督的實(shí)體關(guān)系抽取方法是最早開始使用的,也是發(fā)展最快的方法。在這種學(xué)習(xí)方法中,關(guān)系抽取常被當(dāng)作分類問題來解決。關(guān)系抽取所依賴的方法基本可以歸納為:基于模式匹配的方法和基于機(jī)器學(xué)習(xí)的方法[11]。其根據(jù)關(guān)系實(shí)例的表示方式不同分為基于特征的方法和基于核函數(shù)的方法[10]。

      基于模式匹配的關(guān)系抽取方法需要領(lǐng)域?qū)<液驼Z言學(xué)家互相合作,運(yùn)用語言學(xué)知識(shí)和專業(yè)領(lǐng)域知識(shí)構(gòu)造出基于詞語、詞性或語義的模式集合。通過將預(yù)處理后的語言片段和模式進(jìn)行匹配來實(shí)現(xiàn)關(guān)系抽取,如果兩者相匹配,則可以說該語句擁有相應(yīng)模式的關(guān)系屬性。這種方案的關(guān)鍵之處在于關(guān)系模式的確立,關(guān)系模式的建立需要語言學(xué)家對(duì)領(lǐng)域?qū)I(yè)知識(shí)通達(dá),窮舉所有可能的關(guān)系表達(dá),人工羅列關(guān)系模式。限于語言學(xué)家對(duì)專業(yè)知識(shí)的了解,該方法既費(fèi)時(shí)費(fèi)力,又不可避免地出現(xiàn)錯(cuò)誤;同時(shí)領(lǐng)域自適應(yīng)性能極差,當(dāng)出現(xiàn)新領(lǐng)域語料時(shí),需要語言學(xué)家重新列舉關(guān)系模式,研究者針對(duì)此問題提出了一些經(jīng)過實(shí)驗(yàn)證明可行的解決方法[11]。

      Appelt等[12]在MUC-6會(huì)議上闡述了FASTUS抽取系統(tǒng),并提出了“宏”這一新概念,用一般通用形式來構(gòu)建領(lǐng)域規(guī)則。若想迅速構(gòu)建不同專業(yè)領(lǐng)域的關(guān)系模式體系只需要重置相應(yīng)“宏”中的參數(shù)。Yangarber等[13]在MUC-7會(huì)議上展示的Proteus抽取系統(tǒng)中融合了樣本泛化的關(guān)系抽取模式方法,一定程度上提高了模式構(gòu)建的領(lǐng)域自適應(yīng)能力。周詩詠[14]提出了一種融合語義模式匹配的實(shí)體關(guān)系抽取模型SPMREM,在分析文本語義結(jié)構(gòu)的基礎(chǔ)上提出一種字符串匹配方法,并結(jié)合相似密度方法對(duì)關(guān)系模式進(jìn)行聚類,提取關(guān)系模式集,實(shí)驗(yàn)表明該方法能高效地從語料中抽取相關(guān)的關(guān)系模式。

      基于模式匹配的方法已有了一定的成效,同時(shí)基于特征向量的關(guān)系抽取目前也已經(jīng)取得了不可忽視的成果。若想改進(jìn)基于特征向量的方法則需要在有效特征的抽取與集成上下功夫。準(zhǔn)確地獲取詞法、句法、語義等特征,并把它們?nèi)诤显谝黄?,這才是特征向量方法進(jìn)步的根源。中文實(shí)體關(guān)系抽取的結(jié)果通常采用F值來進(jìn)行評(píng)價(jià),計(jì)算方法如下[15]:

      與F值計(jì)算相關(guān)的準(zhǔn)確率(Precision)和召回率(Recall)的計(jì)算公式如下所示[15]:

      在基于特征向量的中文實(shí)體關(guān)系抽取研究方面,車萬翔等[15]運(yùn)用Winnow和SVM算法,謹(jǐn)慎研究比較發(fā)現(xiàn),當(dāng)選取每個(gè)實(shí)體的周圍2個(gè)詞為特征時(shí),抽取效果達(dá)到最佳。在ACE RDC 2004語料上實(shí)驗(yàn),加權(quán)平均F值分別達(dá)到73.08%和73.27%。在不同的語料上,通常會(huì)存在不同的最優(yōu)特征向量,例如,在ACE2004的語料上,車萬翔等[15]實(shí)驗(yàn)得出實(shí)體周圍2個(gè)詞為最優(yōu)特征,但是在微博新聞?wù)Z料上,當(dāng)選取實(shí)體周圍3個(gè)詞為特征時(shí),效果要優(yōu)于2個(gè)詞的情況。黃鑫等[16]提取了語料詞語、實(shí)體和語法的基本特征后,將其進(jìn)行特征組合,在ACE RDC 2005中文語料上進(jìn)行實(shí)驗(yàn),結(jié)果表明組合特征的性能比單獨(dú)特征的性能更好,F(xiàn)值平均提高了2.0%。一般而言,組合特征的效果由于融合了多種特征,在效果上有一定的提升,除非組合特征過于貼合訓(xùn)練集,過擬合現(xiàn)象嚴(yán)重,會(huì)導(dǎo)致F值不升反降。郭喜躍等[17]在詞法特征和實(shí)體原始特征的基礎(chǔ)上加入了依存句法關(guān)系、核心謂詞和語義角色標(biāo)柱等特征,實(shí)驗(yàn)結(jié)果表明加入的多種特征對(duì)關(guān)系抽取準(zhǔn)確率的提高頗有幫助。依存句法信息和語義角色標(biāo)注等信息的加入使得特征向量更加飽滿,特征更具代表性,極大程度上提高了關(guān)系抽取的性能。

      有監(jiān)督關(guān)系抽取方法的另一個(gè)主流方法是基于核函數(shù)的方法。早期使用較多的是序列核函數(shù),它一方面擁有較好的復(fù)合性能,另一方面考慮了特征間的順序和結(jié)構(gòu)信息。在序列核函數(shù)的基礎(chǔ)上加入語義信息可以拓展算法應(yīng)用范圍。將多種核函數(shù)融合在一起聯(lián)合抽取實(shí)體關(guān)系會(huì)充分發(fā)揮各種核函數(shù)的優(yōu)勢(shì),實(shí)驗(yàn)證明其結(jié)果提升明顯。虞歡歡等[18]構(gòu)造了句法和語義關(guān)系樹,方法是將實(shí)體語義信息加入關(guān)系實(shí)例的結(jié)構(gòu)化信息中,不僅可以獲得結(jié)構(gòu)化信息,還可以獲取實(shí)體語義信息。在ACE RDC 2005中文語料上進(jìn)行的實(shí)驗(yàn)表明,構(gòu)造實(shí)體語義結(jié)構(gòu)樹方法能提高F值,同時(shí)也說明規(guī)則化的結(jié)構(gòu)句法信息和語義信息相結(jié)合可以增強(qiáng)有效特征。Zhou等[19]提出了一種基于樹核的語義信息抽取方法,利用解析樹和實(shí)體對(duì)構(gòu)造豐富的語義關(guān)系結(jié)構(gòu),來綜合句法和語義信息,在ACE 語料上的實(shí)驗(yàn)結(jié)果表明這種樹核方法在當(dāng)時(shí)處于世界領(lǐng)先水平。王敏[20]把基于特征向量的平面核融合到了基于句法分析樹的結(jié)構(gòu)核中,這種多核融合的方法使得關(guān)系抽取性能得到了提升。陳鵬等[21-22]詳細(xì)考究了特定領(lǐng)域信息的特征,構(gòu)造出含有語義關(guān)系的領(lǐng)域知識(shí)樹,并將其應(yīng)用到領(lǐng)域信息的句法樹中。在旅游相關(guān)領(lǐng)域的語料上進(jìn)行關(guān)系抽取實(shí)驗(yàn),結(jié)果表明由于引入了語義知識(shí)該方法優(yōu)化了關(guān)系抽取性能。郭劍毅等[23]針對(duì)傳統(tǒng)徑向基核函數(shù)的訓(xùn)練矩陣中所有元素接近于零不利于分類的問題,提出了一種向量離散化的訓(xùn)練矩陣,將改進(jìn)的徑向基核函數(shù)融合多項(xiàng)式函數(shù)及卷積樹核函數(shù)進(jìn)行實(shí)驗(yàn),實(shí)驗(yàn)結(jié)果證實(shí)了相對(duì)單一核函數(shù),改良的多核融合方法性能更優(yōu)。

      基于核函數(shù)方法在運(yùn)算速度上有一定的弊端,盡管如此,研究者還是希望通過對(duì)核函數(shù)的進(jìn)一步研究來獲得關(guān)系抽取的進(jìn)步。

      2.2 半監(jiān)督的中文實(shí)體關(guān)系抽取

      運(yùn)用半監(jiān)督的方法進(jìn)行中文實(shí)體關(guān)系抽取,只需要少量的標(biāo)注數(shù)據(jù),因此,當(dāng)需要處理標(biāo)注語料較少的實(shí)體關(guān)系抽取任務(wù)時(shí),可以選用半監(jiān)督的方法。

      自舉方法(Bootstrapping)、協(xié)同訓(xùn)練(Co-training)和標(biāo)注傳播(Label propagation)方法是目前在關(guān)系抽取任務(wù)中經(jīng)常使用的半監(jiān)督方法,以下分別進(jìn)行介紹。

      Brin[24]首先使用了基于Bootstrapping的半監(jiān)督方法進(jìn)行實(shí)體關(guān)系抽取。該方法首先需要確立關(guān)系種子類型,接著從包含種子的上下文中總結(jié)關(guān)系模式從而尋找更多的關(guān)系種子實(shí)例以便于擴(kuò)充種子集合,最后迭代得到領(lǐng)域關(guān)系實(shí)例和序列模式。余麗等[25]運(yùn)用Bootstrapping方法在地理領(lǐng)域的語料上分析詞語的特征,比如詞性、位置、距離,根據(jù)這些特征來提取表示實(shí)體關(guān)系的關(guān)系指示詞。該方法能自動(dòng)挖掘自然語言的部分詞法特征,避免對(duì)大規(guī)模標(biāo)注語料的依賴,適合用于缺乏大量標(biāo)注語料的關(guān)系抽取任務(wù)。

      基于Bootstrapping的方法對(duì)初始關(guān)系種子的質(zhì)量要求較高,如果初始關(guān)系種子選擇不恰當(dāng),會(huì)對(duì)種子集合的擴(kuò)展有影響。當(dāng)領(lǐng)域發(fā)生遷移時(shí)需要重新確立序列模式并且重新構(gòu)建高質(zhì)量的關(guān)系種子。

      基于協(xié)同訓(xùn)練思想的BootProject方法被Zhang提出用來進(jìn)行半監(jiān)督語義關(guān)系分類[26]。BootProject方法是從一個(gè)大的特征集合中任意抽取出含有合適數(shù)目的特征子集當(dāng)作一個(gè)窗口,反復(fù)此進(jìn)程獲得多個(gè)窗口,運(yùn)用開始少量的種子集合語料訓(xùn)練分類器,對(duì)實(shí)例進(jìn)行分類,以此找出有代表性的關(guān)系實(shí)例,投入種子集合中以便下一次的種子集拓展。初始種子集大小與結(jié)果準(zhǔn)確率有關(guān),在一定范圍內(nèi),它們成正相關(guān)。張一昌[27]將協(xié)同訓(xùn)練關(guān)系抽取方法和核函數(shù)融合在一起,F(xiàn)值提高了0.05%,同時(shí),他還把Word-embedding應(yīng)用于協(xié)同訓(xùn)練關(guān)系抽取中,使F值有了0.1%的提升。這個(gè)方法涉及的2個(gè)問題是,怎樣抽取理想的初始種子集以及怎樣減少迭代過程中的錯(cuò)誤實(shí)例數(shù)量。

      標(biāo)注傳播算法是一種基于圖的半監(jiān)督學(xué)習(xí)方法,它的目的是訓(xùn)練計(jì)算機(jī)從半結(jié)構(gòu)化或者非結(jié)構(gòu)化的文本中自動(dòng)識(shí)別出實(shí)體對(duì)之間存在的關(guān)系。該方法的特別之處在于利用圖策略建立關(guān)系抽取模型,圖上的節(jié)點(diǎn)表示樣本實(shí)例,圖上邊的權(quán)重表示樣本實(shí)例之間的距離,關(guān)系抽取任務(wù)就此轉(zhuǎn)化成為根據(jù)該圖估計(jì)一個(gè)滿足全局一致性假設(shè)的標(biāo)注函數(shù),這種任務(wù)轉(zhuǎn)化的思想為中文實(shí)體關(guān)系抽取任務(wù)提供了新的解決思路。當(dāng)標(biāo)注數(shù)據(jù)較為缺乏時(shí),標(biāo)注傳播算法在中文實(shí)體關(guān)系抽取任務(wù)中往往可以取得遠(yuǎn)高于有監(jiān)督方法(SVM,NB,RNN)的抽取準(zhǔn)確率[28]。這是因?yàn)闃?biāo)注傳播算法可以借助圖模型來平滑無標(biāo)簽樣本的標(biāo)簽信息。也就是說,在半監(jiān)督學(xué)習(xí)方法中,無標(biāo)簽樣本的標(biāo)簽信息同時(shí)由與其相鄰的有標(biāo)簽樣本和無標(biāo)簽樣本來決定。然而在有監(jiān)督方法中,無標(biāo)簽樣本的標(biāo)簽信息僅僅取決于與之相鄰的有標(biāo)簽樣本。郝建柏[29]提出基于局部線性嵌入算法構(gòu)建圖的標(biāo)簽傳遞算法,該算法中的圖比傳統(tǒng)圖更容易使用,分類精度更高,在實(shí)驗(yàn)中的結(jié)果也證實(shí)了這一點(diǎn)。該方法的缺點(diǎn)是占用更多的存儲(chǔ)空間,運(yùn)行時(shí)間也比較長。

      對(duì)于半監(jiān)督學(xué)習(xí),共同存在的問題是初始種子集的選取,以及如何緩解迭代過程中的噪音干擾等語義漂移問題。當(dāng)然,進(jìn)一步探索新的半監(jiān)督學(xué)習(xí)方法是提高半監(jiān)督學(xué)習(xí)抽取性能的有效手段。

      2.3 無監(jiān)督的中文實(shí)體關(guān)系抽取

      在沒有標(biāo)注數(shù)據(jù)的情況下,研究者們使用無監(jiān)督方法進(jìn)行中文實(shí)體關(guān)系抽取,主要包括實(shí)體對(duì)聚類和關(guān)系指示詞選擇2部分。具體做法是首先將上下文相似度高的實(shí)體對(duì)聚為一類,然后選擇具有代表性的詞語來標(biāo)記這一類關(guān)系。

      Hasegawa等[30]在ACL會(huì)議上首次使用了無監(jiān)督的關(guān)系抽取方法,該方法識(shí)別出實(shí)體對(duì)的類型,把共同出現(xiàn)次數(shù)多于一定閾值的實(shí)體對(duì)作為潛在的語義關(guān)系,并且計(jì)算實(shí)體對(duì)間的詞匯相似度對(duì)其進(jìn)行聚類,最后根據(jù)經(jīng)驗(yàn)給聚類的實(shí)體對(duì)冠上合適的關(guān)系名稱。實(shí)驗(yàn)中使用這個(gè)方法發(fā)現(xiàn)的公司實(shí)體對(duì)之間的語義關(guān)系F值高達(dá)0.75,實(shí)驗(yàn)證明這種無指導(dǎo)的方法效果較為明顯。Rink等[31]基于產(chǎn)生式模型構(gòu)建了無監(jiān)督實(shí)體關(guān)系抽取框架,實(shí)現(xiàn)了醫(yī)學(xué)專業(yè)領(lǐng)域中實(shí)體關(guān)系的有效抽取,這一在特定領(lǐng)域中進(jìn)行無監(jiān)督的關(guān)系抽取方法的應(yīng)用,在一定程度上促進(jìn)了關(guān)系抽取產(chǎn)業(yè)化的進(jìn)一步發(fā)展。孫勇亮[32]采用密度聚類算法,在無監(jiān)督實(shí)體關(guān)系抽取任務(wù)中獲得了不錯(cuò)的結(jié)果,實(shí)驗(yàn)表明優(yōu)化聚類算法對(duì)無監(jiān)督關(guān)系抽取性能的提升有著重要的作用。王晶[33]提出了一種語料相關(guān)的提取特征算法,其中考慮到了啟發(fā)式規(guī)則,并且根據(jù)數(shù)據(jù)集特征孕育出一種新的聚類算法,在大規(guī)模網(wǎng)絡(luò)文本中進(jìn)行實(shí)驗(yàn),表明該方法在關(guān)系抽取任務(wù)上有效果。施琦[34]使用了一種彈性上下文窗口代替?zhèn)鹘y(tǒng)固定窗口大小的模式來進(jìn)行特征詞的選取,并且充分利用互信息計(jì)算特征詞權(quán)值同時(shí)融入了改進(jìn)的k-means算法,在網(wǎng)絡(luò)文本上的實(shí)驗(yàn)表明,這些改進(jìn)都可以使關(guān)系抽取的精度提高。

      使用無監(jiān)督的方法進(jìn)行實(shí)體關(guān)系抽取不需要預(yù)先定義實(shí)體關(guān)系類型體系,領(lǐng)域適應(yīng)性強(qiáng),在處理大規(guī)模網(wǎng)絡(luò)文本數(shù)據(jù)時(shí)極具優(yōu)勢(shì),改進(jìn)方法主要在于選擇合適的特征和優(yōu)化聚類算法。無監(jiān)督的實(shí)體關(guān)系抽取需要預(yù)先確定聚類閾值,這是該方法的難點(diǎn),同時(shí),無監(jiān)督的實(shí)體關(guān)系抽取尚缺乏客觀的評(píng)價(jià)標(biāo)準(zhǔn)。

      2.4 開放域中文實(shí)體關(guān)系抽取

      近年來,專家學(xué)者們提出了一種針對(duì)開放領(lǐng)域?qū)嶓w關(guān)系抽取的Open Information Extraction(Open IE)方法[35-37],不需要人工標(biāo)注語料,也不需要事先知道抽取哪些實(shí)體關(guān)系。它的目標(biāo)是自動(dòng)將自然語言句子轉(zhuǎn)換為有意義的事實(shí)性命題。例如,輸入句子“莫言,山東高密人,是中國歷史上第一位獲得諾貝爾文學(xué)獎(jiǎng)的作家?!陛敵雒}:莫言,是,山東高密人;莫言,是,作家;莫言,是,中國人;莫言,第一位獲得,諾貝爾文學(xué)獎(jiǎng)。通過對(duì)輸出命題的分析,可以得到很多有效的信息。在海量網(wǎng)絡(luò)文本數(shù)據(jù)中,可以通過開放式關(guān)系抽取快速地從中提取大量的實(shí)體關(guān)系三元組。例如,從“北宋有名的詩人范仲淹政績突出,文學(xué)成就卓越?!敝谐槿〕?北宋,詩人,范仲淹)這個(gè)關(guān)系三元組?!氨彼巍焙汀胺吨傺汀边@2個(gè)實(shí)體的關(guān)系用句子當(dāng)中的名詞“詩人”來描述。當(dāng)然,通??梢杂镁渥赢?dāng)中的名詞、動(dòng)詞或者名詞性短語來描述實(shí)體關(guān)系。

      Open IE方法的難點(diǎn)主要在于復(fù)雜句子的處理和關(guān)系短語語義的歸一化,不是所有的句子都能很容易地找到正確命題。對(duì)于開放域?qū)嶓w關(guān)系抽取可用的技術(shù)有句法模式學(xué)習(xí)、自學(xué)習(xí)技術(shù)、句子分解技術(shù)、Clustering和Inference Rule Discovery等。針對(duì)復(fù)雜句子的處理,Corro和Gemulla等[38]提出了Clause IE,它根據(jù)語言語法規(guī)律定義了7種簡(jiǎn)單句子模式和一系列句子分解規(guī)則,將復(fù)雜句子分解為簡(jiǎn)單句,借助化繁為簡(jiǎn)的方法,使復(fù)雜句子轉(zhuǎn)化為簡(jiǎn)單句來進(jìn)行處理。對(duì)于語義的歸一化,目前的解決方案是計(jì)算不同關(guān)系短語之間的相似度來識(shí)別表達(dá)相同語義的關(guān)系短語,代表性模型有Topic Model[39]、Random Walk[40]。

      Washington大學(xué)的人工智能研究組在開放式實(shí)體關(guān)系抽取領(lǐng)域作出了很大貢獻(xiàn)。TextRunner[41]、WOE[42]等系統(tǒng)都是其開發(fā)用于開放域關(guān)系抽取研究的。

      目前,對(duì)于中文開放域?qū)嶓w關(guān)系抽取也有了一定的進(jìn)展。秦兵等[43]在大規(guī)模的網(wǎng)絡(luò)文本上進(jìn)行了無監(jiān)督的實(shí)體關(guān)系抽取。通過觀察,其首先利用實(shí)體間的距離和關(guān)系指示詞的位置限制得到大量的候選關(guān)系三元組,接著使用基于規(guī)則的方法提取能正確表示實(shí)體間關(guān)系的關(guān)系指示詞,最后通過對(duì)錯(cuò)誤三元組進(jìn)行分析,構(gòu)建合適的句式規(guī)則,對(duì)其過濾得到精確度較高的實(shí)體關(guān)系三元組,可用于充實(shí)文本知識(shí)庫。郭喜躍[44]在百科類開放領(lǐng)域文本上使用弱監(jiān)督方法獲取了高質(zhì)量的關(guān)系三元組,其在借助于百度百科信息框得到標(biāo)注語料的同時(shí)對(duì)其進(jìn)行篩選和合并,這種做法使初始語料的質(zhì)量有了進(jìn)一步的提高。通過對(duì)初始語料的加工,其整體F值達(dá)到了79.27%。針對(duì)存在多元實(shí)體關(guān)系的抽取問題,李穎等[45]運(yùn)用依存關(guān)系分析來抽取多元實(shí)體關(guān)系,在百度百科數(shù)據(jù)集上的抽取準(zhǔn)確率可達(dá)81%。

      開放式實(shí)體關(guān)系抽取還存在很大的進(jìn)步空間。其一,由于數(shù)據(jù)來源的不統(tǒng)一,實(shí)體關(guān)系抽取結(jié)果評(píng)價(jià)體系還沒有達(dá)成一致標(biāo)準(zhǔn);其二,當(dāng)前大部分實(shí)驗(yàn)都是在數(shù)據(jù)進(jìn)行大量清洗之后的干凈數(shù)據(jù)上進(jìn)行的,數(shù)據(jù)真實(shí)性難免會(huì)有所下降。如何在真實(shí)網(wǎng)絡(luò)數(shù)據(jù)上進(jìn)行關(guān)系抽取是要繼續(xù)研究的重點(diǎn)問題之一。

      2.5 4種實(shí)體關(guān)系抽取方法的總結(jié)

      針對(duì)中文的實(shí)體關(guān)系抽取任務(wù),上面所介紹的4種方法各有優(yōu)劣,表1對(duì)上述的4種方法作了總結(jié)。從實(shí)現(xiàn)方法、泛化能力、對(duì)語料標(biāo)注的依賴程度和性能提升方法等方面對(duì)這4類實(shí)體關(guān)系抽取方法進(jìn)行了詳細(xì)的比較。

      表1 實(shí)體關(guān)系抽取方法總結(jié)

      3 實(shí)體關(guān)系抽取中深度學(xué)習(xí)的應(yīng)用

      21世紀(jì)以來,深度學(xué)習(xí)被廣泛運(yùn)用于自然語言處理任務(wù)。近十多年來,深度學(xué)習(xí)也開始在實(shí)體關(guān)系抽取領(lǐng)域取得成果。

      Socher等[47]提出運(yùn)用遞歸神經(jīng)網(wǎng)絡(luò)來應(yīng)對(duì)關(guān)系抽取任務(wù),該方法考慮了句子的句法結(jié)構(gòu)信息,但是無法考慮到實(shí)體對(duì)的位置和語義信息。Zeng等[48]應(yīng)用卷積神經(jīng)網(wǎng)絡(luò)解決關(guān)系抽取任務(wù),向卷積神經(jīng)網(wǎng)絡(luò)輸入詞向量和詞位置向量,之后通過卷積、池化和非線性變換得到句子表示。由于考慮到了實(shí)體的位置向量和其他相關(guān)詞匯特征,句子的實(shí)體信息也同步被關(guān)注到了。Miwa等[49]提出了一種雙向LSTM和樹形LSTM模型相結(jié)合的方法。該方法運(yùn)用這2種網(wǎng)絡(luò)的同時(shí)對(duì)實(shí)體和句子進(jìn)行建模,取得了較好的效果。

      除了在有標(biāo)注語料上的研究,關(guān)系抽取在純文本上的研究也有了一定的進(jìn)展。Lin等[50]提出了一種在純文本中進(jìn)行關(guān)系抽取的方法。他們引入了一種多語言的神經(jīng)關(guān)系抽取框架,在單語文本中采用單語注意機(jī)制,并且提出跨語言注意機(jī)制來考慮跨語言文本信息的一致性和互補(bǔ)性。Lin等[51]運(yùn)用基于句子級(jí)別注意力機(jī)制的神經(jīng)網(wǎng)絡(luò)模型解決了實(shí)體對(duì)對(duì)應(yīng)的噪音句子問題,使得模型能利用所有有效句子進(jìn)行學(xué)習(xí),通過實(shí)驗(yàn)發(fā)現(xiàn)此方法有效地控制了噪音句子的影響,使得關(guān)系抽取效果得到了提升。

      以上都是深度學(xué)習(xí)在英文語料上的應(yīng)用,在中文研究方面,由于標(biāo)注語料的短缺,深度學(xué)習(xí)在實(shí)體關(guān)系抽取領(lǐng)域上的應(yīng)用相對(duì)于在其它自然語言處理任務(wù)上的應(yīng)用來說較少。孫建東等[52]在COAE2016的數(shù)據(jù)集上使用了卷積神經(jīng)網(wǎng)絡(luò)模型,但是由于數(shù)據(jù)集較少的原因,效果比SVM方法的F1值低近10%。

      深度學(xué)習(xí)中的卷積神經(jīng)網(wǎng)絡(luò)、循環(huán)神經(jīng)網(wǎng)絡(luò)、LSTM網(wǎng)絡(luò)等架構(gòu)在自然語言處理領(lǐng)域的應(yīng)用極其廣泛,并且取得了良好的效果。如果能將深度學(xué)習(xí)方法運(yùn)用于缺乏標(biāo)注的數(shù)據(jù)集上,那么中文實(shí)體關(guān)系抽取研究將取得進(jìn)一步的成果。

      4 結(jié)束語

      盡管實(shí)體關(guān)系抽取在一定程度上已經(jīng)取得了不菲的成績,但是在中文語料上的研究成果還有待提高。有監(jiān)督的實(shí)體關(guān)系抽取方法將關(guān)系抽取任務(wù)當(dāng)作分類任務(wù),在標(biāo)注語料上提取有效的特征,訓(xùn)練分類器來預(yù)測(cè)實(shí)體關(guān)系,特征的選取對(duì)于實(shí)驗(yàn)結(jié)果往往起著至關(guān)重要的作用。無監(jiān)督實(shí)體關(guān)系抽取領(lǐng)域移植性強(qiáng),適合處理大規(guī)模無結(jié)構(gòu)的網(wǎng)絡(luò)文本數(shù)據(jù)。半監(jiān)督實(shí)體關(guān)系抽取適用于缺乏標(biāo)注語料的實(shí)體關(guān)系抽取,但其實(shí)現(xiàn)過程中引入的噪聲容易造成語義漂移。開放式實(shí)體關(guān)系抽取不需要事先定義好關(guān)系類型,直接用句子中的關(guān)系指示詞來表示實(shí)體關(guān)系,具有廣闊的發(fā)展前景。近年來快速發(fā)展起來的Deep Learning方法在中文實(shí)體關(guān)系抽取任務(wù)上還沒有大量的應(yīng)用,主要是因?yàn)闃?biāo)注數(shù)據(jù)集匱乏,如果無監(jiān)督的中文實(shí)體關(guān)系抽取在大規(guī)模網(wǎng)絡(luò)文本上有了飛躍性的發(fā)展,那么Deep Learning也將在此領(lǐng)域大放異彩。無論運(yùn)用哪一種方法,不斷的技術(shù)更新是不可缺少的,只有克服相應(yīng)的問題,找出解決辦法或者替代方法,基于中文的實(shí)體關(guān)系抽取研究才能取得長足的進(jìn)展。

      猜你喜歡
      語料實(shí)體語義
      語言與語義
      前海自貿(mào)區(qū):金融服務(wù)實(shí)體
      中國外匯(2019年18期)2019-11-25 01:41:54
      實(shí)體的可感部分與實(shí)體——兼論亞里士多德分析實(shí)體的兩種模式
      兩會(huì)進(jìn)行時(shí):緊扣實(shí)體經(jīng)濟(jì)“釘釘子”
      振興實(shí)體經(jīng)濟(jì)地方如何“釘釘子”
      基于語料調(diào)查的“連……都(也)……”出現(xiàn)的語義背景分析
      “上”與“下”語義的不對(duì)稱性及其認(rèn)知闡釋
      華語電影作為真實(shí)語料在翻譯教學(xué)中的應(yīng)用
      認(rèn)知范疇模糊與語義模糊
      《苗防備覽》中的湘西語料
      西和县| 金昌市| 池州市| 弥勒县| 洛川县| 昌乐县| 兴安盟| 古田县| 昌都县| 邳州市| 安远县| 明星| 台北县| 子洲县| 诏安县| 瑞金市| 丹巴县| 包头市| 耒阳市| 瑞丽市| 和顺县| 饶平县| 仪征市| 普兰县| 登封市| 潮州市| 和龙市| 六枝特区| 长兴县| 灵璧县| 彭山县| 万载县| 丰宁| 永仁县| 博白县| 杭锦后旗| 临漳县| 鄂温| 铁岭县| 新邵县| 弥勒县|