• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      海量法律文書(shū)中基于CNN的實(shí)體關(guān)系抽取技術(shù)

      2018-07-04 13:29:58彭敦陸
      關(guān)鍵詞:子樹(shù)短語(yǔ)實(shí)體

      高 丹,彭敦陸,劉 叢

      (上海理工大學(xué) 光電信息與計(jì)算機(jī)工程學(xué)院,上海 200093)

      1 引 言

      隨著計(jì)算機(jī)技術(shù)和人工智能科學(xué)發(fā)展,使得自然語(yǔ)言的計(jì)算機(jī)處理成為現(xiàn)實(shí).近年來(lái),自然語(yǔ)言處理被廣泛地應(yīng)用到信息檢索、文本分類(lèi)、自動(dòng)文摘、語(yǔ)音自動(dòng)識(shí)別與合成、機(jī)器翻譯及人機(jī)對(duì)話等領(lǐng)域.作為自然語(yǔ)言理解技術(shù)中不可缺少的重要環(huán)節(jié)——文本實(shí)體關(guān)系抽取技術(shù),更是成為近年來(lái)的研究熱點(diǎn).文本實(shí)體關(guān)系抽取是指根據(jù)自由文本的上下文,自動(dòng)抽取兩個(gè)實(shí)體之間的關(guān)聯(lián).譬如,法律文書(shū)中句子“李良挑釁斗毆,致韓寒休克死亡”表明兩個(gè)人物實(shí)體“李良”與“韓寒”之間構(gòu)成了“犯罪”關(guān)系.

      自1998年MUC*MUC[EB/OL].http://www.itl.nist.gov,2008.會(huì)議首次正式提出關(guān)系抽取任務(wù)以來(lái),實(shí)體關(guān)系抽取已經(jīng)被應(yīng)用到不同的領(lǐng)域.在問(wèn)答系統(tǒng)或推薦系統(tǒng)中,實(shí)體關(guān)系抽取會(huì)自動(dòng)將問(wèn)題、答案以及相關(guān)實(shí)體進(jìn)行關(guān)聯(lián).譬如,當(dāng)用戶搜索“姚明”時(shí),系統(tǒng)會(huì)快速且準(zhǔn)確地返回、推薦“葉莉”(夫婦關(guān)系)、“NBA”(雇傭關(guān)系).在案由分析系統(tǒng)中,實(shí)體關(guān)系自動(dòng)抽取提升了審判人員案由分析的速度,不僅直接關(guān)系到當(dāng)事人的法律關(guān)系認(rèn)定,還有利于法官對(duì)適用法律的正確選擇,形成恰當(dāng)?shù)呐袥Q結(jié)果.

      迄今,眾多國(guó)內(nèi)外研究學(xué)者們已經(jīng)提出了一系列實(shí)體關(guān)系抽取方法.Zhou JF等人構(gòu)建抽取中文實(shí)體命名及其關(guān)系的信息抽取系統(tǒng),利用MBL算法獲取規(guī)則以達(dá)到實(shí)體關(guān)系抽取的目的[5].Zhang Z等人基于SVM分類(lèi)器以及bootstr- apping思想,提出一種新的提升算法-BootProject,實(shí)現(xiàn)對(duì)實(shí)體關(guān)系的半監(jiān)督抽取[6].Sun L和Han X利用特征向量提煉語(yǔ)法樹(shù),基于核函數(shù)提出一種名為FTK(Feature-Enriched Tree Kernel)的實(shí)體關(guān)系抽取方法[8].針對(duì)法律文書(shū)的半結(jié)構(gòu)化、實(shí)體類(lèi)型、實(shí)體之間關(guān)系單一的語(yǔ)言特點(diǎn),本文利用語(yǔ)法結(jié)構(gòu)相似性構(gòu)建短語(yǔ)有效子樹(shù),同時(shí)采用余弦相似度計(jì)算方法來(lái)改進(jìn)核函數(shù),求得短語(yǔ)有效子樹(shù)之間的相似性矩陣,然后結(jié)合CNN提出一種實(shí)現(xiàn)對(duì)多對(duì)實(shí)體之間的關(guān)系進(jìn)行自動(dòng)抽取的技術(shù)——KMCNN.

      論文其余部分的組織如下:第2部分介紹實(shí)體關(guān)系抽取方法相關(guān)的前人研究成果;第3部分給出本文用到的術(shù)語(yǔ)描述及準(zhǔn)備工作;第4部分給出基于KMCNN的實(shí)體關(guān)系抽取過(guò)程;第5部分采用實(shí)驗(yàn)對(duì)所提方法進(jìn)行有效性驗(yàn)證;第6部分是全文的結(jié)論.

      2 相關(guān)工作

      過(guò)去幾十年,對(duì)實(shí)體關(guān)系抽取的研究得到了人們的重視,許多實(shí)體關(guān)系抽取方法已得到廣泛應(yīng)用.不同模式抽取方法,如基于模式匹配[10]的關(guān)系抽取、基于詞典驅(qū)動(dòng)[11]的關(guān)系抽取、基于機(jī)器學(xué)習(xí)[5]的關(guān)系抽取、基于Ontology[12]的關(guān)系抽取方法,在不同程度上推動(dòng)了實(shí)體關(guān)系抽取的發(fā)展.這些方法的共同之處是將實(shí)體關(guān)系抽取任務(wù)視為分類(lèi)問(wèn)題.Hendrickx I等人利用MaxEnt、SVM等分類(lèi)器,采用特征向量完成SemEval-2010數(shù)據(jù)集上的實(shí)體關(guān)系自動(dòng)抽取任務(wù)[13].Liu KB等人開(kāi)發(fā)的中文關(guān)系自動(dòng)抽取系統(tǒng)運(yùn)用改進(jìn)的語(yǔ)義序列核函數(shù),結(jié)合KNN算法構(gòu)造分類(lèi)器對(duì)關(guān)系類(lèi)型進(jìn)行分類(lèi)標(biāo)注[14].Banko M等人通過(guò)深層解析一個(gè)相對(duì)較小的語(yǔ)料集,利用貝葉斯分類(lèi)器進(jìn)行訓(xùn)練以實(shí)現(xiàn)實(shí)體關(guān)系的抽取[7].

      近幾年來(lái),越來(lái)越多的研究者們則將深度學(xué)習(xí)方法與NLP的分類(lèi)任務(wù)相結(jié)合,通過(guò)深度學(xué)習(xí)的自動(dòng)學(xué)習(xí)能力,對(duì)自然語(yǔ)言進(jìn)行處理.Liu CY等人利用同義詞字典對(duì)輸入詞匯進(jìn)行編碼,將詞法特征、語(yǔ)義知識(shí)集成到神經(jīng)網(wǎng)絡(luò)中,提出一種新的卷積神經(jīng)網(wǎng)絡(luò)挖掘?qū)嶓w關(guān)系[2].Liu K等人利用脈沖耦合神經(jīng)網(wǎng)絡(luò)(Pulse Coupled Neural Network,PCNN)的最大池自動(dòng)學(xué)習(xí)相關(guān)特性,提出一個(gè)PCNN與多實(shí)例學(xué)習(xí)相結(jié)合的模型[3].Nguyen TH等人利用卷積神經(jīng)網(wǎng)絡(luò)的自動(dòng)學(xué)習(xí)能力,通過(guò)改變滑動(dòng)窗的數(shù)目,減少對(duì)外部工具、資源的依賴,實(shí)現(xiàn)實(shí)體關(guān)系的抽取[4].

      無(wú)論是傳統(tǒng)的基于特征量及核函數(shù)的實(shí)體關(guān)系抽取方法,還是近年來(lái)興起的基于深度學(xué)習(xí)的實(shí)體關(guān)系抽取方法,均基于僅包含單對(duì)目標(biāo)實(shí)體對(duì)語(yǔ)句的特定數(shù)據(jù)集,提高了對(duì)原始數(shù)據(jù)進(jìn)行預(yù)處理的難度.本文試圖在包含多對(duì)實(shí)體的語(yǔ)句中完成實(shí)體關(guān)系抽取的任務(wù),并以大規(guī)模法律文書(shū)數(shù)據(jù)中進(jìn)行實(shí)體關(guān)系抽取為例進(jìn)行說(shuō)明.具體的算法思想如下:利用中文語(yǔ)法結(jié)構(gòu)的局部相似性,構(gòu)建短語(yǔ)有效子樹(shù)挖掘模型,并采用基于改進(jìn)的核函數(shù)來(lái)計(jì)算子樹(shù)之間的相似度.基于此,提出基于CNN算法的多實(shí)體關(guān)系抽取方法——KMCNN,最后通過(guò)實(shí)驗(yàn)來(lái)驗(yàn)證所提算法的有效性.

      3 準(zhǔn)備工作

      本節(jié)主要介紹如何對(duì)原始文本進(jìn)行預(yù)處理,以適合所提算法的計(jì)算要求.在給出下文所需相關(guān)術(shù)語(yǔ)的基礎(chǔ)上,提出詳細(xì)的短語(yǔ)有效子樹(shù)挖掘過(guò)程,然后采用改進(jìn)的核函數(shù)來(lái)計(jì)算短語(yǔ)有效子樹(shù)相似度.

      3.1 術(shù)語(yǔ)解釋

      實(shí)體(Entity):自由文本中具有特殊含義的概念,記為e.

      實(shí)體關(guān)系(Relation):一對(duì)實(shí)體間具有的聯(lián)系,記為R(ei,ej,ri,j),其中(ei,ej)為實(shí)體對(duì),ri,j為實(shí)體對(duì)(ei,ej)之間的關(guān)系.

      例如,在法律文書(shū)的案情描述中:人物實(shí)體為施害人、被害人;實(shí)體之間的關(guān)系則為死亡或重傷等犯罪事實(shí).

      表1中給出了下文將要用到的符號(hào)及其所表示的含義.

      表1 算法中所用到的符號(hào)說(shuō)明Table 1 Explanation of words used in paper

      3.2 短語(yǔ)有效子樹(shù)挖掘

      從中文語(yǔ)法結(jié)構(gòu)出發(fā),短語(yǔ)是句子的主要成分.短語(yǔ)結(jié)構(gòu)樹(shù)被視為句子語(yǔ)法結(jié)構(gòu)的可視化,可用于挖掘句子中的隱藏信息.

      定義1.短語(yǔ):由若干個(gè)連續(xù)的詞序列wi~wi+ns搭配成的獨(dú)立語(yǔ)言單位,記為Pi.對(duì)于一個(gè)給定的詞序列W,將其分割成若干短語(yǔ)集合的過(guò)程,記為P={Pi|1in,n為句子的詞組個(gè)數(shù)}.

      例如,對(duì)詞序列“李良挑釁斗毆,致韓寒休克死亡”進(jìn)行短語(yǔ)切割,得到短語(yǔ)集合P={李良,挑釁斗毆,致,韓寒,休克死亡},其中,“挑釁斗毆”等詞即為短語(yǔ).

      定義2.短語(yǔ)有效子樹(shù):給定一棵有序的語(yǔ)法樹(shù)T=(V,E,R),其中,V表示節(jié)點(diǎn)集合,E表示所有的路徑集合,R是根節(jié)點(diǎn).當(dāng)T′=(V′,E′,R′)滿足:

      圖1 短語(yǔ)有效子樹(shù)Fig.1 Effective subtree of phrases

      1)V′?V,E′?E;

      2)V′包含樹(shù)T中R′的所有子孫結(jié)點(diǎn)

      3)T′中的節(jié)點(diǎn)序列由若干Pi構(gòu)成,且有且僅有兩個(gè)NR節(jié)點(diǎn).則T′稱(chēng)為T(mén)的短語(yǔ)有效子樹(shù).如圖1所示,樹(shù)b、c為語(yǔ)法樹(shù)a的兩棵短語(yǔ)有效子樹(shù).在短語(yǔ)有效子樹(shù)的挖掘算法中應(yīng)用以下規(guī)則:

      規(guī)則1.子樹(shù)根節(jié)點(diǎn)挖掘規(guī)則

      語(yǔ)法樹(shù)中的每個(gè)節(jié)點(diǎn)符號(hào)均有可能在每一個(gè)實(shí)例中出現(xiàn),如圖1中的節(jié)點(diǎn)S.若對(duì)其進(jìn)行特征選擇,則多數(shù)子樹(shù)都會(huì)是無(wú)效的,以致產(chǎn)生錯(cuò)誤的結(jié)果,因此挖掘子樹(shù)根節(jié)點(diǎn)(即單項(xiàng)集)時(shí),所有非葉節(jié)點(diǎn)的單項(xiàng)均是有效的.

      短語(yǔ)庫(kù)H為所有短語(yǔ)類(lèi)型的集合,Type為短語(yǔ)類(lèi)型,Num為該短語(yǔ)中詞匯的數(shù)目.因此,子樹(shù)根節(jié)點(diǎn)集Trie={ti∈H∩T′.V|1≤i≤n,n為有效子樹(shù)個(gè)數(shù)}

      規(guī)則2.投影序列片段產(chǎn)生規(guī)則

      自左至右,先序遍歷語(yǔ)法樹(shù),則節(jié)點(diǎn)內(nèi)容、節(jié)點(diǎn)序號(hào)信息加入樹(shù)序列.以圖1為例,以S為根節(jié)點(diǎn),則該子樹(shù)的序列為S1-NR2-VP3-V4-S5-NR6-V7(李某致韓某死亡).

      挖掘短語(yǔ)有效子樹(shù)的具體過(guò)程如下:依次遍歷子樹(shù)中的序列,并判斷該序列的節(jié)點(diǎn)類(lèi)型,若節(jié)點(diǎn)類(lèi)型存在于短語(yǔ)庫(kù)中,則該節(jié)點(diǎn)是一棵短語(yǔ)有效子樹(shù)的根節(jié)點(diǎn),獲得以該節(jié)點(diǎn)為根節(jié)點(diǎn)的所有短語(yǔ)有效子樹(shù)全序列.算法1 (圖2)詳細(xì)描述了該過(guò)程.算法前4行完成數(shù)據(jù)的初始化,第1行初始化短語(yǔ)有效子樹(shù)為空集.第2行利用transfer()函數(shù)將語(yǔ)法樹(shù)轉(zhuǎn)換成二叉樹(shù),便于之后的遍歷操作,第3行preOrder()函數(shù)前序遍歷該二叉樹(shù),并轉(zhuǎn)換成投影序列S,第4行l(wèi)ength()函數(shù)取得序列的長(zhǎng)度.5-15行依次遍歷序列,挖掘短語(yǔ)有效子樹(shù).第6行isContain()函數(shù)判斷序列節(jié)點(diǎn)是否存在于短語(yǔ)庫(kù)中,若存在,則跳入7-12行,其中7-9行利用preAppend()函數(shù)在該子樹(shù)前端節(jié)點(diǎn)依次插入序列節(jié)點(diǎn),10-12表示將該子樹(shù)的最后節(jié)點(diǎn)替換成相對(duì)應(yīng)的子樹(shù).最后,15行根據(jù)定義3移除無(wú)效短語(yǔ)子樹(shù),并返回.

      3.3 基于核函數(shù)的相似度計(jì)算

      目前,通過(guò)核函數(shù)計(jì)算相同子樹(shù)的個(gè)數(shù)是計(jì)算兩棵樹(shù)的相似度的經(jīng)典方法.但該方法忽略了子樹(shù)結(jié)構(gòu),隱藏了文本隱含信息,不利于實(shí)體關(guān)系抽取的準(zhǔn)確度.基于此,論文提出改進(jìn)的核函數(shù),計(jì)算兩棵短語(yǔ)有效子樹(shù)的相似度.

      兩棵短語(yǔ)有效子樹(shù)的相似度計(jì)算是對(duì)節(jié)點(diǎn)類(lèi)型、短語(yǔ)語(yǔ)法結(jié)構(gòu)相似程度的度量,其求解過(guò)程的主要步驟就是構(gòu)建相似矩陣.去掉短語(yǔ)有效子樹(shù)的葉子節(jié)點(diǎn),應(yīng)用余弦相似度計(jì)算有效子樹(shù)對(duì)應(yīng)節(jié)點(diǎn)的相似度:

      (1)

      其中,向量Ai∈Rd×nw,Bj∈Rd×nw是兩棵子樹(shù)的所有節(jié)點(diǎn)構(gòu)成的向量.基于上述計(jì)算,當(dāng)相似度大于某個(gè)閾值時(shí),兩個(gè)節(jié)點(diǎn)近似相同.這樣,就可以得到核函數(shù):

      (2)

      其中,

      (3)

      算法2(圖3)詳細(xì)的描述了如何求解相似矩陣.算法第1行size()函數(shù)計(jì)算有效子樹(shù)集合的子樹(shù)個(gè)數(shù).第2行通過(guò)zero()函數(shù)初始化相似矩陣A為0矩陣,表示子樹(shù)兩兩均不相似.3-13行完成相似矩陣的求解,其中第6行根據(jù)公式2求解兩棵子樹(shù)之間的相似度,若大于ε,則7-9行設(shè)置對(duì)應(yīng)的相似矩陣元素為1.最后,13行返回相似矩陣.

      圖2 短語(yǔ)有效子樹(shù)挖掘算法PSTMiningFig.2 Algorithm of PSTMining

      圖3 求解相似矩陣算法SimMatrixFig.3 Algorithm of SimMatrix

      4 實(shí)體關(guān)系抽取技術(shù)—KMCNN

      通過(guò)卷積神經(jīng)網(wǎng)絡(luò)(CNN)的自動(dòng)學(xué)習(xí)能力,可以減少構(gòu)建大規(guī)模語(yǔ)料庫(kù)的人力耗費(fèi),實(shí)現(xiàn)多實(shí)體關(guān)系的自動(dòng)抽取.在前文文本數(shù)據(jù)預(yù)處理的基礎(chǔ)上,本節(jié)將重點(diǎn)討論KMCNN模型.

      4.1 相關(guān)概念

      自然語(yǔ)言處理過(guò)程中的主要任務(wù)是如何對(duì)詞、句子、篇章進(jìn)行編碼,以便將其作為數(shù)值類(lèi)型的數(shù)據(jù)輸入到模型中進(jìn)行計(jì)算.

      定義4.詞向量(Word Vector):詞序列中的每個(gè)“詞”均可表示成一個(gè)d維實(shí)數(shù)向量ei∈Rd,i=1,2,…,n.

      定義5.距離向量(Distant Vector):詞ei與兩個(gè)實(shí)體之間的距離向量,記為disti={(disti1,disti2),i=1,2,…,n}.即為短語(yǔ)有效子樹(shù)節(jié)點(diǎn)之間的邊數(shù).

      定義6.向量全矩陣(The Full Embedding Matrix):Matrix=[m1,m2,..mn]∈R(d+2)×n,其中,n是詞序列的長(zhǎng)度.對(duì)于一個(gè)給定的詞序列W={w1,w2,…,wn},詞向量vi是第i個(gè)詞wi對(duì)應(yīng)的一個(gè)由詞向量ei與距離向量disti組成的d+2維實(shí)數(shù)向量,即mi=[ei,disti].

      4.2 基于相似性矩陣求解向量全矩陣集合

      傳統(tǒng)的基于CNN的實(shí)體關(guān)系抽取算法多數(shù)是針對(duì)單對(duì)實(shí)體的,而法律文書(shū)中包含實(shí)體的句子通常包含多對(duì)實(shí)體,并且語(yǔ)義結(jié)構(gòu)具有相似性.針對(duì)這一發(fā)現(xiàn),利用短語(yǔ)有效子樹(shù)的相似性矩陣對(duì)句子進(jìn)行切分,并假設(shè):同一短語(yǔ)中出現(xiàn)多個(gè)實(shí)體、當(dāng)兩棵短語(yǔ)有效子樹(shù)的相似性值大于閾值時(shí)兩個(gè)短語(yǔ)中的所有實(shí)體均為并列關(guān)系,即同時(shí)成為施害人或被害人.

      基于相似矩陣,算法3 (圖4)詳細(xì)描述了如何求解KMCNN中的向量全矩陣參數(shù):有效子樹(shù)集合與向量全矩陣集合.第1-2行對(duì)數(shù)據(jù)進(jìn)行初始化,向量全矩陣集合Matrix為空集,其中l(wèi)en參數(shù)記錄該集合的長(zhǎng)度.核心代碼為3-13行:第4行初始化len為0,表示當(dāng)前集合中全矩陣數(shù)目為0;第6行判斷相似矩陣元素的值,若值為1則跳至第7行,應(yīng)用Word2Vec[15]將短語(yǔ)有效子樹(shù)的序列化數(shù)據(jù)轉(zhuǎn)換成詞向量;然后,第8行dist()函數(shù)求解相對(duì)應(yīng)的距離矩陣;第10行更新向量全矩陣集合,即append()函數(shù)將向量權(quán)矩陣在添加至集合中,同時(shí)設(shè)置集合長(zhǎng)度加1.最后,14行返回結(jié)果.

      4.3 KMCNN

      前文介紹了如何挖掘短語(yǔ)有效子樹(shù),并基于改進(jìn)的核函數(shù)對(duì)相似性矩陣進(jìn)行計(jì)算,求得向量全矩陣.下面介紹基于KMCNN來(lái)實(shí)現(xiàn)實(shí)體關(guān)系抽取的過(guò)程.圖5給出了KMCNN的偽代碼:代碼第1行將實(shí)體關(guān)系集初始化為空集,并設(shè)索引值為0.第2-11行遍歷向量全矩陣集合,依次抽取實(shí)體對(duì)之間的關(guān)系.其中,3-10行完成指定集合的實(shí)體關(guān)系抽取:首先,第4行基于分詞、詞性標(biāo)注等知識(shí),應(yīng)用reconge()函數(shù)對(duì)實(shí)體進(jìn)行識(shí)別;然后,判斷實(shí)例是否為集合中的第一個(gè)元素,若是,則跳至第6行,基于CNN算法對(duì)實(shí)體關(guān)系進(jìn)行抽取;最后,第12行返回實(shí)體關(guān)系集合.

      圖5 KMCNN方法Fig.5 Approach of KMCNN

      圖6 CNN算法結(jié)構(gòu)圖Fig.6 Structure of convolutional neural network

      如圖6所示,CNN算法包含四個(gè)主要部分:全向量映射、卷積層、池化層以及全鏈接層.其中,全向量映射是根據(jù)定義7求解全向量矩陣的過(guò)程.在卷積層,若滑動(dòng)窗口數(shù)目為win,則卷積核的權(quán)重集合是:

      f={f1,f2,…,fwin|fi∈R(d+2)×n}

      (4)

      基于公式(4),給出卷積值的計(jì)算公式:

      (5)

      其中,b為偏置值,g是一個(gè)非線性函數(shù).然后,在池化層運(yùn)用最大池化原理提取最大卷積值,即pmax=max(C).最后,在全連接層采用sigmod函數(shù)實(shí)現(xiàn)實(shí)體關(guān)系的抽取.

      5 實(shí)驗(yàn)分析

      5.1 數(shù)據(jù)來(lái)源

      實(shí)驗(yàn)部分的數(shù)據(jù)采集于2016年某省刑事案件的法律文書(shū)2*China Judgements Online.http://wenshu.court.gov.cn,2016.,共25,463份文本數(shù)據(jù).裁定書(shū)的內(nèi)容主要包含以下五部分:被告人信息;以時(shí)間為序,開(kāi)庭判決過(guò)程;復(fù)核事實(shí);證據(jù)陳述;判決結(jié)果.因此,可將裁判文書(shū)視為有模板的半結(jié)構(gòu)化數(shù)據(jù),利用正則表達(dá)式匹配全文信息來(lái)提取關(guān)鍵段落(即被告人信息、復(fù)核事實(shí)等),并進(jìn)行數(shù)據(jù)預(yù)處理過(guò)程(去除噪聲數(shù)據(jù)、重復(fù)數(shù)據(jù)、提取包含實(shí)體對(duì)的句子).

      5.2 算法有效性分析

      準(zhǔn)確率(Precision)、召回率(Recall)和F1-measure是評(píng)估算法有效性的基本標(biāo)準(zhǔn).因此,實(shí)驗(yàn)采用三個(gè)指標(biāo)對(duì)所提算法進(jìn)行綜合性評(píng)估.下面,給出三個(gè)指標(biāo)的數(shù)學(xué)定義:

      (6)

      (7)

      (8)

      Nc是某類(lèi)別中被正確分類(lèi)的實(shí)例數(shù)目,Nic是某類(lèi)別中被錯(cuò)誤分類(lèi)的實(shí)例數(shù)目,Nsum是某類(lèi)別中的實(shí)例總數(shù).

      圖7 不同相似度閾值下的實(shí)體關(guān)系抽取結(jié)果Fig.7 Relation extraction in KMCNN vs.similarity

      圖8 不同滑動(dòng)窗口數(shù)目下的實(shí)體關(guān)系抽取結(jié)果Fig.8 Relation extraction in KMCNN vs.slide window number

      第1組.在真實(shí)數(shù)據(jù)集上實(shí)現(xiàn)實(shí)體關(guān)系的抽取

      實(shí)驗(yàn)1考察了在不同相似度閾值下,KMCNN的實(shí)體關(guān)系的抽取效果.KMCNN需要提供相似度閾值ε確定短語(yǔ)有效子樹(shù)之間的相似性矩陣.實(shí)驗(yàn)中發(fā)現(xiàn)不同的ε取值,對(duì)于最終的實(shí)體關(guān)系抽取結(jié)果有很大的影響.圖7是實(shí)驗(yàn)結(jié)果,橫軸表示相似度閾值,縱軸表示三個(gè)指標(biāo)的值.從圖中可以看出,當(dāng)ε從0.75到0.87變化時(shí),三個(gè)指標(biāo)值上升很快,表明實(shí)體關(guān)系抽取效果越來(lái)越好.而當(dāng)ε大于0.87后,三個(gè)指標(biāo)值趨于平穩(wěn),即實(shí)體關(guān)系抽取效果趨于穩(wěn)定.

      實(shí)驗(yàn)2考察不同滑動(dòng)窗口數(shù)目下,KMCNN的實(shí)體關(guān)系的抽取效果.實(shí)驗(yàn)中滑動(dòng)窗口的數(shù)目包含兩種:固定滑動(dòng)窗口大小,取值分別是2、3、4、5;組合滑動(dòng)窗口大小,組合取值分別是(2,3,4,5)、(3,4,5)、(4,5).圖8中顯示了滑動(dòng)窗口數(shù)目對(duì)實(shí)體關(guān)系抽取結(jié)果的影響:(1)滑動(dòng)窗口數(shù)目固定時(shí),KMCNN的抽取效果不穩(wěn)定.滑動(dòng)窗口大小為3時(shí),準(zhǔn)確率較高;滑動(dòng)窗口大小為2、5時(shí),召回效果較好.(2)組合滑動(dòng)窗口大小的取值時(shí),KMCNN的抽取效果穩(wěn)定并呈現(xiàn)較好的趨勢(shì).特別地,滑動(dòng)窗口組合大小(4,5)時(shí),抽取結(jié)果具有很高的準(zhǔn)確率,且召回效果良好.

      第2組.考查KMCNN計(jì)算性能

      在確定了相似度閾值和滑動(dòng)窗口數(shù)目的基礎(chǔ)上,本組實(shí)驗(yàn)將驗(yàn)證相似性取值為0.87、滑動(dòng)窗口數(shù)目為(4,5)時(shí),使用所提算法進(jìn)行實(shí)體關(guān)系抽取的計(jì)算效果.本文從兩個(gè)方面對(duì)KMCNN與O-CNN[1]、W-ONN[4]、MVRNN[8]等現(xiàn)有算法的實(shí)體關(guān)系抽取結(jié)果進(jìn)行考察:

      實(shí)驗(yàn)3考察KMCNN的運(yùn)行效率.圖9中顯示了四種算法在不同數(shù)據(jù)集規(guī)模的情況下,抽取實(shí)體關(guān)系所需要的運(yùn)行時(shí)間.在數(shù)據(jù)集規(guī)模小于10,000時(shí),相對(duì)于其余三種算法,KMCNN在較短的時(shí)間內(nèi)完成實(shí)體關(guān)系的抽取.隨著數(shù)據(jù)規(guī)模的增加,四個(gè)算法的運(yùn)行時(shí)間的差距增大.這是因?yàn)殡S著數(shù)據(jù)集規(guī)模的增加,挖掘短語(yǔ)有效子樹(shù)的時(shí)間明顯減少,意味著KMCNN算法的計(jì)算規(guī)模也明顯減少.

      圖9 不同數(shù)據(jù)集規(guī)模下算法的運(yùn)行時(shí)間比較Fig.9 Different algorithms runtime vs.data set

      實(shí)驗(yàn)4驗(yàn)證KMCNN的實(shí)體關(guān)系抽取結(jié)果的準(zhǔn)確性.圖10中顯示了4個(gè)算法在不同的數(shù)據(jù)集規(guī)模(分別選取5000,10000,15000,20000篇法律文書(shū))下得到的實(shí)體關(guān)系抽取結(jié)果的三個(gè)指標(biāo)值.文獻(xiàn)[1,4,8]顯示,O-CNN、W-ONN、MVRNN三種算法都能夠較好地抽取實(shí)體之間的關(guān)系,而KMCNN的實(shí)體關(guān)系抽取結(jié)果與W-CNN的實(shí)體抽取結(jié)果近乎相同,且明顯優(yōu)于O-CNN、MVRNN的實(shí)體關(guān)系抽取結(jié)果.由此可見(jiàn)KMCNN能夠較好地抽取實(shí)體之間的關(guān)系.

      6 結(jié) 論

      實(shí)體關(guān)系抽取是自然語(yǔ)言處理的重要任務(wù).快速而準(zhǔn)確地抽取實(shí)體間的關(guān)系,對(duì)自由文本信息挖掘、主題挖掘、問(wèn)答系統(tǒng)、推薦系統(tǒng)均具有重要意義.本文提出一種基于改進(jìn)核函數(shù)和CNN的多實(shí)體關(guān)系抽取技術(shù)—KMCNN.算法利用語(yǔ)法結(jié)構(gòu)相似性挖掘短語(yǔ)有效子樹(shù),通過(guò)余弦相似度計(jì)算來(lái)改進(jìn)核函數(shù),并利用該核函數(shù)計(jì)算關(guān)系實(shí)例間的相似度,結(jié)合CNN算法對(duì)實(shí)體關(guān)系進(jìn)行抽取.算法合理運(yùn)用了語(yǔ)法結(jié)構(gòu),結(jié)合CNN算法的自動(dòng)訓(xùn)練能力,不需要大規(guī)模語(yǔ)料庫(kù)為基礎(chǔ),較大地減少了中間特征向量的計(jì)算量同時(shí)挖掘了句、篇中隱含的有效信息.實(shí)驗(yàn)結(jié)果表明,KMCNN具有較好的實(shí)體關(guān)系抽取效果,在效率方面也有較大提高.下一步工作將圍繞如何進(jìn)一步提高算法效率、構(gòu)建實(shí)體關(guān)系圖譜及采用MapReduce進(jìn)行分布式計(jì)算等問(wèn)題展開(kāi)研究.

      圖10 不同數(shù)據(jù)集規(guī)模下的實(shí)體關(guān)系抽取結(jié)果比較Fig.10 Relation extraction in different algorithms vs.data set

      [1] Zeng D,Liu K,Lai S,et al.Relation classification via convolutional deep neural network [J].In Proceedings of COLING,the 25th International Conference on Computational Linguistics,2014:2335-2344.

      [2] Liu C Y,Sun W B,Chao W H,et al.Convolutionneural network for relation extraction [M].Advanced Data Mining and Applications,2013:231-242.

      [3] Zeng D,Liu K,Chen Y,et al.Distant supervision for relation extraction via piecewise convolutional neural net works [C].Conference on Empirical Methods in Natural Language Processing,2015:1753-1762.

      [4] Nguyen T H,Grishman R.Relation extraction:perspective from convolutional neural networks [C].The Workshop on Vector Space Modeling for Natural Language Processing,2015:39-48.

      [5] Zhang Y,Zhou J F.A trainable method for extracting Chinese entity names and their relations [C].The Workshop on Chinese Language Processing:Held in Conjunction with the,Meeting of the Association for Computational Linguistics,Association for Computational Linguistics,2000:66-72.

      [6] Zhang Z.Weakly-supervised relation classification for information extraction [C].ACM CIKM International Conference on Information and Knowledge Management,Washington,Dc,Usa,November,DBLP,2004:581-588.

      [7] Banko M,Cafarella M J,Soderland S,et al.Open information extraction from the web [C].International Joint Conference on Artifical Intelligence,Morgan Kaufmann Publishers Inc,2007:2670-2676.

      [8] Sun L,Han X.A feature-enriched tree kernel for relation extraction [C].Meeting of the Association for Computational Linguistics,2014:61-67.

      [9] Socher R,Huval B,Manning C D,et al.Semantic compositionality through recursive matrix-vector spaces [C].Joint Conference on Empirical Methods in Natural Language Processing and Computational Natural Language Learning,2012:1201-1211.

      [10] Appelt D E,Hobbs Jr,Bear J,et al.SRI international FASTUS system:MUC-6 test results and analysis [C].In Proceedings of the 6th Message Understanding Conference(MUC-6),1995:237-248.

      [11] Aone C, Ramos Santacruz M.REES: a large-scale relation and event extraction systems[C].In Proceedings of the 6th Applied Natural Language Processing Conference, New York,2000:76-83.

      [12] Iria J.T-Rex:a flexible relation extraction framework [C].In Proceedings of the 8th Annual Colloquium for the UK Special Interest Group for Computational Linguistics,2005.

      [13] Hendrickx I,Kim S N,Kozareva Z,et al.SemEval-2010 task 8:multi-way classification of semantic relations between pairs of nominals [C].The Workshop on Semantic Evaluations:Recent Achievements and Future Directions,Association for Computational Linguistics,2009:94-99.

      [14] Liu Ke-bin,Li Fang,Liu Lei,et al.Implementation of a kernel-based Chinese relation extraction system [J].Journal of Computer Research and Development,2007,44(8):1406-1411.

      [15] Mikolov T,Chen K,Corrado G,et al.Efficient estimation of word representations in vector space [J].Computer Science,2013.

      附中文參考文獻(xiàn):

      [14] 劉克彬,李 芳,劉 磊,等.基于核函數(shù)中文關(guān)系自動(dòng)抽取系統(tǒng)的實(shí)現(xiàn) [J].計(jì)算機(jī)研究與發(fā)展,2007,44(8):1406-1411.

      猜你喜歡
      子樹(shù)短語(yǔ)實(shí)體
      黑莓子樹(shù)與烏鶇鳥(niǎo)
      一種新的快速挖掘頻繁子樹(shù)算法
      書(shū)本圖的BC-子樹(shù)計(jì)數(shù)及漸進(jìn)密度特性分析?
      前海自貿(mào)區(qū):金融服務(wù)實(shí)體
      基于覆蓋模式的頻繁子樹(shù)挖掘方法
      實(shí)體的可感部分與實(shí)體——兼論亞里士多德分析實(shí)體的兩種模式
      兩會(huì)進(jìn)行時(shí):緊扣實(shí)體經(jīng)濟(jì)“釘釘子”
      振興實(shí)體經(jīng)濟(jì)地方如何“釘釘子”
      濉溪县| 英吉沙县| 新野县| 晴隆县| 龙州县| 昌图县| 阿尔山市| 牡丹江市| 库尔勒市| 荣昌县| 德昌县| 乐安县| 扶沟县| 宁德市| 色达县| 锡林郭勒盟| 苏尼特右旗| 湛江市| 黎平县| 越西县| 西乌| 本溪| 韶山市| 建平县| 秦安县| 西畴县| 元阳县| 沧源| 广河县| 双流县| 枝江市| 武鸣县| 锦屏县| 邯郸市| 抚顺县| 海丰县| 修武县| 保山市| 乐清市| 新野县| 凤山市|