• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      結(jié)合短語結(jié)構(gòu)句法的語義角色標注

      2018-07-18 02:34:48楊鳳玲周俏麗蔡東風(fēng)
      中文信息學(xué)報 2018年6期
      關(guān)鍵詞:子句論元謂詞

      楊鳳玲,周俏麗,蔡東風(fēng),季 鐸

      (沈陽航空航天大學(xué) 人機智能研究中心,遼寧 沈陽 110136)

      0 引言

      淺層語義分析是近年來自然語言處理領(lǐng)域研究的熱點之一,而語義角色標注是目前淺層語義分析所采用的主要形式。語義角色標注(Semantic Role Labeling,SRL)的主要任務(wù)是分析句子的“謂詞—論元”結(jié)構(gòu),即給定一個句子,找出句子中謂詞的相應(yīng)語義角色成分,包括核心語義角色(如施事、受事等)和附屬語義角色(如地點、時間、方式、原因等)[1]。SRL標注的語義角色對回答5W問題(who、what、when、where、why)提供了強有力的支持。例如,“He bought a bunch of roses yesterday at the Florist”,對謂詞“bought”進行語義角色分析,其中,“He”是動作的發(fā)出者,即施事A0。“a bunch of roses”是動作的承受者,即受事A1?!皔esterday”是動作發(fā)生的時間,即AM-TMP?!癮t the Florist”是動作發(fā)生的地點,即AM-LOC。SRL綜合利用了底層的分詞、詞性標注、句法分析、命名實體識別等信息,作為自然語言理解的底層研究,在信息抽取、問答系統(tǒng)、指代消解、機器翻譯等方面有著廣泛的應(yīng)用。

      有關(guān)語義角色標注的研究最早由Daniel Gildea和Daniel Jurafsky[1]在2002年提出。他們在識別謂詞和論元之間關(guān)系時利用了基于句法樹的特征。迄今為止,大多數(shù)的語義角色標注方法很大程度上依賴于詞匯和句法分析特征,Pradhan[2]等人的工作證實了句法分析功能的重要性。Johansson和Nugues[3]等人發(fā)現(xiàn)依存句法樹能夠為識別謂詞的論元提供更好的表示形式。Palmer[4]等人利用人工標注的資源,如PropBank,提出基于特征的統(tǒng)計模型獲得了比較高的準確率。目前語義角色標記方法都是在尋找合適的特征,而對于比較復(fù)雜的句子(含有并列結(jié)構(gòu)、子句、從句等)僅僅依靠一些特征進行語義角色標注依然存在問題。

      針對句子結(jié)構(gòu)比較復(fù)雜的問題,本文提出結(jié)合短語結(jié)構(gòu)句法樹對句子進行處理,包括剪枝、子句抽取、論元邊界修正。當句子中含有并列結(jié)構(gòu)時,用并列結(jié)構(gòu)中的第一個并列成分代替整個并列結(jié)構(gòu),將第二個并列成分剪枝。在對句子進行子句抽取時,引入了相容與不相容的概念??梢詫⒄Z義角色之間的關(guān)系分為兩類: ①論元相容: 兩個語義角色同屬于一個謂詞; ②論元不相容: 兩個語義角色分別屬于不同的謂詞[5]。對句子中的子句進行抽取時,子句中的論元與子句外的論元相對子句中的謂詞是不相容的,因此,可以將子句作為一個語義角色分析的單元。通過剪枝和子句抽取簡化了句子的復(fù)雜程度、縮短了句子的長度。當語義角色分析結(jié)束之后再結(jié)合短語樹中短語的邊界對論元的邊界進行修正。

      1 相關(guān)工作

      目前,在英文中短語句法分析技術(shù)相對成熟,已經(jīng)取得了較好的結(jié)果,因此很多研究者在短語句法樹的基礎(chǔ)上研究語義角色標注也取得了比較好的結(jié)果。

      在語義角色標注中,最早進行研究的Gildea和Jurafsky等人[5]提出利用機器學(xué)習(xí)的方法對語義角色進行自動標注,使用了語義角色標注系統(tǒng)最常使用的七個特征。其中,在識別謂詞和論元之間關(guān)系時用到了句法樹的特征。在此基礎(chǔ)之上,Gildea和Palmer等人[4]進一步在PropBank語料庫上做了同樣的實驗,基于手工標注的短語句法樹,使F值有了進一步的提升。隨后,有很多人嘗試使用不同的標注單元、特征、分類器、機器學(xué)習(xí)等方法加以改進。Xue和Palmer等人[5]提出在單一短語結(jié)構(gòu)句法樹的基礎(chǔ)上,驗證了Gildea的七個基本特征在SRL各個階段的貢獻,提出了新的特征,并基于手工標注的短語結(jié)構(gòu)句法樹,使F值又進一步提升。劉挺和車萬翔等人[6]選取了較多的特征,先使用最大熵分類器將識別和分類做進一步訓(xùn)練。然后再做相關(guān)的后處理。該方法雖然在單一自動短語結(jié)構(gòu)句法分析上取得了比較好的結(jié)果,但并未詳細給出性能提升的具體原因。Moschitti等人[7]引入不同類型的樹核捕捉句法樹的結(jié)構(gòu)相似度,該方法在自動特征學(xué)習(xí)方面很有吸引力,但也會帶來較高的計算成本。Boxwell 等人[8]提出了一種基于豐富特征的SRL方法,結(jié)合了組合范疇、短語結(jié)構(gòu)和依存三種句法分析的特征。但多種句法分析特征在帶來了豐富信息的同時,也帶來了較大的噪聲。李世奇等人[9]提出基于短語結(jié)構(gòu)句法分析的語義角色標注,即以句法為語義角色標注的單元,分為兩個子任務(wù): 一是語義角色識別,目標是從句子中抽取所有可以充當語義角色的句法成分;二是語義角色分類,判斷語義角色識別階段所得的語義角色的類型。可是,對于比較復(fù)雜的句子處理并未得到好的效果。以上的分析方法結(jié)合短語結(jié)構(gòu)樹進行語義角色標注時,并未對句子進行簡化,而是僅僅將短語結(jié)構(gòu)樹作為一種特征。

      以句法成分為標注單元的論元標注需要一種簡單的剪枝預(yù)處理方法,來過濾句法分析樹中一些不可能成為論元的句法成分,保留盡量少的候選句法成分,以提高準確性。劉挺和車萬翔等人[6]采用識別分類一步到位的方法對與謂詞相關(guān)的全部句法成分進行訓(xùn)練和預(yù)測。雖去除了句法類型為詞性的句法成分,但使得AM-MOD和AM-NEG等角色對句法樹上的句法成分匹配率很低,還要進行后處理。Dan Roth和Wen-tau Yih等人[10]將語義角色標注分為四個階段: 剪枝、論元識別、論元分類、推理。其中,剪枝階段是根據(jù)短語結(jié)構(gòu)句法樹將不太可能作為謂詞論元的候選集合進行去除,這會出現(xiàn)將一些論元錯誤判斷為非論元的問題,使候選論元個數(shù)減少。Wang等人[11]在Xue和Palmer等人[5]的基礎(chǔ)之上,提出基于中心詞的剪枝算法。該算法選取當前謂詞節(jié)點和其祖先節(jié)點的兄弟節(jié)點,以及這些兄弟節(jié)點的孩子節(jié)點作為候選論元角色,進一步擴大了候選論元集合。不過論元減少的問題依然存在。Lei Sha等人[12]利用二次優(yōu)化的方法將論元之間的關(guān)系分為兩類: 相容與不相容。若當兩個論元屬于同一個謂詞時,則認為兩個論元相容;若不屬于同一個謂詞,則認為兩個論元是不相容的。這樣做就可以對不是同一個謂詞范圍內(nèi)的論元進行剪枝操作。Jiang Guo和Wanxiang Che等人[13]將SRL任務(wù)拆分成兩個任務(wù),即SRL用來描述論元與謂詞之間的關(guān)系,另一類是判斷兩個實體之間的關(guān)系。文獻[5-6,10-13]結(jié)合短語結(jié)構(gòu)句法樹對句子進行剪枝操作實現(xiàn)句子簡化,但并未對句子的類型進行總結(jié)歸類,對句子的簡化程度并不充分。

      與先前的工作相比,本文提出結(jié)合短語結(jié)構(gòu)樹對句子進行剪枝、子句抽取、論元邊界修正的方法。當句子中含有并列結(jié)構(gòu)時,將并列中的第一個并列成分代替整個并列結(jié)構(gòu),即將第二個并列成分進行剪枝。當句子中含有子句時針對不同的子句采取不同的處理方式,這樣做的結(jié)果簡化了句子的復(fù)雜程度、縮短了句子的長度。將處理過后的句子進行語義角色的分析,對最終的分析結(jié)果結(jié)合短語樹的結(jié)果進行論元邊界修正。本文提出的方法對復(fù)雜句子結(jié)構(gòu)的語義角色識別會有更好的效果。

      2 結(jié)合短語結(jié)構(gòu)句法的語義角色標注

      本文結(jié)合短語結(jié)構(gòu)句法對句子進行語義角色標注,對給定的句子先進行短語結(jié)構(gòu)分析,基于短語樹對句子進行剪枝、子句抽取,從而縮短句子的長度、簡化句子的復(fù)雜程度。再將處理過后的句子進行語義角色的分析,再用最終的分析結(jié)果再結(jié)合短語樹的結(jié)果進行論元邊界修正。

      2.1 短語結(jié)構(gòu)句法樹

      短語結(jié)構(gòu)句法樹指將句子的短語結(jié)構(gòu)句法分析的結(jié)果以樹形結(jié)構(gòu)輸出,即對每一個輸入的句子通過構(gòu)造短語樹來完成對它的分析。短語樹不僅可以表示出句子的語法關(guān)系,也可以表示出句子的層次,如圖1所示。

      圖1 短語結(jié)構(gòu)句法樹

      從短語結(jié)構(gòu)樹中可以分析出一些短語結(jié)構(gòu),比如標記為NP[1]表示的是名詞短語。在樹中,當兩個短語最近的父親節(jié)點是同一個時,稱兩個短語為同一層的短語。如NP1與PRN最近的父親節(jié)點都是S節(jié)點,二者則為同一層的短語結(jié)構(gòu)。除此之外,短語結(jié)構(gòu)樹還可以分析出并列結(jié)構(gòu)(CC)、從句(SBAR)、插入語(PRN)、子句(S)等信息。

      基于短語結(jié)構(gòu)句法樹,可以對一些可以去除的部分進行剪枝操作。根據(jù)不同的子句形式、論元是否相容,從短語樹中分析出語義角色分析單元,還可以針對某些論元在短語樹中是否為一個完整的短語對論元邊界進行修正等等。結(jié)合短語句法樹,本文對句子進行以下處理: 剪枝、子句抽取,對論元的邊界進行修正。

      2.2 剪枝

      對句子進行剪枝操作包括插入語以及并列結(jié)構(gòu)剪枝兩種情況。插入語在句子中屬于獨立語,將其去掉可以使句子得到簡化。并列結(jié)構(gòu)中的并列成分在句子中的重要性是一致的,可以將并列中的第一個并列成分保留,其他的并列成分剪枝,剪枝過后句子同樣得到簡化。

      2.2.1插入語

      在句子中間插入一個成分,它既不是句子的成分,也不和句子的其他成分發(fā)生結(jié)構(gòu)關(guān)系,稱之為插入語,其屬于獨立語。給定一個句子,先進行短語結(jié)構(gòu)分析,在短語結(jié)構(gòu)中標記為PRN的部分為插入語。但當句子中含有括號的時候,雖括號中的部分在短語結(jié)構(gòu)樹中標記的不是PRN,但屬于插入語的范疇。

      當句子含有插入語時,則將插入語剪枝,剪枝剩下的部分合并在一起作為語義角色分析單元。若插入語中含有謂詞,對插入語未剪枝之前的句子進行語義角色的分析,此時對插入語中的謂詞以及相關(guān)論元進行保留。

      圖1中,未對句子做任何處理之前,先對整個句子進行語義角色的分析,此時插入語“,she says,”中的謂詞says的語義角色被分析出來。圖1中方框部分為減枝去除的部分,將插入語剪枝剩下的Sotheby’s is wearing both hats.單獨作為語義角色分析單元進行分析,分析出的謂詞以及相關(guān)的論元與插入語中的謂詞以及相關(guān)的論元合并在一起作為整句話的語義角色分析的結(jié)果。對于含括號的插入語同樣處理。

      2.2.2并列結(jié)構(gòu)

      如果相同的兩個成分所傳遞的信息在重要性上基本相等,且一前一后排列起來,或者用并列連詞連接起來,稱之為并列結(jié)構(gòu)。本文主要處理的并列結(jié)構(gòu)有名詞短語并列、介詞短語并列、子句并列、從句并列。

      結(jié)合短語結(jié)構(gòu)樹對并列結(jié)構(gòu)進行判斷分為有標記以及無標記兩種識別方法,對于無標記的并列結(jié)構(gòu)主要處理名詞短語并列。在短語樹中,若兩個名詞短語是兄弟的關(guān)系,則為并列結(jié)構(gòu)。對于有標記的并列結(jié)構(gòu)包括名詞短語并列、介詞短語并列、從句并列、子句并列。在短語樹中,兩個相同成分在樹中是兄弟關(guān)系且兩者之間標記為CC,則兩個成分并列。對于并列結(jié)構(gòu)的處理方式分為兩種處理方式: ①子句并列: 對并列的各個子句分別進行語義角色分析; ②其他并列: 采取剪枝的方式進行語義角色的分析。

      (1) 子句并列

      當樹中含有S CC S的結(jié)構(gòu),則稱兩個子句S并列。將兩個子句分別進行語義角色分析,將分析結(jié)果合并在一起作為整句話的分析結(jié)果。

      例1[S After the trading halt in the S&P 500 pit in Chicago,waves of selling continued to hit stocks themselves on the Big Board],[CC and] [S specialists continued to notch prices down ] .

      例1中句子是由兩個并列子句組成,CC為并列標記,兩個子句中的謂詞的論元是不相容的,所以可以分別進行語義角色的分析,則例1分成兩個語義角色分析單元:

      單元1After the trading halt in the S&P 500 pit in Chicago,waves of selling continued to hit stocks themselves on the Big Board

      單元2specialists continued to notch pricesdown

      (2) 其他并列

      除子句并列,還有名詞短語并列、介詞短語并列、從句并列。對于名詞短語并列的判斷分為兩類,一類含有并列標記,一類不含有并列標記。當判斷兩個名詞短語是并列結(jié)構(gòu)時,將第一個名詞短語保留,其他的進行剪枝。

      例2Benchmark grades sold for [NP [NP as much as 50 cents ] [NP a pound ]] last spring,have skidded to between [NP [NP 35 cents][CC and ] [NP 40 cents]] .

      例2中,第一個并列的名詞短語為[NP [NP as much as 50 cents ] [NP a pound ]],[NP as much as 50 cents ]與[NP a pound ]在樹中為兄弟節(jié)點關(guān)系,為并列結(jié)構(gòu),將[NP as much as 50 cents ]保留,將 [NP a pound ]剪枝。第二個并列的名詞短語為[NP [NP 35 cents][CC and ] [NP 40 cents]],含有并列標記CC,同理將[NP 35 cents]保留,將[NP 40 cents]剪枝。則語義角色分析單元為: Benchmark grades sold for as much as 50 cents last spring,have skidded to between 35 cents .

      對于介詞并列、從句并列與名詞短語并列同樣的處理方式。剪枝的部分不單獨進行分析,在還原時,剪枝的部分與其并列結(jié)構(gòu)屬于同一個語義角色。

      2.3 子句抽取

      給定一個句子,先進行短語結(jié)構(gòu)分析,當短語樹中的成分標記為S時,則該成分稱之為子句。結(jié)合短語樹對子句抽取,不僅將抽取出的子句進行分析,而且將子句抽取之后剩下的部分同樣進行分析。根據(jù)不同的子句采用不同的處理方式,如圖2所示。

      圖2 短語結(jié)構(gòu)句法部分樹

      在圖2中子句S3的第一個詞標記為TO,且子句包含在動詞短語VP中。此時,S3為不定式結(jié)構(gòu),名詞短語emigres是S3中謂詞flee的一個論元。針對該類型的子句,從中抽取的語義角色分析單元為emigres flee to the West beginning today。圖2方框中的部分是子句處理過后需要去除的部分,不含有方框的部分是保留的部分,則子句抽取過后的子句變成emigres expected to the West。

      子句S開始的第一個詞語為TO,且子句向上搜索的第一個短語為動詞短語VP時,則語義角色分析單元為與S最相近的NP短語以及去掉TO的子句S。

      本文關(guān)于子句類型從英文的句子結(jié)構(gòu)出發(fā)總結(jié)如圖3所示。

      英語語法是英語語法系統(tǒng)地總結(jié)歸納出來的一系列語言規(guī)則,這些語法現(xiàn)象在英語語料中是普遍存在的。在圖3(a)中稱作為動詞不定式,(b)(c)(d)(e)稱作由關(guān)系詞引導(dǎo)的不同形式的從句,(f)(g)為省略引導(dǎo)詞的從句,不同的從句在句子中充當不同的成分。圖3句子形式的語義角色的分析單元如表1所示。

      圖3 子句結(jié)構(gòu)形式

      編號子句類型子句抽取規(guī)則aNP1-->NP2+(VP-->VB+(S-->(VP-->TO+VP)))NP2+S去掉TObVP-->VB+(SBAR-->IN+(S-->NP+VP))S-->NP+VPcNP1-->NP2+(SBAR-->IN+(S-->NP3+VP))NP1-->NP2+(SBAR-->IN+(S-->NP3+VP))dNP1-->NP2+(SBAR-->WHNP+(S-->NP3+VP))NP1-->NP2+(SBAR-->WHNP+(S-->NP3+VP)eNP1-->NP2+(SBAR-->WHNP+(S-->VP+NP3))NP1-->NP2+(SBAR-->WHNP+(S-->VP+NP3))fSBAR-->S-->NP+VPS-->NP+VPgS-->NP+VP,S不在SBAR中S-->NP+VP

      其中“+”表示左右節(jié)點為兄弟節(jié)點,“-->”表示右邊的節(jié)點是左邊節(jié)點的孩子節(jié)點,“()”表示括號中第一個節(jié)點含有孩子節(jié)點。

      對于表1中編號a、b、f、g句子結(jié)構(gòu),當子句抽取結(jié)束之后,用子句S中的NP短語替換子句語義角色分析單元放回到原句。對于表1中編號c、d、e

      句子結(jié)構(gòu),用NP2替換子句語義角色分析單元放回到原句。當原始句子中所有的子句都用相對應(yīng)的NP短語替換之后,對替換后的原句進行語義角色的分析,最后將子句分析的語義角色以及原句分析的語義角色合并在一起作為整句話的語義角色。

      2.4 邊界修正

      從短語樹中可以分析出名詞短語NP、介詞短語PP、子句S、從句SBAR等模塊,這些模塊可以單獨作為語義角色。本文所使用的SRL工具[14]存在論元邊界識別錯誤的現(xiàn)象,但結(jié)合短語樹可以對論元邊界進行修正。通過大量的錯誤實例分析發(fā)現(xiàn)A0、A1、AM-MOD以及謂詞的邊界最容易出現(xiàn)問題,本文主要針對這幾個語義角色進行論元邊界的修正。

      短語樹中的NP、S可以作為A0、A1,而現(xiàn)有的SRL工具在A0、A1末尾的標點符號是否是語義角色的一部分出現(xiàn)問題。結(jié)合短語樹,若在短語結(jié)構(gòu)樹中,被識別成的A0、A1在樹中是一個完整的NP或S,則論元不進行修正。若不是一個完整的NP或S,則對末尾的標點符號進行去除。

      AM-MOD在短語樹中對應(yīng)的部分是MD,若識別出的結(jié)果在短語樹對應(yīng)的部分超出MD的范圍,則對其進行修正。

      現(xiàn)有的SRL工具,識別出的謂詞都是單獨的一個詞語。而在實際的句子中,動詞詞組也可以作為一個謂詞,如sits down。針對這種錯誤現(xiàn)象,結(jié)合短語結(jié)構(gòu)樹,判斷謂詞后面的第一個詞是否標記為PRT。若是,則與動詞合并在一起作為一個謂詞。

      圖4中謂詞sits后面的第一個詞語down在短語樹中標記為PRT,則將sits down詞組作為謂詞處理。

      圖4 短語結(jié)構(gòu)句法樹

      3 實驗結(jié)果及分析

      3.1 實驗數(shù)據(jù)

      本文的實驗數(shù)據(jù)來自于CoNLL-2005和CoNLL-2004 Share Task評測語料,其中CoNLL-2005選用test_wsj以及test_brown,CoNLL-2004選用測試集以及開發(fā)集。

      對句子進行子句以及含有并列結(jié)構(gòu)的句子數(shù)(名詞短語并列、介詞短語并列、從句并列)的統(tǒng)計,結(jié)果如表2所示。由統(tǒng)計結(jié)果可知各個語料中含有子句的句子數(shù)在各自的語料中占據(jù)一半以上,因此對子句進行分類處理可以有效提升論元識別準確率。

      表2 各個語料子句數(shù)量情況

      根據(jù)表1中子句主要的幾種形式統(tǒng)計如表3所示。

      表3 針對2005、2004年語料統(tǒng)計結(jié)果

      3.2 實驗流程

      本文對句子進行短語結(jié)構(gòu)分析采用伯克利短語結(jié)構(gòu)工具*http://nlp.cs.berkeley.edu/software.shtml,F(xiàn)值為95.66%[22],對語義角色標注使用的是最新的基于神經(jīng)網(wǎng)絡(luò)的工具*http://homepages.inf.ed.ac.uk/mroth/demo.html。本文的系統(tǒng)結(jié)構(gòu)圖如圖5所示。

      圖5 系統(tǒng)結(jié)構(gòu)圖

      當系統(tǒng)輸入一個句子時,對句子進行短語分析,將分析過后的結(jié)果進行剪枝、子句抽取等簡化操作。將簡化過后的句子的多個語義角色分析單元進行語義角色的分析,將語義角色的分析結(jié)果進行還原。將還原過后的語義角色結(jié)合短語樹對句子進行論元邊界修正,最終輸出句子的語義角色分析結(jié)果。

      3.3 實驗結(jié)果及分析

      3.3.1語義角色整體識別結(jié)果

      本文總結(jié)如下規(guī)則進行實驗,每類規(guī)則的具體內(nèi)容如表4所示。

      表4 規(guī)則表

      給定一個句子,除了并列結(jié)構(gòu)、子句、插入語之外,句子中還含有其他成分。所以rule9主要是針對其他規(guī)則處理之后句子剩下的部分進行語義角色分析。

      針對各個規(guī)則分別在CoNLL2005wsj和brown以及CoNLL2004test以及dev上進行了實驗,具體的實驗結(jié)果如表5所示。由表中的實驗結(jié)果可以看出每一個測試數(shù)據(jù)在加入九類規(guī)則之后,F(xiàn)值都有所提升。

      表5中的baseline實驗是用2016年Roth[14]基于神經(jīng)網(wǎng)絡(luò)訓(xùn)練的語義角色標注的模型,本文使用現(xiàn)有的語義角色模型測試出來的結(jié)果作為baseline實驗。本文方法與baseline實驗相比都有所提高,在CoNLL2005 Shared Task的wsj數(shù)據(jù)集F值提升了3.24%,brown數(shù)據(jù)集提升了2.86%,在CoNLL2004 Shared Task的test數(shù)據(jù)集提升了3.64%,dev數(shù)據(jù)集提升了2.87%。在四個語料中,加入rule9時,提升的效果最多。在wsj、brown、test、dev語料中,提升最少的規(guī)則分別是rule4-1、rule1、rule2-1、rule2-1。由表5同樣可以得出,各個規(guī)則的準確率、召回率都有所提升。

      表5 各個規(guī)則的測試結(jié)果

      各個系統(tǒng)對比實驗如表6所示。

      Zhou Jie[15]等人在2015年發(fā)表的論文采用端到端的神經(jīng)網(wǎng)絡(luò)模型,僅僅用到詞、詞性、當前詞的上下文信息,并未用到句法、語義等信息,未能很好的挖掘句子的信息。Koomen[16]等人采用四階段的方法識別語義角色: 剪枝、論元識別、論元分類、推理。四個階段存在前后順序關(guān)系,若剪枝出現(xiàn)錯誤會導(dǎo)致下一階段論元識別的準確率下降,因此該方法存在不可避免的級聯(lián)錯誤。Koomen所采用的剪枝策略是對論元邊界的判斷,對原始句子未做修改,而本文的剪枝是對短語結(jié)構(gòu)中特定的結(jié)構(gòu)進行去除操作,對原始句子進行了縮短處理、簡化。Surdeanu[17]等人的方法與Koomen的方法類似,同樣會出現(xiàn)錯誤級聯(lián)問題。Toutanova[18]等人用到了句法信息來提高語義角色識別效果,但是句法本身識別的效果有待提高,論文中也提到了可以通過提高句法分析的效果來提升語義角色識別的效果。因此語義角色識別的效果受到句法分析的效果的制約,同理Pradhan[2]等人的方法出現(xiàn)同樣的問題。

      表6 各個系統(tǒng)對比實驗

      從表6中可以看出在wsj數(shù)據(jù)集上,本文的方法達到最好,但在brown并未達到最好。主要原因在于baseline結(jié)果相對較低,而baseline實驗是用2016年Roth[14]基于神經(jīng)網(wǎng)絡(luò)訓(xùn)練的語義角色標注的模型,使用現(xiàn)有的語義角色模型測試出來的結(jié)果作為本文的baseline實驗。與baseline實驗相比,wsj的F值提升3.24%,brown的F值提升2.86%。本文的方法主要是針對比較長且復(fù)雜的句子進行了簡化,據(jù)統(tǒng)計知wsj句子的平均長度為23.462,而brown數(shù)據(jù)集句子的平均長度為16.815,兩個數(shù)據(jù)集平均句子長度相差6.647,所以在wsj上提升的效果相對brown較好。除此之外,從本文的表2可以看出,在brown語料中,含有子句以及并列結(jié)構(gòu)的句子占68.08%左右,而在wsj語料中達到79.88%左右,也是brown語料F值偏低的原因之一。當兩個數(shù)據(jù)集合并在一起時,本文的F值達到了最好。

      為了說明本文的方法與所選用的語義角色標注模型無關(guān),本文采用了另外一個語義角色標注模型(LTH*http://barbar.cs.lth.se:8081/parse)在CONLL-2005 test_brown語料上做對比實驗,實驗結(jié)果如表7所示。

      表7 本文方法在不同模型上的實驗

      從表7中知本文的方法在LTH語義角色標注模型上F值有所提高,從而說明本文的方法在其它語義角色標注模型中同樣有效,不僅僅針對本文所選取的模型有效。

      在CoNLL-2005官網(wǎng)當年的評測F值排名前10的結(jié)果如表8*http://www.cs.upc.edu/~srlconll/st05/st05.html所示。

      表8 CoNLL-2005評測結(jié)果

      從表8中可以看出,在CoNLL-2005當年的評測結(jié)果當中,語料wsj的F值都要比brown的F值高出10%左右,結(jié)合表6可以得出各個系統(tǒng)在brown上的F值普遍低于wsj上的F值。從另一個方面可以說明本文在brown的實驗結(jié)果F值偏低與語料brown有關(guān),而與所選用的模型沒有必然的聯(lián)系,更與本文的方法沒有關(guān)系。

      本文方法主要目的是將較復(fù)雜的句子進行簡化。其中,子句抽取部分是依據(jù)英語本身的語法特點進行處理的。通過不同形式的子句處理,可以將句子以動詞為單位進行簡化。例如: The decision,reported by the official Xinhua News Agency,indicated that the crackdown prompted by student-led pro-democracy protests in June is intensifying.

      在圖6中,子句S2中動詞prompted的施事A0為the crackdown。若將整句話直接進行語義角色的分析,則錯誤的將The decision分析成該動詞的施事A0。根據(jù)本文的子句抽取規(guī)則,將子句S2直接作為語義角色分析單元,將動詞prompted的語義角色分析單元進行了簡化,則可以正確識別。

      圖6 含有子句的短語結(jié)構(gòu)部分樹

      3.3.2單個語義角色識別結(jié)果

      各個語義角色對比實驗如表9所示。

      表9 各個語義角色識別結(jié)果對比

      續(xù)表

      表9中各個語義角色識別的正確率、召回率、F值與本文的baseline實驗以及Zhou Jie等人[15]的結(jié)果對比表明,只有R-A0的F值比Zhou Jie等人的實驗結(jié)果差。但與baseline實驗相比,本文的方法在所有的語義角色中都有所提升。其中AM-MOD的F值提升最多,本文針對該語義角色進行了單獨的修正,所以提升比較多。表格中還可以得知論元AM-TMP的F值提升的最少。

      3.3.3謂詞識別結(jié)果

      關(guān)于謂詞識別結(jié)果如表10所示。

      表10 CoNLL2005、CoNLL2004動詞識別結(jié)果對比

      表10是在baseline實驗的基礎(chǔ)之上,針對rule1進行驗證該規(guī)則的有效性。在wsj、brown、test、dev四個數(shù)據(jù)集上謂詞的F值分別提升了1.68%、0.50%、0.30%、0.17%,由此可見,rule1對于謂詞的識別可以取得有效的結(jié)果。

      4 結(jié)論

      本文提出了一種基于短語結(jié)構(gòu)樹的語義角色識別方法。該方法能有效的對句子結(jié)構(gòu)進行簡化,簡化方法有剪枝、子句抽取。其中,剪枝包括并列結(jié)構(gòu)以及插入語的剪枝,子句抽取針對不同形式的子句有不同的處理方式。結(jié)合短語結(jié)構(gòu)樹還進行了論元邊界修正。本文分別在CoNLL2004與CoNLL2005評測語料中做了實驗,F(xiàn)值與baseline實驗相比都有所提高。在CoNLL2004的test數(shù)據(jù)集F值提升了3.64%,dev數(shù)據(jù)集F值提升了2.87%,在CoNLL2005的test_wsj數(shù)據(jù)集F值提升了3.24%,test_brown數(shù)據(jù)集F值提升了2.86%。實驗結(jié)果表明,引入短語結(jié)構(gòu)句法樹能有效的提升語義角色的識別效果。但本文對于子句的抽取處理還不是太充分,如以介詞短語開頭的子句S未做處理。對并列結(jié)構(gòu)的處理僅僅處理類似名詞短語這樣的并列結(jié)構(gòu),對于動詞短語的并列未做處理。今后,將進一步研究如何結(jié)合短語樹處理這些未處理的部分,從而提高語義角色標注的準確率。另外,本文是針對英文語料進行做的實驗。其中,短語結(jié)構(gòu)是自動識別的。而英文的短語結(jié)構(gòu)識別準確率比中文效果好很多。因此,本文的方法若在中文語料中做實驗,需要做進一步的處理工作。

      猜你喜歡
      子句論元謂詞
      命題邏輯中一類擴展子句消去方法
      被遮蔽的邏輯謂詞
      ——論胡好對邏輯謂詞的誤讀
      命題邏輯可滿足性問題求解器的新型預(yù)處理子句消去方法
      黨項語謂詞前綴的分裂式
      西夏研究(2020年2期)2020-06-01 05:19:12
      西夏語的副詞子句
      西夏學(xué)(2018年2期)2018-05-15 11:24:42
      成分重量和粵方言雙及物結(jié)構(gòu)的論元語序
      基于論元結(jié)構(gòu)和題元指派對漢語處置義“把”字句的句法語義分析
      也談“語言是存在的家”——從語言的主詞與謂詞看存在的殊相與共相
      命題邏輯的子句集中文字的分類
      英語中動構(gòu)式中施事論元句法隱含的認知研究
      石嘴山市| 博兴县| 视频| 荣成市| 富宁县| 丹凤县| 昆明市| 海门市| 高唐县| 谢通门县| 河间市| 三台县| 梁河县| 盱眙县| 沛县| 宜昌市| 大足县| 三都| 长子县| 永和县| 金湖县| 望江县| 保山市| 阿巴嘎旗| 青州市| 望都县| 安达市| 同江市| 南漳县| 翼城县| 萍乡市| 兴宁市| 太仓市| 阳原县| 来宾市| 老河口市| 北京市| 安福县| 阿荣旗| 班玛县| 宁化县|