• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      基于北京大學中文網(wǎng)庫的語義角色分類

      2011-06-28 02:18:32常寶寶
      中文信息學報 2011年2期
      關(guān)鍵詞:論元謂詞語料

      楊 敏,常寶寶

      (北京大學 計算語言所,北京 100871;北京大學 計算語言學教育部重點實驗室,北京 100871)

      1 引言

      語義角色標注是當前淺層語義分析的一種主要的實現(xiàn)方式,主要任務(wù)是找出給定句中每個謂詞的動詞——論元結(jié)構(gòu)。語義角色標注意義廣泛,在許多復(fù)雜的自然語言處理中,都有很大的用處,它對信息抽取、機器翻譯等研究都會產(chǎn)生巨大的幫助。

      語義角色標注的研究最早關(guān)注于英文,最早研究開始于Dan Gildea和Dan Jurafsky[1],隨著賓州大學命題庫的建立,語義角色標注任務(wù)得到廣泛的國際關(guān)注,并取得了許多很好的結(jié)果,例如Carreras等[2-3],Moschitti[4]等。另一方面出現(xiàn)了一些相關(guān)的國際評測:CoNLL 2004[2]、CoNLL 2005[3]、EMNLP-CoNLL 2007和CoNLL 2008都包含了語義角色標注的任務(wù)也促進了語義角色標注研究的蓬勃發(fā)展。國內(nèi)對語義角色標注的關(guān)注最早起始于劉挺等[5],他們主要關(guān)注的依然是英文語義角色性能的提升。而關(guān)注于中文的語義角色標注工作較晚,最開始研究的是Sun等[6]。后來伴隨著中文PropBank的構(gòu)建,Xue Nianwen開始了比較系統(tǒng)的中文語義角色標注的工作[7-8]。國內(nèi)還有劉懷軍等[9],丁偉偉等[10-11]對漢語的語義角色研究進行了系統(tǒng)的研究。

      縱觀以前的有指導的語義角色標注任務(wù),無論是對英文還是中文的研究工作,大都是基于賓州大學命題庫的語義角色標注體系進行的,CoNLL 2004[2]、CoNLL 2005[3]更是推動了所有研究都基于賓州大學命題庫的研究這一趨勢,因此研究的一大類方法便是在賓州大學命題庫的基礎(chǔ)上,基于特征的研究方法。由于北京大學中文網(wǎng)庫(以下簡稱北大網(wǎng)庫)的建立,網(wǎng)庫的標注方法與賓州命題庫的標注方法有所區(qū)別,本文的主要任務(wù)是將之前的研究方法使用到新的標注語料中,考察之前的研究方法在新標注體系中的作用,進而討論是否以前的特征選擇會有對標注體系的依賴性問題。

      本文以下部分是這樣組織的:第2節(jié)介紹中文Proposition Bank和pku網(wǎng)庫標注語料;第3節(jié)是具體介紹實驗的相關(guān)設(shè)置;實驗的相關(guān)結(jié)果在第4節(jié);第5節(jié)主要介紹兩個改進實驗。最后一節(jié)是結(jié)論與展望。

      2 語料介紹

      2.1 中文PropBank

      中文Proposition Bank(以下簡稱中文PropBank)是賓州大學建設(shè)的中文語義角色標注語料庫。它是在中文TreeBank的基礎(chǔ)上添加了一個語義角色標注層,標記出來動詞和對應(yīng)論元在TreeBank中的位置。表1列出了PropBank中出現(xiàn)的所有論元。PropBank中出現(xiàn)的語義角色可以分為兩大類:核心論元和非核心論元。前一類又可以分為施事、受事、與事等多種論元,由于PropBank中的論元劃分依據(jù)的是Dowty[12]的原型理論,所以施事、受事等角色包括的范圍都是很廣的。非核心論元又可以按照功能分出小類,比如ADV、MNR、TMP等就是其中的小類。 結(jié)合圖1可知,ARG0-ARG5是核心論元,其他都屬于非核心論元。

      表1 PropBank中的論元

      2.2 北京大學中文網(wǎng)庫

      與賓州大學命題庫相似,北大網(wǎng)庫是在由詹衛(wèi)東等開發(fā)的北大漢語句法分析樹庫的基礎(chǔ)上進行語義標注的,由北京大學中文系袁毓林[13]教授組織完成,語義角色標簽標注在句法樹的節(jié)點上。在語義角色設(shè)置方面,與PropBank有些區(qū)別,尤其是核心論元的設(shè)置。具體論元設(shè)置如下[13]:

      (一) 必有論元:

      A. 主體論元:(1)施事A:自主性動作行為的施行者。(2)感事Se:非自主性的心理感覺的主體。(3)經(jīng)事Ex:某種變化的具有感知性的主體。(4)致事Cau:某種致使性事件的引起者。(5)主事Th:性質(zhì)、狀態(tài)等無施動、感知性的主體。

      B. 客體論元:(1)受事P:因施事的行為而受到影響的事物。(2)與事D:動作、行為的非主動的參與者。(3)結(jié)果R:動作、行為造成的結(jié)果。(4)對象Ta:感知性動作、行為的對象和目標。(5)系事Re:事件中跟主體論元相對的其他各種客體。

      (二) 非必有論元

      A. 憑借論元:(1)工具I:動作、行為所憑借的器具。(2)材料Ma:動作、行為所用的材料。(3)方式M:動作、行為所采取的方式、方法。(4)原因Rn:動作、行為、事件等發(fā)生的原因。(5)目的Ai:發(fā)生動作、行為、事件等的目的。

      B. 環(huán)境論元:(1)時間T:動作、行為、事件等發(fā)生的時間。(2)處所L:動作、行為、事件等發(fā)生的處所。(3)源點So:動作、行為、事件等開始的時間或處所。(4)終點Go:動作、行為、事件等結(jié)束的時間、處所或狀態(tài)。(5)路徑Pa:動作、行為、事件等中途經(jīng)過的時間或處所。(6)范圍Ra:動作、行為、事件等所涉及的數(shù)量、頻率、幅度、時間等事項。(7)量幅EXT。

      圖1是北大網(wǎng)庫中的一個例子。在這個例子中,出現(xiàn)了三個謂詞,分別是:“毫不在意”、“抹去”、“當作”。對于“毫不在意”,句子中對應(yīng)的論元成分有:感事“他”,對象“這一切”;對于謂詞“抹去”,句中對應(yīng)的論元有:施事“他”,受事“它們”和方式“當作蛛絲一樣”;對于謂詞“當作”,對應(yīng)的論元有:施事“他”,受事“它們”,系事“蛛絲”。

      圖1 網(wǎng)庫例句示例

      2.3 PropBank與網(wǎng)庫的比較

      直觀從論元分類上看,相比PropBank,北大網(wǎng)庫的論元更細致,分別在主體論元和客體論元內(nèi)部各劃分出五個子類。從語義角色精細等級的理論上[1]看,兩種語料庫確實有所不同。

      PropBank的語義角色是編了號的原型角色,是中觀層次上基于特定動詞的角色,又借鑒了宏觀層次上原型角色的抽象性地指派的做法,于是用了數(shù)目相對有限的帶編號的論元,每一個具體動詞的語義論元被編了號。對于一個特定的動詞,ArgO通常是表現(xiàn)出Dowty[12]中的原型施事的有關(guān)特征的論元,Argl則是原型受事和主事(Theme)。對于這種被編了號的高級論元,無法做出適合于不同動詞的具有一致性的概括。而動詞的特定用法相對應(yīng)的一組角色叫角色集合,這組角色可以跟一組句法框架相聯(lián)系,這組句法框架顯示了那組角色的各種可能的句法變化。而中文網(wǎng)庫的語義角色是屬于所謂中觀層級的語義角色,雖不是基于一個個具體的動詞,而是基于具有句法、語義共性的一類動詞。雖然北大網(wǎng)庫也配套給出了動詞的框架描述,但是針對每個動詞,它的各類角色都標注在語料中,并不需要像PropBank一樣從框架描述中才能確定具體的語義角色。

      3 語義角色標注

      一般的語義角色標注系統(tǒng)分為四個步驟,分別是剪枝pruning、語義角色識別、語義角色分類以及后處理階段。國內(nèi)外很多學者對每個過程的研究也非常豐富,對于識別、分類階段的特征挑選方面也進行了細致的研究。本文將只對論元分類部分進行研究。

      3.1 實驗數(shù)據(jù)

      北大網(wǎng)庫共70個文件,包括的句子總數(shù)為 12 434,論元總數(shù)為65 967。我們在劃分訓練集、開發(fā)集以及測試集時采用了與文獻[8]大概一致的比例。圖2是網(wǎng)庫中各類論元的分布圖,由圖可見,論元的分布很不均勻,不僅各大類(共四類)的論元總數(shù)相差很遠,主體論元、客體論元、憑借論元和環(huán)境論元的比例大概為16.5∶18∶6∶1,各類論元內(nèi)部分布也不均勻。

      圖2 網(wǎng)庫中各論元分布圖

      3.2 分類器

      本實驗采用Zhang Le的最大熵分類器MaxEnt*下載地址http://homepages.inf.ed.ac.uk/s0450736/maxent_toolkit.html.,該分類器實現(xiàn)了包含高斯平滑的最大熵算法,采用LBFGS參數(shù)估計方法,可以很方便地處理多類劃分的問題。

      實驗的參數(shù)設(shè)置如下:迭代次數(shù)500,高斯平滑參數(shù)為15。

      在改進實驗中采用了CRF++分類器*下載地址http://chasen.org/~taku/software/CRF++/#features.。

      3.3 特征模版

      為了使實驗結(jié)果與前人實驗結(jié)果具有可比較性,本實驗中采用的特征集合與文獻[8]的Baseline一致。特征模版如下:位置:句法成分在謂詞前面還是后面;動詞的框架:動詞的父節(jié)點及其所有子節(jié)點構(gòu)成的框架;短語類型:該論元成分的短語類型;首詞:句法成分的第一個詞;尾詞:該句法成分的尾詞;左兄弟的短語類型;擴展的動詞框架:動詞框架及圍繞動詞的np ;目標謂詞;路徑:句法分析樹上句法成分到謂詞的路徑;中心詞:該句法成分的中心詞;中心詞詞性;復(fù)合特征:謂詞+中心詞;復(fù)合特征:謂詞+短語類型。

      4 實驗結(jié)果

      在網(wǎng)庫語料上,論元分類的準確率為78.86%。對比文獻[8]中的93.1%的準確率,可見該組特征在網(wǎng)庫上的表現(xiàn)差很多。圖3描述了Baseline各類論元的分類準確率。由圖3可見,各類論元中都有分類準確率比較高的論元,也有準確率很低的論元。

      為了確定被錯誤分類的論元是被誤歸類到所屬大類的集合中,還是被錯誤的分為別的大類中,我們分別將各大類論元合并,即采用各種不同顆粒的論元分類法,同樣適用上述特征集合,具體實驗結(jié)果如表2,由表2可知,當將屬于主體論元類的五種論元合并成一個大類、屬于客體論元類的五中論元合并成另一大類時,分類準確率明顯提升至89.18%,由此可見,這兩大類論元在分類時的內(nèi)部錯誤占了整個系統(tǒng)錯誤的很大一部分。同時,如果將所有論元按最大粒度的分類方法,分成四大類,相比于第二種分類法,分類的準確率提高了1.7個百分點,由此可見,依然有部分論元被錯誤地分到其他大類別中。

      圖3 各論元分類的正確率圖

      表2 采用不同論元分類法的實驗結(jié)果

      5 實驗改進及結(jié)果分析

      由上述實驗結(jié)果可知,論元分類的主要錯誤來自各大類論元內(nèi)部,產(chǎn)生這個結(jié)果也是與語料標注有關(guān)的。網(wǎng)庫的語義角色是基于特定謂詞的各論元成分的論旨角色,是屬于所謂中觀層級的語義角色,同一動詞雖然可以有多種義項,但同一義項所帶的論元框架是統(tǒng)一的,因此動詞框架信息對于論元分類,尤其是判斷主體、客體論元會有很多作用。同時,由于同一謂詞的論元配置具有相對固定性,因此采用序列標注的思想對于論元分類也會有正面作用。以下兩個改進實驗就是分別基于上面兩個思想進行。

      5.1 動詞相關(guān)特征

      由上述分析可知,在對主體、客體論元分類時,謂詞相關(guān)的特征非常重要。因此仿照前人在PropBank中使用的方法,提取每個句中每個謂詞的論元框架,并添加以下三個特征verbFrame,VerbFrame+headword,verbFrame+phraseType后,總體分類準確率從78.86%提高到94.34%,提升幅度非常大,而在文獻[8]試驗中,加入謂詞框架相關(guān)特征后的分類準確率也只是有一個百分點的提升,可見謂詞框架信息對網(wǎng)庫角色分類的至關(guān)重要性。

      但是這種方法有一個很嚴重的弊端就是:它將所有語料中(包括測試語料中)的每個謂詞—論元框架提取出來當做特征,而在真實情況中,是不可能預(yù)先知道測試語料中謂詞的論元框架,因此這種提取特征的方法一定程度上夸大了分類的準確率。前人在針對PropBank的研究中,使用框架特征時普遍存在著這個問題。因此,我們提出一種更貼切現(xiàn)實的謂詞框架提取方法,即只提取訓練語料中的謂詞—論元框架。實驗結(jié)果如我們預(yù)期的一樣,這種改進的方法使分類準確率較Baseline提升到88.24%,但相比之前提取謂詞—論元框架的方法,準確率降低6個百分點。這樣驗證了我們的觀點。

      圖4給出了使用改進后框架特征與使用未改進框架特征的分類結(jié)果對比情況。可見,謂詞框架的相關(guān)特征對提高論元分類準確率的效果很大。而且當去除測試語料中謂詞—論元框架信息時的各類論元分類準確率都有所下降,尤其是一些本身數(shù)量就比較少的論元,如主體論元中的CAU、EX。

      圖4 謂詞框架信息修改前后的分類結(jié)果對比

      5.2 序列標注的思想

      在前面的所有實驗中,我們都是將所有節(jié)點一個一個單獨地提取特征,進行分類,各論元之間沒有任何聯(lián)系。但實際在一個句子中,某一謂詞的論元之間具有相關(guān)性,特定動詞的論元成對出現(xiàn)的可能性很大,例如:受事論元被定義為因施事的行為而受到影響的事物,因此受事常與施事論元成對出現(xiàn),當前面論元已判定為施事時,后面很可能會出現(xiàn)受事論元。采用序列標注的思想,考慮論元之間的相關(guān)性。因此使用CRF++分類器進行分類,總體分類準確率為88.50%。具體每一類論元的分類準確率如圖4。

      將上面所有實驗結(jié)果與前人結(jié)果綜合起來,比較結(jié)果如表3。從表3可以看到,相比較與在PropBank上的論元分類,Baseline在網(wǎng)庫上的效果差很多,也就是說Baseline中所使用的特征集合對網(wǎng)庫論元分類的效果并不很明顯,而謂詞框架信息對網(wǎng)庫中的角色分類的作用更加關(guān)鍵。然而,在使用修正后的謂詞框架信息,分類準確率明顯下降了不少,由此我們也可以看出前人在PropBank上中使用的謂詞框架信息一定程度上夸大了分類的準確率。另外,采用序列標注的思想,將前一個論元的分類結(jié)果加入作為特征,對每種論元的分類準確率都有提升還是很大的,這里只是在Baseline的基礎(chǔ)上使用序列標注,準確率比Baseline提高了近十個百分點,這也驗證了我們對論元之間相關(guān)性的猜想。

      表3 實驗結(jié)果比較

      6 結(jié)論與展望

      本文中,我們?nèi)碌恼Z料庫上建立了一個中文語義角色分類系統(tǒng),并將前人基于PropBank廣泛使用的分類方法應(yīng)用到新語料庫中,在論元分類階段取得與在PropBank上相當?shù)膶嶒灲Y(jié)果。從實驗結(jié)果可以看出,雖然之前的實驗方法在網(wǎng)庫中也能獲得良好的效果,但是我們也驗證了之前研究方法中的在提取謂詞框架信息方面普遍存在的問題。另外論元框架信息在新語料中對提高正確率的重要作用,說明了此特征在不同語料上的良好擴展性,同時Baseline的低準確率也說明其他特征的作用比較弱,可見這些特征在不同語料上的重要性大有不同,因此我們認為特征對語料的依賴性是存在的,因此下一步工作是分別找出兩種語料中的最佳特征組合,進行研究每個特征在兩種語料上的重要性并找出真正不依賴于標注語料的特征集合。另外本文研究只是在北大網(wǎng)庫上的語義角色分類,將來的工作可以繼續(xù)關(guān)注語義角色標注的第一階段——語義角色識別,并使其與現(xiàn)有的工作結(jié)合起來,從而構(gòu)建一個完整的基于北大網(wǎng)庫的漢語語義角色標注系統(tǒng)。

      [1] D.Gildea, D. Jurafsky. Automatic labeling of semantic roles[J]. Computational Linguistics, 2002,28(3):245-288..

      [2] Carreras X, Màrques L. Introduction to the conll-2004 shared task: Semantic role labeling[C]//Proceedings of CoNLL-2004,Boston, MA, USA, 2004:89-97.

      [3] Carreras X, Màrques L. Introduction to the conll-2005 shared task: Semantic role labeling[C]//Proceedings of CoNLL-2005,stroudsburg, PA,USA, 2005:152-164.

      [4] A. Moschitti. A Study on Convolution Kernels for Shallow Statistic Parsing[C]//Proceedings of the 42nd Meeting of the Association for Computational Linguistics, Barcelona, Spain, 2004:335-342.

      [5] 劉挺,車萬翔,李生. 基于最大熵分類器的語義角色標注 [J]. 軟件學報,2007,18(3):565-573.

      [6] H. Sun,D. Jurafsky. Shallow Semantic Parsing of Chinese[C]//Proceedings of the HLT/NAACL, 2004.

      [7] N. Xue, M. Palmer. Automatic semantic role labeling for Chinese verbs[C]//19th International Joint Conference on Artificial Intelligence, Edinburgh, Scotland.2005:1160-1165.

      [8] N. Xue. Labeling Chinese Predicates with Semantic Roles [J]. Computational Linguistics, 2008,34(2):225-255.

      [9] 劉懷軍,車萬翔,劉挺. 中文語義角色標注的特征工程 [J]. 中文信息學報, 2007,21(1):79-84.

      [10] 丁偉偉,常寶寶. 基于最大熵原則的漢語語義角色分類[J].中文信息學報.2008,22(6):20-26.

      [11] 丁偉偉,常寶寶.基于語義組塊分析的漢語語義角色標注[J].中文信息學報,2009,23(5):53-61,74.

      [12] Dowty,D. Thematic Proto-Role and Argument Selection [J]. Language,1991,67(3):547-561.

      [13] 袁毓林. 語義角色的精細等級及其在信息處理中的應(yīng)用 [J]. 中文信息學報, 2007,21(4):10-20.

      猜你喜歡
      論元謂詞語料
      被遮蔽的邏輯謂詞
      ——論胡好對邏輯謂詞的誤讀
      黨項語謂詞前綴的分裂式
      西夏研究(2020年2期)2020-06-01 05:19:12
      成分重量和粵方言雙及物結(jié)構(gòu)的論元語序
      基于論元結(jié)構(gòu)和題元指派對漢語處置義“把”字句的句法語義分析
      基于語料調(diào)查的“連……都(也)……”出現(xiàn)的語義背景分析
      也談“語言是存在的家”——從語言的主詞與謂詞看存在的殊相與共相
      外語學刊(2016年4期)2016-01-23 02:33:55
      華語電影作為真實語料在翻譯教學中的應(yīng)用
      《苗防備覽》中的湘西語料
      英語中動構(gòu)式中施事論元句法隱含的認知研究
      國內(nèi)外語用學實證研究比較:語料類型與收集方法
      东方市| 泽州县| 焦作市| 永新县| 年辖:市辖区| 小金县| 庆云县| 长垣县| 兰溪市| 河南省| 江门市| 乌拉特后旗| 清苑县| 延寿县| 静安区| 横峰县| 巫山县| 沙湾县| 那曲县| 宁明县| 崇左市| 班戈县| 枣阳市| 娱乐| 岳阳市| 台中县| 乡城县| 股票| 平舆县| 界首市| 延长县| 卓尼县| 高碑店市| 彰化县| 宜章县| 隆安县| 隆尧县| 娄底市| 武冈市| 广水市| 芒康县|