• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      TimeML在文本時(shí)間關(guān)系解析中的應(yīng)用

      2014-07-07 15:09:49李路標(biāo)張寅生王惠臨
      中國科技資源導(dǎo)刊 2014年5期
      關(guān)鍵詞:時(shí)序語料語料庫

      李路標(biāo) 張寅生 王惠臨

      (中國科學(xué)技術(shù)信息研究所,北京 100038)

      TimeML在文本時(shí)間關(guān)系解析中的應(yīng)用

      李路標(biāo) 張寅生 王惠臨

      (中國科學(xué)技術(shù)信息研究所,北京 100038)

      TimeML是在自然語言文本中標(biāo)注事件和時(shí)間表達(dá)的一種規(guī)范語言。本文介紹了TimeML標(biāo)準(zhǔn)及其語料庫TimeBank,從其起源英文文本事件時(shí)間表達(dá)標(biāo)注開始,分析TimeML在文本時(shí)間關(guān)系解析研究中的發(fā)展,并探討了TimeML在漢語文本時(shí)間關(guān)系解析研究中的應(yīng)用。

      TimeML;TimeBank;時(shí)序推理;事件識(shí)別;時(shí)間信息;文本時(shí)間關(guān)系解析

      1 引言

      文本時(shí)間關(guān)系解析(TRR)是自然語言處理領(lǐng)域的一個(gè)重要研究?jī)?nèi)容,主要目的是識(shí)別事件及其時(shí)間信息的特定關(guān)系,并進(jìn)行事件時(shí)間表達(dá)關(guān)系之間的推理等。它在信息檢索系統(tǒng)、問答系統(tǒng)、機(jī)器翻譯等人工智能領(lǐng)域有著重要的作用。

      較好的事件和時(shí)間表達(dá)式的識(shí)別是文本時(shí)間關(guān)系解析的基礎(chǔ)。以往,對(duì)事件和時(shí)間表達(dá)式的識(shí)別主要集中在對(duì)詞法信息的研究上,而忽略了句子的結(jié)構(gòu)信息和語義信息。隨著計(jì)算機(jī)技術(shù)的發(fā)展以及大眾信息需求的變化,計(jì)算機(jī)語言學(xué)研究者們對(duì)文本時(shí)間關(guān)系中結(jié)構(gòu)信息和語義信息的問題關(guān)注增多,而較好的文本事件時(shí)間表達(dá)標(biāo)注規(guī)范是識(shí)別文本事件時(shí)間表達(dá)關(guān)系的基礎(chǔ)與進(jìn)行文本時(shí)間關(guān)系解析的重要前提。其中最具代表性的是TimeML規(guī)范[1]。它是在自然語言文本中表示事件和時(shí)間表達(dá)的一種規(guī)范語言[2],是為提升自然語言問答系統(tǒng)的處理性能而提出的,現(xiàn)已成為事件時(shí)間表達(dá)標(biāo)記的一種ISO標(biāo)準(zhǔn)規(guī)范。它被設(shè)計(jì)用來解決以下4個(gè)問題:(1)事件的時(shí)間標(biāo)記;(2)事件之間的相互順序;(3)根據(jù)上下文特定時(shí)間表達(dá)式對(duì)事件進(jìn)行推理;(4)推理事件的持續(xù)時(shí)間。TimeML將事件定義為在事件時(shí)間關(guān)系網(wǎng)中的一個(gè)節(jié)點(diǎn),用時(shí)間信息來標(biāo)記和索引事件,從而進(jìn)行事件在其時(shí)間方面的推理等工作[3]。這不僅解釋了句子的含義,更實(shí)現(xiàn)了使計(jì)算機(jī)理解句子邏輯結(jié)構(gòu)這一語義理解的關(guān)鍵步驟[4]。

      該標(biāo)準(zhǔn)經(jīng)過了十幾年的發(fā)展,基本具有了較為具體和成熟的理論思想。目前,已有不少學(xué)者和研究人員從不同的角度基于TimeML標(biāo)準(zhǔn)進(jìn)行英文文本時(shí)間關(guān)系解析的研究。在其他外文中也有針對(duì)TimeML的嘗試性的實(shí)踐研究,并有一定進(jìn)展。但在中文研究領(lǐng)域,并沒有深入的展開,相關(guān)研究及規(guī)范化程度仍然處于初級(jí)階段,無法從句法關(guān)系和語義關(guān)系的角度對(duì)文本中事件及其時(shí)間表達(dá)關(guān)系進(jìn)行識(shí)別分析,也不能實(shí)現(xiàn)相關(guān)的推理等工作。因此,總結(jié)分析前人經(jīng)驗(yàn),在前人的基礎(chǔ)上將TimeML應(yīng)用到漢語文本時(shí)間關(guān)系解析研究的工作上來,服務(wù)于中文的問答系統(tǒng)、機(jī)器翻譯等人工智能領(lǐng)域,將是一項(xiàng)非常有意義的嘗試。

      2 TimeML原理

      TimeML是在一個(gè)關(guān)于問答系統(tǒng)的AQUAINT項(xiàng)目里首次被提出來的。從2002年開始,該標(biāo)準(zhǔn)先后經(jīng)歷了3次專題研討會(huì)的討論和確定。第一次是TERQAS,研究者們以提高自然語言問答系統(tǒng)的性能,以便處理新聞文章中基于時(shí)間問題的事件為目的,在這次會(huì)議上第一次定義TimeML標(biāo)準(zhǔn)并且創(chuàng)建了相應(yīng)英文文本的語料庫TimeBank[5]。在接下來的TANGO會(huì)議中發(fā)布了界面化的標(biāo)注工具。最后一次會(huì)議是TARSQI,在這次會(huì)議中參與者們開發(fā)了在自然語言文本中表示事件和時(shí)間表達(dá)的算法,并利用TimeML標(biāo)準(zhǔn)進(jìn)行了相關(guān)的英文文本時(shí)間關(guān)系解析實(shí)驗(yàn)。

      TimeML標(biāo)注形式就是先將待標(biāo)注文本組織成XML形式,然后用不同的標(biāo)簽來代表不同的元素類別,從而進(jìn)行文本標(biāo)注。在TimeML中使用的標(biāo)簽主要有<EVENT><SIGNAL><TIME X3><MAKEINSTANCE>和<LINKS>。其中,<EVENT>標(biāo)簽是用來標(biāo)注在文本中“事件”類型的元素。在TimeML標(biāo)注系統(tǒng)中,Boguraev等人認(rèn)為事件是涵蓋“發(fā)生”情況的術(shù)語[6],既可以是瞬時(shí)事件,也可以是持續(xù)事件。從語言學(xué)角度看,事件可以是動(dòng)詞、名詞、形容詞等。<TIMEX3>標(biāo)簽是用來標(biāo)注時(shí)間表達(dá)式的。<SIGNAL>標(biāo)簽是標(biāo)注存在于兩個(gè)實(shí)體(事件和事件之間、事件和時(shí)間之間、時(shí)間和時(shí)間之間)之間的具體關(guān)系。<MAKEINSTANCE>標(biāo)簽是用來詳細(xì)描述一個(gè)事件的具體實(shí)例。<LINKS>標(biāo)簽共有3種類型,分別是<TLINK>、<SLINK>和<ALINK>。<TLINK>(Temporal Link)標(biāo)簽描述的是事件之間、時(shí)間之間或者一個(gè)事件和時(shí)間之間的一種時(shí)序關(guān)系。<SLINK>(Subordination Link)標(biāo)簽用來描述文本中兩個(gè)事件之間的關(guān)系。<ALINK>(Aspectual Link)標(biāo)簽描述的是一個(gè)體態(tài)事件和另一個(gè)事件之間的聯(lián)系。

      <EVENT>標(biāo)簽和<TIMEX3>標(biāo)簽的BNF表示形式分別如圖1和圖2,其他標(biāo)簽的BNF表示形式見參考文獻(xiàn)[1]。

      圖1 標(biāo)簽的BNF表示形式

      圖2 標(biāo)簽的BNF表示形式

      在圖3中表示的是英文句子“Bill wants to teach on Monday.”的TimeML語言標(biāo)記結(jié)果。

      通過TimeML語言的標(biāo)記,不難發(fā)現(xiàn)事件“wants”和“teach”分別標(biāo)上了<EVENT>標(biāo)簽,時(shí)間表達(dá)式“Monday”標(biāo)上了<TIMEX3>標(biāo)簽,時(shí)間介詞“to”和“on”標(biāo)上了<SIGNAL>標(biāo)簽,同樣還有<TLINK>和<SLINK>等標(biāo)簽。通過這樣的標(biāo)記,不僅可以快速定位到事件及其相關(guān)的時(shí)間信息,也更便于進(jìn)行下一步時(shí)序推理等研究工作。

      隨著TimeML在文本時(shí)間關(guān)系解析研究中的應(yīng)用,其自身也得到了不斷的更新與發(fā)展。2004年TimeML1.2版標(biāo)準(zhǔn)發(fā)布,不僅對(duì)原來1.0版標(biāo)準(zhǔn)進(jìn)行大幅度的調(diào)整,還對(duì)相關(guān)標(biāo)簽職能分工更加明確,方便進(jìn)一步處理研究。其后又在此基礎(chǔ)上細(xì)化了相關(guān)屬性,擴(kuò)大了標(biāo)注范圍,發(fā)布了TimeML 1.2.1版標(biāo)準(zhǔn)。與之前的事件時(shí)間表達(dá)標(biāo)注規(guī)范相比,TimeML 1.2.1版標(biāo)準(zhǔn)具有如下特征。

      (1)在TIMEX2基礎(chǔ)上擴(kuò)大了標(biāo)注的特征及相關(guān)屬性值范圍。

      (2)推出時(shí)序功能以便有目的地識(shí)別指定的表達(dá)式,例如three years ago、last month。

      (3)識(shí)別決定時(shí)間表達(dá)的SIGNALS。①時(shí)間介詞:例如for、during on、at等;②時(shí)間連詞:例如before、after、while等。

      (4)識(shí)別所有事件表達(dá)的類別。

      ①時(shí)態(tài)動(dòng)詞:例如has left、was captured、will resign等;②狀態(tài)形容詞和其他修飾詞:例如sunken、stalled、on board等;③事件名詞:例如merger、Military Operation、Gulf War等。

      (5)創(chuàng)建事件和時(shí)間的依存關(guān)系。①固定:例如John left on Monday;②排序:例如The party happened after mi-dnight;③嵌入:例如John said Mary left。

      圖3 TimeML語言標(biāo)記實(shí)例

      可以看出TimeML標(biāo)準(zhǔn)明確了3個(gè)在文本事件時(shí)間表達(dá)標(biāo)記的不同現(xiàn)象:(1)系統(tǒng)地將一個(gè)事件謂詞固定在一個(gè)廣泛的時(shí)間表達(dá)式范圍內(nèi)。(2)對(duì)文本中的事件相對(duì)于另一個(gè)時(shí)間表達(dá)式進(jìn)行排序標(biāo)記。(3)允許部分表示時(shí)間表達(dá)式有一個(gè)相對(duì)延遲的不規(guī)范的解釋。也正是憑借著較高的表達(dá)能力、較大的標(biāo)注語義范圍、較強(qiáng)的模糊問題解釋能力以及開源的程序支持,TimeML標(biāo)準(zhǔn)已被廣泛應(yīng)用到問答系統(tǒng)、機(jī)器翻譯、信息檢索系統(tǒng)等人工智能領(lǐng)域。

      3 TimeML在西語研究中的進(jìn)展

      英文的文本時(shí)間關(guān)系解析研究起步較早。在上世紀(jì)90年代,由于缺少成熟的語料庫,文本時(shí)間關(guān)系解析研究大多是基于規(guī)則的方法建立起來的事件時(shí)間表達(dá)關(guān)系識(shí)別模型,并進(jìn)行簡(jiǎn)單地分析工作。1992年,Lascarides、Asher和Oberlander提出了兩個(gè)事件的時(shí)序關(guān)系與話語結(jié)構(gòu)有關(guān)[7],他們對(duì)多種語言環(huán)境進(jìn)行了分析,并對(duì)應(yīng)到narration、elaboration、explanation、background和result等5種話語關(guān)系中。以此,他們根據(jù)話語關(guān)系和時(shí)序關(guān)系之間的對(duì)應(yīng)關(guān)系,就可以找到事件之間的時(shí)序關(guān)系。1995年,Hitzeman基于HPSG在分析話語的時(shí)序結(jié)構(gòu)時(shí)著重考慮了時(shí)態(tài)(tense)、體態(tài)(aspect)、事件副詞和修飾關(guān)系等因素[8]。在2002年,Dorr等人采用基于約束的方法對(duì)時(shí)態(tài)、體態(tài)以及連接詞進(jìn)行分析,確定了識(shí)別時(shí)序關(guān)系的約束語言理論模型CONGEN[9]。

      雖然采用基于規(guī)則的方法進(jìn)行文本時(shí)間關(guān)系解析研究準(zhǔn)確度較高,但是其適用范圍小,只能適用較小規(guī)模、可形式化的研究?jī)?nèi)容。隨著TimeML標(biāo)準(zhǔn)的明確與完善,尤其是出現(xiàn)了以英文新聞為語料來源的語料庫Timebank,同時(shí)機(jī)器學(xué)習(xí)的方法也逐漸應(yīng)用在事件時(shí)間表達(dá)關(guān)系識(shí)別上,文本時(shí)間關(guān)系解析研究有了較為快速的發(fā)展,同時(shí)也大大推動(dòng)了相關(guān)分析研究工作的進(jìn)展。

      在TimeML標(biāo)準(zhǔn)發(fā)布之后,陸續(xù)發(fā)布了一些用于后續(xù)實(shí)驗(yàn)研究的基于TimeML標(biāo)準(zhǔn)創(chuàng)建的語料庫,其中應(yīng)用最多、具有廣泛影響力的當(dāng)屬以英文新聞為語料來源的語料庫TimeBank。語料庫TimeBank 1.1是在TimeML標(biāo)準(zhǔn)誕生的早期、遵循TimeML 1.1 版標(biāo)準(zhǔn)創(chuàng)建的。較新的語料庫TimeBank 1.2在2006年創(chuàng)建,它不僅遵循TimeML 1.2.1 版標(biāo)準(zhǔn),而且包含了超過6.1萬個(gè)標(biāo)記的共計(jì)183篇相關(guān)新聞文章。語料庫TimeBank代表了最為精細(xì)的、具有廣泛時(shí)序標(biāo)注的語料庫。它不僅是那些對(duì)時(shí)間和語言感興趣的語料庫語言學(xué)家的一份寶貴資源,也是那些對(duì)問答系統(tǒng)、信息抽取等自然語言應(yīng)用領(lǐng)域感興趣的語言工程師們的一份寶貴資源。它為今后的研究提供了堅(jiān)實(shí)的基礎(chǔ),為語義學(xué)以及事件時(shí)間表達(dá)關(guān)系推理等研究提供了強(qiáng)有力的支持[10-11]。

      在2003年,Mani等為了驗(yàn)證機(jī)器學(xué)習(xí)方法的可行性,他在語料庫Timebank中抽取時(shí)態(tài)、時(shí)間介詞、話語連接詞等預(yù)設(shè)的特征詞,采用監(jiān)督的方式來訓(xùn)練決策樹分類器模型,不僅達(dá)到了75.4%的準(zhǔn)確率[12],還進(jìn)行了初步的新聞事件推理分析研究。2006年,Mani等以語料庫Timebank和語料庫Opinion為語料來源,抽取完美特征詞,即tense、aspect、modality、signal、event class、event string、negation、same tense和same aspect,來訓(xùn)練最大熵分類器模型[13],并得到了62.5%的準(zhǔn)確率。他也提出了用時(shí)序推理的方法來擴(kuò)大訓(xùn)練語料中<TLINK>等標(biāo)簽的數(shù)量來解決語料庫數(shù)據(jù)稀疏的問題。在2007年,Chambers等在Mani的研究基礎(chǔ)上,擴(kuò)大了特征空間,加入了詞性等特征,提升了分類器的準(zhǔn)確率,使之達(dá)到了67.57%[14]。在此之中,他發(fā)現(xiàn)兩個(gè)事件之間的依賴關(guān)系特征對(duì)分類器有著重要的影響,并提出了一種基于純文本的事件時(shí)間表達(dá)關(guān)系識(shí)別的方法,分為兩個(gè)階段——自動(dòng)標(biāo)注事件屬性階段和事件時(shí)間表達(dá)關(guān)系識(shí)別階段,這大大解決了在事件時(shí)間表達(dá)關(guān)系識(shí)別研究中的數(shù)據(jù)稀疏問題。

      在2008年,Chambers等又提出了解決分類器測(cè)試結(jié)果后的事件時(shí)間表達(dá)關(guān)系沖突問題來提高文本時(shí)間關(guān)系分析模型性能的觀點(diǎn)[15]。這與之前通過提高分類器的準(zhǔn)確率來提高文本時(shí)間關(guān)系分析模型性能的普遍做法做了調(diào)整,他們用ILP(Integer Linear Programming)來限制結(jié)果,如果發(fā)現(xiàn)沖突則用推理的方法重新進(jìn)行事件時(shí)間表達(dá)關(guān)系識(shí)別與分析,但是這一方法是比較繁瑣的。Yoshikawa在2009年提出了用馬爾科夫模型來進(jìn)行事件時(shí)間表達(dá)關(guān)系識(shí)別的觀點(diǎn)[16],并有效避免了用ILP模型檢測(cè)的繁瑣。

      針對(duì)TimeML中<TIMEX3>標(biāo)簽的升級(jí),在2011年,Saquete和Pustejovsky實(shí)現(xiàn)了在TIDES中從<TIMEX2>標(biāo)簽到<TIMEX3>的自動(dòng)轉(zhuǎn)化,并達(dá)到了將近90%的準(zhǔn)確率[17]。2012年,Derczynski Leon和Gaizauskas Robert利用TimeML中<SIGNAL>標(biāo)簽對(duì)時(shí)序關(guān)系分類問題進(jìn)行了研究,并提升了其準(zhǔn)確率[18]。Chang A X和Manning C按照TimeML標(biāo)準(zhǔn),開發(fā)了英文文本中時(shí)間表達(dá)式的識(shí)別和規(guī)范化處理的SUTime[19],SUTime有著較高的識(shí)別準(zhǔn)確率,現(xiàn)在已經(jīng)納入斯坦福大學(xué)自然語言處理項(xiàng)目。就在2013年剛剛結(jié)束的關(guān)于詞法和計(jì)算語義學(xué)第二次聯(lián)合會(huì)議上,眾多自然語言處理領(lǐng)域的學(xué)者和研究人員聚集在一起,深入研討了基于TimeML的文本時(shí)間關(guān)系解析研究情況。這次不僅進(jìn)行了新一輪的評(píng)估工作,更重要的是實(shí)現(xiàn)了更進(jìn)一步的解析研究。Chambers N實(shí)現(xiàn)了從生語料文件中對(duì)事件和時(shí)間表達(dá)式的排序處理,NavyTime在對(duì)時(shí)間表達(dá)式進(jìn)行識(shí)別與分析時(shí)超越了SUTime,使得文本時(shí)間關(guān)系解析研究更加向前推進(jìn)了一步[20]。Wartena Christian利用支持向量機(jī)對(duì)詞和短語進(jìn)行了語義相似度的評(píng)估[21]。Lau Jey Han、Cook Paul和Baldwin Timothy基于主題模型進(jìn)行了詞義歸納研究[22]。

      國內(nèi)也有一些基于TimeML標(biāo)準(zhǔn)進(jìn)行英文文本時(shí)間關(guān)系解析的研究。2010年,孫輝結(jié)合機(jī)器學(xué)習(xí)的方法和計(jì)算語言學(xué)的知識(shí)構(gòu)造了基于OTC語料庫的英文事件時(shí)序關(guān)系識(shí)別模型,不僅解決了語料庫數(shù)據(jù)稀疏問題,也嘗試性地應(yīng)用在其他大規(guī)模的語料庫中[23]。在2012年,王鳳玲提出了使用CRF模型結(jié)合多種特征方法對(duì)英語時(shí)間表達(dá)式進(jìn)行識(shí)別與分析的觀點(diǎn)[24],并采用TimeBank1.1為評(píng)測(cè)語料進(jìn)行實(shí)驗(yàn),不僅驗(yàn)證了其觀點(diǎn),也得到了一些理想的效果。

      基于TimeML進(jìn)行英文文本時(shí)間關(guān)系解析的研究已經(jīng)較為成熟,從最初僅僅依靠規(guī)則進(jìn)行事件、時(shí)間表達(dá)等單方面的識(shí)別分析,到結(jié)合語料庫TimeBank、利用機(jī)器學(xué)習(xí)的方法進(jìn)行時(shí)序推理等全方面、深層次的研究,英文文本時(shí)間關(guān)系解析研究已遙遙領(lǐng)先。針對(duì)具體的研究任務(wù),其研究方法也不盡相同,即便是相同或者相似的研究任務(wù),也會(huì)有不少新意。總體來說,針對(duì)英文事件、時(shí)間表達(dá)等識(shí)別與分析的研究方法已基本成型,即通過構(gòu)建分類器模型,訓(xùn)練已標(biāo)注好的文本,進(jìn)而對(duì)生語料進(jìn)行識(shí)別與分析。但是,在進(jìn)一步的時(shí)序推理研究中并沒有一致的方法:一是針對(duì)不同的研究?jī)?nèi)容,具體的方法不同;二是在TimeML標(biāo)準(zhǔn)發(fā)展的短短10來年的時(shí)間里,研究工作者的研究?jī)?nèi)容不是十分集中,比較分散,相應(yīng)的研究方法也不統(tǒng)一。

      隨著應(yīng)用TimeML標(biāo)準(zhǔn)進(jìn)行時(shí)間關(guān)系解析研究熱度的上升,越來越多的學(xué)者和研究人員開始探索將TimeML標(biāo)準(zhǔn)應(yīng)用在其他語言上。2007年,F(xiàn)rank在英德平行語料基礎(chǔ)上,應(yīng)用詞對(duì)齊技術(shù)實(shí)現(xiàn)了德語的TimeML時(shí)間表達(dá)標(biāo)注[25]。他利用現(xiàn)有的標(biāo)注工具及平臺(tái),標(biāo)注英德平行語料中的英語部分,然后利用詞對(duì)齊技術(shù),自動(dòng)將這些標(biāo)注映射到德語文本。在2009年,Caselli T等成功地開發(fā)出基于TimeML的規(guī)范化的意大利語言文本事件時(shí)間表達(dá)關(guān)系的標(biāo)注規(guī)范[26]。他們采用的是在時(shí)間表達(dá)之間基于WordNet的語義關(guān)系模型,并達(dá)到了86.41%的準(zhǔn)確率。在2010年,Saur Roser給出了基于TimeML標(biāo)準(zhǔn)涵蓋加泰羅尼亞語和西班牙語時(shí)序關(guān)系的標(biāo)注規(guī)范[27]。2011年,Bittar André等在語言現(xiàn)象等問題上對(duì)TimeML標(biāo)準(zhǔn)進(jìn)行了修改和提升,構(gòu)建了法語的語料庫(French TimeBank)[28]。同樣還有將TimeML標(biāo)準(zhǔn)應(yīng)用在其他語言來進(jìn)行文本時(shí)間關(guān)系解析的研究[29-31],這些無不說明了TimeML標(biāo)準(zhǔn)強(qiáng)大的適用性及應(yīng)用前景。

      近幾年,基于TimeML進(jìn)行其他外文文本時(shí)間關(guān)系解析的研究熱度呈上升趨勢(shì)。由于不同語種的語言結(jié)構(gòu)不同,使得TimeML并不能完全直接應(yīng)用在其語言上。但是,通過其他外文的成功應(yīng)用可以看出,借助詞對(duì)齊的映射方法是一個(gè)不錯(cuò)的選擇,一方面詞對(duì)齊技術(shù)作為一較為成熟的方法已經(jīng)被廣泛應(yīng)用在雙語語料的實(shí)踐應(yīng)用中,另一方面可以充分利用現(xiàn)有的平臺(tái)及相應(yīng)的英文資源。無論在實(shí)現(xiàn)基于TimeML進(jìn)行目標(biāo)語言的標(biāo)注上,還是在構(gòu)建目標(biāo)語言相應(yīng)的語料庫上,借助詞對(duì)齊的映射模型方法都起到了重要作用。

      4 TimeML在中文研究中的進(jìn)展

      中文的文本時(shí)間關(guān)系解析研究起步較晚,由于中文與英文語法結(jié)構(gòu)的差異性及漢語現(xiàn)象的繁多性,甚至到現(xiàn)在也沒有基于TimeML的中文語料庫。

      Li Wenjie和Wong Kam-Fai是中文文本時(shí)間關(guān)系解析研究的先驅(qū)者。他們?cè)?002年提出了基于規(guī)則的事件時(shí)間表達(dá)關(guān)系識(shí)別與分析的方法[32]。他們以同一個(gè)句子中的兩個(gè)事件為研究對(duì)象,僅僅考慮像before、after這樣的連接詞,設(shè)計(jì)了一系列從時(shí)序關(guān)系連接詞到時(shí)序關(guān)系的映射方案。這種方法雖然簡(jiǎn)單,但效率不高,難以推廣。鑒于上述方法的各種缺陷,他們?cè)?004年提出了用機(jī)器學(xué)習(xí)的方法來進(jìn)行漢語文本時(shí)間關(guān)系解析的研究[33]。他們從香港中文報(bào)紙的金融板塊上抽取了700個(gè)句子,手工標(biāo)注其中的600個(gè)句子,在標(biāo)注的600個(gè)句子中,用400個(gè)句子來進(jìn)行模型的訓(xùn)練,100個(gè)句子用來測(cè)試,100個(gè)句子留存。他們采用了很多像時(shí)態(tài)(tense)、體態(tài)(aspect)等與英文事件時(shí)間表達(dá)關(guān)系識(shí)別相似的特征,并用貝葉斯分類器進(jìn)行實(shí)驗(yàn),達(dá)到了82.25%的準(zhǔn)確率。但是他們的語料構(gòu)建和特征的選取全部是通過手工進(jìn)行的,也沒有進(jìn)行事件與時(shí)間表達(dá)式之間的相關(guān)分析。

      2007年,Cheng Yuchang等在TimeML標(biāo)準(zhǔn)基礎(chǔ)上提出了用詞語間的依賴關(guān)系來進(jìn)行事件時(shí)間表達(dá)關(guān)系識(shí)別的方法,并建立了用于中文的事件時(shí)間表達(dá)關(guān)系識(shí)別的“語料庫”[34]。為了減少人工標(biāo)注的工作量,他優(yōu)化了一些規(guī)范,不僅限制了事件只能是動(dòng)詞,而且也限制了時(shí)間聯(lián)系的相關(guān)事件。他認(rèn)為只有符合“相鄰的事件”“語法樹中具有父子關(guān)系的事件”和“兄弟節(jié)點(diǎn)的事件”這3種依賴關(guān)系之一,才認(rèn)為事件可能發(fā)生時(shí)間上的聯(lián)系。依照這種標(biāo)注規(guī)則,2008年他采用統(tǒng)計(jì)機(jī)器學(xué)習(xí)的方法對(duì)從Penn Chinese TreeBank中抽取的10%數(shù)據(jù)構(gòu)建的語料庫進(jìn)行實(shí)驗(yàn)與分析,并提出了包括RLP(Relation to Linear Proceding event)、RTA(Relation to Tree Ancestor event)和RTP(Relation to Tree Preceding event)的事件類型這一屬性來完善語料庫信息[35]。實(shí)驗(yàn)結(jié)果表明,加入的事件類型信息提高了分類器支持向量機(jī)(Support Vector Machine, SVM)的準(zhǔn)確率,但遺憾的是實(shí)驗(yàn)中并沒有涉及語義等屬性。

      TimeML 1.2.1 版標(biāo)準(zhǔn)的發(fā)布,給從事文本時(shí)間關(guān)系解析研究的學(xué)者和研究人員帶來了新的生機(jī)。在2011年,Llorens H等基于語義角色來進(jìn)行中文事件時(shí)間表達(dá)關(guān)系識(shí)別的初步研究,并證明了此方法的可行性[36]。2012年,Entrikin R在對(duì)漢語文本中體態(tài)問題進(jìn)行研究時(shí),探索了基于語料庫語言學(xué)技術(shù)來進(jìn)行漢語文本中結(jié)構(gòu)語法的檢查,并且采用基于語料庫的機(jī)器學(xué)習(xí)方法分別訓(xùn)練了漢語文本體態(tài)標(biāo)注用法的最大熵分類器和條件隨機(jī)域模型,成功地將其應(yīng)用在漢語文本體態(tài)標(biāo)注中[37]。但是,由于過度集中在對(duì)模型的訓(xùn)練上,而忽視了對(duì)構(gòu)建模型的評(píng)價(jià)以及標(biāo)注策略的優(yōu)化。在2013年,Zhang Xujie等針對(duì)TimeML中定義的事件類型,利用支持向量機(jī)對(duì)中文的事件進(jìn)行分類研究,達(dá)到了81.16%的準(zhǔn)確率。但是他們?cè)跇?gòu)建事件抽取規(guī)則時(shí)只選取了POS和位置信息(position information)等屬性,并沒有涉及更多的語義屬性[38]。

      基于TimeML進(jìn)行中文文本時(shí)間關(guān)系解析研究才剛剛起步,相關(guān)研究以及平臺(tái)的支持還在進(jìn)一步的探索中。從現(xiàn)有的工作進(jìn)展中,可以看到,在對(duì)漢語事件、時(shí)間表達(dá)等識(shí)別與分析中還存在一些不足,比如:嚴(yán)格限制漢語事件類型的識(shí)別;不能實(shí)現(xiàn)漢語事件時(shí)間表達(dá)關(guān)系的自動(dòng)標(biāo)注,也不能很好地進(jìn)行深層次的時(shí)序推理研究等。但是,前人的研究工作也給了繼續(xù)探索TimeML在漢語上應(yīng)用的很好的指示:一是確定了基于TimeML標(biāo)準(zhǔn)進(jìn)行漢語文本時(shí)間關(guān)系解析研究的可行性,二是堅(jiān)定了后來人繼續(xù)探索、繼續(xù)前進(jìn)的信心。

      5 總結(jié)與展望

      (1)從TimeML在文本時(shí)間關(guān)系解析研究中的發(fā)展來看,各個(gè)工作之間都有著緊密的聯(lián)系和延續(xù)性。TimeML 1.1版標(biāo)準(zhǔn)提供了標(biāo)注文本中事件時(shí)間表達(dá)信息的框架,為事件時(shí)間表達(dá)識(shí)別研究提供了一種新的方法。TimeML 1.2 及1.2.1版本標(biāo)準(zhǔn)細(xì)化了使用的標(biāo)簽及其相關(guān)屬性,擴(kuò)大了標(biāo)注范圍,提高了文本標(biāo)注精度,詮釋了TimeML更加強(qiáng)大的標(biāo)注能力,為文本時(shí)間關(guān)系解析研究提供了更好的標(biāo)注規(guī)范及相關(guān)平臺(tái)支持。

      (2)語料庫TimeBank 1.1和TimeBank 1.2不管是在基于規(guī)則方法進(jìn)行文本時(shí)間關(guān)系解析研究的初始階段,還是在基于機(jī)器學(xué)習(xí)方法進(jìn)行文本時(shí)間關(guān)系解析研究的發(fā)展階段,都給予了強(qiáng)有力的資源支持。

      (3)利用現(xiàn)有英文研究的相關(guān)平臺(tái)及資源,借鑒德語、法語研究的映射方法及技術(shù),可以找到TimeML更加契合中文文本時(shí)間關(guān)系解析的研究方法,使其服務(wù)于中文的問答系統(tǒng)、機(jī)器翻譯等人工智能領(lǐng)域。

      (4)具體說來,結(jié)合語料庫TimeBank,借助機(jī)器學(xué)習(xí)的方法訓(xùn)練合適的分類器引擎,實(shí)現(xiàn)對(duì)英漢平行語料中英文部分的自動(dòng)標(biāo)注;利用詞對(duì)齊技術(shù),構(gòu)建英漢映射模型,將其映射到漢語部分,實(shí)現(xiàn)漢語文本事件時(shí)間表達(dá)關(guān)系的識(shí)別與分析,并構(gòu)建漢語文本事件時(shí)間表達(dá)關(guān)系語料庫;基于漢語單語料構(gòu)建漢語文本時(shí)間關(guān)系解析引擎,從而進(jìn)行漢語時(shí)序分析等研究。

      (5)在今后的研究工作中,可以嘗試通過英漢平行語料,基于詞對(duì)齊的映射方法和技術(shù),構(gòu)建符合TimeML標(biāo)準(zhǔn)的事件時(shí)間表達(dá)關(guān)系的漢語語料庫,并結(jié)合機(jī)器學(xué)習(xí)的方法,訓(xùn)練漢語文本時(shí)間關(guān)系解析引擎,從而進(jìn)行漢語文本時(shí)間關(guān)系解析實(shí)驗(yàn)研究。

      [1] Saurii R, Littman J, Knippen B, et al. TimeML Annotation Guidelines[J/OL]. [2014-03-22]. http://www. cs.brandeis.edu/~cs112/cs112-2004/annPS/annguide-12wptoc.pdf.

      [2] Pustejovsky J, Castano J M, Ingria R, et al. TimeML: Robust Specification of Event and Temporal Expressions in Text[J]. New Directions in Question Answering, 2003(3): 28-34.

      [3] Boguraev B, Ando R K. TimeML-Compliant Text Analysis for Temporal Reasoning[C]. IJCAI, 2005, 5: 997-1003.

      [4] Kumari G V, Sanampudi S K. Temporal Reasoning in Natural Language Processing: A Survey[J]. International Journal of Computer Applications, 2010(4): 68-72.

      [5] Pustejovsky J, Hanks P, Sauri R, et al. The Timebank Corpus[C]. Corpus Linguistics, 2003: 40.

      [6] Boguraev Branimir, Casta?o Jose, Gaizauskas, et al. TimeML 1.2.1 Specifications[J/OL]. [2014-03-22]. http://timeml.org/site/publications/timeMLdocs/ timeml_1.2.1.html.

      [7] Lascarides A, Asher N, Oberlander J. Inferring Discourse Relations in Context[C]//Proceedings of the 30th Annual Meeting on Association for Computational Linguistics. Association for Computational Linguistics, 1992: 1-8.

      [8] Hitzeman J, Moens M, Grover C. Algorithms for Analyzing the Temporal Structure of Discourse[C]. Proceedings of the Seventh Conference on European Chapter of the Association for Computational Linguistics. Burlington: Morgan Kaufmann Publishers Inc., 1995: 253-260.

      [9] Dorr B J, Gaasterland T. Constraints on the Generation of Tense, Aspect, and Connecting Words from Temporal Expressions[J]. Journal of Artificial Intelligence Research (JAIR), 2002.

      [10] Boguraev B, Ando R K. TimeBank Driven TimeMLAnalysis[J]. Annotating, Extracting and Reasoning about Time and Events, 2005.

      [11] Boguraev B, Pustejovsky J, Ando R, et al. Timebank Evolution as a Community Resource for Timeml Parsing[J]. Language Resources and Evaluation, 2007, 41(1): 91-115.

      [12] Mani I, Schiffman B, Zhang J. Inferring Temporal Ordering of Events in News[C]// Proceedings of the 2003 Conference of the North American Chapter of the Association for Computational Linguistics on Human Language Technology: Companion Volume of the Proceedings of HLT-NAACL 2003--Short Papers-Volume 2. Association for Computational Linguistics, 2003: 55-57.

      [13] Mani I, Verhagen M, Wellner B, et al. Machine Learning of Temporal Relations[C]//Proceedings of the 21st International Conference on Computational Linguistics and the 44th Annual Meeting of the Association for Computational Linguistics. Association for Computational Linguistics, 2006: 753-760.

      [14] Chambers N, Wang S, Jurafsky D. Classifying Temporal Relations between Events[C]// Proceedings of the 45th Annual Meeting of the ACL on Interactive Poster and Demonstration Sessions. Association for Computational Linguistics, 2007: 173-176.

      [15] Chambers N, Jurafsky D. Jointly Combining Implicit Constraints Improves Temporal Ordering[C]// Proceedings of the Conference on Empirical Methods in Natural Language Processing. Association for Computational Linguistics, 2008: 698-706.

      [16] Yoshikawa K, Riedel S, Asahara M, et al. Jointly Identifying Temporal Relations with Markov Logic[C]// Proceedings of the Joint Conference of the 47th Annual Meeting of the ACL and the 4th International Joint Conference on Natural Language Processing of the AFNLP: Volume 1-Volume 1. Association for Computational Linguistics, 2009: 405-413.

      [17] Saquete E, Pustejovsky J. Automatic Transformation from TIDES to TimeMLannotation[J]. Language Resources and Evaluation, 2011, 45(4): 495-523.

      [18] Derczynski L, Gaizauskas R. Using Signals to Improve Automatic Classif l cation of Temporal Relations[J/OL]. arXiv e-print, 2012[2014-03-22].http://arXiv.org/ pdf/1203.50551.pdf.

      [19] Chang A X, Manning C. SUTime: A Library for Recognizing and Normalizing Time Expressions[C]. LREC. 2012: 3735-3740.

      [20] Chambers N. Navytime: Event and Time Ordering from Raw Text[C]. Second Joint Conference on Lexical and Computational Semantics (* SEM), 2013, 2: 73-77.

      [21] Wartena C. HsH: Estimating Semantic Similarity of Words and Short Phrases with Frequency Normalized Distance Measures[C]// Proceedings of the Seventh International Workshop on Semantic Evaluation (SemEval 2013).Atlanta, Georgia, USA, 2013: 48.

      [22] Lau J H, Cook P, Baldwin T. Unimelb: Topic Modelling-based Word Sense Induction[C]. Second Joint Conference on Lexical and Computational Semantics (* SEM), 2013, 2: 307-311.

      [23] 孫輝.事件時(shí)序關(guān)系識(shí)別的研究與實(shí)現(xiàn)[D].哈爾濱:哈爾濱工業(yè)大學(xué), 2010.

      [24] 王鳳玲.基于條件隨機(jī)域模型的英語時(shí)間表達(dá)式識(shí)別研究[J].電子技術(shù),2012, 39(5): 8-10.

      [25] Frank P D D A. Projecting Temporal Annotations Across Languages[D]. Saarbrücken, Germany: Universit?t des Saarlandes, 2007.

      [26] Caselli T, Prodanof I. TETI: A TimeML Compliant TimEx Tagger for Italian[C]// Computer Science and Information Technology, 2009. IMCSIT'09. International Multiconference on. IEEE, 2009: 185-192.

      [27] Saur? R. Annotating Temporal Relations in Catalan and Spanish.TimeML Annotation Guidelines (Version TempEval-2010)[J/OL]. [2014-03-22]. http://comunicacio.barcelonamedia.org/technical_reports/BM2010_04. pdf.

      [28] Bittar A, Amsili P, Denis P, et al. French TimeBank: An ISO-TimeML Annotated Reference Corpus[C]// Proceedings of the 49th Annual Meeting of the Association for Computational Linguistics (Short Papers), 2011: 130-134.

      [29] Spreyer K, Frank A. Projection-based Acquisition of a Temporal Labeller[C]. IJCNLP, 2008: 489-496.

      [30] Saur? R, Badia T. Spanish TimeBank 1.0 Corpus documentation[J/OL]. [2014-03-22]. https://catalog. ldc.upenn.edu/docs/LDC2012T12/README_spanish-TimeBank.pdf.

      [31] Jarz?bowski P, Przepiórkowski A. Temporal Information Extraction with Cross-Language Projected Data[M]// Advances in Natural Language Processing. Berlin, Germany: Springer Berlin Heidelberg, 2012: 198-209.

      [32] Li W, Wong K F. A Word-based Approach for Modeling and Discovering Temporal Relations Embedded in Chinese Sentences[J]. ACM Transactions on Asian Language Information Processing (TALIP), 2002(3): 173-206.

      [33] Li W, Wong K F, Cao G, et al. Applying Machine Learning to Chinese Temporal Relation Resolution[C]// Proceedings of the 42nd Annual Meeting on Association for Computational Linguistics. Association for Computational Linguistics, 2004: 582.

      [34] Cheng Y, Asahara M, Matsumoto Y. Constructing a Temporal Relation Tagged Corpus of Chinese Based on Dependency Structure Analysis[C]//Temporal Representation and Reasoning, 14th International Symposium on. IEEE, 2007: 59-69.

      [35] Cheng Y, Asahara M, Matsumoto Y. Use of Event Types for Temporal Relation Identif l cation in Chinese Text[C]. IJCNLP, 2008: 31-38.

      [36] Llorens H, Saquete E, Navarro B, et al. Data-driven Approach Based on Semantic Roles for Recognizing Temporal Expressions and Events in Chinese[M]// Natural Language Processing and Information Systems. Berlin, Germany: Springer Berlin Heidelberg, 2011: 88-99.

      [37] Entrikin R. Applying Machine Learning to Usage of Aspect Markers in Chinese Text[D]. Massachusetts: Brandeis University, 2012.

      [38] Zhang X, Liu Z, Liu W, et al. Chinese Event Classif lcation for Event Ontology Construction[J]. Journal of Computational Information Systems, 2013, 9(9): 3511-3519.

      Application of TimeML in the Text Time Relation Resolution

      Li Lubiao, Zhang Yinsheng, Wang Huilin
      (Institute of Scientiflc and Technical Information of China, Beijing 100038)

      TimeML is a robust specifi cation language for event and temporal expressions in natural language text. In recent years, many scholars and researchers have carried on the TRR research from diff erent viewpoints, but not much in Chinese text. In this paper, we give a brief overview of TimeML and TimeBank. Then, from its origin—the annotation of event and temporal expressions in English text, we give a summary and analysis on the previous researches, and provide a new idea for the TRR research in Chinese text.

      TimeML, TimeBank, temporal reasoning, event identifi cation, temporal information, text TRR

      G355

      :A

      10.3772/j.issn.1674-1544.2014.05.016

      李路標(biāo)*(1990- ),男,中國科學(xué)技術(shù)信息研究所碩士研究生,研究方向:自然語言處理;張寅生(1962- ),男,中國科學(xué)技術(shù)信息研究所研究員,博士,主要研究方向:人工智能,科學(xué)哲學(xué);王惠臨(1948- ),男,中國科學(xué)技術(shù)信息研究所研究員,博士生導(dǎo)師,主要研究方向:多語言信息服務(wù),機(jī)器翻譯,自然語言處理。

      “十二五”國家科技支撐計(jì)劃課題“基于多源信息的電動(dòng)汽車數(shù)據(jù)挖掘關(guān)鍵技術(shù)研究” (2013BAG06B01);國家國際科技合作專項(xiàng)“面向科技文獻(xiàn)的日漢雙向?qū)嵱眯蜋C(jī)器翻譯合作研究”(2014DFA11350);中國科學(xué)技術(shù)信息研究所“自然語言處理”學(xué)科建設(shè)項(xiàng)目(XK2014-6)。

      2014年5月12日。

      猜你喜歡
      時(shí)序語料語料庫
      時(shí)序坐標(biāo)
      基于Sentinel-2時(shí)序NDVI的麥冬識(shí)別研究
      《語料庫翻譯文體學(xué)》評(píng)介
      把課文的優(yōu)美表達(dá)存進(jìn)語料庫
      基于語料調(diào)查的“連……都(也)……”出現(xiàn)的語義背景分析
      一種毫米波放大器時(shí)序直流電源的設(shè)計(jì)
      電子制作(2016年15期)2017-01-15 13:39:08
      華語電影作為真實(shí)語料在翻譯教學(xué)中的應(yīng)用
      基于JAVAEE的維吾爾中介語語料庫開發(fā)與實(shí)現(xiàn)
      語言與翻譯(2015年4期)2015-07-18 11:07:45
      《苗防備覽》中的湘西語料
      國內(nèi)外語用學(xué)實(shí)證研究比較:語料類型與收集方法
      兴城市| 青阳县| 余姚市| 泸州市| 温宿县| 通化市| 津南区| 九寨沟县| 武义县| 高要市| 黑水县| 若羌县| 墨江| 阿鲁科尔沁旗| 平昌县| 土默特右旗| 和顺县| 拜城县| 宁远县| 高邮市| 高安市| 公安县| 湘乡市| 宿松县| 茂名市| 钟祥市| 隆安县| 井陉县| 巩留县| 重庆市| 石狮市| 台北县| 唐河县| 翁源县| 水富县| 桃园县| 沽源县| 藁城市| 柳河县| 玉田县| 锡林郭勒盟|