• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      規(guī)則與統(tǒng)計(jì)相結(jié)合的日語時(shí)間表達(dá)式識(shí)別

      2013-10-15 01:52:20趙紫玉徐金安張玉潔劉江鳴
      中文信息學(xué)報(bào) 2013年6期
      關(guān)鍵詞:基類知識(shí)庫表達(dá)式

      趙紫玉,徐金安,張玉潔,劉江鳴

      (北京交通大學(xué) 計(jì)算機(jī)與信息技術(shù)學(xué)院,北京100044)

      1 引言

      時(shí)間表達(dá)式是句子中的重要成分,是關(guān)鍵信息的載體。時(shí)間表達(dá)式的抽取和處理是當(dāng)前自然語言處理中的一個(gè)重要研究方向。正確識(shí)別時(shí)間表達(dá)式具有重要的意義。

      近年來,時(shí)間表達(dá)式的識(shí)別和規(guī)范化在事件跟蹤,時(shí)間關(guān)系推理,時(shí)序定位等方面的應(yīng)用越來越多,不僅可以提高分詞、句法分析的精度,還可改善機(jī)器翻譯、信息抽取、文本摘要、對(duì)話系統(tǒng)的性能。例如,在機(jī)器翻譯中,可以使譯文更加流暢[1];在多文檔自動(dòng)摘要中,可以對(duì)文檔信息進(jìn)行時(shí)序排序[2];在自動(dòng)問答系統(tǒng)中,可以用于回答“多久,何時(shí)”等與時(shí)間相關(guān)的問題。

      時(shí)間表達(dá)式識(shí)別與規(guī)范化研究,最早是1995年信息理解會(huì)議(Message Understanding Conference,MUC)把時(shí)間表達(dá)式的識(shí)別作為命名實(shí)體識(shí)別的一個(gè)子任務(wù)。在美國國家技術(shù)標(biāo)準(zhǔn)局(NIST)于2004年舉辦了第一屆時(shí)間表達(dá)式識(shí)別與歸一化(Time Expression Recognition and Normalization,TERN)的評(píng)測后,ACE2005(Automatic Content Extraction)和 SemEval2007(Semantic Evaluations)也將時(shí)間表達(dá)式評(píng)測納入自己的任務(wù)中。TERN評(píng)測有TER(Time Expression Recognition)和TEN(Time Expression Normalization)兩個(gè)子任務(wù),前者的任務(wù)是識(shí)別時(shí)間表達(dá)式邊界,而后者是按照Timex2規(guī)范標(biāo)注時(shí)間表達(dá)的屬性值,即進(jìn)行時(shí)序語義標(biāo)注。目前,TERN評(píng)測涉及阿拉伯語、英語和漢語等,對(duì)于韓語、法語和西班牙等語言也有人進(jìn)行初步的探索性研究,但是針對(duì)日語時(shí)間表達(dá)式識(shí)別的評(píng)測工作比較少。

      時(shí)間表達(dá)式識(shí)別方法一般可以分為以下兩類。

      一類是基于規(guī)則的方法[3],該類方法一般通過分析短語內(nèi)部的構(gòu)成規(guī)律和短語外部的約束信息來識(shí)別時(shí)間表達(dá)式。香港理工大學(xué)的李文婕[4]等人做了比較具有代表性的嘗試,文章提出建立一些語法規(guī)則和補(bǔ)充限定規(guī)則,通過規(guī)則匹配方式識(shí)別時(shí)間表達(dá)式。傳統(tǒng)方法認(rèn)為時(shí)間表達(dá)式的表現(xiàn)形式比較規(guī)范,傾向于采用規(guī)則的方法來做識(shí)別任務(wù),但是規(guī)則的撰寫耗時(shí)耗力,對(duì)具體領(lǐng)域的依賴性強(qiáng),可移植性較差,而且構(gòu)建的規(guī)則往往會(huì)有粒度過粗的缺點(diǎn)。

      另一類是基于機(jī)器學(xué)習(xí)的時(shí)間序列標(biāo)注方法[5],該方法主要包括隱馬爾可夫模型,最大熵模型和條件隨機(jī)場模型。D.Ahn[6]和 K.Hacioglu[7]都做了嘗試,他們首先將語料進(jìn)行預(yù)處理,接著有選擇地抽取特征,建立特征向量,通過預(yù)選的分類器(CRF或者SVM)訓(xùn)練模型,然后用訓(xùn)練好的模型標(biāo)注測試語料的時(shí)間表達(dá)式。這類方法最大的特點(diǎn)是可以充分利用已標(biāo)注上下文信息,使得識(shí)別召回率較高,而且無需消耗太多的人力,但是受限于日語時(shí)間表達(dá)式語料規(guī)模的局限性和質(zhì)量,訓(xùn)練語料容易存在數(shù)據(jù)稀疏問題,也無法充分利用時(shí)間表達(dá)式格式相對(duì)規(guī)范的特點(diǎn),使得基于機(jī)器學(xué)習(xí)的序列標(biāo)注方法難以充分發(fā)揮它的優(yōu)勢。

      本文針對(duì)傳統(tǒng)方法的優(yōu)缺點(diǎn),提出了統(tǒng)計(jì)與規(guī)則相結(jié)合的日語時(shí)間詞識(shí)別方法。該方法不僅可提高時(shí)間表達(dá)式識(shí)別的精準(zhǔn)度和召回率,同時(shí)可提高日語時(shí)間表達(dá)式識(shí)別的泛化能力和領(lǐng)域適應(yīng)能力,從而節(jié)約人工成本。

      另外,通過研究日語時(shí)間表達(dá)式的邊界識(shí)別方法,按照Timex2標(biāo)注方案對(duì)時(shí)序表達(dá)式類別的描述,本文將日語時(shí)間表達(dá)式分為七個(gè)類別,并為這七個(gè)類別預(yù)先定義日語時(shí)間詞觸發(fā)詞表等知識(shí)庫,建立人工啟發(fā)式規(guī)則模板,最后提出基于知識(shí)庫強(qiáng)化的規(guī)則集和統(tǒng)計(jì)模型相結(jié)合的識(shí)別方法,這樣既有效地利用了上下文信息,又達(dá)到了較高的自動(dòng)化程度。實(shí)驗(yàn)結(jié)果驗(yàn)證了提出方法的有效性。

      本文結(jié)構(gòu)安排如下:第2節(jié)論述日語時(shí)間表達(dá)式類型的基本概念及問題分析;第3節(jié)介紹日語時(shí)間表達(dá)式識(shí)別系統(tǒng)結(jié)構(gòu)以及我們提出的基于知識(shí)庫強(qiáng)化獲取規(guī)則集和規(guī)則與統(tǒng)計(jì)相結(jié)合的識(shí)別方法的主要思想;第4節(jié)闡述系統(tǒng)實(shí)驗(yàn),相關(guān)的評(píng)測方法和評(píng)測結(jié)果,并進(jìn)行結(jié)果分析;最后,總結(jié)全文并提出未來工作。

      2 基本概念及問題分析

      2.1 時(shí)間表達(dá)式

      時(shí)間是頻繁使用的詞類,日語和漢語在時(shí)間的使用上有很多相同和相似之處。參照Timex2中關(guān)于中文時(shí)間表達(dá)式的描述,本文將日語時(shí)間表達(dá)式定義為由一個(gè)或多個(gè)時(shí)間基類組成的時(shí)間短語,即時(shí)間表達(dá)式為時(shí)間基類的序列,例如,“平成14年6月1日”此時(shí)間表達(dá)式由2個(gè)時(shí)間基類集合而成:“平成14年”、“6月1日”?!皶r(shí)間基類”,即基本時(shí)間類型,本文提出7種基本時(shí)間類型,是構(gòu)成時(shí)間表達(dá)式的最小組成類型。由此可定義日語時(shí)間表達(dá)式為式(1)所示。

      其中,Te為一個(gè)時(shí)間表達(dá)式,它是m元組;其中t1,t2,...,ti,...,tm是 m 個(gè)獨(dú)立的時(shí)間基類。

      2.2 時(shí)間基類

      本文參照Timex2標(biāo)注方案對(duì)時(shí)間表達(dá)式類別給出的描述,將日語時(shí)間表達(dá)式分為絕對(duì)時(shí)間(Absolute Time),相對(duì)時(shí)間(Relative Time),段時(shí)間(Duration),集合時(shí)間(Set-denoting Time),事件觸發(fā) 時(shí) 間 (Event-anchored Time),文 化 相 關(guān) 時(shí) 間(Culturally-determined Time),不特定時(shí)間(Fuzzy Time)七類時(shí)間基類。具體描述說明如表1所示。

      2.3 日語時(shí)間表達(dá)式知識(shí)庫

      知識(shí)庫是關(guān)于某一項(xiàng)領(lǐng)域的陳述性知識(shí)、過程性知識(shí)和策略性知識(shí)的集合[8]。在該集合中各類知識(shí)通過一定的表示方法表示,并建立相互之間的聯(lián)系。它與數(shù)據(jù)庫的區(qū)別就是知識(shí)庫中不但包含了大量的簡單事實(shí),還包含了規(guī)則、過程型知識(shí)和策略性知識(shí)。從存儲(chǔ)知識(shí)的角度來看,知識(shí)庫以描述型方法來存儲(chǔ)和管理知識(shí)。

      表1 時(shí)間基類

      相比Part-Of-Speech (POS),大部分的知識(shí)庫系統(tǒng)更多的是依賴于淺層句法分析技術(shù),應(yīng)用正則表達(dá)式或語言模式,以及適當(dāng)檢查名稱列表。這些系統(tǒng)中有一些處理分析深層語義,這種方法已被證明性能杰出[9]。

      這里我們總結(jié)的知識(shí)庫包括,日語時(shí)間觸發(fā)詞知識(shí)庫、日語時(shí)間表達(dá)式邊界知識(shí)庫、日語時(shí)間表達(dá)式規(guī)則關(guān)鍵詞知識(shí)庫,日語月份的多種表示法知識(shí)庫、以及基于日語維基百科的知識(shí)庫,如表2至表6所示。

      表2 日語時(shí)間觸發(fā)詞知識(shí)庫

      表3 日語時(shí)間表達(dá)式邊界知識(shí)庫

      表4 日語時(shí)間表達(dá)式規(guī)則關(guān)鍵詞知識(shí)庫

      表5 日語月份的多種表示法知識(shí)庫

      表6 基于日語維基百科的知識(shí)庫

      2.4 問題分析

      通過對(duì)大量日語語料分析,在日語時(shí)間表達(dá)式識(shí)別研究過程中,發(fā)現(xiàn)時(shí)間表達(dá)式的多樣性問題及若干歧義現(xiàn)象。

      1.一般日語時(shí)間表達(dá)式中會(huì)包含標(biāo)識(shí)時(shí)間表達(dá)式出現(xiàn)的觸發(fā)詞[10],但是也存在不包含觸發(fā)詞的時(shí)間表達(dá)式;而且并非所有包含觸發(fā)詞的表達(dá)式都是時(shí)間,例如,“日中経済協(xié)會(huì)理事長”中的“日中”是相對(duì)時(shí)間的觸發(fā)詞,結(jié)合上下文可以看出此處的“日中”并不是時(shí)間表達(dá)式。因此單純的基于觸發(fā)詞的規(guī)則方法不能準(zhǔn)確地識(shí)別時(shí)間表達(dá)式。

      2.時(shí)間表達(dá)式由多個(gè)獨(dú)立性較強(qiáng)的時(shí)間基類單元組成,時(shí)間基類為時(shí)間概念詞。據(jù)統(tǒng)計(jì)[11],近49%的時(shí)間表達(dá)式為一個(gè)獨(dú)立的時(shí)間單元,例如,“先月”、“昨日”等;26%的表達(dá)式由兩個(gè)時(shí)間單元構(gòu)成,如“去年六月”是由“去年”和“六月”兩個(gè)時(shí)間單元組成;21%的時(shí)間表達(dá)式為3個(gè)時(shí)間單元;2.3%的為4個(gè)時(shí)間單元;1.7%為5個(gè)以上的時(shí)間單元組成。另外,某些完整時(shí)間表達(dá)式中包含非時(shí)間概念詞的時(shí)間單元,如“九時(shí)三分前”中的方位詞“前”,由于其與時(shí)間概念詞結(jié)合起來可表達(dá)完整的時(shí)間意義,因此這類非時(shí)間概念詞也需要準(zhǔn)確識(shí)別。

      鑒于時(shí)間表達(dá)式的上述特點(diǎn)和難點(diǎn),不能僅通過時(shí)間觸發(fā)詞等詞形信息來制定規(guī)則,還應(yīng)該結(jié)合知識(shí)庫來強(qiáng)化規(guī)則集,并結(jié)合統(tǒng)計(jì)模型,提高識(shí)別準(zhǔn)確率。因此,本文針對(duì)時(shí)間表達(dá)式的內(nèi)部組成結(jié)構(gòu)和時(shí)間基類單元的相對(duì)獨(dú)立性,提出并構(gòu)建基于知識(shí)庫強(qiáng)化規(guī)則集和統(tǒng)計(jì)模型相結(jié)合的時(shí)間表達(dá)式識(shí)別系統(tǒng)。

      3 規(guī)則與統(tǒng)計(jì)相結(jié)合的日語時(shí)間表達(dá)式識(shí)別

      3.1 日語時(shí)間表達(dá)式識(shí)別系統(tǒng)結(jié)構(gòu)

      本文提出基于知識(shí)庫強(qiáng)化獲取規(guī)則集,以及規(guī)則集與統(tǒng)計(jì)模型相結(jié)合的識(shí)別方法。首先通過初始構(gòu)建的日語時(shí)間表達(dá)式知識(shí)庫強(qiáng)化獲取規(guī)則集,訓(xùn)練統(tǒng)計(jì)模型;其次分別基于規(guī)則和統(tǒng)計(jì)兩種方法進(jìn)行日語時(shí)間表達(dá)式識(shí)別,并整合二者的識(shí)別結(jié)果;基于錯(cuò)誤驅(qū)動(dòng)學(xué)習(xí)算法[12]的思想,根據(jù)整合后的識(shí)別結(jié)果,學(xué)習(xí)初始構(gòu)建的知識(shí)庫與識(shí)別結(jié)果的差異來校正知識(shí)庫及規(guī)則,其本身體現(xiàn)了重構(gòu)知識(shí)庫的觸發(fā)環(huán)境。圖1為本文提出的日語時(shí)間表達(dá)式識(shí)別系統(tǒng)流程圖。

      圖1 日語時(shí)間表達(dá)式識(shí)別系統(tǒng)流程圖

      3.2 基于條件隨機(jī)場的日語時(shí)間表達(dá)式識(shí)別

      時(shí)間表達(dá)式識(shí)別可以定義成序列的標(biāo)記問題,即判斷觀察詞是否屬于預(yù)先定義的特征集合。目前,常用的序列標(biāo)注模型主要有隱馬爾科夫模型(HMM),最大熵模型(ME)和條件隨機(jī)場模型(CRF)。HMM一個(gè)最大的缺點(diǎn)就是由于其輸出獨(dú)立性假設(shè),導(dǎo)致其不能考慮上下文的特征,限制了特征的選擇。ME解決了這個(gè)缺點(diǎn),可以任意選擇特征,但由于其在每一節(jié)點(diǎn)都要進(jìn)行歸一化,所以只能找到局部變量的最優(yōu)值,同時(shí)存在標(biāo)記偏置的問題(LableBias),即凡是訓(xùn)練語料中未出現(xiàn)的情況全部忽略掉。CRF無獨(dú)立性假設(shè),可以任意選擇特征,并且使用單一的指數(shù)族函數(shù)對(duì)整個(gè)觀測序列的聯(lián)合分布進(jìn)行建模,可以求得全局最優(yōu)解。因此,本文選用條件隨機(jī)場進(jìn)行時(shí)間表達(dá)式識(shí)別。

      條件隨機(jī)場(Conditional Random Field,CRF)是一種基于統(tǒng)計(jì)的序列標(biāo)記識(shí)別模型,它由John Lafferty等[13]在2001年首次提出,模型的主要思想來源于最大熵模型。它是一種在給定輸入節(jié)點(diǎn)(觀察值)條件下,計(jì)算輸出節(jié)點(diǎn)(標(biāo)記)的條件概率的無向圖模型,目標(biāo)是在給定需要標(biāo)記的觀察序列條件下,使標(biāo)記序列的聯(lián)合概率達(dá)到全局最優(yōu)。條件隨機(jī)場模型(CRF)具有表達(dá)字串長距離依賴性和交疊性的能力,能較好地學(xué)習(xí)新的領(lǐng)域知識(shí)[14],所以采用CRF模型來識(shí)別日語時(shí)間表達(dá)式。條件隨機(jī)場定義如下:

      其中,tk(yi-1,yi,x,i)為轉(zhuǎn)移函數(shù),表示觀察序列和標(biāo)記序列i-1和i時(shí)刻的特征;Sk(yi,x,i)為狀態(tài)函數(shù),表示觀察序列和標(biāo)記序列在i時(shí)刻的特征;Z(X)為歸一化因子;λ和u為訓(xùn)練所得參數(shù)。

      CRF統(tǒng)計(jì)模型將日語時(shí)間表達(dá)式識(shí)別看作一個(gè)序列標(biāo)注過程,觀察值為所有分析狀態(tài)的集合(日語字符集合),基于由字構(gòu)詞的理念,利用詞位信息來標(biāo)記時(shí)間詞,標(biāo)記則是表示時(shí)間表達(dá)式“開始”,“中間”,“結(jié)尾”和“非/其他”位置的四種位置標(biāo)簽集合{B,I,E,O},而對(duì)于不同種類的時(shí)間表達(dá)式,即本文提出的絕對(duì)時(shí)間、相對(duì)時(shí)間、段時(shí)間、集合時(shí)間、事件觸發(fā)時(shí)間、文化相關(guān)時(shí)間及不特定時(shí)間,分別用Absolute、Relative、Duration、Set、EventAnchored、CultureRelated及Fuzzy標(biāo)識(shí),因此,時(shí)間表達(dá)式的識(shí)別過程即為字符在字串中的特征標(biāo)記的過程。根據(jù)BIEO分類標(biāo)記,本系統(tǒng)中的分類標(biāo)注集說明如表7所示,表8為時(shí)間表達(dá)式的標(biāo)注形式說明。

      表7 四詞位分類標(biāo)注集

      說明:時(shí)間基類是指Absolute、Relative、Duration、Set、EventAnchored、CultureRelated、Fuzzy

      表8 時(shí)間表達(dá)式標(biāo)注形式

      3.2.1 特征模板與特征

      特征模板的設(shè)置對(duì)時(shí)間表達(dá)式的標(biāo)注識(shí)別的好壞起到關(guān)鍵的作用,本文利用上下文信息,從訓(xùn)練語料中獲得字符特征,主要采用當(dāng)前字和其前后兩個(gè)字符及其詞性信息作為特征。具體的特征模板的設(shè)置如表9所示,其中C代表當(dāng)前字,S代表詞性。

      表9 特征模板

      本文分析和研究日語時(shí)間表達(dá)式內(nèi)部結(jié)構(gòu)和上下文環(huán)境對(duì)其的影響程度,使用詞形與日語形態(tài)素信息作為特征(表10)。

      表10 詞法、句法特征

      3.2.2 識(shí)別算法

      本文使用了CRFs開源的工具包CRF++[15],該工具包的具體使用方法參考文獻(xiàn)[16]?;贑RF統(tǒng)計(jì)模型識(shí)別算法流程如圖2所示。

      具體識(shí)別算法如下:

      1.語料預(yù)處理

      圖2 基于條件隨機(jī)場的日語時(shí)間表達(dá)式識(shí)別

      對(duì)XML格式的日語維基語料進(jìn)行解析清洗,去掉不需要的標(biāo)簽,保留完整的文本,去停詞,同時(shí)對(duì)數(shù)字、百分號(hào)、貨幣等特殊實(shí)體進(jìn)行整合。

      2.特征抽取

      將對(duì)預(yù)處理后的觀察序列進(jìn)行特征抽取,上文詳細(xì)介紹了CRF模型所使用的全部特征。

      3.模型訓(xùn)練

      使用開源的CRF工具[15]完成參數(shù)訓(xùn)練過程。

      4.時(shí)間表達(dá)式識(shí)別

      識(shí)別過程即解碼過程。在測試語料上使用已經(jīng)訓(xùn)練好的CRF模型識(shí)別日語時(shí)間表達(dá)式。

      5.錯(cuò)誤驅(qū)動(dòng)學(xué)習(xí)動(dòng)態(tài)擴(kuò)展重構(gòu)知識(shí)庫

      根據(jù)識(shí)別結(jié)果與標(biāo)準(zhǔn)數(shù)據(jù)的差異,校正知識(shí)庫。

      3.3 基于知識(shí)庫強(qiáng)化規(guī)則集的日語時(shí)間表達(dá)式識(shí)別

      本文采用的規(guī)則集由自定義的人工啟發(fā)式規(guī)則模板結(jié)合日語時(shí)間表達(dá)式知識(shí)庫自動(dòng)生成。

      3.3.1 人工啟發(fā)式規(guī)則模板

      文獻(xiàn)[17]指出日漢兩語完全相同的語言項(xiàng)并不多,僅占8.6%,完全不同的也不多,占21.9%。說明日漢時(shí)間詞的相似程度較高。我們根據(jù)自己的日漢時(shí)間詞研究經(jīng)驗(yàn)構(gòu)建一部分啟發(fā)式規(guī)則,作為人工啟發(fā)式規(guī)則模板。

      根據(jù)我們對(duì)TERN任務(wù)的歸納,參照TIMEX2中文標(biāo)注方案,日語時(shí)間表達(dá)式大體分為七種類型(表11)。針對(duì)每個(gè)不同類型,我們各自構(gòu)建了人工啟發(fā)式規(guī)則模板?;谌照Z時(shí)間表達(dá)式知識(shí)庫,通過正則表達(dá)式匹配方式,這些規(guī)則集可以識(shí)別出大部分日語時(shí)間表達(dá)式。

      表11 人工啟發(fā)式規(guī)則模版和規(guī)則集示例

      3.3.2 識(shí)別算法

      本文在人工規(guī)則模版上利用知識(shí)庫信息,生成強(qiáng)化的規(guī)則集。利用正則表達(dá)式匹配方式,以句子為單位識(shí)別時(shí)間表達(dá)式?;阱e(cuò)誤驅(qū)動(dòng)學(xué)習(xí)的思想,根據(jù)識(shí)別結(jié)果與標(biāo)準(zhǔn)數(shù)據(jù)的差異,校正知識(shí)庫。

      3.4 規(guī)則和統(tǒng)計(jì)融合策略

      基于規(guī)則和統(tǒng)計(jì)融合的時(shí)間表達(dá)式識(shí)別模型既可以獲取訓(xùn)練語料的知識(shí),又可以彌補(bǔ)統(tǒng)計(jì)模型的不足。一方面,基于規(guī)則的方法可以很好地表達(dá)語言的確定性現(xiàn)象,從而克服統(tǒng)計(jì)模型在此方面的缺點(diǎn);另一方面,統(tǒng)計(jì)模型的泛化能力可以彌補(bǔ)基于規(guī)則方法的領(lǐng)域依賴性強(qiáng)和可移植性差等缺點(diǎn)。二者的結(jié)合可以達(dá)到很好的互補(bǔ)效果。因此,融合模型的建立已成為時(shí)間表達(dá)式識(shí)別過程中的關(guān)鍵問題。本文提出的融合策略為以下3點(diǎn)。

      1.以基于規(guī)則的識(shí)別結(jié)果為基礎(chǔ),觀察未被識(shí)別到的時(shí)間表達(dá)式,通過錯(cuò)誤驅(qū)動(dòng)更新日語時(shí)間表達(dá)式知識(shí)庫,并使用人工啟發(fā)式的方法,對(duì)規(guī)則模版進(jìn)行修正。最后以更新的知識(shí)庫和修正的模版為基礎(chǔ)重構(gòu)規(guī)則集。

      由于規(guī)則的泛化能力有限,觀察規(guī)則識(shí)別錯(cuò)誤的時(shí)間表達(dá)式。以此為依據(jù)修正規(guī)則。錯(cuò)誤主要表現(xiàn)在兩個(gè)方面:一方面,規(guī)則識(shí)別錯(cuò)誤。例如,“二日市”等專有地名,利用形態(tài)素分析信息(名詞-固有名詞-地域-一般),加強(qiáng)規(guī)則的限制;另一方面,規(guī)則識(shí)別召回率低。例如,“卒業(yè)後しばらくして(畢業(yè)后一段時(shí)間)”,“から……(從……到)”等,總結(jié)時(shí)間表達(dá)式,提高規(guī)則的表現(xiàn)能力。

      2.使用更新的知識(shí)庫和規(guī)則模板處理語料,提高訓(xùn)練語料的質(zhì)量。然后利用統(tǒng)計(jì)模型的泛化能力進(jìn)行時(shí)間表達(dá)式的識(shí)別。

      3.在規(guī)則與統(tǒng)計(jì)結(jié)果整合的過程中,采取貪心策略。最終的時(shí)間表達(dá)式為規(guī)則與統(tǒng)計(jì)同時(shí)覆蓋到的片段的最長序列以及各自所識(shí)別到的時(shí)間表達(dá)式如式(3)所示。

      其中,maxleft(R,S)表示規(guī)則結(jié)果與統(tǒng)計(jì)結(jié)果最左邊字符,maxright(R,S)表示規(guī)則結(jié)果與統(tǒng)計(jì)結(jié)果最右邊字符,sequence(i:j)函數(shù)表示從字符i到字符j的連續(xù)字符串。

      綜上所述,本文提出的融合方法包括:一方面,系統(tǒng)采用錯(cuò)誤驅(qū)動(dòng)人工啟發(fā)式的方法,利用知識(shí)庫強(qiáng)化規(guī)則集,并融合統(tǒng)計(jì)模型泛化能力,識(shí)別時(shí)間表達(dá)式;另一方面,系統(tǒng)采用貪心策略,整合規(guī)則和統(tǒng)計(jì)的識(shí)別結(jié)果。因此,本文提出的規(guī)則和統(tǒng)計(jì)結(jié)合的日語時(shí)間表達(dá)式識(shí)別框架及方法,分別利用規(guī)則與統(tǒng)計(jì)的優(yōu)點(diǎn),旨在提高時(shí)間表達(dá)式識(shí)別系統(tǒng)性能。

      4 實(shí)驗(yàn)及分析

      4.1 實(shí)驗(yàn)語料

      本文實(shí)驗(yàn)語料采用具有實(shí)時(shí)性的日語維基資源庫。將該語料經(jīng)過去標(biāo)簽、篇章分割、去不含時(shí)間詞句子、標(biāo)注時(shí)間表達(dá)式等預(yù)處理后,隨機(jī)分為測試語料以及訓(xùn)練語料兩部分,具體語料信息如表12所示。

      表12 實(shí)驗(yàn)語料信息

      4.2評(píng)測方法

      本文使用PRF評(píng)測指標(biāo):識(shí)別的準(zhǔn)確率(P)、召回率(R)和F1值,和覆蓋度(Coverage)計(jì)算公式分別為:

      在綜合評(píng)測系統(tǒng)性能時(shí),P和R都要同時(shí)考慮,但同時(shí)比較P和R兩個(gè)值,很難做到準(zhǔn)確分析結(jié)果優(yōu)劣,因此通常采用F值對(duì)系統(tǒng)進(jìn)行評(píng)測。β是準(zhǔn)確率P和召回率R的相對(duì)權(quán)重,在本文中二者同等重要,因此β取值為1。

      本文提出使用覆蓋度(Coverage)指標(biāo)評(píng)測系統(tǒng)正確識(shí)別的時(shí)間表達(dá)式覆蓋7類時(shí)間單元的程度,其計(jì)算公式如式(7)所示:

      4.3 實(shí)驗(yàn)結(jié)果及分析

      由于目前幾乎沒有中英論文做日語時(shí)間表達(dá)式識(shí)別的研究工作,故很難進(jìn)行對(duì)比試驗(yàn)。本文對(duì)時(shí)間表達(dá)式識(shí)別系統(tǒng)進(jìn)行多次實(shí)驗(yàn),比較基于規(guī)則方法和基于統(tǒng)計(jì)方法的識(shí)別結(jié)果的差異。采用不同策略融合規(guī)則和統(tǒng)計(jì)的識(shí)別結(jié)果,使基于規(guī)則與統(tǒng)計(jì)想結(jié)合的日語時(shí)間表達(dá)式識(shí)別系統(tǒng)取得突出的識(shí)別效果。表13為基于規(guī)則,基于統(tǒng)計(jì)以及基于規(guī)則與統(tǒng)計(jì)融合的時(shí)間表達(dá)式識(shí)別結(jié)果。表14為時(shí)間基類識(shí)別的實(shí)驗(yàn)結(jié)果。

      從表13可以看出基于規(guī)則與統(tǒng)計(jì)融合的識(shí)別方法優(yōu)于單獨(dú)使用規(guī)則或統(tǒng)計(jì)的方法,主要體現(xiàn)在召回率上;然而準(zhǔn)確率有細(xì)微的降低,主要原因是融合算法目前按照時(shí)間表達(dá)式的字表面特征進(jìn)行融合,還有很大的優(yōu)化空間,此外,規(guī)則的不完備性可帶來的噪聲和語料自身的噪音也很難避免。表14說明基于規(guī)則的方法在有明顯格式的時(shí)間基類(集合時(shí)間和文化相關(guān)時(shí)間)上表現(xiàn)較好,例如,“期間”,“平成年間”和“國際労働者の日”。但是,基于規(guī)則的方法在相對(duì)格式復(fù)雜的時(shí)間識(shí)別上效果較差,特別是相對(duì)時(shí)間。一方面,相對(duì)時(shí)間識(shí)別規(guī)則中的邊界詞難以確定,本文暫使用日語的格助詞及標(biāo)點(diǎn)符號(hào)作為邊界詞;另一方面,統(tǒng)計(jì)模型識(shí)別的方法能夠通過統(tǒng)計(jì)特征識(shí)別邊界。因此基于統(tǒng)計(jì)的方法在相對(duì)時(shí)間基上的識(shí)別更為突出。

      表13 時(shí)間表達(dá)式識(shí)別結(jié)果

      表14 時(shí)間基類識(shí)別結(jié)果(Coverage)

      本文分析實(shí)驗(yàn)結(jié)果得出以下結(jié)論,無論是基于規(guī)則還是統(tǒng)計(jì)的方法在不特定時(shí)間上的識(shí)別效果尤其差,其中原因包括:

      1.相對(duì)訓(xùn)練數(shù)據(jù)稀少且難以保證其準(zhǔn)確性。

      2.存在嚴(yán)重的詞義歧義問題,例如,“雨水”、“小雪”和“大雪”等,不僅作為二十四節(jié)氣,且更為普遍地作為天氣的自然現(xiàn)象詞匯,其上下文信息極為類似。

      綜上所述,利用統(tǒng)計(jì)與規(guī)則的融合策略,彌補(bǔ)各自方法的不足。實(shí)驗(yàn)結(jié)果顯示基于規(guī)則的方法和基于統(tǒng)計(jì)模型的方法,能夠有效地識(shí)別日語時(shí)間表達(dá)式,并且基于規(guī)則與統(tǒng)計(jì)相結(jié)合的方法能夠提高日語時(shí)間表達(dá)式的識(shí)別效果。

      5 總結(jié)及未來的工作

      本文提出一種知識(shí)庫增強(qiáng)的基于規(guī)則和統(tǒng)計(jì)分析識(shí)別日語時(shí)間表達(dá)式的新方法,實(shí)現(xiàn)在訓(xùn)練語料規(guī)模匱乏的條件下,盡可能減少人工參與,使得系統(tǒng)在擁有較好的模型學(xué)習(xí)能力的同時(shí)高質(zhì)量識(shí)別日語時(shí)間表達(dá)式,這是本方法的優(yōu)點(diǎn)之一;但也會(huì)引起一些識(shí)別歧義問題,識(shí)別只包含一個(gè)詞或知識(shí)庫特征不明顯的時(shí)間表達(dá)式帶來的識(shí)別歧義問題更為突出,采用知識(shí)庫增強(qiáng)規(guī)則集解決歧義問題又是本文的另一個(gè)優(yōu)點(diǎn)。另外,可以進(jìn)一步優(yōu)化擴(kuò)展重構(gòu)知識(shí)庫。實(shí)驗(yàn)證明這種方法可行。

      今后,我們將在更多的日語數(shù)據(jù)集和領(lǐng)域上做日語時(shí)間表達(dá)式識(shí)別實(shí)驗(yàn),并與日語論文中有關(guān)日語時(shí)間表達(dá)式識(shí)別的最好算法和識(shí)別結(jié)果作比較,進(jìn)一步提高本文算法的泛化能力,使之適應(yīng)更廣泛的應(yīng)用領(lǐng)域;同時(shí),嘗試更多有效的特征,提高統(tǒng)計(jì)模型的識(shí)別精度,特別針對(duì)不特定時(shí)間,使用深層語義特征提高識(shí)別效果;以及嘗試運(yùn)用錯(cuò)誤驅(qū)動(dòng)思想的規(guī)則篩選策略,達(dá)到自動(dòng)學(xué)習(xí)規(guī)則,減少人力,提高識(shí)別性能和效率。在此之上,探索日語時(shí)間表達(dá)式如何高效地翻譯成中文時(shí)間表達(dá)式,并應(yīng)用于日中機(jī)器翻譯系統(tǒng)中,旨在于提高日中機(jī)器翻譯效果。

      [1]鄔桐,周雅倩,黃萱菁,等.自動(dòng)構(gòu)建時(shí)間基元規(guī)則庫的中文時(shí)間表達(dá)式識(shí)別[J].中文信息學(xué)報(bào),2010,24(004):3-10.

      [2]賀瑞芳,秦兵,劉挺,等.基于依存分析和錯(cuò)誤驅(qū)動(dòng)的中文時(shí)間表達(dá)式識(shí)別[J].中文信息學(xué)報(bào),2007,21(5):36-40.

      [3]PawelMaqur,Robert Dale.A Rule Based Approach to Temporal Expression Tagging[C]//Proceeding of the International Multiconference on Computer Science and Information Technology.2007,293-03.

      [4]Mingli Wu,Wenjie Li,Qin Lu,et al.A Chinese Temporal Parser for Extracting and Normalizing Temporal Information[C]//Proceeding of International Joint Conference on Natural Language Processing(IJCNLP),2005.3651:694-706.

      [5]David Ahn,SisayFissahaAdafre,Maarten de Rijke.Recognizing and Interpreting Temproal Expressions in Open Domain Texts[J].Digital Information Manage-ment,2005,3(1):14-20.

      [6]David Ahn,SisayFissahaAdafre,Maarten De Rijke Towards Task·-Based Temporal Extraction and Recognition[C]//Proceedings Dagstuhl Workshop on Annotating,Extracting,and Reasoning about Time and E-vents,2005.

      [7]KadriHacioglu,Ying Chen.Benjamin Douglas Automatic Time Expression Labeling for English and Chinese Text[C]//Proceeding of Computational Linguistics and Intelligent Text Processing(CfCLing),2005,3406:548-559.

      [8]劉成亮,韓海偉.知識(shí)庫系統(tǒng)的原理及其在智能搜索引擎中的應(yīng)用[J].電腦知識(shí)與技術(shù),2008,8:1512-1514.

      [9]Nouvel D,Antoine J Y,F(xiàn)riburger N,et al.Coupling knowledge-based and data-driven systems for named entity recognition[C]//Proceeding of the Workshop on Innovative Hybrid Approaches to the Processing of Textual Data.Association for Computational Linguistics,2012:69-77.

      [10]ACE(Automatic Content Extraction)Chinese Annotation Gubdelines for TIMEX2(Summary)[C]//Proceeding of Version 1.2,2005.

      [11]李君嬋,譚紅葉,王風(fēng)娥.中文時(shí)間表達(dá)式及類型識(shí)別[J].計(jì)算機(jī)科學(xué),2012,39(z3).

      [12]Brill,Eric.Transformation-based error-driven learning and natural language processing:A case study in part of speech tagging[J].Computational Linguistics,1995,21(4):543-565.

      [13]Lafferty J.McCallum A,Pereira F.Conditional Random Fields:Probabilistic Models for Segmenting and Labeling Sequence Data[J].The Journal of Machine Learning Research,2001,ICML01:282-289.

      [14]He Y,Kayaal P M.Biological entity recognition with conditional random fields[C]//Proceedings of AMIA Annual Symposium.Washington,DC,2008:293-297.

      [15]Kudo T.CRF++:Yet another CRF toolkit[OL].[2009-02-25].http://crfpp.sourceforge.net/.

      [16]廖先桃.CRF理論、工具包的使用及在NE上的應(yīng)用[OL].[2010-06-05].http://ir.hit.edu.cn/phpwebsite/index.php?module=documents&JAS_DocumentManager_op=viewDocument&JAS_Document_id=199.

      [17]辛永芬.日漢時(shí)間詞對(duì)比分析及相關(guān)問題[J].河南大學(xué)學(xué)報(bào) (社會(huì)科學(xué)版),2005,3:21.

      猜你喜歡
      基類知識(shí)庫表達(dá)式
      基于C#面向?qū)ο蟪绦蛟O(shè)計(jì)的封裝、繼承和多態(tài)分析
      一個(gè)混合核Hilbert型積分不等式及其算子范數(shù)表達(dá)式
      表達(dá)式轉(zhuǎn)換及求值探析
      基于TRIZ與知識(shí)庫的創(chuàng)新模型構(gòu)建及在注塑機(jī)設(shè)計(jì)中的應(yīng)用
      淺析C語言運(yùn)算符及表達(dá)式的教學(xué)誤區(qū)
      高速公路信息系統(tǒng)維護(hù)知識(shí)庫的建立和應(yīng)用
      空戰(zhàn)游戲設(shè)計(jì)實(shí)例
      基于Drupal發(fā)布學(xué)者知識(shí)庫關(guān)聯(lián)數(shù)據(jù)的研究
      圖書館研究(2015年5期)2015-12-07 04:05:48
      一種基于用戶興趣的STC改進(jìn)算法
      虛機(jī)制在《面向?qū)ο蟪绦蛟O(shè)計(jì)C++》中的教學(xué)方法研究
      沧州市| 诸城市| 白河县| 渝北区| 克山县| 双城市| 靖边县| 会东县| 瓮安县| 榆社县| 台江县| 如皋市| 吉安县| 印江| 金昌市| 兴山县| 赣州市| 固阳县| 大埔区| 涟源市| 安图县| 襄汾县| 凤冈县| 油尖旺区| 固阳县| 喜德县| 水城县| 宜宾县| 恩施市| 南川市| 卢龙县| 东海县| 南岸区| 祁连县| 慈溪市| 股票| 纳雍县| 晋城| 泸定县| 沙坪坝区| 定襄县|