• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      基于輔助短語(yǔ)標(biāo)記的名詞短語(yǔ)識(shí)別

      2014-08-29 01:46:20周俏麗張桂平
      關(guān)鍵詞:謂詞語(yǔ)料短語(yǔ)

      劉 飛,周俏麗,張桂平

      (沈陽(yáng)航空航天大學(xué) 知識(shí)工程中心,沈陽(yáng) 110136)

      基于輔助短語(yǔ)標(biāo)記的名詞短語(yǔ)識(shí)別

      劉 飛,周俏麗,張桂平

      (沈陽(yáng)航空航天大學(xué) 知識(shí)工程中心,沈陽(yáng) 110136)

      名詞短語(yǔ)的識(shí)別是自然語(yǔ)言處理領(lǐng)域中非常重要的子任務(wù)。而名詞短語(yǔ)的識(shí)別性能與識(shí)別效率一直是研究人員關(guān)注的焦點(diǎn),為了達(dá)到兼顧二者的目的,提出了一種基于輔助短語(yǔ)標(biāo)記識(shí)別名詞短語(yǔ)的方法。首先,在分析了短語(yǔ)不同分類(lèi)體系的基礎(chǔ)上,構(gòu)建了一種映射公式,并根據(jù)該公式對(duì)不同分類(lèi)體系的短語(yǔ)類(lèi)別之間進(jìn)行映射。然后,根據(jù)映射結(jié)果及短語(yǔ)的概率分布進(jìn)行輔助短語(yǔ)標(biāo)記的組合。實(shí)驗(yàn)結(jié)果表明,本文的方法在提高F值的基礎(chǔ)上,有效地降低了系統(tǒng)的時(shí)間開(kāi)銷(xiāo)。

      輔助短語(yǔ)標(biāo)記;名詞短語(yǔ);映射公式

      自然語(yǔ)言處理的主要任務(wù)是使機(jī)器自動(dòng)的理解人類(lèi)語(yǔ)言,而名詞短語(yǔ)的識(shí)別是自然語(yǔ)言處理領(lǐng)域中非常重要的子任務(wù),它直接關(guān)系到文本分析和文本處理的正確性。例如,信息抽取系統(tǒng)將名詞短語(yǔ)作為它的主要識(shí)別對(duì)象。同時(shí),名詞短語(yǔ)的識(shí)別又是自然語(yǔ)言處理領(lǐng)域中許多子任務(wù)的基礎(chǔ)。

      名詞短語(yǔ)的實(shí)質(zhì)是關(guān)于名詞的特殊表達(dá),例如,為了表達(dá)“心情愉悅”,通常會(huì)附帶一系列的例如“跑”、“跳”、“笑”之類(lèi)的動(dòng)詞,然而通過(guò)這些動(dòng)詞很難猜測(cè)出文章所要闡述的主要內(nèi)容。但是,我們可以根據(jù)“心情”、“笑容”、“開(kāi)心”之類(lèi)的名詞,便可以輕而易舉的揣測(cè)出文章所要表達(dá)的主要思想。由此可見(jiàn),為了使機(jī)器自動(dòng)理解人類(lèi)語(yǔ)言,名詞短語(yǔ)的識(shí)別是其必經(jīng)之路。此外,作為一項(xiàng)重要的基礎(chǔ)研究,名詞短語(yǔ)的自動(dòng)識(shí)別與分析對(duì)于自然語(yǔ)言處理領(lǐng)域中的許多應(yīng)用研究,包括句法分析、信息檢索、信息抽取、機(jī)器翻譯等,都具有重要的實(shí)踐意義[1]。當(dāng)前,針對(duì)名詞短語(yǔ)(NP)的識(shí)別,研究較多的主要有最短名詞短語(yǔ)的識(shí)別和最長(zhǎng)名詞短語(yǔ)的識(shí)別。其中,識(shí)別最短名詞短語(yǔ)可以提高信息檢索效率。識(shí)別最長(zhǎng)名詞短語(yǔ)可以方便地把握句子的整體結(jié)構(gòu)框架,快速地構(gòu)建句子的完整句法結(jié)構(gòu)。但是,這兩種形式的名詞短語(yǔ)都忽略了中間層次的名詞短語(yǔ),通過(guò)識(shí)別中間層次的名詞短語(yǔ)可以分析出子句框架,從而得到子句到整句完整的句子結(jié)構(gòu)框架,同時(shí),中間層次名詞短語(yǔ)的識(shí)別對(duì)基本名詞短語(yǔ)的識(shí)別和最大名詞短語(yǔ)的識(shí)別也具有一定的促進(jìn)作用[2]。

      1 相關(guān)研究工作

      近幾年來(lái),國(guó)內(nèi)外研究人員在名詞短語(yǔ)的自動(dòng)識(shí)別方面進(jìn)行了許多有益的探索,提出了一些行之有效的識(shí)別方法。主要有基于句法分析的方法和基于機(jī)器學(xué)習(xí)的方法。

      基于句法分析方法,Abney[3]首次將句法分析方法運(yùn)用到英語(yǔ)組塊分析系統(tǒng)CASS中。首先對(duì)句子進(jìn)行句法分析,然后從分析的結(jié)果中提取名詞短語(yǔ)部分,從而得到名詞短語(yǔ)的識(shí)別結(jié)果。但是名詞短語(yǔ)的識(shí)別效果主要受句法分析器性能的制約。

      基于機(jī)器學(xué)習(xí)的方法采用統(tǒng)計(jì)學(xué)的處理技術(shù)從大規(guī)模語(yǔ)料庫(kù)中獲取語(yǔ)言分析所需要的知識(shí)?;跈C(jī)器學(xué)習(xí)產(chǎn)生的方法主要有:(1)基于錯(cuò)誤驅(qū)動(dòng)法。錯(cuò)誤驅(qū)動(dòng)法也叫基于變換的方法。Lance[4]等人首次利用該方法進(jìn)行英文組塊分析。這種方法適用于解決從語(yǔ)料庫(kù)中學(xué)習(xí)轉(zhuǎn)換規(guī)則的傳統(tǒng)問(wèn)題。相比而言,對(duì)計(jì)算機(jī)的性能要求較高,并且計(jì)算較復(fù)雜。(2)基于最大熵(ME)模型。ME模型是基于最大熵理論的統(tǒng)計(jì)模型。主要思想是,用有限知識(shí)預(yù)測(cè)未知時(shí),不做任何有偏性假設(shè)。周雅倩[5]和Koeling[6]分別利用該模型進(jìn)行了中英文名詞短語(yǔ)的識(shí)別。(3)隱馬爾科夫(HMM)模型。HMM模型包含一個(gè)雙重隨機(jī)過(guò)程,一個(gè)基本隨機(jī)過(guò)程是系統(tǒng)狀態(tài)變化的過(guò)程;另一個(gè)是由狀態(tài)決定觀(guān)察的隨機(jī)過(guò)程。李榮[7]在識(shí)別非嵌套名詞短語(yǔ)時(shí),采用了此模型。這種模型充分利用了詞位信息,但由于獨(dú)立性假設(shè)使其忽略了一些特殊特征。(4)支持向量機(jī)(SVM)模型。SVM模型根據(jù)結(jié)構(gòu)風(fēng)險(xiǎn)最小化原則,對(duì)訓(xùn)練樣本進(jìn)行優(yōu)化學(xué)習(xí),能夠獲得具有很好泛化能力的分類(lèi)器。Kudo[8]利用這種方法識(shí)別基本的名詞短語(yǔ),并在CoNLL-2000基本名詞短語(yǔ)識(shí)別的評(píng)測(cè)中,取得了第一名。由于SVM考慮了上下文信息并可以自由加入新特征,使得執(zhí)行過(guò)程非常復(fù)雜。(5)基于條件隨機(jī)場(chǎng)(CRF)模型。CRF模型是在給定需要標(biāo)注的觀(guān)察序列的條件下,計(jì)算整個(gè)標(biāo)注序列的聯(lián)合概率。F.Sha[9]在識(shí)別名詞短語(yǔ)的過(guò)程中,使用了CRF模型。由于標(biāo)記序列的分布條件屬性,可以使CRF很好的擬和現(xiàn)實(shí)數(shù)據(jù),所以不存在標(biāo)記偏置問(wèn)題。

      在Whitney的論文中,對(duì)以上方法做了詳細(xì)的實(shí)驗(yàn)對(duì)比,通過(guò)對(duì)比可以看出,SVM和CRF的識(shí)別結(jié)果較其它好,F(xiàn)值分別達(dá)到94.39%和94.38%,而句法分析方法的識(shí)別結(jié)果較其它差,F(xiàn)值是77%。由于句法分析方法的效果主要依賴(lài)于句法分析器的性能,而在Whitney的論文中,句法分析的方法又是基于規(guī)則的,所以識(shí)別的效果較其它差。通過(guò)10年和12年兩屆的CIPS-SIGHAN測(cè)評(píng)可以看出,目前,主流的句法分析方法主要是基于統(tǒng)計(jì)的。并且在統(tǒng)計(jì)的句法分析器中Berkeley Parser的識(shí)別效果較好。所以本文分別利用CRF、SVM和Berkeley Parser工具進(jìn)行名詞短語(yǔ)的識(shí)別,并對(duì)實(shí)驗(yàn)結(jié)果進(jìn)行了對(duì)比分析,采用的實(shí)驗(yàn)數(shù)據(jù)來(lái)源于賓州樹(shù)庫(kù)5.0,在該樹(shù)庫(kù)中,訓(xùn)練語(yǔ)料包含18083句,測(cè)試語(yǔ)料包含348句。具體結(jié)果如表1所示。

      表1 名詞短語(yǔ)識(shí)別結(jié)果對(duì)比

      通過(guò)以上的對(duì)比實(shí)驗(yàn)可以看出,句法分析方法的識(shí)別效果較其他兩種好,分析原因主要是由于在進(jìn)行句法分析時(shí)利用了豐富的短語(yǔ)標(biāo)記信息,但也正是由于豐富的短語(yǔ)標(biāo)記信息,使得識(shí)別效率降低。而SVM和CRF在進(jìn)行名詞短語(yǔ)識(shí)別時(shí)只有NP標(biāo)記,由于包含的標(biāo)記信息少,所以識(shí)別的準(zhǔn)確率低,識(shí)別效率高。由于CRF可以自由選擇特征,所以識(shí)別的效果較SVM好。為了達(dá)到兼顧識(shí)別時(shí)間和識(shí)別性能的目的,本文提出了一種基于輔助短語(yǔ)標(biāo)記識(shí)別名詞短語(yǔ)的方法。

      2 如何選擇輔助短語(yǔ)標(biāo)記

      為了選擇輔助短語(yǔ)標(biāo)記,本文分別從兩個(gè)角度對(duì)短語(yǔ)標(biāo)記進(jìn)行分析,一是,從短語(yǔ)的語(yǔ)法功能角度進(jìn)行分析。二是,從短語(yǔ)的結(jié)構(gòu)組合角度進(jìn)行分析。通過(guò)分析,本文主要從兩方面衡量輔助短語(yǔ)標(biāo)記的選擇,一方面,選擇的輔助短語(yǔ)標(biāo)記對(duì)名詞短語(yǔ)的識(shí)別具有促進(jìn)作用。另一方面,利用選出的輔助短語(yǔ)標(biāo)記識(shí)別名詞短語(yǔ)時(shí),能降低系統(tǒng)時(shí)間開(kāi)銷(xiāo)。

      2.1 短語(yǔ)的語(yǔ)法功能類(lèi)別

      張斌[10]在《現(xiàn)代漢語(yǔ)》中指出,短語(yǔ)是一種句子的結(jié)構(gòu)單位,是造句的備用材料,短語(yǔ)從外部的語(yǔ)法功能進(jìn)行分類(lèi),可以分成體詞性短語(yǔ)、謂詞性短語(yǔ)、加詞性短語(yǔ)。短語(yǔ)這種三分的方法反映了語(yǔ)法學(xué)界對(duì)實(shí)詞內(nèi)部認(rèn)識(shí)的一種深化,是語(yǔ)法研究更加精密化和科學(xué)化的必然結(jié)果。

      體詞性短語(yǔ)的語(yǔ)法功能主要做主語(yǔ)、賓語(yǔ),一般不做謂語(yǔ)。體詞性短語(yǔ)包括五種類(lèi)別。(1)以體詞為中心的偏正短語(yǔ)。(2)帶有定語(yǔ)的以謂詞為中心的偏正短語(yǔ)。(3)由各類(lèi)體詞組成的聯(lián)合短語(yǔ)。(4)同位短語(yǔ)。(5)“的”字短語(yǔ)和由名量詞組成的量詞短語(yǔ)。謂詞性短語(yǔ)的語(yǔ)法功能與謂詞一樣,在句子中主要做謂語(yǔ),有時(shí)也能做主語(yǔ)和賓語(yǔ)。從短語(yǔ)的結(jié)構(gòu)分類(lèi)上看,謂詞性短語(yǔ)包括兩種類(lèi)別:(1)形容詞短語(yǔ)。(2)動(dòng)詞短語(yǔ)。加詞性短語(yǔ)在句子中只能充當(dāng)定語(yǔ)和狀語(yǔ)。加詞性短語(yǔ)主要包括介詞短語(yǔ),以及做修飾成分的偏正短語(yǔ)和固定短語(yǔ)。

      石毓智[11]在《漢語(yǔ)語(yǔ)法》中指出,句子的基本成分都是S(主語(yǔ))、V(謂語(yǔ)動(dòng)詞)和O(賓語(yǔ))。此外,還包括定語(yǔ)、狀語(yǔ)和補(bǔ)語(yǔ)。張斌在《現(xiàn)代漢語(yǔ)》中指出,句子中的主語(yǔ)和賓語(yǔ)主要由體詞性短語(yǔ)構(gòu)成,謂語(yǔ)主要由謂詞性短語(yǔ)構(gòu)成,狀語(yǔ)和定語(yǔ)主要由加詞性短語(yǔ)構(gòu)成。從短語(yǔ)的角度進(jìn)行分析,句子的主要成分包含在體詞性短語(yǔ)、謂詞性短語(yǔ)和加詞性短語(yǔ)中。所以分別識(shí)別出體詞性短語(yǔ)、謂詞性短語(yǔ)和加詞性短語(yǔ)中的主要部分便可以得到整個(gè)句子的框架。

      2.2 短語(yǔ)的結(jié)構(gòu)組合類(lèi)別

      周強(qiáng)[12]和俞士汶[12]指出,對(duì)短語(yǔ)的標(biāo)注,除了利用句法功能信息確定不同短語(yǔ)的邊界及其相應(yīng)的標(biāo)記外,還可以利用不同短語(yǔ)的結(jié)構(gòu)組合信息以及一些特征詞信息,得到短語(yǔ)的劃分和標(biāo)注。根據(jù)這個(gè)原則,產(chǎn)生了不同的短語(yǔ)標(biāo)注體系。較典型的主要有,北京大學(xué)的短語(yǔ)標(biāo)注體系,中國(guó)臺(tái)灣中研院的短語(yǔ)標(biāo)注體系,LCD的中文樹(shù)庫(kù)的短語(yǔ)標(biāo)注體系等。由于本文實(shí)驗(yàn)語(yǔ)料來(lái)自L(fǎng)CD的中文樹(shù)庫(kù)Chinese Tree Bank4.0(CTB4.0),所以,本文統(tǒng)計(jì)了該樹(shù)庫(kù)中的短語(yǔ)類(lèi)別,共有24類(lèi)。主要可以分為以下幾大類(lèi):

      (1)名詞性短語(yǔ):NP、DNP、QP、DVP;

      (2)動(dòng)詞性短語(yǔ):VP、VRD、VPT、VCD、VSB、VCP;

      (3)介詞短語(yǔ):PP;

      (4)形容詞短語(yǔ):ADJP;

      (5)副詞短語(yǔ):ADVP;

      (6)量詞短語(yǔ):QP,CLP;

      (7)并列短語(yǔ):UCP。

      2.3 構(gòu)建短語(yǔ)類(lèi)別映射公式

      細(xì)致考察短語(yǔ)的語(yǔ)法功能類(lèi)別和短語(yǔ)的結(jié)構(gòu)組合類(lèi)別,可以發(fā)現(xiàn),兩種類(lèi)別的短語(yǔ)之間存在一定的關(guān)聯(lián)。為達(dá)到深度剖析句法內(nèi)部結(jié)構(gòu)的目的,短語(yǔ)的結(jié)構(gòu)組合類(lèi)別對(duì)短語(yǔ)的語(yǔ)法功能類(lèi)別做了細(xì)化工作。由于體詞性短語(yǔ)、謂詞性短語(yǔ)和加詞性短語(yǔ),這三類(lèi)短語(yǔ)在句子中充當(dāng)主要成分,所以將這三種類(lèi)型的短語(yǔ)識(shí)別出來(lái),便可以得到句子的框架。但是由于目前的語(yǔ)料庫(kù)是基于短語(yǔ)的結(jié)構(gòu)組合進(jìn)行短語(yǔ)類(lèi)別的標(biāo)注,所以,需要將兩種短語(yǔ)類(lèi)別構(gòu)建映射關(guān)系,本文針對(duì)賓州樹(shù)庫(kù)4.0中的短語(yǔ)類(lèi)別做了如下的映射公式。

      其中每種標(biāo)記的具體定義如表2所示。

      根據(jù)語(yǔ)法功能,可以將名詞性質(zhì)的短語(yǔ)映射到體詞性短語(yǔ)中,形容詞短語(yǔ)、動(dòng)詞性短語(yǔ)映射到謂詞性短語(yǔ)中,介詞短語(yǔ)和副詞短語(yǔ)等映射到加詞性短語(yǔ)中;對(duì)于每種短語(yǔ)的分布情況本文分別作了詳細(xì)統(tǒng)計(jì),具體如表3所示。

      從表3可以看出,在體詞性短語(yǔ)中,出現(xiàn)頻率較高的有NP、DNP、QP和CLP;在謂詞性短語(yǔ)中,出現(xiàn)頻率較高的有VP、ADJP;在加詞性短語(yǔ)中,出現(xiàn)頻率較高的有IP、ADVP和PP。所以可以從這三類(lèi)短語(yǔ)中分別選出頻率較高的幾種短語(yǔ)類(lèi)別進(jìn)行組合。從而本文提出了一種基于輔助短語(yǔ)標(biāo)記識(shí)別名詞短語(yǔ)的方法。

      表2 短語(yǔ)標(biāo)記類(lèi)型定義

      表3 CTB4.0短語(yǔ)頻率統(tǒng)計(jì)

      3 基于輔助短語(yǔ)標(biāo)記識(shí)別任務(wù)的介紹及分析

      3.1 輔助短語(yǔ)標(biāo)記任務(wù)描述

      通過(guò)表1可以看出,基于句法分析方法進(jìn)行名詞短語(yǔ)識(shí)別的準(zhǔn)確率高,但是識(shí)別效率低,而基于CRF方法進(jìn)行名詞短語(yǔ)識(shí)別的準(zhǔn)確率低,但是識(shí)別效率高。為了達(dá)到兼顧時(shí)間和性能的目的,本文通過(guò)添加輔助短語(yǔ)標(biāo)記進(jìn)行名詞短語(yǔ)的識(shí)別。從短語(yǔ)的語(yǔ)法功能視角進(jìn)行分析,句子的主要成分包含在體詞性短語(yǔ)、謂詞性短語(yǔ)、加詞性短語(yǔ)中,其中,體詞性短語(yǔ)主要包含句子的主語(yǔ)和賓語(yǔ),謂詞性短語(yǔ)主要包含句子的謂語(yǔ),加詞性短語(yǔ)主要包含句子的狀語(yǔ)。所以通過(guò)添加這幾類(lèi)相關(guān)短語(yǔ)標(biāo)記便可以構(gòu)建出句子的整體結(jié)構(gòu)框架,把握句子的概要信息,從而達(dá)到兼顧時(shí)間和性能的目的。基于此,本文提出了一種基于輔助短語(yǔ)標(biāo)記識(shí)別名詞短語(yǔ)的方法。

      3.2 系統(tǒng)結(jié)構(gòu)

      圖1為基于輔助短語(yǔ)標(biāo)記識(shí)別名詞短語(yǔ)的大致流程。首先根據(jù)映射公式,將賓州樹(shù)庫(kù)4.0的短語(yǔ)類(lèi)別分別映射到體詞性短語(yǔ)、謂詞性短語(yǔ)、加詞性短語(yǔ)中,然后根據(jù)表3進(jìn)行標(biāo)記組合的選擇,本文共做了30余種組合,并通過(guò)分析工具生成相應(yīng)的統(tǒng)計(jì)模型。再根據(jù)評(píng)測(cè)公式選擇最優(yōu)的組合模型并利用該模型進(jìn)行名詞短語(yǔ)的識(shí)別。

      圖1 系統(tǒng)流程圖

      3.3 分析工具簡(jiǎn)介

      為了充分論證基于輔助短語(yǔ)標(biāo)記識(shí)別名詞短語(yǔ)方法的有效性,本文采用了當(dāng)前最具代表性的兩種分析工具,一種是Berkeley Parser-1.6;一種是CRF++0.49;

      Berkeley Parser是由Dan Klein[13]等人于2006年提出的,是一種基于概率上下文無(wú)關(guān)文法的句法分析器,由于在解碼時(shí)采用了分層由粗到細(xì)剪枝法,所以識(shí)別的準(zhǔn)確率較高。同時(shí)這種方法還具有可選參數(shù)較多,同時(shí)支持英語(yǔ),漢語(yǔ)德語(yǔ)等多種語(yǔ)言等優(yōu)點(diǎn)。

      CRF是John Lafferty[14]等人于2001年提出,是一種基于無(wú)向圖的條件概率模型,其核心思想是利用無(wú)向圖理論使序列標(biāo)注結(jié)果達(dá)到整個(gè)觀(guān)察序列的全局最優(yōu)解。CRF已經(jīng)廣泛應(yīng)用到詞性標(biāo)注、組塊識(shí)別和命名實(shí)體識(shí)別等任務(wù)中,并且取得了很好的效果。

      3.4 輔助短語(yǔ)標(biāo)記組合實(shí)驗(yàn)

      本文主要通過(guò)映射公式及概率分布選擇輔助短語(yǔ)標(biāo)記。由映射公式可知,NP、QP和DNP被映射到體詞性短語(yǔ)中,并且共占體詞性短語(yǔ)的比例為89.61%;VP和ADJP被映射到謂詞性短語(yǔ)中,并且共占謂詞性短語(yǔ)的比例為97.8%;PP、IP和ADVP被映射到加詞性短語(yǔ)中,并且共占加詞性短語(yǔ)的比例為97.1%。通過(guò)以上的分析本文對(duì)名詞短語(yǔ)(NP)組合了不同的輔助短語(yǔ)標(biāo)記,其中,列出了準(zhǔn)確率排名前10的組合,具體如表4所示:首先,從體詞性短語(yǔ)、謂詞性短語(yǔ)和加詞性短語(yǔ)中分別選出一種或幾種短語(yǔ)標(biāo)記進(jìn)行組合。其中,組合NP、VP、PP的含義是,從體詞性短語(yǔ)中選擇NP標(biāo)記,從謂詞性短語(yǔ)中選擇VP標(biāo)記,從加詞性短語(yǔ)中選擇PP標(biāo)記,構(gòu)成組合NP+VP+PP,即訓(xùn)練語(yǔ)料中只含有NP、VP和PP標(biāo)記,并從最終的識(shí)別結(jié)果中抽取NP部分,作為NP的識(shí)別結(jié)果。本節(jié)實(shí)驗(yàn)所使用的數(shù)據(jù)如下文表5,同來(lái)源于LCD的中文樹(shù)庫(kù)Chinese Tree Bank4.0(CTB4.0)。

      表4 輔助短語(yǔ)標(biāo)記組合實(shí)驗(yàn)結(jié)果對(duì)比

      通過(guò)表4可以發(fā)現(xiàn),在所有組合中,NP+DNP+VP+PP組合的識(shí)別結(jié)果最好。通過(guò)CRF模型識(shí)別的F值是87.5886%;通過(guò)Berkeley識(shí)別的F值是87.39%。NP+DNP+VP+PP組合的識(shí)別效果之所以?xún)?yōu)越,主要有以下幾點(diǎn)原因:(1)NP和DNP在體詞性短語(yǔ)中,主要做主語(yǔ)和賓語(yǔ);VP在謂詞性短語(yǔ)中,主要做謂語(yǔ);PP在加詞性短語(yǔ)中,主要做狀語(yǔ),此外,又由于PP短語(yǔ)中,主要是以“P+NP”的形式存在[15];所以通過(guò)NP+DNP+VP+PP組合,便可以快速構(gòu)建句子的整體框架。(2)這四類(lèi)標(biāo)記在每種短語(yǔ)類(lèi)別中所占比例較大,其中NP和DNP共占體詞性的比例為81.9%;VP占謂詞性短語(yǔ)的比例為87.98%;PP占加詞性的比例為17.58%。

      4 實(shí)驗(yàn)結(jié)果及分析

      本文實(shí)驗(yàn)語(yǔ)料來(lái)自L(fǎng)CD的中文樹(shù)庫(kù)Chinese Tree Bank4.0(CTB4.0),該樹(shù)庫(kù)由1064個(gè)文件,15162個(gè)句子組成。其中訓(xùn)練集為文件號(hào)1-885,測(cè)試集為文件號(hào)900-1078。表5為訓(xùn)練語(yǔ)料與測(cè)試語(yǔ)料的統(tǒng)計(jì)信息。其中MNP代表最長(zhǎng)名詞短語(yǔ)。

      從表5中可以看出在訓(xùn)練語(yǔ)料和測(cè)試語(yǔ)料中NP和MNP復(fù)雜度的分布情況,同時(shí)也可看出訓(xùn)練語(yǔ)料中NP和MNP的平均長(zhǎng)度分別是2.402,6.40;測(cè)試語(yǔ)料中NP和MNP的平均長(zhǎng)度分別為2.56,5.89。

      NP識(shí)別性能的評(píng)測(cè)標(biāo)準(zhǔn)包括準(zhǔn)確率(P)、召回率(R)以及召回率和準(zhǔn)確率的綜合評(píng)價(jià)指標(biāo)F值。具體定義如下:

      表5 實(shí)驗(yàn)語(yǔ)料信息統(tǒng)計(jì)

      名詞短語(yǔ)識(shí)別的準(zhǔn)確率:

      名詞短語(yǔ)識(shí)別召回率:

      以及綜合反應(yīng)二者的指標(biāo):

      F=(β2+1)×P×R/(β2×P+R),β2=1

      系統(tǒng)對(duì)“正確的標(biāo)記”采用了嚴(yán)格的定義,即當(dāng)且僅當(dāng)NP的左右邊界都被正確識(shí)別。

      4.2 對(duì)比實(shí)驗(yàn)

      通過(guò)表4,可以選出最優(yōu)輔助短語(yǔ)標(biāo)記組合NP+VP+PP+DNP,為了證明輔助短語(yǔ)標(biāo)記對(duì)名詞短語(yǔ)識(shí)別的有效性,本文進(jìn)行了三種對(duì)比實(shí)驗(yàn),(1)最優(yōu)輔助短語(yǔ)標(biāo)記組合NP+VP+PP+DNP,即訓(xùn)練語(yǔ)料中標(biāo)記信息有NP、VP、PP、DNP,并從識(shí)別的結(jié)果中抽取NP結(jié)果,作為NP的最終識(shí)別結(jié)果;(2)NP標(biāo)記,即訓(xùn)練語(yǔ)料中標(biāo)記信息只有NP;(3)所有標(biāo)記(ALL),即訓(xùn)練語(yǔ)料中包含賓州樹(shù)庫(kù)中所有短語(yǔ)標(biāo)記類(lèi)型,并從識(shí)別的結(jié)果中抽取NP結(jié)果,作為NP的識(shí)別結(jié)果。為了充分刻畫(huà)本文方法的可行性,本文分別利用Berkeley Parser和CRF兩種分析工具進(jìn)行了對(duì)比實(shí)驗(yàn)。

      4.2.1 NP實(shí)驗(yàn)

      利用Berkeley Parser和CRF兩種分析工具,分別對(duì)NP、NP+VP+PP+DNP和ALL三種組合標(biāo)記進(jìn)行了名詞短語(yǔ)的識(shí)別。具體實(shí)驗(yàn)結(jié)果如表6所示,其中最優(yōu)組合代表NP+VP+PP+DNP組合。在CRF識(shí)別方法中,F(xiàn)s表示在219秒內(nèi)三種標(biāo)記識(shí)別出名詞短語(yǔ)的F值,在Berkeley識(shí)別方法中,F(xiàn)s表示在242秒內(nèi)三種標(biāo)記識(shí)別出名詞短語(yǔ)的F值。

      表6 NP實(shí)驗(yàn)結(jié)果對(duì)比

      從表6中可以看出,在CRF和Berkeley兩種分析工具中,通過(guò)最優(yōu)組合標(biāo)記識(shí)別的NP結(jié)果較好。(1)從最優(yōu)組合標(biāo)記的識(shí)別結(jié)果和NP標(biāo)記的識(shí)別結(jié)果中可以看出,最優(yōu)組合標(biāo)記識(shí)別結(jié)果的F值比NP標(biāo)記識(shí)別結(jié)果的F值分別提高了0.2%和0.99%;由此說(shuō)明VP、PP和DNP三種輔助短語(yǔ)標(biāo)記確實(shí)促進(jìn)了名詞短語(yǔ)的識(shí)別。同時(shí)Fs值較NP標(biāo)記的Fs值也有所提高,由此說(shuō)明最優(yōu)組合標(biāo)記的識(shí)別效率較NP標(biāo)記的識(shí)別效率高。(2)從最優(yōu)組合標(biāo)記的識(shí)別結(jié)果和ALL標(biāo)記的識(shí)別結(jié)果中可以看出。在Berkeley中,最優(yōu)組合標(biāo)記識(shí)別結(jié)果的F值比ALL標(biāo)記識(shí)別結(jié)果的F值有所提高,由此說(shuō)明了最優(yōu)組合標(biāo)記的識(shí)別效果較ALL標(biāo)記的識(shí)別效果好。在CRF中,ALL標(biāo)記識(shí)別結(jié)果的F值比最優(yōu)組合標(biāo)記識(shí)別結(jié)果的F值提高了0.15%。由于ALL標(biāo)記包含了賓州樹(shù)庫(kù)中所有的短語(yǔ)類(lèi)別,所以識(shí)別的時(shí)間約是最優(yōu)組合標(biāo)記識(shí)別時(shí)間的3.08倍。顯然,提高的0.15%消耗了系統(tǒng)總時(shí)間的0.68倍。而最優(yōu)組合標(biāo)記的Fs值比ALL標(biāo)記的Fs值提高了0.47%,由此說(shuō)明最優(yōu)組合標(biāo)記的識(shí)效率較ALL標(biāo)記的識(shí)別效率高。

      4.2.2 MNP識(shí)別結(jié)果

      基于MNP在自然語(yǔ)言處理中的重要作用,同時(shí),MNP也是名詞短語(yǔ)組成結(jié)構(gòu)中最難識(shí)別的一類(lèi),本文在識(shí)別了名詞短語(yǔ)的基礎(chǔ)上,從名詞短語(yǔ)的識(shí)別結(jié)果中抽取MNP部分,作為MNP的結(jié)果,并對(duì)MNP進(jìn)行了相應(yīng)的分析,表7為抽取的MNP結(jié)果,其中最優(yōu)組合代表NP+VP+PP+DNP組合。在CRF識(shí)別方法中,F(xiàn)s表示在219秒內(nèi)三種標(biāo)記識(shí)別出最大名詞短語(yǔ)的F值,在Berkeley識(shí)別方法中,F(xiàn)s表示在242秒內(nèi)三種標(biāo)記識(shí)別出最大名詞短語(yǔ)的F值。

      表7 MNP識(shí)別結(jié)果對(duì)比

      從表7中可以看出,在CRF和Berkeley兩種分析工具中,從最優(yōu)組合標(biāo)記識(shí)別結(jié)果中抽取的MNP結(jié)果較其他兩種都好,F(xiàn)值比從NP標(biāo)記識(shí)別結(jié)果中抽取的MNP的F值分別提高了0.43%和2.62%,比從ALL標(biāo)記識(shí)別結(jié)果中抽取的MNP的F值分別提高了0.14%和0.95%。由此說(shuō)明通過(guò)輔助短語(yǔ)標(biāo)記識(shí)別名詞短語(yǔ)時(shí),對(duì)MNP的結(jié)果也具有促進(jìn)作用。同時(shí),F(xiàn)s值較其他兩種標(biāo)記識(shí)別的Fs值也有所提高,由此說(shuō)明了最優(yōu)組合標(biāo)記的識(shí)別效率較其他兩種高。而在CRF工具的識(shí)別過(guò)程中,將每次識(shí)別后的名詞短語(yǔ)歸結(jié)為一個(gè)NP節(jié)點(diǎn)并作為下次NP識(shí)別的輸入,由于歸結(jié)的過(guò)程中,丟失了NP中詞和詞性的信息,所以導(dǎo)致通過(guò)CRF工具得到的MNP效果較Berkeley差。

      4.3 錯(cuò)誤實(shí)例分析

      本文對(duì)三種標(biāo)記組合的名詞短語(yǔ)識(shí)別的錯(cuò)誤實(shí)例進(jìn)行分析,發(fā)現(xiàn)以下幾種類(lèi)型的句子在錯(cuò)誤實(shí)例中所占比例較大

      (1)名詞短語(yǔ)中含有并列連詞,在錯(cuò)誤率中占有4.22%。如下例子:

      錯(cuò)誤結(jié)果:……NP[NP[臺(tái)灣/NR]與/CC NP[大陸/NN]]……

      正確結(jié)果:……NP[臺(tái)灣/NR 與/CC 大陸/NN]……

      (2)名詞短語(yǔ)由多個(gè)連續(xù)名詞組成,在錯(cuò)誤率中占有56.36%。如下例子:

      錯(cuò)誤結(jié)果:……NP[NP[NP[中華/NR 人民/NN 共和國(guó)/NN]NP[國(guó)務(wù)院/NN]]NP[副總理/NN]]……

      正確結(jié)果:……NP[NP[中華/NR 人民/NN 共和國(guó)/NN 國(guó)務(wù)院/NN]NP[副總理/NN]]……

      (3)名詞短語(yǔ)的左邊界是介詞,在錯(cuò)誤率中占有0.23%。如下例子:

      錯(cuò)誤結(jié)果:……對(duì)/P NP[NP[臺(tái)/NR]NP[合作/NN]]……

      正確結(jié)果:……NP[對(duì)/P NP[臺(tái)/NR]NP[合作/NN]]……

      此外,還有以下幾種類(lèi)型錯(cuò)誤。

      例子1:

      錯(cuò)誤結(jié)果:NP[電文/NN]NP[全/DT NP[文/NN]]……

      正確結(jié)果:NP[NP[電文/NN]全/DT NP[文/NN]]……

      例子2:

      錯(cuò)誤結(jié)果:NP[NP[中國(guó)/NR]建立/VV NP[彗星/NN]撞擊/VV NP[木星/NR]NP[觀(guān)測(cè)網(wǎng)/NN]]

      正確結(jié)果:NP[中國(guó)/NR]建立/VV NP[NP[彗星/NN]撞擊/VV NP[木星/NR]NP[觀(guān)測(cè)網(wǎng)/NN]]

      以上幾類(lèi)錯(cuò)誤在總的錯(cuò)誤實(shí)例中所占比例已經(jīng)超過(guò)70%,所以說(shuō)對(duì)并列短語(yǔ)的識(shí)別、多個(gè)名詞連續(xù)出現(xiàn)及左邊界是介詞等幾種類(lèi)別的名詞短語(yǔ)的識(shí)別還有待加強(qiáng)。

      5 總結(jié)

      名詞短語(yǔ)的自動(dòng)識(shí)別是自然語(yǔ)言處理領(lǐng)域中非常重要的子任務(wù),為了同時(shí)兼顧名詞短語(yǔ)的識(shí)別性能和識(shí)別效率,本文提出了一種基于輔助短語(yǔ)標(biāo)記識(shí)別名詞短語(yǔ)的方法。首先,本文在分析了短語(yǔ)不同分類(lèi)體系的基礎(chǔ)上,構(gòu)建了一種映射公式,并通過(guò)該公式對(duì)不同分類(lèi)體系的短語(yǔ)類(lèi)別之間進(jìn)行映射。然后根據(jù)映射結(jié)果及短語(yǔ)的概率分布進(jìn)行了輔助短語(yǔ)標(biāo)記的組合。實(shí)驗(yàn)結(jié)果表明,基于輔助短語(yǔ)標(biāo)記的名詞短語(yǔ)識(shí)別方法在提高了名詞短語(yǔ)識(shí)別準(zhǔn)確率的基礎(chǔ)上,有效地降低了時(shí)間開(kāi)銷(xiāo)。

      在今后的研究中,將從以下兩個(gè)方面提高識(shí)別性能:

      (1)針對(duì)歧義結(jié)構(gòu)問(wèn)題,嘗試引入語(yǔ)義信息來(lái)提高名詞短語(yǔ)自動(dòng)識(shí)別的準(zhǔn)確率。

      (2)集中解決名詞短語(yǔ)內(nèi)部含有并列詞的情況。

      [1]梁穎紅.基于多Agent的英漢文本語(yǔ)塊識(shí)別技術(shù)研究[D].哈爾濱:哈爾濱工業(yè)大學(xué),2006:8-14.

      [2]Angel S Y,Kam Fai Wong,et al.Effectiveness analysis of linguistics and corpus based noun phrase partial parsers[C].In Proceedings of Natural Language Processing Pacific Rim Symposium,1995:252-257.

      [3]Abney S.Partial parsing via finite-state cascades[J].Natural Language Engineering,1996,2(4):337-344.

      [4]Ramshaw,Lance and Mitch Marcus.Text chunking using transformation-based learning[C].Somerset,New Jersey:Association for Computational Linguistics,1995.

      [5]周雅倩,郭以昆,黃萱菁,等.基于最大熵方法的中英文基本名詞短語(yǔ)識(shí)別[J].計(jì)算機(jī)研究與發(fā)展,2003,40(3):440-446.

      [6]Koeling,Rob.Chunking with maximum entropy models[C].2nd Workshop on Learning Language in Logic and the 4th Conference on Computational Natural Language Learning,2000:139-141.

      [7]李榮.基于隱馬爾可夫模型的漢語(yǔ)非嵌套名詞短語(yǔ)識(shí)別[J].忻州師范學(xué)院學(xué)報(bào),2004,5(20):122-124.

      [8]Kudo,Taku and Yuji Matumoto.Chunking with support vector machines[C].2nd Meeting of the North American Chapter of the Association for Computational Linguistics on Language Technologies.Pittsburgh,Pennsylvania:Association for Computational Linguistics,2001:1-8.

      [9]Sha Fei and Fernando Pereira.Shallow parsing with conditional random fields[C].Conference of the North American Chapter of the Association for Computational Linguistics on Human Language Technology.Edmonton,Canada:Association for Computational Linguistics,2003:134-141.

      [10]張斌.現(xiàn)代漢語(yǔ)短語(yǔ)[M].上海:華東師范大學(xué)出版社,2000.

      [11]石毓智.漢語(yǔ)語(yǔ)法[M].北京:商務(wù)印書(shū)館,2010:8.

      [12]周強(qiáng),俞士汶.漢語(yǔ)短語(yǔ)標(biāo)注標(biāo)記集的確定[J].中文信息學(xué)報(bào),1996(4):1-11.

      [13]Dan Klein,Slav Petrov.Learning accurate,compact and interpretable tree annotation[C].Proceedings of the 21st International Comference on Computational Linguistics and 44th Annual Meeting of the ACL,2009:25-32.

      [14]Lafferty J,McCallum A,Pereira F.Conditional random fields:probabilistic models for segmenting and labeling sequence data[C].In International Conference on Machine Learning,2001:139-141.

      [15]李榮.漢語(yǔ)名詞短語(yǔ)和動(dòng)詞短語(yǔ)的自動(dòng)識(shí)別方法研究[M].北京:兵器工業(yè)出版社,2008.

      (責(zé)任編輯:劉劃 英文審校:劉敬鈺)

      RecognitionofChinesenounphrasebasedonauxiliaryphrasemark

      LIU Fei,ZHOU Qiao-li,ZHANG Gui-ping

      Knowledge Engineering Research Center,Shenyang Aerospace University,Shenyang 110136)

      Noun Phrase Recognition is one of the most critical components in natural language processing field.The noun phrase recognition performance and its efficiency are the focus of researchers′ attention.In order to combine the two elements,this paper proposes a method of recognizing noun phrases based on auxiliary phrase mark.First,this paper presents a mapping between phrases by using the mapping formula based on the detailed analysis of the different classification system of the phrases.Then,according to the mapping results and the probability of the distribution of the auxiliary phrase mark,lots of combinations are established.Experimental results show that this method effectively reduces the time of noun phrase recognition without reducing the F-value.

      auxiliary phrase mark;noun phrase;mapping formula

      2013-10-24

      國(guó)家科技支撐計(jì)劃項(xiàng)目(項(xiàng)目編號(hào):2012BAH14F00);遼寧省教育廳科學(xué)研究一般項(xiàng)目(項(xiàng)目編號(hào):L2012056)

      劉飛(1987-),女,遼寧大連人,在讀碩士,主要研究方向:知識(shí)管理與智能人機(jī)交互,E-mail:fei_l2011@163.com;張桂平(1962-),女,遼寧本溪人,教授,主要研究方向:自然語(yǔ)言處理,機(jī)器翻譯,E-mail:zgp@ge-soft.com。

      2095-1248(2014)01-0052-08

      TP391.1

      A

      10.3969/j.issn.2095-1248.2014.01.012

      猜你喜歡
      謂詞語(yǔ)料短語(yǔ)
      被遮蔽的邏輯謂詞
      ——論胡好對(duì)邏輯謂詞的誤讀
      黨項(xiàng)語(yǔ)謂詞前綴的分裂式
      西夏研究(2020年2期)2020-06-01 05:19:12
      基于語(yǔ)料調(diào)查的“連……都(也)……”出現(xiàn)的語(yǔ)義背景分析
      也談“語(yǔ)言是存在的家”——從語(yǔ)言的主詞與謂詞看存在的殊相與共相
      華語(yǔ)電影作為真實(shí)語(yǔ)料在翻譯教學(xué)中的應(yīng)用
      《苗防備覽》中的湘西語(yǔ)料
      國(guó)內(nèi)外語(yǔ)用學(xué)實(shí)證研究比較:語(yǔ)料類(lèi)型與收集方法
      謂詞公式中子句集提取的實(shí)現(xiàn)pdf
      乌恰县| 克东县| 长春市| 高清| 克什克腾旗| 汉川市| 五台县| 浦东新区| 邹城市| 佛冈县| 洛扎县| 永年县| 汉沽区| 突泉县| 土默特右旗| 阿鲁科尔沁旗| 丹阳市| 安溪县| 岱山县| 宝清县| 芮城县| 金秀| 固原市| 蓝田县| 渝北区| 九江县| 云林县| 天全县| 博野县| 九寨沟县| 渑池县| 喜德县| 许昌县| 新绛县| 衡阳县| 彩票| 无锡市| 云南省| 二连浩特市| 林芝县| 吉林市|