• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      漢語塊分析評(píng)測(cè)任務(wù)設(shè)計(jì)

      2010-06-05 09:02:44李玉梅
      中文信息學(xué)報(bào) 2010年1期
      關(guān)鍵詞:基本塊功能塊評(píng)測(cè)

      周 強(qiáng),李玉梅

      (清華大學(xué) 信息技術(shù)研究院 語音和語言技術(shù)中心,清華大學(xué) 信息科學(xué)與技術(shù)國(guó)家實(shí)驗(yàn)室,北京100084)

      1 引言

      有效的真實(shí)文本評(píng)測(cè)任務(wù)設(shè)計(jì)是提升自然語言處理技術(shù)的一個(gè)重要途徑。英語方面的一個(gè)典型例子CoNLL設(shè)計(jì)的一系列共享分析任務(wù),包括基本名詞短語識(shí)別[1]、文本塊分析[2]、子句識(shí)別[3]、命名實(shí)體識(shí)別[4-5]、語義角色標(biāo)注[6-7]、依存分析、句法依存和語義角色一體化處理等,從簡(jiǎn)單到復(fù)雜,通過設(shè)計(jì)合適的分析任務(wù),構(gòu)建共享評(píng)測(cè)數(shù)據(jù)(Benchmark),吸引了國(guó)內(nèi)外大量感興趣的研究人員探索了各種機(jī)器學(xué)習(xí)模型在不同的分析任務(wù)中的應(yīng)用方法,開發(fā)出一組可共享的英語文本句法語義分析工具。

      在漢語方面,從2003年起,SigHan分別組織了三屆漢語詞語切分評(píng)測(cè)Bake-off,大大推動(dòng)了相關(guān)研究技術(shù)的發(fā)展。2007~2008年,又與中國(guó)中文信息學(xué)會(huì)聯(lián)合舉辦了第4屆Bake-off評(píng)測(cè)[8],進(jìn)一步增加了漢語詞性標(biāo)注和命名實(shí)體識(shí)別評(píng)測(cè)任務(wù)。但與英文相比,在句法語義分析層面上的評(píng)測(cè)任務(wù)則比較少。

      受中國(guó)中文信息學(xué)會(huì)委托,從2008年10月起,清華大學(xué)和東北大學(xué)開始籌辦中國(guó)中文信息學(xué)會(huì)句法評(píng)測(cè)CIPS-ParsEval-2009[9]。其主要目標(biāo)是針對(duì)漢語描述特點(diǎn),設(shè)計(jì)合適的評(píng)測(cè)任務(wù),開發(fā)有效的評(píng)測(cè)數(shù)據(jù)集合。并以此為契機(jī),推動(dòng)國(guó)內(nèi)漢語文本句法分析的研究水平。通過深入研究,我們提出了5項(xiàng)評(píng)測(cè)任務(wù)[9],包括:漢語詞性標(biāo)注(任務(wù)1)、基本塊分析(任務(wù)2)、功能塊分析(任務(wù)3)、事件描述小句識(shí)別(任務(wù)4)和句法樹分析(任務(wù)5)。其中3項(xiàng)(任務(wù)2~4)涉及漢語文本的塊分析問題。本文將對(duì)有關(guān)內(nèi)容進(jìn)行具體介紹和說明。

      2 塊分析任務(wù)設(shè)計(jì)

      本次評(píng)測(cè)設(shè)計(jì)了以下3項(xiàng)塊分析子任務(wù):1)基本塊分析; 2)功能塊分析; 3)事件描述小句識(shí)別。其處理要點(diǎn)是對(duì)經(jīng)過正確詞語切分和詞性標(biāo)注處理的漢語句子自動(dòng)分析形成不同層次的塊標(biāo)注序列。對(duì)每個(gè)子任務(wù),都可以使用以下兩種開發(fā)模式:1)封閉學(xué)習(xí),即只使用訓(xùn)練數(shù)據(jù)習(xí)得相關(guān)分析模型; 2)開放學(xué)習(xí):可以使用其他任何資源習(xí)得合適的分析模型。下面通過一個(gè)具體實(shí)例簡(jiǎn)要介紹這3個(gè)分析任務(wù),有關(guān)詳細(xì)標(biāo)注格式和標(biāo)記含義可參閱文獻(xiàn)[9]。

      原始輸入:要/vM 使/vJY 這/rN 項(xiàng)/qN 工作/n 抓出/v 成果/n,/wP 首先/d 需要/v 這些/rN 部門/n 的/uJDE 主要/b 領(lǐng)導(dǎo)/n 以身作則/v 、 /wD 身先士卒/v 。/wE*相關(guān)詞類標(biāo)記簡(jiǎn)要說明:vM-助動(dòng)詞;vJY-兼語動(dòng)詞;rN-名代詞;qN-名量詞;n-名詞;v-動(dòng)詞;wP-分隔點(diǎn)號(hào);d-副詞;uJDE-結(jié)構(gòu)助詞:的、之;b-區(qū)別詞;wD-頓號(hào);wE-結(jié)句點(diǎn)號(hào)。

      基本塊分析輸出:[vp-SG 要/vM ] [vp-SG 使/vJY ] [mp-ZX 這/rN 項(xiàng)/qN ] [np-SG 工作/n ] [vp-PO 抓出/v 成果/n ],/wP [dp-SG 首先/d ] [vp-SG 需要/v ] [np-ZX 這些/rN 部門/n ] 的/uJDE [np-ZX 主要/b 領(lǐng)導(dǎo)/n ] [vp-SG 以身作則/v ] 、 /、 [vp-SG 身先士卒/v ] 。/。*相關(guān)基本塊標(biāo)記簡(jiǎn)要說明:vp-動(dòng)詞塊;mp-數(shù)量塊;np-名詞塊;dp-副詞塊;SG-單詞語塊;ZX-右角依存結(jié)構(gòu);PO-述賓關(guān)系結(jié)構(gòu)。

      功能塊分析輸出:[D 要/vM ] [P 使/vJY ] [J 這/rN 項(xiàng)/qN 工作/n ] [P 抓出/v 成果/n ],/wP [D 首先/d ] [P 需要/v ] [S 這些/rN 部門/n 的/uJDE 主要/b 領(lǐng)導(dǎo)/n ] [P 以身作則/v ] 、 /wD [P 身先士卒/v ] 。/wE

      事件描述小句輸出:[E2 要/vM 使/vJY 這/rN 項(xiàng)/qN 工作/n 抓出/v 成果/n ],/wP [E2 首先/d 需要/v 這些/rN 部門/n 的/uJDE 主要/b 領(lǐng)導(dǎo)/n 以身作則/v 、 /wD 身先士卒/v ] 。/wE

      我們的塊分析體系設(shè)計(jì)的基本理念是:塊是句法語義信息的結(jié)合體,塊內(nèi)部的詞語關(guān)聯(lián)性是句法語義聯(lián)系的橋梁。一個(gè)理想的塊設(shè)計(jì)應(yīng)該既能找到明確的句法判據(jù),又可以形成合理的語義解釋,達(dá)到形式和意義的完美結(jié)合。目前,基本塊主要采用了內(nèi)聚性判據(jù),通過分析其內(nèi)部詞語組成的不同拓?fù)浣Y(jié)構(gòu)特點(diǎn)來判斷是否成塊;功能塊和事件描述小句主要采用了外延性判據(jù),通過分析它們?cè)诟蟮氖录涫胶蛷?fù)雜句子中所處的功能位置及其與其他相鄰成分的句法語義關(guān)系來判斷是否成塊。下面幾節(jié)將對(duì)有關(guān)內(nèi)容進(jìn)行簡(jiǎn)要說明。

      1) 基本塊(Base Chunk, BC)

      我們把基本塊定義為單個(gè)或多個(gè)實(shí)詞按照一定的關(guān)聯(lián)關(guān)系組合形成的基本信息單元[11]。通過對(duì)基本塊內(nèi)部各種詞匯關(guān)聯(lián)關(guān)系的深入分析,我們提煉出了三種典型的拓?fù)浣Y(jié)構(gòu):左角中心結(jié)構(gòu)(LCC)、右角中心結(jié)構(gòu)(RCC)和鏈?zhǔn)疥P(guān)聯(lián)結(jié)構(gòu)(CHC),它們覆蓋了基本塊內(nèi)部的以下句法關(guān)聯(lián)關(guān)系:1)修飾關(guān)系:覆蓋體詞塊和謂詞塊RCC和CHC; 2)并列關(guān)系:覆蓋體詞塊和謂詞塊CHC; 3)述賓、述補(bǔ)和附加關(guān)系:覆蓋謂詞塊LCC。

      這樣,就形成了以下基本塊內(nèi)聚性判據(jù):1)句子中的實(shí)詞組合符合上面的一種拓?fù)浣Y(jié)構(gòu),則形成一個(gè)多詞語基本塊; 2)句子中的其他獨(dú)立出現(xiàn)的實(shí)詞直接形成一個(gè)單詞語基本塊。對(duì)分析出的每個(gè)基本塊,將給出“成分標(biāo)記+關(guān)系標(biāo)記”的雙標(biāo)記描述[11]。

      2) 功能塊(Functional Chunk, FC)

      漢語功能塊主要描述句子中反映不同事件內(nèi)容的基本單元。確定依據(jù)主要是它們?cè)谑录枋鲂【涞牟煌瑢哟问录涫街兴幍墓δ芪恢谩D壳爸饕紤]了以下兩類事件句式:1)小句層面上的基本句式結(jié)構(gòu)。據(jù)此,可以確定主、謂、狀、賓、補(bǔ)等功能塊。2)復(fù)雜名詞短語層面上的句式結(jié)構(gòu)變體。據(jù)此,確定定語塊、中心塊等功能塊。

      為了簡(jiǎn)化起見,在本次評(píng)測(cè)中,我們只考慮各個(gè)事件描述小句的事件骨架樹中最低層次(即葉子節(jié)點(diǎn))的功能塊,將它們按照從左到右的順序排列形成整個(gè)事件描述小句的功能塊標(biāo)注序列。

      這樣,就形成了以下功能塊外延性判據(jù):選擇事件描述小句的事件骨架樹中最低層次(即葉子節(jié)點(diǎn))的詞語組合形成各個(gè)功能塊。對(duì)分析出的每個(gè)功能塊,將分別使用以下10個(gè)功能標(biāo)記來標(biāo)注:主語塊(S)、狀語塊(D)、述語塊(P)、賓語塊(O)、補(bǔ)語塊(C)、兼語塊(J)、定語塊(A)、中心塊(H)、獨(dú)立塊(T)和其他特殊塊(X)。

      3) 事件描述小句(Event Descriptive Clause, EDC)

      我們以句號(hào)、問號(hào)和嘆號(hào)等作為完整漢語句子的分隔符。在此基礎(chǔ)上的事件描述小句確定主要依據(jù)了以下判定條件:1)以逗號(hào)、分號(hào)、句號(hào)、問號(hào)等點(diǎn)號(hào)分隔而形成的詞語序列; 2)內(nèi)部包含完整的主、狀、謂、賓等事件句式,考慮到各種省略情況,其中至少應(yīng)包含一個(gè)謂語塊; 3)復(fù)句層面的狀語和獨(dú)立語成分可以作為一個(gè)特殊的EDC。它們共同形成EDC的外延性判據(jù)。

      我們使用以下4個(gè)標(biāo)記來標(biāo)注不同的EDC:1) E1——包含主題信息的EDC;2)E2——主題信息省略的EDC;3) D1——復(fù)句層面的狀語塊;4) T——復(fù)句層面的獨(dú)立語塊。其中E1和E2組成了典型的事件描述小句。

      3 評(píng)測(cè)數(shù)據(jù)庫分析

      以漢語句法樹庫TCT[10]作為統(tǒng)一的數(shù)據(jù)源,充分利用其中提供的豐富句法成分和關(guān)系標(biāo)記信息,將上面設(shè)計(jì)的三種塊的句法判據(jù)進(jìn)行具體化和實(shí)例化,我們可以自動(dòng)提取形成不同的塊標(biāo)注語料庫,從而可以對(duì)這三個(gè)不同層次的塊分析任務(wù)的處理難度進(jìn)行初步估計(jì)。在下面的實(shí)驗(yàn)中,主要選擇了TCT中所有的新聞?lì)愇谋?。其基本統(tǒng)計(jì)數(shù)據(jù)是:文件數(shù)185,漢字總數(shù)325 806,詞語項(xiàng)總數(shù)207 372,句子總數(shù)8 137,平均長(zhǎng)度為25.49詞/句。

      1) 基本塊數(shù)據(jù)分析

      從6個(gè)主要基本塊的長(zhǎng)度分布數(shù)據(jù)可以看出[11],真實(shí)文本句子中描述實(shí)體內(nèi)容的名詞基本塊和描述動(dòng)作狀態(tài)的動(dòng)詞基本塊占了大多數(shù),達(dá)到單詞語塊總數(shù)的91%和多詞語塊總數(shù)77%,是我們研究的重點(diǎn)。相對(duì)而言,動(dòng)詞塊的平均長(zhǎng)度較短。在多詞語塊中,只包含兩個(gè)詞語的塊占了93%以上;而在np多詞語塊中,包含兩個(gè)詞語的塊只占了71%左右,約30%的名詞塊長(zhǎng)度超過了3個(gè)詞語。因此,基本名詞塊的內(nèi)部描述復(fù)雜度更高,進(jìn)行自動(dòng)準(zhǔn)確分析的難度也更大。

      2) 功能塊數(shù)據(jù)分析

      表1列出了功能塊長(zhǎng)度分布數(shù)據(jù)。從中我們可以發(fā)現(xiàn):

      表1 功能塊長(zhǎng)度分布

      ? 真實(shí)文本句子中P、D、S、O塊占了絕大多數(shù),它們是形成事件句式的基本單元。其中的主要識(shí)別難點(diǎn)是復(fù)雜的賓語、狀語和主語塊。

      ? H和A塊主要出現(xiàn)在定語從句中,其平均長(zhǎng)度和分布特點(diǎn)基本與S塊相當(dāng),但由于出現(xiàn)數(shù)量較少,再加上漢語典型歧義結(jié)構(gòu)“V N 的 N”的影響,會(huì)導(dǎo)致統(tǒng)計(jì)學(xué)習(xí)模型訓(xùn)練不充分,從而增大識(shí)別難度。而H塊由于前面一般有助詞“的”,會(huì)更容易識(shí)別。

      ? 在剩余的4個(gè)非典型功能塊中,J和C盡管出現(xiàn)頻度較少,但由于語境特征明顯,其識(shí)別難度應(yīng)該與H塊相當(dāng)。而T和X則由于組合情況復(fù)雜和語境分布特征不明顯,自動(dòng)識(shí)別難度會(huì)很大,但由于其絕對(duì)數(shù)量很少,對(duì)整體性能的影響可以忽略。

      綜上所述,在我們關(guān)注的8個(gè)功能塊(PDSOHAJC)中,預(yù)期的識(shí)別難度排列會(huì)是:P, 簡(jiǎn)單D,S,O

      3) 事件描述小句數(shù)據(jù)分析

      表2列出了不同類型的事件描述小句的長(zhǎng)度分布數(shù)據(jù)。

      圖1 不同長(zhǎng)度EDC 所占比例分布

      表2 事件描述小句長(zhǎng)度分布

      圖1顯示了其中不同長(zhǎng)度EDC 的分布比例。從這些數(shù)據(jù)可以看出:

      ? 漢語真實(shí)文本中包含完整事件內(nèi)容的典型EDC塊(E1+E2類)占了95%以上,是自動(dòng)識(shí)別研究的主體。

      ? 典型EDC塊的平均長(zhǎng)度達(dá)到9個(gè)詞以上,遠(yuǎn)高于功能塊和基本塊,并且長(zhǎng)度大于10個(gè)詞的EDC塊比例超過了30%,長(zhǎng)度大于20個(gè)詞的EDC塊比例也達(dá)到了6%,這就進(jìn)一步加大了相關(guān)EDC塊的識(shí)別難度。

      ? 點(diǎn)號(hào)作為事件描述小句的天然分隔符,應(yīng)該可以在EDC識(shí)別中發(fā)揮重要作用。但漢語點(diǎn)號(hào)使用非常靈活,可用來分隔主、狀、賓等功能塊,可用來分隔各個(gè)功能塊內(nèi)部的并列成分,也可用來分隔復(fù)雜從句內(nèi)部的各個(gè)小句,以上這些情況在我們目前的EDC劃分原則下都應(yīng)包含在某個(gè)EDC內(nèi)部。對(duì)目前的2萬多個(gè)EDC進(jìn)行內(nèi)部信息分析,發(fā)現(xiàn)包含

      點(diǎn)號(hào)的EDC占?jí)K總數(shù)的16%,占覆蓋詞語總數(shù)的32%。這表明僅僅依靠點(diǎn)號(hào)信息來切分EDC會(huì)帶來很大的副作用,需要引入更多有效的判別特征。

      ? 漢語事件描述小句內(nèi)部的功能塊組合非常復(fù)雜,包含多個(gè)謂語塊的EDC比例達(dá)到了37%以上,其中包括復(fù)雜從句和連謂、兼語、并列等復(fù)雜謂語結(jié)構(gòu),它們會(huì)形成復(fù)雜的事件句式和事件骨架樹。這些情況與靈活的點(diǎn)號(hào)使用習(xí)慣混雜在一起,對(duì)準(zhǔn)確識(shí)別表征完整事件描述內(nèi)容的EDC任務(wù),提出了很大的挑戰(zhàn)。

      4 評(píng)測(cè)結(jié)果分析

      本次評(píng)測(cè)各個(gè)分析任務(wù)統(tǒng)一采用塊分析準(zhǔn)確率(P)、召回率(F)和F-1測(cè)度等評(píng)價(jià)指標(biāo)。并針對(duì)不同層次的塊分析任務(wù),確定不同的正確性判據(jù)(詳見文獻(xiàn)[9])。從中分別選擇“邊界+成分標(biāo)記”、“邊界+功能標(biāo)記”以及“邊界”識(shí)別正確判據(jù)下的整體評(píng)價(jià)F-1值作為任務(wù)2、3、4的主要評(píng)價(jià)排序指標(biāo)。

      表3、表4和表5列出了參加三個(gè)塊分析任務(wù)的性能最好的前5個(gè)系統(tǒng)的相應(yīng)評(píng)測(cè)成績(jī)。其中的ID列表示各個(gè)參評(píng)單位編號(hào),Run-ID列顯示了各個(gè)參評(píng)隊(duì)伍提交的不同系統(tǒng)編號(hào)。

      從中可以看出,在本次評(píng)測(cè)提供的完全相同的測(cè)試數(shù)據(jù)集上,Top-5基本塊識(shí)別系統(tǒng)的整體F-1值(在“邊界+成分+關(guān)系”正確性判據(jù)下)達(dá)到了90%~92%左右,而Top-5功能塊識(shí)別系統(tǒng)的整體F-1值只達(dá)到了85%左右,兩者相差了5%~7%。如何分析與挖掘?qū)δ軌K識(shí)別更為重要的新特征,并把它們有機(jī)結(jié)合入不同的統(tǒng)計(jì)模型中,應(yīng)該是下一步的研究重點(diǎn)。另外,使用更大規(guī)模的功能塊標(biāo)注語料是否會(huì)對(duì)性能提升有幫助,也值得深入研究。

      表3 任務(wù)2的前5個(gè)系統(tǒng)的評(píng)測(cè)結(jié)果

      表4 任務(wù)3的前5個(gè)系統(tǒng)的評(píng)測(cè)結(jié)果

      表5 任務(wù)4的前5個(gè)系統(tǒng)的評(píng)測(cè)結(jié)果

      最好的EDC識(shí)別系統(tǒng)的F-1值達(dá)到了80%左右(開放學(xué)習(xí)),其中使用了外部語義知識(shí)庫和功能塊分析器提供的功能塊描述特征。完全使用EDC標(biāo)注庫信息的最好系統(tǒng)的F-1值為78%左右(封閉學(xué)習(xí))。這表明了EDC識(shí)別問題的處理難度。如何發(fā)現(xiàn)與挖掘小句層面的描述特征,以提升EDC識(shí)別性能,將是今后研究的一個(gè)重要方向。

      5 相關(guān)研究工作評(píng)述

      在基本塊層面,英語方面的工作主要基于Abney(1991)提出的語塊(Chunk)概念[18]。CoNLL-2000在《華爾街日?qǐng)?bào)》語料庫上進(jìn)行的全面測(cè)試表明,在這個(gè)體系下建立的英語基本名詞和動(dòng)詞塊的識(shí)別性能達(dá)到93%左右[2]。在漢語方面的類似工作有清華大學(xué)[13]和哈爾濱工業(yè)大學(xué)[14]的基本短語描述體系和微軟的塊描述體系[15]等。這些體系的共同點(diǎn)在于它們都是從句法層面上來定義和描述塊信息,主要側(cè)重塊邊界確定和句法成分標(biāo)注問題,不太關(guān)心各個(gè)塊的內(nèi)部關(guān)系分析。另一類相關(guān)的研究則關(guān)注類似基本塊的實(shí)詞組合的整體語義表現(xiàn)和內(nèi)部組合關(guān)系,典型的工作包括命名實(shí)體定義和識(shí)別[4-5]、多詞表達(dá)的內(nèi)部詞匯語義組合性評(píng)估問題[12]等。

      而我們提出的基本塊描述體系則以語義中心驅(qū)動(dòng)的典型拓?fù)浣Y(jié)構(gòu)分析為基本判據(jù),將以上兩部分的工作有機(jī)結(jié)合起來,達(dá)到了基本塊形式和意義的初步融合。另外,還首次將緊密結(jié)合的述賓結(jié)構(gòu)關(guān)系納入基本塊描述體系中,使之基本覆蓋了漢語中所有實(shí)詞之間的重要詞匯關(guān)聯(lián)關(guān)系,為在此層面上進(jìn)行漢語詞匯關(guān)系的自動(dòng)獲取研究打下了很好的基礎(chǔ)。

      在功能塊層面,英語方面的研究主要集中在語義角色標(biāo)注(SRL)方面,通過對(duì)句子進(jìn)行淺層語義分析,確定各個(gè)目標(biāo)動(dòng)詞控制的核心語義角色的準(zhǔn)確邊界,在語義層面上直接完成事件框架的分析識(shí)別。目前在英語Propbank測(cè)試庫上的最好系統(tǒng)的SRL性能F值達(dá)到了80%左右[7],近幾年也沒有很大性能提升[19]。對(duì)實(shí)驗(yàn)結(jié)果的深入分析發(fā)現(xiàn),其中的主要問題出在論元成分識(shí)別階段:在81%邊界識(shí)別正確的論元成分中,95%以上都可以準(zhǔn)確標(biāo)注上合適的語義角色[7]。而且核心角色和外圍角色的識(shí)別性能差異明顯(80% VS 60%),顯示出一定的統(tǒng)計(jì)偏置性。

      而我們的研究則側(cè)重從句法層面先識(shí)別出進(jìn)行可以充當(dāng)論元成分的功能塊以及相應(yīng)的事件句式,從而抓住了SRL的核心問題。這個(gè)研究從最初的單層次功能塊[16],到逐步細(xì)化的二層次功能塊[17],到目前的覆蓋所有基本事件描述小句的功能塊,再配合以事件骨架樹的準(zhǔn)確分析,可以實(shí)現(xiàn)語義層面的SRL在句法層面上的有效模擬。

      在事件描述小句層面,國(guó)內(nèi)外的相關(guān)研究不是很多。CoNLL-2001曾提出一個(gè)英語子句識(shí)別任務(wù)[3],其目標(biāo)是自動(dòng)識(shí)別英語句子中的所有嵌套子句。考慮到這個(gè)問題的復(fù)雜性,他們把它拆分成三項(xiàng)子任務(wù):子句起點(diǎn)識(shí)別、終點(diǎn)識(shí)別和完整嵌套結(jié)構(gòu)識(shí)別。其中最困難的第三項(xiàng)子任務(wù)基本上與我們定義的事件描述小句識(shí)別任務(wù)相當(dāng),只是我們只處理最上層的EDC。當(dāng)時(shí)最好系統(tǒng)的開放測(cè)試F1值為78.63%[3],后來,通過改進(jìn)算法,將分析性能提高到了80.44%[20]。

      英語子句一般由先行詞引導(dǎo),具有比較明顯的形式標(biāo)記,這是設(shè)計(jì)嵌套子句識(shí)別任務(wù)的描述基礎(chǔ)。而漢語各個(gè)從句之間一般沒有特別的形式標(biāo)記,因此我們選擇以點(diǎn)號(hào)分隔的EDC作為識(shí)別重點(diǎn),可能更適合漢語的描述特點(diǎn)。

      6 總結(jié)與展望

      本文針對(duì)漢語的描述特點(diǎn),提出了三項(xiàng)漢語塊分析評(píng)測(cè)任務(wù):基本塊分析,功能塊分析和事件描述小句識(shí)別?;谡鎸?shí)文本標(biāo)注庫的數(shù)據(jù)統(tǒng)計(jì)分析和國(guó)內(nèi)外相關(guān)體系的對(duì)比分析研究顯示,這套塊分析評(píng)測(cè)任務(wù)設(shè)計(jì)具有以下特點(diǎn):1)在基本塊層面,以語義中心驅(qū)動(dòng)的拓?fù)浣Y(jié)構(gòu)分析作為基本塊的主要判據(jù),并加入緊密結(jié)合的述賓關(guān)系描述,使之基本覆蓋了漢語中所有實(shí)詞之間的重要詞匯關(guān)聯(lián)關(guān)系; 2)在功能塊層面,選擇不同層次事件句式中的各個(gè)最小描述單元作為處理對(duì)象,最大限度地保留了句子中各個(gè)不同層面的事件描述信息,形成了進(jìn)行事件骨架樹分析的研究基礎(chǔ); 3)在事件描述小句層面,以點(diǎn)號(hào)分隔的完整事件單元識(shí)別作為突破口,可以形成進(jìn)行漢語“句→段”意合分析的中樞橋梁。

      從目前的評(píng)測(cè)結(jié)果看,這三項(xiàng)塊分析任務(wù)的識(shí)別難度為:基本塊<功能塊<事件描述小句。在此基礎(chǔ)上,下一步的研究方向是:1)利用基本塊和功能塊的信息互補(bǔ)特點(diǎn),通過適當(dāng)?shù)娜诤咸幚?,獲取信息更完整的功能塊(功能標(biāo)記+成分標(biāo)記+中心詞位置),以此作為事件骨架樹分析的葉子節(jié)點(diǎn);2)探索有效的事件骨架樹分析方法,準(zhǔn)確識(shí)別句子中由功能塊組合形成的不同層次的事件句式,補(bǔ)充“功能塊→事件描述小句”之間的事件信息描述空白。

      [1] Introduction to CoNLL-1999 Shared Task: NP braketing [OL].http://www.cnts.ua.ac.be/conll99/.

      [2] Erik F. Tjong Kim Sang and Sabine Buchholz. Introduction to CoNLL-2000 Shared Task: Chunking [C]//Proceedings of CoNLL-2000 and LLL-2000. Lisbon, Portugal, 2000: 127-132.

      [3] Sang T K and D jean H. Introduction to the CoNLL-2001 Shared Task: Clause Identification [C]//Proc. of CoNLL-2001, Toulouse, France, 2001: p53-57.

      [4] Erik F. Tjong Kim Sang Introduction to the CoNLL-2002 Shared Task: Language Independent Named Entity Recognition[C]//Proc. of CoNLL-2002,2002.

      [5] Erik F. Tjong Kim Sang & Fien De Meulder Introduction to the CoNLL-2003 Shared Task: Language Independent Named Entity Recognition[C]//Proc. of CoNLL-2003,2003.

      [6] Carreras, X. and M`arquez, L. Introduction to the conll-2004 shared tasks: Semantic role labeling [C]//Proc. of CoNLL-2004,2004.

      [7] Carreras X. and M`arquez, L. Introduction to the conll-2005 shared tasks: Semantic role labeling [C]//Proc. of CoNLL-2005,2005.

      [8] Guangjin Jin, Xiao Chen The Fourth International Chinese Language Processing Bakeoff: Chinese Word Segmentation, Named Entity Recognition and Chinese POS Tagging [C]//Proc. of Sixth SIGHAN Workshop on Chinese Language Processing,2008.

      [9] 中文信息學(xué)會(huì)句法分析評(píng)測(cè)CIPS-ParsEval-2009介紹[OL]. http://www.ncmmsc.org/CIPS-ParsEval-2009/.

      [10] 周強(qiáng). 漢語句法樹庫標(biāo)注體系 [J]. 中文信息學(xué)報(bào),2004, 18(4): 1-8.

      [11] 周強(qiáng). 漢語基本塊描述體系[J]. 中文信息學(xué)報(bào),2007,21(3): 21-27.

      [12] Ivan A. Sag, Timothy Baldwin, Francis Bond, Ann Copestake, and Dan Flickinger Multiword Expressions: A Pain in the Neck for NLP [C]//Proc. Third International Conference of Computational Linguistics and Intelligent Text Processing (CICLing 2002), Mexico City, Mexico, February 17-23, 2002.

      [13] 張昱琪,周強(qiáng). 漢語基本短語的自動(dòng)識(shí)別 [J]. 中文信息學(xué)報(bào),2002,16(6): 1-8.

      [14] Tiejun Zhao, Muyun Yang et al. Statistics Based Hybrid Approach to Chinese Base Phrase Identification [C]//Proc. of the Second Chinese Language Processing. ACL 2000, Hong Kong,2000.

      [15] Li, H., C. N. Huang, J. Gao, and X. Fan Chinese Chunking with Another Type of Spec [C]//Proceedings of the 3rd ACL SIGHAN Workshop, Barcelona, Spain, 2004: 41-48.

      [16] 周強(qiáng),趙穎澤. 漢語功能塊自動(dòng)分析 [J]. 中文信息學(xué)報(bào),2007,21(5): 18-27.

      [17] 陳億,周強(qiáng),宇航分層次的漢語功能塊描述庫構(gòu)建分析 [J]. 中文信息學(xué)報(bào), 2008,22(3): 24-31.

      [18] Steven Abney(1991). Parsing by Chunks [C]//Robert Berwick, Steven Abney and Carol Tenny (eds.) Principle-Based Parsing, Kluwer Academic Publishers.

      [19] L. Marquez, X. Carreras, K.C. Litkowski, and S. Stevenson. Semantic Role Labeling: An Introduction to the Special Issue[J]. Computational Linguistics, 2008,34(2): 145-159.

      [20] Xavier Carreras1, Lluis Marquez, et. al. Learning and Inference for Clause Identification [C]//Proc. of ECML'02, 2002.

      猜你喜歡
      基本塊功能塊評(píng)測(cè)
      基于級(jí)聯(lián)森林的控制流錯(cuò)誤檢測(cè)優(yōu)化算法
      次時(shí)代主機(jī)微軟XSX全方位評(píng)測(cè)(下)
      次時(shí)代主機(jī)微軟XSX全方位評(píng)測(cè)(上)
      距離與權(quán)重相結(jié)合的導(dǎo)向式灰盒模糊測(cè)試方法
      一種檢測(cè)控制流錯(cuò)誤的多層分段標(biāo)簽方法
      攻坡新利器,TOKEN VENTOUS評(píng)測(cè)
      Ovation系統(tǒng)FIRSTOUT和FIFO跳閘首出比較
      Canyon Ultimate CF SLX 8.0 DI2評(píng)測(cè)
      自定義功能塊類型在電解槽聯(lián)鎖中的應(yīng)用
      基于MACSV6.5.2的鍋爐燃盡風(fēng)開關(guān)量調(diào)節(jié)門控制功能塊設(shè)計(jì)
      安义县| 弥渡县| 京山县| 枝江市| 贡嘎县| 鄢陵县| 临桂县| 徐州市| 会东县| 绍兴县| 北宁市| 宜川县| 巫溪县| 柘荣县| 岐山县| 肥西县| 凉山| 寻乌县| 新民市| 金华市| 武陟县| 彭州市| 固镇县| 彩票| 松溪县| 寻甸| 息烽县| 类乌齐县| 什邡市| 达日县| 建瓯市| 斗六市| 沅陵县| 洪江市| 镇平县| 尚义县| 池州市| 逊克县| 睢宁县| 沙洋县| 文化|