• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      基于統(tǒng)計學(xué)習(xí)模型的句法分析方法綜述

      2013-04-23 10:15:00吳偉成周俊生曲維光
      中文信息學(xué)報 2013年3期
      關(guān)鍵詞:子樹短語準(zhǔn)確率

      吳偉成,周俊生,曲維光,2

      (1.南京師范大學(xué) 計算機科學(xué)與技術(shù)學(xué)院,江蘇 南京 210023;2. 南京大學(xué) 計算機軟件新技術(shù)國家重點實驗室,江蘇 南京 210023)

      1 引言

      句法分析是自然語言處理的核心技術(shù),是對語言進行深層理解的基石。句法分析的任務(wù)是識別出句子所包含的句法成分以及這些成分之間的關(guān)系,一般以句法樹來表示句法分析的結(jié)果。從20世紀(jì)50年代初機器翻譯課題被提出算起,自然語言處理研究已經(jīng)有60年歷史,句法分析一直是阻礙自然語言處理前進的巨大障礙。句法分析主要有以下兩大難點:

      第一為歧義。自然語言區(qū)別于人工語言的一個重要的特點就是它存在大量的歧義現(xiàn)象。人類自身可以依靠大量的先驗知識有效地消除各種歧義,而機器由于在知識表示和獲取方面還存在嚴(yán)重不足,很難像人類那樣進行句法分析消歧。

      第二為搜索空間。句法分析是一個極為復(fù)雜的任務(wù),候選樹個數(shù)隨句子長度呈指數(shù)級增長,搜索空間巨大。因此,必須設(shè)計出合適的解碼器,以確保能夠在可以容忍的時間內(nèi)搜索到模型定義的最優(yōu)解或者近似解。

      句法分析方法可以簡單地分為基于規(guī)則的方法和基于統(tǒng)計的方法兩大類。基于規(guī)則的方法在處理大規(guī)模真實文本時,會存在語法規(guī)則覆蓋度有限、系統(tǒng)可遷移性差等缺陷。隨著大規(guī)模標(biāo)注樹庫的建立,基于統(tǒng)計學(xué)習(xí)模型的句法分析方法開始興起,句法分析器的性能不斷提高,最典型的就是風(fēng)靡于20世紀(jì)70年代的PCFG(Probabilistic Context Free Grammar,簡稱PCFG),它在句法分析領(lǐng)域得到了極大應(yīng)用。統(tǒng)計句法分析模型本質(zhì)上是一套面向候選樹的評價方法,給正確的句法樹賦予一個較高的分值,而給不合理的句法樹賦予一個較低的分值,這樣就可以借用候選句法樹的分值進行消歧。

      近些年來,基于統(tǒng)計學(xué)習(xí)模型的句法分析方法受到了研究者們的廣泛關(guān)注而迅速成為研究熱點,多種模型與算法先后被提出。本文依據(jù)采用的學(xué)習(xí)模型和算法類型,將各種統(tǒng)計句法分析模型歸為以下五類,試圖建立起基于統(tǒng)計學(xué)習(xí)模型的句法分析方法研究的發(fā)展概貌。

      (1) 基于PCFG的生成式句法分析模型?;赑CFG的生成式句法分析模型是利用PCFG規(guī)則所提供的概率信息來得到生成式模型所定義的最優(yōu)樹,解碼方式一般采用線圖算法。按照PCFG規(guī)則形式,基于PCFG的生成式句法分析模型主要有三類方法: 基于單純PCFG的句法分析方法、基于詞匯化PCFG的句法分析方法、基于子類劃分PCFG的句法分析方法。

      (2) 基于豐富特征的判別式句法分析模型?;谪S富特征的判別式句法分析模型是將機器學(xué)習(xí)領(lǐng)域內(nèi)性能良好的判別式結(jié)構(gòu)化預(yù)測方法應(yīng)用于句法分析領(lǐng)域,目前主要有基于大間隔(max-margin)分析方法和基于CRF的句法分析方法。

      (3) 基于移進—歸約(shift-reduce)決策的句法分析模型。基于移進—歸約決策句法分析模型是從計算機高級語言的編譯原理中推廣而來,利用分類器對移進和歸約決策進行判定,句法分析過程一般采用自底向上、從左到右的方式。

      (4) 面向數(shù)據(jù)的句法分析模型(Data Oriented Parsing,簡稱DOP)。DOP模型是建立在子樹樹庫的基礎(chǔ)上,通過組合樹庫中子樹來完成句法分析。目前主要有兩類方法: 基于STSG-DOP (Stochastic Tree Substitution Grammar,簡稱STSG)方法和基于PCFG-DOP方法。

      (5) 多句法分析器的組合。多句法分析器組合是針對單一模型的局限性所作出的改進,對多個高精度的句法分析器輸出的結(jié)果進行合成。目前的合成方式主要有子樹重組合和候選樹重排序。

      本文首先概要介紹關(guān)于句法分析的數(shù)據(jù)集與評測方法; 然后重點闡述以上五種句法分析模型,著重對各類模型和算法思想進行分析和對比;接下來,對中文句法分析的研究現(xiàn)狀進行綜述;最后,對句法分析下一步的研究方向與趨勢進行展望,特別針對中文句法分析,給出我們的一些想法。

      2 句法分析的數(shù)據(jù)集與評測方法

      2.1 句法分析的數(shù)據(jù)集

      目前研究者使用最多的樹庫來自于美國賓夕法尼亞大學(xué)加工的英文賓州樹庫(Penn TreeBank,簡稱PTB)[1]。PTB前身為ATIS(Air Travel Information System,簡稱ATIS)和WSJ(Wall Street Journal,簡稱WSJ)樹庫,具有較高的一致性和標(biāo)注準(zhǔn)確性,是目前研究英文句法分析所公認的標(biāo)注語料庫。

      中文樹庫建設(shè)較晚,比較著名的有中文賓州樹庫(Chinese TreeBank,簡稱CTB)[2]、清華樹庫(Tsinghua Chinese TreeBank,簡稱TCT)[3]、中國臺灣“中研院”樹庫(Sinica TreeBank)[4]。CTB是賓夕法尼亞大學(xué)標(biāo)注的漢語句法樹庫,目前絕大多數(shù)的中文句法分析研究均以CTB為基準(zhǔn)語料庫。TCT是清華大學(xué)計算機系智能技術(shù)與系統(tǒng)國家重點實驗室人員從漢語平衡語料庫中提取出100萬漢字規(guī)模的語料文本,經(jīng)過自動句法分析和人工校對,形成高質(zhì)量的標(biāo)注有完整句法結(jié)構(gòu)的中文句法樹庫語料。Sinica TreeBank是中國臺灣“中研院”詞庫小組從中研院平衡語料庫(Sinica Corpus)中抽取句子,經(jīng)由電腦自動分析成句法樹,并加以人工修改、檢驗后所得的成果。

      2.2 句法分析的評測方法

      目前比較主流的句法分析評測方法是PARSEVAL評測體系[5],它是一種粒度比較適中、較為理想的評價方法,主要指標(biāo)有準(zhǔn)確率(precision)、召回率(recall)、交叉括號數(shù)(crossing brackets)。

      準(zhǔn)確率表示分析正確的短語個數(shù)在句法分析的結(jié)果中所占的比例,即分析結(jié)果中與標(biāo)準(zhǔn)句法樹中的短語相匹配的個數(shù)占分析結(jié)果中所有短語個數(shù)的比例。

      召回率表示分析得到正確的短語個數(shù)在標(biāo)準(zhǔn)分析樹全部短語個數(shù)所占的比例。

      交叉括號表示分析得到的某一個短語的覆蓋范圍與標(biāo)準(zhǔn)句法分析結(jié)果的某個短語的覆蓋范圍存在重疊又不存在包含關(guān)系,即構(gòu)成了一個交叉括號。

      除以上定義指標(biāo)外,F(xiàn)1值也經(jīng)常被用來衡量句法分析器性能。

      3 基于PCFG的生成式句法分析模型

      基于PCFG的生成式句法分析模型是目前研究最為充分、形式最為簡單的統(tǒng)計句法分析模型,最優(yōu)樹Tbest一般采用概率生成式模型計算,如式(1)所示:

      聯(lián)合概率P(T,S)一般是候選句法樹T中所用規(guī)則LHS→RHS的概率乘積,如式(2)所示:

      本文按照PCFG規(guī)則形式,將基于PCFG的生成式句法分析模型分為三類方法: 基于單純PCFG的句法分析方法[6]、基于詞匯化PCFG的句法分析方法[6-11]、基于子類劃分PCFG的句法分析方法[12-15]?;趩渭働CFG的句法分析方法在計算樹的概率時引入三個基本假設(shè): 位置不變性(place invariance) 假設(shè)、上下文無關(guān)性(context-free) 假設(shè)、祖先節(jié)點無關(guān)性 (ancestor-free) 假設(shè),它的規(guī)則形式最為簡單。基于詞匯化PCFG的句法分析方法和基于子類劃分PCFG的句法分析方法,是對單純PCFG方法的改進,主要表現(xiàn)在對單純PCFG所做的三個獨立性假設(shè)進行突破。基于詞匯化PCFG的句法分析方法將短語標(biāo)記與其某個單詞(一般為它的中心詞)相關(guān)聯(lián),引入詞匯信息進行消歧?;谧宇悇澐諴CFG的句法分析方法引入上下文信息對短語標(biāo)記進行細分,具體做法有利用語言學(xué)知識自定義規(guī)則來細分短語標(biāo)記[12-13]和利用機器學(xué)習(xí)算法自動對短語標(biāo)記進行劃分[14-15]。若無特殊說明,以下報告的結(jié)果均來自于如下實驗設(shè)置: 訓(xùn)練集WSJ 02-21;測試集WSJ 23。

      3.1 基于單純PCFG的句法分析方法

      文獻[6]實現(xiàn)了一種基于單純PCFG的句法分析方法,實驗結(jié)果為: 召回率70.6%,準(zhǔn)確率74.8%。結(jié)果并不理想的主要原因在于它所引入的三個基本假設(shè)并不符合實際語言情況,難以解決需要上下文信息才可以消除的句法歧義。為了突破PCFG所做的獨立性假設(shè),出現(xiàn)了詞匯化PCFG方法和子類劃分PCFG方法。

      3.2 基于詞匯化PCFG的句法分析方法

      針對單純PCFG性能低下問題,文獻[6]將每個短語標(biāo)記引入詞匯信息,詞匯化PCFG的實驗結(jié)果為: 召回率86.7%,準(zhǔn)確率86.6%。同單純PCFG方法相比,召回率和準(zhǔn)確率分別提高了16.1%和11.8%。

      為了解決詞匯化PCFG后所帶來的數(shù)據(jù)稀疏問題,目前比較成功的方法有用類似最大熵方式來計算規(guī)則概率[7]和利用馬爾可夫過程對規(guī)則進行分解[8]。最大熵優(yōu)點在于可以考慮更多的特征,而且可以采用刪除插值(deleted interpolation)平滑方法來解決數(shù)據(jù)稀疏問題。受最大熵啟發(fā),可以用類似最大熵的方式來計算規(guī)則概率,但該方法計算出來的概率不再嚴(yán)格歸一,只能看作是評價句法樹可能性的分值。該方法的實驗結(jié)果為:召回率89.6%,準(zhǔn)確率89.5%。中心詞驅(qū)動模型(head-driven model)將每一條規(guī)則看作一個馬爾可夫過程,即首先由父節(jié)點生成中心子節(jié)點,然后自右向左依次生成中心子節(jié)點左邊節(jié)點,最后自左向右依次生成中心子節(jié)點右部節(jié)點。利用馬爾可夫過程對規(guī)則進行分解后,極大緩解了數(shù)據(jù)稀疏問題,該方法的實驗結(jié)果為:召回率88.1%,準(zhǔn)確率88.3%。

      為了進一步提高詞匯化PCFG句法分析器的性能,可以將重排序(reranking)方法引入到句法分析中,但該方法需要一個高精度的基準(zhǔn)句法分析器(baseline parser),比較典型的是Collins(1999)[8]中的模型2和Charniak(2000)[7]。Collins(1999)中的模型2采用基于Boosting方法[9]重排序后的結(jié)果為:召回率89.6%,準(zhǔn)確率89.9%,采用樹核方法重排序后的結(jié)果為:召回率88.6%,準(zhǔn)確率88.9%,雖然結(jié)果略低于前者,但算法效率得到了提高[10]。Charniak(2000)采用最大熵方法[11]重排序后的F1值為91.0%。

      3.3 基于子類劃分PCFG的句法分析方法

      與單純PCFG方法相比,詞匯化PCFG方法取得了一定的成功,但同時也產(chǎn)生了非常嚴(yán)重的三大問題: 規(guī)則數(shù)量急劇上升、數(shù)據(jù)稀疏問題嚴(yán)重、解析算法復(fù)雜度增加。于是,人們不禁要問: 研究者有沒有高估詞匯信息在句法分析的作用,非詞匯化PCFG方法是否還有提高的潛能?文獻[12]研究了句法樹表示方法與PCFG性能之間的關(guān)系,在理論和實踐上說明了基于PCFG的句法分析器的性能會隨著句法樹表示方法的不同而急劇變化。通過為句法樹中的每個結(jié)點引入其父節(jié)點短語標(biāo)記,句法分析的F1值就可以提高8個百分點。該實驗結(jié)果表明: 樹庫中的短語標(biāo)記粒度過粗,區(qū)分度不夠,缺少用于消歧的上下文信息。

      根據(jù)短語在句法樹中的上下文信息,可以自定義規(guī)則對短語標(biāo)記進行細分,所利用的上下文信息一般包括父節(jié)點和兄弟節(jié)點短語標(biāo)記等。文獻[13]在整個實驗中,除詞性標(biāo)注外,未使用任何詞匯信息,實驗結(jié)果為: 召回率85.1%,準(zhǔn)確率86.3%。雖然性能劣于詞匯化PCFG方法,但該方法非常簡單、容易理解、易于實現(xiàn)。因此,文獻[13]獲得了2003年ACL大會的最佳論文獎。

      利用EM算法可以自動對短語標(biāo)記進行劃分[14-15]。它首先為原始規(guī)則A→BC中短語標(biāo)記分別標(biāo)注一個整數(shù)類別x、y、z,然后在E步,計算標(biāo)注規(guī)則的期望次數(shù),如式(3)所示:

      其中,Pout和PIn分別為內(nèi)部概率和外部概率;r、s和t為規(guī)則的跨度(span);

      在M步,通過以上得到的期望次數(shù)去更新規(guī)則概率,如式(4)所示:

      可以每次將短語標(biāo)記劃分為兩個子類,然后合并區(qū)分不大的劃分。該方法實驗中使用子類劃分后的樹庫語料,實驗結(jié)果為: 召回率89.9%,準(zhǔn)確率90.2%。

      4 基于豐富特征的判別式句法分析模型

      隨著機器學(xué)習(xí)領(lǐng)域的蓬勃發(fā)展,多種結(jié)構(gòu)化學(xué)習(xí)模型先后被提出。判別式的結(jié)構(gòu)化學(xué)習(xí)模型具有可以融合大量有效特征,且能避免在生成式學(xué)習(xí)模型中需引入的獨立性假設(shè)等優(yōu)點,在實際應(yīng)用中一般比生成式方法性能要好。基于豐富特征的判別式句法分析模型是將機器學(xué)習(xí)領(lǐng)域內(nèi)的判別式結(jié)構(gòu)化學(xué)習(xí)模型應(yīng)用于句法分析領(lǐng)域,并借用豐富特征來消解句法分析過程中所產(chǎn)生的歧義。目前主要有基于大間隔的句法分析方法[16]和基于CRF的句法分析方法[17]。

      4.1 基于大間隔的句法分析方法

      大間隔馬爾可夫網(wǎng)絡(luò)(Max-Margin Markov Networks,簡稱M3N)融合了SVM的大間隔理論與概率圖模型處理結(jié)構(gòu)關(guān)系的能力[18],可以解決復(fù)雜的結(jié)構(gòu)化預(yù)測問題,因此可以將它應(yīng)用到句法分析上[16]。

      判別函數(shù)采用如下形式:

      其中,Φ(x,y)代表與x相對應(yīng)的句法樹y的特征向量;w代表特征權(quán)重;

      間隔定義為樣本與輸出y在權(quán)值w上的差值。如式(6)所示:

      然后最小化權(quán)重w:

      (7)

      其中Li,y為損失函數(shù),ξi為松弛變量。

      以上優(yōu)化問題的對偶形式為:

      (8)

      其中Ii,y=I(xi,yi,y),指示y與yi是否相同;

      主問題的解w*就是正確和錯誤句法樹特征向量的線性組合,如式(9)所示:

      其中α*是對偶問題的解。

      由于主公式和對偶公式中的變量個數(shù)隨句子長度呈指數(shù)級增長,因此該文對模型進行了分解,將參數(shù)數(shù)目降為多項式級,最終用類似SMO的方式進行參數(shù)學(xué)習(xí)。該模型在WSJ15(長度小于等于15的句子)上的實驗結(jié)果為: 召回率89.1%,準(zhǔn)確率89.1%。

      針對M3N模型訓(xùn)練速度問題,可以采用多個獨立而且可以并行訓(xùn)練的二元分類器來代替它,每個二元分類器用于識別一個短語標(biāo)記,句法分析任務(wù)就是通過組合這些分類器來完成,因此分類器的訓(xùn)練速度可以得到很大提高[19-20]。該方法在WSJ15上的實驗結(jié)果為: 召回率89.2%,準(zhǔn)確率89.6%。

      4.2 基于CRF的句法分析方法

      與基于PCFG的生成式模型相比,采用CRF模型進行句法分析,主要不同點在于產(chǎn)生式的概率計算方法和概率歸一化的方式[17]。該模型最大化句法樹的條件概率值而不是聯(lián)合概率值,并且對概率進行全局歸一化。

      候選句法樹的概率估算形式如式(10):

      互聯(lián)網(wǎng)的出現(xiàn),改變了我們的生活方式與學(xué)習(xí)方式,也對教育行業(yè)提出了新的挑戰(zhàn),近年來,網(wǎng)絡(luò)教學(xué)已經(jīng)受到越來越多國內(nèi)外高校的重視網(wǎng)絡(luò),網(wǎng)絡(luò)與教育相結(jié)合的呼聲日益高漲?!禞ava程序設(shè)計》課程是計算機專業(yè)的主修設(shè)計課程之一,是一門概念抽象且注重實踐性的專業(yè)課程。對于該課程來說,傳統(tǒng)的教學(xué)模式比較單一,課程講解起來不易理解,如何將泛雅平臺應(yīng)用于《Java程序設(shè)計》課程的教學(xué)成了各大高校的重中之重。

      團勢函數(shù)(clique potentials) 采用的是指數(shù)形式:

      訓(xùn)練數(shù)據(jù)的log似然值為:

      以上log似然值對θi求偏導(dǎo)數(shù)就是特征的經(jīng)驗期望與模型期望之間的差值:

      該模型在WSJ15實驗結(jié)果為: 召回率90.4%;準(zhǔn)確率為91.4%,在整個測試集上實驗結(jié)果為: 召回率87.8%,準(zhǔn)確率88.2%。

      5 基于移進—歸約決策的句法分析模型

      基于移進—歸約決策句法分析模型是用一個寄存符號的先進后出的棧S,把存在隊列Q里面的輸入符號一個一個地移進到棧里,當(dāng)棧頂形成某個規(guī)則的一個候選式時,就把棧頂?shù)倪@一部分歸約為該規(guī)則的左部符號。決策判定,即執(zhí)行移進還是歸約動作,是由分類器根據(jù)當(dāng)前句法分析狀態(tài)(S和Q的內(nèi)容)給出。由此可見,移進—歸約決策句法分析采用了自底向上、從左到右的分析過程。該方法的句法分析時間復(fù)雜度為O(n),其中n是句子長度[21]。

      早期移進—歸約決策的句法分析器中采用right、left、up、unary、 root五類決策類別[22-23]。right up left分別表示新節(jié)點的起始節(jié)點、中間節(jié)點、末節(jié)點,即right up left 表示可以歸為一個新的短語,unary表示要進行一元歸約,root表示句法分析任務(wù)結(jié)束。早期主要有采用決策樹和最大熵對以上類別進行分類。決策樹所用到的特征包括了詞的類別,這些類別需要用聚類方法得到,花費的計算代價很高,解碼過程分兩階段完成,雖然引入剪枝策略,與蠻力法相比,相對高效地得到了模型定義的最優(yōu)解,但是對于某些句子,解碼器的搜索空間仍然巨大[22]。最大熵分類器只用到了詞本身信息,與決策樹相比,模型訓(xùn)練的代價較小,解碼方式采用了BeamSearch方法,雖然有可能得不到模型所定義的最優(yōu)解,但算法的執(zhí)行效率得到了提高。決策樹的實驗結(jié)果為: 召回率84.0%,準(zhǔn)確率84.3%。最大熵的實驗結(jié)果為: 召回率86.3%,準(zhǔn)確率87.5%。

      最近比較流行的移進—歸約句法分析器將決策類別分為四大類[24]: SHIFT、REDUCE-unary-X、REDUCE-binary-{L/R}-X、TERMINATE。SHIFT表示從隊列Q中移出一個詞語到棧S中;REDUCE-unary-X表示將要進行一元歸約,新生成節(jié)點X;REDUCE-binary{L/R}-X表示進行二元歸約,新生成節(jié)點X,L和R表示X的中心詞來自于左孩子節(jié)點還是右孩子節(jié)點。TERMINATE表示句法分析任務(wù)結(jié)束。要訓(xùn)練得到基于以上四類決策的句法分析器,需要對樹庫進行二元轉(zhuǎn)換(binarization transform),X表示二元轉(zhuǎn)換過后的短語標(biāo)記。雖然決策類別很多,但是分類器的分類性能很高(我們再現(xiàn)了文獻[43]中的結(jié)果,決策類別達到76個,但是分類精度高達94.7%)。目前主要基于SVM和感知器的移進—歸約句法分析器,SVM句法分析結(jié)果為: 召回率87.6%,準(zhǔn)確率87.5%,雖然結(jié)果略低于詞匯化PCFG模型,但句法分析速度得到了很大的提高[21]。感知器方法從全局角度對決策進行了考量,在CTB上取得了非常好的結(jié)果[24]。

      基于移進—歸約決策的句法分析模型應(yīng)用于中文時對詞性非常敏感,文獻[24]顯示: 基于正確詞性標(biāo)注與基于自動詞性標(biāo)注(標(biāo)注精度為93.5%)的句法分析實驗的F1值相差高達9.4個百分點,主要原因是中文詞性標(biāo)注精度不高和該方法需要考慮大量的詞性作為特征。

      6 面向數(shù)據(jù)的句法分析模型

      DOP模型是建立在包含大量語言現(xiàn)象的樹庫基礎(chǔ)上,通過組合數(shù)庫中的子樹來實現(xiàn)句法分析任務(wù)。與基于PCFG的句法分析模型相比,可以將DOP模型中的子樹看作文法,PCFG規(guī)則是DOP模型文法特殊形式,即子樹的高度為1。

      本節(jié)首先介紹最優(yōu)樹的定義準(zhǔn)則,然后介紹兩種主流的利用DOP模型進行句法分析的方法: STSG-DOP方法[25-27]和PCFG-DOP方法[28-31]。STSG-DOP方法將DOP思想歸結(jié)為子樹替換過程,而PCFG-DOP方法將STSG-DOP中的子樹文法轉(zhuǎn)化為PCFG形式,減少了文法的數(shù)量,提高了句法分析的速度。

      6.1 最優(yōu)樹的定義準(zhǔn)則

      DOP模型一個重要特征就是可能有多個有效推導(dǎo)d對應(yīng)于同一棵候選樹T,這就涉及到模型所定義的最優(yōu)樹Tbest準(zhǔn)則問題。就目前DOP模型的研究,主要有以下六種準(zhǔn)則:

      第一個準(zhǔn)則為最有可能推導(dǎo)(the Most Probable Derivation,簡稱MPD)。MPD是在所有可能的有效推導(dǎo)中,找出概率最大的一個有效推導(dǎo),如式(14)所示:

      第二個準(zhǔn)則為最有可能分析(the Most Probable Parse,簡稱MPP)。在MPP中,句法樹T的概率是與T對應(yīng)的所有可能推導(dǎo)dT的概率累加和,如式(15)所示:

      計算MPP是NP-hard問題[32],一般采用近似搜索算法,例如Viterbi-n-best方法[27,29]。

      第三個準(zhǔn)則為最大成分分析(the Maximum Constituents Parse,簡稱MCP)。MCP考慮了每一個短語cT正確的可能性,挑出具有最大成分的候選樹T,如式(16)所示:

      MCP是對MPP的近似,可以采用動態(tài)規(guī)劃算法高效地計算MCP[28]。

      第四個準(zhǔn)則為最大規(guī)則和(the Max Rule Sum,簡稱 MRS)。MRS是由MCP推廣而來,候選樹T的概率是T中所有規(guī)則rT的后驗概率累加和,如式(17)所示:

      第五個準(zhǔn)則為最大規(guī)則積(the Max Rule Production,簡稱MRP)。MRP與MRS類似,將MRS中的累加符號改為累乘符號,如式(18)所示:

      MRP的性能一般要優(yōu)于MRS[15]。

      第六個準(zhǔn)則為最短推導(dǎo)(Shortest Derivation,簡稱SD)。以上五種準(zhǔn)則是基于概率,而SD是基于推導(dǎo)的長度,選取具有最短長度的推導(dǎo),如式(19)所示:

      從子樹的大小來說,SD是比較傾向于大子樹。最短推導(dǎo)可能有多個,一般要對最短推導(dǎo)進行排序處理[33]。

      6.2 基于STSG-DOP方法

      STSG-DOP[25,34]通過組合樹庫中的子樹來完成句法分析。其中,最基本的操作是替換(substitution),句法樹概率是通過計算子樹的頻度得到。

      STSG-DOP方法在ATIS樹庫上取得了成功,但是為了計算MPP,采用Monte Carlo采樣算法[26],由于該算法的隨機性和缺少應(yīng)用該算法的進一步細節(jié),有些研究者并不承認該方法在ATIS樹庫上的結(jié)果[28]。但隨著各種近似搜索算法和最優(yōu)樹準(zhǔn)則的出現(xiàn),Bod等人摒棄了Monte Carlo算法,出現(xiàn)了結(jié)果可再現(xiàn)的高性能句法分析器[27,29-31],使得越來越多的研究者開始關(guān)注DOP模型。

      由于STSG子樹的數(shù)量非常大,而且極其冗余,從理論和計算的角度,都需要對數(shù)庫中的子樹進行限制。這自然會產(chǎn)生一個想法: 是否可以減少子樹數(shù)量同時又可以提高句法分析器的性能?文獻[27]針對該問題在WSJ樹庫上進行了研究,分別考察了子樹大小、詞匯化上下文、結(jié)構(gòu)上下文、非中心詞依賴,在WSJ40(長度小于等于40的句子)上的實驗表明: 對子樹進行限制確實能夠提高句法分析的性能。該文最后將WSJ40取得最好性能的子樹選取方法應(yīng)用在標(biāo)準(zhǔn)測試集上,實驗結(jié)果為: 召回率89.7%,準(zhǔn)確率89.7%,結(jié)果略高于之前詞匯化模型Charniak(2000)[7],與當(dāng)時的Collins(2000)[9]的結(jié)果相當(dāng)。

      6.3 基于PCFG-DOP方法

      PCFG-DOP方法[28]將子樹中的每一個外部節(jié)點(exterior non-terminal)對應(yīng)于8種PCFG規(guī)則,使得文法數(shù)量隨樹庫大小呈線性增長,與STSG-DOP相比,文法數(shù)量急劇下降。

      PCFG-DOP方法在文獻[27]子樹選取的基礎(chǔ)上的實驗結(jié)果為: 召回率89.5%,準(zhǔn)確率89.7%,雖然召回率略低于文獻[27] (相差0.2%),但句法分析的速度提高了60倍[29]。結(jié)合SD和MPP準(zhǔn)則可以形成兩種DOP模型[29]: LS-DOP和SL-DOP,SL-DOP是從N種概率值最高的候選樹中,選出推導(dǎo)長度最短的句法樹,LS-DOP是從N種推導(dǎo)最短的候選句法樹中,選出概率值最高的句法樹。SL-DOP實驗結(jié)果為: 召回率90.7%,準(zhǔn)確率90.8%,LS-DOP實驗結(jié)果為: 召回率89.4%,準(zhǔn)確率89.7%。

      為了能夠高效地利用DOP模型進行句法分析,可以對子樹樹庫規(guī)模和文法形式進行改進: 規(guī)定樹庫中的子樹數(shù)量必須大于等于2(可以利用樹核算法高效地抽取所有滿足條件的子樹[31]),將子樹的根節(jié)點和葉節(jié)點分別映射為PCFG規(guī)則的左部和右部,文獻[31]的Tbest準(zhǔn)則采用MRS,實驗的F1值為89.1%。

      由于PCFG-DOP方法的文法數(shù)量相對較少,可以利用樹庫中的所有子樹進行句法分析,文獻[30]的Tbest準(zhǔn)則采用MRP,實驗的F1值為88.1%,雖然結(jié)果低于子樹選取后的結(jié)果,但是并沒有付出昂貴的代價進行子樹選取也沒有引入詞匯信息。

      7 多句法分析器的組合

      以上介紹的幾種句法分析模型有個共同的缺點: 最佳句法樹Tbest都是基于單一模型定義的,得到的最優(yōu)解并不一定最接近實際情況。近些年來,針對單一模型的局限性,另一個研究重點放在多個句法分析器組合上。這種方法是利用多個高精度的基準(zhǔn)句法分析器(baseline parser)輸出多個高概率值結(jié)果,并結(jié)合豐富句法結(jié)構(gòu)特征對它們進行合成處理。目前合成方式主要有子樹重組合[35-36]和候選樹重排序[37]。子樹重組合是對候選樹中的子樹進行重組,形成一個新的最優(yōu)的句法樹。候選樹重排序是對候選樹分值進行重新估算,選出分值最高的候選樹作為最后的分析結(jié)果。

      子樹重組合主要有投票方法和權(quán)重相加法。投票法就是首先統(tǒng)計各子樹在候選樹上的頻度,然后選擇頻度最多的子樹來組合成一棵新的句法樹,該方法得到的結(jié)果偏向于準(zhǔn)確率[35]。權(quán)重相加法就是利用CKY算法將跨度相同短語標(biāo)記間的成分權(quán)值相加,最后得到能夠覆蓋整個句子的概率值最大的句法樹,該方法得到的實驗結(jié)果偏向于召回率,為了調(diào)和準(zhǔn)確率和召回率,一般要引入閾值對候選子樹進行剪枝[36]。文獻[35]采用投票方法,在實驗中采用三個高精度的基準(zhǔn)句法分析器,最優(yōu)性能為: 召回率88.5%,準(zhǔn)確率88.7%,進行子樹重組合后,實驗結(jié)果為: 召回率89.2%,準(zhǔn)確率92.1%。文獻[36]采用權(quán)重相加法,在實驗中采用五個高精度的句法分析器,最優(yōu)性能為: 召回率90.6%,準(zhǔn)確率91.3%,子樹重組合后實驗結(jié)果為: 召回率91.0%,準(zhǔn)確率93.2%。

      子樹重組合的優(yōu)點在于利用到了多個高精度的基準(zhǔn)句法分析器,但存在兩個不足點: 第一,每一個句法分析器只輸出一個結(jié)果;第二,沒有利用到候選句法樹的起始概率值,雖然不同句法分析器輸出的候選樹的概率值不可比較。候選樹重排序方法繼承了子樹重組合的優(yōu)點,并針對其缺點進行了改進,即讓每個基準(zhǔn)句法分析器都輸出多個最優(yōu)結(jié)果,并且將句法樹的起始概率值作為主要特征。文獻[37]進行了候選樹重排序,基準(zhǔn)句法分析器采用Charniak(2000)[7]和Petrov(2007)[15],并且讓這兩個句法分析器分別輸出最優(yōu)的50個結(jié)果,實驗的F1值為92.6%。

      為了便于比較分析,表1列出了各種句法分析方法在英文賓州樹庫上的句法分析性能。

      表1 句法分析器性能比較

      續(xù)表

      8 中文句法分析的研究現(xiàn)狀

      與英文句法分析相比,中文句法分析的研究相對較晚。按照上文的分類方法,以下將簡單綜述中文句法分析的研究現(xiàn)狀。若無特殊說明,以下報告的結(jié)果均來自于如下實驗設(shè)置: 訓(xùn)練集CTB 001-270;測試集CTB 271-300(基于正確分詞且句子長度小于等于40)。

      在單純PCFG方法方面,文獻[38]利用內(nèi)向—外向算法,從已有小規(guī)模中文賓州樹庫中提取規(guī)則,利用大規(guī)模已做好分詞標(biāo)注的語料庫對規(guī)則進行訓(xùn)練,并針對漢語的特點(特別是漢語虛詞的特點),引入句法結(jié)構(gòu)共現(xiàn)的概念來減弱PCFG的獨立性假設(shè)。實驗結(jié)果表明,引入句法結(jié)構(gòu)共現(xiàn)概率能夠提高句法分析器的準(zhǔn)確率和召回率。

      在詞匯化PCFG方面,文獻[39]將Collins的中心詞驅(qū)動模型應(yīng)用于中文,實驗結(jié)果為: 召回率78.0%,準(zhǔn)確率81.2%。文獻[40]在中心詞驅(qū)動模型的基礎(chǔ)上,提出了基于語義的模型,并且對基本名詞做了特殊處理,實驗結(jié)果為: 召回率78.7%,準(zhǔn)確率80.1%(訓(xùn)練集: CTB 026-270)。文獻[41]提出了一個兩級的中文句法分析方法,基本短語和復(fù)雜短語分別被詞匯化的馬爾可夫模型和中心驅(qū)動模型所識別,實驗語料采用哈爾濱工業(yè)大學(xué)樹庫,單一模型(中心驅(qū)動模型)實驗結(jié)果為: 召回率86.4%,準(zhǔn)確率86.3%;兩級的句法分析模型實驗結(jié)果為: 召回率88.0%,準(zhǔn)確率87.5%。

      在子類劃分PCFG方面,文獻[42]自定義規(guī)則對短語標(biāo)記進行劃分,引入短語標(biāo)記的上下文信息,提出了結(jié)構(gòu)上下文相關(guān)的概率句法分析模型。實驗結(jié)果表明,引入結(jié)構(gòu)的上下文信息確實能夠提高句法分析的性能。文獻[15]將自動劃分短語標(biāo)記的方法應(yīng)用于中文,實驗結(jié)果為: 召回率85.7%,準(zhǔn)確率86.9%(訓(xùn)練集: CTB 001-270,400-1151)。

      在移進—歸約決策句法分析方面,文獻[43]將移進—歸約決策句法分析模型應(yīng)用于中文,實現(xiàn)了一個高速、準(zhǔn)確的確定性中文句法分析器,采用SVM分類器的實驗結(jié)果為: 召回率78.1%,準(zhǔn)確率81.1%。文獻[24]利用全局線性模型對決策類別進行了預(yù)測,實驗結(jié)果為: 召回率80.2%,準(zhǔn)確率80.5%;文獻[44]對移進—歸約決策方法進行了擴展,實現(xiàn)了層次式句法分析模型。該方法將句法樹的構(gòu)建轉(zhuǎn)換為層次標(biāo)注問題,分類器采用最大熵,實驗結(jié)果為: 召回率76.5%,準(zhǔn)確率80.0%。文獻[45]又將層次式句法分析模型與語義角色標(biāo)注進行了聯(lián)合學(xué)習(xí),緩解了語義分析對句法分析結(jié)果的依賴,同時又提高了兩者的性能。

      在多句法分析器組合方面,文獻[37] 以Charniak(2000)[7]和Petrov(2007)[15]句法分析器各產(chǎn)生的50-best候選樹作為輸入,系統(tǒng)合成后,在整個測試集上實驗的F1值為85.5%(訓(xùn)練集: CTB 001-270,400-1151)。

      9 總結(jié)與展望

      近十幾年來,英文句法分析有了長足的發(fā)展,而且已日趨成熟。它的研究趨勢主要基于以下兩點:

      第一點就是基于樹庫的文法受到了研究者的青睞。與早期的方法相比,現(xiàn)在的句法分析方法更強調(diào)從真實的樹庫中獲取文法知識,例如詞匯化PCFG方法、面向數(shù)據(jù)的句法分析方法,使得訓(xùn)練出來的模型更加符合實際情況,因而促進了句法分析性能的提高。

      第二點就是統(tǒng)計學(xué)習(xí)理論在句法分析領(lǐng)域扮演越來越重要的作用。隨著各種統(tǒng)計學(xué)習(xí)算法的提出,研究者開始將各種可以集成豐富上下文特征的判別式學(xué)習(xí)模型引入到句法分析領(lǐng)域,例如: 應(yīng)用結(jié)構(gòu)化學(xué)習(xí)模型CRF和大間隔方法實現(xiàn)句法分析,針對傳統(tǒng)生成式模型的不足實現(xiàn)了理論上的改進。

      同時也可以看出,這兩個因素也引發(fā)了一些問題。詞匯化PCFG方法帶來了非常嚴(yán)重的三大問題,造成訓(xùn)練和測試時需要巨大的時空開銷。STSG-DOP方法子樹數(shù)量巨大,雖然出現(xiàn)了PCFG-DOP方法,減少了文法數(shù)量,但是仍然非常冗余,因此,子樹的選取也是DOP模型非常值得研究的課題。與傳統(tǒng)的生成式模型相比,大間隔方法和CRF方法等判別式學(xué)習(xí)模型的消歧能力更強,但模型的復(fù)雜度也更高,例如M3N模型在WSJ15上訓(xùn)練就需要幾個月時間[17]。因此,在應(yīng)用一些有效的判別式學(xué)習(xí)模型實現(xiàn)句法分析任務(wù)時,如何利用句法樹結(jié)構(gòu)的特性設(shè)計和實現(xiàn)更有效地學(xué)習(xí)和訓(xùn)練算法也將會是下一步研究的熱點。

      值得一提的是,子類劃分PCFG方法和移進—歸約方法另辟蹊徑,取得了比較好的性能。子類劃分PCFG方法較好地克服了詞匯化PCFG的固有缺點,而且是當(dāng)今精度最高的單一句法分析模型之一。另外,基于移進—歸約決策的句法分析模型將傳統(tǒng)的利用線圖算法進行句法分析的過程轉(zhuǎn)化為一系列基于分類器的移進和歸約決策分類過程,而決策分類可以采用決策樹、最大熵、SVM等性能良好的分類器。該句法分析模型具有很強的靈活性和可擴充性。而且該模型應(yīng)用于中文時取得了較好的性能,且具有句法分析速度快等優(yōu)點。

      中文句法分析相對于英文句法分析還有很長的路要走,但可以借鑒英文句法分析,譬如將大間隔和CRF等判別式學(xué)習(xí)模型,以及DOP方法應(yīng)用于中文,相信可以取得性能的提高。基于上述分析,我們提出一些關(guān)于改善中文句法分析的幾點思路。

      (1) 近些年,依存句法分析成為研究熱點,依存樹反應(yīng)了詞匯間的依存關(guān)系,屬于語義范疇,提供了比單純詞匯更為豐富的信息,因此更加有利于消歧。文獻[46]利用依存結(jié)構(gòu)來輔助句法分析,采用單純PCFG實驗結(jié)果就與詞匯化PCFG性能相當(dāng),充分說明了語義信息對句法分析的作用。受該文啟發(fā),可以利用依存結(jié)構(gòu)來輔助其他句法分析模型,也可以將句法分析與后續(xù)語義分析任務(wù)進行聯(lián)合學(xué)習(xí),以緩解句法分析對語義信息的嚴(yán)重依賴。

      (2) 文獻[43]在句法分析過程中孤立地在每個步驟應(yīng)用分類器進行移進和歸約決策,而沒有考慮每個移進—歸約決策的全局效果。文獻[24]雖然對文獻[43]的方法進行一些改進,但使用的解碼算法只是一個近似搜索算法,并不能在迭代過程中搜索出全局最優(yōu)的移進和歸約決策序列,且感知器并不是一個具有良好泛化性能的學(xué)習(xí)器,因而,該方法在理論上并沒有很強的、自然的保證。近來,文獻[47] 提出了一種新的基于搜索的結(jié)構(gòu)化預(yù)測學(xué)習(xí)算法SEARN,將復(fù)雜的結(jié)構(gòu)化預(yù)測問題轉(zhuǎn)換為簡單的代價敏感分類問題,且在理論上對該算法的有效性進行了分析和證明。因此,可以考慮將SEARN算法應(yīng)用到基于移進—歸約決策的句法分析模型上,相信能夠?qū)崿F(xiàn)一個性能良好的中文句法分析器。

      (3) 由于漢語缺乏形態(tài)變化,目前主流的中文句法分析所用的詞類標(biāo)記和短語標(biāo)記并不能反映其語法功能,而且相同條件下中英文句法分析的結(jié)果相差較大[48],因此,有必要進一步研究適合中文自身特點的句法分析器。陳小荷教授提出了徹底按照詞的語法功能來劃分漢語詞類[49]以及基于語法功能匹配句法分析的設(shè)想。文獻[50]通過實踐驗證了通過語法功能來處理詞語分類以及在句法中進行語法功能匹配是可行的?;谡Z法功能匹配的句法分析思想目前還處于探索階段,因此,這種將中文語法特點與一些句法分析模型相結(jié)合的研究,也將會是今后一個有意義的研究方向。

      致謝感謝英國劍橋大學(xué)Zhang Yue博士,與他的討論使我們受益匪淺。

      [1] Mitchell P Marcus, Mary Ann Marcinkiewicz, Beatrice Santorini. Building a Large Annotated Corpus of English:The Penn TreeBank [J]. Computational linguistics, 1993,19(2):313-330.

      [2] Naiwen Xue, Fei Xia, Fu-Dong Chiou, et al. The Penn Chinese Treebank:Phrase Structure Annotation of a Large Corpus [J]. Natural Language Engineering, 2005,11(2):207 -238.

      [3] 周強.漢語句法樹庫標(biāo)注體系[J].中文信息學(xué)報, 2004, 18(4):1-8.

      [4] Huang Chu-Ren, Keh-Jiann Chen, Feng-Yi Chen, et al. Sinica Treebank:Design Criteria,Annotation Guidelines, and On-line Interface[C]//Proceedings of the Chinese Language Processing Worshop. Stroudsburg: Association for Computational Linguistics, 2000:29-37.

      [5] E Black, S Abney, D Flickenger, et al. A Procedure for Quantitatively Comparing the Syntactic Coverage of English Grammars[C]//Proceedings of the DARPA Speech and Natural Language Workshop. Stroudsburg: Association for Computational Linguistics, 1991:306-311.

      [6] Eugene Charniak. Statistical parsing with a context-free grammar and word statistics[C]//Proceedings of the 14th National Conference on Artificial Intelligence. MenloPark: AAAI Press/MIT Press, 1997: 598-603.

      [7] Eugene Charniak. A maximum-entropy inspired parser[C]//Proceedings of NAACL 2000. San Francisco: Morgan Kaufmann Publishers, 2000:132-139.

      [8] Michael Collins. Head-Driven Statistical Models for Natural Language Parsing [D]. Philadelphia: University of Pennsylvania, 1999.

      [9] Michael Collins. Discriminative reranking for natural language parsing[C]//Proceedings of ICML 2000: 175-182.

      [10] Michael Collins, Nigel Duffy. New ranking algorithms for parsing and tagging: kernels over discrete structures, and the voted perceptron[C]//Proceedings of the ACL 2002. Stroudsburg: Association for Computational Linguistics, 2002:263-270.

      [11] Eugene Charniak, Mark Johnson. Coarse-to-fine n-best parsing and maxent discriminative reranking[C]//Proceedings of ACL 2005. Stroudsburg: Association for Computational Linguiscs, 2005:173-180.

      [12] Johnson Mark. PCFG models of linguistic tree representations [J]. Computations Linguistics, 1998,24(4):613-632.

      [13] Dan Klein, Christopher D Manning. Accurate Unlexicalized Parsing[C]//Proceedings of ACL 2003. Stroudsburg: Association for Computational Linguistics, 2003:423-430.

      [14] Slav Petrov, Leon Barrett, Romain Thibaux, et al. Learning accurate, compact, and interpretable tree annotation[C]//Proceedings of COLING-ACL 2006. Stroudsburg: Association for Computational Linguistics, 2006:443-440.

      [15] Slav Petrov, Dan Klein. Improved inference for unlexicalized parsing[C]//Proceedings of HLT-NAACL 2007. Rochester, 2007:404-411.

      [16] Taskar B, Klein D, Collins M, et al. Max-margin parsing[C]//Proceedings of EMNLP 2004. Barcelona, 2004.

      [17] Jenny Rose Finkel, Alex Kleeman, Christopher D Manning. Efficient, feature-based, conditional random field parsing[C]//Proceedings of ACL-HLT 2008. 959-967.

      [18] B Taskar, C Guestrin, D Koller. Max margin Markov networks[C]//Proceedings of NIPS 2003. Vancouver, 2003.

      [19] Turian J, Melamed ID. Constituent parsing by classification[C]//Proceedings of IWPT 2005. Stroudsburg: Association for Computational Linguistics, 2005.

      [20] Turian J, Melamed ID. Advances in discriminative parsing[C]//Proceedings of COLING-ACL 2006. Stroudsburg: Association for Computational Linguistics, 2006.

      [21] Kenji Sagae, Alon Lavie. A classifier-based parser with linear run-time complexity[C]//Proceedings of IWPT 2005: 125-132.

      [22] Magerman David M. Statistical Decision-Tree Models for Parsing[C]//Proceedings of ACL 1995. Stroudsburg: Association for Computational Linguistics, 1995:276-283.

      [23] Adwait Ratnaparkhi. A Linear Observed Time Statistical Parser Based on Maximum Entropy Models[C]//Proceedings of EMNLP 1997.

      [24] Yue Zhang, Stephen Clark. Syntactic Processing Using the Generalized Perceptron and Beam Search [J]. Computational Linguistics, 2011,37(1): 105-151.

      [25] Rens Bod. A computational model of language performance: data oriented parsing[C]//Proceedings of COLING 1992. Stroudsburg: Association for Computational Linguistics, 1992:855-859.

      [26] Rens Bod. Using an Annotated Corpus as a Stochastic Grammar[C]//Proceedings of the Sixth Conference of the European Chapter of the ACL. Stroudsburg: Association for Computational Linguistics, 1993:37-44.

      [27] Rens Bod. What is the minimal set of fragments that achieves maximal parse accuracy?[C]//Proceedings of ACL 2001. Stroudsburg: Association for Computational Linguistics, 2001.

      [28] Joshua Goodman. Efficient algorithms for parsing the DOP model[C]//Proceedings of EMNLP 1996: 143-152.

      [29] Rens Bod. An efficient implementation of a new DOP model[C]//Proceedings of EACL. Stroudsburg: Association for Computational Linguistics, 2003:19-26.

      [30] Mohit Bansal, Dan Klein. Simple, accurate parsing with an all-fragments grammar[C]//Proceedings of ACL 2010. Stroudsburg: Association for Computational Linguistics, 2010:1098-1107.

      [31] Federico Sangati, Willem Zuidema. Accurate Parsing with Compact Tree-Substitution Grammars: Double-DOP[C]//Proceedings of EMNLP 2011: 84-95.

      [32] Sima’an K. Computational Complexity of Probabilistic Disambiguation by Means of Tree Grammars[C]//Proceedings of COLING 1996.Stroudsburg: Association for Computational Linguistics, 1996:1175-1180.

      [33] Rens Bod. Parsing with the Shortest Derivation[C]//Proceedings of COLING [C]. Stroudsburg: Association for Computational Linguistics, 2000:69-75.

      [34] Remko Scha. Taaltheorie en taaltechnologie: competence en performance [C]//R. de Kort and G.L.J. Leerdam (eds.): Computertoepassingen in de Neerlandistiek. Almere: LVVN, 1990:7-22.

      [35] John Henderson, Eric Brill. Exploiting diversity in natural language processing: combining parsers[C]//Proceedings of EMNLP 1999: 187-194.

      [36] Kenji Sagae, Alon Lavie. Parser combination by reparsing[C]//Proceedings of NAACL 2006. Stroudsburg: Association for Computational Linguistics, 2006:129-132.

      [37] Hui Zhang, Min Zhang, Chew Lim Tan, et al. K-Best Combination of Syntactic Parsers[C]//Proceedings of EMNLP 2009. Stroudsburg: Association for Computational Linguistics, 2009:1552-1560.

      [38] 林穎,史曉東,郭峰. 一種基于概率上下文無關(guān)文法的漢語句法分析[J].中文信息學(xué)報, 2006,20(2):1-7.

      [39] Daniel M Bikel. On the parameter space of generative lexicalized statistical models [D]. Philadelphia: University of Pennsylvania, 2004.

      [40] Deyi Xiong, Shuanglong Li, Qun Liu, et al.Parsing the Penn Chinese Treebank with semantic knowledge[C]//Proceedings of IJCNLP 2005: 70-81.

      [41] 曹海龍. 基于詞匯化統(tǒng)計模型的漢語句法分析研究[D].哈爾濱:哈爾濱工業(yè)大學(xué), 2006.

      [42] 張浩, 劉群, 白碩.結(jié)構(gòu)上下文相關(guān)的概率句法分析[C]//第一屆學(xué)生計算語言學(xué)研討會.北京:北京大學(xué),2002.

      [43] Mengqiu Wang, Kenji Sagae, Teruko Mitamura. A fast, accurate deterministic parser for Chinese[C]//Proceedings of COLING/ACL. Stroudsburg: Association for Computational Linguistics, 2006:425-432.

      [44] Li Junhui, Zhou Guodong, Ng Hwee Tou. Syntactic Parsing with Hierarchical Modeling[C]//Proceedings of AIRS 2008: 561-566.

      [45] Li Junhui, Zhou Guodong, Ng Hwee Tou. Joint Syntatic and Semantic Parsing of Chinese[C]//Proceedings of ACL 2010. Stroudsburg: Association for Computational Linguistics, 2010:1108-1117.

      [46] Zhiguo Wang, Chengqing Zong. Phrase Structure Parsing with Dependency Structure[C]//Proceedings of COLING 2010. Stroudsburg: Association for Computational Linguistics, 2010:1292-1300.

      [47] Hal Daumé III, Langford J, Marcu D. Search-based structured prediction [J]. Machine Learning, 2009,75(3):297-325.

      [48] Daniel M. Bikel. Two Statistical Parsing Models Applied to the Chinese Treebank[C]//Proceedings of the Second Chinese Language Processing Workshop. Stroudsburg: Association for Computational Linguistics, 2000:1-6.

      [49] 陳小荷. 從自動句法分析角度看漢語詞類問題[J]. 語言教學(xué)與研究,1999.

      [50] 徐艷華. 現(xiàn)代漢語實詞語法功能考察及詞類體系重構(gòu)[D].南京:南京師范大學(xué),2006.

      猜你喜歡
      子樹短語準(zhǔn)確率
      黑莓子樹與烏鶇鳥
      一種新的快速挖掘頻繁子樹算法
      乳腺超聲檢查診斷乳腺腫瘤的特異度及準(zhǔn)確率分析
      健康之家(2021年19期)2021-05-23 11:17:39
      不同序列磁共振成像診斷脊柱損傷的臨床準(zhǔn)確率比較探討
      2015—2017 年寧夏各天氣預(yù)報參考產(chǎn)品質(zhì)量檢驗分析
      書本圖的BC-子樹計數(shù)及漸進密度特性分析?
      高速公路車牌識別標(biāo)識站準(zhǔn)確率驗證法
      基于覆蓋模式的頻繁子樹挖掘方法
      浦江县| 阳信县| 九台市| 玉树县| 阿拉善左旗| 吉隆县| 汤阴县| 方山县| 务川| 汪清县| 海口市| 清水河县| 马龙县| 桃园县| 新泰市| 海晏县| 宁蒗| 城步| 二手房| 双鸭山市| 沾化县| 洮南市| 江陵县| 弥勒县| 吉首市| 乡城县| 沅陵县| 彭泽县| 余江县| 平罗县| 城步| 开封县| 黄石市| 应城市| 海丰县| 桐柏县| 天门市| 余江县| 丰顺县| 高青县| 司法|