楊振鵬
(南京財(cái)經(jīng)大學(xué)紅山學(xué)院,江蘇 南京 210003)
近年來,依存句法分析發(fā)展迅速,已經(jīng)成為自然語言處理方面的熱點(diǎn)問題。國際上著名的自然語言處理會(huì)議CoNLL曾多次在會(huì)議的shared task中涉及依存句法分析問題。目前,針對(duì)依存句法分析的研究越來越多,技術(shù)也日趨成熟,依存句法分析器也得到了快速發(fā)展?;跐h語的依存句法分析起步較晚,2012年Che等人對(duì)漢語句法分析器進(jìn)行了分析和研究,而此次研究是在斯坦福依存規(guī)則下開展的。雖然漢語依存句法分析起步較晚,但發(fā)展迅速,已經(jīng)有多種依存句法分析器產(chǎn)生,而且大部分都適用于漢語依存分析的研究。目前,常用的、技術(shù)較為成熟的依存句法分析器主要有:斯坦福依存句法分析器、復(fù)旦大學(xué)依存句法分析器、哈工大依存句法分析器和最大生成樹依存句法分析器。
本文首先介紹了語料的預(yù)處理方法及結(jié)果的評(píng)測(cè)標(biāo)準(zhǔn);然后對(duì)四類依存句法分析器進(jìn)行了詳細(xì)介紹,重點(diǎn)對(duì)各分析器所采用的模型和算法進(jìn)行了分析和對(duì)比;最后,總結(jié)了現(xiàn)有依存句法分析存在的問題,并對(duì)未來依存句法分析的發(fā)展進(jìn)行了展望。
就目前而言,還沒有比較成熟的依存樹庫的存在,盡管2002年Rambow等人曾做過早期的努力。由于句法分析發(fā)展較早,句法分析技術(shù)更為成熟,而且英語一直是研究的主流,因此英語的句法分析樹庫已經(jīng)存在,并且日趨成熟。目前,英語中最大的樹庫是賓州樹庫,樹庫在句法分析中也引入了依存分析器,從而實(shí)現(xiàn)了依存句法分析。漢語的研究起步晚,漢語句法分析中,應(yīng)用最廣的是中文賓州樹庫(Chinese Treebank,CTB)。隨著漢語應(yīng)用的推廣擴(kuò)大,針對(duì)漢語的依存句法研究也成為研究的熱點(diǎn)問題。Cheng等人曾在2003年就開展了漢語依存分析的研究,分別在CKIP樹庫和CTB樹庫上進(jìn)行了依存分析的實(shí)驗(yàn)。實(shí)驗(yàn)時(shí),將普通的句法分析結(jié)構(gòu)轉(zhuǎn)換為依存分析結(jié)構(gòu),并根據(jù)樹形結(jié)構(gòu)中的依存關(guān)系進(jìn)行依存分析,實(shí)驗(yàn)取得了良好的效果。
目前,大部分的基于漢語的依存分析都采用了CTB,但CTB中的數(shù)據(jù)資源采用的是傳統(tǒng)的句法分析結(jié)構(gòu)也就是短語結(jié)構(gòu),不能夠直接得到相應(yīng)的依存分析結(jié)構(gòu)。因此,對(duì)漢語進(jìn)行依存分析之前,應(yīng)先進(jìn)行結(jié)構(gòu)轉(zhuǎn)換,即將短語結(jié)構(gòu)轉(zhuǎn)換為依存結(jié)構(gòu)。結(jié)構(gòu)轉(zhuǎn)換的思想最早應(yīng)用于英語的依存句法分析之中,Richard等人提出了利用中心詞映射規(guī)則進(jìn)行結(jié)構(gòu)轉(zhuǎn)換,這種轉(zhuǎn)換方式被后續(xù)研究者所廣泛采用。黨政法和周強(qiáng)在2005年進(jìn)行了漢語的依存研究,采用了中心詞映射規(guī)則實(shí)現(xiàn)了短語樹到依存樹的自動(dòng)轉(zhuǎn)換。李正華、車萬翔、劉挺等人在2008年也做過漢語依存分析的轉(zhuǎn)換研究,提高了短語結(jié)構(gòu)樹庫向依存結(jié)構(gòu)樹庫轉(zhuǎn)換的正確率。
實(shí)驗(yàn)采用的語料為CTB5.0,基于中心詞映射規(guī)則對(duì)語料進(jìn)行規(guī)范化處理,然后利用Penn2Malt工具進(jìn)行依存結(jié)構(gòu)的轉(zhuǎn)換。轉(zhuǎn)換結(jié)果如下圖所示:
圖1 CTB短語結(jié)構(gòu)
圖2轉(zhuǎn)換后的依存結(jié)構(gòu)
性能評(píng)測(cè)是判斷一個(gè)分析器好壞的重要標(biāo)準(zhǔn),目前句法分析中最常用的評(píng)測(cè)方法是PARSEVAL。該評(píng)測(cè)體系有兩個(gè)基本的評(píng)測(cè)指標(biāo):句法分析的精確率和召回率。具體表示如下:
對(duì)基于語料的依存句法分析系統(tǒng),不再使用召回率,而是根據(jù)標(biāo)記情況的不同,提出了兩種正確率:無標(biāo)記依存精確率(unlabeledattachmentscore,UAS)和帶標(biāo)記依存精確率(labeledattachmentscore,LAS)。具體表示如下:
目前,技術(shù)較成熟、應(yīng)用較為廣泛的依存句法分析器有四個(gè):斯坦福依存句法分析器(StanfordParser)、復(fù)旦大學(xué)依存句法分析器(CTBParser)、哈工大依存句法分析器(GParser)和最大生成樹依存句法分析器(MSTParser)。
斯坦福大學(xué)擁有知名度較高的自然語言處理小組,其研究具有前瞻性,而且技術(shù)成熟,斯坦福依存句法分析器就由其設(shè)計(jì)完成。分析器是基于概率上下文無關(guān)文法(Probabilistic Context Free Grammar,PCFG)模型設(shè)計(jì)的,加入了詞匯化依賴。此分析器不僅包含了短語結(jié)構(gòu)的分析結(jié)果,也包含了依存結(jié)構(gòu)的分析結(jié)果。網(wǎng)址為:http://nlp.stanford.edu/software/lex-parser.shtml。
PCFG是在上下文無關(guān)語法(Context-free grammer,CFG)基礎(chǔ)上演化而來的,在CFG基礎(chǔ)上增加了概率因素,對(duì)分析的規(guī)則設(shè)置一個(gè)概率值。PCFG常被用于語法解析問題,而語法解析通常采用樹形結(jié)構(gòu),即將一個(gè)句子用語法解析樹的形式顯示,PCFG就是求取概率最大的語法樹(也稱最優(yōu)樹Tbest)。因此,基于PCFG的生成式句法分析模型成為當(dāng)前應(yīng)用最廣泛的分析模型,最優(yōu)樹Tbest計(jì)算如式(1)所示:
其中,代表聯(lián)合概率,其采用了規(guī)則概率乘積的求解方式,如式(2)所示:
PCFG雖然應(yīng)用廣泛,但也容易造成數(shù)據(jù)稀疏的問題。為解決這一問題,分析器中還引入了馬爾科夫模型(MarkovModel,MM),利用MM模型對(duì)規(guī)則進(jìn)行優(yōu)化。對(duì)分析中的規(guī)則對(duì)應(yīng)于MM過程,利用先生成根結(jié)點(diǎn),然后生成左結(jié)點(diǎn),最后生成右結(jié)點(diǎn)的順序進(jìn)行優(yōu)化。這種方式的處理很大程度地緩解了數(shù)據(jù)稀疏的問題。
斯坦福依存句法分析器為后續(xù)的科學(xué)研究提供了便利,Roger Levy和Christopher Manning曾在PCFG中引入最大似然估計(jì)因子,并在CTB上進(jìn)行實(shí)驗(yàn),實(shí)驗(yàn)取得了良好效果,F(xiàn)1值提高了1.9%,達(dá)到了82.6%。Pichuan Chang等人也利用斯坦福依存句法分析器進(jìn)行了實(shí)驗(yàn),在處理漢語的語法關(guān)系特征時(shí)引入了重排序(reranking)的方法,使得F1值提高到82.9%。
復(fù)旦大學(xué)也是開展自然語言處理研究較早的高校,其建立了一支高水平的自然語言處理小組,依存句法分析器由其設(shè)計(jì)完成。分析器是基于條件隨機(jī)場(chǎng)模型(Conditional Random Field,CRF)設(shè)計(jì)的,不僅在句法分析中采用了CRF模型,而且在分詞以及詞性標(biāo)注中均采用了CRF模型。用戶使用的靈活度更高,可以自行編輯相關(guān)詞條,擴(kuò)展了分析器的適用性,可以對(duì)繁體中文作處理。網(wǎng)址為:http://code.google.com/p/ctbparser/。
CRF模型與PCFG模型相比優(yōu)勢(shì)明顯,主要有兩方面的優(yōu)勢(shì):一是CRF模型對(duì)于特征的處理更加靈活,有效解決了特種處理中的標(biāo)記偏置問題;二是CRF模型作為典型的判別式模型,將最大熵模型(MaxEnt)和隱馬爾可夫模型(Hidden Markov Model,HMM)進(jìn)行了融合,取長(zhǎng)補(bǔ)短,特征融合、處理能力強(qiáng)。CRF模型在進(jìn)行句法分析時(shí),也引入了概率模式,采用了歸一化的方式對(duì)概率進(jìn)行了優(yōu)化。模型最優(yōu)樹采用了條件似然值進(jìn)行估算,候選句法樹的概率估算形式如下:
采用指數(shù)形式來求解團(tuán)勢(shì)函數(shù):
訓(xùn)練數(shù)據(jù)的log似然值為:
特征和模型之間期望的差值是似然值對(duì)的θi偏導(dǎo)數(shù):
復(fù)旦大學(xué)依存句法分析器在樹形結(jié)構(gòu)查詢中優(yōu)勢(shì)明顯,采用了二維查找樹(2D Trie)來降低分析器的運(yùn)行時(shí)間,與傳統(tǒng)查找方法相比,運(yùn)行速度提高了4.3倍。
哈爾濱工業(yè)大學(xué)設(shè)立了語言技術(shù)平臺(tái)LTP(Language Technology Platform),主要開展自然語言處理領(lǐng)域的研究工作,哈工大依存句法分析器則是LTP平臺(tái)的一項(xiàng)研究成果。分析器采用了多種模型進(jìn)行語料的分析和處理,采用CRF模型處理分詞模塊,采用支持向量機(jī)模型(Support Vector Machine,SVM)處理詞性標(biāo)注模塊,采用最大熵模型來完成命名實(shí)體識(shí)別(Named Entity Recognition,NER)。哈工大設(shè)計(jì)的依存句法分析器(Graph-Based Parser,GParser)是基于圖模型實(shí)現(xiàn)的,采用最大熵模型實(shí)現(xiàn)了語義角色標(biāo)注(Semantic Role Labeling,SRL)。網(wǎng)址為:http://ir.hit.edu.cn/ltp/。
McDonald將依存分析問題轉(zhuǎn)化為在有向圖中尋找最大生成樹(Maximum Spanning Tree,MST)的問題,這是首次提出基于圖的依存分析方法。其原理為:針對(duì)圖中可能輸出的每一種結(jié)果樹,都給定一個(gè)評(píng)分,然后利用動(dòng)態(tài)規(guī)劃思想,找到評(píng)分最大的那棵樹。
基于圖的依存分析方法實(shí)際為求解弧的最大評(píng)分的過程:
其中,X代表句子輸入,Y代表候選依存樹,xi→xj代表詞i到詞j的依存弧,Φ(x)代表輸入X對(duì)應(yīng)的可能依存樹的集合。
最大生成樹依存句法分析器也是基于圖模型實(shí)現(xiàn)的,分析器是由Ryan McDonald和Jason Baldrige設(shè)計(jì)完成,分析器采用最大邊緣的決策式訓(xùn)練模型,是一種非投射性的判別式依存句法分析器。網(wǎng)址為:http://www.seas.upenn.edu/~strctlrn/MSTParser/MSTParser.html。
MSTParser是采用條件概率模型,為圖中每一條邊設(shè)置一個(gè)得分,這樣將尋找最優(yōu)依存樹的過程轉(zhuǎn)化為求解得分最高生成樹的過程。得分的設(shè)置通過特征向量以及權(quán)重向量之間的點(diǎn)規(guī)則來實(shí)現(xiàn),具體表示如下:
其中,x為輸入的句子,y為輸出中的依存樹,s表示得分,(i,j)是依存關(guān)系中的結(jié)點(diǎn)對(duì)。f(i,j)是值為1或者0的二元特征向量,表示結(jié)點(diǎn)xi和xj之間的是否存在依存關(guān)系,1代表存在依存關(guān)系,0代表不存在依存關(guān)系。例如:“開”和“門”,則 f(i,j)=1,否則,f(i,j)=0。
最大生成樹算法已經(jīng)被廣泛使用,成為研究的熱點(diǎn)問題。其中,經(jīng)典的Chu-Liu-Edmonds算法成為最常用、最高效的最大生成樹算法。周惠巍、黃德根等人將最大生成樹算法與決策式解析算法相結(jié)合,采用優(yōu)勢(shì)互補(bǔ)的原理進(jìn)行中文依存句法分析研究。研究利用Nivre模型進(jìn)行依存分析,并根據(jù)依存度對(duì)最大生成樹有向邊進(jìn)行重新打分,再重復(fù)最大生成樹的求解過程,結(jié)果作為最后的依存樹。實(shí)驗(yàn)采用十折交叉測(cè)試的方法,對(duì)CTB中的4500句中文進(jìn)行分析,F(xiàn)1精確率達(dá)到了86.49%。
為了便于比較分析,本文采用CTB5.0作為語料,對(duì)四種依存句法分析器進(jìn)行性能測(cè)試,表1列出了各種句法分析方法在CTB5.0上的句法分析性能。
表1依存句法分析器性能比較
最大生成樹依存分析器效果最好,復(fù)旦大學(xué)依存句法分析器效果次之,斯坦福依存句法分析器和哈爾濱工業(yè)大學(xué)依存句法分析器效果較差。最大生成樹作為經(jīng)典的算法,研究較多,技術(shù)較為成熟;利用弧的評(píng)分來計(jì)算最后輸出結(jié)果的評(píng)分,準(zhǔn)確率較高,但當(dāng)搜索空間較大時(shí),耗時(shí)較多。CTBParser利用CRF模型進(jìn)行依存句法分析,對(duì)特征的融合能力比較強(qiáng),可以結(jié)合多種特征方面的優(yōu)勢(shì),識(shí)別效果較好。StanfordParser所用的PCFG方法,易于長(zhǎng)距離句子的分析,對(duì)于短距離句子的分析,則效果較差。哈工大依存句法分析器雖然也是采用最大生成樹算法,但是其分詞和詞性標(biāo)注正確率較低。
近年來,依存句法分析發(fā)展迅速,依存句法分析技術(shù)也日趨成熟,現(xiàn)有的依存句法分析的研究仍存在一些問題亟待解決。
(1)結(jié)構(gòu)轉(zhuǎn)換:句法結(jié)構(gòu)和依存結(jié)構(gòu)之間需要進(jìn)行轉(zhuǎn)換。目前而言,轉(zhuǎn)換的準(zhǔn)確率還不是很高,主要是因?yàn)榫渥拥慕Y(jié)構(gòu)通常較為復(fù)雜,如動(dòng)詞和動(dòng)名詞結(jié)構(gòu)、同位結(jié)構(gòu)等,算法處理準(zhǔn)確率不高,進(jìn)而影響轉(zhuǎn)換的準(zhǔn)確率。
(2)訓(xùn)練算法的改進(jìn):目前的訓(xùn)練算法比較單一,應(yīng)考慮多種算法和模型進(jìn)行多重訓(xùn)練,以提高算法的準(zhǔn)確率。
(3)完善語料庫信息:語料庫是依存句法分析的基礎(chǔ)條件,目前語料庫的信息相對(duì)比較陳舊,應(yīng)擴(kuò)充語料庫,增加一些新型結(jié)構(gòu)的語料,同時(shí)針對(duì)新型結(jié)構(gòu)語料進(jìn)行對(duì)應(yīng)的分析處理。
由于英語的依存句法分析研究較早,相關(guān)技術(shù)已經(jīng)比較成熟,因此漢語研究中,許多研究都借鑒了英語的研究方法甚至是研究成果,雖然提高了漢語演技的速度,但也造成了一些適應(yīng)性的問題。由于漢語和英語存在語法、語義等方面的問題,因此原樣的生搬硬套不會(huì)取得實(shí)質(zhì)性的進(jìn)展。雖然中文依存句法分析近幾年發(fā)展迅速,國內(nèi)外學(xué)者也進(jìn)行了很多研究和探索,但發(fā)展之路任重而道遠(yuǎn)。對(duì)于目前漢語依存的發(fā)展,筆者有幾點(diǎn)看法:
(1)研究要結(jié)合漢語自身的特點(diǎn)。就目前而言,大部分的研究都是基于英語的,英語的研究也相對(duì)成熟。雖然漢語研究中借鑒了很多英語的研究方法,比如統(tǒng)計(jì)模型和解碼算法等,但漢語本身結(jié)構(gòu)、句式較為復(fù)雜,應(yīng)結(jié)合漢語的自身特點(diǎn)開展研究,例如漢語中特殊語法結(jié)構(gòu)(倒裝句、疊詞等)的處理。
(2)提高分析算法的正確率和效率。算法的正確率是計(jì)算機(jī)各類問題研究中普遍存在的問題,而依存句法分析算法的性能也直接影響最終的結(jié)果。目前常用的算法(CRF、PCFG、MST等)雖然相對(duì)比較成熟,但仍有可以改進(jìn)和提升的空間,應(yīng)加以研究以提升其算法的性能。
(3)利用語法、語義等方面知識(shí)構(gòu)建聯(lián)合模型來提高依存分析的正確率。最近幾年許多國內(nèi)外學(xué)者開始嘗試使用聯(lián)合模型來進(jìn)行依存分析。李正華等人建立漢語詞性標(biāo)注和依存分析的聯(lián)合模型;在2012年,Jun Hatori等人又提出將詞義也加入到依存的分析當(dāng)中,構(gòu)建的詞義、詞性標(biāo)注和依存分析的聯(lián)合模型。聯(lián)合模型開辟了一種新的思路,可以成為我們研究的一種方向。
太原城市職業(yè)技術(shù)學(xué)院學(xué)報(bào)2018年12期