于洪志,李亞超,汪 昆,冷本扎西
(1.西北民族大學(xué) 中國(guó)民族語(yǔ)言文字信息技術(shù)重點(diǎn)實(shí)驗(yàn)室,甘肅 蘭州730030;2.中國(guó)科學(xué)院自動(dòng)化研究所 模式識(shí)別國(guó)家重點(diǎn)實(shí)驗(yàn)室,北京100190)
詞性標(biāo)注是根據(jù)詞語(yǔ)的上下文信息,判定詞語(yǔ)詞性的過(guò)程,是自然語(yǔ)言處理中一項(xiàng)非常重要的基礎(chǔ)性工作,被廣泛應(yīng)用于機(jī)器翻譯、語(yǔ)音識(shí)別、信息檢索等領(lǐng)域[1]。近幾十年來(lái)研究者開展了基于隱馬爾科夫(Hidden Markov Model,HMM),支持向量機(jī)(Support Vector Machine,SVM),最大熵(Maximum Entropy,ME),條件隨機(jī)場(chǎng)(Conditional Random Fields,CRF)等模型的詞性標(biāo)注研究。最大熵模型能夠融合復(fù)雜的特征,在英語(yǔ)、漢語(yǔ)等語(yǔ)言詞性標(biāo)注研究中取得了較好的效果,并在形態(tài)變化較多的蒙古文詞性標(biāo)注中得到成功運(yùn)用[2]。
漢語(yǔ)、英語(yǔ)等語(yǔ)言的詞性標(biāo)注研究較為成熟,標(biāo)注準(zhǔn)確度基本達(dá)到了可以實(shí)用的程度。已有詞性標(biāo)注方法可以分為基于規(guī)則方法和基于統(tǒng)計(jì)方法?;谝?guī)則方法提出時(shí)間較早,基本思想為按照兼類詞搭配關(guān)系和上下文語(yǔ)境構(gòu)建詞類消歧規(guī)則[3]。隨著標(biāo)注語(yǔ)料規(guī)模的增大,以人工方式提取規(guī)則的方法耗費(fèi)大量的人力、物力,并且詞性標(biāo)注系統(tǒng)在不同領(lǐng)域、不同語(yǔ)言之間的可移植性較弱,這是基于規(guī)則詞性標(biāo)注方法的主要不足之處。基于統(tǒng)計(jì)的詞性標(biāo)注方法適合處理大規(guī)模語(yǔ)料,并且可移植性很強(qiáng),成為漢語(yǔ)、英語(yǔ)等語(yǔ)言詞性標(biāo)注研究的主流方法,同時(shí)也取得了不錯(cuò)的效果。
藏文詞性標(biāo)注研究基礎(chǔ)薄弱,陳玉忠[4]在漢藏科技機(jī)器翻譯系統(tǒng)的研制中,首次對(duì)藏文詞語(yǔ)進(jìn)行了分類。蘇俊峰[5]研究了基于HMM的藏文詞性標(biāo)記方法,該系統(tǒng)封閉測(cè)試正確率達(dá)到88%~90%。羊毛卓么[6]采用HMM模型實(shí)現(xiàn)了一個(gè)藏文詞性標(biāo)注系統(tǒng),該系統(tǒng)對(duì)開放語(yǔ)料詞性標(biāo)記正確率達(dá)到89.56%。由于藏文詞性標(biāo)注語(yǔ)料規(guī)模有限及藏語(yǔ)語(yǔ)言本身的復(fù)雜性,已有公開的藏文詞性標(biāo)注準(zhǔn)確度在89%左右,并且都是在私有語(yǔ)料上取得的測(cè)試結(jié)果。從公開的實(shí)驗(yàn)結(jié)果來(lái)看,其標(biāo)注效果遠(yuǎn)低于漢語(yǔ)、英語(yǔ)等語(yǔ)言的詞性標(biāo)注效果,所以藏文詞性標(biāo)注研究任重道遠(yuǎn)。
本文提出一種融合藏文形態(tài)特征的最大熵藏文詞性標(biāo)注模型,根據(jù)藏文構(gòu)詞特征,定義上下文特征模板,并融合了上下文音節(jié)特征。實(shí)驗(yàn)結(jié)果表明,最大熵模型能夠較好的處理藏文詞性標(biāo)注問(wèn)題,音節(jié)特征能夠有效的提高藏文詞性標(biāo)注效果,與基準(zhǔn)系統(tǒng)相比使錯(cuò)誤率降低了6.4%。
論文的其余部分結(jié)構(gòu)安排如下:第2節(jié)闡述最大熵模型及特征選擇;第3節(jié)介紹本文所采用的藏文詞性標(biāo)注集;第4節(jié)給出實(shí)驗(yàn)數(shù)據(jù),并進(jìn)行實(shí)驗(yàn)結(jié)果分析;最后第5節(jié)為總結(jié)與展望。
最大熵模型最初由E T Jaynes在1950年提出,Della Pietra等[7]將其應(yīng)用于自然語(yǔ)言處理中。最大熵原理的基本思想是,首先利用給定的訓(xùn)練樣本,選擇一個(gè)與訓(xùn)練樣本一致的概率分布,它必須要滿足所有已知的事實(shí)。在沒有更多的約束和假設(shè)的情況下,對(duì)于那些不確定的部分,則會(huì)賦予均勻的概率分布。熵是用來(lái)表示隨機(jī)變量的不確定性,不確定性越大,熵越大,分布越均勻。最大熵模型如式(1)所示。
H(P)是模型P的熵,C是滿足條件約束的模型集合,下面需要尋求P*,P*的形式如式(2)所示。
Z(x)是歸一化常數(shù),表示形式如式(3)所示。λi為特征的權(quán)重參數(shù)。
使用最大熵模型對(duì)藏文進(jìn)行詞性標(biāo)注,即根據(jù)當(dāng)前詞x的上下文特征,確定當(dāng)前詞的詞類y,最重要的是確定合適的特征集合。
(1)常規(guī)特征,一個(gè)詞的詞性由其上下文環(huán)境決定,因此當(dāng)前詞的前后n個(gè)詞可以作為判斷當(dāng)前詞詞性的依據(jù)。
(2)藏文構(gòu)詞特點(diǎn),藏文屬于拼音文字,是一種形態(tài)豐富的語(yǔ)言,其語(yǔ)言范疇是以內(nèi)部屈折形式來(lái)表現(xiàn)的,如通過(guò)詞綴及附加詞綴的交替來(lái)表現(xiàn)動(dòng)詞的現(xiàn)在、將來(lái)、過(guò)去時(shí)和命令式,構(gòu)成自動(dòng)詞和使動(dòng)詞的對(duì)立等[8]。出現(xiàn)形態(tài)變化的往往是動(dòng)詞、名詞等實(shí)詞,而數(shù)詞和虛詞一般是沒有變化的。因此,在藏文詞性標(biāo)注中上下文詞和當(dāng)前詞的形態(tài)特征都是很重要的可以利用的信息。
根據(jù)對(duì)藏文構(gòu)詞特征和統(tǒng)計(jì)結(jié)果分析,本文共進(jìn)行了詞內(nèi)部特征,前后依存詞特征以及混合特征的藏文詞性標(biāo)注實(shí)驗(yàn)。
2.2.1 詞內(nèi)部特征
詞內(nèi)部特征表現(xiàn)一個(gè)詞內(nèi)部的變化,包括詞根信息和詞綴信息。以藏文動(dòng)詞為例,藏文動(dòng)詞的屈折形態(tài)可以分為兩類,同根類型和異根類型[9]。
同根類型指動(dòng)詞屈折變化的各個(gè)形式屬于同一個(gè)詞根,絕大多數(shù)屈折變化的動(dòng)詞屬于這一種形態(tài)。如,雕刻)”詞根是異根類型指的是屈折變化的各個(gè)形式不屬于同一詞根,這樣的動(dòng)詞占所有動(dòng)詞的比例很少,但是對(duì)一部分不規(guī)則動(dòng)詞識(shí)別具有重要的意義。
詞根不一定出現(xiàn)在詞首,很可能會(huì)出現(xiàn)在詞中的其他位置,例如,bcags-chags,行、走)”的詞根是“ ,cag(chag)”。因此,藏文詞匯的詞首、詞尾音節(jié)對(duì)于判斷藏文詞匯的詞類起著重要的作用。詞首音節(jié)特征函數(shù)定義為:
詞匯詞尾音節(jié)特征函數(shù)定義為:
詞內(nèi)部信息特征模板如表1所示。
表1 詞內(nèi)部特征
2.2.2 前后依存詞特征
前后依存詞特征表示藏文句子中與當(dāng)前詞緊密聯(lián)系的詞之間的關(guān)系,前后依存詞的相關(guān)信息可以在一定程度上解決兼類詞問(wèn)題。例如,句1它是支撐著所有知識(shí)的根基,充當(dāng)著所有語(yǔ)言的元素”,句2實(shí)踐一切所學(xué)的知識(shí))”中,知識(shí)、學(xué)習(xí))”在句1中為名詞,表示“知識(shí)”之義,在句2中為動(dòng)詞,表示“學(xué)習(xí)”之義。本文采用的前后依存詞特征如表2所示。
表2 前后依存詞信息特征模板
2.2.3 混合信息特征
根據(jù)藏文詞匯的形態(tài)變化以及構(gòu)詞特征,將當(dāng)前詞的詞首音節(jié)、詞尾音節(jié),前、后詞,前驅(qū)詞的詞尾音節(jié)、后繼詞的詞首音節(jié)等特征混合在一起,定義混合信息特征如表3所示。
表3 混合信息特征模板
藏文詞性標(biāo)注集沒有一個(gè)統(tǒng)一的規(guī)范,西藏大學(xué)、青海師范大學(xué)、西北民族大學(xué)均有自己的相關(guān)標(biāo)注規(guī)范。本文采用西北民族大學(xué)中國(guó)民族信息技術(shù)研究院祁坤鈺教授的藏文詞性標(biāo)注集。該標(biāo)注集在參照了《信息處理用現(xiàn)代漢語(yǔ)詞類標(biāo)記規(guī)范》的基礎(chǔ)上,根據(jù)藏語(yǔ)語(yǔ)法特點(diǎn)增加了一部分類別,共21個(gè)大類,61個(gè)子類,由于語(yǔ)料規(guī)模限制本文只進(jìn)行大類實(shí)驗(yàn)。
表4 藏文詞性標(biāo)注集
本文采用的藏語(yǔ)文小學(xué)課本標(biāo)注語(yǔ)料,由中國(guó)民族信息技術(shù)研究院組織標(biāo)注,語(yǔ)料統(tǒng)計(jì)如表5所示。
由于藏文詞性標(biāo)注語(yǔ)料嚴(yán)重缺乏,已有的詞性標(biāo)注語(yǔ)料數(shù)量較少,且覆蓋度差,語(yǔ)料的選擇會(huì)影響實(shí)驗(yàn)效果。為此,本文的測(cè)試語(yǔ)料從整體語(yǔ)料中隨機(jī)抽取。表6為訓(xùn)練、測(cè)試語(yǔ)料的詳細(xì)統(tǒng)計(jì)信息,可以看出,訓(xùn)練集和測(cè)試集中詞性分布基本相同,說(shuō)明本文實(shí)驗(yàn)中訓(xùn)練語(yǔ)料和測(cè)試語(yǔ)料較好的代表了藏文詞類分布特點(diǎn)。其中,名詞、動(dòng)詞、介詞、標(biāo)點(diǎn)符號(hào)、助詞等出現(xiàn)的比例較大。
表5 語(yǔ)料統(tǒng)計(jì)
表6 語(yǔ)料詳細(xì)統(tǒng)計(jì)
經(jīng)過(guò)統(tǒng)計(jì),在測(cè)試語(yǔ)料中未登錄詞主要是名詞、動(dòng)詞和數(shù)詞,所占比例分別為74%、8%、8%。
本文采用標(biāo)注準(zhǔn)確度對(duì)標(biāo)注結(jié)果進(jìn)行評(píng)價(jià),標(biāo)注準(zhǔn)確度定義如式(4)所示:
在本文實(shí)驗(yàn)中,采用張樂最大熵工具包①http://homepages.inf.ed.ac.uk/lzhang10/maxent_toolkit.html和CRF++(v0.51)②http://crfpp.googlecode.com/svn/trunk/doc/index.html實(shí)現(xiàn)最大熵模型和條件隨機(jī)場(chǎng)模型。根據(jù)第2節(jié)的分析,我們采用不同的特征進(jìn)行如下實(shí)驗(yàn),以下實(shí)驗(yàn)均采用表2所示的前后詞依存信息,不同的是音節(jié)特征,實(shí)驗(yàn)設(shè)置及實(shí)驗(yàn)結(jié)果見表7,其中表2所示的詞依存特征在下文中用T1表示。
表7 實(shí)驗(yàn)結(jié)果
實(shí)驗(yàn)1采用傳統(tǒng)的詞依存特征,取得90.32%的準(zhǔn)確度,為本文的基準(zhǔn)系統(tǒng)。實(shí)驗(yàn)2加入當(dāng)前詞詞首、尾音節(jié)特征后取得了90.89%的準(zhǔn)確度。相比實(shí)驗(yàn)1準(zhǔn)確度提高了0.57%,錯(cuò)誤率降低了5.9%,說(shuō)明音節(jié)特征對(duì)提高基于最大熵的藏文詞性標(biāo)注效果有較大的幫助。
實(shí)驗(yàn)3、4、5加入了當(dāng)前詞詞首、尾音節(jié)及前、后詞的音節(jié)等混合特征,其中實(shí)驗(yàn)4取得了最好的實(shí)驗(yàn)結(jié)果,實(shí)驗(yàn)3和實(shí)驗(yàn)5的實(shí)驗(yàn)結(jié)果低于實(shí)驗(yàn)2,說(shuō)明在混合特征中當(dāng)前詞詞首、尾音節(jié)與后繼詞詞首音節(jié)的混合特征可以提高基于音節(jié)特征的藏文詞性標(biāo)注結(jié)果。
實(shí)驗(yàn)4加入當(dāng)前詞詞首、尾音節(jié)和后繼詞的詞首音節(jié)特征,取得了最好的實(shí)驗(yàn)結(jié)果,比實(shí)驗(yàn)1的實(shí)驗(yàn)結(jié)果提高了0.62%,錯(cuò)誤率降低了6.4%。
為了對(duì)比最大熵與條件隨機(jī)場(chǎng)的實(shí)驗(yàn)效果,在下文中,采用條件隨機(jī)場(chǎng)、最大熵的詞性標(biāo)注結(jié)果分別表示為CRF、ME,采用的特征見表2,實(shí)驗(yàn)結(jié)果如表8所示。
從表8實(shí)驗(yàn)結(jié)果來(lái)看,基于ME的實(shí)驗(yàn)結(jié)果優(yōu)于基于CRF的實(shí)驗(yàn)結(jié)果,比基于CRF的詞性標(biāo)注實(shí)驗(yàn)結(jié)果高了約0.5%。雖然最大熵模型存在標(biāo)記偏置(label bias)問(wèn)題[10],而條件隨機(jī)場(chǎng)模型不存在這個(gè)問(wèn)題,但是從本文的實(shí)驗(yàn)結(jié)果來(lái)看,基于 ME的藏文詞性標(biāo)記實(shí)驗(yàn)結(jié)果較好。
表8 詞性標(biāo)注對(duì)比實(shí)驗(yàn)
從實(shí)驗(yàn)結(jié)果來(lái)看,標(biāo)點(diǎn)符號(hào)、介詞標(biāo)注結(jié)果較好,并且在各個(gè)模型之間實(shí)驗(yàn)結(jié)果很穩(wěn)定。標(biāo)點(diǎn)符號(hào)和介詞是封閉類(the close class),這類詞的數(shù)量比較固定,因此在實(shí)驗(yàn)中標(biāo)注效果較好。
終結(jié)詞是較為具有藏文特點(diǎn)的詞類,添加在一句話的末尾,表示語(yǔ)義上的結(jié)束。在藏文中一共有11個(gè)終結(jié)詞,是封閉類,但是可以當(dāng)作兼類詞。從實(shí)驗(yàn)結(jié)果來(lái)看,ME可以完全標(biāo)注出來(lái),而CRF對(duì)其識(shí)別效果不太好。
名詞、動(dòng)詞是開放的類,開放類的識(shí)別效果直接影響整體識(shí)別結(jié)果。從對(duì)比實(shí)驗(yàn)結(jié)果可以看出來(lái),CRF和ME對(duì)名詞識(shí)別效果較好,CRF對(duì)動(dòng)詞識(shí)別效果較好。
表9是基于最大熵的藏文詞性標(biāo)注錯(cuò)誤詳細(xì)分析,其中動(dòng)詞、名詞、形容詞和數(shù)詞的標(biāo)注錯(cuò)誤占了所有標(biāo)注錯(cuò)誤的很大比例。主要錯(cuò)誤為,形容詞標(biāo)注成了名詞、數(shù)詞和動(dòng)詞;數(shù)詞標(biāo)注成了名詞和助詞;動(dòng)詞標(biāo)注成了名詞和助詞;名詞主要標(biāo)注成形容詞,并且名詞可以標(biāo)注成連詞、副詞、終結(jié)詞、方位詞等。在表9中,以第一行為例,a表示當(dāng)前詞是形容詞,比例為9%,表示在所有的標(biāo)注錯(cuò)誤中,形容詞標(biāo)注錯(cuò)誤占了9%的比例,錯(cuò)誤原因中“72%n;11%m;11%d”表示在名詞標(biāo)注錯(cuò)誤中72%把a(bǔ)標(biāo)注為n,11%把a(bǔ)標(biāo)注為m,其余表示方法如上所示。
表9 ME標(biāo)注錯(cuò)誤
本文介紹了融合音節(jié)特征的最大熵藏文詞性標(biāo)注的研究工作,重點(diǎn)在于特征選擇上,根據(jù)藏文的形態(tài)特征,選取當(dāng)前詞詞首、尾音節(jié)和前驅(qū)詞詞尾音節(jié),后繼詞詞首音節(jié)等混合形態(tài)特征信息,構(gòu)建了藏文詞性標(biāo)注系統(tǒng)。實(shí)驗(yàn)結(jié)果表明最大熵可以為藏文這種豐富形態(tài)特征語(yǔ)言的詞性標(biāo)注提供一個(gè)有效的模型,來(lái)建模上下文信息,音節(jié)特征可以顯著提高藏文詞性標(biāo)注準(zhǔn)確度,在本文實(shí)驗(yàn)中取得了90.94%的準(zhǔn)確度,與基準(zhǔn)系統(tǒng)相比準(zhǔn)確度提高了0.62%,錯(cuò)誤率降低了6.4%。由于本文實(shí)驗(yàn)所使用語(yǔ)料規(guī)模有限,詞性標(biāo)注的整體效果有待進(jìn)一步提高。
在下一步工作中,我們希望更加深入的研究藏文詞匯的內(nèi)部結(jié)構(gòu)特征,對(duì)特征模板集進(jìn)行改進(jìn),通過(guò)對(duì)標(biāo)注結(jié)果的錯(cuò)誤分析,進(jìn)一步修正特征模板的定義,最終提高藏文詞性標(biāo)注結(jié)果。
[1]宗成慶.統(tǒng)計(jì)自然語(yǔ)言處理[M].清華大學(xué)出版社,2008.
[2]張貫虹,斯·勞格勞,烏達(dá)巴拉.融合形態(tài)特征的最大熵蒙古文詞性標(biāo)注模型[J].計(jì)算機(jī)研究與發(fā)展,2011,48(12):2385-2390.
[3]劉開瑛.中文文本自動(dòng)分詞和標(biāo)注[M].商務(wù)印書館,2000.
[4]陳玉忠,俞士汶.藏文信息處理技術(shù)的研究現(xiàn)狀與展望[J].中國(guó)藏學(xué),2003,04:97-107.
[5]蘇俊峰.基于HMM的藏語(yǔ)語(yǔ)料庫(kù)詞性自動(dòng)標(biāo)注研究[D].西北民族大學(xué)碩士學(xué)位論文,2010.
[6]羊毛卓么.藏文詞性自動(dòng)標(biāo)注系統(tǒng)的研究與實(shí)現(xiàn)[D].西藏大學(xué)碩士學(xué)位論文,2012.
[7]Adam L Berger,Stephen A DellaPietra,Vincent J Della Pietra.A Maximum Entropy Approach to Natural Language Processing[J].Computational Linguistics,1996,1(22):39-71.
[8]宋金蘭.藏語(yǔ)形態(tài)變體的分化[J].民族語(yǔ)文,2001,1:29-33.
[9]瞿靄堂.藏語(yǔ)動(dòng)詞屈折形態(tài)的結(jié)構(gòu)及其演變[J].民族語(yǔ)文,1985,1:1-15.
[10]J Lafferty,A McCallum,F(xiàn) Pereira.Conditional Random Fields:Probabilistic Models for Segmenting and Labeling Sequence Data[C]//Proceedings of ICML-2001,2001:282-289.