龍從軍,劉匯丹,吳 健
(1. 中國社會科學(xué)院 民族學(xué)與人類學(xué)研究所,北京 100081; 2. 中國科學(xué)院 軟件研究所,北京 100190)
藏語音節(jié)標(biāo)注研究
龍從軍1,2,劉匯丹2,吳 健2
(1. 中國社會科學(xué)院 民族學(xué)與人類學(xué)研究所,北京 100081; 2. 中國科學(xué)院 軟件研究所,北京 100190)
藏語的“音節(jié)”在詞匯語法研究和文本信息處理研究中都十分重要,尤其在解決未登錄詞切分問題和標(biāo)注中能夠發(fā)揮積極的作用。然而在現(xiàn)有的研究中,對音節(jié)的重視還不夠。該文提出在文本標(biāo)注時,可以先進(jìn)行音節(jié)的性質(zhì)標(biāo)注,然后通過音節(jié)構(gòu)詞的規(guī)律預(yù)測復(fù)合詞的詞性,尤其是未登錄詞的詞性。該文作者對藏語音節(jié)的定義進(jìn)行了界定,提出音節(jié)的性質(zhì)分類及標(biāo)注原則,利用統(tǒng)計(jì)模型,在約24萬音節(jié)的中小學(xué)語文教材語料庫上進(jìn)行實(shí)驗(yàn),音節(jié)性質(zhì)標(biāo)注的正確率為93.520 8%。在此基礎(chǔ)上,把音節(jié)性質(zhì)標(biāo)注信息用到詞性標(biāo)注中。實(shí)驗(yàn)結(jié)果表明: 即使在音節(jié)性質(zhì)標(biāo)注存在一定錯誤的情況下,詞性標(biāo)注的正確率也提高到94.196 7%;如果在保證音節(jié)性質(zhì)標(biāo)注完全正確的情況下,詞性標(biāo)注的正確率可以提高到97.775 4%,這說明音節(jié)性質(zhì)標(biāo)注信息對詞性標(biāo)注有幫助。
藏語;藏語音節(jié);音節(jié)性質(zhì)標(biāo)注;音節(jié)性質(zhì)分類
Abstract: “Syllables” of Tibetan language are very important in vocabulary construction and text information processing, especially for solving the segmentation and annotation of OOVs. This paper proposes to tag the syllables, which can be applied to predict POS of compound words (especially OOVs) according to the rules of words-construction. This paper presents the definition of the Tibetan syllable, outlines and the principles of classification and labeling. The train and test texts are selected from teaching material of Tibetan language of primary and secondary schools, total 240K syllables. Experiments reveals a precision of 93.5208% for syllable tagging, upon which an improved 94.1967% accuracy for POS tagging can be reached. And given the gold-standard of syllable tagging, the accuracy of POS tagging will be improved to 97.775 4%.
Key words: Tibetan language; Tibetan syllable; syllable tagging; syllable classification
收稿日期: 2016-04-18 定稿日期: 2017-03-03
基金項(xiàng)目: 國家語委重點(diǎn)項(xiàng)目(ZDI135-17)
詞性標(biāo)注是為給定句子中的每個詞確定一個合適的詞性的過程。詞性標(biāo)注研究是自然語言處理的基礎(chǔ)內(nèi)容之一,它在語音識別、信息檢索等很多領(lǐng)域發(fā)揮著重要的作用。在分詞和詞性標(biāo)注研究中,未登錄詞是影響分詞或標(biāo)注正確率的重要因素。文獻(xiàn)[1]指出,在Bakeoff2003分詞評測中,在給定的四個語料庫基礎(chǔ)上進(jìn)行測評,未登錄損失詞造成的分詞精度損失比歧義切分造成的精度至少大10倍。藏語由于存在黏寫形式[2],未登錄詞造成的切分錯誤還會更多。同樣,在詞性標(biāo)注中,未登錄詞標(biāo)注錯誤也占據(jù)較大的比例?,F(xiàn)有的藏語詞性標(biāo)注模型基本上以詞為單位進(jìn)行標(biāo)注[3-5],由于用來訓(xùn)練標(biāo)注模型的語料庫比較小,未登錄詞的比例較高,標(biāo)注結(jié)果并不理想[6-7];而且各標(biāo)注系統(tǒng)在詞邊界劃分上也有分歧,不同系統(tǒng)的標(biāo)注結(jié)果往往不一致。在統(tǒng)一標(biāo)注語料庫缺失的情況下,各種標(biāo)注系統(tǒng)難以比較優(yōu)劣。近幾年,基于音節(jié)的方法在統(tǒng)計(jì)語言模型中發(fā)揮著積極的作用。在拼音線性文字研究方面,基于字符(letter)、子詞(subword)層級的統(tǒng)計(jì)語言模型不管在文本處理還是語音識別、文本語音轉(zhuǎn)換研究中都凸顯優(yōu)越性[8]。在漢、藏語文本處理研究中,研究者也廣泛采用了基于字位的統(tǒng)計(jì)分詞策略,并已經(jīng)取得了明顯的效果。因此,本文采用這種研究思路進(jìn)行藏語音節(jié)(通常指一個非黏寫形式的音節(jié))的音節(jié)性質(zhì)標(biāo)注。文章第二部分著重談藏語音節(jié)的概念、分類,第三部分主要講藏語音節(jié)性質(zhì)標(biāo)注的原則,第四部分描述標(biāo)注策略及結(jié)果分析。
2.2 藏語音節(jié)的性質(zhì)分類
古代藏語以單音節(jié)為主,大部分音節(jié)都有實(shí)意,這里所說的音節(jié)的性質(zhì)是指音節(jié)的語法類別性質(zhì),與詞的詞性類似。藏語的詞可以由單個音節(jié)構(gòu)成,也可以由多個音節(jié)構(gòu)成。漢語中把構(gòu)成合成詞的字稱為詞素或者語素,詞素可以分成名詞性詞素、動詞性詞素、形容詞性詞素等。藏語音節(jié)的性質(zhì)同樣可以分成名詞性音節(jié)、動詞性音節(jié)、形容詞性音節(jié)等。要標(biāo)注藏語音節(jié)的語法屬性,首先需要對它們進(jìn)行分類,經(jīng)過標(biāo)注實(shí)踐,我們對藏語音節(jié)進(jìn)行了如下分類。
(9) 前綴、后綴音節(jié)(f),指沒有詞匯意義,只有語法意義的音節(jié),如“pa”、“po”、“mo”、“bo”等。根據(jù)后綴所依附的音節(jié)的不同性質(zhì),可以分為nf(名詞性音節(jié)的綴)、vf(動詞性音節(jié)的綴)、af(形容詞性音節(jié)的綴)等。如果是前綴,則分別為fn、fv、fa等,但實(shí)際上藏語中的前綴非常少。
除了上述的音節(jié)之外,還有一部分表示語義、句法關(guān)系的格標(biāo)記和助詞,它們的分類如表1所示[9]。
表1 表示語法意義的音節(jié)分類及標(biāo)注標(biāo)記表
由此可見,藏語音節(jié)性質(zhì)標(biāo)注過程實(shí)際上是對同形多性進(jìn)行歧義消解的過程,每一個音節(jié)需要放置于合成詞、短語或句子中,才能夠得以正確標(biāo)注。根據(jù)這些特點(diǎn),本文作者在音節(jié)標(biāo)注時遵循了以下幾個原則。
(1) 考慮合成詞中音節(jié)的來源,這個原則在前文已經(jīng)交代。
(3) 遵循上下文原則,音節(jié)的標(biāo)注不是對孤立的音節(jié)或者獨(dú)立的合成詞中的音節(jié)進(jìn)行標(biāo)注,而是把音節(jié)置于文本的句子中考慮。尤其是單獨(dú)成詞或者具有某種語法意義的音節(jié),在確認(rèn)性質(zhì)的時候要結(jié)合上下文語境。例如,在確定格標(biāo)記時,不但要考慮格標(biāo)記相關(guān)的名詞性結(jié)構(gòu),還要考慮動詞的語義特性。
在現(xiàn)有的研究中,對藏語黏寫形式切分的方法主要有兩種: 基于規(guī)則的方法[11-12]和基于統(tǒng)計(jì)的方法[2,12-13]。在統(tǒng)計(jì)方法中,有采用分詞和黏寫切分一體化的四詞位和六詞位標(biāo)注方法,以及單獨(dú)先處理黏寫形式然后再進(jìn)行分詞的預(yù)處理方法,實(shí)驗(yàn)結(jié)果表明后者比前者稍好一些[3],因此本實(shí)驗(yàn)采用后一種方法處理黏寫音節(jié)。
4.2 語料選擇
4.3 模型選擇
音節(jié)性質(zhì)標(biāo)注實(shí)驗(yàn)采用了條件隨機(jī)場模型工具包。條件隨機(jī)場模型被廣泛使用在自然語言標(biāo)注研究中,尤其在序列標(biāo)注任務(wù)中表現(xiàn)突出。需要標(biāo)注的序列與標(biāo)注標(biāo)簽之間的概率可以采用式(1)計(jì)算。
(1)
對于藏語音節(jié)來說,X是藏語音節(jié)的序列,Y是對應(yīng)的音節(jié)性質(zhì)標(biāo)簽。fk是特征函數(shù),t是每個音節(jié)在當(dāng)前句子中的索引,Z(X)是歸一化因子,它用來保證Pλ(Y|X)滿足作為概率值的性質(zhì),其計(jì)算方法如式(2)所示。
(2)
如果將fk中的X和yt-1視為當(dāng)前的上下文h,將yt視為在當(dāng)前上下文環(huán)境中當(dāng)前觀察值的標(biāo)簽t,則概率模型和相應(yīng)的特征函數(shù)取自空間H×T,其中H表示所有可能的上下文或者任何預(yù)先定義的條件,而T是所有可能的標(biāo)簽集合,則特征函數(shù)可由式(3)定義,其中hi∈H,tj∈T。
(3)
條件隨機(jī)場模型不需要隱馬爾科夫模型所要求的嚴(yán)格獨(dú)立假設(shè),也克服了最大熵模型的標(biāo)記偏置的缺陷。它是在給定觀測序列的條件下定義整個類別標(biāo)記中單一標(biāo)記的聯(lián)合概率,而不是單單定義一個狀態(tài)分布概率。這個特點(diǎn)更符合自然語言的序列遞歸特點(diǎn)。
4.4 標(biāo)注實(shí)驗(yàn)及結(jié)果分析
在實(shí)驗(yàn)中,語料庫按照1∶4的比例分配,隨機(jī)抽取3 983句作為測試語料,其余15 952句作為訓(xùn)練語料,獲得模型大小為215MB。測試結(jié)果分別采用正確率來度量。本實(shí)驗(yàn)語料情況如表 2所示。
表2 語料情況
我們采用五個上下文窗口進(jìn)行訓(xùn)練,分別進(jìn)行詞性標(biāo)注、音節(jié)性質(zhì)標(biāo)注,以及使用帶音節(jié)性質(zhì)信息的詞性標(biāo)注實(shí)驗(yàn),實(shí)驗(yàn)的統(tǒng)計(jì)數(shù)據(jù)如表3所示。
表3 實(shí)驗(yàn)數(shù)據(jù)
注: 標(biāo)準(zhǔn)音節(jié)性質(zhì)是指正確標(biāo)注的音節(jié)性質(zhì)。
從表3中可以看出,單獨(dú)進(jìn)行音節(jié)性質(zhì)標(biāo)注,音節(jié)性質(zhì)標(biāo)注的正確率為93.520 8%;單獨(dú)進(jìn)行詞性標(biāo)注,正確率為93.014 3%;如果利用音節(jié)性質(zhì)標(biāo)注信息進(jìn)行詞性標(biāo)注,詞性標(biāo)注的正確率可以提高到94.196 7%,比不利用音節(jié)性質(zhì)信息直接進(jìn)行詞性標(biāo)注的方法提高了1.18%,在音節(jié)性質(zhì)標(biāo)注存在較多錯誤的情況下,仍然能夠提高詞性標(biāo)注的正確率,其原因可能是歧義音節(jié)的多個音節(jié)性質(zhì)雖然不同,但在構(gòu)詞時卻能形成相同的詞性,因而仍然有利于詞性標(biāo)注。在保證音節(jié)性質(zhì)標(biāo)注完全正確的情況下,利用正確的音節(jié)性質(zhì)信息,詞性標(biāo)注的正確率提高到97.78%,正確率提高了4.77%。也就是說,如果音節(jié)性質(zhì)信息完全正確,可以極大地提高詞性標(biāo)注的正確率。
本文進(jìn)行了基于音節(jié)的音節(jié)性質(zhì)標(biāo)注研究,對音節(jié)進(jìn)行了定義、分類,闡述了標(biāo)注的原則;構(gòu)建了約24萬音節(jié)的中小學(xué)藏語文教材標(biāo)注語料庫。經(jīng)過實(shí)驗(yàn)得到了音節(jié)標(biāo)注模型,測試結(jié)果正確率達(dá)到了93.520 8%。經(jīng)分析錯誤例子得知,大部分標(biāo)注錯誤是由于標(biāo)注語料的不一致性引起的。由于藏語音節(jié)性質(zhì)標(biāo)注研究在藏語文本信息處理中還沒有報道過,本文的研究對藏語構(gòu)詞法研究、未登錄詞識別與標(biāo)注、基于音節(jié)的語言模型的構(gòu)造都具有積極的意義。
[1] 黃昌寧,趙海.中文分詞十年回顧[J].中文信息學(xué)報,2007,21(3): 8-19.
[2] 康才畯,龍從軍,江荻.基于詞位的藏文黏寫形式的切分[J].計(jì)算機(jī)工程與應(yīng)用, 2014(11): 218-222.
[3] 史曉東,盧亞軍.央金藏文分詞系統(tǒng)[J].中文信息學(xué)報,2011,25(4): 54-56.
[4] 于洪志,李亞超,汪昆,等.融合音節(jié)特征的最大熵藏文詞性標(biāo)注研究[J].中文信息學(xué)報,2013, 27(5): 160-165.
[5] 康才畯.藏語分詞與詞性標(biāo)注研究[D].上海師范大學(xué)博士學(xué)位論文, 2014: 53.
[6] 于洪志,李亞超,汪昆,等.融合音節(jié)特征的最大熵藏文詞性標(biāo)注研究[J]. 中文信息學(xué)報, 2013, 27(5): 160-165.
[7] 華卻才讓,劉群,趙海興,等.判別式藏語文本詞性標(biāo)注研究[J].中文信息學(xué)報, 2014, 28(2): 56-60.
[8] Tomá?Mikolov, IlyaSutskever, Hai-Son Leetc. Subword language modeling with neural networks[EB/OL]. www.fit.vutbr.cz /~imikolov/ rnnlm/char.pdf.
[9] 趙小兵,孫媛,龍從軍,等.藏文拉丁轉(zhuǎn)寫、分詞和詞性分類規(guī)范: 信息處理用現(xiàn)代藏語分詞規(guī)范(草案)[M].北京: 商務(wù)印書館, 2015: 1-10.
[10] 張濟(jì)川. 藏語詞族研究: 古代藏族如何豐富發(fā)展他們的詞匯[M].北京: 社會科學(xué)文獻(xiàn)出版社,2009: 207.
[11] 才智杰.藏文自動分詞系統(tǒng)中緊縮詞的識別[J].中文信息學(xué)報,2009,23(1): 35-37, 43.
[12] 劉匯丹,藏文分詞及文本資源挖掘研究[D],中國科學(xué)院博士學(xué)位論文,2012: 46.
[13] Congjun Long, Caijun Kang, Di Jiang. The comparative research on the segmentation strategies of Tibetan bounded variant forms[C]//Proceedings of the Asian Language Processing(IALP), 2013 International Conference on DOI: 10.1109/IALP,2013 : 243-246.
龍從軍(1978—),博士,副研究員, 主要研究領(lǐng)域?yàn)椴卣Z計(jì)算語言學(xué)。
E-mail: longcj@cass.org.cn
劉匯丹(1982—),博士,副研究員,主要研究領(lǐng)域?yàn)樽匀徽Z言處理、多語言信息處理。
E-mail: huidan@iscas.ac.cn
吳健(1962—),研究員,主要研究領(lǐng)域?yàn)椴僮飨到y(tǒng)中文信息處理、多語言信息處理。
E-mail: wujian@iscas.ac.cn
Research on Tagging of Tibetan Syllables
LONG Congjun1,2, LIU Huidan2, WU Jian2
(1. Institute of Ethnology and Anthropology, Chinese Academy of Social Sciences, Beijing 100081,China;2. Institute of Software, Chinese Academy of Sciences, Beijing 100190, China)
1003-0077(2017)04-0089-05
文獻(xiàn)標(biāo)志碼: A