羊毛卓瑪
青海師范大學(xué)民族師范學(xué)院,青海海南 813000
藏文詞性自動(dòng)標(biāo)注中歧義問(wèn)題處理方法研究
羊毛卓瑪
青海師范大學(xué)民族師范學(xué)院,青海海南 813000
藏文詞性自動(dòng)標(biāo)注是藏文信息處理技術(shù)中的一項(xiàng)基礎(chǔ)性課題,它的研究成果不僅為機(jī)器翻譯、搜索引擎、網(wǎng)絡(luò)信息安全等諸多領(lǐng)域的研究奠定基礎(chǔ);也是藏文信息后續(xù)句法分析、語(yǔ)義分析及篇章分析必不可少的前提條件。藏文詞性標(biāo)注的研究是自然語(yǔ)言理解智能化的一項(xiàng)重要工作。因此,研究和實(shí)現(xiàn)藏文詞性自動(dòng)標(biāo)注系統(tǒng)具有重要的理論意義和實(shí)用價(jià)值。
藏文詞性自動(dòng)標(biāo)注的重點(diǎn)和難點(diǎn)是詞性歧義問(wèn)題的處理,即兼類詞的處理問(wèn)題。所謂兼類詞在理論上指的是有些詞具有兩類或兩類以上詞的句法分布特征,這些詞將屬于不同的詞類,簡(jiǎn)稱兼類[1]。兼類詞是影響藏文詞性自動(dòng)標(biāo)注的關(guān)鍵因素,也是自然語(yǔ)言處理中難以解決的棘手問(wèn)題及語(yǔ)法界存在爭(zhēng)論的焦點(diǎn)問(wèn)題。據(jù)對(duì)藏文中常用的詞典《藏漢大辭典》[2]、《新編藏文詞典》[3]和《藏文動(dòng)詞詞典》[4]合并去重后精選七萬(wàn)余詞條完成詞性標(biāo)注統(tǒng)計(jì),其中兼類詞有23 623個(gè),約占總詞數(shù)的32.36%。據(jù)對(duì)12萬(wàn)余字的人工標(biāo)注語(yǔ)料統(tǒng)計(jì),兼類詞出現(xiàn)詞次為60 481個(gè),約占語(yǔ)料總詞數(shù)的49.17%。數(shù)據(jù)表明:在藏文中兼類詞數(shù)量較多,且常用詞兼類現(xiàn)象嚴(yán)重。這給藏文詞性標(biāo)注及藏文信息處理后續(xù)的工作帶來(lái)了一定的難度。所以藏文詞性標(biāo)注的關(guān)鍵是解決兼類詞問(wèn)題。該文在基于HMM統(tǒng)計(jì)方法[5]的基礎(chǔ)上提出了符合藏文語(yǔ)法規(guī)則實(shí)用于藏文詞性標(biāo)注的詞性排岐處理方法。有效地提高了藏文詞性標(biāo)注正確率。
在藏文中,詞性的兼類現(xiàn)象普遍存在,尤其是常用詞的兼類現(xiàn)象給藏文詞性標(biāo)注帶來(lái)了很大困難。在12萬(wàn)余字的標(biāo)注語(yǔ)料中對(duì)藏文兼類詞特點(diǎn)及現(xiàn)象作了具體的分析。比如(例子來(lái)源《藏漢大辭典》):
根據(jù)對(duì)文中使用的詞庫(kù)和語(yǔ)料的統(tǒng)計(jì),藏文中兼類詞的分布情況如表1~表3所示。
表1 藏文兼類詞現(xiàn)象統(tǒng)計(jì)
表2 藏文兼類詞所占比例
表3 藏文中兼兩類詞示例
從表2數(shù)據(jù)可知,藏文兼類詞中,兼兩種詞性的兼類詞占多數(shù),所占比例如表3(本文采用的詞性標(biāo)記集[6])。
通過(guò)以上分析可以發(fā)現(xiàn):藏文本中兼類詞的數(shù)量較多,尤其常用詞的兼類現(xiàn)象嚴(yán)重,對(duì)后續(xù)句法分析造成直接的影響。隨著藏文信息處理的不斷研究,尤其是機(jī)器翻譯正在深入研究,兼類詞是一個(gè)無(wú)法回避的重點(diǎn)和難點(diǎn)問(wèn)題,詞性是一個(gè)詞的最重要的語(yǔ)法信息,如果一個(gè)詞的詞性無(wú)法確定,句法分析就無(wú)法進(jìn)行,如果一個(gè)詞賦予錯(cuò)誤的詞性,將導(dǎo)致嚴(yán)重的句法分析錯(cuò)誤,所以,兼類詞的處理在自然語(yǔ)言處理中有至關(guān)重要的意義。
3.1 詞綴造成的詞性歧義問(wèn)題
藏文本中后接成分(文獻(xiàn)[7]中有詳細(xì)介紹)具有較高出現(xiàn)頻率且組詞能力極強(qiáng),引用范圍也廣,又不能一一收入詞典。在藏文詞性自動(dòng)標(biāo)注處理中出現(xiàn)了“詞綴單切”現(xiàn)象。導(dǎo)致了標(biāo)注結(jié)果的正確率下降。該文結(jié)合藏文語(yǔ)法知識(shí)特點(diǎn)解決了藏文詞性自動(dòng)標(biāo)注中藏文后接成分的處理問(wèn)題。
圖1 專職詞識(shí)別流程圖
圖2 形容詞識(shí)別流程圖
3.2 詞的義項(xiàng)功能造成的詞性歧義問(wèn)題
規(guī)則處理的基本思想是利用上下文框架規(guī)則描述在特定的語(yǔ)境下一個(gè)多類詞到底應(yīng)標(biāo)上什么詞性標(biāo)記,這里的語(yǔ)境包括詞語(yǔ)信息、詞類信息甚至還有某個(gè)詞語(yǔ)的特征信息[8]。
藏文中虛詞出現(xiàn)的頻率很高且兼類現(xiàn)象嚴(yán)重。多數(shù)虛詞具有嚴(yán)格的語(yǔ)法規(guī)則與上下文關(guān)聯(lián),根據(jù)此特點(diǎn),可以設(shè)置規(guī)則完成對(duì)其排岐處理。
圖3 “”等識(shí)別流程圖
具體算法實(shí)現(xiàn)如下:
(1)讀取文本,進(jìn)行分詞;
(3)查兼類詞庫(kù)JLDictionary,如果找到轉(zhuǎn)(4);否則轉(zhuǎn)(6);
(6)標(biāo)記為未登錄詞(暫不研究);
(7)賦予兼類詞庫(kù)FJLDictionary中相應(yīng)的詞性;
(8)標(biāo)注為名詞n;
(9)輸出結(jié)果。
本文以藏文文學(xué)、民俗、網(wǎng)頁(yè)新聞,五省區(qū)中小學(xué)藏文教材為取材,整理后精選12萬(wàn)余字語(yǔ)料完成人工標(biāo)注,作為統(tǒng)計(jì)數(shù)據(jù)的來(lái)源,分析了藏文詞性標(biāo)注中兼類詞的特點(diǎn),并提出了解決兼類詞的方法。為了更好地評(píng)價(jià)藏文詞性自動(dòng)標(biāo)注的性能,本文采用詞性標(biāo)注正確率=(標(biāo)注結(jié)果正確詞數(shù)/語(yǔ)料總詞數(shù))×100%進(jìn)行計(jì)算。實(shí)驗(yàn)結(jié)果如表4所示。
表4 藏文詞性自動(dòng)標(biāo)注算法比較結(jié)果
本文提出的算法使藏文詞性標(biāo)注正確率在原有的基礎(chǔ)上提高了1.83%,證明了本文算法的實(shí)用性。
藏文自動(dòng)詞性標(biāo)注中詞性歧義問(wèn)題的解決對(duì)藏文詞性自動(dòng)標(biāo)注正確率起著重要的作用。本文通過(guò)藏文詞綴歸并后標(biāo)注等規(guī)則結(jié)合統(tǒng)計(jì)方法處理了藏文中出現(xiàn)頻率高的兼類詞排岐處理,提高了藏文詞性自動(dòng)標(biāo)注的正確率,為進(jìn)一步研究藏文信息處理后續(xù)的句法分析、語(yǔ)義分析、篇章分析奠定了基礎(chǔ)。
[1]黃德根,張麗靜.規(guī)則與統(tǒng)計(jì)相結(jié)合的兼類詞處理機(jī)制[J].小型微型計(jì)算機(jī)系統(tǒng),2003(7).
[2]張怡蓀.藏漢大辭典[M].北京:民族出版社,1993.
[3]編寫(xiě)組.新編藏文字典[M].西寧:青海民族出版社,2005.
[4]李永昌.藏文動(dòng)詞詞典[M].北京:民族出版社,2005.
[5]羊毛卓瑪.藏文詞性自動(dòng)標(biāo)注系統(tǒng)的研究與實(shí)現(xiàn)[D].拉薩:西藏大學(xué),2012.
[6]扎西加,歐珠,高定國(guó),等.信息處理用藏語(yǔ)詞類標(biāo)記集規(guī)范[S].拉薩:西藏大學(xué)工學(xué)院,2007.
[7]羊毛卓瑪,高定國(guó).藏文自動(dòng)分詞中未登錄詞處理方法研究[J].計(jì)算機(jī)工程,2012(18).
[8]周強(qiáng).規(guī)則和統(tǒng)計(jì)相結(jié)合的漢語(yǔ)詞類標(biāo)注方法[J].中文信息學(xué)報(bào),1995(3).
[9]格桑居冕.實(shí)用藏文文法教程[M].成都:四川民族出版社,2004:258-270.
Yangmo Droma
School of National Teachers,Qinghai Normal University,Hainan,Qinghai 813000,China
Tibetan language Part-Of-Speech(POS)tagging is the subsequent parsing of Tibetan language information processing. POS tagging is an essential foundation work for semantic analysis and text analysis.POS ambiguity problem solving is the key to Tibetan POS tagging,is also one of the difficulties in the Tibetan automatic POS tagging.This paper analyzes and studies POS ambiguity problem in the Tibetan POS tagging,and puts forward a method of solving POS ambiguity problem suitable for Tibetan grammar rules.Experiments prove that this method on speech disambiguation in the Tibetan POS tagging has achieved better results and has definitely increased the accuracy of the Tibetan POS tagging.
Tibetan information processing;affix;Part Of Speech(POS);automatic tagging;Part Of Speech disambiguation
藏文詞性自動(dòng)標(biāo)注是藏文信息處理后續(xù)句法分析、語(yǔ)義分析及篇章分析必不可少的基礎(chǔ)工作。詞性歧義問(wèn)題的處理是藏文詞性自動(dòng)標(biāo)注的關(guān)鍵所在,也是藏文信息處理的難點(diǎn)問(wèn)題。對(duì)藏文詞性標(biāo)注中詞性歧義問(wèn)題進(jìn)行了分析研究,提出了符合藏文語(yǔ)法規(guī)則實(shí)用于藏文詞性標(biāo)注的解決詞性排岐方法。實(shí)驗(yàn)證明:該處理方法在藏文詞性自動(dòng)標(biāo)注中對(duì)詞性排岐方面有較好的效果,使藏文詞性標(biāo)注正確率有了一定的提高。
藏文信息處理;詞綴;詞性;自動(dòng)標(biāo)注;詞性排岐
A
TP311
10.3778/j.issn.1002-8331.1204-0294
Yangmo Droma.Study on method of solving ambiguity in Tibetan part of speech tagging.Computer Engineering and Applications,2013,49(24):135-137.
國(guó)家自然科學(xué)基金(No.61063015);教育部“長(zhǎng)江學(xué)者與創(chuàng)新團(tuán)隊(duì)發(fā)展計(jì)劃”藏文信息技術(shù)創(chuàng)新團(tuán)隊(duì)項(xiàng)目(No.IRT0975)。
羊毛卓瑪(1978—),女,講師,主要研究方向:藏文信息處理。E-mail:yangmaozhuoma@163.com
2012-04-17
2012-07-25
1002-8331(2013)24-0135-03
CNKI出版日期:2012-08-08http://www.cnki.net/kcms/detail/11.2127.TP.20120808.0938.010.html
◎圖形圖像處理◎