俄果措 安見才讓
摘 要藏語自動分詞和藏語動詞形態(tài)自動識別過程中的一個重要部分,使藏語分詞過程中字串的匹配對象。電子詞庫中每一個詞條的準(zhǔn)確性直接影響著藏語自動分詞結(jié)果和藏語動詞形態(tài)自動識別結(jié)果。因此,電子詞典中主要收錄了所選藏語語料庫中的18本藏語(翻譯版)教材的5000個詞條。
【關(guān)鍵詞】自動分詞 動詞形態(tài)自動識別 電子詞典
藏語動詞的研究歷來是藏語語法研究的核心。藏語書面語約有1500 個單音節(jié)動詞,其中大多數(shù)動詞具有詞形數(shù)目不等的時式形態(tài)變化。在藏語的發(fā)展過程中,由于語言內(nèi)部結(jié)構(gòu)的語音變化及語言的外部影響,藏語動詞的詞形出現(xiàn)了不同的簡化模式。
1 藏語動詞形態(tài)自動識別模塊
藏語動詞形態(tài)的自動識別是藏語句法分析和藏語八格的識別等過程中的一個重要環(huán)節(jié)。藏語動詞形態(tài)自動識別的目的是識別出藏語文本中的大量的藏語動詞形態(tài),并消除識別過程中動詞形態(tài)的變化問題。藏語動詞形態(tài)自動識別模塊采用了以藏語傳統(tǒng)語法為依據(jù),格桑居冕(1982)在《藏語文法教程》(簡稱教程)中對藏語書面動詞進(jìn)行了詳細(xì)講并收集其中所講的藏語動詞形態(tài)和動詞形態(tài)的接續(xù)規(guī)則來實(shí)現(xiàn)。最終建立了藏語動詞形態(tài)的規(guī)則庫,按規(guī)則庫中相應(yīng)的規(guī)則來識別句子中的動詞形態(tài)的變化。
具體如圖1所示。
2 藏語動詞形態(tài)的自動識別算法
如圖2所示。
在藏語動詞形態(tài)識別過程中動詞形態(tài)處變化處理算法描述如下:
S=“”
在S中消除具有一個以上音節(jié)的詞。
S=“”
在S中消除虛詞。
S=“”
逐一取每一個詞在詞典中data中查找,如果查找到,就將結(jié)果存儲在SS中,最后顯示SS中的內(nèi)容,如下:
3 藏語動詞形態(tài)識別的運(yùn)行結(jié)果
如圖3所示。
4 結(jié)束語
通過探索藏文傳統(tǒng)文法理論,建立藏語動詞形態(tài)的接續(xù)規(guī)則,按照規(guī)則及相關(guān)的算法和模塊實(shí)現(xiàn)藏語動詞形態(tài)自動識別系統(tǒng)。
參考文獻(xiàn)
[1]格桑居冕, 格桑央金.藏文文法教程[M].四川民族出版社,2004.11(391-513).
[2]金鵬.藏語動詞屈折形態(tài)向粘著形態(tài)的轉(zhuǎn)變[J].中國藏學(xué),1988(01)(131-139).
[3]金鵬.《西藏現(xiàn)代口語動詞的時態(tài)和體及其表達(dá)方法》.西藏研究1984(03)-1985(02).
作者簡介
俄果措(1987-),女,青海省人。碩士學(xué)位。現(xiàn)為青海省玉樹州曲麻萊萊縣政府辦文秘。研究方向?yàn)橹袊贁?shù)民族語言文學(xué)。
安見才讓(1969-),青海省人。碩士學(xué)位。現(xiàn)為青海省西寧市青海民族大學(xué)計(jì)算機(jī)學(xué)院教授。研究方向?yàn)椴匚男畔⑻幚砑皯?yīng)用。