才項措 達哇彭措
摘 要: 分詞就是將連續(xù)的文字序列按照特定的規(guī)范重新組合成詞語序列的過程,在藏文信息處理領域分詞是不可或缺的基礎性工作,也成為智能化藏文信息處理的關鍵所在。漢語信息處理中自動分詞的基本問題同樣存在于藏文信息處理之中,諸如分詞規(guī)范、歧義切分和未登錄詞識別三個方面,此外,藏文信息處理的自動分詞中還存在對緊縮詞識別的問題。
關鍵詞:藏文自動分詞 分詞規(guī)范 歧義切分 未登錄詞 緊縮詞
中圖分類號:TP391 文獻標識碼:A 文章編號:1003-9082(2016)07-0008-01
筆者在從事藏文信息處理技術的工作和研究中,對藏文自動分詞技術中存在的基本問題形成了若干認識,目前暫從分詞規(guī)范、歧義切分、未登錄詞識別和緊縮詞的識別四個部分試作分析。由于這一工作的長期性和復雜性,我們的專業(yè)水平也存在一定的局限,誠摯的希望得到相關領域不同專業(yè)學者的指導與批評。
一、分詞規(guī)范
藏文的分詞規(guī)范,就是根據(jù)藏文詞匯的語法功能,遵循藏文自身的特點及構詞規(guī)律,將藏文的詞類進行有效劃分的算法及規(guī)范方案。對于藏文詞類的劃分有關學者已經(jīng)提出了藏文分詞的算法及規(guī)范方案,比較全面的有:扎西加、珠杰等在面向信息處理的藏文分詞規(guī)范研究中,將藏文詞類劃分為26個基本類和9個特殊類,在26個基本類當中繼續(xù)細分為不同的子類,基本類包括名詞、處所方位詞、時間詞、數(shù)詞、量詞、代詞、自動詞、他動詞、助動詞、存在動詞、斷詞、動名詞、行動詞、形容詞、狀態(tài)詞、簡別詞、區(qū)別詞、副詞、時態(tài)助詞、語氣助詞、原因助詞、目的助詞、終結助詞、介詞、連詞、嘆詞、擬聲詞,特殊類包括成語、習慣語、簡略語、前接成分、中接成分、后接成分、首飾符號、標點符號、非藏文符號;[1]扎洛在語言信息處理的現(xiàn)代藏語詞性分類方法研究中將藏文詞性分為名詞、動詞、形容詞、數(shù)詞、量詞、副詞、代詞、狀態(tài)詞、嘆詞、擬聲詞、時間詞、方位詞、處所詞、助詞、連詞、祈使詞、終結詞、前綴、中綴、后綴、簡縮詞、習用詞、成語、標號點號、垂符、首符、特殊符號等二十七個大類;[2]祁坤鈺在詞類劃分與標注集的研究中將藏文詞類劃分為名詞、動詞、形容詞、副詞、代詞、介詞、助詞、數(shù)詞、量詞、終結詞、連詞、時間詞、擬聲詞、感嘆詞、成語詞、習慣詞、縮略詞、方位詞、語素、非語素、標點符等21個大類。
對于未登錄詞的識別陳玉忠、李保利、俞士汶等撰寫的論文藏文自動分詞系統(tǒng)的設計與實現(xiàn)中采取標記但不切分的謹慎策略;才智杰和才讓卓瑪撰寫的論文藏文自動分詞系統(tǒng)的設計中基于詞典分詞時,由于查詢詞不在詞典庫中,從而文本分詞后會形成若干個連續(xù)的單字,形成了碎片,它或者是單字詞,或者是未登錄詞的一部分。
四、緊縮詞的識別
古藏文中所有的字與字之間都用字分隔符分開,隨著藏文字的發(fā)展,人們?yōu)榱朔奖銓⒂行┳峙c它前面字之間的分隔符省略,從而形成了緊縮詞。緊縮詞在藏文文本中出現(xiàn)的頻率非常高,這類詞的識別是藏文文本分詞的重點和難點。在才智杰撰寫的論文藏文自動分詞系統(tǒng)中緊縮詞的識別中,通過研究藏文自動分詞中的緊縮詞,首次提出了一種識別方案,即還原法,并給出了還原算法。其基本思想是:利用藏文緊縮詞的添接規(guī)則還原藏文原文,以達到進行分詞的目的。對緊縮詞可以用“去除/添加”法將其還原成藏文原形,即還原法。
五、結語
藏語信息處理目前正處于向上發(fā)展的關鍵階段,要解決人與計算機接口、系統(tǒng)問答等一系列重要問題,首先要從能夠獨立表義的最小單位即詞匯研究開始。藏文分詞的關鍵是如何結合藏語字、詞、句各類形式特征來確定藏文分詞。藏文自動分詞是藏語信息處理中的基礎性課題,本文只是簡略地介紹了在藏文自動分詞中的幾個基本問題,其解決方法等還有待完善。
參考文獻
[1]扎西加,珠杰.面向信息處理的藏文分詞規(guī)范研究[J].中文信息學報,2009,23(4)
[2]扎洛.語言信息處理的現(xiàn)代藏語詞性分類方法研究[J].青海師范大學學報(自然科學版),2006,1
[3]完么扎西,尼瑪扎西.藏語自動分詞中的幾個關鍵問題的研究[J].中文信息學報,2014,28(4)