王福釗 周雁
摘 ?要: 在藏文信息化處理中,藏文音節(jié)的正確拼寫是一切工作的基礎(chǔ)。文章針對藏文文本中藏文音節(jié)的錯誤自動檢測技術(shù)進行了研究,以包含62597個藏文音節(jié)的50篇新聞稿作為文本語料,研究比較了基于藏文音節(jié)構(gòu)件識別的構(gòu)件間約束限制匹配和基于全藏字列表的直接匹配這兩種方法的藏文音節(jié)檢錯誤判率,進而探討了不同的音節(jié)檢錯方法適用的最佳范圍和情況。
關(guān)鍵詞: 藏文; 音節(jié); 錯誤檢測; 約束限制匹配; 直接匹配
中圖分類號:TP391.4 ? ? ? ? ?文獻標識碼:A ? ? 文章編號:1006-8228(2020)01-05-05
Abstract: In the Tibetan information processing, the correct spelling of Tibetan syllables is the basis of all work. This paper studies the automatic error detection technology of Tibetan syllable in Tibetan text, and uses 50 news articles containing 62,597 Tibetan syllables as text corpus to study and compare the syllable error rate with two methods, i.e., the constraint limited matching between Tibetan syllable components method and the Tibetan syllable full-word list based direct matching method, and then explore the optimal range and situation for different syllable error detection methods to use.
Key words: Tibetan; syllable; error detection; constraint limited matching; direct matching
0 引言
本世紀初,國內(nèi)藏文信息化處理進入了發(fā)展階段,以中央民族大學(xué)、西藏大學(xué)、西北民族大學(xué)等高校為首的研究機構(gòu)加大了藏文信息處理的研究,在藏文文字處理上取得了大量成果。藏文是具有悠久歷史的古老文字,其可追溯至上古象雄時期,后經(jīng)過中世紀的發(fā)展,至吐蕃王朝第三十三代贊普松贊干布時期,由該時期的著名大臣吐彌桑布扎結(jié)合梵文正式創(chuàng)制了這一獨特的文字[1]。藏文是藏族人民交流溝通的主要語言文字,是藏文文化傳播的重要載體,是經(jīng)過不斷修正完善的中華民族古老文字的重要組成部分。藏語是中華民族語言大家庭中的重要一員,在信息化發(fā)展的不斷推動下,藏文信息化得到了快速發(fā)展。隨著藏文信息化的發(fā)展,計算機對藏文的處理顯得格外重要,計算機中藏文的正確表示和存儲是藏文信息處理的基礎(chǔ),是進行藏文分詞、詞性標注、詞頻統(tǒng)計等工作的基礎(chǔ)。本次研究是從藏文的文本基本組成單元——音節(jié)出發(fā),以西藏新聞網(wǎng)的新聞稿件為文本語料,從構(gòu)字規(guī)則上研究并編寫計算機程序,實現(xiàn)了藏文音節(jié)的拼寫錯誤檢測。
1 研究基礎(chǔ)
1.1 藏文結(jié)構(gòu)
藏文類似于漢文屬于拼音型文字,屬于藏漢語系藏緬語族藏語支[2]。從狹義上講,藏文是指藏語的符號;但就廣義上講,藏文除了符號外還包括藏文文法等[3]。藏文在組成上由30個輔音字母(共8組)和5個元音字母(其中?a為省略不寫)組成[1]。具體如表1-表2所示。
藏文的基本組成單元是字母,文本的基本組成單元是藏文音節(jié)。另外,藏文音節(jié)是字、詞、短語和句子的組成基本單元,音節(jié)間用隔音符“?”標記隔開,句子分割使用單垂符“?”或雙垂符“??”標記隔開。每個藏文音節(jié)呈橫向-縱向雙重疊加的平面字,由30個輔音字母和4個元音字母按照構(gòu)字規(guī)則填補在基字、前加字、上加字、下加字、元音符號、后加字和再后加字中的1~7部分,來進行構(gòu)成。其中基字必須存在,是整個音節(jié)的核心部分。30個輔音字母皆可作為基字。藏字基本結(jié)構(gòu)如圖1所示。
基字:30個輔音字母皆可作為基字。
前加字:?????共5個。
上加字:???共3個。
下加字:????共4個。
元音符號:? ?? ?? ??共4個。
后加字:??????????共10個。
再后加字:??共2個。
前加字約束如表3,其中,? ?? ?? ?? ?? ?? 6個只能在疊加時才可添加前加字?,其余只需作為基字即可添加相應(yīng)前加字。對于上加字的添加限制如表4所示。
對于下加字的添加限制如表5所示。
對于再后加字的添加限制如表6所示。
對于后加字而言,? ? ? ?? ? ? ? ? ? ? 皆可加在所有的字丁后,但不同的后加字將限制再后加字的出現(xiàn)[1]。還有一些特殊情況,基字+下加字+再下加字的三重疊加體,如???等。
1.2 檢錯原理
對于藏文音節(jié)的錯誤檢測,是根據(jù)其構(gòu)字規(guī)則進行規(guī)則匹配,匹配與否就是錯誤與否。對于整篇藏文文本而言,首先對文本進行預(yù)處理操作,替換非藏文字符的其他所有符號及進行藏文縮略詞的還原,后將文章按照隔音符“?”進行單元隔開,最后通過音節(jié)匹配進行錯誤檢測[4-8]。其原理圖如圖2所示。