○ 陳小瑩 艾金勇
(西藏民族學(xué)院,陜西 咸陽 712082)
在信息化時(shí)代,藏族文化要跟上時(shí)代的步伐,首先要解決的就是藏文的信息處理問題,藏文信息化和網(wǎng)絡(luò)化是藏民族發(fā)展的必然趨勢。從20世紀(jì)80年代起,隨著對藏文字符編碼、字符屬性和輸入技術(shù)等諸多領(lǐng)域不斷深入的研究,藏文信息處理技術(shù)已取得較好的成果。隨著藏文網(wǎng)絡(luò)信息時(shí)代的發(fā)展,藏文正在迅速與現(xiàn)代化、信息化以及世界文化接軌。[1]藏文信息處理已從字處理研究逐步向詞、短語、句法以及語義的研究發(fā)展。以藏字為媒介向世界介紹西藏文化是對西藏優(yōu)秀傳統(tǒng)文化的繼承,藏文報(bào)刊、電子書、網(wǎng)站、電子郵件及藏文辦公自動(dòng)化的字處理等電子文本也越來越廣泛地應(yīng)用于藏文信息處理多個(gè)領(lǐng)域,而這些都需要通過計(jì)算機(jī)進(jìn)行處理,難免會(huì)出現(xiàn)錯(cuò)誤。[2]如何保證這些電子文本的正確性,顯得越來越重要。這使得其中的校對環(huán)節(jié)工作量大大增加,對藏文文本的人工校對帶來了很大的壓力,這樣對其進(jìn)行校正就顯得尤為重要。[3]所以對藏文音節(jié)拼寫自動(dòng)校對的研究具有非常重要的現(xiàn)實(shí)意義。
國內(nèi)藏文自動(dòng)校對的研究工作是從20世紀(jì)80年代初的字處理研究起步的。自八十年代中后期起,北京、上海、西藏、甘肅、青海等地的一些院校及科研機(jī)構(gòu)紛紛研制開發(fā)了許多藏文信息處理系統(tǒng),推動(dòng)了藏文信息技術(shù)的發(fā)展,特別是計(jì)算機(jī)藏文文字處理技術(shù)的發(fā)展較快。很多藏文信息界的專家對此做了較多的研究。劉文香發(fā)表《藏文文本詞校對模型研究》一文,文中闡述了音勢約束理論和二元鄰接矩陣在藏文自動(dòng)校對中的應(yīng)用。[4]關(guān)白等人發(fā)表的《現(xiàn)代藏文音節(jié)字自動(dòng)校對研究》一文,通過音節(jié)字預(yù)處理、字表匹配、混淆集匹配、二元接續(xù)關(guān)系、最小編輯距離法等方法對現(xiàn)代藏文音節(jié)字的自動(dòng)校對進(jìn)行了研究。[5]王維蘭等人發(fā)表的《印刷體現(xiàn)代藏文識別研究》一文,將藏文自動(dòng)校對應(yīng)用于藏文文字識別的后期處理,對識別后所形成文本中的單字進(jìn)行了次校正。[6]多杰卓瑪發(fā)表《N元模型在藏文文本局部查錯(cuò)中的應(yīng)用研究》一文,提出將一個(gè)藏文音節(jié)字按其構(gòu)件分成若干個(gè)字丁,利用N元模型對這些字丁建立模型,采用這一模型對音節(jié)字進(jìn)行偵錯(cuò)的方法。[7]黃小蘭等人發(fā)表的《現(xiàn)代藏文音節(jié)的劃分與確定》一文,通過應(yīng)用程序?qū)Σ匚木幋a的占位和不占位的有效判定找出組合字符。對找出組合字符的藏文字符通過藏文正字法的限定對藏文音節(jié)進(jìn)行有效的判定和音節(jié)組件的拆分。[8]
藏文音節(jié)拼寫自動(dòng)校對系統(tǒng)共分為四個(gè)模塊:
(1)藏文文本規(guī)范化處理模塊
藏文文本中除了包括正常的規(guī)范字符外,還常常出現(xiàn)各種不屬于藏文字符的其他字符,例如數(shù)字、日期、電話號碼等使用阿拉伯書寫的字符。這些不屬于藏文字符的其他字符會(huì)對后期音節(jié)的切分時(shí)發(fā)生錯(cuò)誤,從而使整個(gè)音節(jié)拼寫校對系統(tǒng)的校正率降低,所以這些非規(guī)范的文本在進(jìn)行音節(jié)切分之前應(yīng)該要進(jìn)行規(guī)范化處理,并給出它們對應(yīng)的在規(guī)范化藏文詞表上的規(guī)范寫法。
(2)音節(jié)切分模塊
現(xiàn)代藏文的字符流是兩維呈現(xiàn)的,有一套嚴(yán)格而完整的字母組合排列規(guī)則,自左向右橫行書寫。傳統(tǒng)藏文文法根據(jù)字母在音節(jié)中的結(jié)構(gòu)位置,將30個(gè)輔音字母分為分為基字、上加字、下加字、前加字、后加字、再后加字加上“元音”共7個(gè)構(gòu)件,各個(gè)構(gòu)造位上出現(xiàn)的字符其性質(zhì)與數(shù)量均有一定的限制。藏文音節(jié)字是用音節(jié)點(diǎn)進(jìn)行間隔的,在音節(jié)切分時(shí),以音節(jié)點(diǎn)為標(biāo)記對藏文音節(jié)進(jìn)行切分。[9]
(3)黏著語的分離與還原模塊;
在現(xiàn)代藏文的實(shí)際文本中有些格助詞和接續(xù)詞、終結(jié)詞是黏著在后加字或者基字上,形成一個(gè)音節(jié)字的。這種具有黏著性的格助詞有:a.黏著性屬格助詞“ ”;b.黏著性接續(xù)詞“ ”;c.黏著性疑問助詞“ ”;d.黏著性終結(jié)詞“ ”;e.黏著性作格助詞“ ”;f.黏著性LA格助詞“ ”。這樣形成的音節(jié)字雖然可能不符合藏文的正字法結(jié)構(gòu),但是又是正確的書寫形式,因此需要對對待校文本中存在黏著現(xiàn)象的音節(jié)字進(jìn)行分離和還原。具體過程如下:
①對“ ”的分離與還原:判斷字符串中可能黏著的格助詞或接續(xù)詞是否有“ ”等,如果有則對該音節(jié)進(jìn)行黏著語分離和還原操作;否則不做任何處理讀取下一個(gè)音節(jié)字進(jìn)行判斷。
②對“ ”的分離與還原:判斷字符串中可能黏著的格助詞是否有“ ”,因?yàn)椤?”還可能作為后加字成分存在,所以如果存在,還需要根據(jù)構(gòu)字規(guī)則判斷其是否為后加字,如果不是則對該音節(jié)進(jìn)行黏著語分離和還原;否則不做任何處理讀取下一個(gè)音節(jié)字進(jìn)行判斷。
(4)音節(jié)校對模塊
現(xiàn)代藏文具有最多3個(gè)輔音和最多1個(gè)元音的垂直疊加形成的組合字符。藏文字符顯示時(shí),一個(gè)組合字符只占據(jù)一個(gè)字母的寬度,這個(gè)寬度由第一層輔音決定,這個(gè)輔音稱為占位輔音,這個(gè)輔音的編碼也就稱為占位輔音編碼,其它字母只是疊加在占位輔音的上方或者下方而不單獨(dú)占據(jù)寬度,稱為不占位字母或不占位編碼。[10]項(xiàng)目實(shí)施中首先可以依據(jù)音節(jié)編碼中占位輔音編碼和非占位輔音編碼的順序來確定基字所在的組合字丁的位置,然后再根據(jù)前后編碼的序列確定前加字、后加字和再后加字;其次通過組合字符對應(yīng)的編碼特點(diǎn)即一個(gè)占位編碼緊接著最多三個(gè)連續(xù)的不占位編碼確定 “上加字”、“下加字”;最后根據(jù)藏文正字法確立的構(gòu)字規(guī)則對該藏文音節(jié)各部件進(jìn)行判別校對。
通過對藏文文本規(guī)范化處理、音節(jié)切分、黏著語的分離與還原和音節(jié)校對四個(gè)部分內(nèi)容的研究與分析,設(shè)計(jì)了藏文音節(jié)拼寫自動(dòng)校對系統(tǒng)。該校對系統(tǒng)可以廣泛應(yīng)用于藏文信息處理的其他領(lǐng)域。比如:藏文字識別和藏文語音識別、藏文拼寫檢查、文本編輯、自動(dòng)分詞、語料庫制作、輔助教學(xué)等諸多的藏文信息處理的研究領(lǐng)域當(dāng)中,可以減少人工校對帶來的壓力,從而大大提高校對環(huán)節(jié)的工作效率。所以對其的研究必將提升現(xiàn)有藏文信息處理研究的成果,具有非常重要的現(xiàn)實(shí)意義。
【參考文獻(xiàn)】
[1]關(guān)白,洛藏,才科扎西.現(xiàn)代藏文自動(dòng)校對現(xiàn)狀分析[J].西藏科技,2011(8).
[2]張仰森,俞士汶.文本自動(dòng)校對技術(shù)研究綜述[J].計(jì)算機(jī)應(yīng)用研究,2006(6).
[3]扎西次仁.一個(gè)藏文拼寫檢查系統(tǒng)的設(shè)計(jì)[C]//中文信息處理國際會(huì)議論文集,1998.
[4]劉文香.藏文文本詞校對模型研究[J].西藏大學(xué)學(xué)報(bào)(自然科學(xué)版),2009(2).
[5]關(guān)白,才科扎西.現(xiàn)代藏文音節(jié)字自動(dòng)校對研究[J].計(jì)算機(jī)過程與應(yīng)用,2011(6).
[6]王維蘭,丁曉青,等.印刷體現(xiàn)代藏文識別研究[J].計(jì)算機(jī)工程,2003(3).
[7]多杰卓瑪.N元模型在藏文文本局部查錯(cuò)中的應(yīng)用研究[J].計(jì)算機(jī)工程與科學(xué),2009(4).
[8]黃小蘭,黃鶴鳴,才科扎西.現(xiàn)代藏文音節(jié)的劃分與確定[J].計(jì)算機(jī)應(yīng)用與軟件,2012(9).
[9]李永宏,孔江平,等.藏語文-音自動(dòng)規(guī)則轉(zhuǎn)換及其實(shí)現(xiàn)[J].清華大學(xué)學(xué)報(bào),2008(1).
[10]黃鶴鳴,達(dá)飛鵬.基于排序的藏文音節(jié)類型判定[J].計(jì)算機(jī)應(yīng)用,2009(7).