扎西拉旦 安見(jiàn)才讓
本文提出了藏文字組合的規(guī)則和藏文字的語(yǔ)法分析相結(jié)合的藏文字自動(dòng)分解算法和藏文字組成結(jié)構(gòu)用形式化描述,通過(guò)研究藏文字的構(gòu)件規(guī)則,得到藏文字的結(jié)構(gòu)特征,而進(jìn)一步對(duì)藏文字的字母組合進(jìn)行分段處理,簡(jiǎn)化藏文字構(gòu)件復(fù)雜度,研究出各分段部分的藏文字的構(gòu)件規(guī)則,并且按照規(guī)則進(jìn)行藏文字?jǐn)?shù)的統(tǒng)計(jì)。實(shí)驗(yàn)表明,系統(tǒng)對(duì)現(xiàn)代藏文字能有效地自動(dòng)識(shí)別分解。
一、引言
在信息時(shí)代,信息技術(shù)發(fā)展水平成為衡量一個(gè)國(guó)家、一個(gè)地區(qū)或一個(gè)民族科學(xué)技術(shù)發(fā)展水平的重要標(biāo)志。而文字的信息處理則是信息技術(shù)的重要組成部分,藏文信息處理技術(shù)語(yǔ)言也在進(jìn)一步發(fā)展。在這幾年?duì)顩r下要加速藏文信息處理的發(fā)展,主要是開(kāi)展藏文信息技術(shù)標(biāo)準(zhǔn)制定、藏文操作系統(tǒng)研究、藏文資源建設(shè)和藏文字自動(dòng)分解系統(tǒng)的研究。藏文信息處理要以藏字信息處理的實(shí)現(xiàn)為基礎(chǔ),要提高藏字信息處理的智能水平,又要借助藏文信息處理的成果。
隨著藏文信息處理的深入,藏文字自動(dòng)分解問(wèn)題已經(jīng)引起高度重視,成為藏文信息處理的一個(gè)前沿課題。經(jīng)過(guò)十幾年的研究,藏文字自動(dòng)分解技術(shù)也取得了令人矚目的成果,在各個(gè)方面得到了長(zhǎng)足的發(fā)展,因此產(chǎn)生了積極的社會(huì)效應(yīng)。
藏文語(yǔ)音經(jīng)過(guò)一千多年演變,而書(shū)面語(yǔ)的正字法永遠(yuǎn)不變,還有一個(gè)就是藏文拼寫(xiě)變的非常復(fù)雜,拼寫(xiě)的時(shí)候是以不同的輔音字母的“加字”來(lái)表示不同的音調(diào),藏文拼寫(xiě)雖然復(fù)雜,但是拼寫(xiě)都很有規(guī)則的,藏文字是一種以輔音字母為主要構(gòu)件的特殊拼音文字,藏文文法具有按字性組織的特征,其構(gòu)字、構(gòu)詞都要考慮字的基本構(gòu)件及其屬性。因此,分解藏文字是藏文信息處理研究基礎(chǔ)。藏文字符包括30個(gè)基本輔音字母和4個(gè)元音符號(hào), 30個(gè)輔音字母中有10個(gè)可做后加字,后加字中的5個(gè)又可做前加字, 2個(gè)可做再后加字。
二、藏文字的語(yǔ)法結(jié)構(gòu)特征
輔音和前加字、后加字、再后加字的關(guān)系為Z∈A∈G∈M,如圖1所示。
藏字在結(jié)構(gòu)上由基字、前加字、上加字、下加字、后加字、再后加字及元音以不同結(jié)構(gòu)組成,它不僅具有橫向拼寫(xiě)性,同時(shí)也具有縱向拼寫(xiě)性,其中前加字、基字、后加字與又后加字橫向拼寫(xiě),而在基字所在的豎直方向上還可能有上加字、基字、下加字和元音的縱向拼寫(xiě),如圖2所示。
藏文字結(jié)構(gòu)自動(dòng)識(shí)別分解流程圖,如圖3所示。
三、藏文字組成結(jié)構(gòu)形式化描述
六構(gòu)件的藏字結(jié)構(gòu)可以歸納為兩種括號(hào)表達(dá)式,與兩種括號(hào)表達(dá)式對(duì)應(yīng)的樹(shù)形圖,如圖11和圖12。
七構(gòu)件的藏字結(jié)構(gòu)可以歸納為兩種括號(hào)表達(dá)式,與兩種括號(hào)表達(dá)式對(duì)應(yīng)的樹(shù)形圖,如圖13。
四、結(jié)束語(yǔ)
本文從構(gòu)件角度將藏文字的基本形式,前加字、上加字、基字、下加字、元音、后加字、再后加字為分為一構(gòu)件、二構(gòu)件、三構(gòu)件、四構(gòu)件,并通過(guò)建立組合構(gòu)件規(guī)則庫(kù),詳細(xì)研究了藏文字構(gòu)件的分解算法和形式化描述及統(tǒng)計(jì)藏文字?jǐn)?shù),今后在該研究成果的基礎(chǔ)上進(jìn)一步研究對(duì)藏文字符生成技術(shù)和藏文句型分布,為藏文字符頻率計(jì)算、藏文句型結(jié)構(gòu)分布、藏文字符排序、藏語(yǔ)語(yǔ)音合成和藏漢機(jī)器翻譯研究提供論依據(jù)和數(shù)據(jù)基礎(chǔ)。