尼瑪 珠杰** 拉巴頓珠
(1.西藏大學(xué)信息科學(xué)技術(shù)學(xué)院;2.省部共建西藏信息化協(xié)同創(chuàng)新中心,西藏 拉薩 850000)
隨著信息處理的快速發(fā)展,藏文信息處理也取得了長足的發(fā)展,本文重點研究字—音轉(zhuǎn)換方法。在藏語連續(xù)語音中存在語音音素不集中,且音素定義不夠統(tǒng)一、數(shù)據(jù)分散等問題,出現(xiàn)了合成的語音不自然、不流暢等情況,例如,“”在以往的語音合成當(dāng)中給這9 個字的音素各不相同,導(dǎo)致合成結(jié)果一直并未達(dá)到實用效果。藏語語音合成中,目前很少有研究音素定義不統(tǒng)一對語音合成造成的影響,而字—音轉(zhuǎn)換是語音合成系統(tǒng)前端文本分析的重要模塊,因此,如何解決音素統(tǒng)一問題成為語音合成系統(tǒng)不得不解決的問題。
目前,國內(nèi)外英語、漢語等語言中的同音字研究相對成熟,已經(jīng)在語言教學(xué)、語音合成研究等中得到了很好的使用效果,而目前極少有針對藏語同音字的深度研究,只有在部分文獻(xiàn)中曾簡單提到了關(guān)于藏語同音字的存在,如周季文編著的《藏文拼音教材》[1]中指出,若藏文字符附加在后加字和后面時,該音節(jié)字的讀音不發(fā)生變化,例如藏文音節(jié)字和和它們的主要區(qū)別是音節(jié)字是否存在再后加字,但音節(jié)字和是否存在再后加字對音節(jié)字的讀音沒有變化,因此兩個音節(jié)字稱作為同音字。若虛詞加在沒有后加字的音節(jié)后面時,在發(fā)音上起的作用與后加字相同,例如為同音字。后加字在發(fā)音上起的作用完全相同,例如為同音字。若下加字加在別的字母下面在發(fā)音上無作用,例如為同音字。若帶有上加字時,發(fā)音無變化,例如為同音字。若帶有上加字的再帶有前加字(只有)時,發(fā)音無變化,例如為同音字。另外,嘎瑪曲珍等編著的《藏文拼音與精要語法教材》[2]中指出:(1)加了下加字后,讀音實際上與相同,即:這四組都是同音字。(2)音高不送氣的基字加下加字后,皆變?yōu)橐舾卟凰蜌獾木砩嘁?,即為同音字,高音送氣的基字加下加字后,均變?yōu)楦咭羲蜌獾木砩嘁?,即為同音字,低音送氣的基字加下加字后,皆變?yōu)榈鸵羲蜌獾木砩嘁?,即為同音字。?jīng)過文獻(xiàn)查閱,目前除了以上2 篇教材中初步提出了藏文類似于其他語種也存在同音字,并簡單分析了同音字的出現(xiàn)形式外,沒有針對藏語同音字的深入研究及相關(guān)統(tǒng)計結(jié)果。另外,以上2 篇教材及相關(guān)文獻(xiàn)中至今為止仍沒有界定藏語同音字的概念,以及未展開同音字的結(jié)構(gòu)分析、數(shù)據(jù)統(tǒng)計等工作。
隨著藏語語音合成的深入研究及語言本身的不斷發(fā)展,藏語同音字的深入研究成為至關(guān)重要的一項基礎(chǔ)性工作,包括藏語同音字概念的界定、結(jié)構(gòu)分析、字庫的建立及統(tǒng)計等工作。故本文針對目前藏語語音合成過程同音字的處理需要,對藏語同音字的概念、字的結(jié)構(gòu)、統(tǒng)計等方面進(jìn)行了較為深入的研究。
在本小節(jié)主要定義本文涉及的三個概念,分別為同音字、基礎(chǔ)字、音素三個概念,并分析在同音字構(gòu)成規(guī)律和同音字判別方式中起到的作用。
表1 藏語基礎(chǔ)字類別及實例
18738 個藏字集合是按照以上作為基礎(chǔ)字而產(chǎn)生的,同樣同音字也是208 個基礎(chǔ)字上產(chǎn)生的[4]。基礎(chǔ)字是構(gòu)成同音字的一個基本要素,是判斷同音字和音素的基礎(chǔ)。
定義2:音素是構(gòu)成音節(jié)的最小單位或最小的語音判斷單元,例如這四個音節(jié)的基字、后加字相同,因此這四個音節(jié)由兩個輔音字母音素和四個元音音素組成。這四個音節(jié)的元音、后加字相同,因此這四個音節(jié)由六個音素組成?!啊保ㄎ鞑兀┻@兩個音節(jié)由五個音素組成。在判斷同音字時,音素是最基本的判斷要素,例如這些同音字中,這五個字的音素為,音素相同讀音相同,而前加字、上加字、下加字對讀音無影響,不作為音素處理[5]。
定義3:藏語同音字是指發(fā)音部位、氣流強(qiáng)弱、聲調(diào)、音素都相同的不同形狀或不同字符序列組成的字或音節(jié),例如等。藏語同音字以陽性字、中性字、準(zhǔn)陰性字、極陰性字的差別來區(qū)分同音字讀音。在藏語語音中,不管同音字的字符個數(shù)多少,只要音素相同其讀音相同。由于同音字的音素相同,在語音合成前端文本分析中同音字的音素標(biāo)記規(guī)范一直是不可或缺的一項基礎(chǔ)工作,且音素標(biāo)記規(guī)范程度決定訓(xùn)練數(shù)據(jù)的稀疏問題,也就是直接影響合成訓(xùn)練模型的結(jié)果。故對相同音素的同音字給定相同的音標(biāo)是本文的研究重點,例如相同音素的同音字給定拉丁或國際音標(biāo)情況如表2 所示。
表2 相同音素的同音字標(biāo)記音標(biāo)實例
根據(jù)上述讀音分析結(jié)果,在藏語連續(xù)語音合成的文本標(biāo)注過程中,將把所有同音字給出同一個讀音標(biāo)記或者音素標(biāo)記,例如:藏語句子“”的標(biāo)注結(jié)果為“kla cha klatsi ga klo.kla ma kla med kla srog dang.Rkang pi'kla sha ra kla yin”,在句中“”“”和“”三個音節(jié)為同音字,故最終讀音定義為“kla”的相同讀音標(biāo)記。
在此按照藏語語音理論體系和語音合成的角度,研究藏語一般同音字構(gòu)成規(guī)律和特殊同音字規(guī)律,每個大類規(guī)律研究中主要包括基礎(chǔ)字音素構(gòu)成規(guī)律及類別定義、音節(jié)音素構(gòu)成規(guī)律及類別定義。
以下七類根據(jù)藏語傳統(tǒng)文法“字性組織法”中的陽性字、中性字、準(zhǔn)陰性字、極陰性字的差別來區(qū)分同音字構(gòu)成規(guī)律。
以下二類同音字構(gòu)成規(guī)律與一般同音字構(gòu)成不同,在此作為特殊同音字的情況進(jìn)行處理。
2.2.2 在實際藏語文本中經(jīng)常出現(xiàn)藏文音節(jié)與梵音轉(zhuǎn)寫藏文構(gòu)成同音字的情況,藏文文本中使用普遍的梵音轉(zhuǎn)寫藏文有等。在此作為特殊同音字的情況進(jìn)行處理,如:。
根據(jù)(2.1)同音字構(gòu)成情況分析,將藏語同音字共分為七種不同的規(guī)律。在此一是完成了同音字的統(tǒng)計,二是研究了同音字的分類,并定義了相應(yīng)的音標(biāo),具體分析情況如下:
表3 同屬的同音字(部分)
表3 同屬的同音字(部分)
表4 同屬的同音字(部分)
表4 同屬的同音字(部分)
表5 同屬的同音字(部分)
表5 同屬的同音字(部分)
表6 同屬的同音字(部分)
表6 同屬的同音字(部分)
表7 同屬的同音字(部分)
表8 同屬的同音字(部分)
表8 同屬的同音字(部分)
表9 同屬的同音字(部分)
表9 同屬的同音字(部分)
根據(jù)(2.2)藏語同音字的特殊結(jié)構(gòu)分析,將藏語同音字共分為2 種不同的類型,其具體分類中所收集及統(tǒng)計結(jié)果如下:
表10 “基礎(chǔ)字加后加字和黏著詞”同屬的同音字(部分)
表10 “基礎(chǔ)字加后加字和黏著詞”同屬的同音字(部分)
3.2.2 “梵音字符”結(jié)構(gòu)的同音字,構(gòu)成該類同音字的梵音字共有14 個。共收集統(tǒng)計到14 個同音字,部分同音字的統(tǒng)計情況如表11 所示。
表11 “梵音字符”同屬的同音字(部分)
根據(jù)以上藏語同音字的統(tǒng)計和分析結(jié)果得出:在藏語中除了幾個特殊的字外,藏語同音字以不同的字性來判斷其讀音,在此同音字分為一般同音字和特殊同音字,一般同音字可以分為7 種不同大類,特殊同音字可以分為2 種不同的大類,其中每個大類又根據(jù)不同的音素劃分為不同程度的小類,小類也就是同一個音素構(gòu)成的同音字,并最終對每個小類定義了拉丁轉(zhuǎn)寫和國際音標(biāo)的讀音標(biāo)記,一般同音字以18738 個藏字為依據(jù),將歸類為2539 類(不同音素的字)同音字和341 個無同音字,特殊同音字還需要進(jìn)一步統(tǒng)計,因此特殊同音字的統(tǒng)計數(shù)據(jù)無歸類在18738 個藏字中。
本文針對目前在藏語語音合成前端語言模型中較為突出的音素統(tǒng)一問題展開了深入的研究,研究的內(nèi)容遵循了藏語傳統(tǒng)文法,結(jié)合藏語本身特有的語音特點,深度分析了藏語語音結(jié)構(gòu),以及在藏語語音合成中同音字的發(fā)音規(guī)律,較為全面的統(tǒng)計及分析了藏語同音字的發(fā)音歸類問題,并收集整理了較大規(guī)模的藏語同音字,為進(jìn)一步分析和處理藏語語音合成前端語言模型提供了有力素材。藏語雖然具有很強(qiáng)的語言規(guī)律,但由于藏語本身的復(fù)雜性及語音結(jié)構(gòu)的不確定性,信息處理用藏語語音結(jié)構(gòu)分析過程中仍遇到很多難以解決的困擾,總結(jié)出來規(guī)律難以覆蓋藏語語音合成中出現(xiàn)的所有情況。在今后。的科學(xué)研究工作中繼續(xù)加大對同音字發(fā)音規(guī)律的研究,完善藏語同音字?jǐn)?shù)據(jù)的統(tǒng)計,并測試總結(jié)出來的同音字規(guī)律在實際語音合成中的具體表現(xiàn)。