拉巴頓珠,歐 珠,2,祖漪清,裴春寶
(1. 西藏大學(xué) 信息科學(xué)技術(shù)學(xué)院 藏文信息技術(shù)研究中心,西藏 拉薩 850000;2. 西藏民族大學(xué),陜西 咸陽(yáng) 712000;3. 科大訊飛股份有限公司,安徽 合肥 230088)
以往在藏語(yǔ)語(yǔ)音合成技術(shù)方面,人們一直認(rèn)為合成中藏語(yǔ)讀音問題通過規(guī)則已解決,故目前很少有研究藏語(yǔ)語(yǔ)音合成中由于分詞歧義造成讀音不正確的問題。而藏語(yǔ)合成語(yǔ)音自然度和可懂度的測(cè)試結(jié)果表明,在藏語(yǔ)中,音節(jié)的聲母、韻母讀音錯(cuò)誤不大,但存在聲調(diào)古怪的情況。聲調(diào)讀法不正確往往與詞性判斷不恰當(dāng)有關(guān),而詞性標(biāo)記的不正確來(lái)源于分詞的準(zhǔn)確性。讀音不正確不僅使合成語(yǔ)音發(fā)音不自然,甚至?xí)淖冋麄€(gè)句子的意思,對(duì)文本的可懂度有很大的影響。因此,如何判別其正確的讀音就成為語(yǔ)音合成系統(tǒng)不得不解決的問題[7]。
字-音轉(zhuǎn)換研究,是語(yǔ)音合成系統(tǒng)的前端文本分析的重要模塊,其目的是將文字序列轉(zhuǎn)換成相應(yīng)的音標(biāo)序列。首先對(duì)輸入文本進(jìn)行準(zhǔn)確可行的分析,經(jīng)過預(yù)處理后給語(yǔ)音合成后端提供必要的信息。目前藏語(yǔ)字音轉(zhuǎn)換正確率在很大程度上取決于同形異音詞的讀音識(shí)別正確性,而同形異音詞的讀音判斷又取決于藏文自動(dòng)分詞和詞性預(yù)測(cè)的準(zhǔn)確率。目前,漢語(yǔ)、英語(yǔ)等語(yǔ)言中對(duì)多音詞消歧方法的研究已有不少[8-11],而對(duì)藏語(yǔ)的相關(guān)研究還處于初始階段,甚至到目前為止國(guó)內(nèi)外相關(guān)研究學(xué)者對(duì)藏語(yǔ)同形異音詞方面未曾有研究工作及相關(guān)報(bào)告。
本文分以下幾個(gè)方面進(jìn)行論述: 第一節(jié)詳細(xì)介紹了語(yǔ)料庫(kù)的來(lái)源、數(shù)量及最終實(shí)驗(yàn)數(shù)據(jù)的選取情況;第二節(jié)是藏語(yǔ)同形異音詞的構(gòu)詞研究;第三節(jié)對(duì)藏語(yǔ)同形異音詞進(jìn)行分類;第四節(jié)提出了基于規(guī)則的同形異音詞消歧方法;第五節(jié)對(duì)基于規(guī)則的消歧方法的實(shí)驗(yàn)結(jié)果進(jìn)行了分析;第六節(jié)給出分析的結(jié)論及今后的研究計(jì)劃。
1.1.1 語(yǔ)料庫(kù)的設(shè)計(jì)原則
“語(yǔ)料”收集是進(jìn)行語(yǔ)音合成的基礎(chǔ)工作,通常的做法是盡可能多地收集大規(guī)模的自然語(yǔ)料來(lái)為挑選訓(xùn)練語(yǔ)料和測(cè)試數(shù)據(jù)提供支撐。但為了有針對(duì)性地研究同形異音詞,需要專門設(shè)計(jì)語(yǔ)料。設(shè)計(jì)原則是,以盡量少的語(yǔ)料,盡可能多地覆蓋研究對(duì)象。
1.1.2 語(yǔ)料來(lái)源
本文主要在《西藏日?qǐng)?bào)》藏文版和中國(guó)西藏新聞網(wǎng)藏文版等一些不同藏文網(wǎng)站上收集了含有法律、新聞、教育、醫(yī)學(xué)、詩(shī)歌、文學(xué)等不同領(lǐng)域中具有代表性的語(yǔ)料共37萬(wàn)多個(gè)相對(duì)獨(dú)立的句子,同時(shí)還考慮了文獻(xiàn)的年代、地域等問題。經(jīng)過自動(dòng)過濾和人工校對(duì)將太長(zhǎng)和太短、不完整的句子以及含有不常用的梵文的句子去除后剩28萬(wàn)多個(gè)句子,其中還有一些語(yǔ)料來(lái)自詞典中的例句及日常生活中常用的語(yǔ)句,從而形成了原始語(yǔ)料。然后利用貪心(greedy)算法進(jìn)行篩選,從28萬(wàn)多原始語(yǔ)料中挑選出含有140個(gè)同形異音詞的92 229個(gè)句子,并對(duì)語(yǔ)料進(jìn)行反復(fù)的優(yōu)化(包括去重),最終選取最大覆蓋藏語(yǔ)同形異音詞的精煉語(yǔ)料共計(jì)35 890句作為訓(xùn)練數(shù)據(jù)及測(cè)試集,本文實(shí)驗(yàn)數(shù)據(jù)的具體構(gòu)成情況及數(shù)量統(tǒng)計(jì)結(jié)果如圖1所示。
本文收集各種語(yǔ)料時(shí),為了更全面地描述和覆蓋更多的語(yǔ)言現(xiàn)象,根據(jù)語(yǔ)料本身所表達(dá)的內(nèi)容不同,我們主要收集整理了不同類別的句子文本。但由于各網(wǎng)站所發(fā)布和關(guān)注的側(cè)重點(diǎn)不同,只利用一個(gè)網(wǎng)站無(wú)法覆蓋所有類型的語(yǔ)料,因此,語(yǔ)料庫(kù)的具體來(lái)源及分布存在一定的差異,本文語(yǔ)料庫(kù)的具體構(gòu)成情況如表1所示。
表1 語(yǔ)料的來(lái)源及數(shù)量
1.1.3 語(yǔ)料庫(kù)的標(biāo)注方法
“語(yǔ)料庫(kù)不是任意文本的隨意堆積。為了發(fā)揮語(yǔ)料庫(kù)的作用,通常都需要對(duì)語(yǔ)料庫(kù)進(jìn)行一定的加工,進(jìn)行何種加工和加工深度如何通常和應(yīng)用目標(biāo)相關(guān)”[12]。因此,收集和整理的語(yǔ)料根據(jù)不同領(lǐng)域中的應(yīng)用需求出發(fā)。為了達(dá)到更好的數(shù)據(jù)訓(xùn)練及最終實(shí)驗(yàn)效果,我們特制定較為規(guī)范的標(biāo)記方法,本文對(duì)語(yǔ)料庫(kù)的標(biāo)注方面做出以下幾條統(tǒng)一規(guī)范。
(1) 語(yǔ)料庫(kù)整體的規(guī)范
在信息處理領(lǐng)域中,很多藏文語(yǔ)料存在著編碼不一且不同編碼之間互不兼容等問題。這些問題導(dǎo)致語(yǔ)料分散資源無(wú)法共享等后果,這對(duì)語(yǔ)料庫(kù)的設(shè)計(jì)帶來(lái)了一定的困難[13]。目前有同元、班智達(dá)、桑布扎、北大方正、華光、藏文編碼字符集擴(kuò)充集和加央(jamyang)等近10種不同編碼的藏文字處理軟件。因此,為了便于對(duì)語(yǔ)料庫(kù)進(jìn)行管理、處理和共享,我們?cè)谑占鞣N大量文本時(shí),將不同編碼的藏文語(yǔ)料全部統(tǒng)一為ISO/IEC10646(Unicode6.2)的小字符集編碼,以TXT文本格式保存。
(2) 分詞和詞性標(biāo)記的規(guī)范
首先,利用傳統(tǒng)的分詞器對(duì)所有實(shí)驗(yàn)數(shù)據(jù)進(jìn)行自動(dòng)分詞,并對(duì)每一個(gè)分詞單位給出初始的詞性。然后,通過規(guī)則和統(tǒng)計(jì)相結(jié)合的方法排除歧義。整個(gè)文本的詞語(yǔ)切分和詞性標(biāo)記都以“信息處理用藏語(yǔ)詞類標(biāo)記集規(guī)范”和“信息處理用現(xiàn)代藏文分詞規(guī)范”[4]為基礎(chǔ),結(jié)合藏語(yǔ)構(gòu)詞規(guī)則,再根據(jù)我們自己的實(shí)踐經(jīng)驗(yàn),以及總結(jié)、整理發(fā)現(xiàn)的一些新處理規(guī)律,對(duì)基本規(guī)范進(jìn)行改進(jìn)、補(bǔ)充和調(diào)整,形成了分詞和標(biāo)注結(jié)合的規(guī)范。從實(shí)際文本的內(nèi)容和不同應(yīng)用的研究來(lái)看,考慮不同的處理側(cè)重點(diǎn),本文針對(duì)藏語(yǔ)語(yǔ)音合成系統(tǒng)前端文本分析中的切分和標(biāo)記方面包括以下三個(gè)具體的規(guī)范。
1) 切分規(guī)范
3) 存在兩種以上詞性的標(biāo)記規(guī)范
本文以《藏漢大詞典》為基礎(chǔ),在其所列出的常用藏語(yǔ)同形異音詞的基礎(chǔ)上,我們共收集整理了465個(gè)藏語(yǔ)同形異音詞,并從372 320個(gè)句子文本中統(tǒng)計(jì)出了同形異音詞在藏語(yǔ)文本中的出現(xiàn)頻率。我們根據(jù)同形異音詞的出現(xiàn)頻率,選取了165個(gè)文本中出現(xiàn)頻率較高的詞,根據(jù)文本分析獲取現(xiàn)代藏語(yǔ)文本中每個(gè)同形異音詞不同讀音的使用頻率,最終整理出140個(gè)同形異音詞作為本文研究的重點(diǎn)。前20個(gè)同形異音詞在35 890句藏文文本中的數(shù)據(jù)統(tǒng)計(jì)結(jié)果如表2所示。
表2 同形異音詞的出現(xiàn)頻率(前20個(gè)詞)
續(xù)表
藏語(yǔ)中所謂的同形異音詞,是指拼寫相同而讀音及詞義不同的詞,也可稱為“同形異音異義的詞”,與其他語(yǔ)言中所謂的多音詞在本質(zhì)上有很大的區(qū)別。例如,漢字中有許多多音字,多數(shù)多音字在詞的層面只有唯一的讀音,而多音詞在具體的語(yǔ)境中聯(lián)系上下文才能判斷正確的讀音。在很多不同語(yǔ)言中都有多音詞(同形異音詞),而藏語(yǔ)同形異音詞通常并不完全是帶有多音字的詞語(yǔ),它與雙音詞是兩個(gè)不同的概念[10-11]。
雖藏語(yǔ)中基本不存在多音字的概念,但很多藏語(yǔ)雙音節(jié)詞在不同的語(yǔ)言環(huán)境中,由于聲調(diào)的高低、強(qiáng)弱的不同,會(huì)發(fā)生不同的變化。因而,存在同形異音異義的詞(homograph)。在計(jì)算語(yǔ)言學(xué)中為了與異形同音詞的加以區(qū)分,被稱為藏語(yǔ)同形異音詞。
從藏語(yǔ)構(gòu)詞法的角度分析,藏語(yǔ)同形異音詞有單純?cè)~和合成詞的區(qū)別。這類詞的數(shù)量并不多,常用詞中可能只有數(shù)百個(gè)。藏語(yǔ)同形異音詞的構(gòu)詞形式只可以分成兩種,一是詞綴和結(jié)尾的詞。即準(zhǔn)確地判斷該詞后音節(jié)或是表義詞綴()還是表形詞綴()。因詞性不同而讀音不同,一般詞義也不同。例如,
第一類同形異音詞的結(jié)構(gòu)與維吾爾語(yǔ)多音詞相似,由詞根和詞綴構(gòu)成,同形異音詞詞根連接構(gòu)詞詞綴和構(gòu)形詞綴會(huì)構(gòu)成大量的同形異音詞,它們不僅發(fā)音有區(qū)別,并且改變?cè)~的意義,對(duì)合成文本的可理解度有很大的影響[15]。
第二類同形異音詞是屬于組合型分詞歧義問題。即詞的讀音區(qū)別主要取決于藏文自動(dòng)分詞和詞性預(yù)測(cè)的準(zhǔn)確率。若不能準(zhǔn)確地切分詞語(yǔ),會(huì)導(dǎo)致詞性標(biāo)記錯(cuò)誤。然而,發(fā)出錯(cuò)誤的讀音,會(huì)改變?cè)~的意思[16-18]。兩種同形異音詞的所占比例如表3所示。
表3 兩種同形異音詞的所占比例
根據(jù)藏語(yǔ)音勢(shì)論、藏語(yǔ)構(gòu)詞法及語(yǔ)法學(xué),深度辨析藏語(yǔ)文本中同形異音詞的表現(xiàn)形式,并在大規(guī)模語(yǔ)料中統(tǒng)計(jì)出同形異音詞的出現(xiàn)頻率和不同讀音的使用頻率,及同形異音詞的本身特征。本文把藏語(yǔ)同形異音詞分為四類。
表4 第一類同形異音詞(T1)
表5 第二類同形異音詞(T2)
表6 第三類同形異音詞(T3)
第四類: (D1>>D2)詞的另一種讀音在文本中使用頻率遠(yuǎn)大于另一個(gè)讀音,并難以由上下文語(yǔ)境信息來(lái)確定讀音的詞(T4表示)。同形異音詞不同讀音的使用頻率相差懸殊,在藏語(yǔ)實(shí)際文本中僅有一個(gè)讀音經(jīng)常出現(xiàn),而另一種讀音很少出現(xiàn)的同形異音詞在所有同形異音詞中也占有一定的比例。這類同形異音詞主要是另一種讀音的使用頻率隨著現(xiàn)代語(yǔ)言學(xué)的發(fā)展變化而逐漸減少,且這些詞難以由上下文語(yǔ)境信息來(lái)判斷正確的讀音。如表7所示。
表7 第四類同形異音詞(T4)
圖2 同形異音詞不同類型的數(shù)據(jù)分析結(jié)果
基于規(guī)則的消歧方法主要依據(jù)語(yǔ)言學(xué)規(guī)則,它具有很強(qiáng)的形式描述能力和形式生成能力,在自然語(yǔ)言處理領(lǐng)域中有很好的應(yīng)用價(jià)值。通常做法是,通過人工方式依靠一定的專家知識(shí)來(lái)建立相對(duì)完備的規(guī)則庫(kù),在藏語(yǔ)TTS系統(tǒng)前端文本分析中可以有效地能夠處理同形異音詞讀音判斷等困難。
(1) 高頻默認(rèn)
在實(shí)際文本中,有些同形異音詞并沒有多個(gè)讀音的形式出現(xiàn),即在語(yǔ)料庫(kù)中僅有一個(gè)讀音經(jīng)常出現(xiàn)。而另一種讀音極少出現(xiàn),并且難以由上下文語(yǔ)境信息來(lái)判斷正確讀音的同形異音詞。因此,我們遵循基于真實(shí)語(yǔ)料的原則,采用高頻默認(rèn)方法來(lái)處理“第四類”同形異音詞的讀音,對(duì)這類同形異音詞一律標(biāo)注為高頻音。
(2) 同形異音詞所在句中的位置
(3) 同形異音詞所在虛詞及助詞的位置
1.4 SNPs位點(diǎn)的選擇 通過查詢NCBI db SNP數(shù)據(jù)庫(kù)以及phaseⅡHapma數(shù)據(jù)庫(kù)并對(duì)數(shù)據(jù)庫(kù)中ATG5基因相關(guān)多態(tài)性位點(diǎn)進(jìn)行篩選,結(jié)合多態(tài)性位點(diǎn)所處的功能結(jié)構(gòu)區(qū)域、多態(tài)性位點(diǎn)在我國(guó)人群中的最小等位基因頻率(MAF>0.1)以及國(guó)內(nèi)外學(xué)者對(duì)該基因多態(tài)性位點(diǎn)的功能性研究結(jié)論等影響因子,依照本研究的目的和所預(yù)期的試驗(yàn)效果,選取ATG5基因中rs573775、rs510432、rs6568431、rs2299863 以及 rs38043385這個(gè)多態(tài)性位點(diǎn)。
在藏語(yǔ)傳統(tǒng)語(yǔ)言學(xué)中,對(duì)于虛詞及一些常用助詞我們是可以窮盡的,且在句子文本中與同形異音詞具有一定的搭配規(guī)則。
(4) 同形異音詞所在關(guān)鍵詞的位置
(5) 同形異音詞本身的信息
基于規(guī)則的同形異音詞讀音識(shí)別流程如圖3所示。
圖3 同形異音詞自動(dòng)標(biāo)音流程圖
本文通過以上五個(gè)不同的消歧規(guī)則,對(duì)當(dāng)前在藏語(yǔ)語(yǔ)音合成系統(tǒng)前端文本分析中出現(xiàn)的140個(gè)高頻同形異音詞讀音進(jìn)行了測(cè)試實(shí)驗(yàn)。實(shí)驗(yàn)數(shù)據(jù)為從9萬(wàn)多句語(yǔ)料庫(kù)中挑選出的含有140個(gè)同形異音詞的句子,共計(jì)35 890句。實(shí)驗(yàn)結(jié)果如表8所示。
表8 實(shí)驗(yàn)結(jié)果
實(shí)驗(yàn)表明,本文采用基于規(guī)則的消歧方法對(duì)140個(gè)高頻同形異音詞的讀音識(shí)別率高達(dá)95%。經(jīng)實(shí)驗(yàn)結(jié)果分析得出,采用的規(guī)則方法對(duì)同形異音詞的消歧具有很強(qiáng)的分析能力,但同時(shí)也存在一定的解析困難。當(dāng)然,基于規(guī)則的方法主要依賴于規(guī)則集的可靠性,若規(guī)則集不完整或整理不全等問題會(huì)直接影響最終的識(shí)別結(jié)果,同時(shí)還存在一些規(guī)則沖突的問題。
本文針對(duì)目前藏語(yǔ)語(yǔ)音合成系統(tǒng)的突出問題,深度分析了藏語(yǔ)同形異音詞的結(jié)構(gòu)及分類,并收集整理了較大規(guī)模的藏語(yǔ)句子文本,為進(jìn)一步分析和處理藏語(yǔ)同形異音詞的正確讀音準(zhǔn)備了素材。根據(jù)藏語(yǔ)同形異音詞的統(tǒng)計(jì)和分析,結(jié)果得出: 藏語(yǔ)中同形異音詞的出現(xiàn)主要問題在于詞語(yǔ)切分和詞性預(yù)測(cè)的準(zhǔn)確性。不同的讀音具有不同的詞性,詞義也不同。由于藏語(yǔ)本身受限于資源的不足,目前還無(wú)法從語(yǔ)義角度處理同形異音詞的讀音問題。
如果使用規(guī)則的方法進(jìn)行同形異音詞的讀音分析,需對(duì)每一個(gè)詞都要具體問題具體分析,這樣不僅消耗大,也會(huì)發(fā)生規(guī)則沖突。因此,我們認(rèn)為同形異音詞的讀音問題解決方法是在基于規(guī)則方法的基礎(chǔ)上,使用以大規(guī)模的標(biāo)注語(yǔ)料庫(kù)(Annotated Corpus)為基礎(chǔ)的統(tǒng)計(jì)學(xué)方法[19],即兩種方法結(jié)合可實(shí)現(xiàn)優(yōu)勢(shì)互補(bǔ),不僅減少算法的復(fù)雜性,而且還能獲取更好的識(shí)別結(jié)果。下一步我們計(jì)劃統(tǒng)計(jì)并擴(kuò)充藏語(yǔ)同形異音詞,盡可能地獲取較大規(guī)模的標(biāo)注語(yǔ)料庫(kù)。在此基礎(chǔ)上實(shí)現(xiàn)基于規(guī)則和統(tǒng)計(jì)結(jié)合的同形異音詞自動(dòng)標(biāo)音方法,進(jìn)一步提高同形異音詞的讀音準(zhǔn)確率和工作效率。
本文在語(yǔ)音合成方面的工作是在西藏大學(xué)和科大訊飛公司關(guān)于藏語(yǔ)語(yǔ)音合成的研究成果基礎(chǔ)上進(jìn)行的,特別是在處理同形異音詞的技術(shù)方面得到了科大訊飛多語(yǔ)種研發(fā)團(tuán)隊(duì)邵鵬飛、朱榮華、蔡明琦三位研究員的技術(shù)支持和具體幫助。關(guān)于語(yǔ)料庫(kù)的設(shè)計(jì)思想及問題分析受益于西藏大學(xué)研究生處趙棟材副教授的指導(dǎo),他為本文的研究?jī)?nèi)容提出了寶貴的意見。在此,向指導(dǎo)和幫助過的研發(fā)團(tuán)隊(duì)及個(gè)人表示由衷的謝意!