• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      藏語(yǔ)同形異音詞的消歧方法研究

      2018-08-17 07:10:40拉巴頓珠祖漪清裴春寶
      中文信息學(xué)報(bào) 2018年7期
      關(guān)鍵詞:異音同形藏語(yǔ)

      拉巴頓珠,歐 珠,2,祖漪清,裴春寶

      (1. 西藏大學(xué) 信息科學(xué)技術(shù)學(xué)院 藏文信息技術(shù)研究中心,西藏 拉薩 850000;2. 西藏民族大學(xué),陜西 咸陽(yáng) 712000;3. 科大訊飛股份有限公司,安徽 合肥 230088)

      0 引言

      以往在藏語(yǔ)語(yǔ)音合成技術(shù)方面,人們一直認(rèn)為合成中藏語(yǔ)讀音問題通過規(guī)則已解決,故目前很少有研究藏語(yǔ)語(yǔ)音合成中由于分詞歧義造成讀音不正確的問題。而藏語(yǔ)合成語(yǔ)音自然度和可懂度的測(cè)試結(jié)果表明,在藏語(yǔ)中,音節(jié)的聲母、韻母讀音錯(cuò)誤不大,但存在聲調(diào)古怪的情況。聲調(diào)讀法不正確往往與詞性判斷不恰當(dāng)有關(guān),而詞性標(biāo)記的不正確來(lái)源于分詞的準(zhǔn)確性。讀音不正確不僅使合成語(yǔ)音發(fā)音不自然,甚至?xí)淖冋麄€(gè)句子的意思,對(duì)文本的可懂度有很大的影響。因此,如何判別其正確的讀音就成為語(yǔ)音合成系統(tǒng)不得不解決的問題[7]。

      字-音轉(zhuǎn)換研究,是語(yǔ)音合成系統(tǒng)的前端文本分析的重要模塊,其目的是將文字序列轉(zhuǎn)換成相應(yīng)的音標(biāo)序列。首先對(duì)輸入文本進(jìn)行準(zhǔn)確可行的分析,經(jīng)過預(yù)處理后給語(yǔ)音合成后端提供必要的信息。目前藏語(yǔ)字音轉(zhuǎn)換正確率在很大程度上取決于同形異音詞的讀音識(shí)別正確性,而同形異音詞的讀音判斷又取決于藏文自動(dòng)分詞和詞性預(yù)測(cè)的準(zhǔn)確率。目前,漢語(yǔ)、英語(yǔ)等語(yǔ)言中對(duì)多音詞消歧方法的研究已有不少[8-11],而對(duì)藏語(yǔ)的相關(guān)研究還處于初始階段,甚至到目前為止國(guó)內(nèi)外相關(guān)研究學(xué)者對(duì)藏語(yǔ)同形異音詞方面未曾有研究工作及相關(guān)報(bào)告。

      本文分以下幾個(gè)方面進(jìn)行論述: 第一節(jié)詳細(xì)介紹了語(yǔ)料庫(kù)的來(lái)源、數(shù)量及最終實(shí)驗(yàn)數(shù)據(jù)的選取情況;第二節(jié)是藏語(yǔ)同形異音詞的構(gòu)詞研究;第三節(jié)對(duì)藏語(yǔ)同形異音詞進(jìn)行分類;第四節(jié)提出了基于規(guī)則的同形異音詞消歧方法;第五節(jié)對(duì)基于規(guī)則的消歧方法的實(shí)驗(yàn)結(jié)果進(jìn)行了分析;第六節(jié)給出分析的結(jié)論及今后的研究計(jì)劃。

      1 語(yǔ)料庫(kù)的設(shè)計(jì)及分析

      1.1 語(yǔ)料庫(kù)的設(shè)計(jì)原則及標(biāo)注方法

      1.1.1 語(yǔ)料庫(kù)的設(shè)計(jì)原則

      “語(yǔ)料”收集是進(jìn)行語(yǔ)音合成的基礎(chǔ)工作,通常的做法是盡可能多地收集大規(guī)模的自然語(yǔ)料來(lái)為挑選訓(xùn)練語(yǔ)料和測(cè)試數(shù)據(jù)提供支撐。但為了有針對(duì)性地研究同形異音詞,需要專門設(shè)計(jì)語(yǔ)料。設(shè)計(jì)原則是,以盡量少的語(yǔ)料,盡可能多地覆蓋研究對(duì)象。

      1.1.2 語(yǔ)料來(lái)源

      本文主要在《西藏日?qǐng)?bào)》藏文版和中國(guó)西藏新聞網(wǎng)藏文版等一些不同藏文網(wǎng)站上收集了含有法律、新聞、教育、醫(yī)學(xué)、詩(shī)歌、文學(xué)等不同領(lǐng)域中具有代表性的語(yǔ)料共37萬(wàn)多個(gè)相對(duì)獨(dú)立的句子,同時(shí)還考慮了文獻(xiàn)的年代、地域等問題。經(jīng)過自動(dòng)過濾和人工校對(duì)將太長(zhǎng)和太短、不完整的句子以及含有不常用的梵文的句子去除后剩28萬(wàn)多個(gè)句子,其中還有一些語(yǔ)料來(lái)自詞典中的例句及日常生活中常用的語(yǔ)句,從而形成了原始語(yǔ)料。然后利用貪心(greedy)算法進(jìn)行篩選,從28萬(wàn)多原始語(yǔ)料中挑選出含有140個(gè)同形異音詞的92 229個(gè)句子,并對(duì)語(yǔ)料進(jìn)行反復(fù)的優(yōu)化(包括去重),最終選取最大覆蓋藏語(yǔ)同形異音詞的精煉語(yǔ)料共計(jì)35 890句作為訓(xùn)練數(shù)據(jù)及測(cè)試集,本文實(shí)驗(yàn)數(shù)據(jù)的具體構(gòu)成情況及數(shù)量統(tǒng)計(jì)結(jié)果如圖1所示。

      本文收集各種語(yǔ)料時(shí),為了更全面地描述和覆蓋更多的語(yǔ)言現(xiàn)象,根據(jù)語(yǔ)料本身所表達(dá)的內(nèi)容不同,我們主要收集整理了不同類別的句子文本。但由于各網(wǎng)站所發(fā)布和關(guān)注的側(cè)重點(diǎn)不同,只利用一個(gè)網(wǎng)站無(wú)法覆蓋所有類型的語(yǔ)料,因此,語(yǔ)料庫(kù)的具體來(lái)源及分布存在一定的差異,本文語(yǔ)料庫(kù)的具體構(gòu)成情況如表1所示。

      表1 語(yǔ)料的來(lái)源及數(shù)量

      1.1.3 語(yǔ)料庫(kù)的標(biāo)注方法

      “語(yǔ)料庫(kù)不是任意文本的隨意堆積。為了發(fā)揮語(yǔ)料庫(kù)的作用,通常都需要對(duì)語(yǔ)料庫(kù)進(jìn)行一定的加工,進(jìn)行何種加工和加工深度如何通常和應(yīng)用目標(biāo)相關(guān)”[12]。因此,收集和整理的語(yǔ)料根據(jù)不同領(lǐng)域中的應(yīng)用需求出發(fā)。為了達(dá)到更好的數(shù)據(jù)訓(xùn)練及最終實(shí)驗(yàn)效果,我們特制定較為規(guī)范的標(biāo)記方法,本文對(duì)語(yǔ)料庫(kù)的標(biāo)注方面做出以下幾條統(tǒng)一規(guī)范。

      (1) 語(yǔ)料庫(kù)整體的規(guī)范

      在信息處理領(lǐng)域中,很多藏文語(yǔ)料存在著編碼不一且不同編碼之間互不兼容等問題。這些問題導(dǎo)致語(yǔ)料分散資源無(wú)法共享等后果,這對(duì)語(yǔ)料庫(kù)的設(shè)計(jì)帶來(lái)了一定的困難[13]。目前有同元、班智達(dá)、桑布扎、北大方正、華光、藏文編碼字符集擴(kuò)充集和加央(jamyang)等近10種不同編碼的藏文字處理軟件。因此,為了便于對(duì)語(yǔ)料庫(kù)進(jìn)行管理、處理和共享,我們?cè)谑占鞣N大量文本時(shí),將不同編碼的藏文語(yǔ)料全部統(tǒng)一為ISO/IEC10646(Unicode6.2)的小字符集編碼,以TXT文本格式保存。

      (2) 分詞和詞性標(biāo)記的規(guī)范

      首先,利用傳統(tǒng)的分詞器對(duì)所有實(shí)驗(yàn)數(shù)據(jù)進(jìn)行自動(dòng)分詞,并對(duì)每一個(gè)分詞單位給出初始的詞性。然后,通過規(guī)則和統(tǒng)計(jì)相結(jié)合的方法排除歧義。整個(gè)文本的詞語(yǔ)切分和詞性標(biāo)記都以“信息處理用藏語(yǔ)詞類標(biāo)記集規(guī)范”和“信息處理用現(xiàn)代藏文分詞規(guī)范”[4]為基礎(chǔ),結(jié)合藏語(yǔ)構(gòu)詞規(guī)則,再根據(jù)我們自己的實(shí)踐經(jīng)驗(yàn),以及總結(jié)、整理發(fā)現(xiàn)的一些新處理規(guī)律,對(duì)基本規(guī)范進(jìn)行改進(jìn)、補(bǔ)充和調(diào)整,形成了分詞和標(biāo)注結(jié)合的規(guī)范。從實(shí)際文本的內(nèi)容和不同應(yīng)用的研究來(lái)看,考慮不同的處理側(cè)重點(diǎn),本文針對(duì)藏語(yǔ)語(yǔ)音合成系統(tǒng)前端文本分析中的切分和標(biāo)記方面包括以下三個(gè)具體的規(guī)范。

      1) 切分規(guī)范

      3) 存在兩種以上詞性的標(biāo)記規(guī)范

      1.2 同形異音詞的頻率分析

      本文以《藏漢大詞典》為基礎(chǔ),在其所列出的常用藏語(yǔ)同形異音詞的基礎(chǔ)上,我們共收集整理了465個(gè)藏語(yǔ)同形異音詞,并從372 320個(gè)句子文本中統(tǒng)計(jì)出了同形異音詞在藏語(yǔ)文本中的出現(xiàn)頻率。我們根據(jù)同形異音詞的出現(xiàn)頻率,選取了165個(gè)文本中出現(xiàn)頻率較高的詞,根據(jù)文本分析獲取現(xiàn)代藏語(yǔ)文本中每個(gè)同形異音詞不同讀音的使用頻率,最終整理出140個(gè)同形異音詞作為本文研究的重點(diǎn)。前20個(gè)同形異音詞在35 890句藏文文本中的數(shù)據(jù)統(tǒng)計(jì)結(jié)果如表2所示。

      表2 同形異音詞的出現(xiàn)頻率(前20個(gè)詞)

      續(xù)表

      2 藏語(yǔ)同形異音詞的概念及構(gòu)詞研究

      2.1 藏語(yǔ)同形異音詞的界定

      藏語(yǔ)中所謂的同形異音詞,是指拼寫相同而讀音及詞義不同的詞,也可稱為“同形異音異義的詞”,與其他語(yǔ)言中所謂的多音詞在本質(zhì)上有很大的區(qū)別。例如,漢字中有許多多音字,多數(shù)多音字在詞的層面只有唯一的讀音,而多音詞在具體的語(yǔ)境中聯(lián)系上下文才能判斷正確的讀音。在很多不同語(yǔ)言中都有多音詞(同形異音詞),而藏語(yǔ)同形異音詞通常并不完全是帶有多音字的詞語(yǔ),它與雙音詞是兩個(gè)不同的概念[10-11]。

      雖藏語(yǔ)中基本不存在多音字的概念,但很多藏語(yǔ)雙音節(jié)詞在不同的語(yǔ)言環(huán)境中,由于聲調(diào)的高低、強(qiáng)弱的不同,會(huì)發(fā)生不同的變化。因而,存在同形異音異義的詞(homograph)。在計(jì)算語(yǔ)言學(xué)中為了與異形同音詞的加以區(qū)分,被稱為藏語(yǔ)同形異音詞。

      2.2 藏語(yǔ)同形異音詞的構(gòu)詞形式

      從藏語(yǔ)構(gòu)詞法的角度分析,藏語(yǔ)同形異音詞有單純?cè)~和合成詞的區(qū)別。這類詞的數(shù)量并不多,常用詞中可能只有數(shù)百個(gè)。藏語(yǔ)同形異音詞的構(gòu)詞形式只可以分成兩種,一是詞綴和結(jié)尾的詞。即準(zhǔn)確地判斷該詞后音節(jié)或是表義詞綴()還是表形詞綴()。因詞性不同而讀音不同,一般詞義也不同。例如,

      第一類同形異音詞的結(jié)構(gòu)與維吾爾語(yǔ)多音詞相似,由詞根和詞綴構(gòu)成,同形異音詞詞根連接構(gòu)詞詞綴和構(gòu)形詞綴會(huì)構(gòu)成大量的同形異音詞,它們不僅發(fā)音有區(qū)別,并且改變?cè)~的意義,對(duì)合成文本的可理解度有很大的影響[15]。

      第二類同形異音詞是屬于組合型分詞歧義問題。即詞的讀音區(qū)別主要取決于藏文自動(dòng)分詞和詞性預(yù)測(cè)的準(zhǔn)確率。若不能準(zhǔn)確地切分詞語(yǔ),會(huì)導(dǎo)致詞性標(biāo)記錯(cuò)誤。然而,發(fā)出錯(cuò)誤的讀音,會(huì)改變?cè)~的意思[16-18]。兩種同形異音詞的所占比例如表3所示。

      表3 兩種同形異音詞的所占比例

      3 藏語(yǔ)同形異音詞的分類

      根據(jù)藏語(yǔ)音勢(shì)論、藏語(yǔ)構(gòu)詞法及語(yǔ)法學(xué),深度辨析藏語(yǔ)文本中同形異音詞的表現(xiàn)形式,并在大規(guī)模語(yǔ)料中統(tǒng)計(jì)出同形異音詞的出現(xiàn)頻率和不同讀音的使用頻率,及同形異音詞的本身特征。本文把藏語(yǔ)同形異音詞分為四類。

      表4 第一類同形異音詞(T1)

      表5 第二類同形異音詞(T2)

      表6 第三類同形異音詞(T3)

      第四類: (D1>>D2)詞的另一種讀音在文本中使用頻率遠(yuǎn)大于另一個(gè)讀音,并難以由上下文語(yǔ)境信息來(lái)確定讀音的詞(T4表示)。同形異音詞不同讀音的使用頻率相差懸殊,在藏語(yǔ)實(shí)際文本中僅有一個(gè)讀音經(jīng)常出現(xiàn),而另一種讀音很少出現(xiàn)的同形異音詞在所有同形異音詞中也占有一定的比例。這類同形異音詞主要是另一種讀音的使用頻率隨著現(xiàn)代語(yǔ)言學(xué)的發(fā)展變化而逐漸減少,且這些詞難以由上下文語(yǔ)境信息來(lái)判斷正確的讀音。如表7所示。

      表7 第四類同形異音詞(T4)

      圖2 同形異音詞不同類型的數(shù)據(jù)分析結(jié)果

      4 藏語(yǔ)同形異音詞消歧方法

      基于規(guī)則的消歧方法主要依據(jù)語(yǔ)言學(xué)規(guī)則,它具有很強(qiáng)的形式描述能力和形式生成能力,在自然語(yǔ)言處理領(lǐng)域中有很好的應(yīng)用價(jià)值。通常做法是,通過人工方式依靠一定的專家知識(shí)來(lái)建立相對(duì)完備的規(guī)則庫(kù),在藏語(yǔ)TTS系統(tǒng)前端文本分析中可以有效地能夠處理同形異音詞讀音判斷等困難。

      (1) 高頻默認(rèn)

      在實(shí)際文本中,有些同形異音詞并沒有多個(gè)讀音的形式出現(xiàn),即在語(yǔ)料庫(kù)中僅有一個(gè)讀音經(jīng)常出現(xiàn)。而另一種讀音極少出現(xiàn),并且難以由上下文語(yǔ)境信息來(lái)判斷正確讀音的同形異音詞。因此,我們遵循基于真實(shí)語(yǔ)料的原則,采用高頻默認(rèn)方法來(lái)處理“第四類”同形異音詞的讀音,對(duì)這類同形異音詞一律標(biāo)注為高頻音。

      (2) 同形異音詞所在句中的位置

      (3) 同形異音詞所在虛詞及助詞的位置

      1.4 SNPs位點(diǎn)的選擇 通過查詢NCBI db SNP數(shù)據(jù)庫(kù)以及phaseⅡHapma數(shù)據(jù)庫(kù)并對(duì)數(shù)據(jù)庫(kù)中ATG5基因相關(guān)多態(tài)性位點(diǎn)進(jìn)行篩選,結(jié)合多態(tài)性位點(diǎn)所處的功能結(jié)構(gòu)區(qū)域、多態(tài)性位點(diǎn)在我國(guó)人群中的最小等位基因頻率(MAF>0.1)以及國(guó)內(nèi)外學(xué)者對(duì)該基因多態(tài)性位點(diǎn)的功能性研究結(jié)論等影響因子,依照本研究的目的和所預(yù)期的試驗(yàn)效果,選取ATG5基因中rs573775、rs510432、rs6568431、rs2299863 以及 rs38043385這個(gè)多態(tài)性位點(diǎn)。

      在藏語(yǔ)傳統(tǒng)語(yǔ)言學(xué)中,對(duì)于虛詞及一些常用助詞我們是可以窮盡的,且在句子文本中與同形異音詞具有一定的搭配規(guī)則。

      (4) 同形異音詞所在關(guān)鍵詞的位置

      (5) 同形異音詞本身的信息

      基于規(guī)則的同形異音詞讀音識(shí)別流程如圖3所示。

      圖3 同形異音詞自動(dòng)標(biāo)音流程圖

      5 實(shí)驗(yàn)結(jié)果分析

      本文通過以上五個(gè)不同的消歧規(guī)則,對(duì)當(dāng)前在藏語(yǔ)語(yǔ)音合成系統(tǒng)前端文本分析中出現(xiàn)的140個(gè)高頻同形異音詞讀音進(jìn)行了測(cè)試實(shí)驗(yàn)。實(shí)驗(yàn)數(shù)據(jù)為從9萬(wàn)多句語(yǔ)料庫(kù)中挑選出的含有140個(gè)同形異音詞的句子,共計(jì)35 890句。實(shí)驗(yàn)結(jié)果如表8所示。

      表8 實(shí)驗(yàn)結(jié)果

      實(shí)驗(yàn)表明,本文采用基于規(guī)則的消歧方法對(duì)140個(gè)高頻同形異音詞的讀音識(shí)別率高達(dá)95%。經(jīng)實(shí)驗(yàn)結(jié)果分析得出,采用的規(guī)則方法對(duì)同形異音詞的消歧具有很強(qiáng)的分析能力,但同時(shí)也存在一定的解析困難。當(dāng)然,基于規(guī)則的方法主要依賴于規(guī)則集的可靠性,若規(guī)則集不完整或整理不全等問題會(huì)直接影響最終的識(shí)別結(jié)果,同時(shí)還存在一些規(guī)則沖突的問題。

      6 結(jié)束語(yǔ)

      本文針對(duì)目前藏語(yǔ)語(yǔ)音合成系統(tǒng)的突出問題,深度分析了藏語(yǔ)同形異音詞的結(jié)構(gòu)及分類,并收集整理了較大規(guī)模的藏語(yǔ)句子文本,為進(jìn)一步分析和處理藏語(yǔ)同形異音詞的正確讀音準(zhǔn)備了素材。根據(jù)藏語(yǔ)同形異音詞的統(tǒng)計(jì)和分析,結(jié)果得出: 藏語(yǔ)中同形異音詞的出現(xiàn)主要問題在于詞語(yǔ)切分和詞性預(yù)測(cè)的準(zhǔn)確性。不同的讀音具有不同的詞性,詞義也不同。由于藏語(yǔ)本身受限于資源的不足,目前還無(wú)法從語(yǔ)義角度處理同形異音詞的讀音問題。

      如果使用規(guī)則的方法進(jìn)行同形異音詞的讀音分析,需對(duì)每一個(gè)詞都要具體問題具體分析,這樣不僅消耗大,也會(huì)發(fā)生規(guī)則沖突。因此,我們認(rèn)為同形異音詞的讀音問題解決方法是在基于規(guī)則方法的基礎(chǔ)上,使用以大規(guī)模的標(biāo)注語(yǔ)料庫(kù)(Annotated Corpus)為基礎(chǔ)的統(tǒng)計(jì)學(xué)方法[19],即兩種方法結(jié)合可實(shí)現(xiàn)優(yōu)勢(shì)互補(bǔ),不僅減少算法的復(fù)雜性,而且還能獲取更好的識(shí)別結(jié)果。下一步我們計(jì)劃統(tǒng)計(jì)并擴(kuò)充藏語(yǔ)同形異音詞,盡可能地獲取較大規(guī)模的標(biāo)注語(yǔ)料庫(kù)。在此基礎(chǔ)上實(shí)現(xiàn)基于規(guī)則和統(tǒng)計(jì)結(jié)合的同形異音詞自動(dòng)標(biāo)音方法,進(jìn)一步提高同形異音詞的讀音準(zhǔn)確率和工作效率。

      致謝

      本文在語(yǔ)音合成方面的工作是在西藏大學(xué)和科大訊飛公司關(guān)于藏語(yǔ)語(yǔ)音合成的研究成果基礎(chǔ)上進(jìn)行的,特別是在處理同形異音詞的技術(shù)方面得到了科大訊飛多語(yǔ)種研發(fā)團(tuán)隊(duì)邵鵬飛、朱榮華、蔡明琦三位研究員的技術(shù)支持和具體幫助。關(guān)于語(yǔ)料庫(kù)的設(shè)計(jì)思想及問題分析受益于西藏大學(xué)研究生處趙棟材副教授的指導(dǎo),他為本文的研究?jī)?nèi)容提出了寶貴的意見。在此,向指導(dǎo)和幫助過的研發(fā)團(tuán)隊(duì)及個(gè)人表示由衷的謝意!

      猜你喜歡
      異音同形藏語(yǔ)
      韓漢同形完全異義詞略考
      淺談藏語(yǔ)中的禮儀語(yǔ)
      客聯(lián)(2022年2期)2022-04-29 22:05:07
      常見的同音異形詞和同形異音詞
      漢藏語(yǔ)及其音樂
      佛經(jīng)音義同形字輯釋
      壯字喃字同形字的三種類別及簡(jiǎn)要分析
      藏語(yǔ)拉達(dá)克話的幾個(gè)語(yǔ)音特征
      西藏研究(2017年3期)2017-09-05 09:44:58
      藏語(yǔ)地理分布格局的形成原因
      西藏研究(2016年5期)2016-06-15 12:56:42
      吸油煙機(jī)產(chǎn)品的關(guān)鍵性能及相關(guān)影響因素
      科技資訊(2014年26期)2014-12-03 00:49:24
      DF11型機(jī)車啟動(dòng)變速箱異音的故障分析及處理方法
      卷宗(2014年3期)2014-04-29 02:39:10
      台南县| 绩溪县| 尼玛县| 太保市| 同德县| 肃北| 库伦旗| 玉环县| 乡城县| 周至县| 西乌珠穆沁旗| 瑞昌市| 凤山市| 陵水| 泗水县| 晴隆县| 新津县| 南靖县| 齐河县| 游戏| 石狮市| 达尔| 兰溪市| 绵竹市| 马鞍山市| 漳浦县| 陕西省| 长垣县| 漳浦县| 额敏县| 图木舒克市| 通化县| 海晏县| 沙坪坝区| 龙海市| 丽江市| 汽车| 鞍山市| 肇源县| 胶州市| 孟州市|