• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      藏語自動標(biāo)音系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)

      2015-05-30 20:22:09艾金勇陳小瑩劉澤國
      關(guān)鍵詞:藏語

      艾金勇 陳小瑩 劉澤國

      摘要:本文在對藏文文本規(guī)范化、藏文音節(jié)結(jié)構(gòu)確定和藏文SAMPA的設(shè)計(jì)與實(shí)現(xiàn)的基礎(chǔ)上,設(shè)計(jì)與實(shí)現(xiàn)了藏語自動標(biāo)音系統(tǒng)。藏語字音轉(zhuǎn)換是文語轉(zhuǎn)換系統(tǒng)中必不可少的一個(gè)模塊,具體可以將藏文文字的拼寫形式轉(zhuǎn)換成音素的形式表示出來,解決從藏文文字到語音音標(biāo)的轉(zhuǎn)換問題。

      關(guān)鍵詞:藏語;語音合成;自動標(biāo)音

      中圖分類號:TP391文獻(xiàn)標(biāo)識碼: A文章編號:2095-2163(2015)06-

      Abstract:Based on determining the Tibetan text specification, Tibetan syllable structure and design and implementation of Tibetan sampa, the paperstudies and presents the Tibetan automatic transcription system. Tibetan grapheme to phoneme conversion is a essential module for text to speech system, which can convertthe Tibetan language spelling form into phonemes representation, in order to solve the problem from the Tibetan text to speech phonetic conversion.

      Keywords:Tibetan Language;Speech Synthesis;Automatic Labeling

      0引 言

      隨著語音合成技術(shù)的發(fā)展及越來越多語音產(chǎn)品的出現(xiàn),人機(jī)交互技術(shù)的應(yīng)用也更加廣泛,這些技術(shù)的應(yīng)用大大提高了人們的工作效率。在語音合成系統(tǒng)中,首要解決的問題是文字如何發(fā)音,這就需要將文字轉(zhuǎn)化成發(fā)音因素的音標(biāo)形式,建立與文字相對應(yīng)的音標(biāo)數(shù)據(jù)庫[1]。在語音合成時(shí),主要利用字符匹配的方法來獲取數(shù)據(jù)庫里對應(yīng)的音標(biāo)。在漢語的文語轉(zhuǎn)換系統(tǒng)中,已經(jīng)實(shí)現(xiàn)了將漢字轉(zhuǎn)化成漢語拼音這一功能,在英語和德語等語言的語音合成中,也完成了字素到音素的自動轉(zhuǎn)換[2]。但是在藏語語音合成系統(tǒng)的相關(guān)研究中還沒有關(guān)于自動注音方面系統(tǒng)性的文獻(xiàn)和成果,基于此,本文提出了實(shí)現(xiàn)藏語字音轉(zhuǎn)換的研究目標(biāo),作為文語轉(zhuǎn)換系統(tǒng)中必不可少的一個(gè)模塊,具體可以將藏文文字的拼寫形式轉(zhuǎn)換成音素的形式表示出來,解決從藏文文字到語音音標(biāo)的轉(zhuǎn)換問題。

      1 系統(tǒng)設(shè)計(jì)及運(yùn)行環(huán)境

      1.1 系統(tǒng)設(shè)計(jì)方案

      本文在分析藏文的文字特征和對應(yīng)語法規(guī)則的基礎(chǔ)上,制定藏文文本的規(guī)范化方案;通過對小字符集編碼文字特征分析,提出藏文部件拆分算法,實(shí)現(xiàn)藏文文字的識別和分解;最后根據(jù)藏語各方言區(qū)的聲韻調(diào)特征,建立基于SAMPA碼的藏語各方言區(qū)機(jī)讀音標(biāo)系統(tǒng),并參照藏語的拼讀規(guī)則最終實(shí)現(xiàn)藏文音節(jié)的自動標(biāo)注[3-4]。

      在完成系統(tǒng)總體設(shè)計(jì)方案、部件確定算法及機(jī)讀音標(biāo)的設(shè)計(jì)后,把所有的算法整合運(yùn)用到藏語自動注音系統(tǒng)中,以實(shí)現(xiàn)自動注音系統(tǒng)的整體功能。通過對文本切分,藏文文本自動注音就轉(zhuǎn)化為藏語單音節(jié)自動注音,單音節(jié)自動注音的整體流程如圖1所示。

      1.2系統(tǒng)運(yùn)行環(huán)境

      系統(tǒng)運(yùn)行環(huán)境主要包括硬件環(huán)境和軟件開發(fā)環(huán)境。硬件環(huán)境是指對應(yīng)的硬件配套設(shè)施。軟件開發(fā)環(huán)境主要指Web操作系統(tǒng),數(shù)據(jù)庫系統(tǒng)和應(yīng)用系統(tǒng)開發(fā)平臺。良好的軟件開發(fā)環(huán)境有利于系統(tǒng)開發(fā)人員設(shè)計(jì),還有助于快速滿足用戶需求。

      1.2.1 Web操作系統(tǒng)和數(shù)據(jù)庫系統(tǒng)

      由于Windows系統(tǒng)在國內(nèi)使用較廣,且不同的系統(tǒng)之間具有統(tǒng)一的界面,人機(jī)交互比較方便,普通用戶的使用更加容易。此外,Windows網(wǎng)絡(luò)操作系統(tǒng)比較穩(wěn)定,基本上能夠滿足所有中、小型網(wǎng)絡(luò)系統(tǒng)的需求,硬件配置相對較低?;谏鲜隹紤],Web服務(wù)器平臺系統(tǒng)采用Microsoft Windows 2008 server+IIS7.0,采用SQL Server 2008作為數(shù)據(jù)庫服務(wù)的管理工具。

      1.2.2 開發(fā)工具

      通過前期系統(tǒng)需求分析以及系統(tǒng)設(shè)計(jì)方案的分析考慮,藏文自動標(biāo)音系統(tǒng)的開發(fā)工具采用了Visual Studio.NET2010,程序設(shè)計(jì)語言選擇C#,C#是基于.NET4.0平臺的成熟完整的開發(fā)語言,擁有較為完善的Web Services技術(shù)框架,可以極大地縮短Web服務(wù)的開發(fā)周期,同時(shí)ADO.NET數(shù)據(jù)庫訪問技術(shù)能夠使用.NET架構(gòu)的最新特性。

      2前臺模塊具體實(shí)現(xiàn)

      2.1規(guī)范化文本模塊

      規(guī)范化文本模塊的流程通過收集整理藏文文本中出現(xiàn)的不屬于藏文字符的現(xiàn)象,設(shè)計(jì)處理此類文本的一些規(guī)則,收集整理網(wǎng)絡(luò)媒體、報(bào)紙以及書本上出現(xiàn)的各種不規(guī)范文本現(xiàn)象,分析出現(xiàn)的語境以及具體的使用范圍,最后確立相應(yīng)的知識庫。

      2.2音節(jié)結(jié)構(gòu)劃分模塊

      音節(jié)結(jié)構(gòu)劃分模塊首先需要對規(guī)范化的文本進(jìn)行音節(jié)切分工作,音節(jié)切分主要利用藏文文本構(gòu)成規(guī)則,以及規(guī)范化文本中對其它音節(jié)間隔符號的處理結(jié)果,直接根據(jù)音節(jié)點(diǎn)劃分,利用字符串的Split函數(shù)即可實(shí)現(xiàn)。其次再利用建立的占位輔音和非占位輔音編碼庫,確定非占位輔音的個(gè)數(shù),依據(jù)藏文正字法建立規(guī)則知識庫即可實(shí)現(xiàn)。

      2.3音節(jié)自動注音模塊

      藏文文本的自動注音模塊主要依據(jù)已經(jīng)確定的藏文音節(jié)結(jié)構(gòu),通過基字丁定位和字丁分解進(jìn)行聲韻母的分離,得到藏文聲母和韻母,再對照三大方言的聲韻母以及聲調(diào)的SAMPA轉(zhuǎn)寫支持庫的查找來實(shí)現(xiàn)聲韻母的轉(zhuǎn)換,最后將其組合,并加之聲調(diào)即可。音節(jié)的實(shí)際調(diào)值由對應(yīng)聲韻母的調(diào)號進(jìn)行組合,其中,聲母SAMPA=前加字SAMPA+上加字SAMPA+基字SAMPA+下加字SAMPA;韻母SAMPA=元音SAMPA+后加字SAMPA+再后加字SAMPA,沒有的部分不轉(zhuǎn)寫,程序?qū)崿F(xiàn)過程中需要字丁分解表、聲母SAMPA支持庫、韻母SAMPA支持庫以及聲調(diào)SAMPA支持庫的支持[5]。選擇不同的方言時(shí),只要改變支持庫即可,平臺運(yùn)行界面如圖2所示。

      2.4其它模塊

      由于藏文字符編碼顯示的差異性,雖然在Windows7系統(tǒng)里已經(jīng)實(shí)現(xiàn)了小字符集編碼藏文的正常顯示,但可能仍然有一部分存在顯示不完整的情況。為了確保程序中涉及的藏文字符能夠正常顯示,程序中還提供了喜馬拉雅藏文輸入法的下載功能,同時(shí)參照拉丁轉(zhuǎn)寫方案,設(shè)計(jì)了拉丁轉(zhuǎn)寫形式。

      3后臺基礎(chǔ)模塊

      3.1數(shù)據(jù)維護(hù)模塊

      由于藏語不同方言區(qū)的差異性,以及各地區(qū)語言發(fā)展的不均衡現(xiàn)象,各方言區(qū)的音位系統(tǒng)并不能完全表示該區(qū)域的發(fā)音現(xiàn)象。為了保持程序的正確性和可移植性,設(shè)定了針對不同區(qū)域的聲母系統(tǒng)和韻母系統(tǒng)轉(zhuǎn)換模式的編輯方式。用戶可以直接在后臺修改聲韻母系統(tǒng)。但是為了保證數(shù)據(jù)的安全性,所有系統(tǒng)只能更改不能刪除。

      3.2日志記錄模塊

      日志記錄模塊主要實(shí)現(xiàn)對操作歷史的記錄,程序可以監(jiān)控所有的轉(zhuǎn)換過程,可以記錄操作者的日志和執(zhí)行的操作,并且包含操作者的操作對象和操作結(jié)果,可以方便發(fā)現(xiàn)轉(zhuǎn)換中的一些異?,F(xiàn)象,以及相關(guān)系統(tǒng)數(shù)據(jù)的更改,有利于提升系統(tǒng)的維護(hù)效率。

      4結(jié)束語

      本文經(jīng)過分析調(diào)研后,從系統(tǒng)的總體設(shè)計(jì)出發(fā),通過不規(guī)范文本設(shè)計(jì)方案,確定藏文音節(jié)結(jié)構(gòu)和藏語三大方言區(qū)機(jī)讀音標(biāo)系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn),利用VS2010在平臺上實(shí)現(xiàn)了藏語自動注音系統(tǒng)的開發(fā),通過該平臺可以獲取同一文字不同方言區(qū)的機(jī)讀音標(biāo)和對應(yīng)的拉丁轉(zhuǎn)寫字符,有利于不同方言區(qū)的語音交流。本文研究成果在藏語語言文字學(xué)習(xí)、計(jì)算語言學(xué)以及藏文信息化發(fā)展方向都具有重要的理論價(jià)值和實(shí)際的可操作性,同時(shí)對藏語言文字本身的發(fā)展以及藏民族文化的傳播和傳承也起到積極的促進(jìn)作用。

      藏語自動注音是實(shí)現(xiàn)文語轉(zhuǎn)換的基礎(chǔ)工作之一,對藏文信息處理的進(jìn)一步發(fā)展有著重要推動作用,但是本系統(tǒng)僅實(shí)現(xiàn)了基本功能,仍有很多工作需要完成,下一步研究工作將在以下方面開展:

      (1)系統(tǒng)僅僅是基于已有方言區(qū)域的音位系統(tǒng)上實(shí)現(xiàn)的自動注音,由于藏語方言語音的復(fù)雜性,很多音位系統(tǒng)還存在不確定性,所以后期還需要修正完善方言音系;

      (2)系統(tǒng)對黏著語規(guī)范化處理主要基于詞典庫進(jìn)行開展的,由于詞典庫中缺乏許多新詞語,因此處理結(jié)果可能影響自動注音的正確性,后期還需要進(jìn)一步完善擴(kuò)充詞典庫;

      (3)目前不規(guī)范文本數(shù)據(jù)的收集整理僅僅來源于常見的藏文文本,還有一些不規(guī)范藏文文本未能收集,需要下一步繼續(xù)收集整理;

      (4)系統(tǒng)還需要更好地平衡算法復(fù)雜度和實(shí)時(shí)性之間的矛盾。

      參考文獻(xiàn):

      [1]李永宏,孔江平,于洪志.藏語文-音自動規(guī)則轉(zhuǎn)換及其實(shí)現(xiàn)[J].清華大學(xué)學(xué)報(bào)(自然科學(xué)版),2008,S1:621-626.

      [2]高璐,陳琪,李永宏,于洪志.藏語語音合成中文本分析的若干問題研究[J].西北民族大學(xué)學(xué)報(bào)(自然科學(xué)版),2010,02.

      [3]陳志剛,胡國平,王熙法.中文語音合成系統(tǒng)中的文本標(biāo)準(zhǔn)化方法[J].中文信息學(xué)報(bào),2003,04:45-51.

      [4]于洪志,高璐,李永宏,鄭文思.藏語機(jī)讀音標(biāo)SAMPA_ST的設(shè)計(jì)[J].中文信息學(xué)報(bào),2012,04:66-72.

      [5]江荻.藏文的拉丁字母轉(zhuǎn)寫方法——兼論藏文語料的計(jì)算機(jī)轉(zhuǎn)寫處理[J].民族語文,2006,01:45-53.

      猜你喜歡
      藏語
      對藏語媒體助推世界的“香格里拉”品牌提升的幾點(diǎn)思考——以迪慶日報(bào)社藏語媒體為例
      香格里拉(2023年2期)2024-01-04 05:37:32
      淺談藏語中的禮儀語
      客聯(lián)(2022年2期)2022-04-29 22:05:07
      藏語傳統(tǒng)辭書詞目編排法探析
      西藏研究(2021年1期)2021-06-09 08:09:52
      當(dāng)代女性藏語長篇小說《花與夢》中女性成長主題研究
      漢藏語及其音樂
      懸置、隱藏與冒犯:松太加“藏語電影”中的“作者”話語變奏
      童年的小小心愿——藏語電影《旺扎的雨靴》
      幼兒100(2019年34期)2019-02-11 03:10:18
      藏語拉達(dá)克話的幾個(gè)語音特征
      西藏研究(2017年3期)2017-09-05 09:44:58
      藏語元音聲學(xué)實(shí)驗(yàn)分析
      藏語地理分布格局的形成原因
      西藏研究(2016年5期)2016-06-15 12:56:42
      屯昌县| 三门县| 曲麻莱县| 黄山市| 井陉县| 年辖:市辖区| 安康市| 泽普县| 深水埗区| 清流县| 锡林郭勒盟| 乌兰县| 湛江市| 新兴县| 扬州市| 林州市| 马鞍山市| 临颍县| 沁水县| 新巴尔虎右旗| 盐源县| 南丰县| 泗水县| 平果县| 成都市| 保靖县| 灵宝市| 桑日县| 石屏县| 永年县| 南宫市| 平谷区| 昭通市| 平武县| 收藏| 盐源县| 墨竹工卡县| 贵溪市| 定南县| 平江县| 华池县|