• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      基于HMM語音識別的韻律標記

      2015-05-30 02:52:19熊艷嬌
      中國新通信 2015年12期
      關鍵詞:語音識別

      熊艷嬌

      【摘要】 韻律結構的準確度決定語音合成的自然度,想要讓合成的語音具有較強的節(jié)奏感和較高的自然度,就需要正確地把握,然后恰當?shù)貏澐猪嵚伞1疚睦谜Z音識別結果,提出基于聲韻母時長的韻律標記規(guī)則,以實現(xiàn)韻律自動標記,并給出具體實現(xiàn)方案和過程。實驗結果表明:采用本文提出的規(guī)則實現(xiàn)韻律自動標記,其可接受率已達到HMM語音合成的要求。

      【關鍵詞】 隱馬爾可夫模型 語音識別 韻律標記

      語音合成的自然度與語音的韻律要素有著緊密的聯(lián)系[1],想要讓合成的語音具有較強的節(jié)奏感和較高的自然度,就需要正確地把握韻律結構,然后恰當?shù)貏澐猪嵚?。國外有學者對韻律結構中的韻律單元的組成單位(音節(jié)或者是音素)的時長關系進行了研究,特別是在英語方面的相關研究中,取得了一定的成果。比如說Oller通過研究發(fā)現(xiàn),對于英語單詞的音長,處于詞首的輔音比處于詞中的輔音長,這種情況在很多語言中都有出現(xiàn)??梢?,從時長角度來研究韻律是可行的。

      一、語音識別的實現(xiàn)

      1.1構建語音庫

      用以聲韻母為基本單位的方法進行語音識別[2],生成識別結果的原始錄音數(shù)據(jù)是由特定實驗對象來完成的。錄音結束,對結果做如下處理:

      ①利用音頻處理軟件Gold Wave將錄制的語音數(shù)據(jù)進行重新采樣,其采樣速率設定為16KHz。

      ②將數(shù)據(jù)重新保存為mono格式,保存類型設置為wav。經(jīng)過重新采樣后的音質與原始語音音質差別不是很大,可以接受。

      ③將該錄音wav文件進行人工切分,一個句子對應一個wav文件。在實驗中,最終使用的數(shù)據(jù)為 wav(Windows PCM),比特率為256kbps,采樣率為16KHz的16位mono格式。

      1.2識別結果分析

      由識別器生成基于HMM的識別結果。

      識別結果源文件及解釋如圖1。

      識別結果所攜帶的信息有四點:

      ①該句語音中所存在的停頓和開頭結尾靜音段的結束時間;

      ②組成該句語音的所有音素說完對應結束時間點;

      ③組成該語音的各個音素對應的HMM狀態(tài)的結束時間。

      ④組成該句語音的各個音節(jié)的結束時間。

      在此,需要特別說明,識別結果中的音素與通常所熟知的聲母、韻母的書寫方式不同,其中還有一個轉換的問題。

      二、韻律標記劃分的實現(xiàn)

      本文利用C語言編程實現(xiàn)韻律標記劃分。以發(fā)音人A為例,具體過程如下:

      (1)編寫C語言程序從識別結果中提取出聲母的時長,然后進行統(tǒng)計。

      (2)利用excel統(tǒng)計發(fā)音人A所錄的1005句語料中各個聲母的時長,還有在對應時長該聲母出現(xiàn)的頻率。以發(fā)音人A所錄語音中的聲母b為例,在1005句錄音中,對于聲母b,出現(xiàn)次數(shù)最多的時間段是90-100ms,其次就是70-80ms,最少的就是250-260ms,而200-210ms、220-230ms等都沒有出現(xiàn)。其余聲母以此類推。

      (3)如果以上述的統(tǒng)計結果來總結規(guī)律,以每個聲母的時長來分別進行韻律劃分,就需要設定23個邊界。為了減少邊界的判斷次數(shù),簡化判斷條件,本文又就聲母發(fā)音方式的分類規(guī)則對各類聲母時長做了進一步統(tǒng)計研究,繪制成表格,如下表1。

      (4)分析以上統(tǒng)計結果,綜合四個發(fā)音人的統(tǒng)計表,得出韻律邊界規(guī)律,從而設定出韻律邊界。

      (5)人工校對確定最終邊界。人工校對歸納出按上述邊界劃分韻律不準確的音節(jié),然后在原來的邊界基礎上,對易出錯的聲母的邊界進行相應調整。

      (6)最后就將易出錯的聲母單獨設定邊界,以最終確定的韻律邊界來進行韻律劃分。

      三、實驗結果與分析

      本文對這種基于聲母時長統(tǒng)計信息標記的方法進行了主觀評測,以確定這種標記方法是否能用于漢語的韻律自動標記。具體做法如下:

      (1)在實驗過程中,我們挑選了兩個識別的1005句語料進行了韻律邊界預測的標記和評測,另取200句作為集內,200句用于集外。

      (2)對于每一個句子,組織三位母語為漢語的評測人員根據(jù)表2的評分規(guī)則對預測結果以打分的方式進行評測。

      (3)根據(jù)下述可接受率公式進行計算。

      從表中可以看出,本文所采用的基于聲母時長統(tǒng)計信息作為韻律預測標記的方法可滿足在語音轉換系統(tǒng)中的初步應用。但本文所采用的方法仍有一定局限性,其原因有四點:

      (1)訓練數(shù)據(jù)不充分,用于統(tǒng)計的聲母時長的信息不夠多,韻律劃分邊界還有待調整。

      (2)本文所采用的方法依賴于語音識別的時間信息。對于語音識別,由于不同發(fā)音人之間的差異,會使得相同的字具有不同的語音特征。故而,識別結果具有不確定性。

      (3)人為對聲母時長邊界的調整帶有很強的主觀性,每個人都有自己的一套特定的說話規(guī)則。人工調整韻律,這樣做會對該方法的標記結果有很大的影響。

      (4)在做韻律劃分時,本文主要考慮了時長和停頓,為了提高劃分的準確度,在今后的研究中,應進一步研究音高和重音等因素對韻律的影響,如音高降階效應、語流輕音等問題。

      參 考 文 獻

      [1]韓紀慶,張磊,鄭軼然.語音信號處理.北京:清華大學出版社,2004:1-10,160-189

      [2] M. Tamura, T. Masuko, K. Tokuda and T. Kobayashi. Speaker adaptation for HMM-based speech synthesis system using MLLR[J]. Proc. of ESCA/COCOSDA Third International Workshop on Speech Synthesis,1998:273-276.

      猜你喜歡
      語音識別
      空管陸空通話英語發(fā)音模板設計與應用
      通話中的語音識別技術
      面向移動終端的語音簽到系統(tǒng)
      淺析智能語音技術及其應用
      智富時代(2015年9期)2016-01-14 06:26:40
      語音識別的SVM模型選擇分析
      農(nóng)業(yè)物聯(lián)網(wǎng)平臺手機秘書功能分析與實現(xiàn)
      基于LD3320的非特定人識別聲控燈系統(tǒng)設計
      航天三維可視化系統(tǒng)中語音控制技術的研究與應用
      基于語音識別的萬能遙控器的設計
      基于語音技術的商務英語移動學習平臺設計與實現(xiàn)
      东安县| 曲阳县| 镇远县| 义乌市| 东城区| 宁明县| 奈曼旗| 潜江市| 芜湖县| 天峻县| 巴林右旗| 麻栗坡县| 定安县| 金湖县| 合山市| 资源县| 正镶白旗| 永嘉县| 扶沟县| 陆丰市| 牡丹江市| 和龙市| 日喀则市| 大荔县| 皋兰县| 天全县| 连州市| 黑龙江省| 顺义区| 呼图壁县| 嘉祥县| 任丘市| 苏尼特左旗| 班戈县| 邵阳市| 徐水县| 彭泽县| 古丈县| 改则县| 彭州市| 宜黄县|