基于HMM語音識別的韻律標記

2015-05-30 02:52:19熊艷嬌

中國新通信 2015年12期

熊艷嬌

【摘要】韻律結構的準確度決定語音合成的自然度，想要讓合成的語音具有較強的節(jié)奏感和較高的自然度，就需要正確地把握，然后恰當?shù)貏澐猪嵚伞１疚睦谜Z音識別結果，提出基于聲韻母時長的韻律標記規(guī)則，以實現(xiàn)韻律自動標記，并給出具體實現(xiàn)方案和過程。實驗結果表明：采用本文提出的規(guī)則實現(xiàn)韻律自動標記，其可接受率已達到HMM語音合成的要求。

【關鍵詞】隱馬爾可夫模型語音識別韻律標記

語音合成的自然度與語音的韻律要素有著緊密的聯(lián)系[1]，想要讓合成的語音具有較強的節(jié)奏感和較高的自然度，就需要正確地把握韻律結構，然后恰當?shù)貏澐猪嵚?。國外有學者對韻律結構中的韻律單元的組成單位（音節(jié)或者是音素）的時長關系進行了研究，特別是在英語方面的相關研究中，取得了一定的成果。比如說Oller通過研究發(fā)現(xiàn)，對于英語單詞的音長，處于詞首的輔音比處于詞中的輔音長，這種情況在很多語言中都有出現(xiàn)?？梢?，從時長角度來研究韻律是可行的。

一、語音識別的實現(xiàn)

1.1構建語音庫

用以聲韻母為基本單位的方法進行語音識別[2]，生成識別結果的原始錄音數(shù)據(jù)是由特定實驗對象來完成的。錄音結束，對結果做如下處理：

①利用音頻處理軟件Gold Wave將錄制的語音數(shù)據(jù)進行重新采樣，其采樣速率設定為16KHz。

②將數(shù)據(jù)重新保存為mono格式，保存類型設置為wav。經(jīng)過重新采樣后的音質與原始語音音質差別不是很大，可以接受。

③將該錄音wav文件進行人工切分，一個句子對應一個wav文件。在實驗中，最終使用的數(shù)據(jù)為 wav（Windows PCM），比特率為256kbps，采樣率為16KHz的16位mono格式。

1.2識別結果分析

由識別器生成基于HMM的識別結果。

識別結果源文件及解釋如圖1。

識別結果所攜帶的信息有四點：

①該句語音中所存在的停頓和開頭結尾靜音段的結束時間；

②組成該句語音的所有音素說完對應結束時間點；

③組成該語音的各個音素對應的HMM狀態(tài)的結束時間。

④組成該句語音的各個音節(jié)的結束時間。

在此，需要特別說明，識別結果中的音素與通常所熟知的聲母、韻母的書寫方式不同，其中還有一個轉換的問題。

二、韻律標記劃分的實現(xiàn)

本文利用C語言編程實現(xiàn)韻律標記劃分。以發(fā)音人A為例，具體過程如下：

（1）編寫C語言程序從識別結果中提取出聲母的時長，然后進行統(tǒng)計。

（2）利用excel統(tǒng)計發(fā)音人A所錄的1005句語料中各個聲母的時長，還有在對應時長該聲母出現(xiàn)的頻率。以發(fā)音人A所錄語音中的聲母b為例，在1005句錄音中，對于聲母b，出現(xiàn)次數(shù)最多的時間段是90-100ms，其次就是70-80ms，最少的就是250-260ms，而200-210ms、220-230ms等都沒有出現(xiàn)。其余聲母以此類推。

（3）如果以上述的統(tǒng)計結果來總結規(guī)律，以每個聲母的時長來分別進行韻律劃分，就需要設定23個邊界。為了減少邊界的判斷次數(shù)，簡化判斷條件，本文又就聲母發(fā)音方式的分類規(guī)則對各類聲母時長做了進一步統(tǒng)計研究，繪制成表格，如下表1。

（4）分析以上統(tǒng)計結果，綜合四個發(fā)音人的統(tǒng)計表，得出韻律邊界規(guī)律，從而設定出韻律邊界。

（5）人工校對確定最終邊界。人工校對歸納出按上述邊界劃分韻律不準確的音節(jié)，然后在原來的邊界基礎上，對易出錯的聲母的邊界進行相應調整。

（6）最后就將易出錯的聲母單獨設定邊界，以最終確定的韻律邊界來進行韻律劃分。

三、實驗結果與分析

本文對這種基于聲母時長統(tǒng)計信息標記的方法進行了主觀評測，以確定這種標記方法是否能用于漢語的韻律自動標記。具體做法如下：

（1）在實驗過程中，我們挑選了兩個識別的1005句語料進行了韻律邊界預測的標記和評測，另取200句作為集內，200句用于集外。

（2）對于每一個句子，組織三位母語為漢語的評測人員根據(jù)表2的評分規(guī)則對預測結果以打分的方式進行評測。

（3）根據(jù)下述可接受率公式進行計算。

從表中可以看出，本文所采用的基于聲母時長統(tǒng)計信息作為韻律預測標記的方法可滿足在語音轉換系統(tǒng)中的初步應用。但本文所采用的方法仍有一定局限性，其原因有四點：

（1）訓練數(shù)據(jù)不充分，用于統(tǒng)計的聲母時長的信息不夠多，韻律劃分邊界還有待調整。

（2）本文所采用的方法依賴于語音識別的時間信息。對于語音識別，由于不同發(fā)音人之間的差異，會使得相同的字具有不同的語音特征。故而，識別結果具有不確定性。

（3）人為對聲母時長邊界的調整帶有很強的主觀性，每個人都有自己的一套特定的說話規(guī)則。人工調整韻律，這樣做會對該方法的標記結果有很大的影響。

（4）在做韻律劃分時，本文主要考慮了時長和停頓，為了提高劃分的準確度，在今后的研究中，應進一步研究音高和重音等因素對韻律的影響，如音高降階效應、語流輕音等問題。

參考文獻

[1]韓紀慶，張磊，鄭軼然.語音信號處理.北京：清華大學出版社，2004：1-10，160-189

[2] M. Tamura， T. Masuko， K. Tokuda and T. Kobayashi. Speaker adaptation for HMM-based speech synthesis system using MLLR[J]. Proc. of ESCA/COCOSDA Third International Workshop on Speech Synthesis，1998：273-276.