熊艷嬌
【摘要】 韻律結構的準確度決定語音合成的自然度,想要讓合成的語音具有較強的節(jié)奏感和較高的自然度,就需要正確地把握,然后恰當?shù)貏澐猪嵚伞1疚睦谜Z音識別結果,提出基于聲韻母時長的韻律標記規(guī)則,以實現(xiàn)韻律自動標記,并給出具體實現(xiàn)方案和過程。實驗結果表明:采用本文提出的規(guī)則實現(xiàn)韻律自動標記,其可接受率已達到HMM語音合成的要求。
【關鍵詞】 隱馬爾可夫模型 語音識別 韻律標記
語音合成的自然度與語音的韻律要素有著緊密的聯(lián)系[1],想要讓合成的語音具有較強的節(jié)奏感和較高的自然度,就需要正確地把握韻律結構,然后恰當?shù)貏澐猪嵚?。國外有學者對韻律結構中的韻律單元的組成單位(音節(jié)或者是音素)的時長關系進行了研究,特別是在英語方面的相關研究中,取得了一定的成果。比如說Oller通過研究發(fā)現(xiàn),對于英語單詞的音長,處于詞首的輔音比處于詞中的輔音長,這種情況在很多語言中都有出現(xiàn)??梢?,從時長角度來研究韻律是可行的。
一、語音識別的實現(xiàn)
1.1構建語音庫
用以聲韻母為基本單位的方法進行語音識別[2],生成識別結果的原始錄音數(shù)據(jù)是由特定實驗對象來完成的。錄音結束,對結果做如下處理:
①利用音頻處理軟件Gold Wave將錄制的語音數(shù)據(jù)進行重新采樣,其采樣速率設定為16KHz。
②將數(shù)據(jù)重新保存為mono格式,保存類型設置為wav。經(jīng)過重新采樣后的音質與原始語音音質差別不是很大,可以接受。
③將該錄音wav文件進行人工切分,一個句子對應一個wav文件。在實驗中,最終使用的數(shù)據(jù)為 wav(Windows PCM),比特率為256kbps,采樣率為16KHz的16位mono格式。
1.2識別結果分析
由識別器生成基于HMM的識別結果。
識別結果源文件及解釋如圖1。
識別結果所攜帶的信息有四點:
①該句語音中所存在的停頓和開頭結尾靜音段的結束時間;
②組成該句語音的所有音素說完對應結束時間點;
③組成該語音的各個音素對應的HMM狀態(tài)的結束時間。
④組成該句語音的各個音節(jié)的結束時間。
在此,需要特別說明,識別結果中的音素與通常所熟知的聲母、韻母的書寫方式不同,其中還有一個轉換的問題。
二、韻律標記劃分的實現(xiàn)
本文利用C語言編程實現(xiàn)韻律標記劃分。以發(fā)音人A為例,具體過程如下:
(1)編寫C語言程序從識別結果中提取出聲母的時長,然后進行統(tǒng)計。
(2)利用excel統(tǒng)計發(fā)音人A所錄的1005句語料中各個聲母的時長,還有在對應時長該聲母出現(xiàn)的頻率。以發(fā)音人A所錄語音中的聲母b為例,在1005句錄音中,對于聲母b,出現(xiàn)次數(shù)最多的時間段是90-100ms,其次就是70-80ms,最少的就是250-260ms,而200-210ms、220-230ms等都沒有出現(xiàn)。其余聲母以此類推。
(3)如果以上述的統(tǒng)計結果來總結規(guī)律,以每個聲母的時長來分別進行韻律劃分,就需要設定23個邊界。為了減少邊界的判斷次數(shù),簡化判斷條件,本文又就聲母發(fā)音方式的分類規(guī)則對各類聲母時長做了進一步統(tǒng)計研究,繪制成表格,如下表1。
(4)分析以上統(tǒng)計結果,綜合四個發(fā)音人的統(tǒng)計表,得出韻律邊界規(guī)律,從而設定出韻律邊界。
(5)人工校對確定最終邊界。人工校對歸納出按上述邊界劃分韻律不準確的音節(jié),然后在原來的邊界基礎上,對易出錯的聲母的邊界進行相應調整。
(6)最后就將易出錯的聲母單獨設定邊界,以最終確定的韻律邊界來進行韻律劃分。
三、實驗結果與分析
本文對這種基于聲母時長統(tǒng)計信息標記的方法進行了主觀評測,以確定這種標記方法是否能用于漢語的韻律自動標記。具體做法如下:
(1)在實驗過程中,我們挑選了兩個識別的1005句語料進行了韻律邊界預測的標記和評測,另取200句作為集內,200句用于集外。
(2)對于每一個句子,組織三位母語為漢語的評測人員根據(jù)表2的評分規(guī)則對預測結果以打分的方式進行評測。
(3)根據(jù)下述可接受率公式進行計算。
從表中可以看出,本文所采用的基于聲母時長統(tǒng)計信息作為韻律預測標記的方法可滿足在語音轉換系統(tǒng)中的初步應用。但本文所采用的方法仍有一定局限性,其原因有四點:
(1)訓練數(shù)據(jù)不充分,用于統(tǒng)計的聲母時長的信息不夠多,韻律劃分邊界還有待調整。
(2)本文所采用的方法依賴于語音識別的時間信息。對于語音識別,由于不同發(fā)音人之間的差異,會使得相同的字具有不同的語音特征。故而,識別結果具有不確定性。
(3)人為對聲母時長邊界的調整帶有很強的主觀性,每個人都有自己的一套特定的說話規(guī)則。人工調整韻律,這樣做會對該方法的標記結果有很大的影響。
(4)在做韻律劃分時,本文主要考慮了時長和停頓,為了提高劃分的準確度,在今后的研究中,應進一步研究音高和重音等因素對韻律的影響,如音高降階效應、語流輕音等問題。
參 考 文 獻
[1]韓紀慶,張磊,鄭軼然.語音信號處理.北京:清華大學出版社,2004:1-10,160-189
[2] M. Tamura, T. Masuko, K. Tokuda and T. Kobayashi. Speaker adaptation for HMM-based speech synthesis system using MLLR[J]. Proc. of ESCA/COCOSDA Third International Workshop on Speech Synthesis,1998:273-276.