胡 郁,凌震華,王仁華,戴禮榮
(中國(guó)科學(xué)技術(shù)大學(xué) 訊飛語(yǔ)音實(shí)驗(yàn)室, 安徽 合肥 230027)
語(yǔ)音合成又稱(chēng)文語(yǔ)轉(zhuǎn)換(text-to-speech, TTS),是智能人機(jī)語(yǔ)音交互領(lǐng)域的一個(gè)重要研究方向,其研究歷史可以追溯到18世紀(jì),并經(jīng)歷了從機(jī)械裝置合成、電子器件合成到基于計(jì)算機(jī)技術(shù)的語(yǔ)音合成的漫長(zhǎng)發(fā)展階段。從歷史發(fā)展來(lái)看,最為常見(jiàn)的語(yǔ)音合成方法主要包括兩種。一種方法是基于原始發(fā)音的單元挑選與波形拼接合成,通過(guò)學(xué)習(xí)自然語(yǔ)音中的規(guī)律尋找合成單元(一般為音素級(jí))之間的拼接規(guī)律,拼接原始語(yǔ)音波形單元得到合成語(yǔ)音;一種方法是對(duì)語(yǔ)音信號(hào)的音段和超音段特征進(jìn)行建模,利用語(yǔ)音合成器通過(guò)建模得到的參數(shù)控制產(chǎn)生合成語(yǔ)音。這兩種方法在近20年來(lái)伴隨著大數(shù)據(jù)量信息處理技術(shù)和統(tǒng)計(jì)信號(hào)處理建模技術(shù)的發(fā)展都取得了顯著的進(jìn)步,并利用其各自的特點(diǎn)在不同領(lǐng)域取得了很好的效果。
基于大語(yǔ)料庫(kù)的單元挑選與波形拼接合成技術(shù)是隨著20世紀(jì)90年代電子計(jì)算機(jī)的運(yùn)算和存儲(chǔ)能力的迅猛發(fā)展而逐漸成熟的,是波形拼接語(yǔ)音合成技術(shù)的最新進(jìn)展。其基本思想是根據(jù)輸入的文本分析信息,從預(yù)先錄制和標(biāo)注好的連續(xù)自然發(fā)音語(yǔ)音庫(kù)中挑選合適的單元,進(jìn)行少量的調(diào)整(或者不進(jìn)行調(diào)整),然后拼接得到最終的合成語(yǔ)音[1-4]。由于最終的合成單元都是直接復(fù)制于錄音音庫(kù),該方法可以保持原始發(fā)音人的音質(zhì),實(shí)現(xiàn)高自然度的語(yǔ)音合成。這種方法的優(yōu)點(diǎn)是合成語(yǔ)音音質(zhì)高,音色相似性好,較好的學(xué)習(xí)了自然發(fā)音中的自然韻律信息從而自然度較高,缺點(diǎn)是需要規(guī)模較大的語(yǔ)音數(shù)據(jù)庫(kù)支撐,同時(shí)系統(tǒng)的穩(wěn)定性有所欠缺,在給出高自然度合成語(yǔ)音的同時(shí),可能會(huì)產(chǎn)生一些效果較差的合成語(yǔ)音結(jié)果。而在參數(shù)語(yǔ)音合成方面,在經(jīng)歷過(guò)共振峰合成器語(yǔ)音合成系統(tǒng)的發(fā)展以后,20世紀(jì)末,隨著語(yǔ)音信號(hào)統(tǒng)計(jì)建模方法的日益成熟,基于統(tǒng)計(jì)聲學(xué)建模的語(yǔ)音合成方法被提出,它將參數(shù)語(yǔ)音合成技術(shù)推進(jìn)到了一個(gè)新的發(fā)展階段。由于此方法可以實(shí)現(xiàn)系統(tǒng)的自動(dòng)訓(xùn)練與構(gòu)建,所以又被稱(chēng)為可訓(xùn)練的語(yǔ)音合成(Trainable TTS)[5]。其基本思想是基于統(tǒng)計(jì)建模和機(jī)器學(xué)習(xí)的方法,根據(jù)一定的語(yǔ)音數(shù)據(jù)訓(xùn)練聲學(xué)模型并快速構(gòu)建合成系統(tǒng)。Trainable TTS有多種實(shí)現(xiàn)形式,基于隱馬爾可夫模型(hidden Markov model, HMM)的參數(shù)語(yǔ)音合成方法是其中的典型代表[6]。這種方法的優(yōu)點(diǎn)是系統(tǒng)穩(wěn)定性好,在超音段和音段方面可以穩(wěn)定持續(xù)的以固定風(fēng)格合成語(yǔ)句,系統(tǒng)需要的數(shù)據(jù)和資源容量較小,可以方便的進(jìn)行音色等各方面的調(diào)整等; 缺點(diǎn)是合成語(yǔ)音的音質(zhì)較差,而且在自然度表現(xiàn)方面比較呆板,合成語(yǔ)音表現(xiàn)力較差。
進(jìn)入21世紀(jì)以后,國(guó)際語(yǔ)音合成領(lǐng)域的各主要研究單位在以上兩個(gè)語(yǔ)音合成技術(shù)方向進(jìn)行了大量的研究工作,并取得了一系列的進(jìn)展。我們?cè)谶@兩個(gè)方面分別提出了針對(duì)中文、英文的技術(shù)與系統(tǒng)實(shí)現(xiàn)方案[7-13],并前瞻性地提出了將兩種方法相互融合的新思路,形成了基于聲學(xué)統(tǒng)計(jì)建模的語(yǔ)音合成技術(shù)與系統(tǒng),融合了隱馬爾可夫模型參數(shù)訓(xùn)練新方法,發(fā)音動(dòng)作參數(shù)與聲學(xué)參數(shù)綜合建模,統(tǒng)計(jì)模型指導(dǎo)單元挑選與波形拼接等多項(xiàng)關(guān)鍵技術(shù)。基于這些新技術(shù)的語(yǔ)音合成系統(tǒng)在國(guó)際語(yǔ)音合成技術(shù)評(píng)測(cè)中保持了優(yōu)異的成績(jī),有效地驗(yàn)證了新方法的領(lǐng)先性能。
本文首先簡(jiǎn)要回顧基于HMM的參數(shù)語(yǔ)音合成方法,并分析其技術(shù)特點(diǎn);然后在此基礎(chǔ)上,結(jié)合我們的實(shí)際工作,介紹基于聲學(xué)統(tǒng)計(jì)建模的語(yǔ)音合成技術(shù)的最新進(jìn)展。
圖1為基于HMM的參數(shù)語(yǔ)音合成系統(tǒng)的基本框架,它主要包括訓(xùn)練和合成兩部分。在訓(xùn)練階段,首先通過(guò)參數(shù)分析算法從訓(xùn)練數(shù)據(jù)的語(yǔ)音文件中提取各幀對(duì)應(yīng)的D維聲學(xué)參數(shù)ct∈D,作為靜態(tài)的觀測(cè)特征,包括基頻和頻譜參數(shù)等;在靜態(tài)特征基礎(chǔ)上,通過(guò)計(jì)算相鄰幀間的一階與二階差分,得到各幀完整的觀測(cè)特征向量3D。然后以訓(xùn)練數(shù)據(jù)對(duì)應(yīng)模型的似然值函數(shù)P(o|λ)最大為準(zhǔn)則,訓(xùn)練一組上下文相關(guān)音素的HMM模型λ。這里,表示觀測(cè)特征序列,(·)T表示矩陣轉(zhuǎn)置,N表示序列的長(zhǎng)度。在模型訓(xùn)練過(guò)程中,使用多空間概率分布(MSD)[14]對(duì)基頻在清音段的缺失現(xiàn)象進(jìn)行合理建模;基于最小描述長(zhǎng)度(minimum description length, MDL)準(zhǔn)則[15]訓(xùn)練決策樹(shù)對(duì)上下文擴(kuò)展后的模型進(jìn)行聚類(lèi),以提高在數(shù)據(jù)稀疏情況下訓(xùn)練得到模型參數(shù)的魯棒性并防止過(guò)訓(xùn)練;最后,使用訓(xùn)練得到的上下文相關(guān)HMM進(jìn)行狀態(tài)切分并且訓(xùn)練狀態(tài)的時(shí)長(zhǎng)概率模型[16]。
圖1 基于HMM的參數(shù)語(yǔ)音合成系統(tǒng)框架
合成過(guò)程中,首先是對(duì)輸入文本進(jìn)行分析,得到各音素相應(yīng)的上下文屬性;根據(jù)這些屬性分別通過(guò)時(shí)長(zhǎng)、基頻和譜參數(shù)的聚類(lèi)決策樹(shù)進(jìn)行決策,得到待合成語(yǔ)句對(duì)應(yīng)的HMM模型;然后,基于最大似然準(zhǔn)則(maximum likelihood, ML)并使用動(dòng)態(tài)參數(shù)約束來(lái)生成最優(yōu)靜態(tài)特征向量
基于HMM的參數(shù)語(yǔ)音合成方法所采用的統(tǒng)計(jì)建模、特征預(yù)測(cè)、參數(shù)合成的合成方法與傳統(tǒng)的單元挑選與波形拼接合成方法有很大差異,我們對(duì)其技術(shù)優(yōu)勢(shì)與不足分析如下。
2.2.1 優(yōu)勢(shì)
1) 快速、自動(dòng)的系統(tǒng)構(gòu)建。其模型訓(xùn)練以及合成過(guò)程都是自動(dòng)實(shí)現(xiàn)的,系統(tǒng)構(gòu)建周期短,需要的人工干預(yù)很少;系統(tǒng)中絕大部分模塊都是語(yǔ)種無(wú)關(guān)的。傳統(tǒng)的單元挑選與波形拼接合成方法,則需要較多語(yǔ)種相關(guān)的專(zhuān)家知識(shí)進(jìn)行人工調(diào)整其中的代價(jià)函數(shù)。
2) 合成語(yǔ)音平滑流暢,魯棒性高。由于采用了基于統(tǒng)計(jì)模型的參數(shù)預(yù)測(cè)方法和基于合成器的語(yǔ)音恢復(fù),合成語(yǔ)音比單元挑選與波形拼接合成方法更加平滑,韻律也更加流暢,不容易發(fā)生拼接合成中常見(jiàn)的基頻不穩(wěn)定現(xiàn)象,對(duì)不同領(lǐng)域文本的適應(yīng)性也很強(qiáng)。
3) 系統(tǒng)構(gòu)建需要的數(shù)據(jù)量少。常見(jiàn)的大語(yǔ)料庫(kù)合成系統(tǒng),往往會(huì)使用5~10小時(shí),甚至更大規(guī)模的音庫(kù)以保證合成語(yǔ)音的效果,造成在音庫(kù)制作上的投入需要很大,限制了合成系統(tǒng)中的音色數(shù)目。而基于HMM的參數(shù)語(yǔ)音合成系統(tǒng),一般只需要1小時(shí)的音庫(kù)就可以合成出良好的語(yǔ)音,在降低系統(tǒng)成本上具有明顯的優(yōu)勢(shì)。
4) 系統(tǒng)存儲(chǔ)尺寸小。對(duì)于單元挑選與波形拼接合成方法,由于需要保留語(yǔ)料庫(kù)的原始波形供合成時(shí)使用,因此整個(gè)系統(tǒng)的存儲(chǔ)尺寸難以降低到很低的水平;而HMM參數(shù)合成方法在合成時(shí)不需要使用原始波形,只需使用訓(xùn)練得到的模型參數(shù),這樣,這個(gè)系統(tǒng)的尺寸可以控制在1MB以?xún)?nèi),非常適合在資源受限的嵌入式設(shè)備上使用。
5) 系統(tǒng)靈活度高。對(duì)于傳統(tǒng)的單元挑選與波形拼接合成方法,如果我們要改變發(fā)音者的音色或者實(shí)現(xiàn)不同風(fēng)格的合成效果,往往意味著需要重新進(jìn)行整個(gè)音庫(kù)的錄制,費(fèi)時(shí)費(fèi)力;而對(duì)基于HMM的參數(shù)合成方法,可以利用少量的目標(biāo)發(fā)音人數(shù)據(jù)(如5~100句話(huà)),通過(guò)多種模型自適應(yīng)或者模型內(nèi)插的方法[18-20],實(shí)現(xiàn)需要的發(fā)音人音色或發(fā)音風(fēng)格。
2.2.2 不足
1) 合成語(yǔ)音的音質(zhì)不高。由于在基于HMM的參數(shù)語(yǔ)音合成方法中,最終的合成語(yǔ)音是通過(guò)參數(shù)合成器生成的,容易造成合成語(yǔ)音的音質(zhì)受損;此外,統(tǒng)計(jì)建模過(guò)程中的平滑效應(yīng)會(huì)進(jìn)一步模糊合成語(yǔ)音的共振峰被,降低語(yǔ)音合成的清晰度。
2) 合成語(yǔ)音的韻律過(guò)于平淡。前面已經(jīng)提到,基于統(tǒng)計(jì)建模的基頻、時(shí)長(zhǎng)預(yù)測(cè)方法使得合成語(yǔ)音的韻律特征很穩(wěn)定,出錯(cuò)的幾率很小;但也會(huì)造成合成語(yǔ)音中的韻律變化不夠豐富,語(yǔ)句過(guò)于平淡,時(shí)間長(zhǎng)了聽(tīng)者容易產(chǎn)生疲勞感。
3) 對(duì)數(shù)據(jù)的依賴(lài)性。雖然基于HMM的參數(shù)語(yǔ)音合成方法相比傳統(tǒng)的基于語(yǔ)料庫(kù)的單元挑選與拼接合成算法對(duì)于數(shù)據(jù)的依賴(lài)性已經(jīng)大大減小,但是它從本質(zhì)上說(shuō)仍然是一種數(shù)據(jù)驅(qū)動(dòng)的方法,不能擺脫其對(duì)數(shù)據(jù)的依賴(lài),而一些語(yǔ)音學(xué)的規(guī)則很難被結(jié)合到這種針對(duì)聲學(xué)參數(shù)的統(tǒng)計(jì)框架中。
針對(duì)上面提到的基于HMM的參數(shù)語(yǔ)音合成技術(shù)中存在的缺陷, 本節(jié)將重點(diǎn)介紹中國(guó)科學(xué)技術(shù)大學(xué)訊飛語(yǔ)音實(shí)驗(yàn)室近年來(lái)在基于統(tǒng)計(jì)建模的語(yǔ)音合成技術(shù)方面的主要研究進(jìn)展及成果,包括以下幾個(gè)方面。
1) 特征融合。首次在合成中將聲學(xué)特征與描述語(yǔ)音產(chǎn)生機(jī)理的發(fā)音動(dòng)作特征相結(jié)合,以期提高聲學(xué)參數(shù)預(yù)測(cè)的靈活性和有效性。
2) 模型訓(xùn)練準(zhǔn)則。提出以最小生成誤差(minimum generation error, MGE)準(zhǔn)則取代常用的最大似然準(zhǔn)則,減小預(yù)測(cè)聲學(xué)參數(shù)的誤差,提高了合成語(yǔ)音的音質(zhì)。
3) 波形生成方法。提出了一種新的基于HMM 的單元挑選合成方法。這種方法使用概率統(tǒng)計(jì)準(zhǔn)則指導(dǎo)單元挑選,拼接自然波形生成語(yǔ)音信號(hào),從根本上改善了參數(shù)語(yǔ)音合成中由于建模時(shí)的平均效應(yīng)以及合成器的性能的限制造成的生成語(yǔ)音音質(zhì)的不足。
3.1.1 算法提出
在基于HMM的參數(shù)語(yǔ)音合成方法中,一般只使用聲學(xué)參數(shù)來(lái)作為表征語(yǔ)音的觀測(cè)值以及建模的對(duì)象。實(shí)際上,聲學(xué)參數(shù)并不是語(yǔ)音特征唯一的表征形式,發(fā)音動(dòng)作參數(shù)[21-23]同樣也是一種有效的語(yǔ)音描述方法。這里“發(fā)音動(dòng)作參數(shù)”指的是對(duì)說(shuō)話(huà)人在發(fā)音過(guò)程中使用的發(fā)音器官位置以及運(yùn)動(dòng)情況的定量描述。這些發(fā)音器官包括: 舌、下腭、嘴唇、軟腭等。目前可以通過(guò)多種技術(shù)來(lái)收集這些發(fā)音動(dòng)作參數(shù),例如,電磁發(fā)音儀(electromagnetic articulography,EMA)、磁共振成像(magnetic resonance imaging,MRI)、超聲波等。因?yàn)槁晫W(xué)信號(hào)是由發(fā)音器官的運(yùn)動(dòng)產(chǎn)生的,所以聲學(xué)參數(shù)和發(fā)音動(dòng)作參數(shù)是彼此相關(guān)的。此外,語(yǔ)音產(chǎn)生的物理機(jī)理也決定了發(fā)音動(dòng)作參數(shù)相對(duì)聲學(xué)參數(shù)具有變化緩慢平滑、描述語(yǔ)音特征直接簡(jiǎn)便、噪聲魯棒性強(qiáng)等優(yōu)點(diǎn)。
基于發(fā)音動(dòng)作參數(shù)的這些優(yōu)點(diǎn),已有一些研究者將發(fā)音動(dòng)作參數(shù)應(yīng)用到基于HMM的自動(dòng)語(yǔ)音識(shí)別中,并且在降低識(shí)別錯(cuò)誤率方面取得了一些積極的效果[24-25]。我們首次嘗試將發(fā)音動(dòng)作參數(shù)應(yīng)用到基于HMM的參數(shù)語(yǔ)音合成中,實(shí)現(xiàn)其與聲學(xué)參數(shù)的聯(lián)合建模與生成[21-22]。這樣既使統(tǒng)計(jì)模型更加精確, 降低生成的聲學(xué)參數(shù)的預(yù)測(cè)誤差,又可以依據(jù)語(yǔ)音學(xué)規(guī)則方便地調(diào)整發(fā)音動(dòng)作參數(shù), 改變合成語(yǔ)音特征,提高了合成系統(tǒng)靈活性。
圖2 聲學(xué)參數(shù)/發(fā)音動(dòng)作參數(shù)聯(lián)合建模時(shí)的生成模型結(jié)構(gòu)
3.1.2 實(shí)現(xiàn)方法
其中N(;μ,Σ)表示均值向量和協(xié)方差矩陣分別為μ和Σ的正態(tài)分布;Aj是從發(fā)音動(dòng)作參數(shù)到聲學(xué)參數(shù)的轉(zhuǎn)換矩陣,表示在狀態(tài)j上后者對(duì)前者依賴(lài)關(guān)系。我們可以使用EM算法[26]通過(guò)迭代更新的方法實(shí)現(xiàn)對(duì)模型參數(shù)的估計(jì)。
在合成時(shí),同樣基于最大似然準(zhǔn)則,并且考慮動(dòng)態(tài)參數(shù)的約束,以同時(shí)生成聲學(xué)參數(shù)和發(fā)音動(dòng)作參數(shù),表達(dá)如下
為了改善調(diào)整后發(fā)音動(dòng)作參數(shù)與上下文相關(guān)轉(zhuǎn)換矩陣Aj的失配問(wèn)題,我們又提出了特征域轉(zhuǎn)換矩陣綁定方法[23],對(duì)聲學(xué)參數(shù)與發(fā)音動(dòng)作參數(shù)之間的相關(guān)性進(jìn)行了更加合理的描述,進(jìn)一步提升了發(fā)音動(dòng)作參數(shù)對(duì)聲學(xué)參數(shù)生成的控制能力。
3.1.3 評(píng)測(cè)實(shí)驗(yàn)
圖3 通過(guò)EMA參數(shù)調(diào)整舌位高低后合成元音/ε/的感知測(cè)聽(tīng)結(jié)果
我們使用了一個(gè)雙通道的英文語(yǔ)音數(shù)據(jù)庫(kù)進(jìn)行相關(guān)的實(shí)驗(yàn)驗(yàn)證工作[21-22],它同時(shí)采集了錄音時(shí)的聲學(xué)波形信號(hào)和電磁發(fā)音儀(EMA)信號(hào)。整個(gè)語(yǔ)音庫(kù)包括音素平衡的1 263句話(huà),由一名英式發(fā)音的男發(fā)音人朗讀。波形錄制使用16kHz采樣,16bit量化的PCM格式,我們將從中提取的由STRAIGHT[27]譜包絡(luò)導(dǎo)出的40階線(xiàn)譜對(duì)(Line Spectral Pairs, LSP)和1維增益作為頻譜參數(shù)。EMA數(shù)據(jù)的采集是通過(guò)在發(fā)音人的各發(fā)音器官上放置小的傳感器,并利用電磁信號(hào)對(duì)發(fā)音過(guò)程中各傳感器進(jìn)行三維定位來(lái)實(shí)現(xiàn)的。實(shí)際使用了6個(gè)傳感器,其具體擺放位置包括舌根、舌尖、舌面、下腭、上唇和下唇[22]。在實(shí)驗(yàn)中我們只使用各傳感器y維(從前到后方向)和z維(從上到下方向)的位置信息,即一共得到12維的靜態(tài)發(fā)音動(dòng)作特征。對(duì)于聲學(xué)參數(shù)和發(fā)音動(dòng)作參數(shù),我們依據(jù)圖2所示的結(jié)構(gòu)進(jìn)行模型的訓(xùn)練,并且在合成過(guò)程中,測(cè)試了不同的調(diào)整函數(shù)f(·)對(duì)于合成語(yǔ)音特征的控制能力[21-22]。其中,我們進(jìn)行了一個(gè)主觀的感知測(cè)試以證明這種使用語(yǔ)音學(xué)規(guī)則的發(fā)音動(dòng)作參數(shù)調(diào)整方法在控制合成語(yǔ)音中特定音素音色方面的能力[15]。實(shí)驗(yàn)中,使用了英語(yǔ)中的三個(gè)前元音/I/、/ε/ 和 //。這三個(gè)元音在發(fā)音上的最大區(qū)別就是舌位的高低。元音/I/ 對(duì)應(yīng)的舌位最高,//對(duì)應(yīng)的舌位最低,而/ε/在兩者之間。在這個(gè)實(shí)驗(yàn)中,我們定義調(diào)整函數(shù)f(·)為調(diào)整舌根、舌面、舌尖上三個(gè)傳感器的z坐標(biāo)位置來(lái)模擬對(duì)于舌位高度的控制。正的調(diào)整表示升高舌位,而負(fù)的調(diào)整表示降低舌位。我們使用的測(cè)試文本為5個(gè)包含元音/ε/的單音素單詞("bet"、"hem"、"led"、"peck"、"set"),并且將這些單詞放入承載句"Now we’ll say ... again"中進(jìn)行合成。對(duì)合成過(guò)程中舌位高度的調(diào)整為-1.5cm~1.5cm,每0.5cm合成一組語(yǔ)音,一共得到35個(gè)合成樣本。在進(jìn)行測(cè)聽(tīng)實(shí)驗(yàn)時(shí),由20名英語(yǔ)母語(yǔ)的發(fā)音人參與,每名發(fā)音人對(duì)每句合成語(yǔ)音進(jìn)行聽(tīng)寫(xiě),記錄下承載句中的核心單詞。然后,對(duì)每一個(gè)調(diào)整距離,統(tǒng)計(jì)合成的元音被感知成/I/, /ε/ 和 //的比例如圖3所示。從圖中可以清晰地顯示出,隨著我們升高舌位,合成元音會(huì)逐步從/ε/變化為/I/;反之,如果我們降低舌位,元音會(huì)被從/ε/感知為//。這進(jìn)一步驗(yàn)證了結(jié)合發(fā)音動(dòng)作參數(shù)后,我們可以有效利用語(yǔ)音學(xué)規(guī)則,在不需要目標(biāo)數(shù)據(jù)的情況下,實(shí)現(xiàn)對(duì)合成語(yǔ)音特征的有效控制,從而提高系統(tǒng)的靈活性。
3.2.1 算法提出
雖然基于HMM的參數(shù)語(yǔ)音合成方法可以取得較為理想的合成效果,但是其采用的基于最大似然(maximum likelihood, ML)的模型訓(xùn)練準(zhǔn)則存在兩個(gè)問(wèn)題。第一個(gè)問(wèn)題就是HMM訓(xùn)練算法與語(yǔ)音合成應(yīng)用的不一致。一般而言,語(yǔ)音合成的目標(biāo)就是使生成的語(yǔ)音(參數(shù))與自然語(yǔ)音(參數(shù))盡可能地接近,而現(xiàn)在采用的基于最大似然準(zhǔn)則的HMM訓(xùn)練算法是從語(yǔ)音識(shí)別中借鑒過(guò)來(lái)的,它并非針對(duì)語(yǔ)音合成應(yīng)用而設(shè)計(jì),由此導(dǎo)致HMM訓(xùn)練算法與語(yǔ)音合成應(yīng)用的不一致;另一個(gè)問(wèn)題是在參數(shù)生成過(guò)程中通過(guò)考慮動(dòng)態(tài)和靜態(tài)參數(shù)之間的約束來(lái)進(jìn)行參數(shù)平滑,而現(xiàn)在的訓(xùn)練過(guò)程中沒(méi)有考慮到此約束條件,導(dǎo)致訓(xùn)練得到的HMM中靜態(tài)和動(dòng)態(tài)參數(shù)之間存在不一致。針對(duì)上述模型訓(xùn)練中的問(wèn)題,我們提出了一種基于最小化生成誤差(Minimum Generation Error, MGE)的訓(xùn)練準(zhǔn)則[28-34],并將該準(zhǔn)則應(yīng)用到模型訓(xùn)練中。在基于MGE準(zhǔn)則的模型訓(xùn)練算法中,我們首先定義一個(gè)與合成目標(biāo)相符的生成誤差函數(shù),然后將參數(shù)生成加入到模型訓(xùn)練中來(lái)計(jì)算生成誤差,并基于廣義概率下降(GPD)算法實(shí)現(xiàn)對(duì)模型參數(shù)的優(yōu)化。
3.2.2 實(shí)現(xiàn)方法
在計(jì)算C相對(duì)模型λ的生成誤差時(shí),嚴(yán)格來(lái)說(shuō)需要考慮所有可能的狀態(tài)序列Q。出于簡(jiǎn)化,我們只考慮單一狀態(tài)序列,即由模型λ決定的C的最優(yōu)狀態(tài)序列Qopt,此時(shí)的生成誤差可以記為
在以上誤差函數(shù)定義下,我們將參數(shù)生成加入到HMM訓(xùn)練過(guò)程中來(lái)計(jì)算訓(xùn)練樣本的生成誤差,并采用廣義概率下降算法(GPD)對(duì)模型參數(shù)進(jìn)行調(diào)整,以達(dá)到最小化生成誤差的目的。具體的算法描述與參數(shù)更新公式參見(jiàn)文獻(xiàn)[28]。
3.2.3 評(píng)測(cè)實(shí)驗(yàn)
在實(shí)驗(yàn)過(guò)程中[28],我們使用的音庫(kù)是一個(gè)音素平衡1 000句話(huà)的中文語(yǔ)料庫(kù),共包含25 096個(gè)聲母和29 942個(gè)韻母,錄音采樣率為16kHz。在聲學(xué)參數(shù)提取時(shí),將由STRAIGHT譜包絡(luò)導(dǎo)出的24階LSP和1維增益作為頻譜參數(shù),分析幀移為5ms。對(duì)于基線(xiàn)系統(tǒng),我們按照2.1節(jié)介紹的步驟,使用最大似然準(zhǔn)則訓(xùn)練各上下文相關(guān)音素對(duì)應(yīng)的模型,使用的模型結(jié)構(gòu)為5狀態(tài)自左向右無(wú)跳轉(zhuǎn)的HMM,并且針對(duì)中文的特點(diǎn)進(jìn)行了上下文屬性的標(biāo)注與問(wèn)題集的設(shè)計(jì)。對(duì)于測(cè)試系統(tǒng),使用上面介紹的最小生成誤差準(zhǔn)則進(jìn)行模型參數(shù)的更新,在這個(gè)實(shí)驗(yàn)中,只更新了與頻譜參數(shù)對(duì)應(yīng)的模型參數(shù)。我們進(jìn)行了針對(duì)合成語(yǔ)音自然度的主觀測(cè)試。測(cè)試時(shí),使用ML訓(xùn)練系統(tǒng)和MGE訓(xùn)練系統(tǒng)各合成了集外的50句話(huà),由6名測(cè)聽(tīng)人員進(jìn)行對(duì)比兩個(gè)系統(tǒng)合成語(yǔ)音自然度的傾向性評(píng)分,最終的測(cè)試結(jié)果如圖4所示[28]。從圖4中可以看出,在進(jìn)行MGE訓(xùn)練后,合成語(yǔ)音的質(zhì)量有了明顯而一致的提升。
圖4 對(duì)比MGE訓(xùn)練與ML訓(xùn)練的自然度傾向性測(cè)試結(jié)果
在以上工作基礎(chǔ)上,我們對(duì)MGE模型訓(xùn)練方法又進(jìn)行了進(jìn)一步的深入研究與應(yīng)用拓展,包括將MGE準(zhǔn)則應(yīng)用于從模型聚類(lèi)到聚類(lèi)后模型優(yōu)化的整個(gè)HMM訓(xùn)練過(guò)程[29];提出了MGE線(xiàn)性回歸算法用于語(yǔ)音合成中的快速模型自適應(yīng)[30];基于人耳感知特性設(shè)計(jì)MGE準(zhǔn)則中的生成誤差計(jì)算函數(shù)[31];使用MGE準(zhǔn)則進(jìn)行分層疊加基頻模型的訓(xùn)練[32]與模型聚類(lèi)決策樹(shù)的規(guī)模優(yōu)化[33];以及將MGE準(zhǔn)則與發(fā)音動(dòng)作特征模型相結(jié)合以提升聲學(xué)參數(shù)到發(fā)音動(dòng)作參數(shù)反響映射精度[34]等。相關(guān)研究結(jié)果均體現(xiàn)了MGE準(zhǔn)則在語(yǔ)音合成聲學(xué)模型訓(xùn)練中的有效性。
3.3.1 算法提出
前面已經(jīng)提到,基于HMM的參數(shù)合成方法可以合成出平滑流暢的語(yǔ)音,但是由于使用了參數(shù)合成器以及參數(shù)建模與生成時(shí)的平均效應(yīng),使合成語(yǔ)音的音質(zhì)和自然語(yǔ)音相比有較大差距;傳統(tǒng)基于大語(yǔ)料庫(kù)的單元挑選與波形拼接合成方法由于使用自然語(yǔ)音波形,可以合成出高自然度的語(yǔ)音,但是對(duì)于音庫(kù)的尺寸要求較大,并且在系統(tǒng)構(gòu)建過(guò)程中需要較多語(yǔ)種相關(guān)的人工干預(yù),對(duì)不同領(lǐng)域文本合成效果的魯棒性也不理想。為了綜合以上兩種方法的優(yōu)點(diǎn),我們將HMM參數(shù)合成中使用的統(tǒng)計(jì)建模思想應(yīng)用到單元挑選與波形拼接合成方法中[35-39],提出了基于HMM的單元挑選與波形拼接合成算法。
3.3.2 實(shí)現(xiàn)方法
整個(gè)基于HMM的單元挑選與波形拼接合成系統(tǒng)可分為訓(xùn)練與合成兩個(gè)階段。
1) 訓(xùn)練階段: 首先依據(jù)先驗(yàn)知識(shí),提取一組我們認(rèn)為可用于反映單元挑選與波形拼接合成系統(tǒng)自然度的特征參數(shù),例如,各幀的頻譜、基頻,音素的時(shí)長(zhǎng)等。針對(duì)每一種特征,訓(xùn)練其上下文相關(guān)音素的HMM模型,具體的模型訓(xùn)練方法,可以采用與基于HMM的參數(shù)合成算法中類(lèi)似的模型訓(xùn)練流程,首先訓(xùn)練完全上下文展開(kāi)的音素模型,再利用上下文相關(guān)的問(wèn)題集,對(duì)模型進(jìn)行聚類(lèi)。假設(shè)最終提取的特征種類(lèi)數(shù)為M,訓(xùn)練得到的模型集合為Λ=(Λ1,...,ΛM)。
2) 合成階段: 合成階段的核心是單元挑選算法。假設(shè)用符號(hào)F表示通過(guò)文本分析得到的待合成句的上下文描述信息;U=(u1,...,uN)代表合成一句話(huà)的一個(gè)備選單元序列,其中N是序列中的單元個(gè)數(shù);這里對(duì)于每一個(gè)ui,i=1,...,N可以是任意尺度的單元,例如,音素、狀態(tài)、幀等。我們要求挑選得到的最優(yōu)單元序列U*滿(mǎn)足
其中
gm(F,U;Λm)=LL(X(U,m),F,Λm)
-wKLDKLD(Λ(U,m),F,Λm)
(12)
表示使用第m個(gè)特征對(duì)應(yīng)的統(tǒng)計(jì)模型Λm對(duì)單元序列U進(jìn)行的客觀評(píng)估;wm為模型Λm對(duì)應(yīng)的權(quán)重。如式(12)所示,函數(shù)gm(·)由兩部分組成,函數(shù)LL(·)表示計(jì)算單元序列U的聲學(xué)參數(shù)對(duì)應(yīng)模型Λm的似然值,X(U,m)為提取單元序列U對(duì)應(yīng)的第m組特征;函數(shù)KLD(.)表示備選單元序列U對(duì)應(yīng)的模型相對(duì)于目標(biāo)模型的Kullback-Leibler距離(Kullback-Leibler Divergence, KLD)[40],Λ(U,m)為提取單元序列U的第m組特征對(duì)應(yīng)的備選模型。式(12)的具體計(jì)算方法依賴(lài)于使用的特征提取方法。依據(jù)特征提取時(shí)前后單元之間的依賴(lài)關(guān)系,我們可以將式(11)轉(zhuǎn)換成傳統(tǒng)的“目標(biāo)代價(jià)”和“連接代價(jià)”之和的形式,通過(guò)動(dòng)態(tài)規(guī)劃算法搜索最優(yōu)的單元序列U*。
上述介紹的基于HMM的單元挑選與波形拼接合成方法可以有不同的具體實(shí)現(xiàn)方式,包括使用幀尺度的拼接單元和ML準(zhǔn)則來(lái)進(jìn)行單元的挑選[35]、使用音素和幀的兩級(jí)尺度單元[36]等。下面結(jié)合Blizzard Challenge 2007 國(guó)際語(yǔ)音合成評(píng)測(cè)的結(jié)果來(lái)說(shuō)明此算法的性能。
3.3.3 Blizzard Challenge 2007 國(guó)際合成語(yǔ)音評(píng)測(cè)
Blizzard Challenge是由美國(guó)卡耐基·梅隆大學(xué)的Black教授和日本名古屋工業(yè)大學(xué)的Tokuda教授于2005年發(fā)起的一項(xiàng)全球合成語(yǔ)音評(píng)測(cè)活動(dòng)[41]。這個(gè)活動(dòng)通過(guò)發(fā)布統(tǒng)一的合成音庫(kù),由各個(gè)參賽單位在短時(shí)間內(nèi)構(gòu)建合成系統(tǒng),并且集中評(píng)測(cè),實(shí)現(xiàn)對(duì)基于語(yǔ)料庫(kù)的語(yǔ)音合成中各個(gè)技術(shù)點(diǎn)的較為有效的測(cè)試,從而推動(dòng)整個(gè)語(yǔ)音合成技術(shù)的發(fā)展。 2007年我們首次使用上述基于HMM 的單元挑選與波形拼接方法構(gòu)建合成系統(tǒng)參加此測(cè)試活動(dòng)[39]。
2007年的參測(cè)單位為16家,包括Carnegie Mellon University,University of Edinburgh,HTS working group,Toshiba,Nokia等語(yǔ)音合成領(lǐng)域內(nèi)的知名研究機(jī)構(gòu)與公司。組織者對(duì)各個(gè)參賽單位提交的測(cè)試語(yǔ)音進(jìn)行統(tǒng)一測(cè)試。所有參賽單位的系統(tǒng)被賦予代號(hào),測(cè)試以匿名的形式進(jìn)行。測(cè)試的指標(biāo)包括合成語(yǔ)音的相似度、自然度(MOS得分)和可懂度(單詞聽(tīng)寫(xiě)錯(cuò)誤率)。測(cè)試過(guò)程基于網(wǎng)絡(luò)進(jìn)行,參加測(cè)試的人員包括語(yǔ)音技術(shù)專(zhuān)家、英語(yǔ)母語(yǔ)的學(xué)生以及網(wǎng)絡(luò)上的志愿者等。
為了對(duì)統(tǒng)計(jì)聲學(xué)模型框架下不同的合成方法進(jìn)行更加充分的比較,我們同時(shí)提交了兩個(gè)參測(cè)系統(tǒng)參與這一次的評(píng)測(cè)活動(dòng)。它們分別為基于HMM的參數(shù)合成系統(tǒng)和基于HMM的單元挑選與波形拼接合成系統(tǒng)。前者采用3.2節(jié)中介紹的MGE訓(xùn)練方法構(gòu)建參數(shù)合成系統(tǒng);而后者采用本節(jié)中介紹的基于HMM的單元挑選算法框架,我們以音素作為基本拼接單元,在音素的基頻、頻譜、時(shí)長(zhǎng)模型之外,又增加了度量音素拼接處聲學(xué)參數(shù)變化的拼接模型,并且采用了基于KLD的單元預(yù)選方法來(lái)提高運(yùn)行效率。圖5~7顯示了所有參測(cè)系統(tǒng)的平均相似度、自然度和可懂度評(píng)測(cè)結(jié)果。其中我們提交的基于HMM的參數(shù)合成系統(tǒng)的編號(hào)為“J”,基于HMM的單元挑選與波形拼接合成系統(tǒng)的編號(hào)為“A”,系統(tǒng)“I”為組織者提供的自然語(yǔ)音樣本。從圖5 中可以看出,我們提交的基于HMM的單元挑選與波形拼接合成系統(tǒng)(系統(tǒng)A)是所有參測(cè)系統(tǒng)中相似度得分最高的;而基于HMM的參數(shù)合成系統(tǒng)(系統(tǒng)J)在這方面的表現(xiàn)則不夠理想,究其原因,我們認(rèn)為是參數(shù)合成方法中使用的參數(shù)合成器對(duì)于合成語(yǔ)音的音色造成了損傷,使其相對(duì)原始語(yǔ)音的相似度下降。圖6顯示的自然度評(píng)測(cè)結(jié)果中,系統(tǒng)A仍然是表現(xiàn)最好的系統(tǒng),優(yōu)于系統(tǒng)J,表明了這種基于HMM的單元挑選合成算法在提高合成語(yǔ)音自然度方面的有效性。另一方面,參數(shù)合成方法在合成語(yǔ)音可懂度方面的優(yōu)勢(shì)在圖7中表現(xiàn)了出來(lái),系統(tǒng)J在所有參測(cè)系統(tǒng)中具有最小的單詞聽(tīng)寫(xiě)錯(cuò)誤率,這也體現(xiàn)了基于HMM的參數(shù)合成方法在合成效果的魯棒性方面還是有其優(yōu)勢(shì),尤其是MGE模型訓(xùn)練準(zhǔn)則使合成語(yǔ)音的清晰度得到了明顯提升。
圖5 Blizzard Challenge 2007相似度評(píng)測(cè)結(jié)果
圖6 Blizzard Challenge 2007自然度評(píng)測(cè)結(jié)果(MOS)
圖7 Blizzard Challenge 2007可懂度評(píng)測(cè)結(jié)果(單詞聽(tīng)寫(xiě)錯(cuò)誤率)
在2008~2011年的Blizzard Challenge評(píng)測(cè)活動(dòng)中,我們同樣使用基于HMM的單元挑選與波形拼接方法構(gòu)建了參測(cè)系統(tǒng),并在音節(jié)級(jí)長(zhǎng)時(shí)韻律特征使用[37]、模型聚類(lèi)決策樹(shù)規(guī)模優(yōu)化、方差綁定的模型訓(xùn)練等方面進(jìn)行了一系列技術(shù)改進(jìn)。在這幾年的評(píng)測(cè)活動(dòng)中,我們提交的參測(cè)系統(tǒng)均取得了優(yōu)異的性能表現(xiàn)。我們還在用于單元挑選的HMM模型訓(xùn)練準(zhǔn)則方面進(jìn)行了進(jìn)一步的探索,提出了最小單元挑選誤差準(zhǔn)則(Minimum Unit Selection Error, MUSE)[38],實(shí)現(xiàn)了系統(tǒng)構(gòu)建的完全自動(dòng)化并提高了合成語(yǔ)音的自然度。
本文在回顧語(yǔ)音合成技術(shù)發(fā)展歷史的基礎(chǔ)上,介紹了基于聲學(xué)統(tǒng)計(jì)建模的語(yǔ)音合成方法。該方法的典型系統(tǒng)是基于HMM的參數(shù)語(yǔ)音合成,在對(duì)其基本的系統(tǒng)框架進(jìn)行描述和分析之后,介紹了中國(guó)科學(xué)技術(shù)大學(xué)訊飛語(yǔ)音實(shí)驗(yàn)室近年來(lái)我們?cè)诖朔矫娴乃龅膶?shí)際工作,包括: 在特征使用中,融合發(fā)音動(dòng)作參數(shù)與聲學(xué)參數(shù),提高聲學(xué)參數(shù)生成的靈活度;在模型訓(xùn)練階段,以最小生成誤差準(zhǔn)則取代最大似然準(zhǔn)則,更好地瞄準(zhǔn)語(yǔ)音合成的應(yīng)用,提高合成語(yǔ)音的音質(zhì);在語(yǔ)音生成階段,使用單元挑選與波形拼接合成方法取代參數(shù)生成與合成器重構(gòu),從根本上改善HMM參數(shù)語(yǔ)音合成器在合成語(yǔ)音音質(zhì)上的不足。這些研究成果不僅通過(guò)了嚴(yán)謹(jǐn)?shù)膶?shí)驗(yàn)證實(shí),同時(shí)正在逐漸地應(yīng)用到實(shí)際的語(yǔ)音合成系統(tǒng)中去,使得語(yǔ)音合成技術(shù)在系統(tǒng)構(gòu)建和提高表現(xiàn)力方面有了質(zhì)的突破,進(jìn)一步促進(jìn)了多語(yǔ)種的語(yǔ)音合成、說(shuō)話(huà)人音色轉(zhuǎn)換、語(yǔ)氣語(yǔ)調(diào)的合成和情感語(yǔ)音合成等各方面的發(fā)展。Blizzard Challenge 國(guó)際語(yǔ)音合成評(píng)測(cè)更是對(duì)這些技術(shù)進(jìn)展作出了全面、科學(xué)的肯定。
綜上,聲學(xué)統(tǒng)計(jì)建模思想的應(yīng)用可以說(shuō)是開(kāi)創(chuàng)了語(yǔ)音合成發(fā)展的一個(gè)新的階段,它為我們提供了更廣闊的研究發(fā)展空間,在實(shí)現(xiàn)真正自然的人機(jī)語(yǔ)音交互的方向上邁出了重要的一步。
[1] Wang R H,Chen S H, Tao J, et al. Mandarin Text-To-Speech Synthesis[C]//Advances in Chinese Spoken Language Processing. Beijing: World Scientific Publishing, 2007.
[2] Campbell W N, Black A W. Prosody and the selection of source units for concatenative synthesis[J]. Progress in Speech Synthesis, 1996: 279-282.
[3] Iwahashi N, Kaiki N, SagisakaY. Concatenative speech synthesis by minimum distortion criteria[C]//International Conference on Acoustics, Speech, and Signal Processing.1992, 2: 65-68.
[4] Wang R H, Ma Z K, Zhu D L. A corpus-based Chinese speech synthesis with contextual-dependant unit selection[C]//International Conference on Spoken Language Processing. 2000: 391-394.
[5] Donovan R E. Trainable speech synthesis[D]. Ph.D Dissertation, Cambridge University, 1996.
[6] Tokuda K, Zen H, Black A W. HMM-based approach to multilingual speech synthesis[C]//Text to Speech Synthesis: New Paradigms and Advances. New York: Prentice Hall, 2004.
[7] Hu Y, Liu Q F, Wang R H. Prosody generation in Chinese synthesis using the template of quantified prosodic unit and base intonation contour[C]//International Conference on Spoken Language Processing. 2000: 55-58.
[8] 王仁華, 胡郁, 李威, 等. 基于決策樹(shù)的漢語(yǔ)大語(yǔ)料庫(kù)合成系統(tǒng)[C]//第六屆全國(guó)人機(jī)語(yǔ)音通信學(xué)術(shù)會(huì)議論文集, 2001: 183-186.
[9] Li W, Ling Z H, Hu Y, et al. A statistical method for computing candidate unit cost in corpus based Chinese speech synthesis system[C]//International Conference on Chinese Computing. 2001: 167-170.
[10] Shuang Z W, Ling Z H, Hu Y, et al. A miniature Chinese TTS system based on tailored corpus[C]//International Conference on Spoken Language Processing. 2002: 2389-2392.
[11] Ling Z H, Hu Y, Shuang Z W, et al. Decision tree based unit pre-selection In Mandarin Chinese synthesis[C]//International Symposium on Chinese Spoken Language Processing. 2002: 277-280.
[12] Sun L, Hu Y, Wang R H. Polynomial regression model for duration prediction in Mandarin[C]//International Conference on Spoken Language Processing. 2004: 769-772.
[13] Wang R H, Hu Y. Statistical modeling of pitch contour in standard Chinese[C]//From Traditional Phonology to Modern Speech Processing. Beijing: Foreign Language Teaching and Research Press,2004.
[14] Tokuda K, Masuko T, Miyazaki N, et al. Hidden Markov models based on multi-space probability distribution for pitch pattern modeling[C]//International Conference on Acoustics, Speech, and Signal Processing. 1999,1:229-232.
[15] Shinoda K, Watanabe T. MDL-based context-dependent subword modeling for speech recognition[J]. Journal of Acoustical Society of Japan , 2000, 21(2): 79-86.
[16] Yoshimura T, Tokuda K, Masuko T, et al. Duration modeling in HMM-based speech synthesis system[C]//International Conference on Spoken Language Processing. 1998, 2: 29-32.
[17] Tokuda K, Kobayashi T, Imai S. Speech parameter generation from HMM using dynamic features[C]//International Conference on Acoustics, Speech, and Signal Processing. 1995: 660-663.
[18] Nose T, Yamagishi J, Masuko T, et al. A style control technique for HMM-based expressive speech synthesis[J]. IEICE Transactions on Infomation and Systems, 2007, E90-D(9): 1406-1413.
[19] Shichiri K, Sawabe A, Tokuda K, et al. Eigenvoices for HMM-based speech synthesis[C]//International Conference on Spoken Language Processing. 2002: 1269-1272.
[20] Qin L, Ling Z H, Wu Y, et al. HMM-based emotional speech synthesis using average emotion model[C]//Proceedings of 5th International Symposium on Chinese Spoken Language Processing. 2006: 233-240.
[21] Ling Z H, Richmond K, Yamagishi J, et al. Articulatory control of HMM-based parametric speech synthesis driven by phonetic knowledge [C]//Proceedings of Interspeech. 2008: 573-576.
[22] Ling Z H, Richmond K, Yamagisihi J, et al. Integrating articulatory features into HMM-based parametric speech synthesis[J]. IEEE Transaction on Audio, Speech, and Language Processing, 2009, 17(6): 1171-1185.
[23] Ling Z H, Richmond K, Yamagishi J. Feature-space transform tying in unified acoustic-articulatory modelling for articulatory control of HMM-based speech synthesis [C]//Proceedings of Interspeech. 2011: 117-120.
[24] King S, Frankel J, Livescu K, et al. Speech production knowledge in automatic speech recognition[J]. Journal of the Acoustical Society of America, 2007, 121(2): 723-742.
[25] Markov K, Dang J, Nakamura S. Integration of articulatory and spectrum features based on the hybrid HMM/BN modeling framework[J]. Speech Communication, 2006, 48(2): 161-175.
[26] Dempster A P, Laird N M, Rubin D B. Maximum likelihood from incomplete data via the EM algorithm[J]. Journal of the Royal Statistical Society, 1977, 39(1): 1-38.
[27] Kawahara H, Masuda-Katsuse I, de Cheveigné A. Restructuring speech representations using a pitch-adaptive time-frequency smoothing and an instantaneous-frequency-based F0 extraction: possible role of a repetitive structure in sounds[J]. Speech Communication, 1999, 27(3-4): 187-207.
[28] Wu Y J, Wang R H. Minimum generation error training for HMM-based speech synthesis[C]//International Conference on Acoustics, Speech and Signal Processing. INSPEC, 2006, 1: 89-92.
[29] Wu Y J, Wang R H, Soong F. Full HMM training for minimizing generation error in synthesis[C]//International Conference on Acoustics, Speech and Signal Processing. Hawaii, USA: IEEE Press, 2007, 4: 517-520.
[30] Qin L, Wu Y J, Ling Z H, et al. Minimum generation error lineal regression based model adaptation for HMM-based speech synthesis[C]//International Conference on Acoustics, Speech and Signal Processing. Las Vegas: IEEE Press, 2008: 3953-3956.
[31] Lei M, Ling Z H, Dai L R. Minimum generation error training with weighted Euclidean distance on LSP for HMM-based speech synthesis [C]//International Conference on Acoustics, Speech and Signal Processing. 2010: 4230-4233.
[32] Lei M, Wu Y J, Soong F, et al. A hierarchical F0 modeling method for HMM-based speech synthesis [C]//Proceedings of Interspeech. 2010: 2170-2173.
[33] Lu H, Ling Z H, Dai L R, et al. Cross-validation and minimum generation error based decision tree pruning for HMM-based speech synthesis[J]. Computational Linguistics and Chinese Language Processing, 2010, 15(1): 61-76.
[34] Zhao T Y, Ling Z H, Lei M, et al. Minimum generation error training for HMM-based prediction of articulatory movements [C]//International Symposium on Chinese Spoken Language Processing. 2010: 99-102.
[35] Ling Z H, Wang R H. HMM-based unit selection using frame sized speech segments[C]//Proceedings of Interspeech. 2006: 2034-2037.
[36] Ling Z H, Wang R H. HMM-based hierarchical unit selection combining Kullback-Leibler divergence with likelihood criterion[C]//International Conference on Acoustics, Speech and Signal Processing. INSPEC, 2007,4: 1245-1248.
[37] Ling Z H, Wang Z H, Dai L R. Statistical modeling of syllable-level F0 features for HMM-based unit selection speech synthesis [C]//International Symposium on Chinese Spoken Language Processing. 2010: 144-147.
[38] Ling Z H, Wang R H. Minimum unit selection error training for HMM-based unit selection speech synthesis system[C]//International Conference on Acoustics, Speech and Signal Processing. 2008: 3949-3952.
[39] Ling Z H, Qin L, Lu H, et al. The USTC and iFLYTEK speech synthesis systems for Blizzard Challenge 2007[EB/OL]. http://festvox.org/blizzard/bc2007/blizzard_2007/blz3_017.html.
[40] Liu P, Soong F K. Kullback-Leibler divergence between two hidden Markov models[R]. Microsoft Research Asia, 2005.
[41] Black A W, Tokuda K. The Blizzard Challenge 2005: Evaluating corpus- based speech synthesis on common databases[C]//Proceedings of the Interspeech. 2005: 77-80.