• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      基于隱馬爾科夫模型的中文發(fā)音動作參數(shù)預(yù)測方法

      2014-07-25 09:22:30蔡明琦凌震華戴禮榮
      數(shù)據(jù)采集與處理 2014年2期
      關(guān)鍵詞:音素聲學(xué)發(fā)音

      蔡明琦 凌震華 戴禮榮

      (中國科學(xué)技術(shù)大學(xué)電子工程與信息科學(xué)系,合肥,230027)

      引 言

      語音是從肺部呼出的氣流通過聲門、聲道等各種器官作用而發(fā)出的。聲道的形狀主要由唇、顎、舌等的位置決定。不同的聲道形狀決定了不同的發(fā)音[1]。人們用發(fā)音動作參數(shù)描述發(fā)音器官在發(fā)音過程中的位置及運(yùn)動,這些發(fā)音器官包括舌、下顎、嘴唇等。發(fā)音動作參數(shù)可以通過多種技術(shù)來采集,例如 X 射線微束影像[2]、磁共振成像[3]、超聲波[4]、圖像采集外部發(fā)音器官運(yùn)動[5]及電磁發(fā)音儀(Electro magnetic articulography,EMA)[6]等。發(fā)音動作參數(shù)不僅可以有效地描述語音特征,而且相對于聲學(xué)參數(shù)還具有以下優(yōu)勢:

      (1)因?yàn)榘l(fā)音器官的物理運(yùn)動能力有限,所以發(fā)音動作參數(shù)相對于聲學(xué)參數(shù)變化緩慢且平滑,更適合使用隱馬爾科夫模型(Hidden Markov model,HMM)進(jìn)行建模。

      (2)對語音中存在的某些現(xiàn)象,發(fā)音動作參數(shù)可以進(jìn)行更直接的解釋。例如,語音中的第二共振峰從高到低的變化,可以通過發(fā)音動作參數(shù)解釋為舌位從前往后的運(yùn)動。

      (3)發(fā)音動作參數(shù)直接記錄發(fā)音器官的位置,它們不受聲學(xué)噪音的影響且較少受錄音環(huán)境的影響。因此發(fā)音動作參數(shù)相對于聲學(xué)參數(shù)更加魯棒[7]。

      基于發(fā)音動作參數(shù)的以上優(yōu)點(diǎn),已有研究人員將發(fā)音動作參數(shù)應(yīng)用到語音識別與語音合成的方法研究中,例如將發(fā)音動作參數(shù)作為語音識別的額外特征參數(shù)以降低識別錯誤率[8],在語音合成中融合發(fā)音動作參數(shù)以提高合成語音的自然讀與靈活可控性[9]等。

      此外,在給定文本或者語音輸入時(shí)的發(fā)音動作參數(shù)預(yù)測也是發(fā)音動作參數(shù)研究的熱點(diǎn)之一,其潛在的應(yīng)用場景包括語音驅(qū)動的人臉動畫系統(tǒng)、語言學(xué)習(xí)中的發(fā)音位置問題檢測、基于調(diào)音的語音合成方法中的發(fā)音器官運(yùn)動預(yù)測等。目前發(fā)音動作參數(shù)預(yù)測方法按照輸入主要分為兩類:(1)輸入文本:利用時(shí)間對齊的音素序列及高斯分布描述音素中點(diǎn)發(fā)音動作參數(shù)的分布,通過一個協(xié)同發(fā)音模型預(yù)測發(fā)音動作參數(shù)[10];利用目標(biāo)逼近模型進(jìn)行發(fā)音動作參數(shù)預(yù)測[11];基于HMM的發(fā)音動作參數(shù)預(yù)測[12]。(2)輸入語音:基于高斯混合模型的聲學(xué)-發(fā)音動作參數(shù)映射,并使用最大似然估計(jì)準(zhǔn)則考慮動態(tài)參數(shù)[13];利用人工神經(jīng)網(wǎng)絡(luò)和最大似然參數(shù)生成(Maximum likelihood parameter generation,MLPG)算法訓(xùn)練一個軌跡模型[14]。由于缺少中文發(fā)音動作參數(shù)數(shù)據(jù)庫,目前少有對中文發(fā)音動作參數(shù)的研究。

      本文對基于HMM的中文發(fā)音動作參數(shù)預(yù)測方法進(jìn)行研究。在模型訓(xùn)練階段,利用電磁發(fā)音儀完成了中文連續(xù)語流的發(fā)音動作參數(shù)采集、處理與數(shù)據(jù)庫制作,構(gòu)建了包含聲學(xué)與發(fā)音動作參數(shù)的雙流HMM模型來表征兩種參數(shù)之間的關(guān)系[12];在預(yù)測階段,利用輸入的文本及聲學(xué)參數(shù),基于最大似然準(zhǔn)則實(shí)現(xiàn)發(fā)音動作參數(shù)的預(yù)測。此外,本文還研究了建模過程中不同的上下文屬性、模型聚類方式、流間相關(guān)性假設(shè)以及轉(zhuǎn)換矩陣綁定方式對于中文發(fā)音動作參數(shù)預(yù)測性能的影響。

      1 中文連續(xù)語流EMA數(shù)據(jù)庫構(gòu)建

      利用EMA可以便捷、準(zhǔn)確、實(shí)時(shí)地采集發(fā)音動作參數(shù)。本文采用NDI公司的Wave System設(shè)備錄制中文發(fā)音人連續(xù)語流的發(fā)音動作參數(shù)及語音波形,并經(jīng)過預(yù)處理制作成中文連續(xù)語流EMA數(shù)據(jù)庫。由于使用EMA采集發(fā)音動作參數(shù),因此后續(xù)介紹中“發(fā)音動作參數(shù)”也用“EMA參數(shù)”來表示。

      本文設(shè)計(jì)的中文數(shù)據(jù)庫包括音素平衡的390句中文語句,由一名普通話女發(fā)音人在隔音密閉專業(yè)錄音室里采用AKG領(lǐng)夾式麥克風(fēng)朗讀錄制。使用NDI公司的Wave System設(shè)備平行錄制語音波形與EMA參數(shù)。波形錄制使用16kHz采樣,16bit量化的PCM格式。通過在發(fā)音人的各發(fā)音器官放置小的傳感器,并利用電磁信號對發(fā)音過程中各傳感器進(jìn)行定位來實(shí)現(xiàn)EMA數(shù)據(jù)的采集。實(shí)驗(yàn)中分別在感興趣的6個發(fā)音器官位置放置了傳感器,其位置如圖1所示。利用 Wave System設(shè)備,可以采集每個傳感器在發(fā)音過程中的空間三維位置。

      圖1 EMA傳感器位置示意圖Fig.1 Placement of EMA receivers in database

      由于EMA參數(shù)是由EMA傳感器直接記錄的位置信息,在對EMA參數(shù)進(jìn)行HMM建模前必須對其進(jìn)行預(yù)處理。預(yù)處理主要分為兩個步驟:頭部運(yùn)動規(guī)整和咬合面規(guī)整。

      1.1 頭部運(yùn)動規(guī)整

      原始的EMA數(shù)據(jù)記錄的是發(fā)音器官相對于固定參考系的位置信息,而實(shí)際感興趣的信息是發(fā)音器官相對于發(fā)音人頭部的運(yùn)動信息。因此,需要對EMA數(shù)據(jù)進(jìn)行規(guī)整以消除頭部運(yùn)動的影響。本文利用NDI公司W(wǎng)ave System提供的一個6D參考傳感器,并將這個參考傳感器放置在說話人鼻梁處(認(rèn)為鼻梁在發(fā)音時(shí)始終與頭部保持相對靜止),可以較為便捷地得到其他傳感器發(fā)音器官相對此傳感器的頭部規(guī)整后的EMA數(shù)據(jù)。

      1.2 咬合面規(guī)整

      將發(fā)音人牙齒自然咬合時(shí)所形成的平面定義為咬合面,如圖2所示,在一塊硬紙板上安置A,B,C三個傳感器(直線AB垂直于BC),讓發(fā)音人自然咬住硬紙板來測量發(fā)音人的咬合面。咬合面規(guī)整就是將原始以鼻梁參考點(diǎn)為中心的xyz坐標(biāo)系變換成x′y′z′坐標(biāo)系,其中x′y′平面為咬合面、y′z′平面為垂直于咬合面的頭部中軸面。利用咬合面對發(fā)音動作參數(shù)進(jìn)行規(guī)整可以使發(fā)音動作參數(shù)物理意義更明顯,并且可以較好保證不同發(fā)音人EMA參數(shù)的可比性。

      做完頭部運(yùn)動規(guī)整的EMA數(shù)據(jù),每個傳感器分別有x,y,z三維數(shù)據(jù),如圖1所示,其中x表示左右方向位移、y表示前后方向位移、z表示上下方向位移。在圖2中,假設(shè)M點(diǎn)為需要規(guī)整的點(diǎn),T為點(diǎn)M在咬合面的投影,S為TS在直線BC上的垂足。將MT,TS的長度作為z′,y′的模。由于所有傳感器均安置在發(fā)音人的頭部中軸面上,所以x′的模很小可以忽略。z′,y′的正負(fù)符號信息由BM與咬合面的法向量及AB直線夾角決定。經(jīng)過咬合面規(guī)整,每個傳感器所對應(yīng)EMA數(shù)據(jù)由三維降為兩維。

      圖2 咬合面規(guī)整過程示意圖Fig.2 Schematic diagram for occlusal surface normalization

      2 應(yīng)用HMM的中文發(fā)音動作參數(shù)預(yù)測

      將HMM用于中文發(fā)音動作參數(shù)預(yù)測,其框架類似于基于HMM的參數(shù)語音合成系統(tǒng)[15]。首先需要訓(xùn)練統(tǒng)一的聲學(xué)-發(fā)音動作參數(shù)HMM模型以表示聲學(xué)參數(shù)與發(fā)音動作參數(shù)之間的關(guān)系;在生成過程中,利用最大似然準(zhǔn)則和動態(tài)參數(shù)約束生成最優(yōu)發(fā)音動作參數(shù)[12]。

      2.1 發(fā)音動作參數(shù)預(yù)測方法

      整個發(fā)音動作參數(shù)預(yù)測系統(tǒng)主要分為訓(xùn)練和預(yù)測兩部分[7]。系統(tǒng)框架如圖3所示。

      圖3 基于HMM的發(fā)音動作參數(shù)預(yù)測系統(tǒng)Fig.3 HMM-based articulatory movement prediction system

      初始化上下文相關(guān)的HMM訓(xùn)練后,用最小描述長度(Minimum description length,MDL)準(zhǔn)則和上下文屬性問題集訓(xùn)練一棵決策樹,利用該決策樹對HMM進(jìn)行聚類[16],這樣可以解決由數(shù)據(jù)稀疏引起的過擬合問題。在對發(fā)音動作參數(shù)與聲學(xué)參數(shù)進(jìn)行基于決策樹的模型聚類時(shí),可以對兩種參數(shù)分別構(gòu)建決策樹(獨(dú)立聚類);也可以為這兩種參數(shù)構(gòu)建一棵共享的決策樹(共享聚類)。然后使用訓(xùn)練得到的上下文相關(guān)HMM進(jìn)行狀態(tài)切分并且訓(xùn)練狀態(tài)的時(shí)長概率模型[17]。通過上述訓(xùn)練流程,最后訓(xùn)練得到的模型包括譜、基頻、時(shí)長及發(fā)音動作參數(shù)的聚類HMM以及各自的決策樹。

      預(yù)測過程中,首先利用前端文本分析得到的結(jié)果和決策樹確定HMM序列,然后利用MLPG算法生成最優(yōu)發(fā)音動作參數(shù)[18]如下

      2.2 流間相關(guān)性建模

      因?yàn)槁晫W(xué)信號是由發(fā)音器官的運(yùn)動引起的,所以聲學(xué)參數(shù)與發(fā)音動作參數(shù)是彼此相關(guān)的。因此在對聲學(xué)參數(shù)與發(fā)音動作參數(shù)建模時(shí),應(yīng)考慮這種相關(guān)性。根據(jù)發(fā)音的物理機(jī)制,本文選擇采用狀態(tài)同步系統(tǒng)[7],狀態(tài)同步系統(tǒng)假設(shè)聲學(xué)參數(shù)和發(fā)音動作參數(shù)是由相同的狀態(tài)序列生成的。在狀態(tài)同步系統(tǒng)的基礎(chǔ)上,對聲學(xué)參數(shù)和發(fā)音動作參數(shù)之間的依賴關(guān)系進(jìn)行直接建模。此時(shí)聲學(xué)參數(shù)的生成不僅依賴于當(dāng)前的上下文相關(guān)音素的聲學(xué)模型,還依賴于當(dāng)前幀對應(yīng)的發(fā)音動作參數(shù)。特征生成模型結(jié)構(gòu)如圖4所示。

      圖4 特征生成模型結(jié)構(gòu)Fig.4 Feature production model for combined acoustic and articulatory modeling

      在之前的工作中,作者采用一無偏置的線性變換來對聲學(xué)參數(shù)與發(fā)音動作參數(shù)的依賴關(guān)系進(jìn)行直接建模[9,12]。本文在此基礎(chǔ)上改進(jìn)為一有偏置的線性變換對聲學(xué)參數(shù)與發(fā)音動作參數(shù)的依賴關(guān)系進(jìn)行建模,并且考慮該線性變換的分回歸類綁定以減少需要估計(jì)的模型參數(shù)數(shù)目。因此,聲學(xué)參數(shù)與發(fā)音動作參數(shù)的聯(lián)合分布可以寫成

      2.3 參數(shù)生成及迭代更新

      發(fā)音動作參數(shù)生成公式見式(7),下面簡化這一優(yōu)化過程,只考慮發(fā)音動作參數(shù)在最優(yōu)狀態(tài)序列下的情況,因此式(7)可簡化為式(18)

      采用迭代更新方法來交替更新發(fā)音動作參數(shù)與狀態(tài)序列,每一次迭代包括兩步[12]:

      (1)在給定聲學(xué)特征Y與狀態(tài)序列q的情況下,優(yōu)化發(fā)音動作參數(shù)XS。

      式中:i∈(1,2,…}表示第i次迭代,q0表示利用一個純聲學(xué)特征模型用Viterbi對齊算法對聲學(xué)特征序列Y切分出的初始狀態(tài)序列。如果假設(shè)X與Y在給定狀態(tài)序列下沒有依賴關(guān)系,采用傳統(tǒng)的MLPG算法可以直接求解式(19)。一旦在建模時(shí)考慮聲學(xué)參數(shù)與發(fā)音動作參數(shù)之間的依賴關(guān)系,如式(11)和式(19)中的聯(lián)合分布可以寫成式(20)。

      其中

      式中:K為 常 數(shù) 項(xiàng)。由 式 (26),ξt= [xTt,1]T,

      (2)給定和Y優(yōu)化狀態(tài)序列q

      更新的狀態(tài)序列將用在下一次的迭代中。

      3 實(shí)驗(yàn)結(jié)果和分析

      實(shí)驗(yàn)使用一個中文女發(fā)音人連續(xù)語流EMA數(shù)據(jù)庫,它同時(shí)包含語音波形和EMA參數(shù),具體信息可參考第2節(jié)。本文采用40階線譜對(Line spectral pair,LSP)和1階增益作為頻譜聲學(xué)參數(shù),使用經(jīng)過咬合面規(guī)整的12維特征(6個傳感器,每個傳感器兩維)作為發(fā)音動作參數(shù)。選擇380句作訓(xùn)練,剩余的10句用作測試。

      3.1 上下文屬性

      為了研究上下文相關(guān)HMM訓(xùn)練過程中使用的上下文屬性集對于發(fā)音動作參數(shù)預(yù)測系統(tǒng)的影響,本文訓(xùn)練了3個模型系統(tǒng):單音素模型、三音素模型及完全上下文相關(guān)模型系統(tǒng)。這里,采用獨(dú)立聚類的頻譜模型與發(fā)音動作參數(shù)模型聚類方式,并且暫不考慮2.2節(jié)中提出的流間相關(guān)性建模。其中,三音素模型的上下文屬性包含當(dāng)前音素及前后各一個音素;完全上下文相關(guān)模型的上下文屬性除了包含三音素模型中的音素特征,還包含一組廣泛的語言韻律特征。表1列出了其中一部分上下文屬性,表中L0表示音節(jié),L1表示韻律詞,L3表示韻律短語。

      表1 完全上下文相關(guān)模型訓(xùn)練中使用的部分上下文屬性列表Table 1 Some context descriptions used in full context dependent model

      分別采用單音素模型、三音素模型和完全上下文相關(guān)模型,計(jì)算10句測試句生成LSP參數(shù)的均方根誤差(Root mean square error,RMSE)作為客觀評價(jià)標(biāo)準(zhǔn)。3個系統(tǒng)的實(shí)驗(yàn)結(jié)果如圖5所示,單音素模型系統(tǒng)的系能明顯低于三音素模型、完全上下文相關(guān)模型系統(tǒng),因?yàn)楹髢煞N上下文模型都考慮了當(dāng)前音素與前后音素的協(xié)同發(fā)音現(xiàn)象。完全上下文相關(guān)模型相對三音素模型增加的上下文屬性主要體現(xiàn)的是對基頻、時(shí)長等韻律參數(shù)的影響,因此對于提升發(fā)音動作參數(shù)的預(yù)測精度作用不大。后續(xù)的實(shí)驗(yàn)都將基于三音素模型進(jìn)行。

      圖5 采用單音素模型、三音素模型與完全上下文相關(guān)模型時(shí)的發(fā)音動作參數(shù)預(yù)測客觀測試結(jié)果Fig.5 Objective evaluation of articulatory RMSE on monophone model,triphone model and full context model

      3.2 聚類方式

      在本文的實(shí)驗(yàn)數(shù)據(jù)庫上,分別采用共享聚類和獨(dú)立聚類的決策樹葉子節(jié)點(diǎn)數(shù)目如圖6所示。采用獨(dú)立聚類時(shí),EMA參數(shù)的決策樹比采用共享聚類的決策樹要大,這表明發(fā)音動作參數(shù)對比聲學(xué)參數(shù)在發(fā)音變化上具有更好的區(qū)分性。

      圖6 采用共享聚類與獨(dú)立聚類方式的各狀態(tài)決策樹葉子節(jié)點(diǎn)數(shù)目對比Fig.6 Node numbers of decision trees on each state for shared clustering and separate clustering

      共享聚類與獨(dú)立聚類的客觀測試對比試驗(yàn)結(jié)果如圖7所示。采用獨(dú)立聚類可以提高EMA參數(shù)的預(yù)測精確性。因此,之后的實(shí)驗(yàn)都將采用獨(dú)立聚類的方式。

      3.3 流間相關(guān)性建模

      圖7 采用共享聚類與獨(dú)立聚類時(shí)的發(fā)音動作參數(shù)預(yù)測客觀測試結(jié)果Fig.7 Objective evaluation of articulatory RMSE on shared clustering system and separate clustering system

      進(jìn)一步驗(yàn)證2.2節(jié)提出的流間相關(guān)性建模方法對于發(fā)音動作參數(shù)預(yù)測性能的影響。為了考慮流間相關(guān)性建模中轉(zhuǎn)換矩陣的數(shù)目對于系統(tǒng)的影響,采用回歸類的方法對轉(zhuǎn)換矩陣和決策樹葉子節(jié)點(diǎn)進(jìn)行綁定。因此,本文訓(xùn)練了5個系統(tǒng)進(jìn)行回歸類影響的分析,如表2所示。

      表2 回歸類方法實(shí)驗(yàn)的系統(tǒng)配置Table 2 Configuration for different regression systems

      實(shí)驗(yàn)結(jié)果如圖8所示,可以看出加入聲學(xué)參數(shù)與發(fā)音動作參數(shù)之間的依賴性可以明顯提高預(yù)測的準(zhǔn)確性。并且當(dāng)增加轉(zhuǎn)換矩陣的數(shù)目時(shí),可以提高發(fā)音動作參數(shù)的預(yù)測準(zhǔn)確性,在綁定到每個葉子節(jié)點(diǎn)時(shí)得到最優(yōu)結(jié)果。

      圖8 考慮流間相關(guān)性并采用不同綁定方式訓(xùn)練轉(zhuǎn)換矩陣時(shí)的系統(tǒng)客觀測試結(jié)果Fig.8 Objective evaluation of articulatory RMSE on different regression systems

      4 結(jié)束語

      本文首先闡述了制作中文連續(xù)語流發(fā)音動作參數(shù)數(shù)據(jù)庫及發(fā)音動作參數(shù)預(yù)處理方法。并且在中文數(shù)據(jù)庫上進(jìn)行了基于HMM的發(fā)音動作參數(shù)預(yù)測實(shí)驗(yàn),對比了不同上下文模型、聚類方式對發(fā)音動作參數(shù)預(yù)測性能的影響,結(jié)果表明采用三音素模型與單獨(dú)聚類的模型結(jié)構(gòu)可以得到較好的結(jié)果。本文還采用有偏置的線性變換對流間相關(guān)性進(jìn)行建模,并且對轉(zhuǎn)換矩陣的回歸類訓(xùn)練方法進(jìn)行研究。實(shí)驗(yàn)表明,隨著使用的轉(zhuǎn)換矩陣回歸類數(shù)目的增多,預(yù)測的發(fā)音動作參數(shù)誤差明顯下降。未來計(jì)劃在聲學(xué)參數(shù)與發(fā)音動作參數(shù)聯(lián)合模型訓(xùn)練準(zhǔn)則、引入非線性變換表征兩種參數(shù)間依賴關(guān)系等方面開展進(jìn)一步的研究工作。

      [1] 趙力.語音信號處理[M].北京:機(jī)械工業(yè)出版社,2009:14-16.

      Zhao Li.Speech signal processing[M].Beijing:China Machine Press,2009:14-16.

      [2] Kiritani S.X-ray microbeam method for the measurement of articulatory dynamics:Technique and results[J].Speech Communication,1986,45:119-140.

      [3] Bare T,Gore J C,Boyce S,et al.Application of MRI to the analysis of speech production[J].Magnetic Resonance Imaging,1987,5:1-7.

      [4] Akgul Y,Kambhamettu C,Stone M.Extraction and tracking of the tongue surface from ultrasound image sequences[J].IEEE Comp Vision and Pattern Recog,1998,123:298-303.

      [5] Summerfield Q.Some preliminaries to a comprehensive account of audio visual speech perception[M].Hillsdale,NJ England:Lawrence Evlbaum Associates,1987:3-51.

      [6] Sch?nle P W,Gr?be K,Wening P,et al.Electromagnetic articulography:Use of alternating magnetic fields for tracking movements of multiple points inside and outside the vocal tract[J].Brain Lang,1987,31:26-35.

      [7] 凌震華.基于聲學(xué)統(tǒng)計(jì)建模的語音合成技術(shù)研究[D].合肥:中國科學(xué)技術(shù)大學(xué),2008.

      Ling Zhenhua.Research on statistical acoustic model based speech synthesis[D].Hefei:University of Science and Technology of China,2008.

      [8] Kirchhoff K,F(xiàn)ink G,Sagerer G.Conversation speech recognition using acoustic and articulatory in-put[C]//ICASSP.Istanbul,Turkey:IEEE,2000:1435-1438.

      [9] Ling Zhenhua,Richmond K,Yamagishi J,et al.Integrating articulatory features into HMM-based parametric speech synthesis[J].IEEE Transacions on Audio,Speech,and Language Processing,2009,17(6):1171-1185.

      [10]Blackburn C S,Young S.A self-learning predictive model of articulator movements during speech production[J].Acoustical Society of America,2000,107(3):1659-1670.

      [11]Birkholz P,Kr?ger B J,Neuschaefer-Rube C.Model-based reproduction of articulatory trajectories for consonant-vowel sequences[J].IEEE Transactions on Audio,Speech,and Language Processing,2011,10(5):1422-1433.

      [12]Ling Zhenhua,Richmond K,Yamagishi J.An analysis of HMM-based prediction of articulatory movements[J].Speech Communication,2010,52:834-846.

      [13]Toda T,Black A W,Tokuda K.Statistical mapping between articulatory movements and acoustic spectrum using a Gaussian mixture model[J].Speech Communication,2008,50:215-227.

      [14]Richmond K.Trajectory mixture density networks with multiple mixtures for acoustic-articulatory inversion[C]//NOLISP.Berlin,Heidelberg:Springer-Verlag,2007:263-272.

      [15]Tokuda K,Zen H,Black A W.HMM-based approach to multilingual speech synthesis[M].United States:Prentice Hall,2004.

      [16]Shinoda K,Watanabe T.MDL-based context-dependent sub-word modeling for speech recognition[J].Journal of Acoustical Society of Japan (E),2000,21(2):79-86.

      [17]Yoshimura T,Tokuda K,Masuko T,et al.Duration modeling in HMM-based speech synthesis system[C]//ICSLP.Sydney,Australia:[s.n.],1998,2:29-32.

      [18]Tokuda K,Yoshimura T,Masuko T,et al.Speech parameter generation algorithms for HMM-based speech synthesis[C]//ICASSP.Istanbul,Turkey:[s.n.],2000,3:1315-1318.

      猜你喜歡
      音素聲學(xué)發(fā)音
      I’m a Little Teapot
      新目標(biāo)英語七年級(上)Starter Units 1-3 STEP BY STEP 隨堂通
      依托繪本課程,培養(yǎng)學(xué)生英語音素意識
      愛的就是這股Hi-Fi味 Davis Acoustics(戴維斯聲學(xué))Balthus 70
      小學(xué)英語課堂中音素意識與自然拼讀整合訓(xùn)練的探索
      Acoustical Treatment Primer:Diffusion談?wù)劼晫W(xué)處理中的“擴(kuò)散”
      Acoustical Treatment Primer:Absorption談?wù)劼晫W(xué)處理中的“吸聲”(二)
      Acoustical Treatment Primer:Absorption 談?wù)劼晫W(xué)處理中的“吸聲”
      ?不定冠詞a與an
      Playing with h
      青阳县| 浮梁县| 西青区| 阜城县| 柘荣县| 扎兰屯市| 沈阳市| 岗巴县| 边坝县| 西丰县| 新昌县| 河北省| 甘肃省| 万年县| 荣成市| 淮阳县| 民权县| 林甸县| 永和县| 临海市| 永州市| 云梦县| 盐津县| 三明市| 鄱阳县| 临夏县| 昌黎县| 饶河县| 河北区| 灵丘县| 木兰县| 宣城市| 太仆寺旗| 景东| 兖州市| 新巴尔虎左旗| 织金县| 龙胜| 兰州市| 灵丘县| 安国市|