• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      基于深度神經(jīng)網(wǎng)絡(luò)的語音驅(qū)動發(fā)音器官的運(yùn)動合成

      2016-08-22 09:55:06唐郅侯進(jìn)
      自動化學(xué)報 2016年6期
      關(guān)鍵詞:唇部聲學(xué)語音

      唐郅 侯進(jìn)

      ?

      基于深度神經(jīng)網(wǎng)絡(luò)的語音驅(qū)動發(fā)音器官的運(yùn)動合成

      唐郅1侯進(jìn)1

      實現(xiàn)一種基于深度神經(jīng)網(wǎng)絡(luò)的語音驅(qū)動發(fā)音器官運(yùn)動合成的方法,并應(yīng)用于語音驅(qū)動虛擬說話人動畫合成.通過深度神經(jīng)網(wǎng)絡(luò)(Deep neural networks,DNN)學(xué)習(xí)聲學(xué)特征與發(fā)音器官位置信息之間的映射關(guān)系,系統(tǒng)根據(jù)輸入的語音數(shù)據(jù)估計發(fā)音器官的運(yùn)動軌跡,并將其體現(xiàn)在一個三維虛擬人上面.首先,在一系列參數(shù)下對比人工神經(jīng)網(wǎng)絡(luò)(Artificial neural network,ANN)和DNN的實驗結(jié)果,得到最優(yōu)網(wǎng)絡(luò);其次,設(shè)置不同上下文聲學(xué)特征長度并調(diào)整隱層單元數(shù),獲取最佳長度;最后,選取最優(yōu)網(wǎng)絡(luò)結(jié)構(gòu),由DNN輸出的發(fā)音器官運(yùn)動軌跡信息控制發(fā)音器官運(yùn)動合成,實現(xiàn)虛擬人動畫.實驗證明,本文所實現(xiàn)的動畫合成方法高效逼真.

      深度神經(jīng)網(wǎng)絡(luò),語音驅(qū)動,運(yùn)動合成,虛擬說話人

      引用格式唐郅,侯進(jìn).基于深度神經(jīng)網(wǎng)絡(luò)的語音驅(qū)動發(fā)音器官的運(yùn)動合成.自動化學(xué)報,2016,42(6):923-930

      由于視覺與聽覺是人類最主要、最便捷的兩種溝通方式,因此虛擬人動畫結(jié)合聽視覺雙模態(tài)溝通方式的特點,將虛擬人的視覺信息作為其聲音的一種補(bǔ)充.例如,額外的舌頭和唇部等發(fā)音器官的運(yùn)動,眉毛和眼瞼等面部特征,甚至是頭部和肢體的動作等,這些附加信息可以極大提高虛擬人動畫的真實感和可懂度.基于語音驅(qū)動虛擬人動畫的方法已經(jīng)被證實在人機(jī)交互應(yīng)用中十分有效[1-5].

      語音的產(chǎn)生與聲道發(fā)音器官的運(yùn)動直接相關(guān),如唇部、舌頭和軟腭的位置與移動.因此,本文根據(jù)聲學(xué)特征參數(shù)估計發(fā)音器官的位置信息,并體現(xiàn)在一個虛擬說話人上面,實現(xiàn)語音驅(qū)動虛擬說話人動畫合成.其中,最重要的環(huán)節(jié)是聲視覺映射,即研究聲學(xué)特征與發(fā)音器官位置信息的映射問題.

      在最近的十年里,人工神經(jīng)網(wǎng)絡(luò)(Artificial neural network,ANN)[6]、隱馬爾科夫模型(Hidden Markov model,HMM)[7]、高斯混合模型(Gaussian mixture model,GMM)[8]和動態(tài)貝葉斯網(wǎng)絡(luò)(Dynamic Bayesian network,DBN)[9]等被應(yīng)用于研究聲視覺映射問題.然而,聲學(xué)特征與發(fā)音器官位置信息之間的映射關(guān)系是一個非線性,多對多的映射問題.因此,使用這些算法研究聲視覺映射問題的預(yù)測精度較低.在Uria等[10]和Zhao等[11]的研究中,將聲學(xué)特征與發(fā)音器官位置信息之間的映射視為一個回歸問題,使用深度神經(jīng)網(wǎng)絡(luò)(Deep neuralnetworks,DNN)尋找兩者之間的連續(xù)映射關(guān)系,并取得良好的實驗效果.

      在虛擬人面部運(yùn)動控制問題上,絕大多數(shù)研究者都將發(fā)音器官的運(yùn)動合成作為一個重要的研究方向,主要體現(xiàn)在唇舌模型的運(yùn)動控制,實現(xiàn)虛擬人動畫合成.目前主要有兩種主流方法,一種是基于參數(shù)控制的方法[12-13],另一種是基于數(shù)據(jù)驅(qū)動的方法[14-15].前者首先建立一個基于二維正面照片的三維人物面部模型,然后定義一些模型控制參數(shù),通過計算每一幀動畫所需要的參數(shù)控制虛擬人面部動畫;后者則是先建立一個圖像樣本的表情數(shù)據(jù)庫,在合成階段根據(jù)算法將合適的嘴巴圖像從微表情數(shù)據(jù)庫中選出來,合成情感說話人面部動畫.

      針對本文實際情況,采用實驗室前期工作,基于運(yùn)動軌跡分析的3D唇舌肌肉控制模型[16].該模型的優(yōu)點在于通過分析嘴部和舌部的運(yùn)動軌跡,將其分解為一些機(jī)械運(yùn)動的組合,只需要幾個控制參數(shù)便能夠很好地實現(xiàn)唇部和舌部的自然運(yùn)動合成.

      本文實現(xiàn)一種語音驅(qū)動虛擬說話人動畫合成方法.首先,本文比較基于ANN和DNN的方法研究聲學(xué)特征與發(fā)音器官位置信息之間映射關(guān)系的優(yōu)劣.其中,ANN的網(wǎng)絡(luò)權(quán)值采用隨機(jī)初始化方式,而DNN采取預(yù)訓(xùn)練的方式初始化網(wǎng)絡(luò)權(quán)值.然后,在得到較好的網(wǎng)絡(luò)結(jié)構(gòu)的基礎(chǔ)上,我們進(jìn)一步研究上下文(Context)長度對其重構(gòu)誤差的影響,獲得最佳的Context長度.最后,在這兩個實驗結(jié)果的基礎(chǔ)上,選取最優(yōu)網(wǎng)絡(luò)結(jié)構(gòu),由DNN輸出的發(fā)音器官位置信息控制發(fā)音器官運(yùn)動合成,實現(xiàn)虛擬人動畫.實驗證明,本文所實現(xiàn)的動畫合成方法有效逼真.

      1 基于深度神經(jīng)網(wǎng)絡(luò)的聲視覺映射

      1.1深度置信網(wǎng)絡(luò)

      深層次網(wǎng)絡(luò)訓(xùn)練中的高度非凸性(Highly nonconvex property)和梯度擴(kuò)散(Gradient diffusion)等問題導(dǎo)致直接訓(xùn)練一個DNN是一件很困難的事情.Hinton等提出一種構(gòu)建深層次結(jié)構(gòu)神經(jīng)網(wǎng)絡(luò)的切實可行的方案[17].該方法的關(guān)鍵在于使用若干個受限的玻爾茲曼機(jī)(Restricted Boltzmann machine,RBM)無監(jiān)督生成預(yù)訓(xùn)練,并將這些RBM逐層依次向上堆砌成一個DBN.生成預(yù)訓(xùn)練階段使每一個RBM接近全局最優(yōu),從而確保DBN可以獲得一個更優(yōu)的網(wǎng)絡(luò)權(quán)值初值.

      1.1.1受限的玻爾茲曼機(jī)

      RBM是一種可以用無向圖模型表述的概率模型.該無向圖模型擁有兩層結(jié)構(gòu),且每一層由若干個概率單元組成.一個用于描述輸入數(shù)據(jù)特征的可見層和一個隱藏層.所有的可見層單元通過一個無向權(quán)值與隨機(jī)二值的隱藏層單元全連接,而在可見層和隱藏層的層內(nèi)單元間無連接.

      RBM是一個基于能量的模型,在模型參數(shù)θ下,記其可見層和隱藏層的聯(lián)合組態(tài)為,其能量函數(shù)為.則可見層與隱藏層的聯(lián)合概率分布為

      當(dāng)RBM的可見層和隱藏層單元都是隨機(jī)二值類型時,我們采用Bernoulli-Bernoulli RBM(二值RBM).其聯(lián)合概率分布的能量函數(shù)被定義為

      當(dāng)可見層輸入是實際的特征值時,如語音參數(shù)梅爾倒譜系數(shù)(Mel-scale frequency cepstral coefficients,MFCC),而隱藏層是隨機(jī)二值類型時,我們采用Gaussian-Bernoulli RBM(GRBM)[18].

      通常,我們將GRBM輸入端的實際的特征數(shù)據(jù)進(jìn)行歸一化處理,使其具有0均值且標(biāo)準(zhǔn)差為1.則其聯(lián)合概率分布的能量函數(shù)被定義為

      在RBM的生成訓(xùn)練階段,我們使用對比散度(Contrastive divergence,CD)[19]算法.

      1.1.2堆砌RBM成DBN

      我們將若干個RBM自下而上一層一層地堆砌成DBN,堆砌規(guī)則可參見文獻(xiàn)[20].因為本文中輸入的數(shù)據(jù)為聲學(xué)特征,故最低層RBM本文采用GRBM,其他層為二值RBM.將GRBM隱藏層單元的狀態(tài)作為新數(shù)據(jù),用于訓(xùn)練更高一層的二值RBM;而在兩個二值RBM之間使用低層的輸出值作為更高一層的輸入數(shù)據(jù).采用這種重復(fù)的方法,我們可以獲得期望的隱藏層層數(shù)的網(wǎng)絡(luò)結(jié)構(gòu).

      1.2搭建并微調(diào)DNN結(jié)構(gòu)

      本文在DBN的最頂層增加一個線性輸出層形成DNN[21],用于研究聲學(xué)特征與發(fā)音器官位置信息之間的映射問題.輸入為語音特征參數(shù),輸出為發(fā)音器官的位置信息.使用預(yù)訓(xùn)練DBN獲得的各層參數(shù)依次初始化與DNN對應(yīng)的每一層,這樣我們便可以獲得一個接近最優(yōu)參數(shù)的深層網(wǎng)絡(luò)結(jié)構(gòu).最后,我們便可以將DNN當(dāng)作傳統(tǒng)的ANN,使用誤差反向傳播(Error back propagation,BP)算法進(jìn)行微調(diào)網(wǎng)絡(luò)參數(shù).

      2 語料庫

      本文使用MNGU0數(shù)據(jù)庫[22]研究聲學(xué)特征與發(fā)音器官位置信息之間的映射問題.該數(shù)據(jù)庫采用電磁關(guān)節(jié)造影技術(shù)(Electromagnetic articulography,EMA)并行記錄一個說話者說話時發(fā)音器官的位置信息,同時記錄說話者的語音數(shù)據(jù)資料.如圖1所示,分別記錄上唇(UL)、下唇(LL)、下頜切牙(LI)、舌尖(T1)、舌片(T2)和舌背(T3)上觀測點的位置信息.EMA以200Hz的采樣頻率記錄這6個觀測點的x和y軸坐標(biāo)值,共計12維數(shù)據(jù).至于音頻數(shù)據(jù),首先將記錄的語音數(shù)據(jù)降低采樣頻率至16kHz,然后使用STRAIGHT[23]提取40維頻率扭曲線譜頻率(Frequency-warped line spectral frequencies,LSFs),并加一個增益值.在所有的EMA 和LSFs參數(shù)向量的每一個維度上,先減去其平均值,然后除以4倍的標(biāo)準(zhǔn)差,進(jìn)行歸一化處理.

      MNGU0數(shù)據(jù)庫包含1354個語音片段文件和對應(yīng)的EMA數(shù)據(jù)文件.其中,校驗和測試數(shù)據(jù)集各具有63個音頻和對應(yīng)的EMA數(shù)據(jù)文件,則剩余的1228個音頻和對應(yīng)的EMA數(shù)據(jù)文件作為訓(xùn)練數(shù)據(jù)集.

      圖1 MNGU0數(shù)據(jù)庫中EMA記錄發(fā)音器官的6個觀測點[22]Fig.1 Positioning of the six electromagnetic coils in the MNGU0 dataset[22]

      3 發(fā)音器官模型

      本文主要驅(qū)動的發(fā)音器官為嘴部和舌部,我們采用實驗室前期工作基于運(yùn)動軌跡分析的3D唇舌肌肉控制模型[16].圖2和圖3分別代表三維虛擬人唇部模型和舌部模型.該模型的優(yōu)點在于通過分析嘴部和舌部的運(yùn)動軌跡,將其分解為一些機(jī)械運(yùn)動的組合,只需通過計算口輪匝肌外圈肌、舌縱肌等的肌肉收縮量oos、zt和下頜的旋轉(zhuǎn)角度jaw,便可以很好地實現(xiàn)唇部和舌部的自然運(yùn)動合成.

      根據(jù)文獻(xiàn)[16],推出口輪匝肌外圈肌的肌肉收縮量的計算公式如下:

      其中,Δx為預(yù)測出上唇的x坐標(biāo)相對其初始狀態(tài)的相對變化量;hm為初始狀態(tài)下唇舌模型的上下嘴唇高度差;ht為初始狀態(tài)下測量的上唇與下唇的y坐標(biāo)的相對差值;Kx為伸縮系數(shù),通過實驗獲得Kx=0.2;Ls為唇舌模型中唇部長度.

      圖2 嘴部網(wǎng)格模型Fig.2 Mouth mesh model

      圖3 舌部網(wǎng)格模型Fig.3 Tongue mesh model

      計算下頜的旋轉(zhuǎn)角度jaw的方法如圖4所示.其中,點U和L分別表示上唇和下唇的測量點位置;O′為線段的中點;點J為初始狀態(tài)時下頜切牙測量點位置;J′為說話時下頜切牙的一個位置.則計算下頜的旋轉(zhuǎn)角度公式為

      圖4 下頜的旋轉(zhuǎn)角度分析Fig.4 The rotation of the mandible angle analysis

      根據(jù)文獻(xiàn)[16],推出舌縱肌的肌肉收縮量的計算公式如下:

      其中,dT為初始狀態(tài)下舌片T2與舌尖T1之間的距離;dT′為說話時舌片T2與舌尖T1之間的距離;Kd為伸縮系數(shù),通過實驗獲得Kd=0.05;dm為唇舌模型中舌片與舌尖之間的距離.

      我們通過DNN預(yù)測輸出的發(fā)音器官位置信息可以計算出口輪匝肌外圈肌、舌縱肌等的肌肉收縮量oos、zt和下頜的旋轉(zhuǎn)角度jaw,從而實現(xiàn)發(fā)音器官的運(yùn)動合成.

      4 實驗結(jié)果與分析

      本文的實驗環(huán)境為 Intel Xeon E3-1231 v3 3.4GHz,16GB內(nèi)存,Window 7,Matlab 2012b,VS2010,OpenGL.

      采用均方根誤差(Root mean-squared error,RMSE)評價基于神經(jīng)網(wǎng)絡(luò)的方法實現(xiàn)聲學(xué)特征與發(fā)音器官位置信息之間映射關(guān)系的實驗效果,其定義如下:

      其中,ei為發(fā)音器官位置信息的估計值;ti為發(fā)音器官位置信息的真實測量值.

      本文分別計算發(fā)音器官位置信息的每一維RMSE,然后取12維RMSE的平均值作為最終的重構(gòu)誤差RMSE.

      采用文獻(xiàn)[24]的客觀評價方法評價唇部動畫合成的真實度.本文考查實際唇部的歸一化高度與動畫合成唇部的歸一化高度的差值其中,分別是在發(fā)音階段實際唇部和動畫合成唇部的高度;分別是在唇部自然閉合狀態(tài)下實際唇部和動畫合成唇部的高度.

      本文分別計算每個測試數(shù)據(jù)的客觀評測值Obj,并取其均值,作為最終的動畫合成評測結(jié)果.

      4.1實驗條件

      本文使用N個語音幀組成的上下文窗(Context window)作為DNN的輸入數(shù)據(jù),調(diào)整N獲得最優(yōu)的實驗結(jié)果.因為本文使用41維語音參數(shù)(40 維LSFs加1個增益值),因此DNN的輸入層單元數(shù)為41×N.至于輸出端,本文不僅選擇與當(dāng)前上下文窗的中間時刻對應(yīng)的12維EMA數(shù)據(jù),而且還考慮EMA數(shù)據(jù)的一階和二階差分.所以,DNN輸出層含有36個單元.

      在本文中,輸入層為GRBM,其他層為二值RBM.在預(yù)訓(xùn)練階段,本文設(shè)置所有RBM的小批量(Mini-batch)為128,動量因子為0.9,未使用權(quán)值衰減.設(shè)置GRBM的學(xué)習(xí)速率為0.001,迭代50次;而二值RBM的學(xué)習(xí)速率為0.01,迭代10次.

      在DNN調(diào)整網(wǎng)絡(luò)權(quán)值階段,本文采用BP算法的隨機(jī)梯度下降法微調(diào)網(wǎng)絡(luò)權(quán)值,且小批量同為128.設(shè)置網(wǎng)絡(luò)的學(xué)習(xí)速率為0.01,動量因子為0.9,迭代500次.在每次迭代時,網(wǎng)絡(luò)學(xué)習(xí)速率的衰減因子為0.99.

      4.2ANN和DNN實驗結(jié)果的對比

      本文進(jìn)行一系列實驗,比較ANN和DNN的實驗結(jié)果優(yōu)劣.在此次實驗中,本文采用10個語音幀組成的上下文窗作為DNN的輸入層,故輸入層有410個節(jié)點單元.ANN和DNN網(wǎng)絡(luò)分別含有1至4個隱藏層,且每個隱藏層分別有100、200、300和400個單元,均采用測試數(shù)據(jù)集進(jìn)行測試,共得到32組實驗結(jié)果,如圖5所示.

      圖5 對比ANN和DNN的實驗結(jié)果Fig.5 Comparison on the experimental results of ANN and DNN

      從圖5中可知,基于DNN方法的重構(gòu)誤差明顯小于ANN.因此,使用基于DNN的方法研究聲學(xué)特征與發(fā)音器官位置信息之間映射關(guān)系的效果更優(yōu).另外,當(dāng)DNN含有3個隱藏層,且每個隱藏層層內(nèi)具有300個單元時,在10個語音幀組成的上下文窗的條件下,其重構(gòu)誤差最小.

      文獻(xiàn)[11]中也選擇MNGU0數(shù)據(jù)庫作為訓(xùn)練與測試,其DNN含有4個隱藏層,且每個隱藏層均含有1000個單元的網(wǎng)絡(luò)結(jié)構(gòu).從文獻(xiàn)[11]的結(jié)果圖中可以看出,其最優(yōu)結(jié)果大于0.145cm,而本文所得到的最小重構(gòu)誤差小于文獻(xiàn)[11]中的結(jié)果,效果更優(yōu).

      圖6 比較ANN和DNN估計的發(fā)音器官運(yùn)動軌跡Fig.6 Comparison on the estimated articulatory motion trajectories between ANN and DNN

      圖6為由400幀語音參數(shù)估計出的舌尖(T1)、舌片(T2)和上唇(UL)運(yùn)動軌跡.圖中實線為真實值,點虛線為ANN估計值,短線虛線為DNN估計值.從圖6中可以看出,采用基于DNN的方法擬合出特征點的運(yùn)動軌跡更接近真實的運(yùn)動軌跡,故DNN的擬合效果優(yōu)于ANN.通過對比重構(gòu)誤差和擬合T2的運(yùn)動軌跡這兩個方面,均可以發(fā)現(xiàn)DNN優(yōu)于ANN.

      4.3上下文的長度對實驗結(jié)果的影響

      在基于深度學(xué)習(xí)的語音識別領(lǐng)域,研究人員發(fā)現(xiàn)將長的上下文聲學(xué)特征作為輸入端,可以獲得更好的識別效果[25].因此,本文嘗試尋找最佳的上下文窗作為DNN的輸入數(shù)據(jù),使估計出發(fā)音器官的位置信息的重構(gòu)誤差最小.本文試驗6~30個語音幀組成的上下文窗,且每次增加4幀.我們采用含有3個隱藏層的預(yù)訓(xùn)練網(wǎng)絡(luò),且在訓(xùn)練階段均迭代500次,調(diào)整隱藏層層內(nèi)單元數(shù)使網(wǎng)絡(luò)最優(yōu).

      實驗結(jié)果如表1所示,從中我們發(fā)現(xiàn)適當(dāng)?shù)卦黾由舷挛拇暗拈L度可以降低重構(gòu)誤差,但過長的上下文窗并不能取得更好效果.因此,使用適當(dāng)長度的上下文聲學(xué)特征作為DNN的輸入端,可以有效地降低重構(gòu)誤差.本文上下文長度為22幀,且DNN每層含有500隱藏單元時,RMSE最小,為0.134cm.

      表1 上下文窗的長度對RMSE的影響Table 1 Effect of the length of the context window on the RMSE

      4.4唇部動畫評價結(jié)果

      本文在前兩個實驗結(jié)果的基礎(chǔ)上,選取含有3個隱藏層,每層含有500個單元的深度神經(jīng)網(wǎng)絡(luò),其DNN輸入端為22幀語音參數(shù)的最優(yōu)網(wǎng)絡(luò).我們使用得到的12維發(fā)音器官位置信息控制虛擬人動畫合成.

      通過本文使用的方法合成測試集中的一段House shook的三維人臉口型動畫.為了方便而直觀地驗證人臉口型動畫的逼真度,錄制真實人臉視頻與基于本文方法合成的動畫進(jìn)行對比,如圖7所示.

      圖7中第1行為真實人臉在說話時的口型截圖,第2行為本文方法合成的三維人臉口型動畫截圖.通過主觀對比評價可以發(fā)現(xiàn),基于本文方法合成的動畫與真實說話人發(fā)音口型變化規(guī)律相同.

      采用客觀評價方法對本文合成的63個測試動畫進(jìn)行客觀評測,得到評測結(jié)果如表2所示.結(jié)果表明基于本文方法實現(xiàn)的動畫效果比傳統(tǒng)方法較優(yōu),并且動畫合成更加簡易.

      表2 客觀評價結(jié)果Table 2 Objective assessment results

      通過主客觀評價分析,得出本文所實現(xiàn)的方法接近真實說話人的口型動畫變化趨勢,并且合成的口型動畫的綜合客觀評價結(jié)果較好.因此,實驗結(jié)果證明本文所實現(xiàn)的動畫合成方法簡易有效且逼真.

      圖7 口型動畫部分截圖Fig.7 Snapshots from the lip animation

      5 結(jié)論

      本文實現(xiàn)一種基于深度神經(jīng)網(wǎng)絡(luò)的語音驅(qū)動發(fā)音器官運(yùn)動合成的方法,將其用于語音驅(qū)動虛擬說話人系統(tǒng).通過DNN學(xué)習(xí)語音特征與發(fā)音器官位置信息之間的映射關(guān)系,從而根據(jù)輸入的語音數(shù)據(jù)估計出發(fā)音器官的運(yùn)動軌跡,并將其體現(xiàn)在一個三維虛擬人上面.首先,本文在一系列參數(shù)下對比ANN 和DNN的實驗結(jié)果,得到最優(yōu)網(wǎng)絡(luò);其次,設(shè)置不同上下文聲學(xué)特征長度并調(diào)整隱層單元數(shù),獲取最佳長度;最后,本文在這兩個結(jié)論的基礎(chǔ)上,選取最優(yōu)網(wǎng)絡(luò)結(jié)構(gòu),由DNN輸出的發(fā)音器官位置信息控制發(fā)音器官運(yùn)動合成,實現(xiàn)虛擬人動畫.實驗證明,本文所實現(xiàn)的動畫合成方法高效且逼真,優(yōu)點在于合成動畫的控制參數(shù)少,簡單方便.但是,也存在一些問題,如本文只使用了舌縱肌控制舌部動畫合成,實現(xiàn)舌頭卷起動作,而未考慮控制舌頭厚度變化.因此,在未來工作中會對其進(jìn)行改善,生成更加逼真的舌部動畫.

      References

      1 Liu J,You M Y,Chen C,Song M L.Real-time speech-driven animation of expressive talking faces.International Journal of General Systems,2011,40(4):439-455

      2 Le B H,Ma X H,Deng Z G.Live speech driven head-andeye motion generators.IEEE Transactions on Visualization and Computer Graphics,2012,18(11):1902-1914

      3 Han W,Wang L J,Soong F,Yuan B.Improved minimum converted trajectory error training for real-time speech-tolips conversion.In:Proceedings of the 2012 IEEE International Conference on Acoustics,Speech,and Signal Processing(ICASSP).Kyoto,Japan:IEEE,2012.4513-4516

      4 Ben-Youssef A,Shimodaira H,Braude D A.Speech driven talking head from estimated articulatory features.In:Proceedings of the 2014 IEEE International Conference on Acoustics,Speech,and Signal Processing(ICASSP).Florence,Italy:IEEE,2014.4573-4577

      5 Ding C,Zhu P C,Xie L,Jiang D M,F(xiàn)u Z H.Speechdriven head motion synthesis using neural networks.In:Proceedings of the 2014 Annual Conference of the International Speech Communication Association(INTERSPEECH).Singapore,Singapore:ISCA,2014.2303-2307

      6 Richmond K,King S,Taylor P.Modelling the uncertainty in recovering articulation from acoustics.Computer Speech and Language,2003,17(2-3):153-172

      7 Zhang L,Renals S.Acoustic-articulatory modeling with the trajectory HMM.IEEE Signal Processing Letters,2008,15:245-248

      8 Toda T,Black A W,Tokuda K.Statistical mapping between articulatory movements and acoustic spectrum using a Gaussian mixture model.Speech Communication,2008,50(3):215-227

      9 Xie L,Liu Z Q.Realistic mouth-synching for speech-driven talking face using articulatory modelling.IEEE Transactions on Multimedia,2007,9(3):500-510

      10 Uria B,Renals S,Richmond K.A deep neural network for acoustic-articulatory speech inversion.In:Proceedings of the 2011 NIPSWorkshop on Deep Learning and Unsupervised Feature Learning.Granada,Spain:NIPS,2011.1-9

      11 Zhao K,Wu Z Y,Cai L H.A real-time speech driven talking avatar based on deep neural network.In:Proceedings of the 2013 Asia-Pacific Signal and Information Processing Association Annual Summit and Conference(APSIPA).Kaohsiung,China:IEEE,2013.1-4

      12 Tang H,F(xiàn)u Y,Tu J L,Hasegawa J M,Huang T S.Humanoid audio-visual avatar with emotive text-to-speech synthesis. IEEE Transactions on Multimedia,2008,10(6):969-981

      13 Fu Y,Li R X,Huang T S,Danielsen M.Real-time multimodal human-avatar interaction.IEEE Transactions on Circuits and Systems for Video Technology,2008,18(4):467-477

      14 Schreer O,Englert R,Eisert P,Tanger R.Real-time vision and speech driven avatars for multimedia applications.IEEE Transactions on Multimedia,2008,10(3):352-360

      15 Liu K,Ostermann J.Realistic facial expression synthesis for an image-based talking head.In:Proceedings of the 2011 IEEE International Conference on Multimedia and Expo (ICME).Barcelona,Spain:IEEE,2011.1-6

      16 Yang Yi,Hou Jin,Wang Xian.Mouth and tongue model controlled by muscles based on motion trail analyzing.Application Research of Computers,2013,30(7):2236-2240(楊逸,侯進(jìn),王獻(xiàn).基于運(yùn)動軌跡分析的3D唇舌肌肉控制模型.計算機(jī)應(yīng)用研究,2013,30(7):2236-2240)

      17 Hinton G E,Salakhutdinov R R.Reducing the dimensionality of data with neural networks.Science,2006,313(5786):504-507

      18 Hinton G E.A practical guide to training restricted Boltzmann machines.Neural Networks:Tricks of the Trade(2nd Edition).Berlin:Springer-Verlag,2012.599-619

      19 Tieleman T.Training restricted Boltzmann machines using approximations to the likelihood gradient.In:Proceedings of the 25th International Conference on Machine Learning (ICML).New York,USA:ACM,2008.1064-1071

      20 Hinton G E,Osindero S,Teh Y W.A fast learning algorithm for deep belief nets.Neural Computation,2006,18(7):1527 -1554

      21 Hinton G,Deng L,Yu D,Dahl G E,Mohamed A R,Jaitly N,Senior A,Vanhoucke V,Nguyen P,Sainath T N,KingsburyB.Deep neural networks for acoustic modeling in speech recognition:the shared views of four research groups.IEEE Signal Processing Magazine,2012,29(6):82-97

      22 Richmond K,Hoole P,King S.Announcing the electromagnetic articulography(day 1)subset of the mngu0 articulatory.In:Proceedings of the 2001 Annual Conference of the International Speech Communication Association(INTERSPEECH).Florence,Italy:ISCA,2011.1505-1508

      23 Kawahara H,Estill J,F(xiàn)ujimura O.Aperiodicity extraction and control using mixed mode excitation and group delay manipulation for a high quality speech analysis,modification and synthesis system STRAIGHT.In:Proceedings of the 2nd International Workshop Models and Analysis of Vocal Emissions for Biomedical Application(MAVEBA). Firenze,Italy,2001.59-64

      24 Li Hao,Chen Yan-Yan,Tang Chao-Jing.Dynamic Chinese visemes implemented by lip sub-movements and weighting function.Signal Processing,2012,28(3):322-328(李皓,陳艷艷,唐朝京.唇部子運(yùn)動與權(quán)重函數(shù)表征的漢語動態(tài)視位.信號處理,2012,28(3):322-328)

      25 Deng L,Li J Y,Huang J T,Yao K S,Yu D,Seide F,Seltzer M,Zweig G,He X D,Williams J,Gong Y F,Acero A.Recent advances in deep learning for speech research at Microsoft. In:Proceedings of the 2013 IEEE International Conference on Acoustics,Speech,and Signal Processing(ICASSP). Vancouver,Canada:IEEE,2013.8604-8608

      唐 郅西南交通大學(xué)信息科學(xué)與技術(shù)學(xué)院碩士研究生.主要研究方向為虛擬說話人動畫與模式識別.

      E-mail:tang_zhi@126.com

      (TANG ZhiMaster student at the SchoolofInformationScienceand Technology,Southwest Jiaotong University.His research interest covers talking avatar animation and pattern recognition.)

      侯 進(jìn)西南交通大學(xué)信息科學(xué)與技術(shù)學(xué)院副教授.主要研究方向為計算機(jī)動畫,數(shù)字藝術(shù)和自動駕駛.本文通信作者.

      E-mail:jhou@swjtu.edu.cn

      (HOU JinAssociate professor at the School of Information Science and Technology,Southwest Jiaotong University.Her research interest covers computer animation,digital art,and automatic driving. Corresponding author of this paper.)

      Speech-driven Articulator Motion Synthesis with Deep Neural Networks

      TANG Zhi1HOU Jin1

      This paper implements a deep neural networks(DNN)approach for speech-driven articulator motion synthesis,which is applied to speech-driven talking avatar animation synthesis.We realize acoustic-articulatory mapping by DNN. The input of the system is acoustic speech and the output is the estimated articulatory movements on a three-dimensional avatar.First,through comparison on the performance between ANN and DNN under a series of parameters,the optimal network is obtained.Second,for different context acoustic length configurations,the number of hidden layer units is tuned for best performance.So we get the best context length.Finally,we select the optimal network structure and realize the avatar animation by using the articulatory motion trajectory information output from the DNN to control the articulator motion synthesis.The experiment proves that the method can vividly and efficiently realize talking avatar animation synthesis.

      Deep neural networks(DNN),speech-driven,motion synthesis,talking avatar

      10.16383/j.aas.2016.c150726

      Tang Zhi,Hou Jin.Speech-driven articulator motion synthesis with deep neural networks.Acta Automatica Sinica,2016,42(6):923-930

      2015-10-31錄用日期2016-05-03
      Manuscript received October 31,2015;accepted May 3,2016
      成都市科技項目(科技惠民技術(shù)研發(fā)項目)(2015-HM01-00050-SF),四川省動漫研究中心2015年度科研項目(DM201504),西南交通大學(xué)2015年研究生創(chuàng)新實驗實踐項目(YC201504109)資助
      Supported by Science and Technology Program of Chengdu (Science and Technology Benefit Project)(2015-HM01-00050-SF),2015 Annual Research Programs of Sichuan Animation Research Center(DM201504),and 2015 Graduate Innovative Experimental Programs of Southwest Jiaotong University(YC2015 04109)
      本文責(zé)任編委柯登峰
      Recommended by Associate Editor KE Deng-Feng
      1.西南交通大學(xué)信息科學(xué)與技術(shù)學(xué)院成都611756
      1.School of Information Science and Technology,Southwest Jiaotong University,Chengdu 611756

      猜你喜歡
      唇部聲學(xué)語音
      愛的就是這股Hi-Fi味 Davis Acoustics(戴維斯聲學(xué))Balthus 70
      唇部美人計
      魔力語音
      基于MATLAB的語音信號處理
      電子制作(2019年14期)2019-08-20 05:43:38
      基于MQ3與MP3的價廉物美的酒駕語音提醒器
      電子制作(2019年9期)2019-05-30 09:42:10
      Acoustical Treatment Primer:Diffusion談?wù)劼晫W(xué)處理中的“擴(kuò)散”
      Acoustical Treatment Primer:Absorption談?wù)劼晫W(xué)處理中的“吸聲”(二)
      對方正在輸入……
      小說界(2018年5期)2018-11-26 12:43:42
      Acoustical Treatment Primer:Absorption 談?wù)劼晫W(xué)處理中的“吸聲”
      嬰幼兒唇部血管瘤的臨床分型和治療探討
      吴桥县| 长阳| 班戈县| 苍山县| 邻水| 洱源县| 德兴市| 崇仁县| 遵义市| 太仆寺旗| 马尔康县| 东辽县| 华安县| 丁青县| 洛隆县| 淮阳县| 镇坪县| 昆明市| 香河县| 鲜城| 苏尼特右旗| 公安县| 济阳县| 合山市| 岳池县| 中西区| 乐陵市| 临清市| 邓州市| 宜兰市| 宁安市| 茂名市| 高雄县| 大厂| 阜城县| 龙川县| 桐梓县| 宜君县| 景泰县| 锦屏县| 新巴尔虎左旗|