• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      語(yǔ)音驅(qū)動(dòng)人臉動(dòng)畫(huà)研究綜述

      2015-09-18 02:33:41王慧慧新疆大學(xué)信息科學(xué)與工程學(xué)院烏魯木齊830046新疆多語(yǔ)種信息技術(shù)實(shí)驗(yàn)室烏魯木齊830046
      現(xiàn)代計(jì)算機(jī) 2015年14期
      關(guān)鍵詞:音視頻人臉語(yǔ)音

      王慧慧,趙 暉(1.新疆大學(xué)信息科學(xué)與工程學(xué)院,烏魯木齊830046;2.新疆多語(yǔ)種信息技術(shù)實(shí)驗(yàn)室,烏魯木齊830046)

      語(yǔ)音驅(qū)動(dòng)人臉動(dòng)畫(huà)研究綜述

      王慧慧1,2,趙暉1,2
      (1.新疆大學(xué)信息科學(xué)與工程學(xué)院,烏魯木齊830046;2.新疆多語(yǔ)種信息技術(shù)實(shí)驗(yàn)室,烏魯木齊830046)

      對(duì)語(yǔ)音信息的理解除了聽(tīng)覺(jué)信息,視覺(jué)信息也非常重要。在給出語(yǔ)音的同時(shí),如果能給出相應(yīng)的人臉動(dòng)畫(huà),會(huì)提高人們對(duì)語(yǔ)音信息的正確理解,這正是語(yǔ)音驅(qū)動(dòng)的人臉動(dòng)畫(huà)要達(dá)到的效果。語(yǔ)音驅(qū)動(dòng)的人臉動(dòng)畫(huà)系統(tǒng)使計(jì)算機(jī)模擬人類語(yǔ)音的雙模態(tài),為人機(jī)交互提供可能性。簡(jiǎn)述語(yǔ)音驅(qū)動(dòng)人臉動(dòng)畫(huà)的發(fā)展和語(yǔ)音驅(qū)動(dòng)的人臉動(dòng)畫(huà)核心技術(shù)。

      語(yǔ)音驅(qū)動(dòng)的人臉動(dòng)畫(huà);音視頻映射;人臉模型

      國(guó)家自然科學(xué)基金(No.61261037)

      0 引言

      語(yǔ)音驅(qū)動(dòng)的人臉動(dòng)畫(huà)合成就是當(dāng)給出語(yǔ)音信息時(shí),如果能相應(yīng)地給出視頻信息,可以大大提高對(duì)信息的理解。這里所說(shuō)的語(yǔ)音信息是指說(shuō)話所產(chǎn)生的聲波,而視覺(jué)信息就是說(shuō)話者的可視發(fā)音器官,如嘴唇、下巴、舌頭、面部肌肉等。語(yǔ)音信息和視覺(jué)信息都是由發(fā)音器官的作用產(chǎn)生的,發(fā)音器官包括聲帶、舌頭、嘴唇、下腭、鼻腔等。由于某些發(fā)音器官是外部可以看得見(jiàn)的,所以語(yǔ)音信息和視覺(jué)信息之間有著必然的內(nèi)在聯(lián)系。由于并不是所有的發(fā)音器官是可見(jiàn)的,所以語(yǔ)音信息和視覺(jué)信息之間不是存在簡(jiǎn)單的一對(duì)一的關(guān)系。

      近年來(lái),語(yǔ)音驅(qū)動(dòng)人臉動(dòng)畫(huà)成為研究熱點(diǎn),研究者在語(yǔ)音驅(qū)動(dòng)的人臉動(dòng)畫(huà)方面取得了一定的成果,主要集中在語(yǔ)音驅(qū)動(dòng)人臉動(dòng)畫(huà)中,對(duì)音視頻映射模型的探索和人臉模型的探索中。隨著計(jì)算機(jī)科學(xué)技術(shù)的發(fā)展,對(duì)準(zhǔn)確性的要求越來(lái)越高,音視頻映射模型和人臉模型繼續(xù)成為研究的熱點(diǎn)。

      目前,音視頻模型主要集中在矢量量化的方法(VQ)、神經(jīng)網(wǎng)絡(luò)(Neural Network,NN)、高斯混合模型(Gaussian Mixture Model,GMM)、隱馬爾可夫模型(Hidden Markov Model,HMM)和動(dòng)態(tài)貝葉斯模型(Dynamic Bayesian Network,DBN)的探索,而人臉模型主要集中在基于圖像的模型、基于2D模型和基于3D模型的探索。本文將對(duì)現(xiàn)流行的音視頻映射模型和人臉模型的優(yōu)缺點(diǎn)進(jìn)行分析概括總結(jié)。

      1 語(yǔ)音驅(qū)動(dòng)人臉動(dòng)畫(huà)

      語(yǔ)音驅(qū)動(dòng)的人臉動(dòng)畫(huà)是根據(jù)語(yǔ)音信息得到相應(yīng)的人臉動(dòng)畫(huà)通,能幫助用戶理解語(yǔ)音內(nèi)容,提高人機(jī)交互的便捷性和友好程度。語(yǔ)音驅(qū)動(dòng)的人臉動(dòng)畫(huà)技術(shù)的核心技術(shù)包括:音視頻映射、人臉動(dòng)畫(huà)合成,人臉動(dòng)畫(huà)合成的關(guān)鍵是人臉模型的建立。語(yǔ)音驅(qū)動(dòng)的人臉動(dòng)畫(huà)的基本框架圖如圖1所示。音視頻映射就是找到音頻和視頻之間的關(guān)系,音視頻轉(zhuǎn)換就是根據(jù)語(yǔ)音信息得到相應(yīng)的視頻信息,人臉動(dòng)畫(huà)合成就是根據(jù)音頻信息得到的相應(yīng)的視頻信息合成會(huì)說(shuō)話的人臉。

      1.1音視頻映射

      獲得音視頻映射的前提是先對(duì)音頻特征和視頻特征進(jìn)行提取,然后通過(guò)模型訓(xùn)練學(xué)習(xí),找到音視頻之間的關(guān)系。由于語(yǔ)音信息和視覺(jué)信息不是存在簡(jiǎn)單的一對(duì)一的關(guān)系[1],所以有許多不同的方法用來(lái)研究語(yǔ)音信息和視覺(jué)信息的映射。

      圖1 語(yǔ)音驅(qū)動(dòng)人臉動(dòng)畫(huà)合成的基本框架

      傳統(tǒng)的矢量量化的方法、神經(jīng)網(wǎng)絡(luò)的方法很直接并且很容易實(shí)現(xiàn)的方法,但是結(jié)果往往不準(zhǔn)確或者不連續(xù),這是由于語(yǔ)音序列存在復(fù)雜的協(xié)同發(fā)音現(xiàn)象。另外,由于人們的發(fā)音習(xí)慣不同,相同的音節(jié)在不同的語(yǔ)音樣本中可能具有不同的長(zhǎng)度和頻譜特征,即使同一個(gè)人對(duì)同一句話所錄制的多個(gè)語(yǔ)音樣本,其特征也會(huì)有較大差異。這導(dǎo)致了矢量量化的方法和神經(jīng)網(wǎng)絡(luò)的方法難以合成出令人滿意的視頻序列。但是加以改進(jìn),也能達(dá)到我們所需的效果,如賈熹濱[2]以矢量量化的思想為基礎(chǔ),建立語(yǔ)音特征空間到視覺(jué)語(yǔ)音特征空間的粗耦合映射關(guān)系。為加強(qiáng)語(yǔ)音和視覺(jué)語(yǔ)音的關(guān)聯(lián)性,系統(tǒng)分別根據(jù)語(yǔ)音特征與視覺(jué)語(yǔ)音特征的相似性兩次對(duì)樣本數(shù)據(jù)進(jìn)行自動(dòng)聚類,構(gòu)造同時(shí)反映語(yǔ)音之間與視覺(jué)語(yǔ)音之間相似性的雙層映射碼本,取得了較滿意的效果。

      高斯混合模型是模擬音視頻向量的連接概率分布向量作為混合高斯模型的值。給出語(yǔ)音特征,每個(gè)高斯混合組件對(duì)視覺(jué)特征產(chǎn)生線性評(píng)估,評(píng)估的混合組件通過(guò)增加權(quán)重來(lái)產(chǎn)生最終的視覺(jué)特征的評(píng)估。這種方法能產(chǎn)生比VQ平滑性更好的動(dòng)畫(huà),但是這種方法很容易陷入過(guò)度平滑。由于高斯混合模型能更好地模擬協(xié)同發(fā)音,所以很多研究者還是在高斯混合模型的基礎(chǔ)上做一些改進(jìn)來(lái)實(shí)現(xiàn)主要達(dá)到的目的。Deena[3~4]采用高斯混合模型實(shí)現(xiàn)可視化語(yǔ)音轉(zhuǎn)換,通過(guò)對(duì)面部動(dòng)作和語(yǔ)音建模并使用共享的高斯混合模型之間的映射關(guān)系來(lái)合成臉部表情動(dòng)畫(huà)。高斯混合模型被Chang Wei Luo[5~6]使用于音頻到視覺(jué)的轉(zhuǎn)換,為了克服沒(méi)有考慮以前視覺(jué)特征對(duì)目前視覺(jué)特征的影響和GMM的訓(xùn)練和轉(zhuǎn)換不一致的問(wèn)題。我們提出了整合以前視覺(jué)特征入轉(zhuǎn)換,并提出了一個(gè)最小的轉(zhuǎn)換誤差為基礎(chǔ)的方法來(lái)改進(jìn)GMM參數(shù)。改進(jìn)后的方法可以準(zhǔn)確地轉(zhuǎn)換音頻功能融入視覺(jué)特征。蔡蓮紅[7~8]等人使用高斯混合模型進(jìn)行情感語(yǔ)音到視頻的轉(zhuǎn)換,開(kāi)發(fā)了一種會(huì)說(shuō)話的虛擬人系統(tǒng),該虛擬說(shuō)話人能很好地理解情感。

      隱馬爾可夫模型模型在解決動(dòng)態(tài)時(shí)序問(wèn)題上具有獨(dú)特優(yōu)勢(shì),表現(xiàn)為狀態(tài)轉(zhuǎn)移靈活、上下文信息表述清晰,因而HMM模型近年來(lái)被廣泛應(yīng)用于高精度的實(shí)時(shí)語(yǔ)音動(dòng)畫(huà)、音視頻映射中并成為研究的熱點(diǎn)。Tao[9]使用由音頻構(gòu)成的HMM模型和視頻構(gòu)成的HMM模型通過(guò)EM算法訓(xùn)練,音頻最好的隱含狀態(tài)通過(guò)Viterbi得到,耦合參數(shù)就能確定,也就實(shí)現(xiàn)了音頻到視頻的映射。從Lucas Terissi[10]使用A-V HMM模型訓(xùn)練音視頻數(shù)據(jù)達(dá)到音視頻流的映射。馬娥娥[11]使用IOHMM預(yù)測(cè)視頻序列,不再是音素到視位的映射。Xie lei[12]提出來(lái)雙層的HMM(CHMM)通過(guò)條件概率有兩條與HMM鏈相連,這允許鏈的異步任務(wù)。進(jìn)一步訓(xùn)練多流HMM模型(MSHMMs)使用音頻和視頻功能,其中建立聲視聽(tīng)語(yǔ)言清晰度之間的對(duì)應(yīng)關(guān)系[13]。趙暉[14]提出了基于HMM模型語(yǔ)音狀態(tài)、基于HMM模型音頻和視頻混合參數(shù)、基于雙層HMM模型的方法。HMM模型是一個(gè)雙重的隨機(jī)過(guò)程,描述了時(shí)間軸上語(yǔ)音和視頻的狀態(tài)變化情況,利用HMM得到的合成結(jié)果連續(xù),跳變的情況少。但是它需要大量的原始數(shù)據(jù)實(shí)現(xiàn)訓(xùn)練,并且計(jì)算量大。雖然隱馬爾可夫模型(HMM)在音視頻進(jìn)行映射中已經(jīng)相當(dāng)成熟,但是在這個(gè)模型中,音頻信息只是語(yǔ)音信息,沒(méi)有考慮發(fā)音的異步特征、發(fā)音器官對(duì)發(fā)音的影響、錄入數(shù)據(jù)庫(kù)個(gè)體的差異。

      電力企業(yè)安全風(fēng)險(xiǎn)管控體系的構(gòu)筑…………………………………………………………………………高 萍,于克棟(1.86)

      動(dòng)態(tài)貝葉斯模型(DBN)是一個(gè)處理時(shí)序數(shù)據(jù)的隨機(jī)概率模型,并且在國(guó)外的研究也處于剛剛起步,國(guó)內(nèi)的研究也比較少,但是語(yǔ)音驅(qū)動(dòng)人臉動(dòng)畫(huà)領(lǐng)域也有一定的研究。突出者是清蔣冬梅教授的實(shí)驗(yàn)室,吳鵬[15]構(gòu)建一種基于發(fā)音特征的音視頻雙流動(dòng)態(tài)貝葉斯網(wǎng)絡(luò)(DBN)語(yǔ)音識(shí)別模型(AF_AV_DBN),定義節(jié)點(diǎn)的條件概率關(guān)系,使發(fā)音特征狀態(tài)的變化可以異步。張賀[16]提出了一種基于主動(dòng)外觀模型(AAM)特征和異步發(fā)音特征DBN模型(AF_AVDBN)的逼真可視語(yǔ)音合成方法。在AF_AVDBN模型訓(xùn)練中,以42維感知線性預(yù)測(cè)(PLP)特征為音頻特征,視頻特征為嘴部圖像的80維AAM特征。實(shí)驗(yàn)結(jié)果表明,考慮音視頻的異步性,會(huì)增加合成嘴部動(dòng)畫(huà)與語(yǔ)音之間的一致性。蔣冬梅[17]將此方法擴(kuò)展到語(yǔ)音驅(qū)動(dòng)的人臉動(dòng)畫(huà)中來(lái),合成清晰逼真的人臉動(dòng)畫(huà)。與HMM相比,動(dòng)態(tài)貝葉斯模型(DBN)具有更強(qiáng)的計(jì)算能力,并且考慮到發(fā)音特征的影響,能更準(zhǔn)確地找到音頻和視頻的映射關(guān)系。然而對(duì)動(dòng)態(tài)貝葉斯模型(DBN)的研究還處于一個(gè)探索階段,需要更進(jìn)一步的研究。

      1.2人臉動(dòng)畫(huà)的合成

      基于語(yǔ)音驅(qū)動(dòng)的人臉動(dòng)畫(huà)系統(tǒng)中人臉模型的建立是關(guān)鍵,在現(xiàn)在的研究中人臉模型可以分為以圖像為基礎(chǔ)的人臉模型、2D人臉模型和3D人臉模型?;?D模型的方法無(wú)論是從在光照條件下,還是在不同的角度觀察,都比基于圖像模型的方法更靈活,但是實(shí)時(shí)性較差,然而基于圖像模型的方法卻彌補(bǔ)了這個(gè)不足。

      (1)圖像為基礎(chǔ)的人臉模型

      基于圖像的人臉動(dòng)畫(huà)方法生成的動(dòng)畫(huà)紋理直接來(lái)源于采集的人臉圖像,具有很高的紋理真實(shí)感,也不像基于3D模型的人臉那樣要進(jìn)行人臉的重構(gòu)。1988年,Pighin[18]第一次使用一些圖片適合給定面部三維模板網(wǎng)結(jié)構(gòu),然后通過(guò)混合不同的姿勢(shì)得到人臉動(dòng)畫(huà),并且在第二年他使用這項(xiàng)技術(shù)解決從圖像中得到真實(shí)的人臉模型和動(dòng)畫(huà)問(wèn)題,從此,以圖像為基礎(chǔ)的人臉動(dòng)畫(huà)成為研究的熱點(diǎn)。這種方法在語(yǔ)音驅(qū)動(dòng)人臉動(dòng)畫(huà)中主要使用單元選擇技術(shù)[19]進(jìn)行人臉動(dòng)畫(huà)的合成。雖然基于圖像的人臉動(dòng)畫(huà)方法能夠獲得高逼真度的人臉動(dòng)畫(huà),但是需要很大的數(shù)據(jù)庫(kù),采集大量的圖像信息,這給工作造成一定的難度。并且在合成時(shí)很難實(shí)現(xiàn)個(gè)性化的人臉圖像。

      (2)2D人臉模型

      2D人臉模型可以從錄取的數(shù)據(jù)庫(kù)創(chuàng)建,這樣就可以大大減少對(duì)數(shù)據(jù)庫(kù)量的要求,所使用的最常見(jiàn)的二維模型是主動(dòng)外觀模型(AAM)。這種模型是線性的形狀和外觀,AAM表示使用網(wǎng)格頂點(diǎn)的位置代表形狀,使用RGB代表紋理。主動(dòng)外觀模型(AAM)是一種統(tǒng)計(jì)模型,廣泛應(yīng)用于人臉圖像的分析、特征點(diǎn)跟蹤和合成等領(lǐng)域。AAM通過(guò)對(duì)樣本集進(jìn)行主成分量分析得到樣本的均值與變化模式;然后再用這些提取出來(lái)的變化模式線性組合出新樣本。這種做法消除了訓(xùn)練樣本間的冗余,生成的模型更加緊湊,表示人臉時(shí)也更加有效。Mattheyses[20~21]解釋了主動(dòng)外觀模型(AAM)以形狀和紋理表示圖像信息,并把主動(dòng)外觀模型(AAM)應(yīng)用到視覺(jué)語(yǔ)音合成系統(tǒng)中,實(shí)現(xiàn)了流暢自然的視覺(jué)輸出語(yǔ)音。Benjamin Havell[22]使用主動(dòng)外觀模型(AAM)代表圖像信息,結(jié)合HMM合成語(yǔ)音驅(qū)動(dòng)的人臉動(dòng)畫(huà)。研究者蔣冬梅,謝磊,Salil Deena從音視頻數(shù)據(jù)庫(kù)訓(xùn)練AAM模型,代表圖像信息。但是訓(xùn)練AAM往往需要大量的訓(xùn)練數(shù)據(jù),要針對(duì)所有的表情動(dòng)作采集相關(guān)訓(xùn)練數(shù)據(jù),因此它們多用于合成單幅人臉圖像。

      基于三維模型的人臉動(dòng)畫(huà)方法,以三維人臉模型作為動(dòng)畫(huà)基礎(chǔ)來(lái)實(shí)現(xiàn)人臉動(dòng)畫(huà)。通過(guò)三維人臉模型對(duì)臉部的外觀和動(dòng)作模式進(jìn)行建模,利用不同的函數(shù)或者參數(shù)的變化控制合成不同的人臉動(dòng)作和表情。三維人臉模型的設(shè)計(jì)選取決定了人臉動(dòng)畫(huà)的效果、實(shí)現(xiàn)的難易程度以及動(dòng)畫(huà)效率?;谌S模型的人臉動(dòng)畫(huà)一般分為建模和合成兩個(gè)階段。

      在建模階段,根據(jù)已知的人臉結(jié)構(gòu)、形狀等先驗(yàn)知識(shí)建立三維模型所需要的各種條件、參數(shù)、數(shù)據(jù)等要求,對(duì)輸入的圖像或是圖像序列進(jìn)行圖像分析和處理,以獲得相應(yīng)的模型參數(shù)。合成階段是在一定的動(dòng)畫(huà)規(guī)則的基礎(chǔ)上,根據(jù)所需要的動(dòng)畫(huà)要求給出控制三維模型動(dòng)畫(huà)所需要的函數(shù)表達(dá)或形狀紋理參數(shù),以驅(qū)動(dòng)模型獲得動(dòng)畫(huà)圖像。因此基于三維模型的人臉動(dòng)畫(huà)方法要解決兩個(gè)方面的問(wèn)題:三維人臉建模和動(dòng)畫(huà)驅(qū)動(dòng)。

      (1)三維人臉建模方法建立

      建立人臉的三維模型需要獲取稠密的人臉三維信息,包括人臉的幾何信息和紋理信息。Parke提出了最早的3D人臉幾何模型[23],這些三維信息可以利用復(fù)雜精細(xì)的設(shè)備,只經(jīng)過(guò)一般的配準(zhǔn)和立體視覺(jué)求解獲取,也可以通過(guò)普通的圖像獲取設(shè)備采集圖像或圖像序列。有些研究者[22]借助于高精度的3D掃描儀來(lái)構(gòu)造精確的3D人臉模型。將這一技術(shù)與3D紋理映射技術(shù)配合,就可得到一個(gè)真實(shí)感很強(qiáng)的3D人臉模型。但3D掃描儀很昂貴,并在有些場(chǎng)合難以應(yīng)用。因此,人們?nèi)匀恢铝τ趯ふ移渌鼮榉奖愕臉?gòu)造3D人臉模型的方法。有些研究[24]者依據(jù)商業(yè)用途的運(yùn)動(dòng)捕捉系統(tǒng)使用8臺(tái)數(shù)碼相機(jī)追蹤人臉特征點(diǎn),Shunya Osawa[25]使用兩臺(tái)計(jì)算機(jī),建立人臉模型。李冰鋒[26]使用FaceGen工具生成原始3D頭的模型。

      (2)三維人臉模型驅(qū)動(dòng)方法

      三維人臉模型驅(qū)動(dòng)方法包括基于插值的、基于變形的以及基于參數(shù)的人臉動(dòng)畫(huà)方法。

      基于插值的人臉動(dòng)畫(huà)方法是一個(gè)直觀常用的人臉動(dòng)畫(huà)方法,通常情況下,插值函數(shù)在歸一化時(shí)間區(qū)內(nèi)在指定極端位置的兩個(gè)關(guān)鍵幀之間平滑地運(yùn)動(dòng)。Lucas Terissi[10]使用插值的方法合成語(yǔ)音驅(qū)動(dòng)的人臉動(dòng)畫(huà)。雖然插值的方法的動(dòng)畫(huà)生成的速度快,容易生成原始臉部動(dòng)畫(huà),但是生成的表情受到了關(guān)鍵幀的限制,不可能生成關(guān)鍵幀插值范圍之外的人臉動(dòng)作。因此,這種方法適用于根據(jù)關(guān)鍵幀產(chǎn)生表情很少的人臉動(dòng)畫(huà)。Ning Liu[27]使用變形的方法合成語(yǔ)音驅(qū)動(dòng)的人臉動(dòng)畫(huà),雖然變形方法能夠很好地模擬人臉形狀的變化。但是忽略了紋理,這樣就不能合成逼真的人臉動(dòng)畫(huà)。

      基于參數(shù)的人臉動(dòng)畫(huà),能很好地描述人臉的幾何形狀和紋理構(gòu)成,通過(guò)不同的參數(shù)的變化和組合可以產(chǎn)生不同的人臉表情動(dòng)作,最常用的就是MPEG-4標(biāo)準(zhǔn)的FAP參數(shù)。一些研究者[28]使用這些參數(shù)合成語(yǔ)音驅(qū)動(dòng)的人臉動(dòng)畫(huà)系統(tǒng)。這種標(biāo)準(zhǔn)規(guī)定了兩個(gè)高級(jí)參數(shù):視位和表情,及66個(gè)低級(jí)參數(shù),這樣就大大減少了研究者的工作量,提高了工作效率。

      2 結(jié)語(yǔ)

      在人與計(jì)算機(jī)的交流過(guò)程中,不再是以文本與計(jì)算機(jī)交流,而是以語(yǔ)音與計(jì)算機(jī)交流,將大大提高計(jì)算機(jī)工作的效率。本文就語(yǔ)音驅(qū)動(dòng)人臉動(dòng)畫(huà)合成的兩大技術(shù)給予了概括和總結(jié)。

      近年來(lái)關(guān)于語(yǔ)音驅(qū)動(dòng)的人臉動(dòng)畫(huà)的研究雖然已經(jīng)取得了一些成就,但是這并沒(méi)有實(shí)現(xiàn)研究者的愿望,如:只能在安靜的環(huán)境中與計(jì)算機(jī)交流,并且現(xiàn)在的研究還只是單一對(duì)一種語(yǔ)言的研究,一旦系統(tǒng)做好,不能識(shí)別第二種語(yǔ)言。在可見(jiàn)的未來(lái),語(yǔ)音驅(qū)動(dòng)的人臉動(dòng)畫(huà)這一技術(shù)將改變?nèi)藗兣c計(jì)算機(jī)的交流方式,多種語(yǔ)言,并且能在吵雜的環(huán)境中很好地與計(jì)算機(jī)交流這將成為語(yǔ)音驅(qū)動(dòng)人臉動(dòng)畫(huà)的一個(gè)趨勢(shì)。

      [1]Wesley Mattheyses,Lukas Latacz,Werner Verhelst.Comprehensive Many-to-Many Phoneme-to-Viseme Mapping and Its Application for Concatenative Visual Speech Synthesis[J].Speech Communication,2013,55(7-8):857~876

      [2]賈熹濱,尹寶才,孫艷豐.基于雙層碼本的語(yǔ)音驅(qū)動(dòng)視覺(jué)語(yǔ)音合成系統(tǒng)[J].計(jì)算機(jī)科學(xué),2014,41(1):100~104

      [3]Salil Deena,Shaobo Hou,Aphrodite Galata.Visual Speech Synthesis Using a Variable-Order Switching Shared Gaussian Process Dynamical Model[J].Multimedia,IEEE Transactions on,2013,15(8),1755~1768

      [4]Salil Deena,Shaobo Hou,Aphrodite Galata.Visual Speech Synthesis by Modelling Coarticulation Dynamics Using a Non-Parametric Switching State-Space Model[C].ICMI-MLMI'10:International Conference on Multimodal Interfaces and the Workshop on Machine Learning for Multimodal Interaction,2010

      [5]Changwei Luo,Jun Yu,Xian Li,ZengfuWang.Real Time Speech-Driven Facial Animation Using Gaussian Mixture Models[C].2014 IEEE International Conference on Multimedia and Expo Workshops(ICMEW)2014:1~6

      [6]Changwei Luo,Jun Yu,Zengfu Wang.Synthesizing Real-Time Speech-Driven Facial Animation[C].2014 IEEE International Conference on Acoustics,Speech and Signal Processing(ICASSP),2014:4568~4572

      [7]Jia Jia,Shen Zhang,Fanbo Meng,Yongxin Wang,Lianhong Cai.Emotional Audio-Visual Speech Synthesis Based on PAD,IEEE Transactions on AUDIO,Speech,and Language Processing,VOL.19,No.3,MARCH 2011

      [8]Shen Zhang,Jia Jia,Yingjin Xu,Lianhong Cai.Emotional Talking Agent:System and Evaluation.2010 Sixth International Conference on Natural Computation(ICNC 2010)

      [9]Jianhua Tao,Member,IEEE,Li Xin,Panrong Yin.Realistic Visual Speech Synthesis Based on Hybrid Concatenation Method.IEEE Transactions on AUDIO,Speech,and Language Processing,VOL.17,No.3,MARCH 2009

      [10]Lucas Terissi;Mauricio Cerda;Juan C.Gomez.Animation of Generic 3D Head Model Driven by Speech[C].2011 IEEE International Conference on Multimedia and Expo(ICME),2011:1~6

      [11]馬娥娥,劉穎,王成儒.基于IOHMM的語(yǔ)音驅(qū)動(dòng)的唇動(dòng)合成系統(tǒng)[J].計(jì)算機(jī)工程,2009,35(18):283~285

      [12]Lei Xie,Zhi-Qiang Liu.Speech Animation Using Coupled Hidden Markov Models[C].Pattern Recognition,2006.ICPR 2006.18th International Conference on,2006:1128~1131

      [13]Lei xie,Naicai Sun,Bo Fan.A Statistical Parametric Approach to Video-Realistic Text-Driven Talking Avatar[J].Multimedia Tools and Applications,2014,73(1):377~396

      [14]趙暉.真實(shí)感漢語(yǔ)可視語(yǔ)音合成關(guān)鍵技術(shù)研究.國(guó)防科學(xué)技術(shù)大學(xué),2009

      [15]吳鵬,蔣冬梅,王風(fēng)娜,Hichem SAHLI,Werner VERHELST.基于發(fā)音特征的音視頻融合識(shí)別模型[J].計(jì)算機(jī)工程,2011,37(22): 268~272

      [16]張賀,蔣冬梅,吳鵬,謝磊,付中華,Hichem Sahli.基于AAM和異步發(fā)音特征DBN模型的逼真可視語(yǔ)音合成[C].第十一屆全國(guó)人機(jī)語(yǔ)音通訊學(xué)術(shù)會(huì)議,西安:2011

      [17]Dongmei Jiang,Yong Zhao,Hichem Sahli.Speech Driven Photo Realistic Facial Animation Based on an Articulatory DBN and AAM Features[J].Multimedia Tools and Applications,2014,73(1):397~415

      [18]F.Pighin,J.Hecker,D.Lischinski,R.Szeliski,D.Salesin.Synthesizing Realistic Facial Expressions from Photographs[C].SIGGRAPH !98 Conference Proceedings,1998:75~84

      [19]Ying He,Yong Zhao,Dongmei Jiang.Speech Driven Photo-Realistic Face Animation with Mouth and Jaw Dynamics[C].2013 Asia-Pacific Signal and Information Processing Association Annual Summit and Conference(APSIPA),2013:1~4

      [20]Mattheyses W,Latacz L,Verhelst.Active Appearance Models for Photorealistic Visual Speech Synthesis[C].Proc.Interspeech 2010,2010:1113~1116

      [21]Mattheyses W,Latacz L,Verhelst V.Optimized Photorealistic Audiovisual Speech Synthesis Using Active Appearance Modeling[C]. In:Proc.Internet.Conf.on Auditory-Visual Speech Processing,2010:148~153

      [22]Benjamin Havell.A Hybrid Phoneme Based Clustering Approach for Audio Driven Facial Animation[C].2012 IEEE International Conference on Acoustics,Speech and Signal Processing(ICASSP),2012:2261~2264

      [23]F.I.Parke,Computer Generated Animation of Faces[C].Proc.of ACM National Conference,1972:451~457

      [24]Kaihui Mu,Jianhua Tao,Jianfeng Che,Mianghao Yang.Real-Time Speech-Driven Lip Synchronization[C](IUCS),4th International Universal Communication Symposium,2010:378~382

      [25]Shunya Osawa,Guifang Duan,Masataka Seo,Takanori Igarashi,and Yen-Wei Chen.3D Facial Images Reconstruction from Single Facial Image[C].Information Science and Service Science and Data Mining(ISSDM),2012 6th International Conference on New Trends in,2012:487~490

      [26]李冰鋒,謝磊.實(shí)時(shí)語(yǔ)音驅(qū)動(dòng)的虛擬說(shuō)話人[C].第十一屆全國(guó)人機(jī)語(yǔ)音通訊學(xué)術(shù)會(huì)議,西安:2011

      [27]Ning Liu,Ning Fang,Seiichiro Kamata.3D Reconstruction from a Single Image for a Chinese Talking Face[C].TENCON 2010,2010: 1613~1616

      [28]尹寶才,王愷,王立春.基于MPEG-4的融合多元素的三維人臉動(dòng)畫(huà)合成方法[J].北京工業(yè)大學(xué)學(xué)報(bào),2011,37(2):266~271

      Speech-Driven Facial Animation;Audio and Video Mapping;Face Model

      Survey of Speech-Driven Facial Animation

      WANG Hui-hui1,2,ZHAO Hui1,2
      (1.College of Information Science and Engineering,Xinjiang University,Urumqi 830046;2.Xinjiang Laboratory of Multi-Language Information Technology,Urumqi 830046)

      In addition to voice information for the understanding of auditory information,visual information is also very important.In the speech given at the same time,if given the appropriate facial animation,will raise awareness of the correct understanding of the voice message, which is a speech-driven facial animation to achieve the effect.Speech-driven facial animation system allows a computer simulation of human speech bimodal,offers the possibility for human-computer interaction.Summarizes the development of speech-driven facial animation and speech-driven facial animation core technologies.

      王慧慧(1988-),女,河南沈丘人,碩士研究生,研究方向?yàn)槿斯ぶ悄堋⒛J阶R(shí)別

      趙暉(1972-),女,云南昆明人,博士,教授,研究方向?yàn)槿斯ぶ悄?、圖像處理

      2015-04-07

      2015-05-10

      猜你喜歡
      音視頻人臉語(yǔ)音
      有特點(diǎn)的人臉
      魔力語(yǔ)音
      3KB深圳市一禾音視頻科技有限公司
      基于MATLAB的語(yǔ)音信號(hào)處理
      電子制作(2019年14期)2019-08-20 05:43:38
      基于MQ3與MP3的價(jià)廉物美的酒駕語(yǔ)音提醒器
      電子制作(2019年9期)2019-05-30 09:42:10
      對(duì)方正在輸入……
      三國(guó)漫——人臉解鎖
      WIFI音視頻信號(hào)傳輸?shù)年P(guān)鍵問(wèn)題探究
      電子制作(2018年12期)2018-08-01 00:48:06
      高速公路整合移動(dòng)音視頻系統(tǒng)應(yīng)用
      馬面部與人臉相似度驚人
      大姚县| 进贤县| 叙永县| 凤阳县| 贵阳市| 莱西市| 东兴市| 浮山县| 象山县| 白城市| 建平县| 辽宁省| 普陀区| 新巴尔虎左旗| 缙云县| 上犹县| 六盘水市| 油尖旺区| 徐闻县| 平邑县| 蓬莱市| 公主岭市| 竹北市| 丰都县| 鲁甸县| 双柏县| 葫芦岛市| 两当县| 邵东县| 抚顺市| 景泰县| 武定县| 宣化县| 百色市| 阳原县| 筠连县| 洞口县| 晋宁县| 郓城县| 和政县| 招远市|