車娜 趙劍 史麗娟 王柳 范秦寅
摘 要:文章提出一種基于Kinect和Faceshift技術(shù)的聽障兒童言語康復(fù)訓(xùn)練方法。通過Kinect和Faceshift技術(shù)實時采集說話人面部信息,在利用視頻驅(qū)動方式與面部三維模型相融合生成面部三維模型動畫,實現(xiàn)能夠?qū)崟r顯示說話人面部動畫的面部表情、唇部動作,舌頭運動狀態(tài)的面部三維動畫效果。本方法將面部三維模型動畫和語音反饋結(jié)合起來從而真正意義上達(dá)到音視聽結(jié)合的言語康復(fù)訓(xùn)練方法。試驗結(jié)果表明,使用本言語康復(fù)訓(xùn)練系統(tǒng)對提高聽障兒童言語康復(fù)訓(xùn)練的效率,縮短康復(fù)訓(xùn)練時間有顯著效果。
關(guān)鍵詞:Kinect;Faceshift;言語康復(fù)訓(xùn)練;面部三維模型;語音識別反饋
據(jù)中國殘疾人聯(lián)合會抽樣調(diào)查統(tǒng)計數(shù)字表明,中國擁有聽力及言語殘疾人口數(shù)目約為2 057萬,7歲以下聾兒近百萬,每年新產(chǎn)生聾兒3萬余名[1]。在聾兒7歲以前,尤其是在3歲左右時,如果能及時地進(jìn)行康復(fù)治療,極有可能幫助他們走出無聲世界融入社會。因此,如何通過科學(xué)技術(shù)幫助聾兒縮短言語康復(fù)訓(xùn)練時間,提高效率尤為重要。
隨著時代的進(jìn)步和科學(xué)技術(shù)的發(fā)展,聾兒語言康復(fù)訓(xùn)練設(shè)備及方法已被廣泛應(yīng)用到聾兒語言功能康復(fù)訓(xùn)練中。如IBM Speech Viewer系統(tǒng)[2],是一種高性能的實時語音治療設(shè)備,但它要求使用者的語音學(xué)和傳統(tǒng)臨床療法理解程度有很高的要求。在國內(nèi),影響力較大的是天津市聾兒語言康復(fù)中心開發(fā)的《聰聰學(xué)話》多媒體聾兒語訓(xùn)系統(tǒng)[3],但該系統(tǒng)無法直接顯示說話人面部表情狀態(tài)。針對現(xiàn)有的系統(tǒng)缺陷,本文提出基于Kinect和Faceshift的語言康復(fù)訓(xùn)練方法,根據(jù)Kincet和Faceshift技術(shù)實時捕捉說話時人的面部表情、唇部動作、舌頭的狀態(tài)等,在將捕捉到的動態(tài)人臉與三維人物頭像模型相融合,從而解決動態(tài)三維頭像的驅(qū)動問題。
1 基于Kinect和Faceshft的語言康復(fù)訓(xùn)練方法
該方法利用特殊人機(jī)交互技術(shù)、傳感器技術(shù)建立聽障兒童語言康復(fù)訓(xùn)練系統(tǒng),通過音頻數(shù)據(jù)和視頻數(shù)據(jù)采集裝置獲取聽障兒童發(fā)聲訓(xùn)練中的音頻視頻數(shù)據(jù)信息,在顯示器上根據(jù)獲取的信息反饋出音頻圖像對比結(jié)果以及語音識別反饋信息,從而指導(dǎo)受訓(xùn)者正確發(fā)聲。
1.1 系統(tǒng)總體方案
其具體流程為:利用Kinect和Faceshft技術(shù)將音、視頻數(shù)據(jù)采集器采集到的面部運動特征和發(fā)音信息,與三維人物頭像模型相互融合,形成實時說話人三維人物頭像模型,并將融合后的三維人物頭像模型存入數(shù)據(jù)存儲和處理設(shè)備。數(shù)據(jù)存儲和處理設(shè)備對數(shù)據(jù)同步處理后,將數(shù)據(jù)與標(biāo)準(zhǔn)信息比對做語音識別反饋。最后由視頻顯示裝置將面部三維人物頭像、語音識別反饋結(jié)果、音頻圖像對比反饋結(jié)果同步顯示。系統(tǒng)總體方案如圖1所示。
1.2 面部三維頭像模型
在使用Kinect和Faceshft技術(shù)實時捕捉人臉數(shù)據(jù)后,還需要建立人面部三維頭像模型,本系統(tǒng)采用的是Autodesk公司開發(fā)的3DS Max軟件創(chuàng)建頭像基本模型,再利用zbrush進(jìn)行仿真建模,對面部三維頭像模型進(jìn)行相似性調(diào)整和細(xì)節(jié)刻畫,并調(diào)整顏色貼圖以及調(diào)整高光。
1.3 Kinect和Faceshft技術(shù)與面部三維頭像模型的動畫合成
本文采用Kinect和Faceshft技術(shù)提取言語康復(fù)訓(xùn)練中聽障兒童的音視頻信息,捕捉說話人的面部動作、表情和語音信息,然后套入建好的人物面部三維頭像模型,從而生成動畫序列[4]。其框圖如圖2所示。
2 系統(tǒng)評價及分析
為驗證基于Kinect和Faceshft的語言康復(fù)訓(xùn)練方法的實用性,我們對該方法進(jìn)行了試驗。試驗過程為:選取20名3~7歲康復(fù)訓(xùn)練學(xué)生,實驗組10人為5名男生,5名女生,使用本方法進(jìn)行康復(fù)訓(xùn)練,對照組10人為5名男生,5名女生使用傳統(tǒng)的訓(xùn)練模式進(jìn)行康復(fù)訓(xùn)練。對實驗組和對照組分別進(jìn)行言語康復(fù)訓(xùn)練的單字、詞語、語句發(fā)音,在相同的言語康復(fù)訓(xùn)練內(nèi)容下,對比實驗組、對照組的康復(fù)訓(xùn)練時間。試驗嚴(yán)格控制其他無關(guān)變量,保證實驗組和對照組的發(fā)音準(zhǔn)確性[5]。
圖3為言語康復(fù)訓(xùn)練對比實驗結(jié)果,從對比曲線上,我們能夠看出使用基于Kinect和Faceshft的語言康復(fù)訓(xùn)練方法進(jìn)行康復(fù)訓(xùn)練的時間基本上都能夠小于傳統(tǒng)康復(fù)訓(xùn)練所需時間,能夠提高聽障兒童言語康復(fù)訓(xùn)練效率[6]。
3 結(jié)語
本文提出一種基于Kinect和Faceshft的語言康復(fù)訓(xùn)練方法。根據(jù)Kincet和Faceshift技術(shù)的特點實時捕捉說話時人的面部表情、唇部動作,舌頭運動狀態(tài),并將視頻驅(qū)動面部三維頭像動畫,生成發(fā)音的面部三維動畫。在對20名聽障兒童的系統(tǒng)測試結(jié)果表明,本語言康復(fù)訓(xùn)練方法能夠幫助聽障兒童更好地完成言語康復(fù)訓(xùn)練,縮短訓(xùn)練時間。
[參考文獻(xiàn)]
[1]黃昭鳴.我國言語—語言障礙康復(fù)現(xiàn)狀及發(fā)展策略[J].中國聽力語言康復(fù)科學(xué)雜志,2016(2):84-87.
[2]DESTOMBES F.The development and application of the IBM speech viewer[J].Journal of Medical Sciences,1994(2):187-196.
[3]王慧芳,朱思俞,張立安,等.《聰聰學(xué)話》—多媒體聾兒語訓(xùn)系統(tǒng)[C].大連:全國計算機(jī)輔助教育學(xué)會學(xué)術(shù)會議,2001.
[4]張金成.基于Kinect的健身游戲的設(shè)計與實現(xiàn)[D].武漢:華中師范大學(xué),2017.
[5]陳思.基于視頻驅(qū)動的面部表情實時模擬研究與實現(xiàn)[D].成都:電子科技大學(xué),2017.
[6]普波.基于視頻的三維人臉動畫驅(qū)動的設(shè)計與實現(xiàn)[D].成都:電子科技大學(xué),2010.