基于Kinect和Faceshift的語言康復(fù)訓(xùn)練方法

2018-03-07 06:15:44車娜趙劍史麗娟王柳范秦寅

無線互聯(lián)科技 2018年21期

車娜趙劍史麗娟王柳范秦寅

摘要：文章提出一種基于Kinect和Faceshift技術(shù)的聽障兒童言語康復(fù)訓(xùn)練方法。通過Kinect和Faceshift技術(shù)實時采集說話人面部信息，在利用視頻驅(qū)動方式與面部三維模型相融合生成面部三維模型動畫，實現(xiàn)能夠?qū)崟r顯示說話人面部動畫的面部表情、唇部動作，舌頭運動狀態(tài)的面部三維動畫效果。本方法將面部三維模型動畫和語音反饋結(jié)合起來從而真正意義上達(dá)到音視聽結(jié)合的言語康復(fù)訓(xùn)練方法。試驗結(jié)果表明，使用本言語康復(fù)訓(xùn)練系統(tǒng)對提高聽障兒童言語康復(fù)訓(xùn)練的效率，縮短康復(fù)訓(xùn)練時間有顯著效果。

關(guān)鍵詞：Kinect；Faceshift；言語康復(fù)訓(xùn)練；面部三維模型；語音識別反饋

據(jù)中國殘疾人聯(lián)合會抽樣調(diào)查統(tǒng)計數(shù)字表明，中國擁有聽力及言語殘疾人口數(shù)目約為2 057萬，7歲以下聾兒近百萬，每年新產(chǎn)生聾兒3萬余名[1]。在聾兒7歲以前，尤其是在3歲左右時，如果能及時地進(jìn)行康復(fù)治療，極有可能幫助他們走出無聲世界融入社會。因此，如何通過科學(xué)技術(shù)幫助聾兒縮短言語康復(fù)訓(xùn)練時間，提高效率尤為重要。

隨著時代的進(jìn)步和科學(xué)技術(shù)的發(fā)展，聾兒語言康復(fù)訓(xùn)練設(shè)備及方法已被廣泛應(yīng)用到聾兒語言功能康復(fù)訓(xùn)練中。如IBM Speech Viewer系統(tǒng)[2]，是一種高性能的實時語音治療設(shè)備，但它要求使用者的語音學(xué)和傳統(tǒng)臨床療法理解程度有很高的要求。在國內(nèi)，影響力較大的是天津市聾兒語言康復(fù)中心開發(fā)的《聰聰學(xué)話》多媒體聾兒語訓(xùn)系統(tǒng)[3]，但該系統(tǒng)無法直接顯示說話人面部表情狀態(tài)。針對現(xiàn)有的系統(tǒng)缺陷，本文提出基于Kinect和Faceshift的語言康復(fù)訓(xùn)練方法，根據(jù)Kincet和Faceshift技術(shù)實時捕捉說話時人的面部表情、唇部動作、舌頭的狀態(tài)等，在將捕捉到的動態(tài)人臉與三維人物頭像模型相融合，從而解決動態(tài)三維頭像的驅(qū)動問題。

1 基于Kinect和Faceshft的語言康復(fù)訓(xùn)練方法

該方法利用特殊人機(jī)交互技術(shù)、傳感器技術(shù)建立聽障兒童語言康復(fù)訓(xùn)練系統(tǒng)，通過音頻數(shù)據(jù)和視頻數(shù)據(jù)采集裝置獲取聽障兒童發(fā)聲訓(xùn)練中的音頻視頻數(shù)據(jù)信息，在顯示器上根據(jù)獲取的信息反饋出音頻圖像對比結(jié)果以及語音識別反饋信息，從而指導(dǎo)受訓(xùn)者正確發(fā)聲。

1.1 系統(tǒng)總體方案

其具體流程為：利用Kinect和Faceshft技術(shù)將音、視頻數(shù)據(jù)采集器采集到的面部運動特征和發(fā)音信息，與三維人物頭像模型相互融合，形成實時說話人三維人物頭像模型，并將融合后的三維人物頭像模型存入數(shù)據(jù)存儲和處理設(shè)備。數(shù)據(jù)存儲和處理設(shè)備對數(shù)據(jù)同步處理后，將數(shù)據(jù)與標(biāo)準(zhǔn)信息比對做語音識別反饋。最后由視頻顯示裝置將面部三維人物頭像、語音識別反饋結(jié)果、音頻圖像對比反饋結(jié)果同步顯示。系統(tǒng)總體方案如圖1所示。

1.2 面部三維頭像模型

在使用Kinect和Faceshft技術(shù)實時捕捉人臉數(shù)據(jù)后，還需要建立人面部三維頭像模型，本系統(tǒng)采用的是Autodesk公司開發(fā)的3DS Max軟件創(chuàng)建頭像基本模型，再利用zbrush進(jìn)行仿真建模，對面部三維頭像模型進(jìn)行相似性調(diào)整和細(xì)節(jié)刻畫，并調(diào)整顏色貼圖以及調(diào)整高光。

1.3 Kinect和Faceshft技術(shù)與面部三維頭像模型的動畫合成

本文采用Kinect和Faceshft技術(shù)提取言語康復(fù)訓(xùn)練中聽障兒童的音視頻信息，捕捉說話人的面部動作、表情和語音信息，然后套入建好的人物面部三維頭像模型，從而生成動畫序列[4]。其框圖如圖2所示。

2 系統(tǒng)評價及分析

為驗證基于Kinect和Faceshft的語言康復(fù)訓(xùn)練方法的實用性，我們對該方法進(jìn)行了試驗。試驗過程為：選取20名3～7歲康復(fù)訓(xùn)練學(xué)生，實驗組10人為5名男生，5名女生，使用本方法進(jìn)行康復(fù)訓(xùn)練，對照組10人為5名男生，5名女生使用傳統(tǒng)的訓(xùn)練模式進(jìn)行康復(fù)訓(xùn)練。對實驗組和對照組分別進(jìn)行言語康復(fù)訓(xùn)練的單字、詞語、語句發(fā)音，在相同的言語康復(fù)訓(xùn)練內(nèi)容下，對比實驗組、對照組的康復(fù)訓(xùn)練時間。試驗嚴(yán)格控制其他無關(guān)變量，保證實驗組和對照組的發(fā)音準(zhǔn)確性[5]。

圖3為言語康復(fù)訓(xùn)練對比實驗結(jié)果，從對比曲線上，我們能夠看出使用基于Kinect和Faceshft的語言康復(fù)訓(xùn)練方法進(jìn)行康復(fù)訓(xùn)練的時間基本上都能夠小于傳統(tǒng)康復(fù)訓(xùn)練所需時間，能夠提高聽障兒童言語康復(fù)訓(xùn)練效率[6]。

3 結(jié)語

本文提出一種基于Kinect和Faceshft的語言康復(fù)訓(xùn)練方法。根據(jù)Kincet和Faceshift技術(shù)的特點實時捕捉說話時人的面部表情、唇部動作，舌頭運動狀態(tài)，并將視頻驅(qū)動面部三維頭像動畫，生成發(fā)音的面部三維動畫。在對20名聽障兒童的系統(tǒng)測試結(jié)果表明，本語言康復(fù)訓(xùn)練方法能夠幫助聽障兒童更好地完成言語康復(fù)訓(xùn)練，縮短訓(xùn)練時間。

[參考文獻(xiàn)]

[1]黃昭鳴.我國言語—語言障礙康復(fù)現(xiàn)狀及發(fā)展策略[J].中國聽力語言康復(fù)科學(xué)雜志，2016（2）：84-87.

[2]DESTOMBES F.The development and application of the IBM speech viewer[J].Journal of Medical Sciences，1994（2）：187-196.

[3]王慧芳，朱思俞，張立安，等.《聰聰學(xué)話》—多媒體聾兒語訓(xùn)系統(tǒng)[C].大連：全國計算機(jī)輔助教育學(xué)會學(xué)術(shù)會議，2001.

[4]張金成.基于Kinect的健身游戲的設(shè)計與實現(xiàn)[D].武漢：華中師范大學(xué)，2017.

[5]陳思.基于視頻驅(qū)動的面部表情實時模擬研究與實現(xiàn)[D].成都：電子科技大學(xué)，2017.

[6]普波.基于視頻的三維人臉動畫驅(qū)動的設(shè)計與實現(xiàn)[D].成都：電子科技大學(xué)，2010.

無線互聯(lián)科技2018年21期

無線互聯(lián)科技的其它文章: 一種觸摸式手持時間同步測試系統(tǒng); 大數(shù)據(jù)時代下計算機(jī)網(wǎng)絡(luò)信息安全分析; 大數(shù)據(jù)時代信息安全的新特點與新要求; 廣電工作網(wǎng)絡(luò)升級及AC無線覆蓋; 基于Ionic框架的圖片瀏覽HybridAPP的設(shè)計與實現(xiàn); 基于MOOCs高職“應(yīng)用電子技術(shù)”課程教學(xué)改革與實踐

99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

基于Kinect和Faceshift的語言康復(fù)訓(xùn)練方法