毛艷梅
摘要: 基于Kinect的體感控制技術(shù),文章研究了一種語(yǔ)音障礙人群發(fā)音訓(xùn)練系統(tǒng),并通過(guò)臨床運(yùn)用測(cè)試了系統(tǒng)的可用性。該系統(tǒng)由障礙數(shù)據(jù)采集、發(fā)音康復(fù)訓(xùn)練及發(fā)音康復(fù)評(píng)估三大模塊構(gòu)成。每一模塊又由文字、圖像、聲音、視頻等多模態(tài)內(nèi)容組建。共有10名語(yǔ)言治療師、30例語(yǔ)音障礙人群參加了本項(xiàng)研究。研究結(jié)果發(fā)現(xiàn)基于人工智能深度學(xué)習(xí)融合技術(shù)開(kāi)發(fā)的這套語(yǔ)音康復(fù)訓(xùn)練系統(tǒng)可顯著提升語(yǔ)音障礙人群的發(fā)音質(zhì)量,具有較好的應(yīng)用前景。
關(guān)鍵詞:體感控制;發(fā)音訓(xùn)練系統(tǒng);語(yǔ)音障礙;可用性
中圖分類號(hào):R494? 文獻(xiàn)標(biāo)志碼:A
0 引言
語(yǔ)音障礙是指因構(gòu)音器官結(jié)構(gòu)缺陷、神經(jīng)、聽(tīng)力障礙和肌肉運(yùn)動(dòng)異常等原因造成語(yǔ)音清晰度低于正常水平而無(wú)法正確發(fā)音和建立有效溝通的言語(yǔ)障礙[1]。研究證明,通過(guò)發(fā)音訓(xùn)練,可以有效地發(fā)掘和激活語(yǔ)音障礙人群的聽(tīng)說(shuō)器官的功能代償,開(kāi)發(fā)其語(yǔ)言能力和顯著提高其語(yǔ)音康復(fù)水平[2]。當(dāng)前語(yǔ)音障礙人群的發(fā)音訓(xùn)練以人工訓(xùn)練或計(jì)算機(jī)輔助訓(xùn)練模式為主,人工訓(xùn)練模式不僅易受時(shí)間、地點(diǎn)、人員等諸多因素的限制,其訓(xùn)練過(guò)程也費(fèi)時(shí)費(fèi)力,訓(xùn)練效率低、達(dá)不到預(yù)期訓(xùn)練效果;市場(chǎng)上所使用的發(fā)音訓(xùn)練系統(tǒng)的訓(xùn)練內(nèi)容雖然多種多樣,但是智能化程度不高,訓(xùn)練內(nèi)容往往固定且無(wú)法更改,單一重復(fù)的訓(xùn)練很容易使訓(xùn)練者產(chǎn)生倦怠乃至抵觸心理。因此,尋找有效、規(guī)范的新技術(shù)、新方法促進(jìn)語(yǔ)音障礙人群積極主動(dòng)進(jìn)行發(fā)音訓(xùn)練具有極其重要的現(xiàn)實(shí)意義。
體感控制技術(shù)是利用肢體動(dòng)作與周邊裝置或環(huán)境互動(dòng),再由機(jī)器對(duì)用戶的動(dòng)作進(jìn)行識(shí)別、解析,并做出相應(yīng)反饋的計(jì)算機(jī)人機(jī)交互技術(shù)[3]?;隗w感控制技術(shù)的Kinect是一款主要用于運(yùn)動(dòng)感知的體感設(shè)備,可以捕獲音頻信息流、彩色視頻流和深度信息流等三種不同表現(xiàn)形式的數(shù)據(jù)流。其自帶的SDK能很好地跟蹤到人臉,并使用121個(gè)3D坐標(biāo)點(diǎn)定義臉部,同時(shí)能提供一體化的音視頻信息輸入與處理,以此來(lái)提高語(yǔ)音識(shí)別和人機(jī)交互能力[3]。
在參考諸多相關(guān)研究的基礎(chǔ)上[4],本研究基于運(yùn)用Kinect的體感交互技術(shù),設(shè)計(jì)了一個(gè)針對(duì)語(yǔ)音障礙人群的人工智能發(fā)音訓(xùn)練系統(tǒng),并將其命名為體感交互語(yǔ)音康復(fù)訓(xùn)練系統(tǒng)(KAPTS 1.0)。在分析了該套系統(tǒng)的設(shè)計(jì)框架的基礎(chǔ)上,通過(guò)實(shí)證研究,探討了KAPTS 1.0用于進(jìn)行語(yǔ)音障礙患者發(fā)音訓(xùn)練的可用性。
1 研究方法
1.1 國(guó)內(nèi)外計(jì)算機(jī)輔助發(fā)音訓(xùn)練系統(tǒng)研究現(xiàn)狀
20世紀(jì)70—80年代計(jì)算機(jī)輔助發(fā)音訓(xùn)練系統(tǒng)開(kāi)始出現(xiàn)在以美國(guó)、日本為主要代表的發(fā)達(dá)國(guó)家。這些輔助發(fā)音系統(tǒng)大多比較簡(jiǎn)單。近年來(lái)隨著多模態(tài)交互技術(shù)的飛速發(fā)展,語(yǔ)音障礙人群的康復(fù)訓(xùn)練需求大幅提升,因此,通過(guò)人機(jī)交互技術(shù)輔助語(yǔ)音障礙人群進(jìn)行康復(fù)訓(xùn)練的研究顯著增加。這些研究在早期主要針對(duì)語(yǔ)音障礙人群的面部表情識(shí)別等單項(xiàng)交際技能[5],近10 年的相關(guān)研究逐步轉(zhuǎn)向綜合訓(xùn)練,如基于Kinect人機(jī)交互技術(shù)的ECHOES項(xiàng)目[6]。此外,融合了人工智能的虛擬現(xiàn)實(shí)技術(shù)也逐漸應(yīng)用到語(yǔ)音障礙人群的發(fā)音技能康復(fù)訓(xùn)練中,如BPS數(shù)字行為輔助系統(tǒng)和3D虛擬發(fā)音導(dǎo)師系統(tǒng)[7];嘗試應(yīng)用機(jī)器人干預(yù)進(jìn)行語(yǔ)音障礙人群的康復(fù)訓(xùn)練,如使用機(jī)器人Nao來(lái)訓(xùn)練語(yǔ)音障礙人群的發(fā)音,結(jié)合LEGO治療法和人形機(jī)器人的康復(fù)訓(xùn)練模式以及研發(fā)的能根據(jù)不同個(gè)體需求自動(dòng)適應(yīng)并做出反饋的機(jī)器人協(xié)同技術(shù)[8-9]。
在計(jì)算機(jī)輔助發(fā)音訓(xùn)練方面,我國(guó)的研究起步較晚, 直到2004年才有學(xué)者基于語(yǔ)音特征視覺(jué)反饋的訓(xùn)練方式,提出根據(jù)目標(biāo)訓(xùn)練法和對(duì)比訓(xùn)練法設(shè)計(jì)的計(jì)算機(jī)輔助訓(xùn)練方法能夠有效地解決發(fā)音異常和構(gòu)音異常[2]。
國(guó)內(nèi)發(fā)音訓(xùn)練康復(fù)系統(tǒng)的研究和開(kāi)發(fā)還不完善,缺乏對(duì)訓(xùn)練者發(fā)音成效進(jìn)行測(cè)評(píng)、量化。Kinect體感控制技術(shù)在該領(lǐng)域的研究多為語(yǔ)音識(shí)別領(lǐng)域[10],對(duì)應(yīng)用體感控制技術(shù)進(jìn)行語(yǔ)音障礙人群的發(fā)音訓(xùn)練研究鮮有報(bào)道[11]。課題組近期研究發(fā)現(xiàn):將體感控制技術(shù)應(yīng)用在語(yǔ)音康復(fù)領(lǐng)域,可有效突破目前訓(xùn)練的局限,為人機(jī)交互技術(shù)提供全新的研究視角和應(yīng)用模式。
1.2 系統(tǒng)設(shè)計(jì)框架
體感交互語(yǔ)音康復(fù)訓(xùn)練系統(tǒng)(KAPTS 1.0)于2021年完成。該系統(tǒng)包含3個(gè)模塊:(1)障礙數(shù)據(jù)采集。該模塊通過(guò)應(yīng)用Kinect體感控制工具采集語(yǔ)音障礙人群的音頻信息、視頻彩色圖像序列、深度圖像序列及深度數(shù)據(jù)點(diǎn)序列、三維人臉模型序列,構(gòu)建多模態(tài)數(shù)據(jù)集。(2)發(fā)音康復(fù)訓(xùn)練。該模塊在對(duì)照患者和參照正常人群多模態(tài)發(fā)音數(shù)據(jù)庫(kù)的基礎(chǔ)上,按患者發(fā)音特點(diǎn)對(duì)錯(cuò)誤方式進(jìn)行歸類,根據(jù)構(gòu)音錯(cuò)誤產(chǎn)生的機(jī)制制訂體感交互個(gè)性化發(fā)音訓(xùn)練方案,為患者個(gè)性化的發(fā)音康復(fù)訓(xùn)練方案和任務(wù)。(3)發(fā)音康復(fù)評(píng)估。該模塊通過(guò)應(yīng)用人工智能深度學(xué)習(xí)算法從訓(xùn)練者的語(yǔ)音流利度、清晰度、準(zhǔn)確度、音位構(gòu)音能力等方面進(jìn)行智能評(píng)估,驗(yàn)證發(fā)音訓(xùn)練的有效性。
1.3 基于體感互動(dòng)的訓(xùn)練設(shè)計(jì)實(shí)現(xiàn)
在借鑒已有研究所構(gòu)建的發(fā)音語(yǔ)料庫(kù)的基礎(chǔ)上[12],研究者通過(guò)公開(kāi)社區(qū)招募的方式招募了30名正常發(fā)音人群和30名發(fā)音障礙患者。按照精準(zhǔn)預(yù)測(cè)-精準(zhǔn)干預(yù)訓(xùn)練-智能評(píng)估的原理和方法,課題研究者著手設(shè)計(jì)并開(kāi)發(fā)KAPTS 1.0。首先,研究者建立了面向語(yǔ)音障礙人群的多模態(tài)數(shù)據(jù)集。(1)發(fā)音測(cè)試語(yǔ)料庫(kù)設(shè)計(jì)。根據(jù)語(yǔ)音障礙人群的發(fā)音特性設(shè)計(jì)語(yǔ)料庫(kù)。按照從簡(jiǎn)單到復(fù)雜的發(fā)音原則,該語(yǔ)料庫(kù)包含了韻母、聲母、音節(jié)和句子。其中韻母有6個(gè),聲母有3個(gè);音節(jié)有固定音節(jié)和隨機(jī)音節(jié);句子有8句,取自人教版一年級(jí)的一個(gè)朗讀段落。(2)多模態(tài)數(shù)據(jù)采集。選擇成人語(yǔ)音障礙30人(男性、女性各15人)和正常人30人(男性、女性各15人),應(yīng)用kinect體感控制器,通過(guò)面部定位、特征提取、多流信息融合等技術(shù)同時(shí)獲取語(yǔ)音障礙人群的音頻信息數(shù)據(jù)、視頻信息數(shù)據(jù)和深度信息數(shù)據(jù)。通過(guò)音頻和深度數(shù)據(jù)融合,音頻和視頻信息融合以及深度數(shù)據(jù)和音視頻融合,將時(shí)間同步的各個(gè)流的特征拼接,然后通過(guò)隱馬爾可夫模型(HMM)進(jìn)行分類識(shí)別。(3)多模態(tài)數(shù)據(jù)特征比較:比較語(yǔ)音障礙人群與正常人群的多模態(tài)數(shù)據(jù)特征,為訓(xùn)練者個(gè)體生成數(shù)字化構(gòu)音錯(cuò)誤方式提供數(shù)據(jù)源。
其次,設(shè)計(jì)基于體感控制技術(shù)的個(gè)性化發(fā)音訓(xùn)練方案。(1)訓(xùn)練模塊設(shè)計(jì):根據(jù)語(yǔ)音障礙人群的構(gòu)音錯(cuò)誤方式,設(shè)計(jì)舌前音化、非送氣化、側(cè)化構(gòu)音、舌后音化、輔音脫落、唇齒音化、舌面音化及混合型等訓(xùn)練模塊。(2)個(gè)性化發(fā)音訓(xùn)練路徑規(guī)劃:在個(gè)體語(yǔ)音障礙數(shù)據(jù)集基礎(chǔ)上,結(jié)合構(gòu)音錯(cuò)誤方式,系統(tǒng)地生成訓(xùn)練者個(gè)性化發(fā)音訓(xùn)練路徑,并設(shè)定有效的訓(xùn)練頻率與訓(xùn)練時(shí)間周期。
最后,開(kāi)發(fā)體感交互個(gè)性化發(fā)音訓(xùn)練系統(tǒng)并進(jìn)行訓(xùn)練效果評(píng)估。(1)三維人物面部頭像與場(chǎng)景建模。通過(guò)3DS Max三維圖形繪制軟件、Direct 3D圖形繪制技術(shù)建立訓(xùn)練者三維人物面部頭像模型、面部動(dòng)作模型建模和紋理渲染、三維模型加載,并創(chuàng)建和渲染相關(guān)場(chǎng)景和人機(jī)交互界面。(2)訓(xùn)練者三維人物面部頭像原始模型:基于Kinect采集的多模態(tài)數(shù)據(jù)集,利用視頻驅(qū)動(dòng)方式與面部三維模型相融合生成面部三維模型動(dòng)畫(huà),實(shí)現(xiàn)能夠?qū)崟r(shí)顯示訓(xùn)練者面部動(dòng)畫(huà)的面部表情、唇部動(dòng)作、舌頭運(yùn)動(dòng)狀態(tài)的面部三維動(dòng)畫(huà)效果。(3)訓(xùn)練者三維人物面部頭像目標(biāo)模型:根據(jù)個(gè)性化訓(xùn)練方案,按照訓(xùn)練者三維人物面部頭像原始模型生成基于訓(xùn)練者個(gè)體的目標(biāo)訓(xùn)練模型。(4)發(fā)音智能評(píng)估和矯正。通過(guò)Kinect實(shí)時(shí)捕捉訓(xùn)練者面部運(yùn)動(dòng)數(shù)據(jù),結(jié)合語(yǔ)音識(shí)別數(shù)據(jù)反饋,通過(guò)人工智能深度學(xué)習(xí)算法,將訓(xùn)練者發(fā)音與標(biāo)準(zhǔn)發(fā)音進(jìn)行匹配,實(shí)現(xiàn)發(fā)音效果評(píng)估和矯正。
1.4 系統(tǒng)操作流程
KAPTS 1.0包括訓(xùn)練者(患者)和診療師(醫(yī)生)兩個(gè)角色界面。在系統(tǒng)操作流程上,診療師(醫(yī)生)首先為訓(xùn)練者(患者)創(chuàng)建一個(gè)賬戶。根據(jù)訓(xùn)練者(患者)的病理資料,創(chuàng)建訓(xùn)練者基本資料,評(píng)估發(fā)音障礙類型和嚴(yán)重程度,設(shè)定康復(fù)初步目標(biāo)。然后,訓(xùn)練者注冊(cè)并登錄創(chuàng)建的賬戶(訓(xùn)練者也可自己創(chuàng)建賬務(wù)并錄入基本資料),錄入發(fā)音障礙數(shù)據(jù)。接下來(lái),一方面,系統(tǒng)通過(guò)比照先前導(dǎo)入的正常人群的發(fā)音數(shù)據(jù)庫(kù)和患者錄入的障礙數(shù)據(jù),分析患者的發(fā)音障礙特性和類型,給出自適應(yīng)性地個(gè)性化康復(fù)訓(xùn)練方案和任務(wù)。另一方面,醫(yī)生根據(jù)患者錄入的發(fā)音障礙數(shù)據(jù),再次分析患者發(fā)音障礙特性和類型,結(jié)合系統(tǒng)給出的自適應(yīng)康復(fù)訓(xùn)練方案和任務(wù),設(shè)置并生成患者的康復(fù)訓(xùn)練方案和任務(wù),下傳給患者?;颊呦螺d康復(fù)訓(xùn)練方案和任務(wù)后,開(kāi)始執(zhí)行康復(fù)訓(xùn)練。在訓(xùn)練期間,訓(xùn)練者的訓(xùn)練數(shù)據(jù)會(huì)同時(shí)發(fā)送到在線數(shù)據(jù)庫(kù)中。訓(xùn)練期間,醫(yī)生和系統(tǒng)均可以實(shí)時(shí)評(píng)估患者的康復(fù)訓(xùn)練效果,給出實(shí)時(shí)的修改建議。訓(xùn)練結(jié)束后,醫(yī)生和系統(tǒng)均會(huì)給出訓(xùn)練報(bào)告,報(bào)告包含了每次訓(xùn)練的評(píng)價(jià)意見(jiàn)和建議。在所有訓(xùn)練完成后,系統(tǒng)和醫(yī)生會(huì)給予訓(xùn)練者總體發(fā)音康復(fù)訓(xùn)練結(jié)果評(píng)價(jià)以及后續(xù)的訓(xùn)練建議。
1.5 系統(tǒng)評(píng)價(jià)
為了評(píng)價(jià)KAPTS 1.0的臨床可用性,研究組于 2021 年 7 月—2021年 9 月以方便抽樣和公開(kāi)招募的方式邀請(qǐng)了10名語(yǔ)言治療師、30名發(fā)音障礙者對(duì)本套系統(tǒng)進(jìn)行了測(cè)試體驗(yàn)。在正式開(kāi)始系統(tǒng)測(cè)試前,研究者向30名發(fā)音障礙者詳細(xì)解釋了本次研究的目的和所要進(jìn)行的程序,并取得了參與的30位發(fā)音障礙患者的書(shū)面知情同意書(shū)。參與此次實(shí)驗(yàn)的患者年齡均大于18周歲,有醫(yī)院出具的發(fā)音障礙診斷證明。然后,研究者通過(guò)一對(duì)一教授的方式,確保參與的治療師和患者都能準(zhǔn)確使用該系統(tǒng)。對(duì)于治療師,設(shè)定的標(biāo)準(zhǔn)是必須是正規(guī)醫(yī)院的在職醫(yī)生。
訓(xùn)練結(jié)束后,課題研究者對(duì)治療師和患者均進(jìn)行了問(wèn)卷調(diào)查??紤]到問(wèn)卷的信效度,問(wèn)卷通過(guò)問(wèn)卷星App發(fā)放。問(wèn)卷內(nèi)容包括對(duì)KAPTS 1.0系統(tǒng)的界面設(shè)計(jì)的友好性、Kinect數(shù)據(jù)采集的準(zhǔn)確性、訓(xùn)練方案的可行性和趣味性、訓(xùn)練效果的有用性、用戶使用黏度5個(gè)維度共計(jì)10個(gè)項(xiàng)目的評(píng)分。評(píng)分采用了5分量表制,即5分表示非常同意、4分表示同意、3分表示中立、2分表示不同意、1分表示非常不同意 。
1.6 統(tǒng)計(jì)學(xué)分析
采用問(wèn)卷星自帶的SPSS軟件對(duì)問(wèn)卷調(diào)查數(shù)據(jù)資料進(jìn)行統(tǒng)計(jì)分析和人工核查后,研究者發(fā)現(xiàn)參與測(cè)試的10名治療師和30名發(fā)音障礙患者對(duì)KAPTS 1.0系統(tǒng)的評(píng)判比較一致,均為良好,為了確定問(wèn)卷統(tǒng)計(jì)結(jié)果的信效度,采用Wilcoxon檢驗(yàn)對(duì)其進(jìn)行了非參數(shù)檢驗(yàn),發(fā)現(xiàn)P<0.05,即統(tǒng)計(jì)結(jié)果具有顯著性意義。
2 結(jié)果
2.1 一般資料
在本研究中,30例語(yǔ)音障礙患者在10名語(yǔ)音治療師的指導(dǎo)下,使用研究者研發(fā)的KAPTS 1.0系統(tǒng)進(jìn)行了語(yǔ)音康復(fù)訓(xùn)練。10名語(yǔ)音治療師中,男性 6例,女性 4例,平均年齡30歲左右,工作年限均大于3年,且經(jīng)過(guò)了4個(gè)學(xué)時(shí)的KAPTS 1.0系統(tǒng)的使用培訓(xùn)。30例語(yǔ)音患者中,男性 19例,女性 11例,平均年齡53歲左右,病程5個(gè)月左右,病因不盡相同,其中腦梗死 11 例,運(yùn)動(dòng)性失語(yǔ) 9 例,腦出血 10 例,均有正規(guī)醫(yī)院的診斷證明。每名患者在下載KAPTS 1.0后,均在家人的陪伴下,在其主管語(yǔ)音治療師的遠(yuǎn)程指導(dǎo)下,順利完成了為期4周的個(gè)性化語(yǔ)音康復(fù)訓(xùn)練。在這4周中,每位患者的語(yǔ)音康復(fù)訓(xùn)練每天不少于 20分鐘,每周為期5天。此外,每位患者在通過(guò)研究者研發(fā)的KAPTS 1.0應(yīng)用程序進(jìn)行語(yǔ)音康復(fù)訓(xùn)練時(shí),需要配合使用研究者分發(fā)的Kinect傳感器??祻?fù)訓(xùn)練的全過(guò)程中需要使用速度穩(wěn)定的互聯(lián)網(wǎng),否則訓(xùn)練的流暢性和精準(zhǔn)性會(huì)受影響。
2.2 調(diào)查結(jié)果
整體來(lái)看,參與本次研究的語(yǔ)音治療師和語(yǔ)音障礙患者對(duì)于研究者研發(fā)的 KAPTS 1.0應(yīng)用程序在可用性維度方面的評(píng)分均比較高,其中來(lái)自治療師的平均分為81.6分,來(lái)自患者的平均分為78.2分。來(lái)自治療師的問(wèn)卷結(jié)果顯示,在系統(tǒng)界面設(shè)計(jì)的友好性、Kinect數(shù)據(jù)采集的準(zhǔn)確性以及訓(xùn)練效果的有用性這三個(gè)維度的正向得分也很高;但是用戶使用黏度這一維度的得分明顯偏低,導(dǎo)致這一問(wèn)題的主要原因可能是大部分發(fā)音障礙患者為老年群體,治療師對(duì)于其能否承擔(dān)購(gòu)買Kinect成本的考量。來(lái)自患者的問(wèn)卷調(diào)查結(jié)果顯示,其在系統(tǒng)界面設(shè)計(jì)的友好性、訓(xùn)練方案的可行性和有用性維度的得分較高,訓(xùn)練方案的趣味性維度的得分偏低。導(dǎo)致這一現(xiàn)象的原因可能是大部分患者在執(zhí)行康復(fù)訓(xùn)練時(shí)壓力較大,自我要求較高,因此對(duì)于康復(fù)訓(xùn)練任務(wù)有超預(yù)期的期望。在后續(xù)的系統(tǒng)優(yōu)化中,研究者會(huì)進(jìn)一步進(jìn)行相關(guān)優(yōu)化。
3 討論
2017年10月18日,習(xí)近平同志在十九大報(bào)告中提出了“健康中國(guó)”的發(fā)展戰(zhàn)略。他指出,人民健康是一個(gè)國(guó)家富強(qiáng)、民族昌盛的重要標(biāo)志。我國(guó)要不斷完善國(guó)民健康政策,為億萬(wàn)人民群眾提供全方位全生命周期的健康服務(wù)。然而目前我國(guó)語(yǔ)音障礙、構(gòu)音異常的總?cè)藬?shù)超過(guò)700萬(wàn),語(yǔ)音障礙的存在不僅影響人們正常的語(yǔ)言能力,同時(shí)也會(huì)引起心理、行為上的障礙,降低言語(yǔ)清晰度和社會(huì)交流能力,嚴(yán)重影響生活和工作。因此,尋找有效、規(guī)范的新技術(shù)、新方法促進(jìn)語(yǔ)音障礙人群積極主動(dòng)進(jìn)行發(fā)音訓(xùn)練具有重要的現(xiàn)實(shí)意義。
本課題組基于Kinect的體感控制技術(shù)設(shè)計(jì)研發(fā)的 KAPTS 1.0的功能特征主要體現(xiàn)在以下幾方面:(1)精準(zhǔn)化。KAPTS 1.0系統(tǒng)在采集了正常人群的多模態(tài)發(fā)音數(shù)據(jù)的基礎(chǔ)上,建立多模態(tài)常模發(fā)音數(shù)據(jù)庫(kù),然后根據(jù)Kinect的體感控制技術(shù)采集的個(gè)性化的語(yǔ)音障礙患者發(fā)音數(shù)據(jù),研究其發(fā)音特性,分析其錯(cuò)誤特征,為每位語(yǔ)音障礙患者提供個(gè)性化的發(fā)音訓(xùn)練方案和任務(wù),然后根據(jù)發(fā)音訓(xùn)練數(shù)據(jù),智能評(píng)估發(fā)音康復(fù)效果,做到精準(zhǔn)預(yù)測(cè)-精準(zhǔn)干預(yù)訓(xùn)練-智能評(píng)估。(2)交互化。Kinect是一款主要用于運(yùn)動(dòng)感知的體感設(shè)備,可以捕獲音頻信息流、彩色視頻流和深度信息流等三種不同表現(xiàn)形式的數(shù)據(jù)流。其自帶的SDK能很好地跟蹤到人臉,并使用121個(gè)3D坐標(biāo)點(diǎn)定義臉部,提供一體化的音視頻信息輸入與處理服務(wù),從而顯著提高人體語(yǔ)音識(shí)別能力和人機(jī)交互能力。因此,在訓(xùn)練中,該系統(tǒng)可以實(shí)時(shí)捕捉訓(xùn)練者的發(fā)音數(shù)據(jù),評(píng)估其發(fā)音效果,提出實(shí)時(shí)發(fā)音訓(xùn)練指令,提升發(fā)音訓(xùn)練效果。(3)遠(yuǎn)程化。發(fā)音障礙患者一般處于居家休養(yǎng)狀態(tài),相當(dāng)一部分人為行動(dòng)不便者,因此,對(duì)于居家進(jìn)行康復(fù)訓(xùn)練有著非常大的需求。KAPTS 1.0系統(tǒng)的遠(yuǎn)程在線康復(fù)治療極大地滿足了患者此方面的需求。此外,也為異地就醫(yī)的患者提供了遠(yuǎn)程診療的便利,大大節(jié)省了患者家庭的就醫(yī)開(kāi)支,提升了患者居家進(jìn)行康復(fù)訓(xùn)練的幸福指數(shù)。
為了驗(yàn)證KAPTS 1.0系統(tǒng)的可用性,研究者邀請(qǐng)了10名語(yǔ)言治療師、30例語(yǔ)音障礙人群參加了本項(xiàng)研究?;颊咴诳捎眯裕ǖ燃?jí)0—100)方面將應(yīng)用程序評(píng)為良好(評(píng)分>80;P=0.03),治療師將應(yīng)用程序評(píng)為良好(評(píng)分>80;P=0.04)。
綜上所述,基于Kinect的體感控制技術(shù)設(shè)計(jì)研發(fā)的語(yǔ)音障礙人群發(fā)音訓(xùn)練系統(tǒng)KAPTS 1.0是一種人工智能深度學(xué)習(xí)融合的康復(fù)系統(tǒng),可顯著提升語(yǔ)音障礙人群的發(fā)音質(zhì)量。該系統(tǒng)的完成,不僅將改善語(yǔ)音障礙人群的發(fā)音訓(xùn)練效果,為體感交互發(fā)音訓(xùn)練提供嶄新思路;打破傳統(tǒng)發(fā)音訓(xùn)練的空間和時(shí)間限制,緩解語(yǔ)音康復(fù)服務(wù)資源匱乏的局面,實(shí)現(xiàn)社會(huì)資源配置的優(yōu)化。該系統(tǒng)還可運(yùn)用到正常人群的語(yǔ)言學(xué)習(xí)中,具有廣闊的市場(chǎng)前景。
參考文獻(xiàn)
[1]李思奇,張玉梅.構(gòu)音障礙的評(píng)定與康復(fù)治療進(jìn)展[J].中國(guó)醫(yī)師進(jìn)修雜志,2021(1):88-92.
[2]薛珮蕓.構(gòu)音障礙患者病理語(yǔ)音特性分析與識(shí)別研究[D].太原:太原理工大學(xué),2019.
[3]車娜,趙劍,史麗娟,等.基于Kinect和Faceshift的語(yǔ)言康復(fù)訓(xùn)練方法[J].無(wú)線互聯(lián)科技,2018(21):108-110.
[4]史艷莉,明鈺,孫莉,等.基于平板電腦的漢語(yǔ)失語(yǔ)癥治療輔助系統(tǒng)的設(shè)計(jì)及可用性探討[J].中國(guó)康復(fù)醫(yī)學(xué)雜志,2021(7):822-826.
[5]朱虹.基于Kinect的特定說(shuō)話人跟蹤系統(tǒng)的研究與實(shí)現(xiàn)[D].延邊:延邊大學(xué),2017.
[6]MENG FANBO, WU ZHIYONG, JIA JIA, etal. Synthesizing English emphatic speech for multimodal corrective feedback in computer-aided pronunciation training[J]. Multimedia Tools and Applications,2013(1): 463-489.
[7]SU PEIHAO, WU CHUANHSUN, LEE LINSHAN. A recursive dialogue game for personalized computer-aided pronunciation training[J]. IEEE/ACM Transactions on Audio, Speech and Language Processing (TASLP),2015(1): 127-141.
[8]CHEN FEI, WANG LAN, PENG GANG,etal. Development and evaluation of a 3-D virtual pronunciation tutor for children with autism spectrum disorders.[J]. PloS One,2019(1): e0210858.
[9]ARORA VIPUL, LAHIRI ADITI, REETZ HENNING. Phonological feature-based speech recognition system for pronunciation training in non-native language learning[J]. The Journal of the Acoustical Society of America,2018(1):98-108.
[10]QIAN XIAOJUN, MENG HELEN, FRANK SOONG. A two-pass framework of mispronunciation detection and diagnosis for computer-aided pronunciation training[J]. IEEE/ACM Transactions on Audio, Speech and Language Processing (TASLP),2016(6): 1020-1028.
[11]歐熊,陳兵.計(jì)算機(jī)輔助聽(tīng)覺(jué)言語(yǔ)評(píng)估及康復(fù)系統(tǒng)的研究與進(jìn)展[J].聽(tīng)力學(xué)及言語(yǔ)疾病雜志,2015(6):665-668.
[12]王濤,徐麗娜,李峰.功能性構(gòu)音障礙患者側(cè)化構(gòu)音特點(diǎn)分析及語(yǔ)音訓(xùn)練療效觀察[J].中華物理醫(yī)學(xué)與康復(fù)雜志,2020(1):40-43.
(編輯 傅金睿)
Design and usability of voice training system for people with speech impairment based on somatosensory control
Mao Yanmei1,2
(1.Zhejiang University, Hangzhou 310058, China; 2.Zhejiang Business College, Hangzhou 310053, China)
Abstract:? Based on Kinects somatosensory control technology, this paper studies a voice training system for people with speech disorders, and tests its usability through clinical application. The system consists of three modules: obstacle data acquisition, pronunciation rehabilitation training and pronunciation rehabilitation evaluation. Each module is composed of text, image, sound, video and other multimodal content. A total of 10 language therapists and 30 people with speech disorders participated in this study. The research results show that the speech rehabilitation training system developed based on AI deep learning fusion technology can significantly improve the voice quality of people with speech disorders, and has a good application prospect.
Key words: somatosensory control; pronunciation training system; speech disorders; usability