張淑艷+趙劍+史麗娟+鄒鳳華+谷赫
摘要:文章提出了一種新型的聽障兒童語音康復(fù)訓(xùn)練系統(tǒng)。該系統(tǒng)通過采集多通道語音反饋數(shù)據(jù)訓(xùn)練神經(jīng)網(wǎng)并建立康復(fù)系統(tǒng)的桌面端和移動端,聽障兒童通過移動端進(jìn)行階段性訓(xùn)練之后與桌面端進(jìn)行數(shù)據(jù)交互,獲得新的訓(xùn)練指導(dǎo),并且為桌面端系統(tǒng)提供數(shù)據(jù)以持續(xù)改善桌面端的性能。桌面端與移動端的數(shù)據(jù)通信由近場通信技術(shù)實(shí)現(xiàn),能夠自動進(jìn)行身份識別數(shù)據(jù)交互,為兩端提供無縫連接。
關(guān)鍵詞:聽障;康復(fù);移動端
截至2016年全國愛耳日,我國0—6歲聽障兒童統(tǒng)計(jì)數(shù)量達(dá)13.7萬人。對于多數(shù)聽障兒童來說,早期診斷和適當(dāng)?shù)目祻?fù)訓(xùn)練對他們有很大的幫助。世界衛(wèi)生組織統(tǒng)計(jì)數(shù)據(jù)表明,超過60%的兒童聽力損失都是可以避免或者改善的。我國在聽障兒童康復(fù)訓(xùn)練方面有相對較大的提升空間,建造一個(gè)更合理、能更好地利用當(dāng)前技術(shù)的康復(fù)系統(tǒng)是一個(gè)迫切的任務(wù)。
兒童聽障康復(fù)訓(xùn)練方面有大量的領(lǐng)域成果,在很多方面都有相對成熟的技術(shù),但是現(xiàn)有的聽力康復(fù)方法及相關(guān)系統(tǒng)受設(shè)備和場地限制極大,因?yàn)槠鋵I(yè)性的要求,聽障兒童需要定時(shí)到固定地點(diǎn)的訓(xùn)練中心,在專業(yè)人士指導(dǎo)下進(jìn)行康復(fù)訓(xùn)練,而多數(shù)聽障兒童沒有條件和精力持續(xù)地接受這樣的服務(wù),導(dǎo)致雖然有技術(shù)能夠使他們擺脫不會說話的困擾,但能真正因此而受益的人只占極少的比例。隨著科學(xué)技術(shù)的進(jìn)步,尤其是物聯(lián)網(wǎng)、人工智能的發(fā)展,使得普及的智能終端能夠越來越好地服務(wù)人們的生活,使得人們可以利用相關(guān)技術(shù)改善聽障兒童的康復(fù)訓(xùn)練的現(xiàn)狀。
本文設(shè)計(jì)了一種新型的康復(fù)系統(tǒng),康復(fù)系統(tǒng)主要由兩部分構(gòu)成,一部分由桌面系統(tǒng)構(gòu)成,稱之為桌面端,通過機(jī)器學(xué)習(xí)技術(shù)創(chuàng)建出相對龐大的康復(fù)訓(xùn)練回饋系統(tǒng);另外一部分由移動端構(gòu)成,使用當(dāng)前較為廉價(jià)的移動設(shè)備構(gòu)成的系統(tǒng),有針對性地提供康復(fù)訓(xùn)練,并采集當(dāng)前訓(xùn)練數(shù)據(jù)。兩部分由近場通信技術(shù)連接。利用近場通信技術(shù)的優(yōu)點(diǎn)構(gòu)造出一個(gè)能夠方便進(jìn)行身份認(rèn)證和數(shù)據(jù)交換的接口,由桌面端對移動端傳回的數(shù)據(jù)進(jìn)行分析,求解出適當(dāng)?shù)挠?xùn)練計(jì)劃并發(fā)送回移動端,聽障兒童使用移動端設(shè)備進(jìn)行進(jìn)一步訓(xùn)練。同時(shí)聽障兒童的訓(xùn)練數(shù)據(jù)可以為改善桌面端的系統(tǒng)提供數(shù)據(jù)支持,整個(gè)系統(tǒng)將隨著用戶數(shù)量的增加而不停地進(jìn)行學(xué)習(xí),為整個(gè)系統(tǒng)形成一個(gè)增強(qiáng)學(xué)習(xí)的結(jié)構(gòu),從而在系統(tǒng)運(yùn)行的過程中得到改善。**
1近場通信技術(shù)
近場通信是利用電磁波的近場耦合效應(yīng)進(jìn)行通信的技術(shù),與通常的近距離通信技術(shù)相比其建立連接的速度非??欤瑪?shù)據(jù)傳輸速度也很高[1]。近距離無線通信技術(shù)(NearFieldCommunication,NFC)技術(shù)是射頻識別(RadioFrequencyIdentification,RFID)技術(shù)的改進(jìn)版,與原有的射頻標(biāo)簽技術(shù)相比,其犧牲了通信距離提高了聯(lián)接效率。近年來,隨著技術(shù)的進(jìn)步,單個(gè)的NFC標(biāo)簽的價(jià)格大幅下降,即便是讀寫設(shè)備也在逐漸地走向?qū)こ0傩占?,因?yàn)楸葌鹘y(tǒng)的射頻標(biāo)簽要便宜很多,所以在生活中的應(yīng)用也越發(fā)地廣泛。
在當(dāng)前的應(yīng)用中近場通信技術(shù)通常來說可以分為3種工作模式:讀寫模式、智能卡模式和點(diǎn)對點(diǎn)模式。在近場通信的卡模擬方式中NFC設(shè)備可以以射頻卡的方式與另外的主動讀取設(shè)備相連接;在主動通信的點(diǎn)對點(diǎn)模式下NFC設(shè)備可以與網(wǎng)絡(luò)互連,或者與其他NFC設(shè)備互連構(gòu)成個(gè)人網(wǎng)絡(luò),并且在這個(gè)短距離網(wǎng)絡(luò)連接中完成數(shù)據(jù)共享和網(wǎng)絡(luò)服務(wù)。
因?yàn)椴捎媒鼒鐾ㄐ诺姆绞酵瓿梢苿佣伺c桌面系統(tǒng)的互聯(lián),所以在本系統(tǒng)中采用點(diǎn)對點(diǎn)的NFC通信模式。
2雙端系統(tǒng)構(gòu)造
本文系統(tǒng)由桌面端與移動端兩部分構(gòu)成。桌面端為數(shù)據(jù)和處理中心,為整個(gè)系統(tǒng)提供數(shù)據(jù)存儲和共享,移動端為應(yīng)用端,參加康復(fù)訓(xùn)練的人可以帶著移動端隨時(shí)隨地進(jìn)行訓(xùn)練課程。
桌面端構(gòu)造為系統(tǒng)的主要部分。在創(chuàng)建系統(tǒng)的時(shí)候首先采集數(shù)據(jù),數(shù)據(jù)建模為三維會話頭像,并且使用多通道信息表示語音與語音的提示。數(shù)據(jù)采集時(shí)使用三維動態(tài)捕捉系統(tǒng),同步采集說話人的音頻數(shù)據(jù)與視頻數(shù)據(jù)。通過對連續(xù)發(fā)音的說話人進(jìn)行正面和正交側(cè)面的錄像,采集說話人的連續(xù)發(fā)音動作,獲取說話人面部發(fā)音器官變形的數(shù)據(jù),然后,確定控制各個(gè)發(fā)音器官運(yùn)動控制特征點(diǎn),建立聲帶震動信息的獲取和反饋模型,如圖1所示。
說話人發(fā)出特定語音的時(shí)候,系統(tǒng)采集到他的頭像的視頻數(shù)據(jù)與聲音數(shù)據(jù),對應(yīng)存儲起來。將此數(shù)據(jù)表示成向量,并且用之訓(xùn)練神經(jīng)網(wǎng)絡(luò),用以解決分類問題[2]。
我們用數(shù)據(jù)來表示通過多通道三維視覺系統(tǒng)采集到的實(shí)驗(yàn)數(shù)據(jù),其中,是一個(gè)向量,在其中按順序?qū)?yīng)存儲聲音視頻,以及震動信息的數(shù)據(jù),
儲對應(yīng)的聲音文本標(biāo)記。數(shù)據(jù)為了表示和計(jì)算上的方便,數(shù)字化之后合并為一維特征向量來表示。
使用神經(jīng)網(wǎng)對數(shù)據(jù)進(jìn)行分類[34],因?yàn)榧航?jīng)有作為文本標(biāo)記,所以屬于有監(jiān)督的分類學(xué)習(xí)。神經(jīng)網(wǎng)訓(xùn)練流程如圖2所示。
通過神經(jīng)網(wǎng)的訓(xùn)練,做成語音信息、視頻信息、震動信息與文本的對應(yīng)。訓(xùn)練出來的系統(tǒng)可以對聽障兒童的語音進(jìn)行識別和分類,判斷聽障兒童在特定語音發(fā)音的準(zhǔn)確程度。這是一個(gè)典型的分類訓(xùn)練。我們把獲得的實(shí)驗(yàn)數(shù)據(jù)進(jìn)行10折交叉驗(yàn)證,在開源的機(jī)器學(xué)習(xí)平臺TensorFlow上進(jìn)行訓(xùn)練,然后將訓(xùn)練完畢得到的求解器移植到移動設(shè)備上。在移動端開發(fā)對應(yīng)的康復(fù)訓(xùn)練應(yīng)用,移動端的應(yīng)用系統(tǒng)得到桌面端的訓(xùn)練數(shù)據(jù)之后,就可以根據(jù)相應(yīng)的數(shù)據(jù)進(jìn)行語音識別,識別并給出矯正語音的提示。
在移動端的應(yīng)用會先給聽障兒童一個(gè)標(biāo)準(zhǔn)語音、對話視頻、震動的演示,然后收集聽障兒童的語音與視頻信息,將收集到的數(shù)據(jù)放到識別系統(tǒng)中進(jìn)行分類,判斷多大程度上屬于某個(gè)特定的標(biāo)準(zhǔn)發(fā)音,對應(yīng)給出特定的訓(xùn)練指導(dǎo)。當(dāng)聽障兒童的發(fā)音屬于特定識別區(qū)域之后,也就說明了聽障兒童的這個(gè)發(fā)音基本上達(dá)到了訓(xùn)練要求,進(jìn)行下一個(gè)語音的訓(xùn)練。幾個(gè)臨近分類方法的示意如圖3所示,使用分類算法將在一個(gè)超平面上的向量分類,通過神經(jīng)網(wǎng)絡(luò)的反饋,將歐氏距離臨近的向量分配到不同的集合中。
3系統(tǒng)的連接
系統(tǒng)由桌面端和移動端構(gòu)成,雙端的連接由近場通信技術(shù)來實(shí)現(xiàn)。使用NFC技術(shù)可以方便地實(shí)現(xiàn)從用戶身份識別到數(shù)據(jù)傳輸?shù)倪^程。使用點(diǎn)對點(diǎn)的通信模式,利用移動設(shè)備與桌面設(shè)備之間的NFC傳感器,利用簡單的NFC數(shù)據(jù)交換格式(NFCDataExchangeFormat,NDEF)協(xié)議和邏輯鏈路控制協(xié)議編寫程序,實(shí)現(xiàn)雙端系統(tǒng)的默認(rèn)連接,只要靠近通信距離,就將自動進(jìn)行身份識別和程序連接,桌面端將收集用戶資料,以及用戶訓(xùn)練數(shù)據(jù)。當(dāng)用戶的訓(xùn)練達(dá)到本次課程的訓(xùn)練水平之后將給出新的訓(xùn)練課程,而從用戶端傳回的數(shù)據(jù)將用于桌面端神經(jīng)網(wǎng)絡(luò)的增強(qiáng)學(xué)習(xí),改進(jìn)桌面端系統(tǒng)的訓(xùn)練水平。
從短距離無線數(shù)據(jù)傳輸?shù)慕嵌瘸霭l(fā),將數(shù)據(jù)采集端的信息通過無線方式傳輸給云端,通過云來進(jìn)行數(shù)據(jù)處理,將處理結(jié)果返還給終端,終端顯示評估結(jié)果。這樣操作方便,終端只需要有傳感器(攝像頭、麥克等基本的獲取數(shù)據(jù)的終端就可以,不需要有復(fù)雜的數(shù)據(jù)處理裝置)及無線數(shù)據(jù)傳輸裝置就可以,攜帶方便,易于安裝,系統(tǒng)框如圖4所示。
4結(jié)語
提出了一種新的聽障兒童康復(fù)訓(xùn)練系統(tǒng),通過桌面端、移動端以及雙端之間的近場通信系統(tǒng)將兩端連接到一起,為缺少專業(yè)指導(dǎo)的聽障兒童能夠便捷地應(yīng)用康復(fù)技術(shù)。其中的移動端負(fù)責(zé)為聽障兒童提供訓(xùn)練課程,并給出視頻音頻和震動的反饋。其中的桌面端在創(chuàng)建的時(shí)候采用機(jī)器學(xué)習(xí)的方法訓(xùn)練系統(tǒng),移動端在判斷聽障兒童發(fā)音是否標(biāo)準(zhǔn)的時(shí)候采用的就是桌面端的訓(xùn)練結(jié)果,而移動端向桌面端傳回?cái)?shù)據(jù)的同時(shí)也為桌面端的增強(qiáng)學(xué)習(xí)提供了數(shù)據(jù)。
[參考文獻(xiàn)]
[1]NFCForum.NFCdigitalprotocoltechnicalspecification1.0[S].2010.
[2]徐昕,賀漢根.神經(jīng)網(wǎng)絡(luò)增強(qiáng)學(xué)習(xí)的梯度算法研究[J].計(jì)算機(jī)學(xué)報(bào),2003(2):227-233.
[3]羅可,林睦綱,郗東妹激據(jù)挖掘中分類算法綜述[J].計(jì)算機(jī)工程,2005(1):3-5.
[4]陳方,高升語音識別技術(shù)及發(fā)展[J].電信科學(xué),1996(10):54-57.endprint