李崗 蒙森榮 秦岳洪 張雨松
摘? ?要:為了促進(jìn)聾啞人與正常人之間的溝通交流,文章研究設(shè)計(jì)了一個(gè)基于Android平臺(tái)的手語(yǔ)翻譯APP。本系統(tǒng)采用Web服務(wù)器,通過(guò)自然語(yǔ)言處理、3D動(dòng)畫(huà)建模、動(dòng)畫(huà)播放處理、Android開(kāi)發(fā)等技術(shù),實(shí)現(xiàn)了一款以Android客戶端與Web服務(wù)器相結(jié)合的移動(dòng)應(yīng)用。本系統(tǒng)首要考慮的是使用的便捷性,不僅能夠作為聾啞人士與正常人溝通交流的渠道,還可以作為一款手語(yǔ)學(xué)習(xí)APP,使手語(yǔ)能夠廣泛應(yīng)用到日常生活。
關(guān)鍵詞:語(yǔ)音識(shí)別;自然語(yǔ)言處理;自然語(yǔ)言轉(zhuǎn)手語(yǔ)
隨著社會(huì)生活質(zhì)量和國(guó)家綜合能力的不斷提高,我國(guó)越來(lái)越重視國(guó)民的教育以及交流問(wèn)題。然而長(zhǎng)期以來(lái),聾啞人與正常人之間的交流問(wèn)題一直是一個(gè)薄弱環(huán)節(jié)。聾啞人是我國(guó)的弱勢(shì)群體之一,據(jù)第6次全國(guó)人口普查我國(guó)總?cè)丝跀?shù)、第二次全國(guó)殘疾人抽樣調(diào)查我國(guó)殘疾人數(shù)占全國(guó)總?cè)丝跀?shù)的比例和各類殘疾人數(shù)占?xì)埣踩丝側(cè)藬?shù)的比例,推算出我國(guó)聾啞人總?cè)藬?shù)已超過(guò)2 600萬(wàn)人。
在日常生活中,聾啞人以及聾啞人與正常人之間的相互溝通都是通過(guò)手語(yǔ)來(lái)實(shí)現(xiàn)。聾啞人的聽(tīng)力障礙導(dǎo)致大部分聾啞人受教育程度不高,在大部分普通類學(xué)校中,都忽視了手語(yǔ)方面的教育,只有少數(shù)師范類高等院校的特殊教育專業(yè)才會(huì)開(kāi)設(shè)手語(yǔ)課。手語(yǔ)教育的匱乏,進(jìn)一步加劇了正常人和聾啞人之間的交流屏障。聾啞人等殘疾人士因?yàn)闊o(wú)法像正常人一樣融入社會(huì),產(chǎn)生的心理問(wèn)題以及對(duì)社會(huì)的影響都是難以想象的[1]。
1? ? 現(xiàn)狀分析
隨著社會(huì)的不斷發(fā)展,我國(guó)也越來(lái)越重視國(guó)民的教育和國(guó)民之間的交流,對(duì)聾啞人與正常人之間的交流更加重視。相應(yīng)的,手語(yǔ)的需求市場(chǎng)不斷擴(kuò)大,專業(yè)化的手語(yǔ)翻譯教育機(jī)構(gòu)及研究項(xiàng)目也越來(lái)越多。諸如現(xiàn)階段已在市場(chǎng)上出現(xiàn)的微軟研究所和中科院聯(lián)合開(kāi)發(fā)的Kinect手語(yǔ)翻譯系統(tǒng),日本東芝公司發(fā)明的人形交互機(jī)器人Aiko Chihira等均可以進(jìn)行手語(yǔ)的翻譯。本文所開(kāi)發(fā)設(shè)計(jì)的手語(yǔ)翻譯APP靈感正是來(lái)源于此[2]。
科學(xué)影響著我們生活的方方面面,尤其是當(dāng)今最流行的科技產(chǎn)品—手機(jī),在日常生活中隨處可見(jiàn)。在手機(jī)市場(chǎng)中,Android移動(dòng)應(yīng)用手機(jī)占主要地位,手機(jī)網(wǎng)民占總網(wǎng)民的比例高達(dá)97.5%。同時(shí),科學(xué)也大大促進(jìn)了教育事業(yè)的發(fā)展,如今,我國(guó)的教育事業(yè)已經(jīng)進(jìn)入了一個(gè)發(fā)展的高峰期,但對(duì)聾啞人與正常人之間的交流重視程度仍然沒(méi)有得到大幅的提升[3]。因此,為推動(dòng)聾啞人與正常人之間的交流,本文對(duì)基于Android平臺(tái)設(shè)計(jì)的一款針對(duì)聾啞人與正常人交流的移動(dòng)APP應(yīng)用進(jìn)行闡述。本軟件操作簡(jiǎn)單,易于快速學(xué)習(xí)與交流,系統(tǒng)設(shè)計(jì)流程如圖1所示。
2? ? 系統(tǒng)設(shè)計(jì)分析
2.1? 需求與內(nèi)容分析
本應(yīng)用的設(shè)計(jì)滿足了大眾的需求,主要有手語(yǔ)翻譯模塊和學(xué)習(xí)模塊兩大功能模塊。
(1)手語(yǔ)翻譯模塊:實(shí)現(xiàn)用戶在客戶端手動(dòng)輸入文字,客戶端發(fā)送文字?jǐn)?shù)據(jù)到服務(wù)器,服務(wù)器再對(duì)自然語(yǔ)言進(jìn)行處理并找到與其語(yǔ)義相對(duì)應(yīng)的手語(yǔ)動(dòng)畫(huà)視頻,找到后服務(wù)器發(fā)回視頻數(shù)據(jù)給客戶端的功能。除了文字輸入外,該軟件還可以進(jìn)行語(yǔ)音輸入,軟件可以自動(dòng)對(duì)輸入的語(yǔ)音進(jìn)行識(shí)別然后將其轉(zhuǎn)換為文字,此項(xiàng)設(shè)計(jì)的主要功能在于可以提高用戶的交互體驗(yàn)[4]。
(2)學(xué)習(xí)功能模塊:提供了相應(yīng)的手語(yǔ)圖片、手語(yǔ)資源動(dòng)畫(huà)庫(kù)供用戶進(jìn)行學(xué)習(xí)。學(xué)習(xí)模塊由于手機(jī)硬件等能力的限制,暫時(shí)將手語(yǔ)動(dòng)畫(huà)儲(chǔ)存在服務(wù)器端。用戶可以直接在學(xué)習(xí)板塊中進(jìn)行手語(yǔ)學(xué)習(xí),也可以直接運(yùn)用搜索欄進(jìn)行相關(guān)手語(yǔ)的搜索,當(dāng)用戶進(jìn)行文字輸入時(shí),能及時(shí)獲得由服務(wù)器端提供的手語(yǔ)動(dòng)畫(huà),可以方便用戶進(jìn)行學(xué)習(xí)或交流。
2.2? 系統(tǒng)架構(gòu)以及功能
基于Android的手語(yǔ)動(dòng)畫(huà)軟件系統(tǒng)整體架構(gòu)如圖2所示,包含服務(wù)器、安卓客戶端以及數(shù)據(jù)庫(kù)。由于Android平臺(tái)的開(kāi)放性,考慮到軟件的兼容以及編譯的可行性,我們對(duì)于軟件的設(shè)計(jì)在Android studio上完成。該平臺(tái)對(duì)于Android軟件的編譯有著很好的擴(kuò)展性以及便捷性。本次系統(tǒng)設(shè)計(jì)采用MVP架構(gòu),將視圖邏輯與數(shù)據(jù)邏輯進(jìn)行隔離,提高Activity的擴(kuò)展能力[5]。
(1)數(shù)據(jù)庫(kù):存儲(chǔ)系統(tǒng)數(shù)據(jù)的地方,數(shù)據(jù)包含已有的模型和通過(guò)模型建立的幾個(gè)基本動(dòng)作以及通過(guò)Miku Miku Dance動(dòng)作捕捉合成的基本語(yǔ)句手語(yǔ)動(dòng)作動(dòng)畫(huà)。
(2)服務(wù)器:用來(lái)實(shí)現(xiàn)用戶到數(shù)據(jù)庫(kù)和數(shù)據(jù)庫(kù)到用戶之間的數(shù)據(jù)交流,起到一個(gè)橋梁的作用。
(3)安卓客戶端:安卓客戶端通過(guò)局域網(wǎng)與服務(wù)器終端相連,遵循網(wǎng)絡(luò)TCP/IP的各層之間的重要協(xié)議。當(dāng)用戶發(fā)來(lái)數(shù)據(jù)請(qǐng)求時(shí),服務(wù)器可以及時(shí)響應(yīng)。系統(tǒng)服務(wù)器與數(shù)據(jù)庫(kù)的聯(lián)合使用,使服務(wù)器成為整個(gè)系統(tǒng)的數(shù)據(jù)交互中心,能夠及時(shí)作出數(shù)據(jù)的同步處理。
2.3? 關(guān)鍵技術(shù)
2.3.1? 3D動(dòng)畫(huà)建模
在模型創(chuàng)建方面,采用了3D動(dòng)畫(huà)建模技術(shù),可以實(shí)現(xiàn)面部表情以及對(duì)動(dòng)作的優(yōu)化。市場(chǎng)上3D建模軟件有很多,但大多不盡人意。本軟件采用了Miku Miku Dance建模,原因是MMD已有模型眾多,方便采用,而且MMD對(duì)于動(dòng)作的捕捉和優(yōu)化比較便捷。在模型動(dòng)作方面,kinect和mikumikudance是可以連在一起做捕捉的,但kinect的捕捉效果有些不如人意,大多數(shù)MMD的動(dòng)作數(shù)據(jù)應(yīng)該是手工K幀的,缺點(diǎn)是工作量略大。文章利用這個(gè)軟件制作了一個(gè)參考模型,并建立一些基礎(chǔ)的動(dòng)作模型,由這些動(dòng)作模型對(duì)動(dòng)作進(jìn)行捕捉,合成簡(jiǎn)單的日常對(duì)話語(yǔ)句。最后,將建立的動(dòng)作捕捉形成的動(dòng)畫(huà)儲(chǔ)存在服務(wù)器端,構(gòu)成一個(gè)手語(yǔ)資源動(dòng)畫(huà)庫(kù)[6]。
2.3.2? 自然語(yǔ)言處理
主要是自然語(yǔ)言識(shí)別與語(yǔ)義理解。本文解決方法是創(chuàng)建一個(gè)自然語(yǔ)言庫(kù)和語(yǔ)義上下文詞典。自然語(yǔ)言庫(kù)收納了聾啞人日常生活常用詞句,并對(duì)文字詞句與動(dòng)畫(huà)視頻進(jìn)行了一對(duì)一的映射。語(yǔ)義上下文詞典中收納的是詞組的同義詞、近義詞以及一些表達(dá)特別類似的句子。在客戶端傳輸來(lái)的文字,按語(yǔ)言上下文詞典進(jìn)行過(guò)濾,找唯一對(duì)應(yīng)的一個(gè)詞句,對(duì)語(yǔ)言庫(kù)進(jìn)行查詢,找到與之映射的視頻路徑發(fā)回給客戶端,最后客戶端按該視頻路徑播放該手語(yǔ)動(dòng)畫(huà)視頻。
除在客戶端手動(dòng)輸入文字外,我們還使用了語(yǔ)音轉(zhuǎn)文字的方法—客戶端集成科大訊飛語(yǔ)音識(shí)別,能夠?qū)⒄Z(yǔ)音準(zhǔn)確識(shí)別,可以為用戶提供更為方便快捷的文本輸入操作,本系統(tǒng)的文字處理過(guò)程如圖3所示。
2.3.3? 動(dòng)畫(huà)播放處理
當(dāng)客戶端獲得動(dòng)畫(huà)視頻路徑后,使用Android本地的VideoView進(jìn)行網(wǎng)絡(luò)視頻播放。為此,采用了基礎(chǔ)的超文本傳送協(xié)議(HyperText Transfer Protocol,HTTP),在連接局域網(wǎng)的前提之下,從服務(wù)器端加載動(dòng)畫(huà)進(jìn)行播放。
2.4? 實(shí)驗(yàn)運(yùn)行結(jié)果與分析
2.4.1? 運(yùn)行環(huán)境以及參數(shù)
(1)硬件環(huán)境要求:普通PC端用于安裝手語(yǔ)翻譯應(yīng)用平臺(tái)服務(wù)器;Android手機(jī)用于安裝手語(yǔ)翻譯APP客戶端。
(2)軟件環(huán)境要求:普通PC安裝Windows操作系統(tǒng),含有結(jié)構(gòu)化查詢語(yǔ)言(Structured Query Language,SQL)數(shù)據(jù)庫(kù)、Tomcat Web服務(wù)器運(yùn)行環(huán)境。
(3)網(wǎng)絡(luò)環(huán)境要求:支持TCP/IP的網(wǎng)絡(luò)環(huán)境,或搭建一個(gè)簡(jiǎn)單的局域網(wǎng),以便進(jìn)行客戶端與服務(wù)器、數(shù)據(jù)庫(kù)之間的數(shù)據(jù)交流。
本實(shí)驗(yàn)中,APP軟件采用的是Android studio編寫(xiě),數(shù)據(jù)庫(kù)采用SQL Sever數(shù)據(jù)庫(kù),具有很好的可移植性。首先,將服務(wù)器文件安裝在實(shí)驗(yàn)的PC機(jī)上,需要注意的是,本實(shí)驗(yàn)采用的服務(wù)器是建立在Tomcat上的。其次,需要將數(shù)據(jù)庫(kù)基礎(chǔ)動(dòng)畫(huà)模型導(dǎo)入服務(wù)器所在的PC機(jī)本地?cái)?shù)據(jù)庫(kù)文件并把數(shù)據(jù)庫(kù)文件導(dǎo)入本地SQL Sever數(shù)據(jù)庫(kù)中。Android客戶端安裝手語(yǔ)翻譯APP,并通過(guò)局域網(wǎng)或者移動(dòng)數(shù)據(jù)與服務(wù)器建立連接。如果處于服務(wù)器未打開(kāi)的狀態(tài),那么客戶端即用戶端將不能檢索到任何數(shù)據(jù),得不到服務(wù)器的響應(yīng),不會(huì)生成手語(yǔ)動(dòng)畫(huà)。
2.4.2? 實(shí)驗(yàn)運(yùn)行結(jié)果
APP首頁(yè)面是進(jìn)行檢索頁(yè)面,當(dāng)用戶點(diǎn)擊搜索框時(shí)可以選擇兩種方式輸入文本:(1)通過(guò)調(diào)用輸入法,將文字輸入到搜索框。由于Android平臺(tái)的開(kāi)放性,用戶可以任意選擇使用輸入法。(2)語(yǔ)音輸入,語(yǔ)音識(shí)別調(diào)用算法后,具有很高的保真性,能夠準(zhǔn)確無(wú)誤地將語(yǔ)音內(nèi)容翻譯成文本并顯示在輸入框。
用戶點(diǎn)擊搜索后,將信息反饋到服務(wù)器端,同時(shí),彈出播放視頻頁(yè)面。服務(wù)器端根據(jù)客戶端發(fā)來(lái)的文字調(diào)用算法檢索數(shù)據(jù)庫(kù)。若檢索失敗則會(huì)返回提示信息,若檢索到相關(guān)動(dòng)畫(huà),則返回視頻,用戶端就可以通過(guò)網(wǎng)絡(luò)對(duì)視頻進(jìn)行加載播放。在服務(wù)器端,我們提前建立了一些動(dòng)作模型,根據(jù)動(dòng)作捕捉合成部分手語(yǔ)語(yǔ)句以供用戶參考。在客戶端學(xué)習(xí)頁(yè)面,包含一些常用手語(yǔ)的解釋內(nèi)容,用戶可以學(xué)習(xí)掌握。
3? ? 結(jié)語(yǔ)
基于Android系統(tǒng)的良好性能和開(kāi)放環(huán)境的擴(kuò)展性,課題小組對(duì)手語(yǔ)翻譯助手APP進(jìn)行設(shè)計(jì)。設(shè)計(jì)初期難免遇到不同程度的挫折,遇到的Bug也非常困擾開(kāi)發(fā)人員,但經(jīng)過(guò)后期不斷改進(jìn)測(cè)試,本軟件處于安全穩(wěn)定運(yùn)行狀態(tài),且操作方式也較為簡(jiǎn)單。但不可否認(rèn),設(shè)計(jì)的軟件之中仍有許多可以改進(jìn)的地方[7]。
本文所使用的技術(shù)與方法基本都是已有技術(shù)的改良與創(chuàng)新,用創(chuàng)新思想開(kāi)發(fā)本軟件。本類手語(yǔ)翻譯的產(chǎn)品也是推動(dòng)手語(yǔ)專業(yè)化發(fā)展的媒介,手語(yǔ)翻譯APP除了可以實(shí)現(xiàn)并解決聾啞人與正常人的交流問(wèn)題外,還可以成為聾啞人士建立自信、獲得尊重的助力產(chǎn)品??茖W(xué)技術(shù)的發(fā)展推動(dòng)手語(yǔ)教育的發(fā)展,有助于實(shí)現(xiàn)聾啞人與正常人的零距離交流。
[參考文獻(xiàn)]
[1]彭成,高沛,周曉紅.基于Android平臺(tái)的校園助手研究與實(shí)現(xiàn)[J].湖南工業(yè)大學(xué)學(xué)報(bào),2018(5):44-49.
[2]王衛(wèi)民,金力.基于Android的手語(yǔ)動(dòng)畫(huà)自動(dòng)生成軟件設(shè)計(jì)[J].電子設(shè)計(jì)工程,2017(18):42-45,49.
[3]肖曉燕,高昕,趙肖.中國(guó)大陸手語(yǔ)傳譯調(diào)查:現(xiàn)狀、問(wèn)題與前景[J].中國(guó)翻譯,2018(6):66-72.
[4]秦澤秀.基于Android平臺(tái)的手勢(shì)與語(yǔ)音轉(zhuǎn)換技術(shù)[J].電子世界,2019(1):159-160.
[5]蔣燕翔.基于Android平臺(tái)的景區(qū)交互式智能導(dǎo)游系統(tǒng)設(shè)計(jì)[J].電子技術(shù)與軟件工程,2019(3):35-36.
[6]王嘉鵬.基于Android的便攜式智能醫(yī)療儀的設(shè)計(jì)[J].教育教學(xué)論壇,2019(4):82-83.
[7]劉英子,方嘉俊,溫昕,等.雙向交流手語(yǔ)翻譯器[J].物聯(lián)網(wǎng)技術(shù),2018(10):7-11.
Abstract:In order to promote communication between deaf-mute and normal people, this paper designs a sign language translation APP based on Android platform. The system uses Web Server, natural language processing, 3D animation modeling, animation playback processing, Android development and other technologies to achieve a mobile application that combines Android client and Web Server. The primary consideration of this system is the convenience of use. It can not only serve as a channel for communication between deaf-mute and normal people, but also as a sign language learning APP, enabling sign language to be widely applied to daily life.
Key words:speech recognition; natural language processing; natural language to sign language