陸鑫焱 徐紹達 王曼麗*
(1、遼寧科技大學(xué),遼寧 鞍山 114051 2、鞍山市第八中學(xué),遼寧 鞍山 114031 3、鞍山鋼鐵集團有限公司,遼寧 鞍山 114021)
近年來人工智能技術(shù)伴隨著人類科技的不斷發(fā)展日趨成熟,在普通教育領(lǐng)域已經(jīng)逐步應(yīng)用。然而特殊教育領(lǐng)域的教學(xué)系統(tǒng)或裝置還比較傳統(tǒng),對于調(diào)動學(xué)生學(xué)習(xí)興趣和提升學(xué)生科學(xué)意識等都遠遠不夠,亟需下大力氣開發(fā)有利于調(diào)動學(xué)生學(xué)習(xí)興趣、圖文并茂、應(yīng)用高科技成果的教育教學(xué)裝置,這是目前發(fā)展特殊教育領(lǐng)域教學(xué)用具和教學(xué)方法改革的重要工作。在殘障人群中,聽力障礙人員占有很大的比重。據(jù)2006 年第二次全國殘疾人抽樣調(diào)查顯示,中國共有2780 萬聽力殘疾人,同時每年還有2 萬到3 萬新生兒患有先天嚴重聽力障礙疾病。聽障疾病使學(xué)生人際交往能力減弱,不利于相互間的溝通交流和學(xué)習(xí),極易引發(fā)其他的心理問題[1]。對其進行語言訓(xùn)練和人格培養(yǎng)對提高適應(yīng)社會的能力起著重要作用。因此將人工智能技術(shù)和傳統(tǒng)的聽力障礙人員語言訓(xùn)練方法相結(jié)合,設(shè)計出適合聽障學(xué)生的交互式教學(xué)設(shè)備是至關(guān)重要的。本設(shè)計采用交互式設(shè)計,從聽障學(xué)生的認知特點出發(fā),幫助聽障學(xué)生通過多維度的訓(xùn)練完成對語言的理解和構(gòu)建[2]。
1.1 工作原理。本裝置由視頻采集模塊、人工智能識別模塊、語音識別模塊、中央控制器、語音合成模塊、音鼓、頻譜燈等部分組成。視頻采集模塊選用USB攝像頭采集待識別物體或語音訓(xùn)練學(xué)習(xí)卡片的信息;人工智能識別模塊接收到圖像信息后檢測物體的類別和學(xué)習(xí)內(nèi)容等信息并傳輸給中央處理器;語音識別模塊負責(zé)采集聽障學(xué)生的語音輸入信息經(jīng)識別處理后傳輸給中央處理器;中央處理器對接收到的信息進行處理后發(fā)送命令給語音合成模塊;語音合成模塊接收中央處理器傳過來的信息控制喇叭發(fā)出模擬人的聲音;音鼓將音頻的振動效果放大并顯現(xiàn)出來;頻譜燈將聲音震動頻率信號轉(zhuǎn)化為LED燈顯示。如圖1 所示。
圖1 工作原理圖
1.2 工作流程。該教具是一種基于AI 技術(shù)的用于聽力障礙人員語言訓(xùn)練的輔助教具,教具具有體積小、攜帶方便,易于聽障學(xué)生操作,可大量生產(chǎn)制造等優(yōu)點。根據(jù)聽障學(xué)生的交互式教學(xué)的需要,本裝置設(shè)計成為基于人工智能的自主學(xué)習(xí)模式和單機鞏固訓(xùn)練模式兩種使用模式,如圖2 所示。
圖2
基于人工智能的自主學(xué)習(xí)模式,即通過視頻采集、人工智能圖像檢測等方法,自動識別實物或圖片,準確將學(xué)習(xí)內(nèi)容的正確發(fā)音通過音鼓與頻譜轉(zhuǎn)化成相應(yīng)聲音、振動和頻率顯示,完成從聽覺到觸覺與視覺的轉(zhuǎn)化,聽障學(xué)生在學(xué)習(xí)過程中反復(fù)用手感受音鼓振動和聲音變化的關(guān)系,通過視覺觀察頻譜燈光的變化,并不斷的進行模仿發(fā)音訓(xùn)練,從而幫助聽障學(xué)生形象的理解和學(xué)習(xí)如何正確發(fā)音。如圖2(a)所示。鞏固訓(xùn)練模式,該模式為教具脫離電腦人工智能軟件后的單機使用模式,聽障學(xué)生通過模仿自主學(xué)習(xí)模式下音鼓與頻譜在發(fā)聲時所產(chǎn)生的震動幅度與頻率,反復(fù)的進行發(fā)音訓(xùn)練,并通過指示牌判別發(fā)音是否標準,以此不斷的鞏固學(xué)習(xí)效果。如圖2(b)所示。
2.1 中央控制器選型及功能。本教具采用Arduino開發(fā)版作為中央控制器,因其開源、安全穩(wěn)定、程序編輯和下載方便等特點,近年來得到廣泛的應(yīng)用。設(shè)計中選用的型號是MEGA2560 R3 改進版,主控芯片為ATMEGA2560-16AU,USB轉(zhuǎn)串口芯片采用CH340G,實現(xiàn)快捷的程序裝載過程和語音訓(xùn)練數(shù)據(jù)的傳輸[3-4]。Arduino開發(fā)版可以實現(xiàn)多串口通信,有4 對硬件串口,并且具有用程序模擬硬串口實現(xiàn)通信的軟串口功能,相比較而言硬件串口比軟串口性能更加的可靠。
中央控制器的主要作用是采用通用串口UART(Universal Asynchronous Receiver/Transmitter) 連接電腦、語音識別模塊、語音合成模塊等硬件設(shè)備,由振晶控制頻率,實現(xiàn)高速數(shù)字信號傳輸及數(shù)據(jù)處理。各個模塊之間的連接關(guān)系如圖3 所示。
圖3 功能模塊連接圖
2.2 圖像檢測。
2.2.1 人工智能圖像檢測架構(gòu)的選擇。在人工智能圖像檢測領(lǐng)域,卷積神經(jīng)網(wǎng)絡(luò)CNN (Convolutional Neural Networks) 是目前最具代表性的深度學(xué)習(xí)架構(gòu),是一種模仿生物感知方式而進行機器學(xué)習(xí)的深度學(xué)習(xí)網(wǎng)絡(luò)結(jié)構(gòu)[5-6]。主要通過卷積、池化等操作得到圖片的特征值以實現(xiàn)識別功能。人工智能圖像檢測技術(shù)隨著卷積神經(jīng)網(wǎng)絡(luò)的應(yīng)用得到了飛速的發(fā)展,準確率也達到了可以實用的程度。卷積一般是指用正方形卷積核,遍歷圖像上的像素點,圖像與卷積核重合區(qū)域內(nèi),圖像的像素值與卷積核內(nèi)相對應(yīng)點的權(quán)重的乘積和,再加上偏置b,得到輸出圖像中的像素值。池化分為最大池化和平均池化,最大池化即取局部接受域中值最大的點,平均池化即取局部接受域中值的平均值。本設(shè)計采用YOLO-v4 人工智能識別算法。YOLO 技術(shù)由于采用了回歸的思想實現(xiàn)one-stage 檢測的算法,使得檢測速度和檢測小物品方面具有明顯的優(yōu)勢[7]。
2.2.2 人工智能圖像檢測環(huán)境的搭建。人工智能圖像檢測采用Anaconda 軟件環(huán)境,該軟件是一個開源的python發(fā)行版本,含有大量的開發(fā)資源,包括tensorflow,c,numpy等。環(huán)境搭建過程先安裝Anaconda,再通過Anaconda 安裝OpenCV等其他模塊[8]。OpenCV4.4 可以支持YOLOv4,這使得人工智能圖像檢測的應(yīng)用更加的方便,因此我們在Anaconda 軟件環(huán)境的命令窗口中用 pip install opencv-python==4.4-ihttps://pypi.tuna.tsinghua.edu.cn/simple安裝OpenCV4.4 模塊。如圖4 所示。
圖4 安裝OpenCV4.4 模塊
2.2.3 人工智能圖像檢測的實現(xiàn)。人工智能圖像檢測的實現(xiàn),首先需要拍攝大量待識別物體圖片,接下來標注物體標簽作為數(shù)據(jù)集,提供給深度學(xué)習(xí)模型,經(jīng)過諾干輪訓(xùn)練得到自己的權(quán)重文件,再通過識別程序調(diào)用權(quán)重文件以及攝像頭用來檢測物體,得到物體類別信息后,判斷是否為有效學(xué)習(xí)內(nèi)容,如果是則通過串口操作把學(xué)習(xí)內(nèi)容的字節(jié)數(shù)組發(fā)送給主控開發(fā)板Arduino。
人工智能圖像檢測程序應(yīng)用import 語句導(dǎo)入OpenCV4.4 庫,運行YOLOv4 模型的Python 程序模塊為:import cv2
人工智能圖像檢測程序運行后顯示的識別效果如圖5所示。
圖5 人工智能圖像檢測結(jié)果
2.3 語音輸入與識別。語音輸入與識別模塊選用LD3320 語音識別模塊,該模塊具有16 個io 口可接繼電器、LED燈、單片機端口等外部設(shè)備,采用異步串口(UART)通信方式,具有內(nèi)置咪頭和外置咪頭接口,單片機型號為STC11L32XE,提供一鍵下載功能,下載程序非常方便,廣泛應(yīng)用于家居智能控制,語音控制嵌入式產(chǎn)品等場景,實現(xiàn)語音交互的作用。
在本裝置中,該模塊的四個引腳(RX、TX、GND、5v)分別連接到Arduino開發(fā)版的14 引腳(TX3)、15 引腳(RX3)、5V引腳、GND引腳,內(nèi)置咪頭接收外部語音信息,并將信息進行分析和識別,識別成功后,通過串口將識別碼發(fā)送給中央處理器Arduino開發(fā)版,實現(xiàn)教具接收人的指令。
2.4 語音合成。語音合成技術(shù)是通過電子和機械等技術(shù)制造出需要的聲音。本裝置語音合成功能選用的是SYN6288 語音合成模塊,該模塊采用SYN6288 芯片,通過異步串口(UART)通信方式,接收待合成的文本數(shù)據(jù),應(yīng)用TTS(Text To Speech)技術(shù)把文字轉(zhuǎn)發(fā)成為播放自然語音的電信號,控制揚聲器發(fā)出人可以聽懂的、模仿人類標準發(fā)音的聲音。
在本裝置中該模塊的四個引腳(VCC、RXD、TXD、G)分別連接到Arduino開發(fā)版的5V 引腳、引腳2(軟串口1TX)、引腳3(軟串口1RX)、GND引腳,通過串口接收從中央處理器Arduino開發(fā)板傳輸過來的文字信息,轉(zhuǎn)換電信號驅(qū)動揚聲器發(fā)出需要的聲音。
2.5 音鼓與頻譜燈。音鼓與頻譜燈在本設(shè)計中作為聲音轉(zhuǎn)化輸出設(shè)備。音鼓的作用是把喇叭的震動幅度放大,聽力障礙學(xué)生將手放在音鼓上,可以感受到不同的發(fā)音產(chǎn)生不同的震動效果,從而熟悉聲音產(chǎn)生振動的原理,學(xué)習(xí)震動自己的聲帶進行發(fā)聲練習(xí)。頻譜燈的作用是把喇叭產(chǎn)生的聲音,轉(zhuǎn)化為頻譜燈的閃爍頻率,從而讓聽障學(xué)習(xí)者通過視覺熟悉聲音和頻譜的聯(lián)系從而練習(xí)發(fā)音。
本裝置中通過給喇叭外面增添擴大振幅的鐵皮鼓面,并采用帶有麥克風(fēng)的頻譜燈接收聲音并轉(zhuǎn)化為頻譜燈顯示,實現(xiàn)聽障學(xué)生用觸覺和視覺代替聽覺進行語言訓(xùn)練,強化對不同聲音的認知并進行發(fā)音練習(xí),從而學(xué)會正確的發(fā)音。該裝置的成品樣機圖如圖6 所示。
圖6 裝置樣機圖
3.1 基于人工智能的自主學(xué)習(xí)。第一,聽障學(xué)生運行電腦端的人工智能學(xué)習(xí)軟件;第二,軟件運行后將待學(xué)習(xí)的課程卡片或?qū)嶋H物品對準攝像頭,電腦會顯示捕捉到的物體視頻圖像,人工智能軟件開始對課程卡片或物品進行分析和識別;第三,人工智能學(xué)習(xí)軟件將識別結(jié)果傳輸給通過USB連接的本裝置,裝置反復(fù)讀出課程設(shè)置的學(xué)習(xí)內(nèi)容,聲音同時通過音鼓轉(zhuǎn)換成震動,頻譜燈接收到傳播過來的聲音通過led 燈的閃爍表現(xiàn)聲音的頻譜效果。
本裝置通過上述過程在識別學(xué)習(xí)主題發(fā)出語音的同時,將聲音轉(zhuǎn)換成震動和燈光的閃爍變化,聽障學(xué)生運用觸覺方式感受音鼓的震動頻率,運用視覺的方式觀察led 所顯示的頻譜閃爍變化,從而學(xué)習(xí)發(fā)音的原理和強弱,教師負責(zé)口型演示輔助。從而充分調(diào)動學(xué)生的觸覺、視覺感官,幫助聽力障礙學(xué)生進行語言學(xué)習(xí)。
3.2 訓(xùn)練鞏固。該教具的訓(xùn)練鞏固工作模式,在脫離電腦人工智能學(xué)習(xí)軟件的情況下可以單獨使用。第一,聽障學(xué)生對準本裝置麥克風(fēng)說出喚醒詞“大寶”,這個喚醒詞需要在本裝置中反復(fù)使用,學(xué)生需要最先開始學(xué)習(xí),并逐漸熟練并標準的說出,發(fā)音正確后裝置上的紅色指示燈閃爍,訓(xùn)練模式開始;第二,學(xué)生按照學(xué)習(xí)卡片內(nèi)容,模仿學(xué)習(xí)模式下學(xué)習(xí)到的發(fā)音辦法反復(fù)發(fā)出聲音;第三,發(fā)音時感受聲音產(chǎn)生音鼓的振動,并觀察聲音轉(zhuǎn)化的頻譜燈的閃爍,確定每個環(huán)節(jié)聲帶的發(fā)力大小;第四,如果學(xué)生發(fā)音正確,可被教具識別并由教具重復(fù)發(fā)出正確的聲音加深學(xué)習(xí)者的印象,同時表示發(fā)音正確的指示牌彈出。
教具本身具有模糊識別功能,使用初期可以設(shè)置模糊程度,循序漸進幫助聽障學(xué)生糾正發(fā)音問題培養(yǎng)信心。
本設(shè)計采用人工智能識別、語音識別、語音合成、音鼓、頻譜等技術(shù),從多維度幫助聽力障礙的學(xué)生感受聲音,學(xué)習(xí)發(fā)出正確語音的原理和技巧。幫助聽障學(xué)生通過不斷重復(fù)某一事物的發(fā)音,強化理解聲音與振動、頻譜形狀之間的聯(lián)系,通過豐富視覺形象及觸覺將聲音具體化。在特殊教育學(xué)校,可以通過本產(chǎn)品讓學(xué)生通過多感官彌補聽力障礙帶來的語音訓(xùn)練難題,從而降低教學(xué)難度提高學(xué)習(xí)效率。尤其是對于那些先天性失聰?shù)膶W(xué)生,在早期啟蒙教育、認知上會有很大的幫助。