摘要:作為人工智能領(lǐng)域中研究、使用最廣泛的技術(shù)之一,智能語音識別技術(shù)已經(jīng)服務(wù)于科研、制造、醫(yī)療、教育等行業(yè)。為實現(xiàn)教育信息的無障礙溝通,語音識別轉(zhuǎn)寫技術(shù)在特殊教育領(lǐng)域,特別是在聽力殘疾學(xué)生(又稱聽障學(xué)生、聾生)的課堂教學(xué)上得到應(yīng)用。文章通過探究語音識別轉(zhuǎn)寫技術(shù)在某省特殊教育職業(yè)院校聽力殘疾學(xué)生課堂教學(xué)中的實際應(yīng)用情況·發(fā)現(xiàn)語音識別轉(zhuǎn)寫技術(shù)在聽力殘疾學(xué)生課堂教學(xué)上的優(yōu)勢與不足,對語音識別轉(zhuǎn)寫技術(shù)在特殊教育領(lǐng)域的發(fā)展進行展望,以期促進人工智能與特殊教育事業(yè)更深層次的融合與發(fā)展。
關(guān)鍵詞:智能語音特寫;語音識別;聽力殘疾;特殊教育;聾生
中圖法分類號:TN912 文獻標識碼:A
1 概述
1.1 智能語音識別技術(shù)
智能語音識別技術(shù)是人工智能領(lǐng)域中應(yīng)用較廣泛的一門技術(shù),包含語音合成、語音識別、口語測評、語義理解、自然語言理解[1~2] 、機器翻譯等語音識別技術(shù),其將收集的語音轉(zhuǎn)換成文字進行表達。
1.2 國內(nèi)語音識別技術(shù)的發(fā)展
我國語音識別技術(shù)的發(fā)展起步較晚,“國家高技術(shù)研究發(fā)展計劃”(863 計劃)和“國家重點基礎(chǔ)研究發(fā)展計劃”(973 計劃)實施后,中科院聲學(xué)所等研究所、國內(nèi)頂尖高校及研究團隊紛紛投入到語音識別技術(shù)的研究中。2015 年,清華大學(xué)建立了第一個開源的中文語音數(shù)據(jù)庫。2016 年,上海交通大學(xué)相繼提出了VCDNN(Very Deep Convolutional Neural Networks) 和VDCRN(very Deep Convolutional Residual Networks),在提高噪聲語音識別性能上做出貢獻。百度、科大訊飛、阿里巴巴等公司在語音識別的核心技術(shù)研發(fā)上持續(xù)投入了大量精力,并將研究成果快速落地[3] 。
目前,國內(nèi)主流的語音識別技術(shù)主要依靠大詞匯量連續(xù)收集語言數(shù)據(jù),并基于深度神經(jīng)網(wǎng)絡(luò)進行模型構(gòu)建和訓(xùn)練。我國正處在大力發(fā)展信息技術(shù)的熱潮中,經(jīng)過幾十年的研究,如今,中文語音識別技術(shù)迅猛發(fā)展,已達到國際領(lǐng)先水平,基于智能語音識別技術(shù)的語音識別轉(zhuǎn)寫系統(tǒng)被廣泛應(yīng)用在制造、教育、醫(yī)療、辦公等領(lǐng)域,因其具備實時將語言有序、準確、完整地識別轉(zhuǎn)換成文字,并將其記錄保存的強大功能,受到智能會議領(lǐng)域的青睞,對于打造“信息無障礙”的交流環(huán)境發(fā)揮了重要作用。
2 智能語音識別轉(zhuǎn)寫技術(shù)在聽力殘疾學(xué)生課堂教學(xué)中的應(yīng)用與實踐
2.1 傳統(tǒng)課堂教學(xué)現(xiàn)狀
因先天或后天因素影響,聽力殘疾學(xué)生的聽力功能低于健全學(xué)生。聽力殘疾學(xué)生難以直接用有聲的聽覺語言符號進行交流溝通、傳遞信號、表達思想,取而代之的是各種視覺語言符號(如手語、文字、圖像等)。
手語是聽力障礙者使用的特殊語言,是聽力殘疾學(xué)生交流、學(xué)習、溝通的重要手段,也是聽力殘疾學(xué)生教育(包括聾校教育、特殊教育學(xué)校聾教育等)教師使用的主要教學(xué)語言之一。任課教師通過手語翻譯、黑板板書和多媒體圖像、教具展示等方式進行課堂教學(xué),在課堂教學(xué)中難免遇到各類問題。
2.2 課堂教學(xué)中存在的問題
(1)特殊教育學(xué)校聽力殘疾學(xué)生的課堂大都以教師手語演示配合口型開展課堂教學(xué),同時輔以多媒體技術(shù)和課程相關(guān)教具。為做好課堂教學(xué)工作,教師需將原本口語表達的知識翻譯成手語再進行教學(xué),備課和授課壓力巨大。
(2)由于各地手語習慣的不同,很多聽力殘疾學(xué)生并不能理解教師官方手語的含義,在手語交流學(xué)習中會因相互間不同的手語習慣增加了課堂教學(xué)交流難度,容易產(chǎn)生誤解。
(3)學(xué)生課堂學(xué)習質(zhì)量受教師手語能力影響明顯,手語能力好的教師在授課時更加游刃有余,手語通俗易懂,學(xué)生聽課質(zhì)量較高;相反,手語水平相對較弱的教師受手語能力限制,在講解時容易出現(xiàn)手語不熟、不會,表達錯誤等情況,很難發(fā)揮出原本的授課水平,加大了學(xué)生理解消化課堂知識的難度。
3 語音識別轉(zhuǎn)寫技術(shù)在聽力殘疾學(xué)生課堂教育中的應(yīng)用實踐
案例介紹:本研究以某省特殊教育高職院校2020年采購的智能語音轉(zhuǎn)寫系統(tǒng)為起點,通過調(diào)研2 年間該校智能語音轉(zhuǎn)寫系統(tǒng)在聽力殘疾學(xué)生課堂上的應(yīng)用情況,探討智能語音識別技術(shù)在特殊教育領(lǐng)域的優(yōu)勢與不足。
研究對象:該校2019 級計算機專業(yè)某聽力殘疾學(xué)生班級全體學(xué)生和任課教師。
研究時間:2020 年9 月~2022 年6 月。
研究方式:觀察法、問卷調(diào)查法、訪談法。
學(xué)情分析:如表1 所列。
研究內(nèi)容:研究該班級在不同課程的課堂教學(xué)上應(yīng)用語音轉(zhuǎn)寫系統(tǒng)的效果。具體如表2 所列。
研究結(jié)果:通過在研究對象的課堂中引入智能語音識別技術(shù),采用觀察法、問卷調(diào)查法、談話法等,得到以下調(diào)查結(jié)果。
在將智能語音轉(zhuǎn)寫軟件投入課堂使用后,對研究對象進行問卷調(diào)查,現(xiàn)摘抄相關(guān)問卷題目如下,相關(guān)調(diào)查情況如圖1~圖9 所示。
題目1:“你希望使用實時語音轉(zhuǎn)文字識別軟件嗎?”[單選題]
題目2:“你在平時學(xué)習中是否用過“語音轉(zhuǎn)文字工具”,如訊飛、音書等?”[單選題]
題目3:“你覺得在平時的課程教學(xué)中用哪種形式學(xué)習效果較好?”[單選題]
題目4:“你認為在課堂上,教師使用實時語音轉(zhuǎn)文字的益處有哪些?”[多選題]
題目5:“你覺得采用‘語音轉(zhuǎn)文字工具結(jié)合手語教學(xué)與傳統(tǒng)的手語教學(xué)相比有哪些好處?”[多選題]
題目6:“你認為在課堂上,教師使用實時語音轉(zhuǎn)文字上課時存在哪些問題?”[多選題]
題目7:“請問是什么原因?qū)е履銦o法/ 降低使用實時語音轉(zhuǎn)文字軟件?”[多選題]
題目8:“你覺得使用‘語音轉(zhuǎn)文字工具對你們學(xué)習交流有幫助嗎?”[單選題]
題目9:“你最希望語音轉(zhuǎn)文字識別軟件做出什么改進? 請?zhí)岢鼋ㄗh?!保鄱噙x題]
通過與任課教師進行談話交流,針對“你最希望語音轉(zhuǎn)文字識別軟件做出什么改進?”及“你還期望該語音轉(zhuǎn)寫系統(tǒng)擁有哪些輔助功能?”等問題,任課教師提出了軟件的使用應(yīng)與課堂教學(xué)進一步融合等意見和建議。
通過將智能語音轉(zhuǎn)寫技術(shù)應(yīng)用到聽障學(xué)生課堂上的真實體驗,加上各種調(diào)查方式輔助研究,得出了以下研究結(jié)論。
研究結(jié)論:智能語音轉(zhuǎn)寫技術(shù)在聽障學(xué)生課堂上的應(yīng)用實現(xiàn)了聽障學(xué)生課堂教學(xué)的“語音可視化”,對于構(gòu)建“信息無障礙”課堂有很大幫助。但智能語音技術(shù)的課堂應(yīng)用還受網(wǎng)絡(luò)、口音、操作等諸多因素的影響,在技術(shù)上仍有可改進和進步的空間。
結(jié)論一:語音識別轉(zhuǎn)寫技術(shù)實現(xiàn)了對手語的補償性作用。語音識別轉(zhuǎn)寫技術(shù)可以將一些難以用手語翻譯的專業(yè)術(shù)語、學(xué)術(shù)語言等,實時轉(zhuǎn)譯成文字呈現(xiàn)在課堂上,彌補手語翻譯的不足,幫助聽力殘疾學(xué)生進行理解;也可以幫助手語不熟練的新入職教師快速適應(yīng)教師角色,在課堂教學(xué)中,可借助語音識別轉(zhuǎn)寫技術(shù)的字幕講解,解決手語不熟練的問題,破除師生間的交流障礙,提高學(xué)生課堂學(xué)習質(zhì)量。
結(jié)論二:聽障學(xué)生在軟件學(xué)習類課程上對于語音轉(zhuǎn)寫技術(shù)的需求更高。例如, 在學(xué)習如何使用Photoshop,InDesign 等軟件課程時,授課教師通常需要邊演示軟件使用教程邊講解知識點,既要用手操作軟件,又要用手進行手語講解,在這類課堂教學(xué)上,教師容易“手忙腳亂”或“手足無措”。智能語音轉(zhuǎn)寫系統(tǒng)的應(yīng)用,可以將教師講解的知識點像字幕一樣實時、有序、準確地展示出來,一方面解決了教師一邊操作計算機一邊手語演示的難題,另一方面也極大提高了課堂的教學(xué)質(zhì)量。
不過,智能語音轉(zhuǎn)寫技術(shù)并不是在所有的課堂上都大受歡迎。例如,在語文、思政等以理解為主的文化類課上,考慮到聽障學(xué)生先天在文字理解上的弱勢,為了讓聽力殘疾學(xué)生明白知識要點,首先會使用手口結(jié)合的手語并配合多媒體視圖等圖文并茂地進行講解,在遇到極少數(shù)手語不太好講解的地方可采用語音轉(zhuǎn)寫系統(tǒng)輔助理解,在此類課程中,智能語音轉(zhuǎn)寫技術(shù)主要起到輔助教學(xué)的作用。
結(jié)論三:智能語音轉(zhuǎn)寫技術(shù)在聽障學(xué)生課堂教學(xué)應(yīng)用中仍存在較大的改進空間。
語音識別轉(zhuǎn)寫系統(tǒng)的操作應(yīng)更簡單易上手。
(1)案例中的語音識別轉(zhuǎn)寫系統(tǒng)由系統(tǒng)客戶端和展板客戶端2 部分組成,需要多客戶端協(xié)同操作,操作步驟較為復(fù)雜,信息技術(shù)水平較低的人在使用時存在一定難度。
(2)案例中的語音識別轉(zhuǎn)寫系統(tǒng)在功能上更傾向于智能會議的記錄、實時字幕、編輯等,商用價值高,在聽障學(xué)生的課堂教學(xué)上,服務(wù)特殊教育、彌補特殊教育智能課堂的屬性不足。另外,轉(zhuǎn)寫展示的文字缺少實時交互的功能,教師不能在課堂上對實時轉(zhuǎn)寫后的文字進行即時編輯(標注、勾畫等),尤其是當出現(xiàn)轉(zhuǎn)寫錯誤時,任課教師也不能第一時間進行書寫修正,容易出現(xiàn)理解錯誤。
(3)受環(huán)境噪聲、回聲干擾、發(fā)音習慣和口音、網(wǎng)絡(luò)速度、語音內(nèi)容專業(yè)性強等因素影響,在實際使用中,語音實時識別轉(zhuǎn)寫的準確率并沒有達到90%以上,轉(zhuǎn)寫準確率較低,影響聽力殘疾學(xué)生對于知識點的理解。
4 展望
4.1 打造個性化智能語音轉(zhuǎn)寫系統(tǒng)
受聽力功能障礙影響,聽力殘疾學(xué)生無法直接通過聲音與外界進行信息交流,取而代之的是視覺捕獲。即無論手語、文字還是視頻圖像,聽力殘疾學(xué)生都需要用眼睛來捕獲信息,傳遞給大腦進行分析理解,進而形成反饋。
過度的用眼需求容易使聽力殘疾學(xué)生在視覺捕獲時出現(xiàn)用眼疲勞,而語音識別轉(zhuǎn)寫技術(shù)是將語音轉(zhuǎn)換成文字展示。在課堂學(xué)習時,學(xué)生既要看任課教師的手語演示,又要閱讀屏幕上的文字,大幅增加了聽力殘疾學(xué)生用眼睛去觀察和閱讀的難度。
研究發(fā)現(xiàn),很多聽力殘疾學(xué)生本身對閱讀“缺乏內(nèi)心的渴望和興趣”,閱讀興趣并不濃厚,即使有一定的興趣,但受閱讀能力和理解能力的限制,聽力殘疾學(xué)生也不一定能完全理解文字的含義。因此,在語音快速的轉(zhuǎn)寫過程中,聽力殘疾學(xué)生既要關(guān)注授課教師的手語演示,又要理解、消化屏幕上轉(zhuǎn)寫的文字含義,無形中加大了聽力殘疾學(xué)生學(xué)習的難度。部分學(xué)生會因為視線上的無法兼顧且文字內(nèi)容晦澀難懂而產(chǎn)生厭煩情緒,影響課堂學(xué)習。
4.2 智能語音轉(zhuǎn)寫技術(shù)與課堂高效融合
由于市面上大多數(shù)具有語音識別轉(zhuǎn)寫技術(shù)的系統(tǒng)應(yīng)用都是為各種論壇、展覽、會議服務(wù)的,在功能上更傾向于對會議、論壇演講發(fā)言的全程語音記錄與實時轉(zhuǎn)寫。其既能保證會議記錄的完整性,打破會議記錄只能依靠人工速記的局限,又能以短延遲、高準確率地實時轉(zhuǎn)寫上屏分享發(fā)言內(nèi)容,方便參會人員聽看結(jié)合,全面了解會議內(nèi)容。此系統(tǒng)針對會議資料,具有收集、整理和后期編輯功能,適合中小型會議的記錄與資料整理。因此,在實用功能上更多體現(xiàn)的是其商用和辦公價值。
在聽力殘疾學(xué)生課堂上應(yīng)用語音識別轉(zhuǎn)寫技術(shù),可以提升聽力殘疾學(xué)生在課堂上接收知識的廣度,了解教師口語表述但未手語翻譯的內(nèi)容,尤其給手語基礎(chǔ)較弱的年輕教師帶來了便利。但在應(yīng)用過程中也暴露出一些問題。例如,針對上文中提到的操作不方便、缺少實時互動、轉(zhuǎn)寫準確率等實際問題,提出以下改進建議。
(1)提升語音轉(zhuǎn)寫技術(shù)在展示時的靈活性,使講述人可根據(jù)講述內(nèi)容隨時決定中止、暫停、繼續(xù)語音轉(zhuǎn)寫展示。在授課時,任課教師以手語講授為主,在遇到不方便手語翻譯或手語授課困難時,靈活切換語音轉(zhuǎn)寫展示教學(xué), 使任課教師可以更好地將手語與語音轉(zhuǎn)寫技術(shù)結(jié)合,既不過分弱化手語功能,又可以提高課堂學(xué)習質(zhì)量。
(2)改進語音轉(zhuǎn)寫系統(tǒng)展示端窗口界面樣式,考慮更利于教育教學(xué)、人性化的窗口界面,增加標記、畫筆等交互功能,提升展示端產(chǎn)品在課堂交互上的使用感。
( 3)提高聲紋識別的準確性,通過區(qū)分不同聲紋來篩選語音轉(zhuǎn)寫對象,屏蔽雜音,提高轉(zhuǎn)寫準確率。
語音識別轉(zhuǎn)寫技術(shù)的發(fā)展和應(yīng)用,不僅存在巨大的發(fā)展?jié)摿Γ卺槍β犝蠈W(xué)生課堂的特殊教育領(lǐng)域的應(yīng)用和實踐上也存在可探討和改進的空間,這需要科研人員和教育工作者的共同努力。
參考文獻:
[1] 秦鳳枝.解讀人工智能語音轉(zhuǎn)寫技術(shù)在會議中的應(yīng)用[J].電子世界,2020(22):190?191.
[2] 馬晗,唐柔冰,張義,等.語音識別研究綜述[J].計算機系統(tǒng)應(yīng)用,2022,31(1):1?10.
[3] 柳雯雯.特殊教育高職院校聾生閱讀能力的培養(yǎng)[J].現(xiàn)代職業(yè)教育,2019(20):272?273.
作者簡介:王蕭慧(1988—),碩士,工程師,研究方向:計算機教育應(yīng)用以及信息化設(shè)備、多媒體設(shè)備的運維和管理。