潘夢(mèng)鷂,呂小勇,陳少偉,郇銳鐵,王鋒
(廣東工貿(mào)職業(yè)技術(shù)學(xué)院汽車工程學(xué)院,廣東廣州 510510)
近年來(lái),人工智能技術(shù)取得了飛速發(fā)展,智能語(yǔ)音技術(shù)為教育教學(xué)的發(fā)展提供了強(qiáng)有力的支撐。2017年,國(guó)務(wù)院辦公廳印發(fā)《新一代人工智能發(fā)展規(guī)劃》,指出人工智能的發(fā)展將會(huì)給人類社會(huì)和世界帶來(lái)深刻改變,語(yǔ)音識(shí)別技術(shù)初步具備跨越發(fā)展的能力。2017年,工業(yè)和信息化部印發(fā)《促進(jìn)新一代人工智能產(chǎn)業(yè)發(fā)展三年行動(dòng)計(jì)劃(2018-2020年)》,指出基于創(chuàng)新應(yīng)用的語(yǔ)音識(shí)別、智能對(duì)話、語(yǔ)音合成、音視頻融合將得到大力支持。
在新冠肺炎疫情防控期間,各大高校的線上教學(xué)得到了突飛猛進(jìn)的發(fā)展,大部分線上課程建設(shè)采用語(yǔ)音錄播方式,建設(shè)效率低、語(yǔ)音準(zhǔn)確性低、錄播時(shí)間長(zhǎng)、錄播受情緒和環(huán)境影響,導(dǎo)致線上課程建設(shè)質(zhì)量不高[1]。人的語(yǔ)音包括音色、音高、音強(qiáng)以及音長(zhǎng)四要素。音色是指聽(tīng)覺(jué)感覺(jué)到的聲音的特色,由聲音頻譜決定;音高是指音的高度,即各種音調(diào)高低不同的聲音,由機(jī)械波的頻率和波長(zhǎng)決定;音強(qiáng)是指聲音的大小,由聲波振幅大小決定;音長(zhǎng)是指聲音的長(zhǎng)短,由發(fā)音體振動(dòng)時(shí)間決定。語(yǔ)音四要素由不同語(yǔ)音特征參數(shù)共同決定,語(yǔ)音四要素又決定語(yǔ)音特性,導(dǎo)致人們聽(tīng)到不同(個(gè)性化)語(yǔ)音;說(shuō)話人語(yǔ)音特征參數(shù)包括聲學(xué)特征、韻律特征和語(yǔ)言特征。說(shuō)話人語(yǔ)音特征參數(shù)包括聲學(xué)特征、韻律特征和語(yǔ)言特征。聲學(xué)特征是指說(shuō)話人語(yǔ)音的音色,包括基頻頻率、共振峰位置、共振峰帶寬、共振峰強(qiáng)度、頻譜傾斜等;韻律特征是指說(shuō)話的方式,包括音素的時(shí)間長(zhǎng)短、音調(diào)和重音等(說(shuō)話速率、音調(diào)和音量的變化);語(yǔ)言特征包括選詞、方言和口音。AI 智能語(yǔ)音技術(shù)包括語(yǔ)音識(shí)別、語(yǔ)音合成、語(yǔ)音轉(zhuǎn)換、語(yǔ)音編碼等語(yǔ)音技術(shù),是語(yǔ)音學(xué)與數(shù)字信號(hào)處理技術(shù)相結(jié)合的交叉學(xué)科,涉及語(yǔ)言學(xué)、信息學(xué)、腦神經(jīng)科學(xué)、計(jì)算機(jī)學(xué)、心理學(xué)等多門學(xué)科。語(yǔ)音識(shí)別是電腦系統(tǒng)通過(guò)語(yǔ)音信號(hào)處理和模式識(shí)別自動(dòng)識(shí)別和理解人類口述語(yǔ)言;語(yǔ)音合成是將輸入的文本類型的信號(hào)序列經(jīng)過(guò)適當(dāng)?shù)捻嵚商幚砗?,通過(guò)特定的合成器,產(chǎn)生出高自然度、高音質(zhì)、表現(xiàn)力豐富的語(yǔ)音輸出,使計(jì)算機(jī)系統(tǒng)產(chǎn)生“人”一樣自然流利的聲音技術(shù)。個(gè)性化語(yǔ)音合成技術(shù)是對(duì)不同人的語(yǔ)音特征參數(shù)進(jìn)行分析,提取說(shuō)話人語(yǔ)音特征參數(shù),用于語(yǔ)音合成系統(tǒng)進(jìn)行個(gè)性化語(yǔ)音合成。語(yǔ)音克隆技術(shù)是指使用和訓(xùn)練一個(gè)新模型來(lái)完成對(duì)新發(fā)音人聲音的克隆。語(yǔ)音克隆技術(shù)難點(diǎn)包括自然度、克隆語(yǔ)音與新發(fā)音人聲音相似度;語(yǔ)音轉(zhuǎn)換是指對(duì)一個(gè)說(shuō)話人(源說(shuō)話人)的語(yǔ)音中所包含的某些個(gè)性特征信息參數(shù)進(jìn)行轉(zhuǎn)換,使轉(zhuǎn)換后的語(yǔ)音在語(yǔ)音語(yǔ)義信息不變的前提下具有另外一個(gè)說(shuō)話人(目標(biāo)說(shuō)話人)的語(yǔ)音個(gè)性特征信息。語(yǔ)音合成質(zhì)量判斷標(biāo)準(zhǔn):一是清晰度,是指語(yǔ)音內(nèi)容清晰易懂程度;二是自然度,表示產(chǎn)生聲音與人類語(yǔ)言相似程度。AI 人工智能教學(xué)即將機(jī)器人與人工智能、虛擬現(xiàn)實(shí)、多媒體等技術(shù)相結(jié)合,由機(jī)器人組織、實(shí)施與管理教學(xué),優(yōu)化教學(xué)結(jié)構(gòu)、改進(jìn)教學(xué)策略[2-3]。
AI 智能語(yǔ)音技術(shù)是人工智能技術(shù)的基礎(chǔ)之一,未來(lái)AI 智能語(yǔ)音技術(shù)在研究上朝著語(yǔ)音識(shí)別、語(yǔ)音合成、語(yǔ)音交互技術(shù)方向發(fā)展,在應(yīng)用上朝著智能家居、汽車、教育、醫(yī)療、安防和機(jī)器人等行業(yè)發(fā)展,其中,智能教育又是重中之重,AI 智能語(yǔ)音技術(shù)在教育教學(xué)中的應(yīng)用重點(diǎn)是線上教學(xué)及語(yǔ)音交互輔助教學(xué);AI 智能語(yǔ)音技術(shù)在線上教學(xué)的應(yīng)用將大大提高教師線上課程建設(shè)效率、降低建設(shè)成本,提高線上課程的個(gè)性化建設(shè)和課程建設(shè)質(zhì)量,全面提升高校教師線上教學(xué)能力,同時(shí),利用5G 移動(dòng)通信技術(shù)、云端大數(shù)據(jù)技術(shù)進(jìn)行5G+AI 人工智能教學(xué),在提升高校教師教學(xué)的標(biāo)準(zhǔn)化教學(xué)水平、解放師資力量等方面發(fā)揮重要的作用。5G+AI 人工智能教學(xué)將為教育教學(xué)帶來(lái)顛覆性變革,對(duì)教育教學(xué)的影響十分深遠(yuǎn),具有廣闊的市場(chǎng)應(yīng)用前景[4-6]。
AI 智能語(yǔ)音技術(shù)、5G 技術(shù)在線上教學(xué)的應(yīng)用研究關(guān)系到高校廣大教師教學(xué)能力的提高及教學(xué)方式的變革。國(guó)內(nèi)外對(duì)智能語(yǔ)音技術(shù)的研究主要是圍繞語(yǔ)音識(shí)別、語(yǔ)音合成、語(yǔ)音轉(zhuǎn)換、語(yǔ)音交互4 個(gè)方向開(kāi)展,語(yǔ)音識(shí)別技術(shù)發(fā)展的時(shí)間長(zhǎng),已成為一項(xiàng)成熟、性能穩(wěn)定的技術(shù)。對(duì)智能語(yǔ)音技術(shù)的研究現(xiàn)狀分析,可以得到以下幾個(gè)結(jié)論:(1)智能語(yǔ)音技術(shù)是提升高校教師線上教學(xué)能力的有效措施;(2)目前較少針對(duì)智能語(yǔ)音技術(shù)在個(gè)性化線上課程中的應(yīng)用現(xiàn)狀進(jìn)行研究,教師線上課程的清晰度、自然度不夠。
針對(duì)目前智能語(yǔ)音技術(shù)在教育教學(xué)行業(yè)應(yīng)用研究現(xiàn)狀所存在的問(wèn)題,結(jié)合智能語(yǔ)音技術(shù)個(gè)性化、交互化等特點(diǎn),本文提出基于AI 智能語(yǔ)音技術(shù)的線上教學(xué)創(chuàng)新與實(shí)踐,研究應(yīng)用智能語(yǔ)音技術(shù)提升教師個(gè)性化線上教學(xué)能力及使用語(yǔ)音交互進(jìn)行輔助教學(xué),提高教師線上課程建設(shè)效率效果、降低建設(shè)成本,提高線上課程的個(gè)性化建設(shè)和課程建設(shè)質(zhì)量,全面提升高校教師線上教學(xué)能力,促進(jìn)5G+AI 人工智能教學(xué)在提升高校教師的標(biāo)準(zhǔn)化教學(xué)水平、解放師資力量等方面發(fā)揮重要作用,為教育教學(xué)帶來(lái)顛覆性變革。
通過(guò)語(yǔ)音克隆技術(shù)克隆教師聲音的教學(xué)主播進(jìn)行個(gè)性化語(yǔ)音合成,可實(shí)現(xiàn)高自然度、高音質(zhì)、表現(xiàn)力豐富的課件語(yǔ)音輸出,通過(guò)語(yǔ)音轉(zhuǎn)換,將課件源說(shuō)話教師的個(gè)性特征語(yǔ)音課件轉(zhuǎn)換為目標(biāo)說(shuō)話教師個(gè)性特征語(yǔ)音課件,通過(guò)人機(jī)語(yǔ)音交互、5G 移動(dòng)通信技術(shù)實(shí)現(xiàn)輔助教學(xué)[7],為實(shí)現(xiàn)AI 人工智能教學(xué)提供方法和路徑。
總體研究,制訂出項(xiàng)目開(kāi)發(fā)計(jì)劃和需求分析,將系統(tǒng)功能劃分成兩個(gè)關(guān)鍵技術(shù)模塊,確定各模塊任務(wù)、分析模塊間關(guān)系,實(shí)現(xiàn)目標(biāo)分解,以便項(xiàng)目組更好地、協(xié)調(diào)地開(kāi)展工作。
(1)建設(shè)教學(xué)主播語(yǔ)音合成系統(tǒng)。
通過(guò)語(yǔ)音克隆技術(shù)克隆教師的教學(xué)主播,將課件文本經(jīng)過(guò)適當(dāng)韻律處理,實(shí)現(xiàn)高自然度、高相似度、表現(xiàn)力豐富的課件語(yǔ)音輸出,使教學(xué)主播像“教師本人”一樣產(chǎn)生自然流利的語(yǔ)音課件。課件語(yǔ)音合成系統(tǒng)包括前端處理、韻律處理、合成單元[8-11]。
(2)建設(shè)課件語(yǔ)音轉(zhuǎn)換系統(tǒng)。
將課件源說(shuō)話教師的個(gè)性特征語(yǔ)音課件轉(zhuǎn)換為目標(biāo)說(shuō)話教師個(gè)性特征語(yǔ)音課件,同時(shí)保持課件語(yǔ)義信息不變,保持教師的情感態(tài)度和自身聲音特色,提高教師線上課程的真實(shí)度、自然度,營(yíng)造身臨其境的教學(xué)聲音氛圍。系統(tǒng)包括語(yǔ)音庫(kù)、語(yǔ)音模型和參數(shù)、轉(zhuǎn)換函數(shù)[12-14]。
AI 智能語(yǔ)音技術(shù)線上教學(xué)系統(tǒng)由語(yǔ)音合成系統(tǒng)、語(yǔ)音轉(zhuǎn)換系統(tǒng)兩個(gè)部分組成。
2.1.1 準(zhǔn)備AI 教學(xué)主播工作室配置AI 教學(xué)主播系統(tǒng),可以進(jìn)行教師樣音克隆、語(yǔ)音合成、語(yǔ)音轉(zhuǎn)換等工作。
2.1.2 克隆教師基準(zhǔn)樣音
教師在AI 教學(xué)主播工作室使用聲音克隆系統(tǒng)克隆教師基準(zhǔn)樣音。教師朗讀聲音訓(xùn)練文聲音后,系統(tǒng)錄制原始樣音,原始樣音不清晰可重新錄制,直至清晰無(wú)雜音。
2.1.3 教學(xué)主播音庫(kù)管理
教師原始樣音經(jīng)系統(tǒng)音頻處理,形成教師的基準(zhǔn)樣音,稱為教學(xué)主播播音人,添加到教學(xué)主播音庫(kù)管理系統(tǒng),供后期課件語(yǔ)音合成、轉(zhuǎn)換調(diào)用。
2.1.4 線上教學(xué)課件音頻合成
(1)課件文本處理。以《智能網(wǎng)聯(lián)汽車技術(shù)概論》課程為例,課程內(nèi)容共分為11 講。
將《智能網(wǎng)聯(lián)汽車技術(shù)概論》課件PPT 內(nèi)容、教師講解內(nèi)容,采用復(fù)制、粘貼、圖形轉(zhuǎn)文字等方式做前期處理,形成Word 文字。文字一般從左至右,圖片、表格內(nèi)容按照學(xué)習(xí)者的學(xué)習(xí)順序。用標(biāo)點(diǎn)符號(hào)“,”“?!北硎疽纛l停頓時(shí)長(zhǎng),設(shè)置為不停頓、0.1 秒、0.2 秒、0.3 秒、0.4 秒、0.5 秒,《智能網(wǎng)聯(lián)汽車技術(shù)概論》課程文字處理設(shè)置停頓時(shí)長(zhǎng)為0.3 秒。
(2)課件教學(xué)音頻合成。一是在AI 教學(xué)主播系統(tǒng)調(diào)用系統(tǒng)樣音庫(kù)中的教學(xué)主播播音人;二是選擇合適的播音人的播報(bào)語(yǔ)速、合成音調(diào)和合成音量參數(shù);三是選擇目標(biāo)文字,復(fù)制到教學(xué)主播系統(tǒng)進(jìn)行系統(tǒng)合成和儲(chǔ)存,形成教學(xué)主播播音人的授課課件音頻文件。
(3)帶背景音樂(lè)課件教學(xué)音頻合成。為使課件教學(xué)音頻文件更加生動(dòng)、美化,把課件教學(xué)音頻文件添加背景音樂(lè),生成帶有背景音樂(lè)的音頻:一是添加選用的背景音樂(lè);二是選擇合適的人聲音量、背景音量參數(shù);三是進(jìn)行帶背景音樂(lè)的課件教學(xué)音頻合成和儲(chǔ)存。
2.1.5 線上教學(xué)課件視頻合成
線上教學(xué)課件視頻合成一般采用錄屏方式,錄屏方式簡(jiǎn)單易行,速度快,但錄屏?xí)r電腦系統(tǒng)運(yùn)行聲音對(duì)克隆音效會(huì)產(chǎn)生影響,如產(chǎn)生聲音失真等現(xiàn)象。因此,錄屏軟件對(duì)電腦配置要求較高,以降低和消除系統(tǒng)運(yùn)行對(duì)音效的影響。
在線上教學(xué)課件視頻合成時(shí)候,先打開(kāi)課件PPT,同時(shí)播放課件音頻文件,然后根據(jù)課件播放動(dòng)作需要,選擇不同的錄屏制作軟件合成和儲(chǔ)存教學(xué)課件視頻。根據(jù)制作需求選擇錄屏制作軟件。
2.2.1 實(shí)踐結(jié)果
采用AI 教學(xué)主播課程建設(shè)《智能網(wǎng)聯(lián)汽車技術(shù)概論》課程,共46 段,合計(jì)139 469 個(gè)字符。
2.2.2 實(shí)踐分析
(1)傳統(tǒng)錄播方法建設(shè)課程。
教師準(zhǔn)備好所有的知識(shí)點(diǎn)材料,處理好前期文字,教師朗讀錄音速度為每秒2.5 字符,則教師朗讀時(shí)間為626 分鐘,假設(shè)教師因口誤返工重讀率為50%,則教師朗讀總時(shí)間為626×(1+50%)=939 分鐘,這是假設(shè)教師在錄播過(guò)程中不間斷、不休息、不耽擱情況下的計(jì)算時(shí)間。
(2)AI 智能語(yǔ)音技術(shù)方法建設(shè)課程。
AI 教學(xué)主播合成2 000 字符約需要1 分鐘,AI 智能語(yǔ)音制作時(shí)間為39.48 分鐘,假設(shè)AI 教學(xué)主播系統(tǒng)因網(wǎng)絡(luò)故障、操作失誤重錄率為25%,則AI 智能語(yǔ)音制作時(shí)間為39.48×(1+25%)=49.35 分鐘。
工作效率計(jì)算:939÷49.35=19.03,則采用AI 智能語(yǔ)音技術(shù)方法建設(shè)課程的工作效率為傳統(tǒng)錄播方法建設(shè)課程的工作效率的19 倍,并且在傳統(tǒng)錄播過(guò)程中,教師語(yǔ)音準(zhǔn)確性低、錄播時(shí)間長(zhǎng)、錄播受情緒和環(huán)境影響,經(jīng)常發(fā)生間斷、休息、耽擱,采用AI 智能語(yǔ)音技術(shù)方法建設(shè)課程的工作效率比傳統(tǒng)錄播方法建設(shè)課程的工作效率提高遠(yuǎn)大于19 倍。
研究成果為教師線上教學(xué)能力的提升和線上課程建設(shè)質(zhì)量的提高提供了AI 智能語(yǔ)音技術(shù)支持和實(shí)踐指導(dǎo)。AI 智能語(yǔ)音技術(shù)在線上教學(xué)的應(yīng)用將大大提高教師線上課程建設(shè)效率效果、降低建設(shè)成本,提高線上課程的個(gè)性化建設(shè)和課程建設(shè)質(zhì)量,全面提升高校教師線上教學(xué)能力,同時(shí),利用5G 移動(dòng)通信技術(shù)、云端大數(shù)據(jù)技術(shù)進(jìn)行5G+AI 人工智能教學(xué),在提升高校教師教學(xué)的標(biāo)準(zhǔn)化教學(xué)水平、解放師資力量等方面發(fā)揮重要的作用。
研究成果在線上教學(xué)及人工智能輔助教學(xué)具有較高的推廣應(yīng)用價(jià)值,5G+AI 人工智能教學(xué)將為教育教學(xué)帶來(lái)顛覆性變革,對(duì)教育教學(xué)的影響十分深遠(yuǎn),具有廣闊的應(yīng)用前景。
3.2.1 預(yù)期在校內(nèi)進(jìn)行推廣
教學(xué)主播課件語(yǔ)音合成系統(tǒng)、課件語(yǔ)音轉(zhuǎn)換系統(tǒng)研究成果預(yù)期在校內(nèi)進(jìn)行推廣。
3.2.2 課題組成員單位進(jìn)行推廣
教學(xué)主播課件語(yǔ)音合成系統(tǒng)、課件語(yǔ)音轉(zhuǎn)換系統(tǒng)研究成果預(yù)期在廣東工貿(mào)職業(yè)技術(shù)學(xué)院、廣東機(jī)電職業(yè)技術(shù)學(xué)院、廣州科技職業(yè)技術(shù)大學(xué)等課題組成員單位進(jìn)行推廣。
3.2.3 預(yù)期向全省各大高校進(jìn)行推廣
教學(xué)主播課件語(yǔ)音合成系統(tǒng)、課件語(yǔ)音轉(zhuǎn)換系統(tǒng)研究成果預(yù)期向全省各大高校進(jìn)行推廣,帶動(dòng)全省、全國(guó)各大高校AI 智能語(yǔ)音線上教學(xué)及AI 人工智能輔助教學(xué)的發(fā)展。
(1)建設(shè)教學(xué)主播課件語(yǔ)音合成系統(tǒng)。通過(guò)語(yǔ)音克隆技術(shù)克隆教師語(yǔ)音的教學(xué)主播高效輸出教師語(yǔ)音課件,語(yǔ)音準(zhǔn)確性高、輸出不受情緒和環(huán)境影響,節(jié)省教師工作時(shí)間,大大提高教師課件制作的工作效率、降低建設(shè)成本。
(2)建設(shè)課件語(yǔ)音轉(zhuǎn)換系統(tǒng)。語(yǔ)音轉(zhuǎn)換技術(shù)將源說(shuō)話人個(gè)性特征語(yǔ)音的課件轉(zhuǎn)換為目標(biāo)說(shuō)話人個(gè)性特征語(yǔ)音的課件,保持教師的情感態(tài)度和自身聲音特色,提高教師線上課程的真實(shí)度、自然度,提高教學(xué)效果和教學(xué)質(zhì)量。
創(chuàng)新創(chuàng)業(yè)理論研究與實(shí)踐2022年24期