徐 杰, 韓雪晴, 廖慶洲, 廖盛斌*
(1.華中師范大學(xué)經(jīng)濟(jì)與工商管理學(xué)院, 武漢 430079;2.國(guó)家數(shù)字化學(xué)習(xí)工程技術(shù)研究中心, 武漢 430079; 3.武漢軟件工程職業(yè)學(xué)院人文學(xué)院, 武漢 430205)
聽覺是人類感知世界、接受信息的先天能力之一.聽障兒童由于聽覺能力先天性不足導(dǎo)致語言發(fā)展滯后,進(jìn)行干預(yù)訓(xùn)練成為發(fā)展聽障兒童聽覺能力的關(guān)鍵因素[1].目前,聽障兒童聽覺干預(yù)訓(xùn)練廣泛采用聽覺口語法(auditory-verbal therapy,AVT),即通過聽力輔助設(shè)備,擴(kuò)大并利用聽障兒童聽覺能力,進(jìn)行個(gè)別化診斷式教學(xué),主要訓(xùn)練其傾聽能力,進(jìn)而使之能開口溝通[2].聽覺口語法首要環(huán)節(jié)是測(cè)試聽障兒童聽覺辨識(shí)能力,檢查兒童能否辨識(shí)到正常言語頻率范圍內(nèi)聲音.人工林氏七音是檢測(cè)兒童聽覺辨識(shí)能力一種簡(jiǎn)便易行、行之有效的方法.
聽覺口語法是專業(yè)教師或治療師面向聽障兒童家庭提供的康復(fù)服務(wù),教學(xué)時(shí)間通常為1~1.5 h,頻次一般為每周1~2次[4],通常聽覺干預(yù)訓(xùn)練前聽障兒童需要分別測(cè)試雙側(cè)耳朵的情況.在專業(yè)教師緊缺的情況下,人工進(jìn)行林氏七音測(cè)試耗時(shí)費(fèi)力,縮減了聽障兒童學(xué)習(xí)聽力訓(xùn)練時(shí)間,間接影響了聽障兒童聽覺能力發(fā)展進(jìn)程.
語音識(shí)別技術(shù)的出現(xiàn),為測(cè)試人員改良林氏七音測(cè)試帶來了新的可能性,語音識(shí)別技術(shù)因能夠?qū)⑷祟愓Z言轉(zhuǎn)化成計(jì)算機(jī)可以讀取和識(shí)別的形式,實(shí)現(xiàn)人機(jī)交互,而被應(yīng)用到工業(yè)、農(nóng)業(yè)、軍事、交通、醫(yī)療以及教育等各行各業(yè)中[5].在教育領(lǐng)域中,劉文開等[6]研究利用語音識(shí)別建構(gòu)智慧教室,提高智慧教室的信息化程度.曹雪燕等[7]研究了語音識(shí)別技術(shù)在聾人大學(xué)生課堂教學(xué)中的應(yīng)用,認(rèn)為使用語音識(shí)別技術(shù)彌補(bǔ)了手語對(duì)大學(xué)專業(yè)詞匯表達(dá)的不足.
針對(duì)人工檢測(cè)聽覺辨識(shí)能力存在耗時(shí)耗力的問題,將語音識(shí)別技術(shù)應(yīng)用于聽障兒童聽覺辨識(shí)能力測(cè)試有望減少對(duì)人力的依賴,從而大幅提升效率.本文主要探討如何利用語音識(shí)別技術(shù)快速、高效測(cè)試聽障兒童聽覺辨識(shí)能力.
本研究將采用語音識(shí)別算法針對(duì)聽障兒童林氏七音發(fā)音數(shù)據(jù)設(shè)計(jì)識(shí)別模型.目前,有許多算法應(yīng)用于語音識(shí)別,如動(dòng)態(tài)規(guī)劃算法[8]、高斯混合模型(Gaussian mixture model,GMM)[9]、隱馬爾科夫模型[10]以及RCNN[11]等,本研究在文獻(xiàn)研讀基礎(chǔ)上選取高斯混合算法對(duì)林氏七音建模,利用隱馬爾科夫模型進(jìn)行對(duì)比實(shí)驗(yàn).
本研究使用的語音數(shù)據(jù)集來源于湖北省聾兒康復(fù)中心,錄制聽障兒童AVT課程13節(jié).首先,對(duì)課程視頻進(jìn)行分析,提取林氏七音音頻數(shù)據(jù).接著,對(duì)數(shù)據(jù)進(jìn)行清洗并人工標(biāo)注,最終得到音頻數(shù)據(jù)91條.采用留出法將數(shù)據(jù)集D劃分為兩個(gè)互斥集合S訓(xùn)練集70條和T測(cè)試集21條,部分音頻數(shù)據(jù)波形圖示例如圖1所示.
圖1 音頻數(shù)據(jù)集波形圖示例
聲學(xué)特征指表示語音聲學(xué)特性的物理量,是聲音諸要素聲學(xué)表現(xiàn)的統(tǒng)稱.如表示音色的能量集中區(qū)、共振峰頻率、共振峰強(qiáng)度和帶寬,以及表示語音韻律特性的時(shí)長(zhǎng)、基頻、平均語聲功率等.
聲學(xué)特征提取是語音識(shí)別的關(guān)鍵步驟.提取聲學(xué)特征的方法有多種,如基于人耳聽覺特性梅爾頻譜系數(shù)(mel-frequency cepstral coefficients,MFCC)特征[12]、能量特征、頻譜特征[13]等,以及基于這些特征的融合與改進(jìn)[14-15].其中,MFCC是一種廣泛應(yīng)用于語音識(shí)別的特征參數(shù)[16-17].梅爾倒譜系數(shù)是在Mel標(biāo)度頻率域提取出來的倒譜參數(shù),Mel標(biāo)度描述了人耳頻率的非線性特性,本研究利用Mel頻率倒譜系數(shù)提取林氏七音數(shù)據(jù)集的聲學(xué)特征,具體提取MFCC步驟如圖2所示.
圖2 MFCC提取步驟
2.2.1 預(yù)加重 提取MFCC特征第一個(gè)階段是預(yù)加重,由于林氏七音中存在元音,可能出現(xiàn)頻率高而能量下降的聲譜斜移現(xiàn)象.采用預(yù)加重補(bǔ)償語音信號(hào)所壓抑的高頻部分,突顯高頻共振峰.
2.2.2 快速傅里葉變換 原始信號(hào)經(jīng)過處理后,需要將時(shí)域信號(hào)轉(zhuǎn)化為頻域信號(hào),抽取信號(hào)聲譜信息,利用快速傅里葉變換(Fast Fourier Transform,FFT)得到信號(hào)在頻譜上的能量分布.
2.2.3 Mel濾波器組 FFT計(jì)算得到的結(jié)果是關(guān)于每一個(gè)頻帶上能量大小的信息.由于人耳對(duì)不同頻率的敏感程度不同,且成非線性關(guān)系,因此需要將頻譜按人耳敏感程度分為多個(gè)Mel濾波器組,
用對(duì)數(shù)表示Mel聲譜值是由于人類對(duì)信號(hào)級(jí)別的反應(yīng)按照對(duì)數(shù)計(jì)算,使用對(duì)數(shù)來估計(jì)特征時(shí),對(duì)于輸入的變化也不太敏感.
2.2.4 離散余弦變換 由于濾波器之間是有重疊的,Mel濾波器組計(jì)算出的濾波器組系數(shù)高度相關(guān),應(yīng)用離散余弦變換去除相關(guān)濾波器組系數(shù)并產(chǎn)生濾波器組的壓縮表示,獲得最后的特征參數(shù).
將林氏七音音頻數(shù)據(jù)集部分MFCC進(jìn)行可視化,如圖3所示.
圖3 數(shù)據(jù)集MFCC示例
在建立模型階段,通過高斯混合模型為提取的聲學(xué)特征矢量建模并指派聲學(xué)似然度.
單變量高斯分布通過參數(shù)一個(gè)均值μ和一個(gè)方差σ2來定義,可以對(duì)一個(gè)單獨(dú)的倒譜特征計(jì)算聲學(xué)似然度[18].由于MFCC是一個(gè)多維的矢量,可以使用多變量高斯分布來指派聲學(xué)似然度.多變量高斯分布使用N維的均值矢量μ和協(xié)方差矩陣Σ來定義.
多變量高斯分布將特征矢量每一個(gè)維度作為高斯分布來建模,而一個(gè)特定的倒譜特征可能非正態(tài)分布,高斯混合模型通過把若干個(gè)多變量高斯分布加權(quán)混合建模以避免非正態(tài)分布的情況,高斯混合模型如下式所示,
f(x│μ,Σ)=
其中,μ為均值,Σ為協(xié)方差矩陣,ck為混合系數(shù),M為混合的高斯分布個(gè)數(shù).
訓(xùn)練聲學(xué)模型通過計(jì)算高斯混合模型參數(shù)最大化聲學(xué)似然值.本文將采用測(cè)試集訓(xùn)練聲學(xué)模型,利用EM算法估計(jì)模型中參數(shù),具體步驟如下.
1) 音頻聲學(xué)特征作為樣本集D={x1,x2,…,xn}.
2) 初始化高斯混合模型的參數(shù)μ、Σ、ck.
3) E步:根據(jù)當(dāng)前參數(shù)計(jì)算每個(gè)樣本屬于每個(gè)高斯成分zi的后驗(yàn)概率
γij=P(zj=i|xj).
4) M步:計(jì)算新的均值μ,
計(jì)算新的協(xié)方差矩陣Σ,
計(jì)算新的混合系數(shù)ck,
重復(fù)以上E步、M步,將最終得到的參數(shù)代入到目標(biāo)函數(shù)中完成模型.
將林氏七音測(cè)試識(shí)別設(shè)計(jì)為一種多分類任務(wù),七音分別代表七個(gè)種類.多分類任務(wù)的評(píng)估指標(biāo)比較復(fù)雜,一般將多分類任務(wù)視為n個(gè)二分類任務(wù).對(duì)n個(gè)二分類任務(wù)通常使用宏平均(macro-average)、微平均(micro-average)、加權(quán)平均(weighted-average)等方法評(píng)估模型表現(xiàn)情況.其中,宏平均計(jì)算方法區(qū)分樣本不同類別,先分別計(jì)算每個(gè)類別的Precision、Recall,然后所有類別度量值平均.微平均不區(qū)分樣本類別,計(jì)算整體的Precision、Recall.加權(quán)平均是對(duì)宏平均的一種改進(jìn),考慮了每個(gè)類別樣本數(shù)量在總樣本中占比,為樣本分配權(quán)重.由于本研究利用留出法劃分?jǐn)?shù)據(jù)集,為每種樣本分配相同數(shù)量音頻,在此基礎(chǔ)上綜合考慮三種評(píng)估指標(biāo),最終采用宏平均中Macroprecision(式(1))和Macrorecall(式(2))作為評(píng)估模型的指標(biāo).宏平均注重區(qū)分類別,缺乏對(duì)整體數(shù)據(jù)集的考察,選取精確率(式(3))作為補(bǔ)充,評(píng)估模型在整體數(shù)據(jù)集的表現(xiàn)情況.
(1)
其中,PrecisionPj的計(jì)算方法如下:
(2)
其中,RecallRj的計(jì)算方法如下:
(3)
在二分類任務(wù)中,TP、FP、TN、FN分別為被模型預(yù)測(cè)為正類的正樣本、被模型預(yù)測(cè)為正類的負(fù)樣本、被模型預(yù)測(cè)為負(fù)類的負(fù)樣本、被模型預(yù)測(cè)為負(fù)類的正樣本,具體如表1所示.
表1 評(píng)估模型
多分類任務(wù)可以用一個(gè)混淆矩陣來表示,混淆矩陣是一個(gè)n×n的矩陣,n表示多分類的類別數(shù),混淆矩陣對(duì)角線上表示的是分類正確的樣本.行代表了真實(shí)類別,列代表了預(yù)測(cè)類別.圖4為高斯混合模型的混淆矩陣.
圖4 GMM混淆矩陣
Macro precision、Macro recall兩種指標(biāo)只反映了模型對(duì)數(shù)據(jù)集整體的表現(xiàn),表2展示了高斯混合模型每個(gè)音的具體分類以及準(zhǔn)確率表現(xiàn)情況.
表2 GMM分類報(bào)告
實(shí)驗(yàn)結(jié)果表明,高斯混合模型林氏七音分類精確率為0.96, 召回率為0.95,準(zhǔn)確率為0.95,其中,/m/音預(yù)測(cè)正確的數(shù)量低于其他六音,/u/音真實(shí)正例被分類器召回?cái)?shù)量低于其他六音.
為了進(jìn)一步驗(yàn)證高斯混合模型在機(jī)器識(shí)別林氏七音中的準(zhǔn)確性,本研究分別采用高斯混合模型和常用來處理音頻數(shù)據(jù)的隱馬爾可夫模型對(duì)相同數(shù)據(jù)集建模進(jìn)行對(duì)比實(shí)驗(yàn),圖5為隱馬爾科夫模型預(yù)測(cè)類別的預(yù)測(cè)結(jié)果與真實(shí)結(jié)果.
圖5 HMM模型預(yù)測(cè)類別結(jié)果
HMM每個(gè)音具體分類以及Accuracy表現(xiàn)情況如表3所示.
表3 HMM分類報(bào)告
最終,HMM模型分類的精確率為0.94, 召回率為0.90,準(zhǔn)確率為0.90.兩種模型實(shí)驗(yàn)在三個(gè)指標(biāo)中對(duì)比情況如表4所示
表4 GMM與HMM的表現(xiàn)比較
實(shí)驗(yàn)結(jié)果表明,高斯混合模型在正確分類的數(shù)量以及分類的精確率上有較大優(yōu)勢(shì),在總體三個(gè)指標(biāo)的性能表現(xiàn)中也均優(yōu)于HMM模型,能夠較好地識(shí)別林氏七音.
本研究提出了一種基于高斯混合模型的機(jī)器識(shí)別普通話版林氏七音測(cè)試方法.首先,在湖北省聽障兒童康復(fù)中心采集并制作林氏七音數(shù)據(jù)集;接著,提取普通話版林氏七音數(shù)據(jù)集的聲學(xué)特征;然后在普通話版林氏七音訓(xùn)練集的基礎(chǔ)上建立并訓(xùn)練高斯混合聲學(xué)模型,將模型設(shè)計(jì)為多分類任務(wù),通過Macro precision、Macro recall、Accuracy三個(gè)指標(biāo)評(píng)估模型的表現(xiàn)情況.本研究將高斯混合模型和隱馬爾可夫模型在同一數(shù)據(jù)集上進(jìn)行對(duì)比實(shí)驗(yàn),結(jié)果表明,基于高斯混合模型林氏七音測(cè)試模型能更好的識(shí)別普通話版林氏七音.