姜囡 龐永恒 高爽
摘要: 針對(duì)連接時(shí)序分類(lèi)模型需具有輸出獨(dú)立性的假設(shè), 對(duì)語(yǔ)言模型的依賴(lài)性強(qiáng)且訓(xùn)練周期長(zhǎng)的問(wèn)題, 提出一種基于連接時(shí)序分類(lèi)模型的語(yǔ)音識(shí)別方法. 首先, 基于傳統(tǒng)聲學(xué)模型的框架, 利用先驗(yàn)知識(shí)訓(xùn)練基于注意力機(jī)制的語(yǔ)譜圖特征提取網(wǎng)絡(luò), 有效提高了語(yǔ)音特征的區(qū)分性和魯棒性; 其次, 將語(yǔ)譜圖特征提取網(wǎng)絡(luò)拼接在連接時(shí)序分類(lèi)模型的前端, 并減少模型中循環(huán)神經(jīng)網(wǎng)絡(luò)層數(shù)進(jìn)行重新訓(xùn)練. 測(cè)試分析結(jié)果表明, 該改進(jìn)模型縮短了訓(xùn)練時(shí)間, 有效提升了語(yǔ)音識(shí)別準(zhǔn)確率.
關(guān)鍵詞: 語(yǔ)音識(shí)別; CTC模型; 循環(huán)神經(jīng)網(wǎng)絡(luò); 注意力機(jī)制
中圖分類(lèi)號(hào): TP391文獻(xiàn)標(biāo)志碼: A文章編號(hào): 1671-5489(2024)02-0320-11
Speech Recognition Based on Attention Mechanism and Spectrogram Feature Extraction
JIANG Nan1, PANG Yongheng1, GAO Shuang2
(1. School of Public Security Information Technology and Intelligence,Criminal Investigation Police University of China, Shenyang 110854, China;2. College of Information Science and Engineering, Northeastern University, Shenyang 110819, China)
Abstract: Aiming at the problem that the connected temporal classification model needed to have output independence assumption, and there was strong dependence on language model and long training period, we proposed? a speech recognition method based on connected temporal classification model. Firstly, based on the framework of traditional acoustic model, spectrogram feature extraction network based on attention mechanism was trained by using prior knowledge, which effectively improved the discrimination and robustness of speech features. Secondly, the spectrogram feature extraction network was spliced in the front of the connected temporal? classification model, and the number of layers of the recurrent neural network in the model was reduced for retraining. The test analysis results show that the improved model shortens the training time, and effectively improves the? accuracy of speech recognition.
Keywords: speech recognition; CTC model; recurrent neural network; attention mechanism
近年來(lái), 在信息處理、 通信與電子系統(tǒng)、 自動(dòng)控制等領(lǐng)域相繼出現(xiàn)了不同用途的語(yǔ)音識(shí)別系統(tǒng), 低信噪比下語(yǔ)音識(shí)別已顯露強(qiáng)大的技術(shù)優(yōu)勢(shì)和生命力, 但仍面臨諸多問(wèn)題需要完善. 環(huán)境噪音和雜音對(duì)語(yǔ)音識(shí)別的效果影響不容忽視; 在多語(yǔ)言混合、 無(wú)限詞匯識(shí)別和自適應(yīng)方面需要進(jìn)一步改進(jìn), 以達(dá)到不受口音、 方言和特定人影響的要求[1-3].
傳統(tǒng)基于GMM-HMM(Gaussian mixture model-hidden Markov model)的語(yǔ)音識(shí)別框架得到廣泛使用和研究[4-5], 提出了語(yǔ)音識(shí)別聲學(xué)模型的區(qū)分性訓(xùn)練準(zhǔn)則, 有效提升了語(yǔ)音識(shí)別的準(zhǔn)確率和識(shí)別速率. 基于聲學(xué)模型的區(qū)分性訓(xùn)練(discriminative training, DT)準(zhǔn)則和最大似然估計(jì)訓(xùn)練GMM-HMM, 根據(jù)區(qū)分性準(zhǔn)則對(duì)模型參數(shù)進(jìn)行更新, 可以顯著提升模型的性能[6-8]. 文獻(xiàn)[9-10]將深層神經(jīng)網(wǎng)絡(luò)用于語(yǔ)音的聲學(xué)建模, 在音素識(shí)別TIMIT(聲學(xué)-音素連續(xù)語(yǔ)音語(yǔ)料庫(kù), The DARPA TIMIT acoustic-phonetic continuous speech corpus)任務(wù)上獲得成功, 但由于TIMIT是一個(gè)小詞匯量的數(shù)據(jù)庫(kù), 連續(xù)語(yǔ)音識(shí)別任務(wù)更關(guān)注的是詞組和句子的正確率, 識(shí)別效果并不理想. 文獻(xiàn)[11]提出了在CD-DNN-HMM框架下利用混合帶寬訓(xùn)練數(shù)據(jù), 提高寬帶語(yǔ)音識(shí)別精度的策略, DNN(deep neural network)提供了使用任意特性的靈活性.
隨著基于GMM-HMM的語(yǔ)音識(shí)別框架被打破, 文獻(xiàn)[12]考慮卷積提供了一種改進(jìn)的混響建模能力, 將CNN(convolutional neural network)與全連接的DNN相結(jié)合, 可以在參數(shù)小于DNN的特征向量中建立短時(shí)間相關(guān)性模型, 從而更好地泛化未發(fā)現(xiàn)的測(cè)試環(huán)境. 文獻(xiàn)[13]提出一種具有規(guī)則化自適應(yīng)性的基于長(zhǎng)短時(shí)記憶(long and short term memory, LSTM)循環(huán)神經(jīng)網(wǎng)絡(luò)的聲學(xué)模型. 在混合模型中, DNN/CNN/RNN(recurrent neural network)與隱Markov模型(HMM)是分開(kāi)優(yōu)化的, 又由于語(yǔ)音識(shí)別中存在序列識(shí)別問(wèn)題, 因此聯(lián)合優(yōu)化模型中的所有組件會(huì)有效提升識(shí)別率, 因而端到端的處理方式被引入到語(yǔ)音識(shí)別系統(tǒng)中. 文獻(xiàn)[13]提出了一種基于Gammatone頻率倒譜系數(shù)(GFCC)的特征提取方法, 彌補(bǔ)了Mel頻率倒譜系數(shù)(MFCC)特征的局限性. 文獻(xiàn)[14-18]提出了混合式CTC(connected temporal classification)/注意端到端的語(yǔ)音識(shí)別技術(shù), 這是一種用于語(yǔ)音識(shí)別、 文本識(shí)別等任務(wù)的深度學(xué)習(xí)模型, 它可以直接從時(shí)序數(shù)據(jù)中學(xué)習(xí)并預(yù)測(cè)出整段序列的標(biāo)簽. CTC模型的基本架構(gòu)是一個(gè)由多個(gè)循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)單元組成的雙向網(wǎng)絡(luò), 該網(wǎng)絡(luò)在輸入時(shí)序數(shù)據(jù)后, 可以輸出整段序列的標(biāo)簽概率分布, 通過(guò)反向傳播算法進(jìn)行訓(xùn)練, 最終得到的模型可以對(duì)新的未知序列進(jìn)行標(biāo)簽預(yù)測(cè), 有效利用了訓(xùn)練和譯碼的優(yōu)點(diǎn), 采用多任務(wù)學(xué)習(xí)框架提高魯棒性, 可以實(shí)現(xiàn)快速收斂.
本文提出一種基于連接時(shí)序分類(lèi)模型的語(yǔ)音識(shí)別方法. 充分利用先驗(yàn)知識(shí), 基于注意力機(jī)制訓(xùn)練語(yǔ)譜圖特征提取網(wǎng)絡(luò), 有效提升提取特征的區(qū)分性和魯棒性. 最終保證模型訓(xùn)練時(shí)間有效降低, 提升語(yǔ)音識(shí)別準(zhǔn)確率.
1 端到端模型的語(yǔ)音識(shí)別框架
1.1 語(yǔ)音識(shí)別系統(tǒng)流程
語(yǔ)音識(shí)別系統(tǒng)包括聲學(xué)特征提取、 語(yǔ)言和聲學(xué)模型、 發(fā)音詞典和解碼器5個(gè)模塊, 如圖1所示.
從語(yǔ)音信號(hào)中提取到的聲學(xué)特征經(jīng)過(guò)統(tǒng)計(jì)訓(xùn)練到聲學(xué)模型, 把該聲學(xué)模型作為識(shí)別單元的模板, 結(jié)合發(fā)音詞典和語(yǔ)言模型, 經(jīng)過(guò)解碼器處理得到識(shí)別結(jié)果.
1.2 基于CTC的端到端語(yǔ)音識(shí)別框架
CTC的連續(xù)語(yǔ)音識(shí)別系統(tǒng)主要包括循環(huán)神經(jīng)網(wǎng)絡(luò)和CTC函數(shù)計(jì)算層, 其中循環(huán)神經(jīng)網(wǎng)絡(luò)包含4層LSTM單元, 如圖2所示, 其作用主要是提取輸入特征中的有效時(shí)序信息, 提升特征的區(qū)分性能和表達(dá)能力. CTC函數(shù)計(jì)算層則可以直接計(jì)算輸出序列后驗(yàn)概率.
LSTM模型是RNN的一種變形. RNN存在梯度消失的問(wèn)題, 即后面時(shí)間節(jié)點(diǎn)對(duì)前面時(shí)間節(jié)點(diǎn)的感知力下降, 網(wǎng)絡(luò)深度過(guò)大無(wú)法訓(xùn)練. 圖3為循環(huán)神經(jīng)網(wǎng)絡(luò)模型的結(jié)構(gòu). 由圖3可見(jiàn), Xt是網(wǎng)絡(luò)在t時(shí)刻的輸入, 經(jīng)過(guò)網(wǎng)絡(luò)結(jié)構(gòu)處理得到ht, 它可以進(jìn)行輸出, 也可以傳遞給下一時(shí)刻. yt+1為t+1時(shí)刻網(wǎng)絡(luò)得到的輸出結(jié)果, 包含了當(dāng)前時(shí)刻和所有歷史時(shí)刻共同作用的結(jié)果, 以此可以對(duì)時(shí)間序列建模. 其中隱含層狀態(tài)計(jì)算公式為ht=f(Whxxt+Whhht-1);(1)輸出和隱含層狀態(tài)的關(guān)系為yt=g(Whyht),(2)其中f(·)是隱含層激活函數(shù), g(·)是輸出層激活函數(shù), Whx,Why和Whh是權(quán)重矩陣.
LSTM在RNN的基礎(chǔ)上, 增加了一個(gè)存儲(chǔ)單元、 一個(gè)輸入門(mén)、 一個(gè)輸出門(mén)和一個(gè)遺忘門(mén), 如圖4所示.
在CTC算法中, 同一個(gè)實(shí)際音素序列可由基于幀的音素序列轉(zhuǎn)換, 多個(gè)基于幀的音素序列的后驗(yàn)概率相加可得到實(shí)際音素序列的后驗(yàn)概率. 通常CTC算法在進(jìn)行計(jì)算前, 都要在識(shí)別音素集合中加入空白符“—”和序列映射函數(shù)Γ, 其中空白符不但代表連續(xù)語(yǔ)音中的靜音區(qū)間, 也可作為兩個(gè)音素之間的分隔符. 加入空白符后新的音素集合A={c1,c2,…,cm,—}元素?cái)?shù)量為m+1, 因此需要把模型中Softmax層單元數(shù)調(diào)整至m+1. 序列映射函數(shù)Γ定義為: AT→A≤T, 即把基于幀的音素序列映射成長(zhǎng)度較短的實(shí)際音素序列.
基于CTC和文本對(duì)齊的音頻示例如圖5所示. 由圖5可見(jiàn), 分幀式方法需要做每個(gè)音素的標(biāo)記, 而CTC只是預(yù)測(cè)一系列的峰值和緊接著一些可能的空白符用于區(qū)分字母, 分幀式的方法可能出現(xiàn)對(duì)齊錯(cuò)誤, 因?yàn)橄噜弮蓭臉?biāo)簽概率分布圖太接近, 如在dh,ax有明顯的重疊, 而CTC卻沒(méi)有出現(xiàn)這種情況.
雖然基于CTC的端到端語(yǔ)音識(shí)別模型摒棄了傳統(tǒng)HMM框架, 輸出可以達(dá)到音素甚至更小的狀態(tài), 但其仍存在一些不足:
1) CTC損失函數(shù)訓(xùn)練時(shí)間較長(zhǎng), 優(yōu)化空間相對(duì)復(fù)雜, 損失函數(shù)的數(shù)值敏感較易出現(xiàn)波動(dòng), 越接近優(yōu)化目標(biāo), 優(yōu)化空間變得越小, 易導(dǎo)致反優(yōu)化;
2) 有輸出獨(dú)立性的假設(shè), 對(duì)于語(yǔ)言模型的依賴(lài)性較強(qiáng);
3) 循環(huán)神經(jīng)網(wǎng)絡(luò)在時(shí)域上呈遞歸結(jié)構(gòu), 不能同時(shí)處理多幀數(shù)據(jù).
2 基于注意力機(jī)制語(yǔ)譜圖特征提取模型
針對(duì)CTC的端到端語(yǔ)音識(shí)別模型的局限性, 研究者已提出在端到端模型的前端增加一個(gè)基于注意力機(jī)制的語(yǔ)譜圖特征提取模型. 基于語(yǔ)譜圖提取聲學(xué)特征相當(dāng)于對(duì)原始語(yǔ)音非線性特征進(jìn)行壓縮變換, 相比常規(guī)MFCC等特征維度更低, 同時(shí)對(duì)背景噪聲、 信道和說(shuō)話(huà)人的魯棒性和區(qū)分度也更強(qiáng). 利用端到端可以實(shí)現(xiàn)直接建模, 將特征提取模型拼接到識(shí)別模型的前端, 對(duì)融合后的識(shí)別模型進(jìn)行聯(lián)合訓(xùn)練, 并微調(diào)參數(shù), 可有效提升識(shí)別準(zhǔn)確率.
2.1 利用語(yǔ)譜圖提取發(fā)音特征
語(yǔ)音幀長(zhǎng)通常是20~50 ms, 為準(zhǔn)確獲取說(shuō)話(huà)人音質(zhì)、 音色的信息, 選擇單個(gè)完整音節(jié)作為語(yǔ)譜圖的最小單位, 時(shí)間為50~200 ms. 考慮通常自然發(fā)音的頻率范圍在100~3 000 Hz, 設(shè)置縱坐標(biāo)的頻率標(biāo)尺范圍. 下面用一段語(yǔ)音的語(yǔ)譜圖進(jìn)行分析.
圖6為一個(gè)灰度窄帶語(yǔ)譜圖, 灰度值深淺漸變的像素值可精確反映不同時(shí)間點(diǎn)頻率分布的動(dòng)態(tài)變化. 語(yǔ)音信號(hào)在低頻處分布較多, 高頻處分布較少, 且含有許多不同的花紋, 如橫杠、 豎直條和亂紋等, 其中橫杠與時(shí)間軸平行, 表示共振峰, 深色條紋呈周期性均勻分布, 從它對(duì)應(yīng)的縱軸頻率和寬度可確定相應(yīng)的共振峰頻率和帶寬. 共振峰的個(gè)數(shù)、 走向以及帶寬都是重要的特征參數(shù). 為更清晰直觀地說(shuō)明語(yǔ)譜圖特征參數(shù)的優(yōu)越性. 將語(yǔ)音信號(hào)的各特征參數(shù)進(jìn)行對(duì)比, 結(jié)果列于表1.
現(xiàn)在大多數(shù)語(yǔ)音識(shí)別系統(tǒng)都采用MFCC參數(shù), 但它的抗噪性和穩(wěn)定性較差, 因此本文采用在語(yǔ)譜圖上提取特征, 具有較強(qiáng)的穩(wěn)定性和魯棒性, 能進(jìn)一步提升語(yǔ)音識(shí)別的準(zhǔn)確率.
2.2 注意力機(jī)制模型
注意力機(jī)制模擬人類(lèi)視覺(jué)機(jī)制忽略無(wú)關(guān)特征, 將注意力分配在特征序列的部分相關(guān)區(qū)域, 從特征序列中提取有效特征. 在序列到序列模型中, 將特征序列(h1,h2,…,hT)映射成一個(gè)目標(biāo)向量cto, 計(jì)算輸出序列的元素yo. 為便于后端模式分類(lèi),? 將序列中壓縮后的重要信息變換為固定長(zhǎng)度向量, 再將cto作為注意力子網(wǎng)絡(luò)后的解碼網(wǎng)絡(luò)輸入, 依次計(jì)算出循環(huán)神經(jīng)網(wǎng)絡(luò)隱含層狀態(tài)序列(s1,s2,…,sO)和輸出序列(y1,y2,…,yO). 注意力模型結(jié)構(gòu)如圖7所示.
輸出序列位置o∈{1,2,…,O}所對(duì)應(yīng)的目標(biāo)向量為cto, 根據(jù)注意力機(jī)制其計(jì)算過(guò)程如下. 輸出序列位置o-1的隱含層狀態(tài)為so-1, 首先計(jì)算其與t時(shí)刻的特征關(guān)聯(lián)度:eo,t=a(so-1,ht),(3)其中a(·)為只含一個(gè)隱含層的多層感知機(jī). 注意力子網(wǎng)絡(luò)表示為eo,t=ωTtanh(W[so-1,ht]+b),(4)其中W為輸入層到隱含層的權(quán)重矩陣, b為偏置向量, ω為隱含層到輸出層的權(quán)重矩陣.
將對(duì)所有時(shí)刻特征的關(guān)聯(lián)度進(jìn)行指數(shù)歸一化后的數(shù)值作為注意力系數(shù):αo,t=exp{eo,t}/∑T/t=1exp{eo,t},(5)其中αo,t為權(quán)重, 針對(duì)全部時(shí)刻的特征加權(quán)求和, 利用注意力機(jī)制, 得到輸出序列位置o對(duì)應(yīng)的目標(biāo)向量cto為cto=∑T/t=1αo,tht.(6)采用注意力機(jī)制計(jì)算目標(biāo)向量的過(guò)程可記為cto=attention((h1,h2,…,hT),so-1).(7)
2.3 基于語(yǔ)譜圖特征提取模型的訓(xùn)練
3 基于語(yǔ)譜圖特征提取模型的語(yǔ)音識(shí)別
3.1 匹配相似度定義
引入更靈活的方式比較兩個(gè)序列之間的相似度: 最長(zhǎng)公共子串(longest common substring, LCS)和編輯距離匹配法(edit distance matching).
3.2 注意力機(jī)制端到端語(yǔ)音識(shí)別設(shè)計(jì)
在語(yǔ)譜圖利用注意力模型提取高維特征, 在基于CTC的端到端模型上進(jìn)行語(yǔ)音識(shí)別. 步驟如下:
1) 樣本輸入. 基于自適應(yīng)門(mén)限的分形維數(shù)算法對(duì)音頻進(jìn)行語(yǔ)音端點(diǎn)檢測(cè), 然后轉(zhuǎn)化成灰度語(yǔ)譜圖Xi(i=1,2,…,n), 作為系統(tǒng)的輸入.
2) 訓(xùn)練基于注意力的模型. 首先引入不同的函數(shù)和計(jì)算機(jī)制, 根據(jù)輸入序列X和目標(biāo)序列P, 計(jì)算兩者的相似性或者相關(guān)性, 點(diǎn)積為Similarity(X,P)=X·P,(10)余弦相似性為Similarity(X,P)=X·P/‖X‖·‖P‖,(11)MLP網(wǎng)絡(luò)為MLP(X,P).(12)引入Softmax的計(jì)算方式對(duì)第一步的得分進(jìn)行值轉(zhuǎn)換, 采用如下公式計(jì)算:ai=Softmax(Simi)=eSimi/∑Lx/j=1eSimj.(13)計(jì)算特征Valuei對(duì)應(yīng)的權(quán)重系數(shù), 然后加權(quán)求和即可得到Attention數(shù)值:Attention(X,P)=∑LX/i=1ai·Valuei.(14)
3.3 注意力模型提取語(yǔ)譜圖特征
由于注意力輸出序列未知, 同時(shí)考慮注意力模型中解碼網(wǎng)絡(luò)位置輸出對(duì)計(jì)算結(jié)果的影響, 基于帶序列終止符的BeamSearch算法在注意力模型解碼網(wǎng)絡(luò)的輸出中, 將負(fù)概率最低的序列作為輸出. 按照序列的長(zhǎng)度逐步枚舉解碼結(jié)果, 并將其存儲(chǔ)在一個(gè)容量為beam_size 序列集合中. 根據(jù)集合中元素, 在進(jìn)行每次搜索時(shí)序列輸入和解碼網(wǎng)絡(luò)將序列長(zhǎng)度拓展1位, 能同時(shí)得到多個(gè)候選結(jié)果和對(duì)應(yīng)的得分. 從中可篩選出最好的beam_ size個(gè)序列保留在集合中, 根據(jù)此流程循環(huán)運(yùn)行.
3.4 基于CTC端到端模型的訓(xùn)練和識(shí)別
在注意力模型中從語(yǔ)譜圖上得到高維特征, 輸入到LSTM神經(jīng)網(wǎng)絡(luò), 繼續(xù)經(jīng)過(guò)一層全連接神經(jīng)網(wǎng)絡(luò), 將最后一個(gè)維度映射作為所有可能的類(lèi)標(biāo). 同時(shí)數(shù)據(jù)會(huì)進(jìn)入 CTC模塊和計(jì)算損失函數(shù), 經(jīng)反向傳播神經(jīng)網(wǎng)絡(luò), 預(yù)測(cè)輸入數(shù)據(jù)所對(duì)應(yīng)的序列.
綜上, 基于注意力機(jī)制的端到端語(yǔ)音識(shí)別算法的系統(tǒng)框圖如圖8所示.
4 實(shí)驗(yàn)分析
4.1 實(shí)驗(yàn)配置
在PyCharm軟件TensorFlow框架下進(jìn)行語(yǔ)音識(shí)別實(shí)驗(yàn). 使用的語(yǔ)料庫(kù)是thchs-30語(yǔ)音庫(kù), 該數(shù)據(jù)庫(kù)設(shè)計(jì)的目的是作為863數(shù)據(jù)庫(kù)的補(bǔ)充, 盡可能提高中文發(fā)音的涵蓋率.
thchs-30語(yǔ)音庫(kù)是使用單個(gè)碳粒麥克風(fēng)在安靜的辦公室環(huán)境下錄制的, 總時(shí)長(zhǎng)約30 h, 參與錄音的人員為會(huì)說(shuō)流利普通話(huà)的大學(xué)生, 設(shè)置采樣頻率為16 kHz, 其文本選取自大容量的新聞和文章, 全部為女聲. 表2列出了該數(shù)據(jù)集包含的全部?jī)?nèi)容. 其中開(kāi)發(fā)集的作用是調(diào)整參數(shù)、 選擇特征, 與訓(xùn)練集進(jìn)行交叉驗(yàn)證. 訓(xùn)練和測(cè)試的目標(biāo)數(shù)據(jù)可分為詞和音素兩類(lèi). 表3列出了訓(xùn)練thchs語(yǔ)料庫(kù)的一些基本信息.
在語(yǔ)音識(shí)別中, 常用的評(píng)價(jià)指標(biāo)除有識(shí)別的準(zhǔn)確率, 還有詞錯(cuò)誤率(word error rate, WER).為保持識(shí)別的詞序列和目標(biāo)序列的一致性, 需要進(jìn)行替換、 刪除或插入等操作, 錯(cuò)誤率用WER表示, 其計(jì)算公式為WER=S+D+I/N×100%,(15)其中S表示替換, D表示刪除, I表示插入, N為單詞數(shù)目.
語(yǔ)音識(shí)別結(jié)構(gòu)如圖9所示, 分別提取MFCC特征, 用CNN和Attention在語(yǔ)譜圖上提取特征, 再分別輸入到HMM,RNN和LSTM+CTC模型中進(jìn)行語(yǔ)音識(shí)別, 對(duì)比分析, 以驗(yàn)證改進(jìn)算法的有效性.
4.2 基于MFCC特征的語(yǔ)音識(shí)別模型分析
選取thchs語(yǔ)料庫(kù)中一段名為“A2_46.wav”的音頻文件, 該音頻內(nèi)容為“換句話(huà)說(shuō), 一個(gè)氯原子只能和一個(gè)鈉原子結(jié)合, 而兩個(gè)氯原子才能和一個(gè)鎂原子化合.” 音頻時(shí)長(zhǎng)為8 s, 提取的時(shí)域波形如圖10所示.
對(duì)音頻進(jìn)行端點(diǎn)檢測(cè), 由于音頻中含有多段短語(yǔ)音段, 用紅色豎線標(biāo)記過(guò)于雜亂. 因此對(duì)檢測(cè)出的短語(yǔ)音段, 用紅色覆蓋, 靜音部分用灰色標(biāo)記, 得到的語(yǔ)音波形如圖11所示.
提取特征維度為12維的語(yǔ)音MFCC特征, 并對(duì)其逐幀提取. 各語(yǔ)音的長(zhǎng)度不同, 所得特征矩陣的大小也不同, 例如當(dāng)一段語(yǔ)音的幀數(shù)為n, 則對(duì)應(yīng)提取的特征是一個(gè)n×12的特征矩陣, 因此無(wú)法統(tǒng)一模型輸入的尺度. 因此, 計(jì)算全部幀的MFCC向量均值, 并將其作為整段語(yǔ)音的MFCC特征, 按列求取特征矩陣的平均值, 歸一化后可得到1×12的MFCC特征向量. 將MFCC特征分別輸入到DNN-HMM,RNN和LSTM+CTC三個(gè)模型中, 對(duì)比平均迭代周期和識(shí)別錯(cuò)誤率, 以證明LSTM+CTC模型的優(yōu)越性.
采用三音素的狀態(tài)作為DNN網(wǎng)絡(luò)的標(biāo)簽信息. 整個(gè)網(wǎng)絡(luò)包括1個(gè)輸入層、 6個(gè)隱含層和1個(gè)輸出層. Tanh 函數(shù)作為隱含層的激活函數(shù), 輸出層分類(lèi)用Softmax函數(shù), 以最小化交叉熵為目標(biāo)函數(shù), 權(quán)重學(xué)習(xí)率為0.001. 整個(gè)RNN網(wǎng)絡(luò)包括1層輸入層, 輸入層的節(jié)點(diǎn)數(shù)為300; 3個(gè)隱含層每層有2 048個(gè)節(jié)點(diǎn); 一個(gè)輸出層, 對(duì)應(yīng)36 016個(gè)節(jié)點(diǎn). Sigmoid函數(shù)作為隱含層的激活函數(shù), 輸出層分類(lèi)用Softmax函數(shù). 采用最小化交叉熵作為目標(biāo)函數(shù), 學(xué)習(xí)率初始值為0.001.
針對(duì)LSTM單元訓(xùn)練神經(jīng)網(wǎng)絡(luò)的隱含層, 設(shè)置狀態(tài)維度為300, LSTM堆疊的層數(shù)為4, 隱藏節(jié)點(diǎn)為40個(gè), 1個(gè)全連接層. CTC為目標(biāo)損失函數(shù), 學(xué)習(xí)率為0.001.
表4列出了基于MFCC特征的語(yǔ)音識(shí)別模型對(duì)比結(jié)果. 由表4可見(jiàn), LSTM+CTC語(yǔ)音識(shí)別模型在訓(xùn)練時(shí)間和識(shí)別性能上都優(yōu)于其他模型, 平均迭代周期降低到37 min, 識(shí)別的錯(cuò)誤率僅為7.5%.
4.3 基于語(yǔ)譜圖特征的語(yǔ)音識(shí)別模型分析
繼續(xù)采用“A2_46.wav”音頻, 轉(zhuǎn)化成語(yǔ)譜圖如圖12所示. 圖12為灰度窄帶語(yǔ)譜圖, 通過(guò)灰度值漸變的像素值可精確反應(yīng)不同時(shí)間點(diǎn)頻率分布的動(dòng)態(tài)變化情況. 圖13為灰度統(tǒng)計(jì)直方圖的實(shí)例及原圖. 由圖13可得到各種像素所占的比例, 同時(shí)可對(duì)應(yīng)語(yǔ)譜圖中的頻率信息. 因?yàn)檎Z(yǔ)音信號(hào)頻率本身具有高頻部分不明顯、 低頻處明顯的特征, 并且圖中顯示低頻部分顏色較深, 且顏色的覆蓋率也相對(duì)較大, 這與人類(lèi)的發(fā)音特點(diǎn)一致.
將語(yǔ)譜圖分別輸入到CNN網(wǎng)絡(luò)和注意力模型中, 再拼接在LSTM+CTC模型中, 對(duì)比并證明注意力機(jī)制的優(yōu)越性. 針對(duì)CNN網(wǎng)絡(luò)中的每個(gè)卷積層, 采用3×3的小卷積核, 并在多個(gè)卷積層后加上池化層, 增強(qiáng)了CNN的表達(dá)能力. 但它與注意力網(wǎng)絡(luò)相比, 不能很好地表達(dá)語(yǔ)音的長(zhǎng)時(shí)相關(guān)性, 魯棒性也較差. 圖14為兩種網(wǎng)絡(luò)模型識(shí)別錯(cuò)誤率的對(duì)比. 由圖14可見(jiàn), 用CNN在語(yǔ)譜圖上提取特征得到識(shí)別錯(cuò)誤率平均約為4.9%, 而基于注意力模型得到的識(shí)別錯(cuò)誤率約維持在4.0%, 識(shí)別效果得到了有效提升.
4.4 實(shí)驗(yàn)結(jié)果對(duì)比分析
針對(duì)下面選取的9段中文音頻文件分別進(jìn)行識(shí)別分析驗(yàn)證. 進(jìn)行端點(diǎn)檢測(cè)后, 基于注意力機(jī)制的語(yǔ)音識(shí)別模型的識(shí)別結(jié)果列于表5. 由表5可見(jiàn), 只有第4段和第7段語(yǔ)音識(shí)別結(jié)果出現(xiàn)明顯的局部錯(cuò)誤. 基于注意力機(jī)制的端到端的語(yǔ)音識(shí)別模型識(shí)別的錯(cuò)誤率可降低到約5%. 表6統(tǒng)計(jì)了不同特征在不同模型下語(yǔ)音識(shí)別的詞錯(cuò)誤率.
由表6可見(jiàn): 從特征的角度, 用注意力機(jī)制提取語(yǔ)譜圖得到的錯(cuò)誤率要低于MFCC特征和利用CNN提取語(yǔ)譜圖特征的錯(cuò)誤率; 從模型的角度, LSTM+CTC語(yǔ)音識(shí)別模型明顯要優(yōu)于DNN-HMM和RNN模型. 因此, 基于注意力機(jī)制的LSTM+CTC模型能有效降低識(shí)別錯(cuò)誤率, 縮短了訓(xùn)練時(shí)間.
綜上所述, 本文以thchs語(yǔ)料庫(kù)為樣本集, 提取了MFCC特征, 用CNN和Attention在語(yǔ)譜圖上提取特征, 通過(guò)輸入到HMM,RNN和LSTM+CTC模型的識(shí)別分析對(duì)比, 基于注意力機(jī)制的LSTM+CTC模型能同時(shí)彌補(bǔ)其他兩種模型的缺陷, 縮短了訓(xùn)練周期, 并有效提高了語(yǔ)音識(shí)別的準(zhǔn)確率.
參考文獻(xiàn)
[1]王建榮, 張句, 路文煥. 機(jī)器人自身噪聲環(huán)境下的自動(dòng)語(yǔ)音識(shí)別 [J]. 清華大學(xué)學(xué)報(bào)(自然科學(xué)版), 2017, 57(2): 153-157. (WANG J R, ZHANG J, LU W H. Automatic Speech Recognition with Robot Noise [J]. Journal of Tsinghua University (Science and Technology), 2017, 57(2): 153-157.)
[2]姚慶安, 張?chǎng)危?劉力鳴, 等. 融合注意力機(jī)制和多尺度特征的圖像語(yǔ)義分割 [J]. 吉林大學(xué)學(xué)報(bào)(理學(xué)版), 2022, 60(6): 1383-1390. (YAO Q A, ZHANG X, LIU L M, et al. Image Semantic Segmentation Based on Fusing Attention Mechanism and Multi-scale Features [J]. Journal of Jilin University (Science Edition), 2022, 60(6): 1383-1390.)
[3]茍鵬程, 宗群. 車(chē)載語(yǔ)音識(shí)別及控制系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn) [J]. 計(jì)算機(jī)應(yīng)用與軟件, 2017, 34(5): 129-134. (GOU P C, ZONG Q. Design and Realization of Vehicle Speech Recognition and Control System [J]. Computer Applications and Software, 2017, 34(5): 129-134.)
[4]HAN L H, WANG B, DUAN S F. Development of Voice Activity Detection Technology [J]. Application Research of Computers, 2010, 27(4): 1220-1226.
[5]金超, 龔鋮, 李輝. 語(yǔ)音識(shí)別中神經(jīng)網(wǎng)絡(luò)聲學(xué)模型的說(shuō)話(huà)人自適應(yīng)研究 [J]. 計(jì)算機(jī)應(yīng)用與軟件, 2018, 35(2): 200-205. (JIN C, GONG C, LI H. Speaker Adaptation Research of Neural Network a Coustic Model in Speech Recognition [J]. Computer Applications and Software, 2018, 35(2): 200-205.)
[6]陶勇, 朱媛. 基于深度神經(jīng)網(wǎng)絡(luò)聲學(xué)模型及其改進(jìn)的語(yǔ)音識(shí)別研究 [J]. 吉林大學(xué)學(xué)報(bào)(理學(xué)版), 2021, 59(4): 539-546. (TAO Y, ZHU Y. Research on Speech Recognition Based on Deep Neural Network Acoustic Model and Its Improvement [J]. Journal of Jilin University (Science Edition), 2021, 59(4): 539-546.)
[7]CAO D Y, GAO X, GAO L. An Improved Endpoint Detection Algorithm Based on MFCC Cosine Value [J]. Wireless Personal Communications, 2017, 95(3): 2073-2090.
[8]KHELIFA O M, ELHADJ Y M, YAHYA M. Constructing Accurate and Robust HMM/GMM Models for an Arabic Speech Recognition System [J]. International Journal of Speech Technology, 2017, 20: 937-949.
[9]陳愛(ài)月, 徐波, 申子健. 基于高斯混合模型及TIMIT語(yǔ)音庫(kù)的說(shuō)話(huà)人身份識(shí)別 [J]. 信息通信, 2017, 7: 51-52.(CHEN A Y, XU B, SHEN Z J. Speaker Recognition Based on Gaussian Mixture Model and TIMIT Speech Database [J]. Information and Communication, 2017, 7: 51-52.)
[10]LANJEWAR R B, MATHURKAR S, PATEL N. Implementation and Comparison of Speech Emotion Recognition System Using Gaussian Mixture Model (GMM) and K-Nearest Neighbor (KNN) Techniques [J]. Procedia Computer Science, 2015, 49(1): 50-57.
[11]CUI X D, JING H, CHIEN J T. Multi-view and Multi-objective Semi-supervised Learning for HMM-Based Automatic Speech Recognition [J]. IEEE Transactions on Audio Speech & Language Processing, 2012, 20(7): 1923-1935.
[12]MAAS A L, QI P, XIE Z, et al. Building DNN Acoustic Models for Large Vocabulary Speech Recognition [J]. Computer Speech & Language, 2017, 41(7): 195-213.
[13]邵玉斌, 陳亮, 龍華, 等. 基于改進(jìn)GFCC特征參數(shù)的廣播音頻語(yǔ)種識(shí)別 [J]. 吉林大學(xué)學(xué)報(bào)(理學(xué)版), 2022, 60(2): 417-424. (SHAO Y B, CHEN L, LONG H, et al. Broadcast Audio Language Identification Based on Improved GFCC Feature Parameters [J]. Journal of Jilin University (Science Edition), 2022, 60(2): 417-424.)
[14]HINTON G, DENG L, DONG Y, et al. Deep Neural Networks for Acoustic Modeling in Speech Recognition: The Shared Views of Four Research Groups [J]. IEEE Signal Processing Magazine, 2012, 29(6): 82-97.
[15]YI J Y, WEN Z Q, TAO J H, et al. CTC Regularized Model Adaptation for Improving LSTM RNN Based Multi-accent Mandarin Speech Recognition [J]. Journal of Signal Processing Systems, 2017, 90(2): 1-13.
[16]WATANABE S, HORI T, KIM S, et al. Hybrid CTC/Attention Architecture for End-to-End Speech Recognition [J]. IEEE Journal of Selected Topics in Signal Processing, 2017, 11(8): 1240-1253.
[17]張宇, 張鵬遠(yuǎn), 顏永紅. 基于注意力LSTM和多任務(wù)學(xué)習(xí)的遠(yuǎn)場(chǎng)語(yǔ)音識(shí)別 [J]. 清華大學(xué)學(xué)報(bào)(自然科學(xué)版), 2018, 58(3): 249-253. (ZHANG Y, ZHANG P Y, YAN Y H. Long Short-Term Memory with Attention and Multitask Learning for Distant Speech Recognition [J]. Journal of Tsinghua University (Science and Technology), 2018, 58(3): 249-253.)
[18]龍星延, 屈丹, 張文林. 結(jié)合瓶頸特征的注意力聲學(xué)模型 [J]. 計(jì)算機(jī)科學(xué), 2019, 46(1): 260-264. (LONG X Y, QU D, ZHANG W L. Attention-Based Acoustic Model with Bottleneck Features [J]. Journal of Computer Science, 2019, 46(1): 260-264.)
(責(zé)任編輯: 韓 嘯)
收稿日期: 2023-03-08.
第一作者簡(jiǎn)介: 姜 囡(1979—), 女, 漢族, 博士, 教授, 從事智能識(shí)別的研究, E-mail: zgxj_jiangnan@126.com.
基金項(xiàng)目: 教育部重點(diǎn)研究項(xiàng)目(批準(zhǔn)號(hào): E-AQGABQ20202710)、 遼寧省自然科學(xué)基金(批準(zhǔn)號(hào): 2019-ZD-0168)、 遼寧省科技廳聯(lián)合開(kāi)放基金機(jī)器人學(xué)國(guó)家重點(diǎn)實(shí)驗(yàn)室開(kāi)放基金(批準(zhǔn)號(hào): 2020-KF-12-11)、 中國(guó)刑事警察學(xué)院重大計(jì)劃培育項(xiàng)目(批準(zhǔn)號(hào): 3242019010)、 公安學(xué)科基礎(chǔ)理論研究創(chuàng)新計(jì)劃項(xiàng)目(批準(zhǔn)號(hào): 2022XKGJ0110)和證據(jù)科學(xué)教育部重點(diǎn)實(shí)驗(yàn)室(中國(guó)政法大學(xué))開(kāi)放基金(批準(zhǔn)號(hào): 2021KFKT09).