張 威,劉 晨,費鴻博,李 巍,俞經(jīng)虎,曹 毅?
1) 江南大學機械工程學院,無錫 214122 2) 江蘇省食品先進制造裝備技術重點實驗室,無錫 214122 3) 蘇州工業(yè)職業(yè)技術學院,蘇州 215104
語音識別是人機交互的一項關鍵技術,近年來,基于深度學習的語音識別技術取得了跨越式的發(fā)展[1-2],其在語音搜索、個人數(shù)碼助理及車載娛樂系統(tǒng)[3]等領域得到了廣泛應用. 鑒于聲學建模是語音識別技術的關鍵,因此國內(nèi)外學者對其開展了廣泛研究[4-15],主要可劃分為4類:(1)隱馬爾科夫模型[4-7](Hidden Markov model, HMM);(2)連接 時 序 分 類[8-11](Connectionist temporal classification, CTC);(3)序列到序列(Sequence to sequence,S2S)模型[12];(4) 循環(huán)神經(jīng)網(wǎng)絡轉換器[13-15](Recurrent neural network-transducer, RNN-T).
(1) 第1類基于HMM構建聲學模型,用神經(jīng)網(wǎng)絡描述聲學特征的概率分布,有效彌補了高斯混合模型對于語音特征建模能力不足的缺點,從而提升聲學模型準確率[4]. 其中,Peddinti等[5]探索了神經(jīng)網(wǎng)絡-隱馬爾可夫模型(Neural networkhidden Markov model, NN-HMM)的聲學模型;Povey等[6]構建了因式分解的時延神經(jīng)網(wǎng)絡模型;刑安昊等[7]提出了深度神經(jīng)網(wǎng)絡(Deep neural network, DNN)裁剪方法,使得DNN性能損失降低. (2)第2類方法基于CTC構建端到端聲學模型,無需時間維度上幀級別對齊標簽,極大地簡化了聲學模型訓練流程[8-11]. Graves[8]首次構建了神經(jīng)網(wǎng)絡-連接時序分類(Neural network-CTC,NN-CTC)聲學模型并驗證了其對于聲學建模的有效性;Zhang等[9]探索了深度卷積神經(jīng)網(wǎng)絡-連接時序分類(DCNN-CTC)模型;Zhang等[10]構建了多路卷積神經(jīng)網(wǎng)絡-連接時序分類聲學模型,使得音節(jié)錯誤率相對降低12.08%;Zhang等[11]提出了連接時序分類-交叉熵訓練方法. (3)第3類方法旨在將聲學特征編碼成高維向量,再解碼成識別結果. 基于自注意力模型,Dong等[12]構建了端到端語音識別聲學模型. (4)第4類方法則基于RNN-T構建聲學模型,該方法對CTC輸出獨立性假設進行優(yōu)化,并聯(lián)合訓練聲學模型與語言模型進一步提升聲學模型準確率[8]. Graves等[13]首次驗證了RNN-T對于構建聲學建模的可行性;Rao等[14]提出了適用于RNN-T的預訓練方法;Tian等[15]構建了SA-T聲學建模方法并結合正則化方法提高聲學模型準確率.
值得指出的是:CTC是最早提出的端到端語音識別方法,由于其建模過程簡便且訓練模型容易,因此得到了廣泛研究[8-11],但CTC存在輸出獨立性假設且無法與語言模型聯(lián)合訓練問題[15]. 為解決上述問題,RNN-T通過引入解碼網(wǎng)絡,不僅解決了CTC輸出獨立性假設問題且可聯(lián)合語言模型進行訓練.
綜上所述,本文首先基于RNN-T模型探索不同編碼、解碼網(wǎng)絡層數(shù)對其預測錯誤率影響;其次,在上述模型的基礎上結合DenseNet與LSTM網(wǎng)絡提出了DL-T聲學模型;然后,為進一步提高其準確率,提出了適合DL-T的遷移學習方法;最后,基于Aishell-1[16]數(shù)據(jù)集開展語音識別研究,其結果驗證了DL-T兼具預測錯誤率低及收斂速度快的優(yōu)點.
RNN-T是由Graves等[13]提出的一種語音識別聲學建模方法,該方法可分為編碼網(wǎng)絡(Encoder network)、解碼網(wǎng)絡(Decoder network)以及聯(lián)合網(wǎng)絡(Joint network)三部分[17],其模型結構如圖1所示.
圖1 RNN-T聲學模型結構圖Fig.1 Acoustic model of RNN-T
設給定序列X=(x1,x2,···,xt,···,xT)表示輸入T(1≤t≤T)幀聲學特征序列,對應標簽序列y=(y1,y2,···,yu,···,yU),其中U(1≤u≤U)表示標簽長度. 如圖1所示,編碼網(wǎng)絡將輸入聲學特征映射為聲學特征向量ft,編碼結果如下式所示:
其中,fEnc(·)表示深度神經(jīng)網(wǎng)絡構建的函數(shù),該文編碼層均采用BLSTM網(wǎng)絡,其具體計算如式(2)~(7)所示:
式(2)~(7)中,it、zt、st、ot、ht和ft分別代表t時刻輸入門、遺忘門、中間狀態(tài)、輸出門、隱藏值向量和輸出向量;Wix、Wih、Wis分別表示輸入到輸入門、輸入門到隱藏值向量權值以及輸入門到中間狀態(tài)的權值;Wzx、Wzh、Wzs分別表示輸入到遺忘門、遺忘門到隱藏值向量權值以及遺忘門到中間狀態(tài)的權值;Wox、Woh、Wos分別表示輸入到輸出門、輸出門到隱藏值向量權值以及輸出門到中間狀態(tài)的權值;Wsx、Wsh分別表示中間狀態(tài)到輸入門與隱藏值向量的權值;bi、bz、bs、bo分別代表輸入門、遺忘門、中間狀態(tài)和輸出門偏置矩陣;σ(·)、φ(·)分別表示 sigmoid 及 Tanh 激活函數(shù);表示拼接前向隱藏向量與后向隱藏向量得到編碼網(wǎng)絡結果ft.
如圖1所示,RNN-T引入解碼網(wǎng)絡對CTC輸出獨立性假設進行優(yōu)化,該網(wǎng)絡對上一時刻非空預測結果進行再編碼,其結果如式(8)所示:
同理,fDec(·)表示深度神經(jīng)網(wǎng)絡構建的函數(shù),且該文解碼層均采用LSTM網(wǎng)絡,具體計算與式(2)~(6)一致,解碼網(wǎng)絡最終結果gu與ht相等.
聯(lián)合網(wǎng)絡將編碼網(wǎng)絡與解碼網(wǎng)絡組合(圖1),得到組合序列,再通過Softmax函數(shù)得到下一時刻概率分布,其計算如式(9)~(10)所示:
式(9)~(10)中,ft、gu分別表示編碼向量與解碼向量,并將上述二者組合成聯(lián)合向量wt,u,進而通過Softmax函數(shù)計算其后驗概率. 式(11)表示RNN-T損失函數(shù),其值可通過前向-后向算法計算. 其中,y*表示給定序列的標簽,由于式(10)結果均可微. 因此,可通過隨時間反向傳播(Backpropagation through time, BPTT)算法[18]進行參數(shù)訓練.
DenseNet是由Huang等[19]提出的一種深度學習算法,其采用密集連接方式加強特征的信息重用,從而提升網(wǎng)絡的性能,其模型結構如圖2所示. 曹毅等[20]結合DenseNet和N階馬爾可夫模型提出了N階DenseNet,該模型在避免梯度消失的前提下有針對性地減少了特征圖層之間的連接,極大地減少了特征冗余,使得模型的收斂速度更快. 式(12)可用于表示DenseNet計算結果:
圖2 DenseNet模型結構圖Fig.2 Model structure of DenseNet
其中,l表示當前層數(shù),[x0,x1,···,xl-1]表示拼接前l(fā)-1層的特征圖,Hl表示拼接前l(fā)-1層特征圖,xl表示第l層特征圖.
受上述算法啟發(fā),首先使用DenseNet提取原始特征的高維信息,其不僅提升特征的信息重用[21],而且可以減輕梯度問題[22];然后利用LSTM網(wǎng)絡序列建模時的優(yōu)勢,對提取的高維信息進行序列建模;最終構建DL-T聲學模型,其具體編碼網(wǎng)絡模型結構如圖3所示.
圖3 DL-T編碼網(wǎng)絡結構圖Fig.3 Encoder network structure of a DL-T
遷移學習(Transfer learning, TL)是深度學習優(yōu)化算法中的研究熱點,其旨在基于源域在解決任務中獲得知識進而改善目標任務的算法. 近年來,國內(nèi)外已有不少學者在此領域進行深入研究[15,23-24].Tian等[15]將預訓練模型作為RNN-T的初始模型,在此基礎上進行再訓練,使得RNN-T訓練難度降低;易江燕等[23]用遷移學習方法對帶噪語音進行聲學建模,該方法利用老師模型指導學生模型進行訓練,提高帶噪語音的魯棒性;Xue等[24]基于多任務學習理論,對聲學模型進行再訓練,從而降低模型的錯誤率.
有鑒于此,為進一步提高聲學模型準確率,本文擬用遷移學習方法對聲學模型進行優(yōu)化. 該方法在初始模型的基礎上融合優(yōu)化算法重訓練得到最終模型,其訓練方法如圖4所示.
圖4 遷移學習方法結構圖Fig.4 Method of transfer learning
圖4中,虛線部分表示初始訓練模型,其包含編碼網(wǎng)絡、解碼網(wǎng)絡及聯(lián)合網(wǎng)絡3部分,其具體工作原理如下:
(1)首先以聲學特征序列X為編碼網(wǎng)絡輸入;
(2)其次,用字序列y通過詞嵌入[25]變換作為解碼網(wǎng)絡輸入,該輸入序列將高維稀疏字序列映射低維密集的特征空間,從而減少輸入?yún)?shù)量便于模型訓練;
(3)最后,聯(lián)合網(wǎng)絡將編碼網(wǎng)絡與解碼網(wǎng)絡相結合,通過softmax函數(shù)輸出結果.
實線為遷移學習部分,該部分RNN-T結構與初始模型一致,將初始模型參數(shù)重訓練得到遷移學習之后的模型,其計算結果如式(13)所示:
其中,Pi、Pf分別表示初始模型以及遷移學習模型的參數(shù),其中Pi=P(ki|ti,ui),Pf=P(kf|tf,uf);Dfi(·)為本文遷移學習的優(yōu)化目標,其用Pi通過參數(shù)優(yōu)化得到Pf,旨在最小化Dfi(·)目標函數(shù).
為驗證DL-T聲學模型相較于RNN-T訓練時收斂速度更快且具有良好的準確率,本節(jié)基于Aishell-1數(shù)據(jù)集在實驗平臺上開展語音識別的研究.
實驗采用Aishell-1[16]數(shù)據(jù)集進行實驗,該數(shù)據(jù)集是中文語音標準數(shù)據(jù)集,其采樣率為16000 Hz,其中訓練集、驗證集以及測試集分別包含120098、14326以及7176條標準語料,數(shù)據(jù)總時長約為178 h,并且訓練集、驗證集和測試集語料間均無交疊.
為驗證DL-T兼具預測錯誤率低與收斂速度快的優(yōu)點,基于Aishell-1數(shù)據(jù)集,論文將開展聲學模型研究,其具體參數(shù)配置如下:
(1)特征提?。夯趉aldi[26]語音識別開發(fā)包提取80維FBank特征,其中窗長25 ms,幀移為10 ms,然后左拼接3 幀[15],共320 維,用其作為聲學模型輸入. 訓練階段,對所有語料按幀由短到長進行排序,共4335個字作為建模單元.
(2)聲學模型參數(shù):本文基于Pytorch[27]構建聲學模型. 初始訓練階段,優(yōu)化準則采用隨機梯度下降,學習率初始設置為0.001;遷移學習階段,優(yōu)化準則不變,但學習率降為0.00001. 且所有訓練階段,Linear和DenseNet網(wǎng)絡均采用反向傳播算法進行訓練,LSTM模型采用BPTT算法進行優(yōu)化參數(shù). RNN-T基線模型中,編碼網(wǎng)絡設置DenseNet為4層,特征圖增長率[19-20]為4,初始輸入為單通道的語音特征;采用3層BLSTM模型進行序列建模,隱藏神經(jīng)元個數(shù)為320;解碼網(wǎng)絡設置為1層單向LSTM網(wǎng)絡,神經(jīng)元數(shù)目為320;聯(lián)合網(wǎng)絡采用2層全連接網(wǎng)絡,其神經(jīng)元數(shù)目依次為512和4335.
(3)解碼:本文采用束搜索對最后概率分布進行解碼[13],解碼寬度為10. 并且,采用訓練集數(shù)據(jù)構建5-元語言模型對聲學模型結果進行修正,初始設置語言模型權重為0.3,式(14)表示RNN-T聲學模型與語言模型聯(lián)合解碼定義:
其中,PRNN-T(y*|X)與PLM(y*)分別表示RNN-T聲學模型以及LM生成y*的概率,α代表語言模型權重,最終通過Argmax(·)函數(shù)將上述計算結果映射為對應的序列Yfinal.
3.3.1 基線模型
RNN-T基線模型可為DL-T提供對比模型并能驗證其聲學模型的有效性. 為得到RNN-T基線模型,基于3.2中設置的初始實驗參數(shù),對基線模型中不同參數(shù)進行對比研究. 首先對編碼網(wǎng)絡中BLSTM網(wǎng)絡的層數(shù)進行實驗,得到編碼階段最優(yōu)模型;其次,再增加解碼網(wǎng)絡中單向LSTM層數(shù);最終采用最低的錯誤率(CER)模型作為基線(Baseline)模型,具體實驗結果如表1所示.
表1 RNN-T基線模型實驗結果Table 1 Experimental results of RNN-T’s baseline %
表1中Dev CER、Test CER分別表示驗證集錯誤率和測試集錯誤率. 其中,“E3D1”表示編碼網(wǎng)絡中BLSTM層數(shù)為3,解碼網(wǎng)絡中LSTM網(wǎng)絡層數(shù)為 1;“E3D1(TL)”表示“E3D1”聲學模型經(jīng)過遷移學習(TL)訓練得到的模型;遷移學習與語言模型共同優(yōu)化下,得到“E3D1(TL+LM)”聲學模型.
從表1不難看出:
(1)編碼網(wǎng)絡初始設為3層,隨其層數(shù)增加,模型預測錯誤率出現(xiàn)先增后減趨勢,當模型編碼層數(shù)為4,且解碼層數(shù)為2時,聲學結果達到最優(yōu),其測試集錯誤率降至14.54%;
(2)RNN-T經(jīng)過重訓練可使得聲學模型錯誤率降低1.80%~6.13%,驗證了遷移學習可進一步提高RNN-T聲學模型準確率的結論;
(3)語言模型和聲學模型聯(lián)合解碼使得RNN-T的效果得到極大提升,相較于文獻[15],“E4D2(TL+LM)”聲學模型在驗證集與測試集的預測錯誤率分別相對降低9.87%和9.90%,模型的錯誤率降至10.65%.
綜上可得:(1)“E4D2(TL+LM)”為本文構建的RNN-T聲學模型,其錯誤率最低,選其作為基線模型具有合理性;(2)遷移學習可進一步降低初始模型錯誤率,通過插入語言模型可使得模型達到最優(yōu).
3.3.2 DL-T實驗結果
為驗證DL-T聲學模型相較于RNN-T訓練收斂速度快、預測錯誤率低. 基于3.2節(jié)設置DL-T初始參數(shù)訓練聲學模型,并與3.3.1節(jié)中RNN-T的實驗結果進行對比,其實驗損失函數(shù)曲線與錯誤率曲線如圖5、圖6所示.
圖5 基線模型實驗曲線圖. (a)初始訓練損失值曲線圖;(b)遷移學習損失值曲線圖;(c)初始訓練錯誤率曲線圖;(d)遷移學習錯誤率曲線圖Fig.5 Curves of the baseline model:(a) loss curve on initial training stage; (b) loss curve on transfer learning stage; (c) prediction error rate curve on initial training stage; (d) prediction error rate curve on transfer learning stage
圖6 DL-T實驗曲線圖. (a)不同聲學模型初始訓練損失值曲線圖;(b)不同聲學模型遷移學習損失值曲線圖;(c)不同聲學模型初始訓練錯誤率曲線圖;(d)不同聲學模型遷移學習錯誤率曲線圖Fig.6 Curves of the DenseNet-LSTM-Transducer: (a) loss curve of different acoustic models on initial training stage; (b) loss curve of different acoustic models on transfer learning stage; (c) prediction error rate curve of different acoustic models on initial training stage; (d) prediction error rate curve of different acoustic models on transfer learning stage
圖5中,“DE3D1”表示編碼網(wǎng)絡為DenseNet-LSTM結構(DenseNet結構與3.2節(jié)參數(shù)一致),其LSTM層數(shù)為3,解碼網(wǎng)絡中LSTM網(wǎng)絡層數(shù)為1的DL-T聲學模型. RNN-T以及DL-T實驗結果分別用虛線、實線表示. 圖5(a)和 5(c)分別表示初始訓練階段損失值曲線與錯誤率曲線,圖5(b)和5(d)分別表示遷移學習階段損失值曲線與錯誤率曲線.
從圖5(a)及 5(b)可看出:(1)隨著迭代次數(shù)的增加,聲學模型逐漸趨于收斂,損失值最終收斂到一個固定范圍內(nèi);(2)在初始訓練階段,DL-T收斂速度相較于RNN-T更快;在重訓練階段,RNN-T聲學模型損失值減小至0.25左右,DL-T可減小至0.15以下,證明了DL-T相較于RNN-T訓練收斂速度更快.
從圖5(c)與 5(d)可看出:(1)隨著迭代次數(shù)的增加,聲學模型預測錯誤率逐漸降低,最終降至12.0% ~ 15.0% 范圍內(nèi);(2)初始訓練階段,RNN-T 與DL-T預測錯誤率曲線均呈下降趨勢,但DL-T錯誤率相較于RNN-T低;重訓練階段,RNN-T預測錯誤率降至13.5% ~ 15.0%范圍內(nèi),DL-T預測錯誤率最低降至13.0%以下,該結果進一步驗證了DL-T可顯著降低聲學模型預測錯誤率. 其具體實驗結果如表2所示.
表2 DL-T實驗結果Table 2 Experimental results of DL-T %
表2為實驗具體結果,本文為得到最優(yōu)DL-T聲學模型. 首先,DenseNet與解碼網(wǎng)絡層數(shù)不變,分析編碼網(wǎng)絡中不同BLSTM層數(shù)對于DL-T的影響,從表2可得出,“DE4D2”為最優(yōu)的DL-T聲學模型. 然后固定編碼網(wǎng)絡不變,探索不同解碼網(wǎng)絡層數(shù)對模型的影響,從表2可得,當其層數(shù)為2時,模型達到最優(yōu),即為“DE4D2”模型,最終在測試集錯誤率可達13.45%. 從表2可得以下結論:(1)遷移學習對于DL-T效果顯著,使得模型的錯誤率降低0.90%~3.08%,再次驗證了其對于模型訓練的優(yōu)越性;(2)語言模型的線性插入可進一步降低聲學模型的錯誤率,最優(yōu)聲學模型錯誤率降低至10.34%;(3)必須指出的是:本文提出最優(yōu)的DL-T聲學模型相較于SA-T聲學模型[15],在驗證集和測試集上的預測錯誤率分別降低4.45%、1.15%,其相較于LAS聲學模型[28]在測試集上,錯誤率相對降低2.08%,證明了DL-T擅長聲學建模.
為分析RNN-T與DL-T的訓練與識別復雜度,分別選用“E4D2”與“DE4D2”兩種代表性聲學模型對其單輪訓練時間與單句解碼耗時進行實驗分析. 實驗結果表明:(1)“E4D2”與“DE4D2”單輪訓練時間分別約為150 s和155 s,“DE4D2”相較于前者單輪訓練時間只增加約5 s,說明DL-T對 RNN-T訓練時間影響較??;(2)“E4D2”與“DE4D2”單句解碼耗時分別約為910 ms與915 ms,“DE4D2”相較于前者單句解碼耗時僅相對增加0.55%,實驗結果進一步驗證了DL-T對于識別復雜度的影響較小.
為進一步驗證不同語言模型權重對于聲學模型結果的影響,表3給出了不同語言模型權重對于模型“DE4D2”的影響,語言模型的權重分別設置為0.2、0.3和0.4. 從表3實驗結果可得出,當權重值為0.3時,聲學模型的錯誤率最低,達到10.34%,聲學模型結果為最優(yōu).
表3 不同語言模型對聲學模型的影響Table 3 Effects of different language model weights on the acoustic model %
值得指出的是:綜合表1、表2與表3實驗結果可得出,DL-T相較于本文RNN-T基線模型,在驗證集、測試集錯誤率分別相對降低3.61%和2.94%,進一步驗證了DL-T相較于RNN-T可顯著降低其預測錯誤率,其最優(yōu)模型的具體訓練過程曲線圖如圖6所示.
為進一步展示最優(yōu)聲學模型實驗過程,圖6(a)~6(d)展示了“E4D1”、“E4D2”、“DE4D2”三種不同聲學模型的不同實驗結果,其中模型“DE4D2”為本文最佳結果,模型的最終錯誤率降至10.34%.圖6(a)、6(c)表示初始訓練結果,圖6(b)、6(d)表示遷移學習結果. 由圖6(a)與圖6(b)可以得出:(1)隨著迭代次數(shù)增加,模型趨于收斂,最終損失值收斂在 0.05~0.40范圍內(nèi);(2)“DE4D2”模型在初始訓練時相較于其他模型收斂速度最快,再次驗證了DL-T可有效解決RNN-T收斂速度較慢的問題.
從圖6(c)與圖6(d)可以得出:(1)三種聲學模型錯誤率總體呈下降趨勢,其錯誤率最終降到10.0%~14.0%區(qū)間;(2)結合表1與表2結果可知,“DE4D2”相較于“E4D1”、“E4D2”在測試集上錯誤率降低2.73%和0.31%,再次證明本文提出的DL-T模型可顯著降低模型錯誤率.
綜合表1~表2、圖5~圖6可得以下結論:
(1)從表1與圖5可得出:論文構建的RNN-T基線模型相較于文獻[15]基線模型,其驗證集與測試集預測錯誤率分別降低9.87%、9.90%,證明了本文構建的基線模型的有效性;
(2)基于圖5及圖6可得出,DL-T模型收斂速度相較于RNN-T模型更快,其值收斂于0.01~0.4范圍,驗證了DL-T可有效改善RNN-T收斂速度;
(3)從表1與表2可得出,DL-T相較于RNN-T基線模型在驗證集及測試集錯誤率分別相對降低3.61%、2.94%,其最終錯誤率降至10.34%,表明DL-T可降低聲學模型預測的錯誤率;
(4)值得指出的是:“DE4D2(TL+LM)”模型相較于SA-T模型[15],在驗證集和測試集上分別相對降低4.45%、1.15%,且其相較于LAS模型[28]在測試集上預測錯誤率降低2.08%,進一步證明了DL-T可顯著降低聲學模型錯誤率及其對于聲學建模的優(yōu)越性.
以 RNN-T 端到端語音識別聲學模型為研究對象,針對其在語音識別時存在預測錯誤率高、收斂速度慢的問題,提出了 DL-T 聲學模型及適用于 DL-T 的遷移學習方法.
(1)在研究RNN-T聲學模型的基礎上,搭建了該聲學模型系統(tǒng).
(2)提出了一種DL-T聲學建模方法,通過在編碼網(wǎng)絡中融入DenseNet網(wǎng)絡結構,其不僅能提取語音高維特征便于序列建模,又可加快模型訓練的收斂速度.
(3)提出了一種適用于DL-T的遷移學習方法,該方法主要在初始模型上重訓練得到更優(yōu)聲學模型,其可顯著地提升聲學模型準確率.
(4)基于Aishell-1開展了語音識別的研究,結果表明,相較于文獻[15]基線模型RNN-T,DL-T在驗證集及測試集預測錯誤率分別相對降低13.13%、12.52%,且其相較于SA-T、LAS聲學模型測試集預測錯誤率分別相對降低1.15%、2.08%,進一步證明了DL-T可提升聲學模型訓練收斂速度.
論文研究內(nèi)容對以 RNN-T 構建的語音識別聲學模型在模型優(yōu)化、理論研究與工程應用等方面均具有一定的指導意義.