語譜圖傅里葉變換的二字漢語詞匯語音識別

2017-09-07 17:45:33潘迪梁士利魏瑩許廷發(fā)王雙維

現(xiàn)代電子技術 2017年16期

潘迪　梁士利　魏瑩　許廷發(fā)　王雙維

摘要：以語音信號的語譜圖作為處理對象，提出一種基于寬窄帶語譜圖傅里葉變換頻域圖像二進寬度分帶投影特征融合的二字漢語詞匯語音識別算法。首先，對寬窄語譜圖傅里葉變換頻域圖的圖像意義以及相應的語音特性進行分析；然后，分別對寬窄帶語譜圖頻域圖像進行二進寬度分帶列投影和行投影，將投影值作為語音識別的第一個特征參數(shù)集合和第二個特征參數(shù)集合，將以上兩個特征集進行特征融合作為二字詞匯語音識別的特征量，以支持向量機為分類器實現(xiàn)二字漢語詞匯語音識別。實驗結果表明，該方法對特定人二字漢語詞匯語音的識別率可達96.8%，對非特定人二字漢語詞匯語音的識別率可達98.8%，為解決漢語詞匯整體語音識別提供了一種新的思路。

關鍵詞：傅里葉變換；語譜圖；特征融合；支持向量機

中圖分類號： TN912?34 文獻標識碼： A 文章編號： 1004?373X（2017）16?0013?06

Abstract： A speech recognition algorithm of two?word Chinese vocabulary is proposed， which takes the spectrogram of speech signals as a processed object， and is based on binary width zoning?band projection feature fusion of the broad?band and narrow?band spectrogram images in Fourier transform domain. First， the image significance of Fourier transform domain image in the broad?band and narrow?band spectrogram and their corresponding speech characteristics are analyzed. Then， the binary width zoning?band column projection and line projection of the broad?band and narrow?band spectrogram frequency domain image are carried out respectively. The projected value is taken as the first and second feature parameter sets for speech recognition. The above two feature sets are fuzed according their features as the feature value of two?word vocabulary speech recognition. Taking the support vector machine （SVM） as a classifier to realize the speech recognition of two?word Chinese vocabulary. The experiment results show that the recognition rate of this method can reach to 96.8% for specific persons and 98.8% for non?specific persons. The proposed method provides a new way for vocabulary recognition.

Keywords： Fourier transform； spectrogram； feature fusion； support vector machine

0 引言

語音識別技術就是讓相應的設備通過識別和理解兩個過程把語音信號轉變?yōu)橄鄳拿罨蛭募母呖萍技夹g。近幾年來，語音識別技術的理論研究得到了飛速的發(fā)展，相應的應用實現(xiàn)也越來越貼近人們的生活，從而大大提高了相應的工作效率和生活品質(zhì)[1]。

一般來說，語音識別的方法有四種：基于聲道模型和語音知識的方法、模板匹配的方法、隨機模型的方法和利用人工神經(jīng)網(wǎng)絡的方法。2002年，孫光民研究了基于神經(jīng)網(wǎng)絡的中文孤立詞語音識別技術，將時間規(guī)整算法與神經(jīng)網(wǎng)絡相結合，組成一個混合級聯(lián)神經(jīng)網(wǎng)絡語音識別系統(tǒng)。利用該方法對小詞表漢語孤立詞進行語音識別實驗，獲得了98.25%的正確識別率[2]。2005年，林遂芳等人提出一種基于動態(tài)時間規(guī)整（DTW）和學習矢量量化（LVQ）神經(jīng)網(wǎng)絡的語音識別方法。該方法用動態(tài)時間規(guī)整算法先對語音信號進行時間規(guī)整，然后通過學習矢量量化神經(jīng)網(wǎng)絡進行語音的分類識別。大量實驗表明，采用DTW/LVQ混合模型的識別的正確率[3]為97.9%。2009年，張軍等人針對動態(tài)時間規(guī)整（DTW）對孤立詞端點檢測準確性過度依賴的問題，采用放寬端點和限定動態(tài)規(guī)整計算范圍結合的算法解決此問題，該算法不僅更準確地放松前后端點降低端點檢測的敏感度，而且結合對動態(tài)規(guī)整計算范圍的限定，減少計算量，提高執(zhí)行效率。實驗結果發(fā)現(xiàn)采用改進后的DTW算法，平均識別率[4]達到91.8%。同年，吳金南等人針對傳統(tǒng)LVQ算法計算量大，泛化能力不強的缺點，采用改進的LVQ算法（LoPLVQ），以縮短訓練時間，提高識別率，增強分類器的泛化能力，并且DTW的時間規(guī)整能力強，綜合了兩者的優(yōu)點，使得新系統(tǒng)在語音識別方面效果顯著。實驗結果表明，常用漢字發(fā)音識別率[5]最高可達99.1%。2010年，肖利君提出了整體路徑約束DTW算法（ADTW），并用Matlab語言將改進的語音識別算法編程，仿真表明該算法能有效地提高識別率并有著極好的魯棒性。對于一定的孤立詞匯，整體路徑約束DTW算法的識別率[6]達到97.5%。2014年，陳孟元在提取MFCC的基礎上，整合差分倒譜參數(shù)作為語音的特征參數(shù)，并對現(xiàn)有的DTW算法加以改進，節(jié)省了系統(tǒng)匹配的計算時間，使其具有一定的魯棒性。分別對普通話語音、湖北話語音、安徽語音和閩南語音進行測試，每種語音有5個測試模板組，每個模板組將0～9這10個數(shù)字語音重復10遍，包括100個測試語音，系統(tǒng)對所有測試模板組的平均識別率[7]為94.55%。endprint

以往基于語譜圖的語音識別工作，僅在語譜圖本身的空域結構中直接尋找特征，并沒有充分利用語譜圖作為可視化圖像的性質(zhì)?？紤]到語譜圖表征語音特性體現(xiàn)在紋絡結構上，而圖像紋絡結構更容易由圖像的頻域描述。因此，本文對語譜圖進行再次傅里葉變換，將其圖像空域轉換至圖像頻域，分別對寬窄帶語譜圖頻域圖像進行二進寬度分帶列投影和行投影，將投影值進行融合作為語音識別的特征量，以支持向量機為分類器。實驗表明：本方法對特定人二字漢語詞匯語音的識別率可達96.8%以及對非特定人二字漢語詞匯語音的識別率可達98.8%，為解決漢語詞匯整體語音識別提供了一種新的思路。

1 寬窄帶語譜圖意義

語譜圖（Spectrogram）是表示語音頻譜隨時間變化的圖形，它采用二維平面來表達三維信息，其縱軸為頻率，橫軸為時間，任一給定頻率成分在給定時刻的強弱用相應點的灰度或色調(diào)的濃淡來表示。語譜圖中顯示了大量的與語音的特性有關的信息，它綜合了頻譜圖和時域波形的特性，明顯地顯示出語音頻譜隨時間的變化情況。所以，語譜圖所承載的信息量遠遠大于單純時域和單純頻域承載信息量的總和[8]。

窄帶語譜圖有較高的頻率分辨率，在譜圖上能顯示出兩個純音，但其時間分辨率較差，看不出兩個純音所產(chǎn)生的拍音[9]。因此，作為詞匯的窄帶語譜圖，可以反映詞匯整體的基頻及各次諧波的時間變化。窄帶語譜圖中基頻及各次諧波體現(xiàn)為等間隔的橫杠，從圖像角度，這些等間隔的橫杠反映了圖像豎直方向上的周期特征。如果將語譜圖進行傅里葉變換，即由語譜圖的空域轉換到語譜圖的頻域，則上述橫杠的周期性表現(xiàn)為語譜圖頻域豎直方向上的基頻。

寬帶語譜圖有較高的時間分辨率，在譜圖上能顯示兩個純音所產(chǎn)生的拍音，但其頻率分辨率較差，看不出兩個純音。因此作為詞匯的寬帶語譜圖，可以觀察頻譜包絡，以便確定共振峰，同時也可以給出精確的時間結構。從圖像角度，這些等間隔的豎條反映了圖像水平方向上的周期特征。如果將語譜圖進行傅里葉變換，即由語譜圖的空域轉換到語譜圖的頻域，則上述豎條的周期性表現(xiàn)為語譜圖頻域水平方向上的基頻。

本文以寬窄帶語譜圖作為研究對象，語音的頻率特征和時間特征都得到深入體現(xiàn)。所以，更好地反映語音信號的整體特性，為解決漢語詞匯整體語音識別提供了一種新的思路。

2 特征級圖像融合

特征級圖像融合是指從各個信源圖像中提取特征信息，并將其進行綜合分析和處理的過程[10]。特征級圖像融合主要包含兩個步驟：

（1）提取特征，提取的特征信息應是像素信息的充分表示量或充分統(tǒng)計量，如邊緣、形狀、輪廓、角、紋理、相似亮度區(qū)域、相似景深區(qū)域等；

（2）對提取的特征進行融合，在進行融合處理時，所關心的主要特征信息的具體形式和內(nèi)容與多源圖像融合的應用目的和場合密切相關。

本文將寬帶語譜圖頻域圖像進行二進寬度分帶列投影得到的特征量與窄帶語譜圖頻域圖像進行二進寬度分帶行投影得到的特征量進行融合，以此對二字漢語詞匯進行語音識別。

3 語譜圖頻域圖像矩陣的特征提取

3.1 語譜圖樣本構成

使用Cool Edit Pro 2.0軟件進行語音錄制，采樣率為44.1 kHz ，使得語譜圖頻域表達范圍為0～22 kHz，單聲道，16 b量化。共10人（男、女各5人）10個詞匯的讀音樣本，10個詞匯均為二字詞匯，重復10遍，即每個詞匯有10個樣本。一個詞匯的語音時長約為1.2 s，10人的10個詞匯共為1 000個語音樣本文件。所有語音樣本文件轉化為Matlab數(shù)據(jù)文件，即語音樣本序列。

3.1.1 窄帶語譜圖樣本構成

窄帶語譜圖樣本構成是通過對每個樣本序列進行分幀，幀長1 024點，為了保持其連續(xù)性，采用重疊率為25%的幀移量；另外，為了移去直流分量和加權高頻分量，采用漢明窗（Hamming）對信號進行加權，每個樣本分為54幀，構造出1 024行54列時域分幀矩陣。對時域分幀矩陣做FFT，生成1 024行54列時頻分析矩陣，頻域分辨率為43 Hz。時頻分析矩陣的模矩陣即為樣本所對應的語譜圖矩陣。由于傅里葉變換具有對稱性，取該矩陣的上半部或下半部作為語譜圖即可，因此，每一幅語譜圖的矩陣為512行54列，共1 000幅灰度圖像。

3.1.2 寬帶語譜圖樣本構成

寬帶語譜圖樣本構成是通過對每個樣本序列進行分幀，幀長128點，窗函數(shù)采用漢明窗，每個樣本分為410幀，構造出128行410列時域分幀矩陣。對時域分幀矩陣做FFT，生成128行410列時頻分析矩陣，頻域分辨率為344 Hz。時頻分析矩陣的模矩陣即為樣本所對應的語譜圖矩陣。由于傅里葉變換具有對稱性，取該矩陣的上半部或下半部作為語譜圖即可，因此，每一幅語譜圖的矩陣為64行410列，共1 000幅灰度圖像。以上過程本文形成了參數(shù)可調(diào)的Matlab語譜圖生成程序，以備隨時調(diào)用。為了消除由于音量不同造成的各個樣本幅度差異，對每個圖像矩陣均進行歸一化處理。

3.2 語譜圖特征提取

語譜圖圖像中像素的灰度值代表了信號在相應頻率、相應時刻的幅度比重?；趫D像處理思路，對其進行頻譜分析，將語譜圖圖像進行再次傅里葉變換，形成語譜圖圖像頻域特性矩陣，并將頻譜低頻部分移到中心處。通過分析其幅頻特性，可發(fā)現(xiàn)圖像的頻域矩陣是轉置對稱矩陣，其可完全描述圖像幅頻特征的獨立子陣是上半子陣，或下半子陣，或左半子陣，或右半子陣，這里選擇對窄帶語譜圖上半子陣進行二進寬度分帶行投影，寬帶語譜圖左半子陣進行二進寬度分帶列投影方法提取特征量。這種投影反映了詞匯發(fā)音全過程中語音基頻及其諧波關系的總體特性，同時還反映了語圖條紋邊緣梯度的整體特性。實驗表明，不同詞匯其相應的上述總體特性具有顯著性差異。

4 實驗仿真與結果分析

4.1 系統(tǒng)設置endprint

本次語音樣本采用10人的10個二字詞匯進行錄制而成，采樣頻率為44.1 kHz，單聲道，16 b量化，其中每個詞匯10段重復錄音，一共是1 000個語音數(shù)據(jù)樣本。為了采樣數(shù)據(jù)的準確性和可說服性，將每個人的10個二字詞匯的每前5遍作為訓練集，后5遍作為測試集，即前500個語音數(shù)據(jù)作為訓練集，后500個語音數(shù)據(jù)作為測試集。在訓練階段，為了后面的數(shù)據(jù)處理的方便和保證程序運行時收斂加快而進行了歸一化處理，將前500個語音訓練樣本特征數(shù)據(jù)存入數(shù)據(jù)庫，作為支持向量機的訓練模板，對其進行訓練。在檢測階段，將后500個語音樣本中提取出的特征數(shù)據(jù)放入到訓練好的網(wǎng)絡中，對相應的二字詞匯進行語音檢測。

4.2 仿真結果

4.2.1 特定人二字漢語詞匯語音識別的仿真結果

對窄語譜圖矩陣進行二次傅里葉變換之后，構造每個詞匯的上半子陣的左半部分7行10列二進寬度分帶投影矩陣和每個詞匯的上半子陣的右半部分7行10列二進寬度分帶投影矩陣。將上半子陣的左半部分小矩陣和上半子陣的右半部分小矩陣合在一起形成一個14行10列的大矩陣。同時，對寬帶語譜圖矩陣進行二次傅里葉變換之后，構造每個詞匯的右半子陣的上半部分10行2列二進寬度分帶投影矩陣和每個詞匯的右半子陣的下半部分10行2列二進寬度分帶投影矩陣。將右半子陣的上半部分小矩陣和右半子陣的下半部分小矩陣分別轉置后合在一起形成一個4行10列的大矩陣，將兩個大矩陣合成一個18行10列的矩陣，作為特定人二字詞匯語音識別特征量。一個人的10個詞匯10遍得到10組數(shù)據(jù)，10個人即可得到100組數(shù)據(jù)，分別相應地將每個人的10個詞匯前5遍作為訓練樣本數(shù)據(jù)，后5遍作為檢測樣本數(shù)據(jù)。本文只選擇一組訓練樣本數(shù)據(jù)和檢測樣本數(shù)據(jù)給予顯示，訓練樣本數(shù)據(jù)見表1，檢測樣本數(shù)據(jù)見表2。支持向量機的參數(shù)是：通過支持向量機來實現(xiàn)10人的10個詞匯的語音識別，由于特征向量的維數(shù)是18維，因此輸入維度是18維，中間層內(nèi)積核函數(shù)維度是18維，本文是對10人的10個詞匯的語音識別，所以采用基數(shù)詞1～10的編碼方式，即1維十進制輸出。通過前50組數(shù)據(jù)對支持向量機進行反復訓練，得到最佳適用模板，將后50組數(shù)據(jù)放入訓練好的模板中，對10個特定人的二字詞匯的語音識別正確率達到96.8%。

4.2.2 非特定人二字漢語詞匯語音識別的仿真結果

對窄語譜圖矩陣進行二次傅里葉變換之后，構造每個詞匯的上半子陣的左半部分6行10列二進寬度分帶投影矩陣和每個詞匯的上半子陣的右半部分6行10列二進寬度分帶投影矩陣。

將上半子陣的左半部分小矩陣和上半子陣的右半部分小矩陣合在一起形成一個12行10列的大矩陣。同時，對寬帶語譜圖矩陣進行二次傅里葉變換之后，構造每個詞匯的右半子陣的上半部分10行3列二進寬度分帶投影矩陣和每個詞匯的右半子陣的下半部分10行3列二進寬度分帶投影矩陣。將右半子陣的上半部分小矩陣和右半子陣的下半部分小矩陣分別轉置后合在一起形成一個6行10列的大矩陣，將兩個大矩陣合成一個18行10列的矩陣，作為非特定人二字詞匯語音識別特征量。一個人的10個詞匯10遍得到10組數(shù)據(jù)，10個人即可得到100組數(shù)據(jù)，分別相應的將每個人的10個詞匯前5遍作為訓練樣本數(shù)據(jù)，后5遍作為檢測樣本數(shù)據(jù)。

本文只選擇一組訓練樣本數(shù)據(jù)和檢測樣本數(shù)據(jù)給予顯示，訓練樣本數(shù)據(jù)如表3所示，檢測樣本數(shù)據(jù)如表4所示。

支持向量機的參數(shù)是：通過支持向量機來實現(xiàn)10人的10個詞匯的語音識別，由于特征向量的維數(shù)是18維，因此輸入維度是18維，中間層內(nèi)積核函數(shù)維度是18維。本文是對10人的10個詞匯的語音識別，所以采用基數(shù)詞1～10的編碼方式，即1維十進制輸出。通過前50組數(shù)據(jù)對支持向量機進行反復訓練，得到最佳適用模板，將后50組數(shù)據(jù)放入訓練好的模板中，對10個非特定人的二字詞匯的語音識別正確率達到98.8%。

5 結論

本文提出了一種基于寬窄帶語譜圖傅里葉變換特征融合的二字漢語詞匯識別算法。以寬窄帶語譜圖作為研究對象，語音的頻率特征和時間特征都得到深入體現(xiàn)，所以，更好地反映了語音信號的整體特性。實驗結果表明，采用寬窄帶語譜圖融合得到的特征值對特定人二字詞匯語音的識別率可達96.8%，而采用寬窄帶語譜圖融合得到的特征值對非特定人二字詞匯語音的識別率可達98.8%，為解決漢語詞匯整體語音識別提供了一種新的思路。

參考文獻

[1] 何湘智.語音識別的研究與發(fā)展[J].計算機與現(xiàn)代化，2002（3）：3?6.

[2] 李永健.基于DTW和HMM的語音識別算法仿真及軟件設計[D].哈爾濱：哈爾濱工程大學，2009.

[3] 陳立偉.基于HMM和ANN漢語語音識別[D].哈爾濱：哈爾濱工程大學，2005.

[4] 王偉臻.基于神經(jīng)網(wǎng)絡的語音識別研究[D].杭州：浙江大學，2008.

[5] 王山海，景新幸，楊海燕.基于深度學習神經(jīng)網(wǎng)絡的孤立詞語音識別的研究[J].計算機應用研究，2015，32（8）：2289?2291.

[6] 田嵐，陸小珊，白樹忠.基于快速神經(jīng)網(wǎng)絡算法的非特定人語音識別[J].控制與決策，2002（1）：65?68.

[7] 孫光民，董笑盈.基于神經(jīng)網(wǎng)絡的漢語孤立詞語音識別[J].北京工業(yè)大學學報，2002，28（3）：289?292.

[8] 趙力.語音信號處理[M].2版.北京：機械工業(yè)出版社，2009.

[9] 張家騄.漢語人機語音通信基礎[M].上海：上?？茖W技術出版社，2010.

[10] 何友，王國宏，關欣.信息融合理論及應用[M].北京：電子工業(yè)出版社，2010.endprint