基于閾值的英語語音自動識別系統(tǒng)研究

2020-09-02 07:14:46鄧麗君王濤

微型電腦應(yīng)用 2020年8期

鄧麗君王濤

摘要：

語音識別系統(tǒng)的關(guān)鍵在于噪聲的處理，主要包含兩個階段，即基于閾值的噪聲檢測和降噪處理，主要用于英語等語言的自動識別處理。在噪聲檢測階段，系統(tǒng)基于所收集的語音的信噪比（SNR）值自動確定何時提高語音質(zhì)量;在降噪處理階段，采用獨立分量分析（ICA）和子空間語音增強(qiáng)（SSE）來降低噪聲。通過實驗證明增強(qiáng)語音的SNR值超過接收到的噪聲語音的SNR值約20dB至25dB，降噪程序?qū)⒄Z音識別率提高了約15%至25%，因此該系統(tǒng)能夠降低噪聲對多種噪聲環(huán)境的影響，提高語音質(zhì)量，達(dá)到英語語音識別的目的。

關(guān)鍵詞：

語音識別系統(tǒng); 噪聲檢測; 降噪處理; 獨立分量分析; 語音增強(qiáng)

中圖分類號： TP 393

文獻(xiàn)標(biāo)志碼： A

Research on English Speech Automatic Recognition System Based on Threshold

DENG Lijun1， WANG Tao2

（1. School of Aviation Management Department， Xian Aeronautical Polytechnic Institute，Xian， Shanxi 710089， China;

2. Internet Information Center， Xian Aeronautical University，Xian， Shanxi ?710089， China）

Abstract：

The key to speech recognition system lies in the processing of noise. It mainly consists of two stages， namely thresholdbased noise detection and noise reduction processing for automatic recognition processing in English and other languages. During the noise detection phase， the system automatically determines the time to improve speech quality based on the signaltonoise ratio （SNR） value of the collected speech; in the noise reduction processing phase， independent component analysis （ICA） and subspace speech enhancement （SSE） are used to reduce noise. It is proved by experiments that the SNR value of the enhanced speech exceeds the SNR value of the received noise speech by about 20dB to 25dB， and the noise reduction program increases the speech recognition rate by about 15% to 25%， so the system can reduce noise for various noise environments. The impact of improving voice quality achieves the purpose of English speech recognition.

Key words：

speech recognition system; noise detection; noise reduction processing; independent component analysis; speechenhancement

0引言

自動語音識別（Automatic Speech Recognition，ASR）提供了用戶友好的交互方式，有效地將命令或請求傳送到人機(jī)界面的設(shè)備。這些設(shè)備可以自動分析接收到的數(shù)據(jù)，并采用識別結(jié)果一致的方式反饋用戶。近年來，對ASR的研究考慮了許多場景和應(yīng)用，許多文獻(xiàn)都涉及智能人機(jī)交互的ASR[1]，當(dāng)ASR系統(tǒng)用于真實環(huán)境中，特別是噪聲環(huán)境時，環(huán)境噪聲會嚴(yán)重影響語音質(zhì)量，同時環(huán)境噪聲會影響語音的信號分量，并對識別結(jié)果產(chǎn)生較大表示。為了解決噪聲問題，學(xué)者們已經(jīng)開發(fā)了許多減輕噪聲對ASR發(fā)展影響的方法[2]。

為了使ASR系統(tǒng)在嘈雜環(huán)境中更加穩(wěn)健，近年來人工神經(jīng)網(wǎng)絡(luò)（ANN），特別是深度神經(jīng)網(wǎng)絡(luò)（DNN）的方法已廣泛應(yīng)用于ASR的語音增強(qiáng)。 DNN的目標(biāo)是實現(xiàn)復(fù)雜的非線性數(shù)值函數(shù)，用于將嘈雜語音的對數(shù)似然譜特征直接映射到相應(yīng)的干凈語音中。在DNN模型訓(xùn)練中，一些研究開發(fā)了混合語音和噪聲數(shù)據(jù)的多風(fēng)格訓(xùn)練策略。盡管基于DNN的方法可以實現(xiàn)ASR的高精度改進(jìn)，但DNN模型需要更多的訓(xùn)練數(shù)據(jù)來進(jìn)行綜合，訓(xùn)練數(shù)據(jù)的數(shù)量甚至超過基于HMM的系統(tǒng)[34]。

針對當(dāng)前業(yè)界研究的ASR方法，本文主要考慮兩個方面：第一個是降噪方法，第二個是訓(xùn)練數(shù)據(jù)的方式。在降噪方法中，這項工作試圖開發(fā)一種基于盲源分離（Blind Source Separation，BSS）的方法來消除環(huán)境噪聲。由于環(huán)境噪聲在許多環(huán)境中是未知的和變化的，因此不需要噪聲信息的降噪方法足以將噪聲與有噪聲的語音分離。為了提高語音質(zhì)量以進(jìn)行識別，將另一種語音增強(qiáng)方法與基于BSS的方法相結(jié)合。密切調(diào)查不同的噪聲情況，當(dāng)噪聲信號間歇性時，噪聲信號在幾個時間間隔內(nèi)可能不明顯。在這種情況下，不能使用降噪，因為過濾語音可能導(dǎo)致語音失真并降低語音識別率。為了防止語音過度過濾的情況，本文提出了一種稱為基于閾值的噪聲檢測的預(yù)處理方案。所提出的方案可以根據(jù)噪聲的大小自動確定何時應(yīng)該消除噪聲，關(guān)于訓(xùn)練數(shù)據(jù)，由于訓(xùn)練數(shù)據(jù)量和訓(xùn)練時間的原因，在這項工作中使用基于HMM的訓(xùn)練系統(tǒng)，使用隱馬爾可夫模型工具包（HTK）實現(xiàn)了基于HMM的訓(xùn)練系統(tǒng)[5]。

因此本文提出了一種基于HMM的語音識別系統(tǒng)，用于在嘈雜環(huán)境中進(jìn)行人機(jī)交互。該系統(tǒng)可分為兩個程序，第一個是基于閾值的噪聲檢測，第二個是組合降噪。該系統(tǒng)具有以下四個屬性：訓(xùn)練數(shù)據(jù)僅需要干凈的語音數(shù)據(jù)，建議的預(yù)處理方案以防止過濾語音，降低噪聲而沒有預(yù)測的噪聲信息，以及對降低環(huán)境噪聲和提高語音質(zhì)量的有效效果。

1系統(tǒng)設(shè)計

本節(jié)主要對系統(tǒng)實現(xiàn)過程中所涉及的方案進(jìn)行詳細(xì)介紹，包含噪聲檢測與噪聲處理過程相關(guān)的算法。

（1）基于閾值的噪聲檢測

如圖1所示。

圖1顯示了建議的基于閾值的噪聲檢測的過程，采用線性陣列在嘈雜的環(huán)境中收集語音信號。在時域中，

觀測信號x1（t）和x2（t）分別建模如公式（1）和（2）中的矩陣和向量，其中y（t）和n（t）分別表示純凈的語音信號和噪聲信號。由于觀測信號x1（t）類似于x2（t），因此在隨后的VAD，噪聲功率計算和SNR確定中將信號x1（t）作為主信號如式（1）、式（2）。

VAD的目的是定位接收信號的語音信號分量，在VAD中執(zhí)行兩個稱為短時能量和過零率（ZCR）的特征。短時能量表示為公式（3），其中w（n）是選定的窗函數(shù)，L是窗的長度，在系統(tǒng)中，默認(rèn)窗口函數(shù)是漢明窗口，其在公式（4）中定義，可以找到具有高振幅的信號并將其視為語音信號，如式（3）、式（4）。

公式（5）表示ZCR，如果觀測信號x1（t）的幅度為正，則z（t）等于1，否則為零。ZCR可用于發(fā)現(xiàn)有聲信號，其具有比無聲信號或噪聲更低的ZCR。在VAD中，具有較低短時能量和較高ZCR的非語音信號可被視為噪聲信號并用于噪聲功率計算，如式（5）。

（2）綜合降噪過程

綜合降噪程序依托ICA完成BSS過程。對公式（1）和公式（2）中觀察到的信號使用未知的混合矩陣A表示，入宮時（6）所示，其中語音信號y（t）和噪聲信號n（t）被認(rèn)為是原始源信號如式（6）。

與公式（6）一致，為了從接收信號x1（t）和x2（t）獲得單獨的源信號，估計去混合矩陣。公式（7）表示去混合矩陣，其中s1（t）和S2（t）是分離的信號，矩陣W是去混合矩陣，分離的信號類似于原始源信號如式（7）。

為了計算解混矩陣，ICA利用高階統(tǒng)計量和信息理論來測量屬性的非高斯特征，可以使用非高斯特性的分析來獲得去混合矩陣。在ICA過程中，兩個源信號必須相互獨立，為了解決相互獨立的情況，在ICA中使用了兩種稱為信號中心和信號白化的方法。這些方法確保源信號可以變得不相關(guān)，如公式（8）表示執(zhí)行信號中心，其中X是接收信號，E[X]是接收信號的平均值如式（8）。

（3）語音識別過程

系統(tǒng)利用HTK作為語音識別中的語音識別器，關(guān)于語音語料庫的選擇，該系統(tǒng)采用普通話語音數(shù)據(jù)庫來訓(xùn)練聲學(xué)模型，在HTK識別器中訓(xùn)練了許多聲學(xué)模型。對于語音的特征提取，HTK使用Mel頻率倒譜系數(shù)（MFCC）作為語音識別中的語音特征。在識別過程中，基于HTK的語音識別器分析語音特征并選擇最合適的語音內(nèi)容作為識別結(jié)果。

2實驗分析

為了驗證所提算法的有效性，采用16DOF RobotinnoTM的人形機(jī)器人。對于線性陣列，在人形機(jī)器人的肩部上放置兩個間隔為0.1m的全向麥克風(fēng)，測試環(huán)境的布局圖，如圖2所示。

實驗室的長度和寬度分別為7米和6米;線性陣列以8 kHz的采樣率收集測試語音信號;從機(jī)器人到揚聲器的距離為1.5米，從機(jī)器人到噪聲源的距離為2米。SNR閾值ε設(shè)置為10。在實驗中，三個測試方向（30°，60°和90°）用于收集語音信號，三個方向（45°，90°和135°）用于記錄噪聲信號。

在測試語音記錄中，系統(tǒng)記錄噪聲語音，SNR值為0 dB，5 dB和10 dB。為了比較增強(qiáng)語音的質(zhì)量和帶噪聲的語音，從實驗結(jié)果估計兩個客觀語音質(zhì)量測量，SNR和分段SNR。其中公式（9）和（10）分別表示SNR和分段SNR，其中y（t），y0（t），N，M和m分別是帶噪語音，增強(qiáng)語音，語音信號的長度，幀數(shù)和幀索引如式（9）、式（10）。

使用所提出的方法比較有噪聲語音和增強(qiáng)語音的平均SNR和分段SNR值，如表1—表3所示。

在實驗中使用具有三個SNR值（0 dB，5 dB和10 dB）和五種類型噪聲的語音。增強(qiáng)語音的平均SNR值超過有噪聲的語音約20 dB至25 dB;增強(qiáng)語音的分段SNR值也優(yōu)于有

噪聲語音。兩個實驗結(jié)果表明，所提出的系統(tǒng)改善了各種嘈雜環(huán)境中的語音質(zhì)量。

有噪聲語音的語音識別率，如圖3所示。

與文獻(xiàn)[67]的研究方法與所提出的基于HMM的系統(tǒng)進(jìn)行比較。在實驗中檢查了具有0 dB，5 dB和10 dB的有噪聲語音的三個SNR值。結(jié)果表明，該方法可以比噪聲語音提高識別率約15%至25%，證明所提出的采用組合噪聲分離和語音增強(qiáng)方法的系統(tǒng)可以有效地去除多種類型的噪聲，提高語音識別過程的語音質(zhì)量。

3總結(jié)

本文開發(fā)了一種語音識別系統(tǒng)，可以嵌入交互式機(jī)器人的設(shè)備中，以識別嘈雜環(huán)境中的語音內(nèi)容。該系統(tǒng)可分為兩個程序：第一個是提議的預(yù)處理，稱為基于閾值的噪聲檢測，第二個是組合降噪。所提出的預(yù)處理方案可以評估噪聲的大小，以防止在背景噪聲很小時過度過濾語音的情況。實驗結(jié)果表明，該系統(tǒng)能夠消除環(huán)境噪聲，提高語音識別率。與噪聲語音相比，所提出的方法產(chǎn)生更高的SNR值和語音識別率。

參考文獻(xiàn)

[1]

Mohamad S N A， Jamaludin A A， Isa K. Speech semantic recognition system for an assistive robotic application[C]. IEEE International Conference on Automatic Control & Intelligent Systems. Negeri Sabah Malaysia， 21 October， 2017， IEEE， 2017：9095.

[2]Vu T T， Bigot B， Chng E S. Combining nonnegative matrix factorization and deep neural networks for speech enhancement and automatic speech recognition[C]. 2016 IEEE International Conference on Acoustics， Speech and Signal Processing （ICASSP）. Shanghai， China， 2025 March 2016， IEEE， 2016：499503.

[3]張敏，杜丹陽，李洪海.智能語音控制系統(tǒng)設(shè)計[J].工業(yè)控制計算機(jī)，2019，32（1）：144145.

[4]侯強(qiáng)，侯瑞麗.機(jī)器翻譯方法研究與發(fā)展綜述[J].計算機(jī)工程與應(yīng)用，2019，55（10）：3035.

[5]程建軍，胡立志.關(guān)于深度學(xué)習(xí)的語音識別應(yīng)用研究[J].科技經(jīng)濟(jì)導(dǎo)刊，2019，27（12）：189.

[6]Betkowska A， Shinoda K， Furui S. Speech Recognition using FHMMS Robust Against Nonstationary Noise[C]. IEEE International Conference on Acoustics. Hongoluli， HI， USA， 04 June 2007. IEEE， 2007：10291032.

[7]Hong J， Cho K， Hahn M， et al. Multichannel noise reduction with beamforming and maskingbased Wiener filtering for humanrobot interface[C]. The 5th International Conference on Automation， Robotics and Applications， ICARA 2011， Wellington， New Zealand， December 68， 2011. IEEE， 2011：39383941.

（收稿日期： 2019.06.26）

基金項目：

2018陜西教育科學(xué)“十三五”規(guī)劃課題（SGH18H434）;

2018西安航空職業(yè)技術(shù)學(xué)院教改課題（18XHJG022）

作者簡介：

鄧麗君（1985），女，碩士，講師，研究方向：英語信息化教學(xué)和英語語言文學(xué)。

王濤（1984），男，碩士，講師，研究方向：圖形圖像處理、單片機(jī)和U3D游戲開發(fā)，項目管理，網(wǎng)絡(luò)、數(shù)據(jù)庫和大數(shù)據(jù)。

文章編號：1007757X（2020）08004803