吳敏,馬延周
(1.信息工程大學(xué)洛陽(yáng)校區(qū)語(yǔ)言信息處理系,洛陽(yáng)471000;2.信息工程大學(xué)洛陽(yáng)校區(qū)基礎(chǔ)系,洛陽(yáng)471000)
語(yǔ)種識(shí)別,即語(yǔ)音的自動(dòng)語(yǔ)言辨識(shí)技術(shù)就是通過(guò)計(jì)算機(jī)識(shí)別出語(yǔ)音段所屬語(yǔ)言的過(guò)程。語(yǔ)音識(shí)別是通過(guò)計(jì)算機(jī)識(shí)別語(yǔ)音信號(hào)對(duì)應(yīng)的文字信息,在上世紀(jì)語(yǔ)音識(shí)別的研究都是基于單一語(yǔ)種的,識(shí)別系統(tǒng)并沒(méi)有考慮到語(yǔ)音信號(hào)可能來(lái)源于不同的語(yǔ)言,因此隨著語(yǔ)音識(shí)別技術(shù)的不斷發(fā)展,并且考慮到語(yǔ)音信號(hào)中可能出現(xiàn)的多語(yǔ)種現(xiàn)象,作為語(yǔ)音識(shí)別的重要分支的語(yǔ)種識(shí)別技術(shù)被提了出來(lái)。通過(guò)提供包含不同語(yǔ)言對(duì)應(yīng)的語(yǔ)音信號(hào),能讓系統(tǒng)識(shí)別出語(yǔ)音信號(hào)所屬語(yǔ)言。
語(yǔ)種識(shí)別在信息檢索和軍事領(lǐng)域都有很重要的應(yīng)用,包括自動(dòng)轉(zhuǎn)換服務(wù)、語(yǔ)音實(shí)時(shí)翻譯、多語(yǔ)種信息補(bǔ)償?shù)取T谛畔⒎?wù)方面,很多信息查詢系統(tǒng)數(shù)據(jù)庫(kù)都包含多語(yǔ)言數(shù)據(jù),并提供多語(yǔ)言服務(wù),在以往通過(guò)用戶選擇特定的語(yǔ)種來(lái)對(duì)數(shù)據(jù)進(jìn)行增刪改查等操作。這類服務(wù)被廣泛應(yīng)用于旅游行業(yè)、應(yīng)急服務(wù)、客服服務(wù)以及購(gòu)物和銀行業(yè)務(wù)。最常見(jiàn)的例子是手機(jī)營(yíng)業(yè)廳的電話客服服務(wù),在最開(kāi)始的機(jī)器處理過(guò)程中就提示用戶選擇語(yǔ)言。語(yǔ)種識(shí)別技術(shù)還能夠用于多語(yǔ)言機(jī)器翻譯,可以被應(yīng)用在機(jī)器翻譯系統(tǒng)前端,在一對(duì)一的多語(yǔ)言機(jī)器翻譯系統(tǒng)中,必須先確定語(yǔ)言類型,才能通過(guò)特定的語(yǔ)言到語(yǔ)言的翻譯系統(tǒng)對(duì)語(yǔ)音進(jìn)行翻譯。另外,在語(yǔ)音實(shí)時(shí)翻譯系統(tǒng)即直接將一種語(yǔ)言轉(zhuǎn)換成另一種語(yǔ)言的通信系統(tǒng)中也使用了語(yǔ)種識(shí)別技術(shù)。此外語(yǔ)種識(shí)別在軍事上還可以用來(lái)進(jìn)行說(shuō)話人的信息識(shí)別,通過(guò)語(yǔ)種識(shí)別出說(shuō)話人的身份信息和國(guó)籍,來(lái)對(duì)說(shuō)話人進(jìn)行監(jiān)聽(tīng)或識(shí)別。隨著全球的發(fā)展日趨國(guó)際化,語(yǔ)言問(wèn)題已經(jīng)越來(lái)越受到關(guān)注,語(yǔ)種識(shí)別更是作為一種代表技術(shù)越來(lái)越顯示出其應(yīng)用價(jià)值。
語(yǔ)種識(shí)別系統(tǒng)的從某種意義上看也是一種分類系統(tǒng),因此系統(tǒng)最重要的就是找到分類(即識(shí)別)的關(guān)鍵特征。由此,隨著人們對(duì)聲學(xué)的研究,語(yǔ)種識(shí)別技術(shù)的發(fā)展經(jīng)歷了以下幾個(gè)階段:首先是上世紀(jì)60 年代隱馬爾科夫模型(Hidden Markov Model,HMM)的問(wèn)世,被廣泛地應(yīng)用到了各種統(tǒng)計(jì)學(xué)的模型中,出現(xiàn)了基于HMM的語(yǔ)種識(shí)別系統(tǒng);在此之后人們對(duì)聲學(xué)進(jìn)行了研究,出現(xiàn)了基于音素識(shí)別器的語(yǔ)種識(shí)別方法[3];隨著人們對(duì)語(yǔ)音信號(hào)以及人耳結(jié)構(gòu)特征、聽(tīng)音特征的研究深入,出現(xiàn)了以梅爾頻率倒譜系數(shù)(Mel-Frequency Cepstral Coefficients,MFCC)為代表的基于底層聲學(xué)特征的語(yǔ)種識(shí)別方法[4];為了進(jìn)一步提升語(yǔ)種識(shí)別的準(zhǔn)確率,減少噪聲的干擾,出現(xiàn)了許多基于其他特征(例如韻律特征)的語(yǔ)種識(shí)別方法[2]。
廣義的語(yǔ)種識(shí)別包括對(duì)文本進(jìn)行語(yǔ)種識(shí)別和對(duì)語(yǔ)音進(jìn)行語(yǔ)種識(shí)別,本文介紹的都是根據(jù)語(yǔ)音進(jìn)行的語(yǔ)種識(shí)別,以下簡(jiǎn)稱語(yǔ)種識(shí)別。
語(yǔ)種識(shí)別主要分三個(gè)過(guò)程,首先根據(jù)語(yǔ)音信號(hào)進(jìn)行特征提取,然后進(jìn)行語(yǔ)種模型的構(gòu)建,最后是對(duì)測(cè)試語(yǔ)音進(jìn)行語(yǔ)種判決[5]。訓(xùn)練過(guò)程只需要建立不同語(yǔ)種的語(yǔ)音特征相關(guān)模型,測(cè)試過(guò)程根據(jù)不同的識(shí)別策略對(duì)待識(shí)別語(yǔ)音信號(hào)的特征進(jìn)行處理,如圖1 所示。在訓(xùn)練階段,系統(tǒng)首先對(duì)語(yǔ)音信號(hào)進(jìn)行預(yù)處理,方便系統(tǒng)提取不同種語(yǔ)音數(shù)據(jù)的特征,然后用提取出的特征構(gòu)建一個(gè)特征向量序列,利用特定的特征訓(xùn)練算法,產(chǎn)生一個(gè)或多個(gè)包含語(yǔ)種信息的模型并存儲(chǔ)起來(lái)。在識(shí)別階段,同樣需要對(duì)待識(shí)別語(yǔ)音信號(hào)進(jìn)行預(yù)處理、特征提取并構(gòu)建向量,然后采用一些分類模型或者算法,根據(jù)訓(xùn)練階段訓(xùn)練好的對(duì)應(yīng)語(yǔ)種模型進(jìn)行相似度度量,根據(jù)相似度來(lái)判決待識(shí)別語(yǔ)音的語(yǔ)種。
圖1 語(yǔ)種識(shí)別一般過(guò)程
本文將語(yǔ)種識(shí)別系統(tǒng)分為了兩類,一類是基于目前研究熱點(diǎn)——深度神經(jīng)網(wǎng)絡(luò)的語(yǔ)種識(shí)別系統(tǒng),稱之為神經(jīng)網(wǎng)絡(luò)語(yǔ)種識(shí)別系統(tǒng),另一類未使用神經(jīng)網(wǎng)絡(luò)的稱為傳統(tǒng)語(yǔ)種識(shí)別系統(tǒng)。
傳統(tǒng)的語(yǔ)種識(shí)別系統(tǒng)包括基于HMM 的語(yǔ)種識(shí)別、基于音素識(shí)別器(Phoneme Recognizer,PR)的語(yǔ)種識(shí)別、基于底層聲學(xué)特征的語(yǔ)種識(shí)別等。
(1)PR 的語(yǔ)種識(shí)別系統(tǒng)
本文選取了兩種傳統(tǒng)語(yǔ)種識(shí)別方法進(jìn)行介紹,分別是基于PR 的語(yǔ)種識(shí)別和基于底層聲學(xué)特征的語(yǔ)種識(shí)別。選取這兩種作為傳統(tǒng)語(yǔ)種識(shí)別系統(tǒng)的代表進(jìn)行描述?;赑R 的語(yǔ)種識(shí)別利用音素識(shí)別器,對(duì)訓(xùn)練語(yǔ)音進(jìn)行轉(zhuǎn)換得到一個(gè)最優(yōu)的音素序列,然后根據(jù)這個(gè)序列,生成N-Gram 基元,通過(guò)對(duì)基元采用統(tǒng)計(jì)語(yǔ)言模型(Language Model,LM)或者支持向量機(jī)(Support Vector Machine,SVM)來(lái)進(jìn)行分類,即識(shí)別。整個(gè)系統(tǒng)是建立在LM 或SVM 模型上的,音素識(shí)別器只用于獲取特定的分類特征。整體過(guò)程如圖2 所示。在基于音素的語(yǔ)種識(shí)別系統(tǒng)中,PR 是一個(gè)與語(yǔ)種識(shí)別任務(wù)無(wú)關(guān)的黑盒子[2],語(yǔ)種識(shí)別系統(tǒng)所需要的,是在給定的PR 下識(shí)別出來(lái)的序列因語(yǔ)種的不同而產(chǎn)生的差異,采用音素搭配關(guān)系來(lái)作為語(yǔ)種識(shí)別差異,也就是說(shuō)不同語(yǔ)種的語(yǔ)音信號(hào)經(jīng)過(guò)音素識(shí)別器得到的最優(yōu)序列會(huì)有所差異。
圖2 基于音素識(shí)別器的語(yǔ)種識(shí)別
(2)基于底層聲學(xué)特征MFCC 的語(yǔ)種識(shí)別
隨著人們對(duì)人耳構(gòu)造的進(jìn)一步研究,有學(xué)者發(fā)現(xiàn)人類聽(tīng)覺(jué)系統(tǒng)所感知到的聲音頻率(單位:Mel)與該聲音的物理頻率(單位:Hz)并不是完全線性的對(duì)應(yīng)關(guān)系,而是在一定范圍內(nèi)呈對(duì)數(shù)關(guān)系。另外,還存在屏蔽效應(yīng),即當(dāng)兩個(gè)音調(diào)的頻率差小于臨界帶寬時(shí),人耳便無(wú)法區(qū)分出兩個(gè)音調(diào),而是會(huì)認(rèn)成同一個(gè)音調(diào)[4]。臨界帶寬的大小并不是固定的,隨著頻率的升高呈對(duì)數(shù)關(guān)系。梅爾頻率倒譜系數(shù)(MFCC)就是通過(guò)這些特性被提取出來(lái)的。
基于MFCC 的語(yǔ)種識(shí)別就是通過(guò)提取出語(yǔ)音信號(hào)的MFCC 特征,再根據(jù)MFCC 特征采用不同的分類模型來(lái)構(gòu)建語(yǔ)種識(shí)別系統(tǒng)。此系統(tǒng)的核心就是提取MFCC 特征,分類可以采用常用的SVM 或是K-means 聚類方法。提取MFCC 特征的步驟可以細(xì)分為六步[6]:首先,對(duì)語(yǔ)音信號(hào)預(yù)加重,以減少尖銳噪聲的影響;第二步,加窗處理,減少吉布斯效應(yīng);接下來(lái)對(duì)信號(hào)進(jìn)行離散傅里葉變換,將語(yǔ)音信號(hào)從時(shí)域轉(zhuǎn)移到頻域中去;第四步便是采用三角濾波器組處理上一步得到的頻譜參數(shù),在人耳聽(tīng)覺(jué)敏感的各個(gè)頻段都設(shè)定一個(gè)三角濾波器,得到的一組系數(shù)各個(gè)值都來(lái)自其對(duì)應(yīng)的濾波器;接下來(lái)計(jì)算每個(gè)濾波器輸出的對(duì)數(shù)能量;最后經(jīng)過(guò)離散余弦變換得到MFCC 特征。
早期底層聲學(xué)特征往往采用的是MFCC 及其一階、二階差分,然后利用這些特征組成的一個(gè)特征向量進(jìn)行語(yǔ)種識(shí)別,而通過(guò)大量的研究發(fā)現(xiàn),這些特征作為語(yǔ)種識(shí)別的依據(jù)并不能很好地區(qū)分不同語(yǔ)種,使得傳統(tǒng)的基于底層聲學(xué)特征的語(yǔ)種識(shí)別系統(tǒng)性能受限。目前的基于底層聲學(xué)特征的語(yǔ)種識(shí)別系統(tǒng)往往采用的是移位差分倒譜特征(Shift Delta Cepstral,SDC)[7],SDC 特征是在MFCC 或者感知線性預(yù)測(cè)特征(Perceptual Linear Predictive)的基礎(chǔ)上通過(guò)移位差分?jǐn)U展而來(lái):首先對(duì)提取的MFCC 特征或PLP 特征使用RASTA 濾波,然后通過(guò)移位差分?jǐn)U展,再經(jīng)過(guò)高斯化及倒譜域減去均值的操作就得到了SDC 特征。該特征通過(guò)將底層聲學(xué)譜參數(shù)進(jìn)行時(shí)域擴(kuò)展使其能夠接近一個(gè)因素單元的長(zhǎng)度,從而能夠更好地對(duì)應(yīng)內(nèi)容相關(guān)語(yǔ)音信號(hào),進(jìn)而極大地提升了語(yǔ)種識(shí)別的性能。
圖3 基于底層聲學(xué)特征的語(yǔ)種識(shí)別
為了模擬生物學(xué)習(xí)的計(jì)算模型,即大腦的學(xué)習(xí)過(guò)程的模型,人們提出了最早的學(xué)習(xí)算法,即最早的人工神經(jīng)網(wǎng)絡(luò)算法。最早的神經(jīng)網(wǎng)絡(luò)是用來(lái)進(jìn)行數(shù)值預(yù)測(cè)的,而人們結(jié)合統(tǒng)計(jì)學(xué)的成果將其運(yùn)用在了模型參數(shù)的預(yù)測(cè)上,進(jìn)而使得神經(jīng)網(wǎng)絡(luò)被用在了各個(gè)領(lǐng)域中。而經(jīng)過(guò)六七十年的曲折發(fā)展,目前的神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)效果更為明顯,在各個(gè)學(xué)科領(lǐng)域都得到了廣泛的應(yīng)用并取得了性能上質(zhì)的飛躍[8]。
在神經(jīng)網(wǎng)絡(luò)被用在語(yǔ)種識(shí)別系統(tǒng)之前,語(yǔ)種識(shí)別系統(tǒng)往往通過(guò)特殊的手工設(shè)計(jì)方法預(yù)處理輸入信號(hào)來(lái)獲取包含語(yǔ)種信息的特征。而神經(jīng)網(wǎng)絡(luò)的迅速發(fā)展,使得直接從原始輸入中學(xué)習(xí)特征變得可能,并且通過(guò)大量實(shí)驗(yàn)證明神經(jīng)網(wǎng)絡(luò)提取的特征用來(lái)進(jìn)行語(yǔ)種識(shí)別在準(zhǔn)確率上要明顯高于使用傳統(tǒng)手工提取的特征。
(1)基于深度神經(jīng)網(wǎng)絡(luò)的語(yǔ)種識(shí)別系統(tǒng)
本文選取基于深度神經(jīng)網(wǎng)絡(luò)的語(yǔ)種識(shí)別系統(tǒng)及其改進(jìn)系統(tǒng)——融合深度瓶頸特征的DNN 語(yǔ)種識(shí)別系統(tǒng)進(jìn)行介紹?;贒NN 的語(yǔ)種識(shí)別系統(tǒng)分為兩部分,前端深度神經(jīng)網(wǎng)絡(luò)部分,構(gòu)建深度神經(jīng)網(wǎng)絡(luò)來(lái)完成特征提取,后端為判別部分,通過(guò)已有的分類模型分類。許多基于DNN 的語(yǔ)種識(shí)別系統(tǒng)并不是將語(yǔ)音信號(hào)簡(jiǎn)單地預(yù)處理之后就用作輸入,而往往是使用語(yǔ)音信號(hào)的MFCC 特征及其n階差分等特征作為輸入,將輸出解碼為音素序列,再通過(guò)聲學(xué)模型和分類模型進(jìn)行語(yǔ)種識(shí)別。通過(guò)實(shí)驗(yàn)表明[9],一個(gè)包含5 個(gè)隱層的DNN,輸入特征為13 維MFCC 及其一階和二階差分及4 維基頻特征,使用SVM 進(jìn)行區(qū)分訓(xùn)練的基于DNN 的語(yǔ)種識(shí)別系統(tǒng),其識(shí)別率相比基于PR-SVM 的語(yǔ)種識(shí)別系統(tǒng)性能在不同時(shí)長(zhǎng)的語(yǔ)音測(cè)試集上均有所提高。
(2)融合深度瓶頸特征的DNN 語(yǔ)種識(shí)別系統(tǒng)
深度神經(jīng)網(wǎng)絡(luò)中,有的隱層的單元數(shù)目被人為地調(diào)小,這種隱層被稱為瓶頸層。語(yǔ)音識(shí)別中的研究已經(jīng)證明,利用瓶頸層的輸出作為聲學(xué)特征能夠有效提升語(yǔ)音識(shí)別系統(tǒng)的性能,瓶頸層作為輸入的一種非線性變換形式,有效地去除了因素?zé)o關(guān)的噪聲影響[10]。因此,將深度神經(jīng)網(wǎng)絡(luò)的輸出和網(wǎng)絡(luò)中間瓶頸層的輸出融合作為后端分類模型的輸入是可行的,該語(yǔ)種識(shí)別系統(tǒng)結(jié)構(gòu)如圖4 所示。相關(guān)研究已經(jīng)證明[9],融合瓶頸層輸出的DNN 語(yǔ)種識(shí)別系統(tǒng)的識(shí)別性能要明顯優(yōu)于基于DNN 輸出層的語(yǔ)種識(shí)別系統(tǒng)。
圖4 融合瓶頸層特征的DNN語(yǔ)種識(shí)別系統(tǒng)
從20 世紀(jì)80 年代到直到2012 年,最先進(jìn)的語(yǔ)音識(shí)別系統(tǒng)是GMM-HMM[8],GMM 對(duì)聲學(xué)特征和音素之間的關(guān)系建模[11],HMM 對(duì)音素序列建模。該系統(tǒng)的錯(cuò)誤率達(dá)到了約30%的語(yǔ)音識(shí)別錯(cuò)誤率。上世紀(jì)80 年代開(kāi)始,神經(jīng)網(wǎng)絡(luò)被大量用于語(yǔ)音識(shí)別系統(tǒng),并且在2009 年[12]將音素級(jí)別的錯(cuò)誤率從大約26%降到了20.7%。而直到現(xiàn)在,基于GMM-HMM 的系統(tǒng)的傳統(tǒng)技術(shù)沒(méi)有任何進(jìn)步,使用神經(jīng)網(wǎng)絡(luò)來(lái)進(jìn)行語(yǔ)音識(shí)別的浪潮正盛。同樣,在語(yǔ)音識(shí)別重要分支的語(yǔ)種識(shí)別系統(tǒng)中也在廣泛應(yīng)用神經(jīng)網(wǎng)絡(luò)。
從根本上語(yǔ)種識(shí)別系統(tǒng)可以分成兩個(gè)部分,分別是特征提取以及按特征分類。傳統(tǒng)的語(yǔ)種識(shí)別限于聲學(xué)的研究和計(jì)算能力的不足,在這兩個(gè)方面均存在的很大的不足。如今的語(yǔ)種識(shí)別系統(tǒng),基本上都采用的高性能的“神經(jīng)網(wǎng)絡(luò)來(lái)提取特征”搭配“高斯混合-分類模型”的系統(tǒng)架構(gòu),通過(guò)采用更加高效的神經(jīng)網(wǎng)絡(luò)算法來(lái)提取更加能代表語(yǔ)種特性而又更加簡(jiǎn)潔的特征,采用更加適配特征的聲學(xué)模型和分類模型,來(lái)獲取更加高效的性能。
目前語(yǔ)種識(shí)別系統(tǒng)的識(shí)別率隨著深度學(xué)習(xí)的不斷發(fā)展在不斷提升,雖然系統(tǒng)識(shí)別率不低但仍存在提升空間?,F(xiàn)階段的語(yǔ)音識(shí)別領(lǐng)域仍然并將在一段時(shí)間內(nèi)被深度學(xué)習(xí)算法所引領(lǐng),因此不僅要不斷地尋找嘗試適合特定語(yǔ)音任務(wù)的深度學(xué)習(xí)算法,還需要盡可能地減少深度學(xué)習(xí)算法帶來(lái)的巨大開(kāi)銷。但從長(zhǎng)遠(yuǎn)來(lái)看,要能夠再次大幅提升系統(tǒng)的性能只有兩種可能:一是研究出包含在深度學(xué)習(xí)中的各種非線性變換與具體任務(wù)的某些性質(zhì)之間的聯(lián)系,這樣才能真正地推動(dòng)深度學(xué)習(xí)在該領(lǐng)域的發(fā)展;二是對(duì)領(lǐng)域的更深一步研究,探索該學(xué)科領(lǐng)域的本質(zhì),使得無(wú)需使用復(fù)雜的學(xué)習(xí)算法就能完成該領(lǐng)域的任務(wù)。