王 勇,張連海
(解放軍信息工程大學(xué)信息系統(tǒng)工程學(xué)院,鄭州 450002)
基于詞級DPPM的連續(xù)語音關(guān)鍵詞檢測
王 勇,張連海
(解放軍信息工程大學(xué)信息系統(tǒng)工程學(xué)院,鄭州 450002)
提出一種基于詞級區(qū)分性點過程模型的連續(xù)語音關(guān)鍵詞檢測方法。利用時間模式結(jié)構(gòu)和多層感知器計算每個音素幀級后驗概率,使用區(qū)分性點過程模型將一段時間內(nèi)多個音素事件形成的點過程作為整體,把關(guān)鍵詞檢測看作二元分類問題,經(jīng)分段和拼接構(gòu)成超矢量,輸入支持向量機分類器,判斷該段語音是否為待檢測關(guān)鍵詞。該方法充分考慮語音信號上下文相關(guān)性,直接以詞作為基本單元建模,提高了系統(tǒng)檢測的準(zhǔn)確性和魯棒性。實驗結(jié)果表明,對采樣的語音,其關(guān)鍵詞平均召回率和準(zhǔn)確率分別可達(dá)71.5%和84.6%以上,并且結(jié)合相關(guān)語言模型知識,系統(tǒng)性能將會進(jìn)一步提高。
點過程模型;音素后驗概率;時間模式;關(guān)鍵詞檢測;支持向量機;區(qū)分性點過程模型
目前語音識別常采用子詞單元(如音素)進(jìn)行聲學(xué)建模,在此基礎(chǔ)上聯(lián)合發(fā)音字典進(jìn)行詞的識別。但在進(jìn)行關(guān)鍵詞檢測時,由于語音信號具有上下文相關(guān)性,若直接以詞作為基本單元建立模型,可能會提高系統(tǒng)準(zhǔn)確性和魯棒性[1]。語音點過程模型[2](Point Process Model, PPM)表示方法與傳統(tǒng)的基于幀的時間向量表示方法不同,它使用基于時間的稀疏聲學(xué)事件表示語音,使用基于聲學(xué)事件的點過程模型取代基于聲學(xué)狀態(tài)的HMM模型[3]。本文使用點過程表示語音信號,研究基于詞級區(qū)分性點過程模型(Discriminative Point Process Model, DPPM)的連續(xù)語音關(guān)鍵詞檢測方法。
之前的研究給出了一般的PPM框架[4],證明基于聲學(xué)事件的關(guān)鍵詞檢測方法與傳統(tǒng)方法相比,能夠保證關(guān)鍵詞檢測系統(tǒng)的準(zhǔn)確性并降低系統(tǒng)的復(fù)雜性。但是,一般的PPM模型建立在音素事件之間獨立性假設(shè)基礎(chǔ)之上,且在使用泊松過程計算似然比時,似然比值往往依賴于某個或某幾個音素事件。本文考慮將關(guān)鍵詞點過程作為整體,經(jīng)適當(dāng)處理后,輸入支持向量機(Support Vector Machine, SVM)[5],通過輸出的詞級置信度得分判斷該段語音是否為關(guān)鍵詞。
基于DPPM關(guān)鍵詞檢測分為2個階段:點過程建立和關(guān)鍵詞檢測。首先計算幀級音素后驗概率并建立點過程,其次由關(guān)鍵詞檢測模塊計算詞級置信度得分,通過設(shè)定閾值判斷候選語音是否為關(guān)鍵詞。
圖1為本文使用方法檢測關(guān)鍵詞結(jié)構(gòu)。語音信號首先經(jīng)過信號處理單元S得到幀級音素后驗概率X,檢測器D給定適當(dāng)?shù)拈撝?,X經(jīng)過檢測器D后,轉(zhuǎn)化為n個點過程P,那么語音信號就可以用n個點過程表示,再由關(guān)鍵詞分類器計算詞級置信度得分,最終實現(xiàn)關(guān)鍵詞檢測。
圖1 關(guān)鍵詞檢測結(jié)構(gòu)
2.1 音素后驗概率
目前,語音識別聲學(xué)特征主要使用MFCC、PLP等[6]頻譜參數(shù),但這些參數(shù)只使用了20 ms、30 ms左右的語音信息,極易受到噪聲的影響。TRAP[7]是一種長時屬性,反映了長時間特征變化情況,有效地利用語音信號之間的相關(guān)性,能夠提高語音識別的性能[8]。本文將TRAP結(jié)構(gòu)引入到音素后驗概率的檢測之中。
基于TRAP結(jié)構(gòu)的音素后驗概率檢測流程如圖2所示,具體步驟如下:
(1)預(yù)處理:選擇幀長與幀移分別為25 ms和10 ms,對語音信號進(jìn)行預(yù)加重、加漢明窗,將頻譜轉(zhuǎn)化為梅爾頻標(biāo)后進(jìn)行三角窗濾波,每幀語音信號輸出為23個子帶能量的一維向量。
(2)拼接加權(quán):將當(dāng)前幀與其前n幀的子帶能量拼接成一個長序列,稱為左子帶序列;將當(dāng)前幀與其后n幀的子帶能量拼接成右子帶序列。由于語音信號幀與幀之間距離越近,相關(guān)性越強,距離越遠(yuǎn),相關(guān)性越弱。因此,給距離當(dāng)前幀較遠(yuǎn)的幀分配較小的權(quán)值,距離當(dāng)前幀較近的幀分配較大的權(quán)值,并且同一幀內(nèi)的各個子帶能量系數(shù)分配的權(quán)值相同。然后,分別對加權(quán)后的序列進(jìn)行離散余弦變換(Discrete Cosine Transformation, DCT)變換,將變換后的系數(shù)規(guī)范化后作為低層MLP輸入特征。
(3)后驗概率檢測:采用低層MLP分別對左、右2個子帶序列進(jìn)行音素檢測,對輸出結(jié)果進(jìn)行非線性變換,將低層2個MLP的輸出拼接成新的向量并作為高層MLP的輸入特征,最后高層MLP的輸出為音素后驗概率識別結(jié)果。
圖2 音素后驗概率檢測流程
由于TRAP結(jié)構(gòu)使用了上下文相關(guān)信息,因此最終檢測結(jié)果準(zhǔn)確率相對更高。圖3所示為詞problem幀級音素后驗概率圖,顏色越深表示該幀信號為某個音素的概率越大。
圖3 pr oblem幀級音素后驗概率
2.2 點過程
在計算出幀級音素后驗概率的基礎(chǔ)上,得到語音信號音素后驗概率矩陣。對于后驗概率矩陣的每一行,也就是語音信號每一幀,取后驗概率最大值,其余后驗概率置為0。然后給定閾值γ,若該幀信號后驗概率最大值大于γ,則將其置為1,表示該幀語音信號是某個音素,若小于γ,則將其置為0。由此可以將音素后驗概率矩陣0、1離散化,得到語音信號點過程表示。圖4所示為詞problem的點過程表示,其中的點表示該幀信號為problem相應(yīng)的某個音素,點的個數(shù)代表音素出現(xiàn)的次數(shù)。
圖4 pr oblem點過程表示
SVM是建立在統(tǒng)計學(xué)習(xí)理論的VC維理論和結(jié)構(gòu)風(fēng)險最小原理基礎(chǔ)上的,根據(jù)有限的樣本信息在模型的復(fù)雜性和學(xué)習(xí)能力之間尋求最佳折中,以期獲得最好的推廣能力。它在解決小樣本、非線性及高維模式識別中表現(xiàn)出許多特有的優(yōu)勢,并能夠推廣應(yīng)用到函數(shù)擬合等其他機器學(xué)習(xí)問題中。在文本分類、生物信息、圖像分析、語音識別等諸多領(lǐng)域中,SVM有著廣泛的應(yīng)用[9]。
給定如上所述語音點過程表示,需要對每段語音產(chǎn)生的點過程建立合適的模型,以達(dá)到區(qū)分關(guān)鍵詞與非關(guān)鍵詞的目的。本文采用SVM分類器對候選語音進(jìn)行檢測。
3.1 SV M基本理論
SVM通過事先選擇的非線性映射將輸入空間變換到高維空間,然后在高維空間中構(gòu)建最優(yōu)決策超平面,使得該平面兩側(cè)距離平面最近的2類樣本之間的距離最大化。非線性映射通過定義適當(dāng)?shù)暮撕瘮?shù)實現(xiàn)。SVM關(guān)鍵在于核函數(shù),低維空間向量通常難以劃分,需要將它們映射到高維空間,但會增加計算復(fù)雜度,核函數(shù)恰好解決了該問題[10]。實際應(yīng)用表明,RBF核函數(shù)具有良好的性能和很強的學(xué)習(xí)能力,無論對于低維、高維、大樣本還是小樣本等情況,該核函數(shù)都適用,有較好的收斂域,采用RBF核函數(shù):
對語音點過程進(jìn)行分類。
3.2 D PPM關(guān)鍵詞檢測
將所有的候選語音段時長歸一化后,對歸一化時長進(jìn)行均勻分段,將Si'映射為(M| P|+1)維超矢量xi。其中,M是所分時間段數(shù);|P|是音素個數(shù)。前M|P|維向量由音素事件數(shù)|P|個M維向量拼接構(gòu)成,數(shù)值為當(dāng)前段當(dāng)前音素事件發(fā)生次數(shù),即超矢量xi第k個元素xi[k]=nj,d為第j個音素在第d段時間內(nèi)發(fā)生次數(shù)。其中,j=k/M,d=mod(k,M);第(M|P|+1)維向量為時長Ti(候選語音段的幀數(shù))。給定候選語音,并將其轉(zhuǎn)換為上述超矢量形式,即可使用SVM分類器判別其是否為待檢測關(guān)鍵詞。
4.1 實驗配置
4.1.1 語料庫
本文實驗使用TIMIT[11]語料庫,排除其中用于說話人識別實驗的SA1和SA2中的語句,選擇訓(xùn)練集中3 296個語句和測試集中1 344個語句進(jìn)行實驗,時間共計3.95 h。由于實驗需訓(xùn)練關(guān)鍵詞樣本,因此選擇TIMIT語料庫中出現(xiàn)頻次較高的詞進(jìn)行相關(guān)實驗。
TIMIT語料庫中共含有61個音素單元,其劃分較為精細(xì)。根據(jù)CMU/MIT標(biāo)準(zhǔn),對TIMIT中發(fā)音類似的音素進(jìn)行合并,由61個音素映射為47個[12],對應(yīng)關(guān)系如表1所示。
表1 TI MIT中音素映射關(guān)系
4.1.2 DPPM設(shè)置
在實驗中,對于不同的音素設(shè)置的后驗概率閾值δ也不盡相同,本文設(shè)置閾值由統(tǒng)計平均得出。對于時長較短的關(guān)鍵詞,設(shè)置分段數(shù)M=10;對于時長較長的關(guān)鍵詞,設(shè)置分段數(shù)M=20,然后根據(jù)3.2節(jié)所述方法,將分別獲得471維和941維超矢量。
4.2 實驗結(jié)果
召回率和準(zhǔn)確率是衡量關(guān)鍵詞檢測性能的2項重要指標(biāo),可以用來對檢測的結(jié)果進(jìn)行量化評價。一般而言,召回率和準(zhǔn)確率是互相對立的,一個指標(biāo)的上升伴隨著另一個指標(biāo)的下降。在應(yīng)用過程中,一般尋找兩者的平衡點,使得召回率與準(zhǔn)確率均能滿足實際的需求。
本文選取關(guān)鍵詞容錯誤差為±30 ms,表2所示為文獻(xiàn)[4]方法與本文方法關(guān)鍵詞檢測結(jié)果對比。
表2 PPM關(guān)鍵詞檢測結(jié)果
由于本文中并未考慮詞邊界信息,在進(jìn)行關(guān)鍵詞搜索時,若某個詞的發(fā)音完全包含另一個詞的發(fā)音,會將該詞作為關(guān)鍵詞檢出。例如搜索關(guān)鍵詞every(發(fā)音為|ehvr iy|)時,因為詞everyone(發(fā)音為|eh v r iy w ah n|)完全包括詞every的發(fā)音,所以會將everyone的前半部分作為關(guān)鍵詞檢出,本文中未將這種情況作為插入錯誤進(jìn)行統(tǒng)計。對于包含音素較少的詞,如take(發(fā)音為|t ey kcl|),由于英文單詞中包含發(fā)音|t ey kcl|情況較多,本文未統(tǒng)計準(zhǔn)確率。
在實驗中,為提高系統(tǒng)關(guān)鍵詞召回率,在準(zhǔn)確率允許條件下,可適當(dāng)將易混淆的音素如|iy|、|ix|等作為同一音素處理。例如某候選語音通過音素后驗概率檢測發(fā)音為|eh v r ix|,可酌情將其作為發(fā)音|eh v r iy|處理。
在理論上,當(dāng)關(guān)鍵詞時長越長、包含的音素越多時,建立點過程模型可利用的信息越多,關(guān)鍵詞模型的復(fù)雜度越高,容易引起的混淆越少,相應(yīng)的關(guān)鍵詞召回率、準(zhǔn)確率應(yīng)該越高。在實驗過程中,隨著關(guān)鍵詞包含音素的增加,關(guān)鍵詞檢測準(zhǔn)確率呈上升趨勢,但是由于關(guān)鍵詞包含音素的增加,音素后驗概率錯誤也就相應(yīng)增多,關(guān)鍵詞召回率不一定能相應(yīng)提高。由于語料庫中,某些關(guān)鍵詞存在較多的發(fā)音變體[13],單純地依靠某一個關(guān)鍵詞模型并不能將所有的發(fā)音變體檢測出,因此可能存在某些關(guān)鍵詞的檢測效果并不理想。由表2可以看出,people召回率僅為52.3%和58.3%,與其他詞有較大差距。
表3所示為在相同條件下,本文方法與其他方法的關(guān)鍵詞檢測結(jié)果??梢钥闯霰疚姆椒ㄔ谡倩芈屎蜏?zhǔn)確率方面均優(yōu)于文獻(xiàn)[4]和基于HMM垃圾模型關(guān)鍵詞的檢測方法。
表3 PPM與HMM關(guān)鍵詞檢測結(jié)果比較 %
本文給出了一種新的基于PPM的關(guān)鍵詞檢測方法,建立語音點過程處理模型,然后經(jīng)過分段和拼接形成超矢量,通過分類器輸出候選語音段整體詞級得分,最終實現(xiàn)關(guān)鍵詞檢測。由于本文方法僅使用了音素后驗概率信息,后續(xù)研究中可以將語言知識與本文方法相結(jié)合,進(jìn)一步提高關(guān)鍵詞檢測性能。由于音素后驗概率對關(guān)鍵詞檢測性能具有決定性作用,因此如何提高音素后驗概率準(zhǔn)確率問題亟待解決。本文只使用音素事件建立點過程模型,實際上,可以根據(jù)其他語音事件建立多個點過程模型,然后將各個點過程進(jìn)行融合,建立更為復(fù)雜精確的關(guān)鍵詞模型。
[1] Lee C H, Juang B H, Soong F K, et al. Word R ecognition Using Whole Word and Sub word Models[C]//Proc. of International Co nference on Acoustics, Speech, a nd Signal Processing. [S. l.]: IEEE Press, 1989: 683-686.
[2] Jansen A, Niyogi P. Point Process Models for Spotting Keywords in Continuous Speech[J]. IEEE Transactions on Audio, Speech, and Language Processing, 2009, 17(8): 1457- 1470.
[3] Rose R C, Paul D B. A Hidden Markov Model Base d Keyword Recognition System[C]//Proc. of International Conference on Acoustics, Sp eech, and Signal P rocessing. [S. l.]: IEEE Press, 1990: 129-132.
[4] 王 勇, 張連海. 基于點過程模型連續(xù)語音關(guān)鍵詞檢測[J].太赫茲科學(xué)與電子信息學(xué)報, 2013, (6): 958-963.
[5] Vapnik V N. The Nature o f Statistical Learning T heory[M]. New York, USA: Springer-Verlag, 2000.
[6] 王炳錫, 屈 丹, 彭 煊. 實用語音識別基礎(chǔ)[M]. 北京:國防工業(yè)出版社, 2005.
[7] G rezl F. Trap-based Probabilist ic Features for A utomatic Speech Recognition[D]. Brno, Czech: The Brno University of Technology at Czech, 2007.
[8] Schwarz P. Phoneme Recognition Based on Long Temporal Context[D]. Brno, Czech: The Brno University of Technology at Czech, 2008.
[9] 鄧乃揚, 田英杰. 數(shù)據(jù)挖掘中的新方法:支持向量機[M].北京: 科學(xué)出版社, 2004.
[10] 張 翔, 肖小玲, 徐光祐. 基于樣本之間緊密度的模糊支持向量機方法[J]. 軟件學(xué)報, 2006, 17(5): 951-958.
[11] Garofolo J S, Lamel L F, Fisher W M, et al. TIMIT Acoustic-phonetic Continuous Speech Corpus[D]. Philadelphia, USA: TIMIT Ac oustic-Phonetic Continuous Spee ch Corpus Linguistic Data Consortium, 1993.
[12] Lee K F. Speaker-indepe ndent Phone Re cognition Using Hidden Markov Models[J]. IEEE Transactions on Acoustics, Speech and Signal Processing, 1989, 37(11): 1641-1648.
[13] Jurafsky D, Martin J M. 自然語言處理綜論[M]. 孫志偉, 孫 樂, 譯. 北京: 電子工業(yè)出版社, 2005.
編輯 顧逸斐
Continuous Speech Keyword Detection Based on Word Level Discriminative Point Process Model
WANG Yong, ZHANG Lian-hai
(School of Information System Engineering, PLA Information Engineering University, Zhengzhou 450002, China)
This paper proposes a key word dete ction method ba sed on word lev el Discriminative Point Process Model(DPPM) i n continuous speech. It computes frame-level phone posterior probability using temporal pattern and multilayer perception. DPPM sees point process produced by p hone events of the d uration as a whole. Then input Support Vector Machine(SVM) with super vector formed b y segmenting and jointing the point process representation, so can distinguish whether the point process is produced by the keyword. Due to long range c ontext dependencies, it is reasonable to expect that directly modeling e ntire words may permit a more ac curate and robust decoding of the speech signal. Experimental results show that for speech, the average recall and precision rate of keywords are above 71.5% and 84.6%, and improves significantly with language model.
Point Process Model(PPM); phoneme posterior probability; time mode; keyword detection; Support Vector Machine(SVM); Discriminative Point Process Model(DPPM)
10.3969/j.issn.1000-3428.2014.05.051
王 勇(1987-),男,碩士研究生,主研方向:連續(xù)語音關(guān)鍵詞檢測;張連海,副教授。
2013-03-05
2013-05-29E-mail:wyong0609@yahoo.cn
1000-3428(2014)05-0247-05
A
TP391