基于分段動態(tài)時間規(guī)整的語音樣例快速檢索

2014-11-17 07:13:36馮志遠張連海

數(shù)據(jù)采集與處理 2014年2期

馮志遠張連海

（解放軍信息工程大學信息系統(tǒng)工程學院，鄭州，450002）

引言

隨著信息技術(shù)和多媒體技術(shù)的迅猛發(fā)展，在網(wǎng)絡(luò)速度快速提升、存儲成本持續(xù)降低的情況下，新聞廣播、語音信箱以及會議錄音等各種以語音形式存儲的數(shù)據(jù)急劇增多，但由于缺乏行之有效的語音檢索技術(shù)，人們難以充分有效地利用這些資源。因此，如何在浩如煙海的語音資源中快速、準確地挑選出有用的信息，對于充分利用不斷積累的信息資源具有極其重要的意義。在語音檢索中最重要的關(guān)鍵技術(shù)是語音查詢詞檢索（Spoken term detec－tion，STD），它是根據(jù)用戶輸入的查詢項，在語音資源中搜索和返回與之相關(guān)的語音片段。查詢項的形式有兩種：一是文字形式；二是波形樣例形式［1］。采用前者的形式進行查詢稱為基于文本的語音查詢詞檢索；采用波形樣例的形式進行查詢的檢索方式稱為語音樣例檢索（Query－by－example spoken term detection，QbE STD）。STD在軍事和信息安全、數(shù)字圖書館、聲音分類、音樂檢索［2］等很多領(lǐng)域都有十分廣泛的應(yīng)用。

現(xiàn)階段STD往往基于大詞匯量連續(xù)語音識別（Large vocabulary continuous speech recognition，LVCSR），它將查詢項和測試語句轉(zhuǎn)換為文本形式，例如one－best，Lattice等，從而將檢索問題轉(zhuǎn)化為字符串匹配問題［3］。當然，針對語音資源十分豐富的語言進行檢索，基于LVCSR的STD取得了不錯的檢索精度［4－5］。但是，得到一個可信度高、魯棒性強的LVCSR系統(tǒng)需要大量正確標注的不同聲學條件（不同語者、不同說話環(huán)境等）下的語音數(shù)據(jù)用來訓練其統(tǒng)計上的聲學／語言模型。即使是語音資源十分豐富的語言，收集和正確標注大量不同聲學條件下的語音數(shù)據(jù)的代價也是很大的。此外，在基于LVCSR的方法中，其檢索精度受詞匯集的覆蓋范圍影響較大，假如查詢項中含有集外詞（Out of vocabulary，OOV）時，其檢索精度將會下降。針對上述問題，并且從計算量方面考慮，許多學者致力于采用基于音素的方法進行STD的研究［6－7］。

對語音資源較為有限的語言進行音頻檢索，運用上述方法更不可行，首先，這類語言的語音資源較為有限，搜集和標注語料更為困難，代價更為巨大。其次，由于不同語言之間一些音素的聲學表現(xiàn)形式是相似的，針對此類語言的檢索任務(wù)可以運用交叉語言模型的方法或者是語言獨立模型的方法，但在進行檢索之前，首先要運用發(fā)音詞典將查詢項映射為音素序列，假如測試數(shù)據(jù)歸屬的語言和音素識別系統(tǒng)存在音素差異，則映射時會產(chǎn)生較大偏差［8］。

針對語音資源較為匱乏的語言進行樣例檢索時標準STD技術(shù)的種種不足，一些學者提出基于模板匹配的架構(gòu)。Hazen提出了基于音素后驗概率和動態(tài)時間規(guī)整的語音樣例檢索方法［8］，此方法首先運用語音資源較為豐富的語言訓練音素后驗概率檢測系統(tǒng)，提取查詢樣例和測試語句的音素后驗概率，再運用傳統(tǒng)的動態(tài)時間規(guī)整（Dynamic time warping，DTW）計算查詢樣例和測試語句的相似度，最后根據(jù)相似度的大小進行排名，從而獲得檢索結(jié)果；Tejedor在此基礎(chǔ)上提出語音樣例的選取和結(jié)合的新方法［9］；Chan提出一種基于段的無監(jiān)督語音樣例檢索方法［10］，該方法首先提取查詢樣例和測試集的聲學特征，然后運用層次凝聚聚類算法對提取的聲學特征進行分段，運用DTW并以上述分段為單位進行語音樣例和候選分段之間相似度的計算。此架構(gòu)完全消除了詞匯集覆蓋范圍的限制，雖然音素后驗概率檢測器對訓練語料有較高要求（需要大量標注到音素級別的語料），但是對測試語料無任何要求，因此，此架構(gòu)在一定程度上解決了對語音資源較為匱乏的語言進行檢索的問題。

檢索速度是評價信息檢索方法好壞的一個重要指標，而直接運用模板匹配的方法無法做到快速檢索。這是因為一個查詢樣例或者測試語句可能含有成千上萬幀，直接運用DTW進行檢索往往耗費大量時間，且運用DTW進行檢索時，缺乏對聲學條件變異的考慮。為了滿足用戶對檢索速度的要求，學者們對上述架構(gòu)下的快速檢索方法進行了研究，一些快速檢索算法被相繼提出。Jansen從底層聲學特征出發(fā)，提出運用局部敏感哈希、二值最近鄰搜索等隨機逼近算法對聲學特征進行降維逼近，降低了語音樣例和候選分段匹配時的運算復雜度［11］；Chan在上述模板匹配法的基礎(chǔ)上提出基于段的無監(jiān)督語音樣例檢索方法［10］，該方法本質(zhì)上是用較為穩(wěn)定的特征分段代替特征分幀作為匹配單元，這樣就大大降低了運算復雜度，提高了檢索速度；Chan又在上述基礎(chǔ)上提出了一種分幀和分段相結(jié)合的檢索方法［12］，使得檢索速度得到提高的同時，檢索精度也得到有效提升；2012年，Zhang將上述架構(gòu)與GPU相結(jié)合，充分利用GPU的并行運算能力，大大提高了檢索速度［13］。

本文提出一種基于下界估計（Lower bound estimate，LBE）和分段動態(tài)時間規(guī)整（Segmental dynamic time warping，SDTW）的語音樣例快速檢索方法，該方法首先提取查詢樣例和測試語句的音素后驗概率參數(shù)；然后，根據(jù)限制條件在測試語句中選定候選分段，計算查詢樣例和每個候選分段之間實際DTW得分的下界估計，并運用K最近鄰搜索（K nearest neighbor，KNN）算法搜索與查詢樣例相似度最高的分段。該方法的基本思想為舍棄下界估計大于當前最佳匹配得分的候選分段，無需DTW匹配，通過大量減少DTW的匹配次數(shù)實現(xiàn)提高檢索速度的目的。為了使檢索結(jié)果更加準確，本文還運用虛擬相關(guān)反饋（Pseudo relevance feedback，PRF）技術(shù)對檢索結(jié)果進行修正，提出了基于虛擬相似度的相關(guān)區(qū)域重排序方法，從而緩解了DTW不能充分考慮聲學條件變異的局限性。

1 音素后驗概率檢測

MFCC是最廣泛應(yīng)用的特征參數(shù)。MFCC，PLP等頻譜參數(shù)構(gòu)成了語音識別聲學特征的基礎(chǔ)，但因為這些參數(shù)只使用了20，30ms左右的語音信息，所以極易受噪聲的干擾。TRAP結(jié)構(gòu)描述的是長時間窗內(nèi)各個子帶的能量變化軌跡，這種長時性能夠很好地描述語音信號在時間上的相關(guān)性，在語音識別中得到廣泛應(yīng)用［14］。本文將改進的TRAP結(jié)構(gòu)［15］引入對音素后驗概率的檢測，完整的系統(tǒng)架構(gòu)如圖1所示。

圖1 音素后驗概率檢測系統(tǒng)Fig.1 Detection system of phoneme posterior probability

2 動態(tài)時間規(guī)整

應(yīng)用DTW之前，應(yīng)首先定義兩幀特征參數(shù)之間的距離，本文采用內(nèi)積距離，給定兩幀特征向量q和s，其內(nèi)積距離

本文將上述內(nèi)積距離定義在對數(shù)空間。在進行對數(shù)運算中，如果qTs＝0，則會導致d（q，s）＝＋∞，為避免出現(xiàn)此種錯誤，本文對q做近似變換，設(shè)q′為q的近似變換，q′與q的變換關(guān)系為

式中：λ為一個很小的正數(shù)，μ為一個與q維數(shù)相同且服從均勻分布的概率向量。

2.1 基于幀的動態(tài)時間規(guī)整

給定一個語音樣例Q＝（q1，…，qM）和一個語音片段S＝（s1，…，sN），其中qi和sj表示D維音素后驗概率特征向量。給定Q和S，DTW的目標就是尋找一個規(guī)劃路徑，使得該路徑上的累積距離最小。定義規(guī)劃路徑為

式中φq（k）和φs（k）分別代表Q和S的特征參數(shù)序列索引。因此，給定路徑φ，則Q和S的相應(yīng)匹配得分為

式中d表示兩向量之間的內(nèi)積距離。為了避免在匹配過程中輸入序列和語音片段之間出現(xiàn)較大的時差，需要對路徑φ進行限制。其中，最常用的條件為

式中r為路徑限制因子。由上述可知，要得到Q和S之間的最優(yōu)對齊，其計算復雜度為O（MN）。

2.2 分段動態(tài)時間規(guī)整

SDTW通過在兩個特征向量序列的距離矩陣中劃分并檢索多條路徑來以達到找到其最佳的局部對齊的目的。給定兩個特征向量序列Q＝（q1，…，qM）和S＝（s1，…，sN），SDTW 把它們之間的距離矩陣劃分為一系列交叉重疊的對角帶，這樣，不但避免兩個匹配子段在匹配過程中時域上相差過大，而且每一個對角帶對應(yīng)一個不同的匹配路徑，這樣就直接產(chǎn)生多條路徑以供檢索。

SDTW在進行DTW搜索時定義了兩個限制條件。首先就是常用的調(diào)節(jié)窗條件，給定Q以及S，則定義在大小為M×N距離矩陣上的規(guī)整函數(shù)p（·）的形式為p（·）＝（ik，jk），其中，（ik，jk）定義為規(guī)整路徑的第k個坐標。根據(jù)在語音信號的特性，調(diào)節(jié)窗條件為

從式（5）可以看出，R在這里與上述路徑限制因子意義相同。

第二個限制條件為相鄰對角帶起點坐標的步長。很明顯，假設(shè)固定一條規(guī)整路徑的起點坐標，則調(diào)節(jié)窗條件限制的不僅僅是匹配的區(qū)域，而且還有其終點坐標。假設(shè)i1＝1，j1＝1，則其終點坐標為iend＝m，jend∈（m－R，m＋R）。因此，對每次規(guī)整過程使用不同的起點，則距離矩陣自然的劃分為一系列寬度為2R＋1的對角帶，如圖2所示。為了避免規(guī)整函數(shù)的冗余計算，本文針對起點坐標利用重疊滑動窗，具體來說，每一次向前移動R步進行一個新的DTW搜索。

圖2 SDTW原理圖（R＝2）Fig.2 The schematic diagram of SDTW （R＝2）

一般地，給定R以及測試語句長度n，即其包含音素后驗概率的幀數(shù)，則起點坐標為

匹配區(qū)域劃定之后，使用DTW動態(tài)計算查詢樣例Q和匹配區(qū)域hr之間的相似度得分，尋找最優(yōu)規(guī)劃路徑時，在上述條件限定下，選擇使目前累計距離最小的索引對作為下一步的規(guī)劃路徑。在處理完最后一個索引對后，通過回溯得到最優(yōu)規(guī)劃路徑Popt＝｛（i1，j1），（i2，j2），…，（iK，jK）｝。因此Q和hr的匹配距離得分DTW（Q，hrk）可以利用式（7）求出

式中D為查詢樣例和該區(qū)域歸屬的測試語句之間的距離得分。進一步，將其轉(zhuǎn)化為相似度得分

式中：DTW（Q，HR）＝｛DTW（Q，hr1），…，DTW（Q，hrG）｝為匹配得分集合。為避免混淆，本文將S（Q，hrk）稱為原始相似度。

3 融合下界估計的分段動態(tài)時間規(guī)整

為進一步提高匹配效率，本文在分段動態(tài)時間規(guī)整的基礎(chǔ)上提出融合下界估計的分段動態(tài)時間規(guī)整算法，該算法在應(yīng)用分段動態(tài)時間規(guī)整之前。首先根據(jù)限制條件在測試語句中選定候選分段，計算查詢樣例和每一個候選分段之間DTW得分的下界估計，再運用K最近鄰搜索（K nearest neighbor，KNN）算法搜索與查詢樣例最相關(guān)的分段。該算法的基本思想為舍棄下界估計大于當前最佳得分的分段，無需進行DTW匹配，通過大量減少DTW匹配次數(shù)實現(xiàn)檢索速度的提高。

3.1 下界估計

3.1.1 定義

給定兩個音素后驗概率序列，Q＝（q1，…，qM）和S＝（s1，…，sN），其中可以通過對Q求得一個序列U＝｛u1，…，uM｝進而得到Q和S實際DTW 得分的下界估計，本文稱U為Q的上限序列，其中U可以看作針對Q的一個D維最大值取值器，r為限制因子，與上述SDTW過程中的窗長數(shù)值大小保持一致。很明顯，U中任意元素ui滿足給定Q和S，則其實際DTW得分的下界估計L（Q，S）定義為式中：l＝min（M，N），d為兩向量之間的內(nèi)積距離。由式（9）可以得出L（Q，S）的計算復雜度僅為O（l）。

3.1.2 證明

本文采用倒推法給出不等式L（Q，S）≤DTW（Q，S）的證明。

將上述不等式左右兩部分分別展開，可以得到

式（10）右邊表示實際DTW得分，將其匹配路徑拆分成兩個部分，分別用MA和UM表示，即

式中，MA包含l個元素，其構(gòu)建規(guī)則如下：針對不等式左邊第i項，與之相對應(yīng)的不等式右邊實際規(guī)整路徑中的某個元素（φq（k），φs（k）），假如φs（k）＝i，則將其選入MA；假如實際規(guī)整路徑中與第i幀相匹配的不止一幀，即規(guī)整路徑中φs（k）＝i的元素大于1個，則將具有最小的φq（k）的（φq（k），φs（k））選入MA，通過這種規(guī)則，確保MA中含有的元素個數(shù)為l個。UM包含整個規(guī)整路徑中除MA外所有剩下的元素。由內(nèi)積距離定義可知，上述不等式的每一項均為正數(shù)，因此，假如可以證明則式（11）中的）可以直接消去。

設(shè)（φq（k），φs（k））為MA中的一個元素，它與左邊的第i項d（ui，si）相對應(yīng)，即φs（k）＝i。將式（12）左右兩邊用內(nèi)積距離形式表示

因為兩邊的元素個數(shù)相同，且一一對應(yīng)。假設(shè)式（13）左邊的每一項均小于右邊與之相對應(yīng)的那一項，則不等式成立。消去負號與對數(shù)運算，僅保留內(nèi)積運算，為證明式（13），僅需證明

根據(jù)MA的構(gòu)建規(guī)則：φs（i）＝i，因此si＝sφs（i），且由于DTW 全局路徑限制條件可以得到或者是i－r≤φq（i）≤i＋r，根據(jù)的定義可知因此式（14）成立，故不等式L（Q，S）≤DTW（Q，S）也成立。

由于音素后驗概率特性向量的所有元素之和為1，因此，兩幀音素后驗概率特征向量的內(nèi)積不大于1，即qφq（i）·sφs（i）≤1，假如ui·si≥1，其下界估計將毫無意義，下面給出ui·si≤1的證明。

由的定義可知：umax≤1，故可得出ui·si≤1，所以用此方法進行DTW實際得分的下界估計是有意義的。

3.2 K最近鄰搜索算法

為了在測試集找到與查詢樣例最為相似的K個語音分段，直接運用DTW檢索則需要對測試集中每一個測試語句中的每一個候選分段進行匹配，效率十分低下。如將下界估計算法與KNN搜索算法融合，則能較好的提高匹配效率，KNN搜索算法偽代碼如下所示。

該算法基本思想就是去除任何下界估計大于當前最佳得分（KthBest）的語音片段，上述偽代碼中函數(shù)ComputeLB計算查詢樣例Q和測試語句中每一個可能的片段S的下界估計，測試集中所有可能的片段根據(jù)其下界估計得分排名，并將其該片段的信息以及相應(yīng)的下界估計得分存儲在PQ中。

KNN算法從PQ的最頂端開始，即從下界估計最小的分段開始。計算該片段與查詢樣例之間的實際DTW距離，如果該片段的實際DTW得分小于當前最佳得分，運用函數(shù)FindC定位該分段所屬的測試語句，假如結(jié)果列表（RL）無此測試語句，則將此句加入RL，即更新RL（對應(yīng)函數(shù)為UpdataRL）；如果RL有此測試語句，則運用函數(shù)examineS檢查結(jié)果列表中已存在屬于該語句的片段與當前片段之間的幀索引差，indice為索引差指數(shù)，如果索引差較大，表明查詢樣例在當前測試語句中出現(xiàn)不止一次，應(yīng)將此片段添加進結(jié)果列表，否則予以舍棄；最后，將KthBest設(shè)置為結(jié)果列表中實際DTW得分的最大值，運用函數(shù)Findmax獲得。假如結(jié)果列表中的語音片段個數(shù)等于K個且PQ中所有剩下分段的下界估計均大于KthBest，則算法結(jié)束。由上述分析可知，上述方法只是排除任意一個與查詢樣例Q之間DTW得分的下界估計大于當前最佳得分的語音片段，減少DTW匹配次數(shù)，提高檢索效率，而對其檢索精度不會有任何影響。

具體到本文任務(wù)，在運用LBE之前，測試語句中每一個候選分段與查詢樣例進行匹配時，其參與匹配的幀數(shù)是未知的，因此，需對測試語句加上一個長度與查詢樣例長度相同的滑動窗，該滑動窗每隔R（R的大小與窗長保持一致）幀向前移動一次，即完成一次匹配分段的選取。匹配分段選定之后，再計算查詢樣例和該分段DTW得分的下界估計，而在此之前的SDTW算法中除了滿足2.2節(jié)所涉及的條件之外，其匹配分段長度的選取也要滿足上述條件，只有SDTW 和 KNN－DTW 算法中的DTW在匹配時滿足相同的條件，才能驗證此算法不會影響其檢索精度。

4 基于虛擬相似度的相關(guān)區(qū)域重排序方法

為了使檢索結(jié)果更加準確，本文利用虛擬相關(guān)反饋技術(shù)對檢索結(jié)果進行修正。具體過程如下：經(jīng)過初步檢索，可以得到一系列相關(guān)區(qū)域（分段），找出第一次檢索結(jié)果中排名最靠前的N個區(qū)域和M個區(qū)域，區(qū)域選擇如圖3所示。將前者N個區(qū)域標記為QH＝｛Q1，Q2，…，QN｝，稱為虛擬相關(guān)區(qū)域；將后者M個區(qū)域標記為HR＝｛hr1，hr2，…，hrM｝，稱之為假設(shè)相關(guān)區(qū)域，其相應(yīng)原始相似度得分標記為SHR＝｛S（Q，hr1），…，S（Q，hrM）｝，稱M為假設(shè)相關(guān)區(qū)域總數(shù)（其實這里的hrt與上面的Qi意義相同，為避免混淆，才如此標記），只選擇前M個區(qū)域而不是全部的匹配區(qū)域，這是因為：第一，假定所有真正相關(guān)區(qū)域在此M個區(qū)域中全部出現(xiàn)，事實上，真正的相關(guān)區(qū)域很大一部分集中在排名較為靠前的一部分匹配區(qū)域中，當然，M的取值不應(yīng)過小；第二，可以大大節(jié)省檢索時間。對于兩個與查詢樣例真正相關(guān)的匹配區(qū)域來說，它們應(yīng)該具有較高的相似度，因此，與QH具有較高相似度的區(qū)域，也很可能是真正相關(guān)的區(qū)域，其排名應(yīng)該被提高；反之，其排名應(yīng)該被降低。利用DTW獲取第i個假設(shè)區(qū)域hri與QH的匹配得分DTWprf（QH，hri）

由DTWprf（QH，hri）可以得到其虛擬相似度SIM（QH，hri）

其中，DTWprf（QH，HR）＝｛DTWprf（QH，hr1），…，DTWprf（QH，hrM）｝。將虛擬相似度得分SIM（QH，hri）與原始相似度得分S（Q，hri）融合，從而得到新的相似度得分Snew（Q，hri）

其中a為虛擬相似度權(quán)重因子。最后依據(jù)Snew（Q，hri）對檢索結(jié)果進行重排序。

圖3 相關(guān)區(qū)域的選擇Fig.3 The selection of the relevant area

5 實驗

5.1 實驗配置

實驗訓練集選用CTS中Switchboard Cellular的部分語料共（10h）作為音素后驗概率檢測系統(tǒng)的訓練集。選擇TIMIT語料庫（除去SA1和SA2以及開發(fā)集共4 640句，總時長約3.5h）作為測試集，并使用NICO Toolkit來訓練MLP作為音素后驗概率檢測器。

在音素后驗概率檢測實驗中，選擇幀長與幀移間隔分別為25ms和10ms，然后對語音信號進行預(yù)加重、加漢明窗，將頻譜轉(zhuǎn)化為梅爾頻標后并進行三角窗濾波，使用梅爾域的23個頻帶，時域上左右各擴展了15幀，加中心幀16幀，每幀幀移為10ms，相當于共用到了310ms的擴展模式，每個頻帶取DCT變換后的前10維加上C0特征（能量），因此，兩個底層 MLP各有253維的輸入特征。兩個底層MLP的輸出維數(shù)與音素個數(shù)相等。高層MLP的輸入維數(shù)為兩個底層MLP的輸出維數(shù)之和，即為音素個數(shù)的2倍，其輸出維數(shù)與音素個數(shù)相等。

從測試集中隨機選擇15個查詢樣例，具體如表1所示。表1中各個查詢樣例后面括號中的數(shù)字為該樣例在測試集中實際出現(xiàn)的次數(shù)。

表1 查詢樣例匯總Table 1 The summary of sample query

5.2 性能指標

采用信息檢索領(lǐng)域用來評估檢索算法的評估指標 MAP以及實時系數(shù)（Realtime coefficient，RT）作為量化檢索性能的指標。其中，MAP用來衡量檢索的精度；實時系數(shù)用來衡量檢索的速度，其定義為對所有查詢樣例完成檢索CPU所消耗的時間與測試集總時長之間的比值。

5.3 實驗結(jié)果

為使下文對實驗結(jié)果的描述更加方便與準確，對文中所涉及的檢索方法進行編號，具體對應(yīng)關(guān)系見表2。

表2 不同方法與其對應(yīng)編號Table 2 The corresponding numbers of different methods

5.3.1 方法1與方法2的檢索性能比較

表3所示為方法1與方法2的檢索性能對比。實驗中λ取值為0.01（后續(xù)實驗均為此值）。從表3中不難看出，方法2的檢索精度略低于方法1，但是其檢索速度大大優(yōu)于后者。圖4所示為采用方法2時，窗長R對MAP的影響，從圖4中可以看出，MAP隨著R的變化先增大后減小。這是由于窗長過小時，過分限制了查詢樣例和測試語句之間的路徑規(guī)整，造成檢索精度的降低；而窗長過大時，可能產(chǎn)生具有較大時差的規(guī)整路徑，也會造成檢索精度的降低。所以，運用SDTW時選取合適的窗長十分重要。

表3 方法1與方法2的檢索性能對比Table 3 The retrieval performance comparison of method 1and method 2

圖4 窗長對MAP的影響Fig.4 The effect of window size on MAP

圖5所示為采用方法2及方法3時，窗長對RT的影響。從圖5中可以看出，采用方法2時，RT隨著窗長R的不斷增加而減小，這是由于隨著窗長增大，其規(guī)整路徑隨之減少，故其檢索時CPU消耗時間也隨之減少，RT與CPU消耗時間是正比關(guān)系，因此，RT隨著窗長R的不斷增加而減小。而采用方法1時，隨全局限制因子的增加，RT并無明顯變化，其平均實時系數(shù)為3.49。因此，方法2在檢索速度方面相對于方法1有很大優(yōu)勢。

圖5 窗長對RT的影響Fig.5 The effect of window size on RT

5.3.2 方法2與方法3的檢索性能比較

從3.2節(jié)的分析可知，采用方法3不會改變SDTW的檢索精度（MAP實驗結(jié)果不再給出），而是從檢索速度方面加以改善，從圖5可以看出，采用方法3時，相對于方法2，其檢索速度進一步提高，這是由于方法3所需進行的DTW匹配次數(shù)遠遠少于方法2，雖然計算查詢樣例與每一個候選分段實際DTW得分的下界估計需要耗費一定時間，但其時間消耗量與節(jié)省的時間（節(jié)省的時間主要為節(jié)省的DTW匹配所應(yīng)消耗的時間）相比是很小的。

5.3.3 方法3與方法4檢索性能比較

在方法3的基礎(chǔ)上，本文使用PRF對檢索結(jié)果進行修正，圖6所示為使用方法4時，虛擬相似度權(quán)重因子a對MAP的影響，實驗中窗長R取值為7，假設(shè)區(qū)域總數(shù)M取值為查詢樣例實際出現(xiàn)次數(shù)的3倍，虛擬相關(guān)區(qū)域數(shù)目N取2。從圖6中可以出，虛擬相似度權(quán)重a為0.5時，MAP達到最大為61.56%，相對于采用方法2時，其MAP提高了1.36%；相對于方法1，MAP提高了0.92%。這是因為虛擬相似度是一種有效的置信度方法，可以對存在一定偏差的原始相似度進行修正，使得檢索結(jié)果更準確。但是，這是以檢索速度的降低為代價的，從圖5可知，當R取值為7時，RT為0.32，而運用PRF之后，RT為0.536，很明顯，運用PRF造成了RT的急劇增加。這是因為假設(shè)相關(guān)區(qū)域總數(shù)M取值為查詢樣例實際出現(xiàn)次數(shù)的3倍，在進行KNN搜索時，結(jié)果列表中所要得到的分段個數(shù)是運用PRF之前的3倍，這樣就使得當前最佳匹配得分的不斷增加，因此，DTW匹配次數(shù)也隨之急劇增加，可以看出，當語音樣例實際出現(xiàn)的次數(shù)超過一定范圍之后，即計算查詢樣例和候選分段之間DTW得分的下界估計所消耗的時間大于或者等于節(jié)省的DTW匹配所應(yīng)消耗的時間時，方法4也不能保證檢索速度的提高；另外，在運用PRF對假設(shè)區(qū)域中的每個分段進行反饋時，也需要一定次數(shù)的DTW匹配，而以上兩個方面都需要消耗一定的時間，從而造成RT的增加。從圖6中還可以看出當虛擬相似度取值太大時，MAP急劇下降，這說明原始相似度對系統(tǒng)的檢索精度也起著重要作用。因此，在對原始相似度和虛擬相似度進行融合時，需要選擇合適的權(quán)重，這樣才能使得相關(guān)區(qū)域的排序更加準確。

圖6 虛擬相似度權(quán)重因子對MAP的影響Fig.6 The effect of virtual similarity weighting factor on MAP

6 結(jié)束語

本文提出了一種基于下界估計和分段動態(tài)時間規(guī)整的語音樣例檢索方法，此方法首先提取查詢樣例和測試語句的音素后驗概率參數(shù)；然后，計算查詢樣例和每個候選分段之間時間DTW得分的下界估計，并運用K最近鄰搜索算法搜索與查詢樣例相似度最高的分段；最后，使用虛擬相關(guān)反饋技術(shù)對檢索結(jié)果進行修正。實驗表明，盡管其檢索精度略低于直接運用DTW進行檢索，但其檢索速度大幅提高，且檢索結(jié)果經(jīng)PRF修正后，MAP得到有效提高，然而，這是以檢索速度的降低為代價的。

［1］Shen W，White C M，Hazen T J.A comparison of query－by example methods for spoken term detection［C］／／Conference of the International Speech Communication Association 2009. Brighton， United Kingdom：［s.n.］，2009：2143－2146.

［2］Chelba C，Hazen T J，Saraclar M.Retrieval and browsing of spoken content［J］.IEEE Signal Processing Magazine，2008，3（25）：39－49.

［3］Tzanetakis G，Ermolinsky A，Cook P.Pitch histograms in audio and symbolic music information retrieval［J］.Journal of New Music Research，2003，2（32）：143－152.

［4］Saraclar M，Sproat R W.Lattice－based search for spoken utterance retrieval［C］／／Human Language Technologies：The Annual Conference of the North American Chapter of the Association for Computational Linguistics.Boston，America：［s.n.］，2004：129－136.

［5］Miller D，Kleber M，Kimball O，et al.Rapid and accurate spoken term detection［C］／／Conference on the International Speech Communication Association.Antwerp，Belgium：［s.n.］，2007：314－317.

［6］Ng K.Subword－based approaches for spoken document retrieval［D］.Massachusetts Institute of Technology，2000：53－69.

［7］Yu Peng，Chen Kaijiang，Ma Chengyuan，et al.Vocabulary－independent indexing of spontaneous speech［J］.IEEE Trans on Speech Audio Processing，2005，5（13）：635－643.

［8］Hazen T J，Shen W，White C.Query－by－example spoken term detection using phonetic posteriorgram templates［C］／／Automatic Speech Recognition and Understanding.Merano／Meran，Italy：［s.n.］，2009：421－426.

［9］Tejedor J，Sz?ke I，F(xiàn)ap?o M.Novel methods for query selection and query combination inquery－by－example spoken term detection［C］／／SSCS 2010.Palazzo Vecchio：［s.n.］，2010：15－20.

［10］Chan Chunan，Lee Linshan.Unsupervised spoken term detection with spoken queries using segmentbased dynamic time warping［C］／／Interspeech 2010.Chiba，Japan：［s.n.］，2010：2141－2144.

［11］Jansen A，Durme B V.Indexing raw acoustic features for scalable zero resource search［C］／／Interspeech 2012.Portland Oregon：［s.n.］，2012：524－527.

［12］Chan Chunan，Lee Linshan.Integrating frame based and segment－based dynamic time warping for unsupervised spoken－term detection with spoken queries［C］／／ICASSP 2011.Prague，Czech Republic：［s.n.］，2011：5652－5655.

［13］Zhang Yaodong，Adl K，Glass J.Fast spoken query detection using lower－bound dynamic time of graphical processing units［C］／／ICASSP 2012.Kyoto，Japan：［s.n.］，2012：5173－5176.

［14］Grezl F.Trap－based probabilistic features for automatic speech recognition［D］.Brno University of Technology，2007：13－19.

［15］Schwarz P.Phoneme recognition based on long temporal context［D］.Prague：Brno University of Technology，2008：35－40.