• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      融合查詢擴展和動態(tài)匹配的集外詞檢測

      2014-11-17 07:13:42鄭永軍張連海
      數(shù)據(jù)采集與處理 2014年2期
      關(guān)鍵詞:音素置信度字形

      鄭永軍 張連海

      (解放軍信息工程大學(xué)信息系統(tǒng)工程學(xué)院,鄭州,450001)

      引 言

      關(guān)鍵詞識別(Keyword recognition,KWR),亦稱關(guān)鍵詞檢測(keyword spotting,KWS)[1],是指在語音數(shù)據(jù)中查找到所有可能出現(xiàn)的給定詞的過程。語音關(guān)鍵詞檢測技術(shù)被看作是能有效處理口語和實現(xiàn)人機智能通信的解決方案之一[2]。目前KWS面臨的一個主要挑戰(zhàn)是集外詞(Out-of-vocabulary,OOV)的檢測。集外詞是指那些不在系統(tǒng)字典里的詞。出現(xiàn)集外詞的原因是由于系統(tǒng)詞表有一個固定的大小,不能覆蓋全部的詞匯,隨著人類語言的變化發(fā)展,會產(chǎn)生更多的新詞,這些詞都是集外詞,而它們也是人們關(guān)注的關(guān)鍵詞。OOV的檢測性能相比集內(nèi)詞有一定差距,主要是因為OOV具有很高的發(fā)音不確定性和多樣性,并且發(fā)音的不確定性很難通過聲學(xué)和語言學(xué)模型來建模[3]。

      解決OOV檢測問題的常用方法是應(yīng)用子詞建模單元,例如:音素、音節(jié)、字形(Grapheme)、字形音素對(Graphone)和詞片段(Word-fragment)等,首先將集外詞轉(zhuǎn)換為子詞序列,然后將這些子詞序列在先前創(chuàng)建的索引中檢索。文獻[4]根據(jù)聲學(xué)混淆度和語言模型得分將集外詞擴展為集內(nèi)詞,彌補集外詞的識別錯誤。文獻[5]提出了動態(tài)匹配詞格檢索(Dynamic match lattice spotting,DMLS)方法,將基于音素Lattice的快速檢測和動態(tài)序列匹配技術(shù)融合在一起,實現(xiàn)了快速而準確的關(guān)鍵詞開集檢測。文獻[6]應(yīng)用聯(lián)合最大熵N元模型進行查詢擴展,提升了語音文檔檢索的性能。文獻[7]采用隨機發(fā)音建模方法補償集外詞發(fā)音的不確定性,在索引中檢測集外詞所有可能的發(fā)音。文獻[8]提出了前后綴查詢擴展方法,并引入有窮自動機壓縮檢索空間,實現(xiàn)了高效的中文語音檢索。文獻[9-11]將多種語音索引系統(tǒng)融合在一起,應(yīng)用不同子詞建模單元間的互補性來提升集外詞檢測的性能。

      動態(tài)匹配應(yīng)用最小編輯距離(Minimum edit distance,MED)作為置信度,在檢索時允許一定的誤匹配,替換、插入和刪除錯誤代價通過音素混淆矩陣得到,主要應(yīng)用的是聲學(xué)信息。而查詢擴展通常是創(chuàng)建與集外詞相關(guān)的多種發(fā)音,應(yīng)用的是字形和發(fā)音之間的對應(yīng)信息,沒有應(yīng)用聲學(xué)信息。兩者是在不同的層面補償集外詞發(fā)音的不確定性,理論上存在一定的互補性,基于此,本文將查詢擴展和動態(tài)匹配融合在一起解決集外詞的檢測問題。首先利用DMLS方法搭建一個關(guān)鍵詞檢測系統(tǒng),然后分析研究基于聯(lián)合多元模型(Joint-multigram model,JMM)[12-13]的查詢擴展和基于 MED 的動態(tài)匹配,最后將查詢擴展和動態(tài)匹配融合在一起,采用了兩種融合方法,一種是結(jié)果融合,另一種是置信度融合。實驗結(jié)果表明二者的融合提升了系統(tǒng)性能。

      1 基于DMLS的關(guān)鍵詞檢測系統(tǒng)

      基于DMLS的關(guān)鍵詞檢測系統(tǒng)框架如圖1所示。

      圖1 基于DMLS的關(guān)鍵詞檢測系統(tǒng)框架Fig.1 Architecture of keyword spotting system based on DMLS

      索引階段首先采用BUT的連續(xù)語音識別系統(tǒng)[14]生成音素Lattice,音素Lattice提供了每個語音片段詳細的音素表示形式,然后執(zhí)行一個改進的維特比算法遍歷Lattice來創(chuàng)建一個固定長度的音素序列數(shù)據(jù)庫(Sequence database,SDB),作為后續(xù)檢索操作的索引。后端檢索階段為研究的重點,本文主要研究集外詞的檢測。當(dāng)一個集外詞查詢項提交給系統(tǒng)時,首先應(yīng)用聯(lián)合多元模型將集外詞擴展為n-best發(fā)音的表示形式,并得到其發(fā)音的概率得分。其次,采用基于最小編輯距離的動態(tài)匹配確定與查詢項發(fā)音近似匹配的音素序列。最后根據(jù)查詢擴展和動態(tài)匹配的不同融合方法得到檢測結(jié)果。

      2 融合查詢擴展和動態(tài)匹配的改進

      2.1 基于JMM的查詢擴展

      一個 LTS(Letter-to-sound)模型通常被定義為字形G=(g1,g2,…,gL)和發(fā)音Q=(q1,q2,…,qR)兩個符號序列之間的隨機映射。字形和發(fā)音是在同樣的社會背景下發(fā)展起來的兩個系統(tǒng),兩者之間具有緊密的聯(lián)系,遵循不同的規(guī)則。字形和發(fā)音間的對應(yīng)關(guān)系定義為字形和發(fā)音序列間的映射,其分量被稱為字音對(Grapheme-phoneme pair)。最簡單的映射為一個音素對應(yīng)一個字形,如果字形和發(fā)音長度不同,可以插入空字符,此外多對多的映射也是合理的,例如圖2給出了詞“speaking”的字形和發(fā)音的對應(yīng)關(guān)系。

      圖2 詞“speaking”的字形和發(fā)音對應(yīng)關(guān)系Fig.2 Grapheme-phoneme correspondence of the word"speaking"

      JMM的基本思想是對字形和發(fā)音的聯(lián)合概率進行建模。多元Multigram是一個符號序列,長度可以為0,1或是更長。一個字音對包含一個字形多元和一個音素多元,因此也被稱為聯(lián)合多元。按照文獻[12]的定義,一個聯(lián)合多元u=被稱為graphone,其中為字形分量,為音素分量。字形和發(fā)音的對應(yīng)關(guān)系用U表示,實際為一個graphone序列,表示為

      式中H為graphone的長度和要滿足如下約束

      式中:符號∧表示連接;L和R分別為字形和音素序列的長度和包含長度可變的符號。字形和發(fā)音的映射可以用graphone來描述。為了描述字形發(fā)音映射的隨機屬性,可以對U的概率分布進行建模,即聯(lián)合多元模型,通常表示為

      在JMM中,字形G和發(fā)音Q的聯(lián)合概率為所有可能graphone序列的概率總和,表示為

      式中G(U)和Q(U)分別為對應(yīng)于U的字形和音素序列。那么發(fā)音預(yù)測公式為

      式中P(U)可以應(yīng)用標準的n元語言模型建模,得到

      本文應(yīng)用工具包Sequitur G2P[15]訓(xùn)練JMM模型,n-best發(fā)音預(yù)測解碼算法詳見文獻[12]。應(yīng)用JMM模型可以將集外詞查詢項term擴展為其n-best發(fā)音的表示形式(Q1,P(Q1|G)),…,(Qn,P(Qn|G)),Qi為一個發(fā)音,P(Qi|G)為其相應(yīng)的發(fā)音得分,代表這一發(fā)音的概率。以詞“bungalow”的查詢擴展為例,如表1所示。每一個發(fā)音Qi的置信度可以用其發(fā)音得分的對數(shù)表示,如式(7)所示。在集外詞檢測時,如果在索引中同一時段內(nèi)檢測到查詢項term的多個發(fā)音時,將檢測結(jié)果合并并分配最大的發(fā)音得分置信度,如式(8)所示。

      表1 詞“bungalow”的查詢擴展Table 1 Query expansion of the word″bungalow″

      2.2 基于MED的動態(tài)匹配

      在語音識別中,經(jīng)常會出現(xiàn)替換、插入和刪除錯誤(見圖3),并且集外詞出現(xiàn)識別錯誤的概率更高,這嚴重影響關(guān)鍵詞檢測的性能。因此在檢索中采用動態(tài)匹配,應(yīng)用最小編輯距離作為置信度,允許一定的誤匹配來補償識別錯誤。

      最小編輯距離又稱為Levenshtein距離,主要用于度量將一個字符串轉(zhuǎn)換為另外一個字符串所付出的最小代價。這種轉(zhuǎn)換主要包含4種編輯操作:匹配、替換、插入和刪除,通常每種編輯操作都會有相應(yīng)的代價。本文應(yīng)用MED檢測和查詢項term的發(fā)音Q(目標音素序列)近似匹配的索引音素序列。MED計算的核心思想是應(yīng)用一個代價矩陣來累加轉(zhuǎn)換代價,執(zhí)行一個遞推過程來更新代價矩陣的各個元素,從而確定整體的最小轉(zhuǎn)換代價。定義Φ=(φ1,φ2,…,φN)為索引音素序列,Q=(q1,q2,…,qM)為目標音素序列,ΩN+1×M+1為N+1×M+1維的代價矩陣,Cs(φi,qj),Ci(φi)和Cd(qj)分別為替換、插入和刪除代價Ωi,j為代價矩陣Ω中的元素,表示將子序列變換為的最小代價。具體流程如下:

      (1)初始化一個N+1×M+1維的代價矩陣Ω,矩陣的第一個元素Ω0,0=0;

      (2)初始化代價矩陣的第一行元素

      (3)初始化代價矩陣的第一列元素

      (4)從左到右從上到下依次更新代價矩陣的元素

      圖3 語音識別常見錯誤Fig.3 Common errors in speech recognition

      ΩN,M即為將Φ轉(zhuǎn)換為Q的最小代價,通常情況下N≥M,所以還要執(zhí)行一個回溯算法尋找最優(yōu)路徑,并在最優(yōu)路徑上確定和Q最為近似的音素子序列Φ′,得到時間邊界信息和最小編輯距離Δ(Φ′,Q)。在DMLS中,某一檢測結(jié)果的置信度得分被簡單定義為索引音素子序列Φ′和目標音素序列Q之間距離的負值,如式(12)所示。如果CMED(Φ′,Q)在設(shè)定的閾值范圍之內(nèi),那么Φ′就為檢測結(jié)果。

      在MED的原始定義中,替換、插入和刪除的代價通常為1,不能完全反映各個音素之間識別錯誤的規(guī)律和模糊發(fā)音現(xiàn)象。因此可以通過觀察音素識別器實際產(chǎn)生的音素錯誤訓(xùn)練得到改進的替換、插入和刪除錯誤代價[16]。HTK工具包中的HResults被用于對齊訓(xùn)練集音素識別結(jié)果和參考的音素標注,生成一個音素混淆矩陣。替換、插入和刪除錯誤代價可以通過最大似然估計從音素混淆矩陣中訓(xùn)練得到。應(yīng)用音素混淆度加權(quán)的MED可以更好地補償音素識別錯誤,從而改善關(guān)鍵詞檢測的準確性。

      2.3 融合查詢擴展和動態(tài)匹配

      由上文可知,查詢擴展和動態(tài)匹配是在不同的層面補償集外詞發(fā)音的不確定性,理論上存在一定的互補性,可以將二者融合在一起進行集外詞的檢測。本文研究了兩種融合方法,第一種是結(jié)果融合(如圖4所示)。分別應(yīng)用查詢擴展和動態(tài)匹配并行的檢測集外詞。查詢擴展:應(yīng)用JMM將集外詞查詢項term擴展為n-best發(fā)音Qi,1≤i≤n,然后將這些發(fā)音在索引中進行精確匹配,得到檢測結(jié)果。動態(tài)匹配:同樣是應(yīng)用JMM得到term的1-best發(fā)音Q1-best,然后在索引中采用動態(tài)匹配,檢索和Q1-best近似的結(jié)果。最后將兩個系統(tǒng)在索引中的同一時間段內(nèi)出現(xiàn)的檢測結(jié)果合并,并分配最大的置信度得分(如式(13)),同時保留不同的檢測結(jié)果。

      另外一種方法是置信度融合,最小編輯距離衡量的是查詢項發(fā)音(目標音素序列)和索引音素序列間的相似度,而發(fā)音得分描述的是發(fā)音和字形之間的對應(yīng)關(guān)系,兩種置信度都是和發(fā)音相關(guān)的,且在同一個數(shù)量級上,可以將MED和發(fā)音得分融合構(gòu)成混合置信度進行集外詞的檢出和確認,如式(14)所示。

      圖4 查詢擴展和動態(tài)匹配的結(jié)果融合Fig.4 Result fusion between query expansion and dynamic match

      式中η為加權(quán)因子,平衡MED和發(fā)音得分兩種置信度的貢獻度。在實際檢測中,同一個查詢項term的多個發(fā)音可能會出現(xiàn)在索引中的同一時間段內(nèi),需要合并檢測結(jié)果并分配最大的置信度得分,如式(15)所示。實驗表明置信度融合的方法更好,有效提升了系統(tǒng)的性能。

      2.4 算法步驟

      (1)采用連續(xù)語音識別系統(tǒng)生成音素Lattice;

      (2)執(zhí)行一個改進的維特比算法遍歷Lattice來創(chuàng)建索引;

      (3)應(yīng)用發(fā)音字典CMUdict訓(xùn)練JMM模型;

      (4)應(yīng)用JMM模型將集外詞查詢項擴展為其n-best音素發(fā)音;

      (5)應(yīng)用兩種不同的融合方法在索引中檢索關(guān)鍵詞,并根據(jù)置信度閾值輸出檢測結(jié)果。

      3 實驗結(jié)果及分析

      3.1 實驗配置

      本文實驗采用TIMIT語料庫,主要分為TRAIN和TEST兩個文件集合。本文實驗選擇TRAIN中3 696個語句作為訓(xùn)練集,選擇TEST中1 344個語句作為測試集,未采用其中適合于說話人實驗的SA1和SA2中的語句。TIMIT語料庫中共含有61個音素單元,其劃分較為精細,按照BUT的劃分標準,將TIMIT中61個音素映射為39個音素,如將塞音的成阻(Closure)和除阻(Burst)部分合并(bcl b→b)。實驗選取的集外詞規(guī)模為100個,各關(guān)鍵詞在測試集TEST中出現(xiàn)的次數(shù)總共為344次。訓(xùn)練JMM模型應(yīng)用的是卡耐基梅隆大學(xué)的英文發(fā)音字典CMUdict,該字典共包含125 000個英文單詞,訓(xùn)練時剔除了1 832個和實驗選取的集外詞相關(guān)的單詞。

      3.2 評價標準

      本文采用接收機工作特性(Receiver operating characteristics,ROC)曲線和品質(zhì)因數(shù)(Figure of merit,F(xiàn)OM)[17]作為系統(tǒng)性能的評價指標。ROC曲線定義為不同的置信度閾值下,系統(tǒng)的召回率PRecall隨虛警率PFA的變化趨勢,反映了系統(tǒng)的綜合性能。召回率PRecall為正確的關(guān)鍵詞檢測結(jié)果數(shù)量Ncorrect占實際出現(xiàn)的關(guān)鍵詞數(shù)量Ntrue的百分比。虛警率PFA定義為虛警個數(shù)NFA被分母歸一化后的結(jié)果,H為語音文檔長度,S為關(guān)鍵詞詞表大小,如式(16,17)所示。FOM定義為虛警率在0~10范圍內(nèi)的平均召回率,如式(18)所示。

      3.3 系統(tǒng)性能比較

      將基于JMM查詢擴展的檢測方法記為CJMM,基于動態(tài)匹配的檢測方法記為CMED,第一種融合查詢擴展和動態(tài)匹配的檢測方法記為CMED+JMM,第二種融合方法記為Cfusion。表2對比了不同系統(tǒng)集外詞檢測的性能,圖5給出了相應(yīng)的ROC曲線。從圖中可以看出CMED方法優(yōu)于CJMM方法,主要是由于動態(tài)匹配在檢索中綜合考慮了音素識別的錯誤規(guī)律,能夠更好地補償集外詞的不確定性。同時,兩種方法又是在不同的層面補償集外詞發(fā)音的不確定性,理論上存在一定的互補性,實驗結(jié)果也驗證了這一點。第一種融合方法相比單一的動態(tài)匹配,F(xiàn)OM相對提升了3.9%,說明直接將兩種方法的檢測結(jié)果融合具有一定的互補性,但性能提升有限,需要進一步進行優(yōu)化融合方法。

      在第二種融合方法中,查詢擴展的階數(shù)n和加權(quán)因子η共同決定系統(tǒng)的最終性能。表3給出了Cfusion方法在不同擴展階數(shù)n和加權(quán)因子η下系統(tǒng)的性能。當(dāng)查詢擴展為2-best發(fā)音,加權(quán)因子η=0.7時,F(xiàn)OM相對提升了19.8%,具有最優(yōu)的系統(tǒng)性能。這說明在優(yōu)化了擴展階數(shù)和置信度得分貢獻度后,第二種融合方法效果更好。另外,分析表3的實驗結(jié)果可知在動態(tài)匹配中已經(jīng)允許一定的誤匹配存在,如果查詢擴展階數(shù)較大,虛警率將急劇增加,影響整體性能,當(dāng)擴展為3-best發(fā)音時,F(xiàn)OM下降已經(jīng)非常明顯。

      表2 不同系統(tǒng)集外詞檢測性能的比較Table 2 Comparison of OOV detection performance in different systems

      表3 Cfusion方法在不同參數(shù)下的FOMTable 3 FOM of Cfusionmethod using different parameters

      4 結(jié)束語

      圖5 不同集外詞檢測系統(tǒng)的ROC曲線Fig.5 ROC curves of various OOV detection systems

      針對關(guān)鍵詞檢測中集外詞檢測性能較低的問題,本文提出了一種改進的集外詞檢測方法,將基于聯(lián)合多元模型的查詢擴展和基于最小編輯距離的動態(tài)匹配融合在一起。本文研究了兩種融合方法:第一種方法是直接將兩者的檢測結(jié)果進行融合,性能有一定提升;第二種方法通過引入一個加權(quán)因子η來優(yōu)化平衡最小編輯距離和發(fā)音得分置信度的貢獻度。實驗結(jié)果表明,在擴展為2-best發(fā)音,加權(quán)因子η=0.7時,查詢擴展和動態(tài)匹配具有最優(yōu)的互補性,F(xiàn)OM相對提高了19.8%。下一步的工作重點是研究混合索引問題,提升系統(tǒng)的實用性。

      [1]王炳錫,屈丹,彭煊.實用語音識別基礎(chǔ)[M].北京:國防工業(yè)出版社,2005:287-291.Wang Bingxi,Qu Dan,Peng Xuan.Practical fundamentals of speech recognition[M].Beijing:National Defense Industry Press,2005:287-291.

      [2]孫成立.語音關(guān)鍵詞識別技術(shù)的研究[D].北京:北京郵電大學(xué),2008:1-2.Sun Chengli.A study of speech keyword recognition technology[D].Beijing:Beijing University of Posts and Telecommunications,2008:1-2.

      [3]Wang Dong.Out-of-vocabulary spoken term detection[D].Edinburgh:School of Informatics,University of Edinburgh,2010:9-13.

      [4]Logan B,Thong J M V.Confusion-based query expansion for OOV words in spoken document retrieval[C]//The 7th International Conference on Spoken Language Processing.Colorado,USA:ISCA,2002:1997-2000.

      [5]Thambiratmann K,Sridharan S.Rapid yet accurate speech indexing using dynamic match lattice spotting[J].IEEE Transactions on Audio,Speech,and Language Processing,2007,15(1):346-357.

      [6]Mamou J,Ramabhadran B.Phonetic query expansion for spoken document retrieval[C]//The 9th Annual Conference of the International Speech Communication Association.Brisbane,Australia:ISCA,2008:2106-2109.

      [7]Wang Dong,King S,F(xiàn)rankel J.Stochastic pronunciation modeling for out-of-vocabulary spoken term detection[J].IEEE Transactions on Audio,Speech,and Language Processing,2011,19(4):688-698.

      [8]李偉,吳及,呂萍.基于查詢擴展的中文語音高效檢索[J].模式識別與人工智能,2011,24(4):561-566.Li Wei,Wu Ji,LüPing.Query expansion based high performance Chinese voice retrieval[J].Pattern Recognition and Artificial Intelligence,2011,24(4):561-566.

      [9]Qin Long,Sun Ming,Rudnicky A.System combination for out-of-vocabulary word detection[C]//IEEE International Conference on Acoustic,Speech and Signal Processing.Kyoto,Japan:IEEE,2012:4817-4820.

      [10]Xu Yong,Guo Wu,Dai Lirong.A hybrid fragment/syllable-based system for improved OOV term detection[C]//The 8th International Symposium on Chinese Spoken Language Processing.Hong Kong,China:[s.n.],2012:378-382.

      [11]Kanda N,Itoyama K,Okuno H G.Multiple index combination for Japanese spoken term detection with optimum index selection based on OOV-region classifier[C]//IEEE International Conference on Acoustic,Speech and Signal Processing.Vancouver,Canada:IEEE,2013:8540-8544.

      [12]Bisani M,Ney H.Joint-sequence models for grapheme-to-phoneme conversion[J].Speech Communication,2008,50(5):434-451.

      [13]Jouvet D,F(xiàn)ohr D,Illina I.Evaluating grapheme-tophoneme converters in automatic speech recognition context[C]//IEEE International Conference on A-coustic,Speech and Signal Processing.Kyoto,Japan:IEEE,2012:4821-4824.

      [14]Grezl F,Karafiat M.Integrating recent MLP feature extraction techniques into TRAP architecture[C]//The 12th Annual Conference of the International Speech Communication Association.Florence,Italy:ISCA,2011:1229-1232.

      [15]Hahn S,Lehnen P,Wiesler S,et al.Improving LVCSR with hidden conditional random fields for grapheme-to-phoneme conversion[C]//The 14th Annual Conference of the International Speech Communication Association.Lyon,F(xiàn)rance:ISCA,2013:495-499.

      [16]Wallace R.Fast and accurate phonetic spoken term detection[D].Queensland:Queensland University of Technology,2010:51-90.

      [17]Wallace R,Baker B,Vogt R,et al.Discriminative optimization of the figure of merit for phonetic spoken term detection[J].IEEE Transactions on Audio,Speech,and Language Processing,2011,19(6):1677-1687.

      猜你喜歡
      音素置信度字形
      新目標英語七年級(上)Starter Units 1-3 STEP BY STEP 隨堂通
      硼鋁復(fù)合材料硼含量置信度臨界安全分析研究
      依托繪本課程,培養(yǎng)學(xué)生英語音素意識
      小學(xué)英語課堂中音素意識與自然拼讀整合訓(xùn)練的探索
      甲骨文“黍”字形義考
      甲骨文中的字形直立化二則
      ?不定冠詞a與an
      正負關(guān)聯(lián)規(guī)則兩級置信度閾值設(shè)置方法
      復(fù)習(xí)生字字形的方法
      添一筆變個字
      长丰县| 清远市| 丘北县| 乌拉特前旗| 双牌县| 阿拉善左旗| 株洲县| 留坝县| 武功县| 涞水县| 临武县| 高邑县| 东阿县| 莱芜市| 神木县| 玉田县| 资中县| 武川县| 湟中县| 来凤县| 通化市| 谷城县| 永昌县| 萍乡市| 阿合奇县| 巴南区| 大余县| 南康市| 内丘县| 抚顺县| 白山市| 莱阳市| 濉溪县| 当涂县| 潮安县| 浏阳市| 长沙市| 邻水| 金溪县| 利辛县| 永川市|