• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      端到端流式語音識別研究綜述

      2023-01-29 13:11:00王澳回宋文宇
      計算機(jī)工程與應(yīng)用 2023年2期
      關(guān)鍵詞:流式編碼器標(biāo)簽

      王澳回,張 瓏,宋文宇,孟 杰

      1.天津師范大學(xué) 計算機(jī)與信息工程學(xué)院,天津300387

      2.廣州華立科技職業(yè)學(xué)院 計算機(jī)信息工程學(xué)院,廣州511325

      語音識別模型從最初的基于GMM-HMM[1]的模型,發(fā)展到基于DNN-HMM[2-4]深度神經(jīng)網(wǎng)絡(luò)模型,再到現(xiàn)在的端到端[5-8]語音識別模型,已經(jīng)歷經(jīng)三個階段。通過這三個階段的發(fā)展,模型結(jié)構(gòu)越加簡單,語音識別的準(zhǔn)確率幾乎趨于飽和狀態(tài),然而,大部分模型都是針對非流式語音識別而言的,在測試模型性能的時候很少會去考慮模型識別延遲的問題。近幾年來,語音識別模型進(jìn)入端到端的時代,不再依賴傳統(tǒng)語音識別系統(tǒng)中已經(jīng)使用了幾十年的建模組件,使用單個網(wǎng)絡(luò)便可將輸入的語音序列直接轉(zhuǎn)換成輸出的標(biāo)簽序列,使得模型的尺寸更小,因此,大量研究人員開始從深度神經(jīng)網(wǎng)絡(luò)模型轉(zhuǎn)向研究端到端語音識別模型,另外,大量的研究證明,端到端模型已經(jīng)在學(xué)術(shù)研究領(lǐng)域[7]以及工業(yè)生產(chǎn)領(lǐng)域[9-10]超越了基于DNN-HMM的深度神經(jīng)網(wǎng)絡(luò)模型。未來幾年,端到端模型將是語音識別領(lǐng)域研究的重點。常見的端到端模型有CTC[11]、RNN-T[12]、attention-based encoderdecoder[13-14]、LAS[8]等模型,前兩種能夠直接實現(xiàn)流式識別,而后兩種模型由于注意力機(jī)制需要獲取完整的聲學(xué)序列而不能夠直接進(jìn)行流式識別。流式語音識別又稱為實時語音識別,它指的是用戶在說話的時候模型便已經(jīng)開始進(jìn)行識別,與之相對的非流式識別則是用戶說完了一句話或一段話之后模型開始識別。隨著科技的不斷發(fā)展,各種穿戴式、便攜式的智能設(shè)備,以及大量的應(yīng)用軟件已經(jīng)完全融入大眾生活,常用的輸入法、在線會議、直播、實時翻譯等一系列的應(yīng)用存在著流式語音識別的需求。端到端流式識別模型不需要額外的語言模型,更容易部署在設(shè)備端,另外,智能客服等多種需要流式識別的人機(jī)交互場景也在不斷產(chǎn)生,所以端到端流式語音識別模型將會是未來幾年的研究熱點,而且也具有廣闊的應(yīng)用前景。因此,本文主要從模型結(jié)構(gòu)、性能優(yōu)化、常用的中英文開源數(shù)據(jù)集以及模型性能評價標(biāo)準(zhǔn)等方面分析總結(jié)了目前端到端流式語音識別模型的研究狀況,進(jìn)而提出了未來的發(fā)展與展望。

      2021年國外有兩篇相關(guān)的語音識別領(lǐng)域的綜述,文獻(xiàn)[15]主要總結(jié)了近十年語音識別模型結(jié)構(gòu)與性能的發(fā)展,并從研究與應(yīng)用兩個方面預(yù)測了語音識別未來十年的發(fā)展趨勢。文獻(xiàn)[16]詳細(xì)概述了端到端語音識別模型的發(fā)展及其在實際工業(yè)生產(chǎn)中的應(yīng)用情況,同時從行業(yè)角度出發(fā),重點介紹了端到端語音識別模型如何去解決未來的應(yīng)用部署中的一些挑戰(zhàn)與困難。以上兩篇文章都是從大的領(lǐng)域、更高視野出發(fā),總結(jié)概述端到端語音識別的發(fā)展,而這篇文章,則是聚焦到端到端流式語音識別這個領(lǐng)域,去分析總結(jié)其發(fā)展現(xiàn)狀。

      1 端到端流式語音識別模型

      1.1 可直接實現(xiàn)流式識別的端到端模型

      在端到端流式語音識別模型中,能夠直接進(jìn)行流式識別的模型主要有connectionist temporal classification(CTC)[11]、recurrent neural network transducer(RNN-T)[12]、recurrent neural aligner(RNA)[17]等模型。文獻(xiàn)[11]提出connectionist temporal classification(CTC)損失函數(shù),用來對模型中的循環(huán)神經(jīng)網(wǎng)絡(luò)產(chǎn)生的轉(zhuǎn)錄進(jìn)行評分,使得模型能夠完成音頻幀與標(biāo)簽的自動對齊。從端到端語音識別模型的發(fā)展來看,CTC最先被應(yīng)用到端到端語音識別模型[5-6,18-23],它能夠直接將輸入的語音序列轉(zhuǎn)換成輸出的標(biāo)簽序列,其結(jié)構(gòu)如圖1[16]所示,輸入的語音序列xt通過編碼器進(jìn)行編碼輸出特征表示,再經(jīng)過一個線性分類器得到每個時刻輸出類別的概率P(yt|xt)。

      圖1 CTC結(jié)構(gòu)Fig.1 Structure of CTC

      通過在編碼器中使用單向的循環(huán)神經(jīng)網(wǎng)絡(luò)(unidirectional RNN),CTC模型能夠?qū)崿F(xiàn)流式語音識別。文獻(xiàn)[12]提出了recurrent neural network transducer(RNN-T)模型,該模型為流式語音識別提供了一種自然的方式,因為它的輸出取決于之前的輸出標(biāo)簽序列和當(dāng)前步及之前的輸入語音序列,即P(yu|x1:t,y1:u-1),通過這種方式,消除了CTC的條件獨立假設(shè),由于其具備自然的流式性質(zhì),在該領(lǐng)域應(yīng)用中受到了廣泛的使用[9,24-31]。

      RNN-T模型的結(jié)構(gòu)如圖2[16]所示,它包含一個編碼器網(wǎng)絡(luò)、一個預(yù)測網(wǎng)絡(luò)和一個聯(lián)合網(wǎng)絡(luò),編碼器將輸入的語音序列xt轉(zhuǎn)換成高級特征表示,預(yù)測網(wǎng)絡(luò)基于RNN-T之前的輸出標(biāo)簽y1:u-1,生成高級表示聯(lián)合網(wǎng)絡(luò)是一個前饋網(wǎng)絡(luò),將ht與hu作為輸入,輸出zt,u。

      圖2 RNN-T結(jié)構(gòu)Fig.2 Structure of RNN-T

      針對CTC所存在條件獨立性假設(shè)的問題,文獻(xiàn)[17]提出了一種新的模型:recurrent neural aligner(RNA),類似于CTC模型,該模型定義了目標(biāo)標(biāo)簽序列上的概率分布,包括對應(yīng)于輸入中每個時間步長的空白標(biāo)簽,通過邊緣化所有可能的空白標(biāo)簽位置來計算標(biāo)簽序列的概率。但該模型并不做標(biāo)簽預(yù)測的條件獨立性假設(shè),此外,它在輸入的每個時間步預(yù)測一個輸出標(biāo)簽,而不是通過RNN-T預(yù)測多個標(biāo)簽,從而簡化了波束搜索解碼,使得訓(xùn)練更加有效,在執(zhí)行流式語音識別任務(wù)時,它成功地應(yīng)用于多種口語識別任務(wù)[32]。

      1.2 改進(jìn)后可實現(xiàn)流式識別的端到端模型

      在端到端語音識別模型中,基于注意力[33-36]的模型由于其自身特點不能夠直接實現(xiàn)流式識別,而這些模型已經(jīng)被證明在機(jī)器翻譯[37-38]、語音識別[34,39]等領(lǐng)域的許多問題中非常有效,在該結(jié)構(gòu)中,首先,編碼器對整個輸入序列進(jìn)行編碼,產(chǎn)生相對應(yīng)的隱藏狀態(tài)序列,其次,解碼器根據(jù)編碼器所產(chǎn)生的狀態(tài)序列來進(jìn)行預(yù)測,最終產(chǎn)生輸出序列。目前,基于注意力的端到端模型已在相關(guān)的語音識別[34,40]任務(wù)中取得了重大進(jìn)展,在識別準(zhǔn)確率方面,實現(xiàn)了非流式語音識別模型的最好性能[39]。然而,基于注意力模型并不能夠直接應(yīng)用于流式語音識別問題,一方面,這些模型通常需要獲取完整的聲學(xué)序列作為輸入,使得編碼與解碼不能夠同步進(jìn)行;另一方面,對于語音來說,它們沒有固定的長度,模型的計算復(fù)雜度隨著輸入序列的增加而二次增加。為了能夠?qū)⒆⒁饬C(jī)制應(yīng)用于流式語音識別任務(wù)中,大量的研究人員針對以上問題開展研究,通過對全局注意(local attention)機(jī)制做出改進(jìn),針對在時刻t將哪一部分的輸入序列信息進(jìn)行編碼,同時對于已編碼的信息,將哪一部分進(jìn)行解碼的問題,提出了基于單調(diào)注意力機(jī)制(monotonic attention mechanism)[41-45]、基于塊(chunk-wise)[46-51]、基于信息累積(accumulation of information)[52-55]以及觸發(fā)注意(triggered attention)[56-58]等方法。

      1.2.1 基于單調(diào)注意力機(jī)制的方法

      文獻(xiàn)[42]提出了一種局部單調(diào)注意(local monotonic attention)機(jī)制,它具有局部性和單調(diào)性,局部性幫助模型的注意模塊專注于解碼器想要轉(zhuǎn)錄的輸入序列的某一個部分,單調(diào)性嚴(yán)格地從輸入序列的開始到結(jié)束左右生成對齊。該機(jī)制迫使模型在每個解碼步驟預(yù)測中心位置,并僅在中心位置周圍計算軟注意權(quán)重。然而,僅僅基于有限的信息,很難準(zhǔn)確預(yù)測下一個中心位置。與軟注意相比較,硬單調(diào)性約束限制了模型的表達(dá)能力,文獻(xiàn)[43]提出了單調(diào)組塊注意(monotonic chunk-wise attention,MoChA)機(jī)制來縮小軟、硬注意之間性能的差距,它基于預(yù)測的選擇概率自適應(yīng)地將編碼的狀態(tài)序列分割成小的組塊,如圖3[43]所示,塊邊界由虛線表示,允許模型在硬單調(diào)注意機(jī)制選擇參與的小組塊上執(zhí)行軟注意,但是它的訓(xùn)練過程非常復(fù)雜困難,以至于最終難以實現(xiàn)。

      圖3 單調(diào)組塊注意Fig.3 Monotonic chunk-wise attention

      文獻(xiàn)[44]提出了單調(diào)多頭注意(monotonic multihead attention,MMA),該機(jī)制結(jié)合了多層多頭注意和單調(diào)注意的優(yōu)點,同時提出了兩種變體,即Hard MMA(MMA-H)和Infinite Lookback MMA(MMA-IL),前者在設(shè)計時考慮到了注意力持續(xù)時間必須有限的流式系統(tǒng),而后者強(qiáng)調(diào)識別系統(tǒng)的質(zhì)量。文獻(xiàn)[45]對于一些應(yīng)用局部單調(diào)注意機(jī)制的模型的變體進(jìn)行了修改,同時也對這些模型進(jìn)行了全面的比較,最后通過采用固定大小的窗口實現(xiàn)了一種簡單有效的啟發(fā)式執(zhí)行局部注意的方法。

      1.2.2 基于塊的方法

      文獻(xiàn)[46]提出了Neural Transducer,它根據(jù)部分觀察到的輸入序列和部分生成的序列來計算下一步的分布,使用編碼器來處理輸入,將處理后的結(jié)果作為Transducer的輸入,在每個時間步長,根據(jù)編碼器處理好的輸入塊,Transducer決定可以產(chǎn)生零到多個輸出標(biāo)簽,由此實現(xiàn)流式解碼,然而,由于該模型受到循環(huán)神經(jīng)網(wǎng)絡(luò)時間相關(guān)特性的束縛,它僅僅優(yōu)化對應(yīng)于組塊序列的近似最佳對齊路徑。文獻(xiàn)[47]使用自注意模塊替代了RNN-T結(jié)構(gòu)中的RNN模塊,提出了一種自注意transducer(self-attention transducer,SAT),它能夠利用自注意塊來模擬序列內(nèi)部的長期依賴性,同時引入了塊流(blockflow)機(jī)制,通過應(yīng)用滑動窗口來限制自注意的范圍,并且堆疊多個自注意塊來模擬長期依賴性,但從整體而言,雖然塊流機(jī)制能夠幫助SAT實現(xiàn)流式解碼,但仍然引起了識別準(zhǔn)確率的下降。因此,文獻(xiàn)[49]提出了一 種 同 步transformer(synchronous transformer,Sync-Transformer)模型,能夠同步進(jìn)行編碼與解碼,其結(jié)構(gòu)與推理過程如圖4[49]所示。Sync-Transformer將transformer與SAT深入組合,為了消除self-attention機(jī)制對于未來幀的依賴,則強(qiáng)制編碼器中的每個節(jié)點僅僅關(guān)注左側(cè)上下文并完全忽略右側(cè)上下文。一旦編碼器產(chǎn)生了固定長度的狀態(tài)序列塊,解碼器則立即開始預(yù)測標(biāo)簽。

      圖4 Synchronous Transformer的結(jié)構(gòu)與推理過程Fig.4 Structure and reasoning process of Synchronous Transformer

      1.2.3 基于信息堆疊的方法

      文獻(xiàn)[53]提出了自適應(yīng)時間(adaptive computation time,ACT)算法,該算法支持RNN以學(xué)習(xí)在接受輸入和產(chǎn)生輸出之間需要采取多少計算步驟,為后續(xù)自適應(yīng)計算步的研究打下了基礎(chǔ)。文獻(xiàn)[54]提出了一種新穎的自適應(yīng)計算步算法(adaptive computation steps,ACS),該算法使端到端語音識別模型能夠動態(tài)地決定應(yīng)該處理多少幀來預(yù)測語言輸出,一方面,對準(zhǔn)器在思考間隔內(nèi)計算每個編碼器時間步長停止的概率,并且像基于軟注意模型一樣來總結(jié)上下文向量,另一方面,該模型不斷檢查停止概率的累積,如果總和達(dá)到閾值之后立即做出輸出的決定。文獻(xiàn)[55]提出了解碼器端自適應(yīng)計算步算法(decoder-end adaptive computation steps,DACS)來解決標(biāo)準(zhǔn)transformer不能夠直接用于流式識別的問題,該算法通過在從編碼器狀態(tài)獲得的置信度達(dá)到某個閾值之后觸發(fā)輸出來傳送transformer ASR的解碼,通過引入最大前瞻(look-ahead)性步驟來限制DACS層可以查看每個輸出步驟的時間步數(shù),以防止過快地達(dá)到語音結(jié)束,但DACS對transformer解碼器采用異步多頭注意機(jī)制,破壞了在線解碼的穩(wěn)定性。受到spiking neural networks中的integrate-and-fire模型的啟發(fā),文獻(xiàn)[66]提出了用于序列轉(zhuǎn)換的新型軟單調(diào)對比機(jī)制continuous integrate-and-fire(CIF),能夠支持各種在線識別任務(wù)以及聲學(xué)邊界定位。在每個編碼器步中,接受當(dāng)前編碼器步的向量表示和縮放向量中包含的信息量的相應(yīng)權(quán)重,向前累積權(quán)重并積分向量信息,直到累積的權(quán)重達(dá)到閾值,此時聲學(xué)邊界被定位,且當(dāng)前的編碼器步的聲學(xué)信息由兩個相鄰標(biāo)簽共享,CIF將信息分為兩個部分:一部分用于完成當(dāng)前標(biāo)簽的集成;另一部分用于下一個標(biāo)簽的集成,模擬處理在編碼器步期間的某個時間點觸發(fā)時,將集成的聲學(xué)信息觸發(fā)到解碼器以預(yù)測當(dāng)前標(biāo)簽,如圖5[56]所示,每條虛線代表一次觸發(fā),直到整個聲學(xué)序列完成編碼。文獻(xiàn)[57]提出了存儲器自注意傳感器(memory-self-attention transducer,MSAT),其結(jié)構(gòu)如圖6[57]所示,MSA模塊將歷史信息添加到受限制的自我注意單元中,通過參與存儲器狀態(tài)有效地模擬長時間的上下文,并使用RNN損失來對MSA模塊進(jìn)行訓(xùn)練,實現(xiàn)了該結(jié)構(gòu)在流式任務(wù)中的應(yīng)用。

      圖5 CIF編碼過程Fig.5 Encoding process of CIF

      圖6 MAST結(jié)構(gòu)Fig.6 Structure of MAST

      1.2.4 其他方法

      以上提出來的方法能夠?qū)崿F(xiàn)流式語音識別,但也存在問題?;趩握{(diào)注意力機(jī)制的方法由于使用軟硬注意機(jī)制導(dǎo)致訓(xùn)練過程非常困難;基于塊的方法往往由于忽略組塊之間的關(guān)系而導(dǎo)致性能下降;而基于信息堆疊的方法打破了Transformer在訓(xùn)練中的并行性,通常需要更長的訓(xùn)練時間[58]。文獻(xiàn)[59]提出了觸發(fā)注意(triggered attention,TA)[59-61],其結(jié)構(gòu)如圖7[59]所示,TA解碼器由一個觸發(fā)模型和一個基于注意的解碼器神經(jīng)網(wǎng)絡(luò)組成,編碼器神經(jīng)網(wǎng)絡(luò)由觸發(fā)網(wǎng)絡(luò)和注意機(jī)制共享。注意權(quán)重只能看到觸發(fā)事件之前的編碼器幀及一些向前的幀。在訓(xùn)練期間,CTC輸出序列的強(qiáng)制對齊用于導(dǎo)出觸發(fā)的時間,在解碼期間,考慮CTC訓(xùn)練的觸發(fā)模型的不確定性以分別生成替代的觸發(fā)序列和輸出序列,推理以幀同步解碼方式進(jìn)行。此外,一些研究人員用Transformer替換了RNN-T結(jié)構(gòu)中的RNN,構(gòu)建了Transformer Transducer(TT)[62-69]結(jié)構(gòu),大量的研究[62-69]證明了該結(jié)構(gòu)也具有較好的流式識別能力。

      圖7 Triggered attention系統(tǒng)結(jié)構(gòu)Fig.7 System structure of Triggered attention

      2 端到端流式語音識別模型的優(yōu)化方法與策略

      端到端流式語音識別模型是當(dāng)前語音識別領(lǐng)域的研究熱點與重點,對于非流式模型而言,需要占用盡可能小的內(nèi)存去實現(xiàn)更高的識別準(zhǔn)確率,然而,對于流式識別模型,既需要考慮模型的識別準(zhǔn)確率又需要考慮識別的延遲大小。這兩個方面共同決定了流式語音識別模型的性能。以下將從延遲與準(zhǔn)確率兩個方面來探索流式語音識別模型的優(yōu)化問題。

      2.1 如何降低流式語音識別模型的延遲

      當(dāng)識別一句話時,一般有兩種語音延遲[70]:第一種是第一標(biāo)簽產(chǎn)生延遲(first token emission delay),通過分析用戶實際說話開始時間與語音識別系統(tǒng)實際產(chǎn)生出第一個標(biāo)簽的時間可以獲取到該種延遲的時間;第二種是用戶感知延遲(user perceived latency),當(dāng)用戶停止說話時開始計時,直到模型發(fā)出最后一個非空標(biāo)簽,一般將這段時間稱為用戶感知延遲。

      近期研究[70]表明影響流式語音識別模型用戶感知延遲的主要因素有模型結(jié)構(gòu)、訓(xùn)練標(biāo)準(zhǔn)、解碼超參數(shù)以及端點指示器,而模型的大小與模型計算速度并不總是嚴(yán)重影響用戶感知延遲。目前,研究人員主要從訓(xùn)練策略、對齊與正則化[71]訓(xùn)練等角度出發(fā)來探索如何降低模型的延遲,文獻(xiàn)[72]提出一種自適應(yīng)的前瞻(adaptive look-ahead)方法來權(quán)衡延遲和詞錯率,其中的上下文窗口大小并不固定,可以動態(tài)地修改,引入scout network(SN)和recognition network(RN)兩個神經(jīng)組件,其中,scout network負(fù)責(zé)檢測語音中一個單詞的開始和結(jié)束邊界,recognition network通過向前看預(yù)測邊界進(jìn)行幀同步單通道解碼,雖然這個方法在權(quán)衡延遲與準(zhǔn)確率方面取得了很好的效果,但SN沒有解決隨著左上下文長度的平方增長的繁重的自我注意計算。文獻(xiàn)[73]基于MoChA提出了最小延遲訓(xùn)練策略(minimum latency training strategies),利用從混合模型中提取的外部硬對齊作為監(jiān)督,迫使模型學(xué)習(xí)準(zhǔn)確的對齊方式,在解碼器端提出了延遲約束訓(xùn)練(DeCoT)和最小延遲訓(xùn)練(MinLT)兩種方法,有效地減少了模型的延遲。文獻(xiàn)[74]則從模型結(jié)構(gòu)與端點指示器出發(fā),提出了一個雙通道的RNN-T+LAS模型,其中LAS對RNN-T的假設(shè)進(jìn)行重評分,同時通過預(yù)測查詢結(jié)束(end-of-query)符號,將EOQ端點指示器集成到端到端模型中,用來幫助關(guān)閉麥克風(fēng),這種方法實現(xiàn)了端到端模型在質(zhì)量與延遲的權(quán)衡方面對傳統(tǒng)混合模型的首次超越。文獻(xiàn)[75]提出了一種新的延遲約束方法:自對準(zhǔn),該方法不需要外部對準(zhǔn)模型,而是通過利用自訓(xùn)練模型的維特比強(qiáng)制對齊來尋找較低延遲對齊方向。文獻(xiàn)[76]從延遲正則化訓(xùn)練的角度出發(fā),基于Transducer的流式模型提出了一種新的序列級產(chǎn)生正則化方法FastEmit,在訓(xùn)練transducer模型時能夠直接對每序列概率應(yīng)用延遲正則化,而不需要任何語音-單詞對齊信息,同時,相較于其他正則化方法,F(xiàn)ast-Emit方法需要調(diào)整的超參數(shù)最少。通過在大量端到端模型上展開實驗,表明該方法能夠?qū)崿F(xiàn)很好的詞錯率與延遲的權(quán)衡。通過以上研究可知目前已有限制對齊、正則化等多種方法可以相對解決流式語音識別模型的延遲問題,大多數(shù)的方法雖然降低了模型的延遲,但同時也導(dǎo)致了識別質(zhì)量的下降,這將是未來仍需不斷探索的一個研究方向。

      2.2 如何提高流式語音識別模型的準(zhǔn)確率

      提高語音識別模型的準(zhǔn)確率一直是個熱門話題,從1988年第一個基于隱馬爾科夫模型(HMM)的語音識別系統(tǒng)Sphinx[77]誕生開始,到現(xiàn)在語音識別模型步入端到端的時代,研究人員不斷做出探索希望語音識別模型的準(zhǔn)確率能夠得到進(jìn)一步提升,從傳統(tǒng)混合模型[78]到深度神經(jīng)網(wǎng)絡(luò)模型[2]再到現(xiàn)在的端到端模型[40],模型結(jié)構(gòu)改變的同時,語音識別模型準(zhǔn)確率也得到大幅度提升。與非流式模型一樣,提升流式模型準(zhǔn)確率的方式有改變模型基本結(jié)構(gòu)、預(yù)訓(xùn)練、擴(kuò)大數(shù)據(jù)域、最小詞錯率訓(xùn)練(MWER)[79-83]、知識蒸餾[84-89]等方式,其中,改變模型結(jié)構(gòu)已在第1章進(jìn)行闡述。文獻(xiàn)[73]以MoChA作為流式語音識別模型,在編碼器端,采用了多任務(wù)學(xué)習(xí)并使用幀交叉熵目標(biāo)進(jìn)行預(yù)訓(xùn)練,提升了模型的識別準(zhǔn)確率。文獻(xiàn)[83]提出了一種新穎且有效的基于RNN-T模型的MWER訓(xùn)練算法,對N個最佳列表中每個假設(shè)的所有可能對比的得分求和,并使用它們來計算參考和假設(shè)之間的預(yù)期編輯距離,當(dāng)為endpointer(EP)添加end-ofsentence(EOS),所提出的MWER訓(xùn)練還可以顯著減少高刪除錯誤。文獻(xiàn)[84]研究了基于知識蒸餾的模型壓縮方法來訓(xùn)練CTC聲學(xué)模型,評估了CTC模型的幀級知識蒸餾方法和序列級知識蒸餾方法,通過在WSJ數(shù)據(jù)集上展開實驗,提高了模型的識別準(zhǔn)確率。文獻(xiàn)[90]實現(xiàn)了從非流式雙向RNN-T模型到流式單向RNN-T模型的知識蒸餾,實驗結(jié)果表明,通過所提出的知識蒸餾訓(xùn)練的單向RNN-T比用標(biāo)準(zhǔn)方法訓(xùn)練的單向模型具有更好的準(zhǔn)確性。文獻(xiàn)[85]研究了非流式到流式Transformer-Transducer模型的知識蒸餾,在實驗中比較了兩種不同的方法:隱藏向量的L2距離最小化和頭部L2距離的最小化,實驗結(jié)果表明,基于隱藏向量相似性的知識蒸餾優(yōu)于基于多頭相似性的知識蒸餾。

      3 數(shù)據(jù)集與評估標(biāo)準(zhǔn)

      3.1 數(shù)據(jù)集

      在語音識別領(lǐng)域,ASR模型性能的優(yōu)劣不僅僅與模型的架構(gòu)有關(guān),同時也依賴于量大且質(zhì)量高的數(shù)據(jù)集。隨著互聯(lián)網(wǎng)與一些終端設(shè)備的不斷發(fā)展,每天都會產(chǎn)生大量的數(shù)據(jù)信息,通過對電話錄音、新聞、智能家居、科學(xué)研究等領(lǐng)域相關(guān)語音信息的收集,各大科研機(jī)構(gòu)、數(shù)據(jù)公司相繼發(fā)布了一系列的語音數(shù)據(jù)集。為語音識別領(lǐng)域的科研發(fā)展提供了基本的實驗條件。目前,一些科研機(jī)構(gòu)、數(shù)據(jù)公司已經(jīng)開源了他們的數(shù)據(jù)集,以供學(xué)術(shù)界免費使用進(jìn)行科學(xué)研究,通過OpenSLR平臺,能夠獲取來自世界各地的開源語音數(shù)據(jù)資源,然而,由于法律以及商業(yè)等一方面的原因,大量的數(shù)據(jù)集需要購買才能夠獲得相關(guān)的使用權(quán)限。本節(jié)將主要介紹一些中文普通話以及英語等常見的一些數(shù)據(jù)集。

      中文語音識別開源數(shù)據(jù)集如表1所示,2015年,清華大學(xué)信息技術(shù)研究院語音語言技術(shù)中心發(fā)布了第一個開源中文語音數(shù)據(jù)庫THCHS30[91],以幫助研究人員搭建起第一個語音識別系統(tǒng)。但是該數(shù)據(jù)集的語音總時長僅僅只有35 h,對于模型的訓(xùn)練還不夠充分,2017年,北京希爾貝殼科技有限公司發(fā)布了AISHELL-1[92]語料庫,成為了當(dāng)時最大的開源漢語語音識別語料庫,沖浪科技也發(fā)布了ST-CMDS語音數(shù)據(jù)集[93],2018年,北京希爾貝殼科技有限公司發(fā)布了AISHELL-2[94]語料庫,上海原語公開了Primewords Set1數(shù)據(jù)集,2019年,數(shù)據(jù)堂(北京)科技有限公司開源了中文普通話語音數(shù)據(jù)集DTZH1505[93],記錄了6 408位來自中國八大方言地域、33個省份的說話人的自然語言語音,時長達(dá)1 505 h,語料內(nèi)容涵蓋社交聊天、人機(jī)交互、智能客服以及車載命令等[93],這是目前最大最全面的中文開源語音數(shù)據(jù)集。

      表1 部分常用漢語普通話開源數(shù)據(jù)集Table 1 Part of common Mandarin open source data set

      在語音識別領(lǐng)域,最早開源的是一些國外的語音數(shù)據(jù)集,如表2所示,正是由于這些科研機(jī)構(gòu)、企業(yè)開源了大量的優(yōu)質(zhì)數(shù)據(jù)集,在此基礎(chǔ)上,語音識別模型的性能能夠得到一次又一次的提升。1993年,美國的一些科研機(jī)構(gòu)發(fā)布了語音數(shù)據(jù)集TIMIT[95],該數(shù)據(jù)集旨在為獲取聲學(xué)語音知識以及開發(fā)和評估自動語音識別系統(tǒng)提供語音數(shù)據(jù),由于該數(shù)據(jù)集較小同時標(biāo)記信息比較完整,研究人員能夠快速完成實驗并展現(xiàn)出模型的性能。此后,美國等多個科研機(jī)構(gòu)開源了多個大型語音數(shù)據(jù)集,例 如TED-LIUM[96]、LibriSpeech[97]、Common Voice[98]、MLS[99]、The People’s Speech[100]、GigaSpeech[101],這些數(shù)據(jù)集中的數(shù)據(jù)通過智能設(shè)備、音頻錄制、自動合成等多種方式進(jìn)行獲取,此外,一些數(shù)據(jù)集也采集了一些無標(biāo)簽數(shù)據(jù)用于無監(jiān)督學(xué)習(xí)。

      表2 部分常用外語開源數(shù)據(jù)集Table 2 Part of foreign languages open source data set

      3.2 評價指標(biāo)

      對于端到端流式識別模型來說,主要通過模型的準(zhǔn)確率與識別的延遲兩個方面來評價其性能的優(yōu)劣,在準(zhǔn)確率方面,通過計算出語句的詞錯率(word error rate,WER)或者字錯率(character error rate,CER)來評價模型,常用詞錯率來計算,把T作為一句話中的總單詞數(shù),S作為識別結(jié)果中替換單詞數(shù),D作為識別結(jié)果中刪除的正確話語中的單詞數(shù)[102],I作為沒有在正確話語中而出現(xiàn)在識別結(jié)果中的插入單詞數(shù),那么詞錯率(WER)則定義為:

      WER的值越低,則說明模型的識別準(zhǔn)確率越高,性能越好。在延遲方面,實時因子(real time factor,RTF)則是流式語音識別過程中的評價標(biāo)準(zhǔn),它的值小于1的時候,稱模型是實時識別的,此外也可以計算出語句級或詞語級的延遲數(shù)值(latency)。把M作為一段音頻的時長,把N作為識別出這段音頻的時長,則實時因子(RTF)則定義為:

      RTF的值越小,則說明延遲越小,模型的性能越好。

      4 流式語音識別模型的未來發(fā)展方向與應(yīng)用

      雖然端到端語音識別模型已經(jīng)超越了傳統(tǒng)混合模型的性能,實現(xiàn)了輸入語音序列直接產(chǎn)生對應(yīng)的標(biāo)簽序列,極大程度簡化了模型的訓(xùn)練過程,但端到端流式語音識別仍是一個需要重點關(guān)注的任務(wù),在其性能準(zhǔn)確率與識別延遲的權(quán)衡問題上仍然值得研究人員去深入研究與探索。本章從七個方面提出一些問題,這些問題值得今后進(jìn)一步去思考研究。

      (1)“詞錯率-延遲”如何權(quán)衡。

      一般來說,減小語音識別的延遲常常需要以降低識別精確度為代價。對于一個流式語音識別模型,可以通過大量的實驗繪制出詞錯率-延遲曲線,隨著延遲的降低,其詞錯率在隨之增加,詞錯率-延遲的權(quán)衡問題,其折中點在何處?在可以接受的識別質(zhì)量的情況下,其能做到的最小延遲是多少?這仍需要結(jié)合實際的應(yīng)用需求來進(jìn)一步地探索。

      (2)流式與非流式模型的統(tǒng)一結(jié)構(gòu)

      在模型的結(jié)構(gòu)方面,常見的模型為流式識別模型或者非流式識別模型,它們都是流式或非流式單一結(jié)構(gòu)。基于全注意力的端到端模型能實現(xiàn)最優(yōu)性能,因此,在處理非流式任務(wù)時,研究人員一般選擇基于全注意力的端到端模型,以實現(xiàn)更高的準(zhǔn)確率,但是,在處理流式任務(wù)時,則會對模型結(jié)構(gòu)進(jìn)行改變,選擇CTC模型、RNN-T模型以及改進(jìn)的注意力模型以犧牲準(zhǔn)確率的代價來減小識別的延遲。訓(xùn)練一個模型能夠?qū)崿F(xiàn)流式識別與非流式識別兩種需求,同時大幅減少模型開發(fā)、訓(xùn)練以及部署的成本,因此,流式與非流式模型的統(tǒng)一結(jié)構(gòu)將會是未來語音識別領(lǐng)域的一個研究重點與熱點問題。文獻(xiàn)[103]提出了一個框架U2來將流式識別與非流式識別相統(tǒng)一,不僅降低了流式模型與非流式模型之間的精度差距,同時大幅度減少了成本。

      (3)自監(jiān)督預(yù)訓(xùn)練模型

      相較于傳統(tǒng)的語音識別模型,端到端語音識別模型更需要大規(guī)模的數(shù)據(jù)。由于中文普通話、英語等語言受到廣泛的使用,獲取這類語言大規(guī)模數(shù)據(jù)集并不是一件困難的事,但當(dāng)面臨中文方言或者一些比較小眾語言時,想要獲取數(shù)據(jù)集便十分困難,獲取其大規(guī)模的數(shù)據(jù)集更是難上加難。因此,可以通過自監(jiān)督學(xué)習(xí)來預(yù)訓(xùn)練端到端流式語音識別模型,在預(yù)訓(xùn)練的過程中不需要帶有標(biāo)簽的數(shù)據(jù),有效解決低資源的問題。(4)輕體量的個性化語言模型

      傳統(tǒng)的語音識別模型由獨立的聲學(xué)、發(fā)音與語言模型組成,而端到端語音識別模型則將這三種獨立的模型統(tǒng)一成一個神經(jīng)網(wǎng)絡(luò),對于體量較大的傳統(tǒng)語音識別模型來說,其識別精確度優(yōu)于端到端模型的主要原因是在于其具有非常大的語言模型。因此,為了提升端到端流式語音識別模型的識別準(zhǔn)確率,可以在模型的解碼階段引入一個輕體量的個性化語言模型,這樣做既不會大幅增強(qiáng)模型的推理時間,同時又能夠?qū)崿F(xiàn)熱詞增強(qiáng)和個性化解碼。

      (5)端到端流式語音識別模型后處理

      在流式語音識別過程中,模型能夠通過部分上下文即可快速輸出識別結(jié)果,但在該過程中由于獲取的下文內(nèi)容受到限制可能也會導(dǎo)致識別結(jié)果出現(xiàn)一些錯誤。糾錯模型和雙通道重評分機(jī)制是語音識別后處理的兩個重要策略,但大部分糾錯模型由于采用自回歸結(jié)構(gòu)導(dǎo)致其存在較大的延遲,并不適用于端到端流式語音識別模型后處理。然而基于多輸入的快速糾錯模型FastCorrect2[104]的提出,使得在端到端流式語音識別模型后處理過程中引入快速糾錯模型成為可能,通過快速糾錯模型或者雙通道重評分機(jī)制,可以對語音識別的結(jié)果進(jìn)行檢測,快速糾正其中的錯誤,在保持低延遲的情況下,能夠進(jìn)一步地提升端到端流式語音識別模型的性能。

      (6)基于設(shè)備端部署小尺寸流式語音識別模型

      近些年來,用戶數(shù)據(jù)泄漏、隱私受到侵犯、遭遇詐騙等熱點問題頻發(fā),用戶個人隱私問題越來越受到重視,同時,智能家居、智能手機(jī)以及各種可穿戴設(shè)備進(jìn)入人們的生活當(dāng)中。近期,一些科研人員開始研究基于設(shè)備端的流式語音識別模型部署問題[105-110]。語音識別模型一般部署在服務(wù)器端,將音頻以流的方式傳輸?shù)椒?wù)器端,在服務(wù)器上進(jìn)行識別,最終將結(jié)果傳輸?shù)浇K端設(shè)備上,而隨著端到端模型的發(fā)展,它不需要額外的語言模型,以便將模型部署在設(shè)備端,直接在設(shè)備上完成識別工作,這有助于保護(hù)用戶的隱私,同時能夠通過減少數(shù)據(jù)傳輸時間進(jìn)一步減少設(shè)備的識別延遲[70],增加模型識別的穩(wěn)定性。因此,未來基于設(shè)備端部署小尺寸的流式語音識別模型則將成為工業(yè)界應(yīng)用的趨勢。

      (7)流式語音識別模型的工業(yè)應(yīng)用

      目前,端到端流式語音識別模型是學(xué)術(shù)研究與工業(yè)應(yīng)用的一個熱點問題,隨著人工智能技術(shù)的不斷發(fā)展,出現(xiàn)了智能客服[111]、語音售票機(jī)等大量需要流式語音識別的人機(jī)交互場景,通過將端到端流式語音識別模型應(yīng)用到這些場景,能夠大幅提升語音識別的效率,節(jié)省人力,提高服務(wù)的效率。因此,未來幾年,將會出現(xiàn)更多的流式識別的語音場景,流式語音識別模型也將會更廣泛地應(yīng)用到工業(yè)產(chǎn)品中。

      自2014年以來,端到端語音識別模型成為了第三代語音識別模型,在語音領(lǐng)域掀起了研究狂潮,同時,端到端流式語音識別也成為語音識別領(lǐng)域的一個熱點與重點問題,受到學(xué)術(shù)界廣泛關(guān)注,大量科研單位開展了深入的研究并取得了豐碩的研究成果。本文從流式模型實現(xiàn)方式、優(yōu)化策略、開源數(shù)據(jù)集與評價標(biāo)準(zhǔn)、未來發(fā)展等方面進(jìn)行研究、總結(jié)與分析,最后也討論了未來幾年流式識別模型的發(fā)展方向,希望能夠為該領(lǐng)域的一些研究人員提供一些幫助。

      猜你喜歡
      流式編碼器標(biāo)簽
      輻流式二沉池的結(jié)構(gòu)優(yōu)化研究
      無懼標(biāo)簽 Alfa Romeo Giulia 200HP
      車迷(2018年11期)2018-08-30 03:20:32
      基于FPGA的同步機(jī)軸角編碼器
      不害怕撕掉標(biāo)簽的人,都活出了真正的漂亮
      海峽姐妹(2018年3期)2018-05-09 08:21:02
      基于PRBS檢測的8B/IOB編碼器設(shè)計
      微球測速聚類分析的流式液路穩(wěn)定性評估
      標(biāo)簽化傷害了誰
      JESD204B接口協(xié)議中的8B10B編碼器設(shè)計
      電子器件(2015年5期)2015-12-29 08:42:24
      自調(diào)流式噴管型ICD的設(shè)計與數(shù)值驗證
      基于多進(jìn)制查詢樹的多標(biāo)簽識別方法
      横峰县| 固原市| 广元市| 乐陵市| 东安县| 鄯善县| 略阳县| 长汀县| 维西| 定结县| 华亭县| 托里县| 黄平县| 西乌珠穆沁旗| 许昌市| 青神县| 南郑县| 五寨县| 柳州市| 巨野县| 灌阳县| 庐江县| 渭源县| 郸城县| 进贤县| 镇坪县| 门源| 巴彦县| 临安市| 镇雄县| 瑞金市| 循化| 明水县| 绥德县| 成都市| 济阳县| 武乡县| 溧阳市| 台中县| 鲜城| 邹城市|