• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      基于DNN-HMM的蒙古語聲學(xué)模型結(jié)構(gòu)實(shí)驗(yàn)研究

      2023-10-25 02:20:12李晉益馬志強(qiáng)劉志強(qiáng)朱方圓王洪彬
      中文信息學(xué)報(bào) 2023年8期
      關(guān)鍵詞:蒙古語聲學(xué)語料庫

      李晉益,馬志強(qiáng),2,劉志強(qiáng),朱方圓,王洪彬

      (1. 內(nèi)蒙古工業(yè)大學(xué) 數(shù)據(jù)科學(xué)與應(yīng)用學(xué)院,內(nèi)蒙古 呼和浩特 010080;2. 內(nèi)蒙古自治區(qū)基于大數(shù)據(jù)的軟件服務(wù)工程技術(shù)研究中心,內(nèi)蒙古 呼和浩特 010080)

      0 引言

      語音識(shí)別[1]相關(guān)研究開始于20世紀(jì)50年代,貝爾實(shí)驗(yàn)室研發(fā)出10個(gè)孤立數(shù)字的識(shí)別系統(tǒng)。20世紀(jì)80年代,以隱馬爾可夫模型[2](Hidden Markov Model,HMM)為主的統(tǒng)計(jì)模型逐漸在語音識(shí)別中占據(jù)了主導(dǎo)地位,并成為研究和應(yīng)用的主流模型,其核心框架為混合高斯-隱馬爾可夫模型(Gaussian Mixed Model-Hidden Markov Model,GMM-HMM)。20世紀(jì)80年代后期,人工神經(jīng)網(wǎng)絡(luò)(Artificial Neural Network,ANN)也成為語音識(shí)別研究的一個(gè)方向,但這種淺層神經(jīng)網(wǎng)絡(luò)在語音識(shí)別任務(wù)上的效果并沒有優(yōu)于GMM-HMM。

      2006年,Hinton使用受限玻爾茲曼機(jī)(Restricted Boltzmann Machine,RBM)對神經(jīng)網(wǎng)絡(luò)的節(jié)點(diǎn)做初始化,由此產(chǎn)生了深度置信網(wǎng)絡(luò)(Deep Belief Network,DBN)[3]。DBN是一種非監(jiān)督貪婪逐層方法,在盡可能保留建模對象特征信息的基礎(chǔ)上,不斷擬合獲得權(quán)重,在結(jié)構(gòu)上的多層非線性變換使其具有更強(qiáng)的建模能力。2009年,Hinton和Mohamed將DBN應(yīng)用在語音識(shí)別聲學(xué)建模中,并且在小詞匯量連續(xù)語音識(shí)別數(shù)據(jù)集上獲得成功[4]。直到2011年,深度神經(jīng)網(wǎng)絡(luò)(Deep Neural Network,DNN)在大詞匯量語音識(shí)別上獲得成功,語音識(shí)別效果取得了突破[5]。DNN-HMM聲學(xué)模型把連續(xù)多幀的語音特征拼接在一起構(gòu)成高維特征作為語音識(shí)別系統(tǒng)聲學(xué)模型的輸入,充分利用當(dāng)前幀的上下文信息發(fā)現(xiàn)聲學(xué)特征之間的相關(guān)性。此后,基于深度神經(jīng)網(wǎng)絡(luò)的建模方法成為主流的聲學(xué)模型建模方法。2012年11月,百度公司將DNN-HMM[6-7]聲學(xué)模型應(yīng)用到語音識(shí)別中,與基于GMM-HMM聲學(xué)模型的漢語語音識(shí)別系統(tǒng)相比,詞錯(cuò)誤率降低了25%[8]。同年,微軟研究院的鄧力等人與加拿大多倫多大學(xué)Hinton小組合作針對大規(guī)模連續(xù)語音識(shí)別任務(wù)提出CD-DNN-HMM聲學(xué)模型框架,徹底改變了語音識(shí)別原有的技術(shù)框架[9]。2014年至2015年,百度相繼發(fā)布了DeepSpeech[10]和DeepSpeech2語音識(shí)別模型,DeepSpeech使用的聲學(xué)模型在Switchboard英文數(shù)據(jù)集和Baidu中文數(shù)據(jù)集上的識(shí)別準(zhǔn)確率均得到提升。2016年,科大訊飛提出了一種前饋型序列記憶網(wǎng)絡(luò)(Feed-Forward Sequential Memory Network,FSMN)模型[11], FSMN聲學(xué)模型在DNN模型的隱藏層上加入了類似LSTM模型中記憶單元的“記憶模塊”,實(shí)現(xiàn)對歷史語音信息的建模,從而讓DNN模型擁有對歷史信息建模的能力。

      目前少數(shù)民族語言的語音識(shí)別研究主要集中于少數(shù)民族地區(qū)的高校和科研機(jī)構(gòu)。蒙古語語音識(shí)別的研究單位主要為內(nèi)蒙古大學(xué)和內(nèi)蒙古工業(yè)大學(xué)等。內(nèi)蒙古大學(xué)于2015年展開了基于DNN深度神經(jīng)網(wǎng)絡(luò)的蒙古語語音識(shí)別的研究,利用78小時(shí)的蒙古語語料庫構(gòu)建了8層深度的DNN-HMM 聲學(xué)模型,相較于傳統(tǒng)的GMM-HMM蒙古語聲學(xué)模型,語音識(shí)別系統(tǒng)的詞識(shí)別準(zhǔn)確率最高達(dá)到 87.63%,識(shí)別準(zhǔn)確率得到了提升[12]。2017年,內(nèi)蒙古大學(xué)以蒙古語音素作為聲學(xué)建模粒子,構(gòu)建了LSTM-HMM蒙古語聲學(xué)模型,其蒙古語語音識(shí)別的詞錯(cuò)率降低至 8.94%[13]。2018年,內(nèi)蒙古工業(yè)大學(xué)使用310句的小規(guī)模蒙古語語料庫構(gòu)建了GMM-HMM蒙古語聲學(xué)模型以及DNN-HMM蒙古語聲學(xué)模型,實(shí)驗(yàn)發(fā)現(xiàn)基于DNN-HMM的蒙古語語音識(shí)別比與基于GMM-HMM的蒙古語語音識(shí)別詞錯(cuò)率降低了1.33%[14],進(jìn)一步證明DNN-HMM聲學(xué)模型相較GMM-HMM聲學(xué)模型的優(yōu)越性。

      在使用蒙古語語料庫構(gòu)建DNN-HMM聲學(xué)模型的過程中,DNN-HMM結(jié)構(gòu)(深度、寬度)對蒙古語聲學(xué)建模的影響以及蒙古語語料庫規(guī)模與DNN-HMM聲學(xué)模型的關(guān)系是未知的。本文通過調(diào)整DNN-HMM的結(jié)構(gòu)[15-16],提出Rectangle DNN-HMM、Trapezoid DNN-HMM、Polygon DNN-HMM和Hourglass DNN-HMM四種結(jié)構(gòu)的DNN-HMM蒙古語聲學(xué)模型。通過深度結(jié)構(gòu)實(shí)驗(yàn)和寬度結(jié)構(gòu)實(shí)驗(yàn)得知:深度為6層的Polygon DNN-HMM結(jié)構(gòu)適合蒙古語聲學(xué)模型建模。隨著語料庫規(guī)模的增大,適當(dāng)增加聲學(xué)模型的寬度,能夠進(jìn)一步降低CER和WER。

      本文第1節(jié)介紹了DNN-HMM聲學(xué)模型的建模原理和訓(xùn)練算法。第2節(jié)對Rectangle DNN-HMM、Trapezoid DNN-HMM、Polygon DNN-HMM和Hourglass DNN-HMM四種不同結(jié)構(gòu)的DNN-HMM聲學(xué)模型進(jìn)行介紹。第3節(jié)對實(shí)驗(yàn)設(shè)置、數(shù)據(jù)準(zhǔn)備、實(shí)驗(yàn)方案和評價(jià)指標(biāo)進(jìn)行說明。第4節(jié)對收斂性實(shí)驗(yàn)、模型深度結(jié)構(gòu)實(shí)驗(yàn)和模型寬度結(jié)構(gòu)實(shí)驗(yàn)的實(shí)驗(yàn)結(jié)果進(jìn)行分析。第5節(jié)得出本文結(jié)論。

      1 DNN-HMM聲學(xué)模型建模原理

      DNN-HMM混合模型應(yīng)用于語音識(shí)別中,HMM用來描述語音信號的動(dòng)態(tài)變化[17],DNN用來估計(jì)觀察特征的概率[18]。

      1.1 DNN-HMM聲學(xué)模型

      在DNN-HMM聲學(xué)模型的建模過程中,O=o1,o2,o3,…,ot表示聲學(xué)特征序列,組成句子的單詞序列為W=w0,w1,w2,…,wn,由此可以建立一個(gè)準(zhǔn)確計(jì)算后驗(yàn)分布P(O|W)的聲學(xué)模型,具體計(jì)算過程如式(1)所示。

      P(O|W)≈

      (1)

      其中,s∈[1,t]代表HMM狀態(tài)序列,P(s1)和ASt-1St分別是由HMM決定的初始狀態(tài)概率和狀態(tài)轉(zhuǎn)移概率。P(st|ot)是DNN計(jì)算得出的每個(gè)狀態(tài)的后驗(yàn)概率,P(st)是狀態(tài)的先驗(yàn)概率。

      DNN-HMM聲學(xué)模型由三部分組成,聲學(xué)特征、DNN和HMM,其模型結(jié)構(gòu)如圖1所示,o1,o2,…,ot-1,ot表示聲學(xué)特征序列。DNN由輸入層L0,多層隱藏層L1,…,Ln,以及輸出層Ln+1構(gòu)成,其中W0,…,Wn表示DNN各層之間的連接矩陣。在HMM中,s1,s2,…,st-1,st表示隱藏狀態(tài),A表示狀態(tài)轉(zhuǎn)移概率。

      圖1 DNN-HMM聲學(xué)模型結(jié)構(gòu)

      1.2 聲學(xué)模型訓(xùn)練

      DNN-HMM聲學(xué)模型的訓(xùn)練[19-20]過程主要包含DNN、HMM和狀態(tài)先驗(yàn)概率分布prior。DNN-HMM和GMM-HMM共享音素綁定結(jié)構(gòu),因此使用訓(xùn)練集S訓(xùn)練一個(gè)GMM-HMM模型,得到hmm,將訓(xùn)練數(shù)據(jù)和狀態(tài)進(jìn)行強(qiáng)制對齊。利用GMM-HMM中的hmm創(chuàng)建狀態(tài)到音素的映射featerToSenoneIDMap,并生成用于訓(xùn)練DNN的特征到音素的映射對featureSenoneIDPairs。接著將GMM-HMM聲學(xué)模型轉(zhuǎn)換為DNN-HMM聲學(xué)模型,生成在DNN-HMM中使用的隱馬爾可夫模型HMM。用特征到音素的映射對估計(jì)得到音素的先驗(yàn)概率Prior并訓(xùn)練DNN。最后將Prior與DNN、HMM相結(jié)合,共同構(gòu)成DNN-HMM聲學(xué)模型。其主要的訓(xùn)練步驟見算法1。

      2 DNN-HMM蒙古語聲學(xué)模型結(jié)構(gòu)設(shè)計(jì)

      通過調(diào)整DNN-HMM蒙古語聲學(xué)模型中DNN隱藏層的深度和寬度來改變DNN-HMM蒙古語聲學(xué)模型的結(jié)構(gòu),從而提出了Rectangle DNN-HMM(RDH),Trapezoid DNN-HMM(TDH)、Polygon DNN-HMM(PDH)和Hourglass DNN-HMM(HDH) 四種不同結(jié)構(gòu)的DNN-HMM蒙古語聲學(xué)模型。下面分別對四種結(jié)構(gòu)的DNN-HMM蒙古語聲學(xué)模型進(jìn)行介紹。

      2.1 Rectangle DNN-HMM

      在Rectangle DNN-HMM蒙古語聲學(xué)模型結(jié)構(gòu)中,DNN多層隱藏層的形狀為矩形,如圖2所示,其中DNN由輸入層L0、輸出層Ln+1,以及形狀為矩形的n層隱藏層L1,…,Ln組成,n層隱藏層各層之間的寬度是相等的,即widthL1=…=widthLn。W0、W1、…、Wn表示各相鄰層之間的參數(shù)數(shù)量。

      圖2 Rectangle DNN-HMM模型結(jié)構(gòu)

      2.2 Trapezoid DNN-HMM

      在Trapezoid DNN-HMM蒙古語聲學(xué)模型結(jié)構(gòu)中,DNN多層隱藏層的形狀為倒梯形,如圖3所示,DNN由輸入層L0、輸出層Ln+1,以及形狀為倒梯形的n層隱藏層L1,…,Ln組成,n層隱藏層各層的寬度從L1到Ln逐步遞增,即widthL1<…

      圖3 Trapezoid DNN-HMM模型結(jié)構(gòu)

      2.3 Polygon DNN-HMM

      在Polygon DNN-HMM蒙古語聲學(xué)模型結(jié)構(gòu)中,DNN多層隱藏層的形狀為六邊形,如圖4所示,DNN由輸入層L0、輸出層Ln+1,以及形狀為六邊形的n層隱藏層L1,…,Lm,…,Ln組成,n層隱藏層中間層Lm的寬度最寬,并且從Lm開始向兩端遞減,位于隱藏層兩端的L1和Ln層的寬度相等,并且是隱藏層中寬度最小的層,即widthLm>…>widthL1且widthLm>…>widthLn,同時(shí)widthL1=widthLn、…、widthLm-1=widthLm+1。W0、W1、…、Wn表示各相鄰層之間的參數(shù)數(shù)量。

      2.4 Hourglass DNN-HMM

      在Hourglass DNN-HMM蒙古語聲學(xué)模型結(jié)構(gòu)中,DNN多層隱藏層的形狀為沙漏形,如圖5所示,DNN由輸入層L0輸出層Ln+1,以及形狀為沙漏形的n層隱藏層L1,…,Lm,…,Ln組成,n層隱藏層中間層Lm的寬度最小,從中間層Lm開始向兩端遞增,位于隱藏層兩端的L1和Ln層的寬度相等,并且是隱藏層中寬度最大的層,即widthLm

      圖5 Hourglass DNN-HMM模型結(jié)構(gòu)

      3 實(shí)驗(yàn)

      3.1 實(shí)驗(yàn)設(shè)置

      使用蒙古語語料庫構(gòu)建不同結(jié)構(gòu)的DNN-HMM蒙古語聲學(xué)模型時(shí),采用單卡GPU進(jìn)行訓(xùn)練。實(shí)驗(yàn)硬件環(huán)境如表1所示,包括GPU的配置詳情、硬盤和CUDA的版本號。

      表1 實(shí)驗(yàn)硬件環(huán)境

      在Kaldi平臺(tái)進(jìn)行實(shí)驗(yàn)時(shí)[21],選用音素作為建模單元來構(gòu)建DNN-HMM蒙古語聲學(xué)模型,每條語音的采樣率為16 000Hz,特征提取使用梅爾頻譜倒譜系數(shù)(Mel Frequency Cepstrum Coefficient MFCC)技術(shù)。MFCC提取特征的參數(shù)設(shè)置如下:三角濾波器40個(gè),聲學(xué)特征維度40維,倒譜數(shù)量為40,低截止頻率40Hz,高截止頻率-200Hz。在訓(xùn)練DNN網(wǎng)絡(luò)時(shí),超參數(shù)的設(shè)置如表2所示,每個(gè)Batch_Size有512個(gè)語音幀,解碼時(shí)每次解碼8幀,每個(gè)語音幀左右各10個(gè)語音幀上文和下文,HMM的狀態(tài)數(shù)共2 500個(gè),訓(xùn)練的過程中不使用i-vector。

      3.2 數(shù)據(jù)準(zhǔn)備

      蒙古語語料庫(Mongolian Corpus MC)分為三類[22],如表3所示,MC1是從蒙古語圖書中摘取200條文本進(jìn)行100人轉(zhuǎn)錄,共23.5h。MC2是從中國新聞網(wǎng)(蒙語版)中選取200條文本進(jìn)行110人轉(zhuǎn)錄,共40.8h。MC3是MC1和CM2的集合,共64.3h。MC1、MC2、MC3的總時(shí)長依次相差約20h。

      表3 蒙古語語料庫信息

      在DNN-HMM聲學(xué)模型訓(xùn)練過程中,數(shù)據(jù)集按照8∶1∶1的比例分為訓(xùn)練集、驗(yàn)證集和測試集,如表4所示。

      表4 數(shù)據(jù)集劃分

      3.3 評價(jià)指標(biāo)

      在實(shí)驗(yàn)過程中,DNN-HMM蒙古語聲學(xué)模型使用音素作為建模單元,選用字錯(cuò)率(Character Error Rate,CER)用來評價(jià)蒙古語聲學(xué)模型對音素預(yù)測的準(zhǔn)確率。CER指已知標(biāo)注文本與解碼的結(jié)果,將解碼結(jié)果中錯(cuò)誤字符的累計(jì)個(gè)數(shù)除以標(biāo)注中總的字符數(shù),如式(2)所示。

      其中,i表示字符插入錯(cuò)誤(Insertion,i),d表示字符刪除錯(cuò)誤(Deletion,d),s表示字符替換錯(cuò)誤(Substitute,s),n表示總字符數(shù)。

      選用詞錯(cuò)率(Word Error Rate,WER)用于評價(jià)蒙古語語音識(shí)別的準(zhǔn)確率。WER指已知標(biāo)注文本與解碼的結(jié)果,將解碼結(jié)果中錯(cuò)誤詞的累計(jì)個(gè)數(shù)除以標(biāo)注中總的詞數(shù),如式(3)所示。

      其中,I表示詞插入錯(cuò)誤(Insertion,I),D表示詞刪除錯(cuò)誤(Deletion,D),S表示詞替換錯(cuò)誤(Substitute,S),N表示總詞數(shù)。

      3.4 實(shí)驗(yàn)方案

      實(shí)驗(yàn)使用MC1、MC2、MC3三種不同規(guī)模的蒙古語語料庫作為數(shù)據(jù)集來構(gòu)建DNN-HMM蒙古語聲學(xué)模型,包括收斂性實(shí)驗(yàn)、深度結(jié)構(gòu)實(shí)驗(yàn)和寬度結(jié)構(gòu)實(shí)驗(yàn)。

      (1) 收斂性實(shí)驗(yàn)保證RDH、TDH、PDH和HDH四種結(jié)構(gòu)的DNN-HMM蒙古語聲學(xué)模型在訓(xùn)練時(shí)收斂,從而保證深度結(jié)構(gòu)實(shí)驗(yàn)和寬度結(jié)構(gòu)實(shí)驗(yàn)的有效性。

      (2) 深度結(jié)構(gòu)實(shí)驗(yàn)在確定DNN-HMM模型寬度的基礎(chǔ)上,使用MC1、MC2、MC3三種不同蒙古語語料庫構(gòu)建RDH、TDH、PDH和HDH四種不同深度結(jié)構(gòu)的DNN-HMM蒙古語聲學(xué)模型。

      (3) 寬度結(jié)構(gòu)實(shí)驗(yàn)在深度結(jié)構(gòu)實(shí)驗(yàn)的基礎(chǔ)上確定深度結(jié)構(gòu),使用MC1、MC2、MC3三種不同蒙古語語料庫構(gòu)建RDH、TDH、PDH和HDH四種不同寬度結(jié)構(gòu)的DNN-HMM蒙古語聲學(xué)模型。

      4 實(shí)驗(yàn)結(jié)果與分析

      使用MC1、MC2、MC3三種蒙古語語料庫構(gòu)建GMM-HMM蒙古語語音識(shí)別模型在訓(xùn)練集和測試集上的詞錯(cuò)率和字錯(cuò)率,如表5所示。

      表5 GMM-HMM實(shí)驗(yàn)結(jié)果

      本實(shí)驗(yàn)使用MC1、MC2、MC3三種不同規(guī)模的蒙古語語料庫,構(gòu)建了RDH、TDH、PDH和HDH四種結(jié)構(gòu)的DNN-HMM蒙古語聲學(xué)模型,通過收斂性實(shí)驗(yàn)、深度結(jié)構(gòu)實(shí)驗(yàn)和寬度結(jié)構(gòu)實(shí)驗(yàn)得出評價(jià)蒙古語聲學(xué)模型對音素預(yù)測準(zhǔn)確率的CER和評價(jià)蒙古語語音識(shí)別準(zhǔn)確率的WER。以下是實(shí)驗(yàn)的結(jié)果與分析。

      4.1 收斂性實(shí)驗(yàn)

      在構(gòu)建DNN-HMM聲學(xué)模型的過程中,收斂性實(shí)驗(yàn)?zāi)軌蜃C明模型收斂且沒有過擬合,從而保證后續(xù)實(shí)驗(yàn)結(jié)果的有效性。該實(shí)驗(yàn)選用MC2語料庫訓(xùn)練四種聲學(xué)模型時(shí)的損失變化趨勢,驗(yàn)證模型的收斂性,四種聲學(xué)模型均為深為6層,輸入層為256層,輸出層為1 024層的RDH(隱藏層:640、640、640、640)、TDH(隱藏層:376、496、616、736)、PDH(隱藏層:576、736、576、256)和HDH(隱藏層:736、576、576、736)結(jié)構(gòu),其收斂性實(shí)驗(yàn)結(jié)果分別如圖6中的(a)、(b)、(c)、(d)所示,四者在訓(xùn)練集上的損失均下降并趨于穩(wěn)定,同時(shí)驗(yàn)證集的損失在一定程度的下降后同樣趨于平穩(wěn),這表明四種結(jié)構(gòu)DNN-HMM蒙古語聲學(xué)模型在訓(xùn)練過程中收斂;驗(yàn)證集的損失大于訓(xùn)練集的損失,表明四種DNN-HMM聲學(xué)模型沒有過擬合。

      圖6 MC2構(gòu)建四種聲學(xué)模型的收斂性實(shí)驗(yàn)結(jié)果

      在使用MC2語料庫構(gòu)建不同蒙古語聲學(xué)模型時(shí),GMM-HMM和四種DNN-HMM聲學(xué)模型的訓(xùn)練時(shí)間如表6所示。受深度神經(jīng)網(wǎng)絡(luò)的影響,DNN-HMM聲學(xué)模型的訓(xùn)練速度比GMM-HMM聲學(xué)模型更慢;在DNN深度確定的情況下,受隱藏層寬度的影響,四種DNN-HMM聲學(xué)模型的神經(jīng)元數(shù)量從大到小依次為HDH、RDH、TDH、PDH,隨著神經(jīng)元數(shù)量增加,模型的訓(xùn)練時(shí)間也會(huì)隨之增加。

      表6 蒙古語聲學(xué)模型訓(xùn)練時(shí)間

      4.2 模型深度結(jié)構(gòu)實(shí)驗(yàn)

      在模型深度結(jié)構(gòu)實(shí)驗(yàn)中,根據(jù)輸入聲學(xué)特征的維度,設(shè)定輸入層的寬度為256,輸出層的寬度為1 024。將RDH、TDH、PDH、HDH四種結(jié)構(gòu)中多層隱藏層的寬度進(jìn)行限定,即保證四種聲學(xué)模型特有的結(jié)構(gòu)不發(fā)生變化,同時(shí)將寬度對模型結(jié)構(gòu)的影響降到最低,使深度成為主要的影響因素,進(jìn)行模型深度結(jié)構(gòu)實(shí)驗(yàn)。深度結(jié)構(gòu)實(shí)驗(yàn)中訓(xùn)練集的CER、WER與驗(yàn)證集的CER、WER通過對比,證明模型不存在過擬合現(xiàn)象,保證了實(shí)驗(yàn)的有效性。RDH不同深度(Deep)的模型結(jié)構(gòu)如表7所示,深度分別為5、6、7、8、10、12層,隱藏層寬度為640的矩形結(jié)構(gòu)。如D-RDH-1表示隱藏層寬度為640,深度為5層的RDH蒙古語聲學(xué)模型。

      表7 RDH深度結(jié)構(gòu)

      在使用MC1、MC2、MC3三種蒙古語語料庫構(gòu)建不同深度RDH蒙古語聲學(xué)模型的過程中,三種MC的訓(xùn)練集、測試集在RDH聲學(xué)模型上的CER和WER如表8所示。

      表8 RDH深度結(jié)構(gòu)實(shí)驗(yàn)結(jié)果 (單位: %)

      TDH不同深度(Deep)的模型結(jié)構(gòu)如表9所示,深度分別為5、6、7、8、10、12層,隱藏層寬度的限定范圍為[320,896]且相鄰層寬度相差64的倒梯形結(jié)構(gòu)。如D-TDH-1表示隱藏層寬度為384,512,640,深度為5層的TDH蒙古語聲學(xué)模型。

      表9 TDH深度結(jié)構(gòu)

      在使用MC1、MC2、MC3三種蒙古語語料庫構(gòu)建不同深度TDH蒙古語聲學(xué)模型的過程中,三種MC的訓(xùn)練集、測試集在TDH聲學(xué)模型上的CER和WER如表10所示。

      表10 TDH深度結(jié)構(gòu)實(shí)驗(yàn)結(jié)果 (單位: %)

      PDH不同深度(Deep)的模型結(jié)構(gòu)如表11所示,深度分別為5、6、7、8、10、12層,隱藏層中間位置寬度大于兩端且相鄰層寬度相差128的六邊形結(jié)構(gòu)。如D-PDH-1表示隱藏層中心位置寬度為512、深度為5層的PDH蒙古語聲學(xué)模型。

      表11 PDH深度結(jié)構(gòu)

      在使用MC1、MC2、MC3三種蒙古語語料庫構(gòu)建不同深度PDH蒙古語聲學(xué)模型的過程中,三種MC的訓(xùn)練集、測試集在PDH聲學(xué)模型上的CER和WER如表12所示。

      表12 PDH深度結(jié)構(gòu)實(shí)驗(yàn)結(jié)果 (單位: %)

      HDH不同深度(Deep)的模型結(jié)構(gòu)如表13所示,深度分別為5、6、7、8、10、12層,隱藏層中間位置寬度小于兩端且相鄰層寬度相差128的沙漏形結(jié)構(gòu)。如D-HDH-1表示隱藏層中心位置寬度為384,深度為5層的HDH蒙古語聲學(xué)模型。

      表13 HDH深度結(jié)構(gòu)

      在使用MC1、MC2、MC3三種蒙古語語料庫構(gòu)建不同深度HDH蒙古語聲學(xué)模型的過程中,三種MC的訓(xùn)練集、測試集在HDH聲學(xué)模型上的CER和WER如表14所示。

      表14 HDH深度結(jié)構(gòu)實(shí)驗(yàn)結(jié)果 (單位: %)

      4.3 模型寬度結(jié)構(gòu)實(shí)驗(yàn)

      在寬度結(jié)構(gòu)實(shí)驗(yàn)中,限定RDH、TDH、PDH、HDH四種結(jié)構(gòu)的DNN-HMM聲學(xué)模型的深度為6層,寬度結(jié)構(gòu)實(shí)驗(yàn)中訓(xùn)練集的CER、WER與驗(yàn)證集的CER、WER通過對比,來證明模型不存在過擬合現(xiàn)象,保證了實(shí)驗(yàn)的有效性。

      RDH不同寬度(Extend)的模型結(jié)構(gòu)如表15所示,E-RDH-1、E-RDH-2、E-RDH-3、E-RDH-4深度均為6層,它們的隱藏層寬度分別為384、512、640、768。例如表15中E-RDH-1表示隱藏層寬度為384,深度為6層的RDH蒙古語聲學(xué)模型。

      表15 RDH寬度結(jié)構(gòu)

      在使用MC1、MC2、MC3三種蒙古語語料庫構(gòu)建不同寬度RDH蒙古語聲學(xué)模型的過程中,三種MC的訓(xùn)練集、測試集在RDH聲學(xué)模型上的CER和WER如表16所示。

      表16 RDH寬度結(jié)構(gòu)實(shí)驗(yàn)結(jié)果 (單位: %)

      TDH不同寬度(Extend)的模型結(jié)構(gòu)如表17所示,E-TDH-1、E-TDH-2、E-TDH-3、E-TDH-4分別是深度為6層的倒梯形結(jié)構(gòu),它們隱藏層寬度的增長率分別為40、80、120、160。例如表17中E-TDH-1表示隱藏層寬度增長率為40,深度為6層的TDH蒙古語聲學(xué)模型。

      表17 TDH寬度結(jié)構(gòu)

      在使用MC1、MC2、MC3三種蒙古語語料庫構(gòu)建不同寬度TDH蒙古語聲學(xué)模型的過程中,三種MC的訓(xùn)練集、測試集在TDH聲學(xué)模型上的CER和WER如表18所示。

      表18 TDH寬度結(jié)構(gòu)實(shí)驗(yàn)結(jié)果 (單位: %)

      PDH不同寬度(Extend)的模型結(jié)構(gòu)如表19所示,E-PDH-1、E-PDH-2、E-PDH-3、E-PDH-4分別是深度為6層的六邊形結(jié)構(gòu),其中隱藏層中間層的寬度大于兩邊的隱藏層,中間層的寬度分別設(shè)為456、512、640、768,左右兩層均按160遞減。例如,表19中E-PDH-1表示隱藏層最大寬度為456,左右兩層按160遞減,深度為6層的PDH蒙古語聲學(xué)模型。

      表19 PDH寬度結(jié)構(gòu)

      在使用MC1、MC2、MC3三種蒙古語語料庫構(gòu)建不同寬度PDH蒙古語聲學(xué)模型的過程中,三種MC的訓(xùn)練集、測試集在PDH聲學(xué)模型上的CER和WER如表20所示。

      表20 PDH寬度結(jié)構(gòu)實(shí)驗(yàn)結(jié)果 (單位: %)

      HDH不同寬度(Extend)的模型結(jié)構(gòu)如表21所示,E-HDH-1、E-HDH-2、E-HDH-3、E-HDH-4分別是深度為6層的沙漏形結(jié)構(gòu),隱藏層中間位置寬度小于兩端且相鄰層寬度相差160。如表21中D-HDH-1表示隱藏層中心位置寬度為384,深度為5層的HDH蒙古語聲學(xué)模型。

      表21 HDH寬度結(jié)構(gòu)

      在使用MC1、MC2、MC3三種蒙古語語料庫構(gòu)建不同寬度HDH蒙古語聲學(xué)模型的過程中,三種MC的訓(xùn)練集、測試集在RDH聲學(xué)模型上的CER和WER如表22所示。

      表22 HDH寬度結(jié)構(gòu)實(shí)驗(yàn)結(jié)果 (單位: %)

      4.4 分析

      為了對寬度結(jié)構(gòu)實(shí)驗(yàn)和深度結(jié)構(gòu)實(shí)驗(yàn)進(jìn)行分析,本節(jié)提出錯(cuò)誤下降率(Error drop rate)公式,如式(4)所示,其中Error可以表示CER或WER,base表示CER和WER的基準(zhǔn),實(shí)驗(yàn)中兩者的base均設(shè)置為50%。

      4.4.1 深度結(jié)構(gòu)實(shí)驗(yàn)分析

      選擇50%的CER作為聲學(xué)模型的評價(jià)基準(zhǔn),對深度結(jié)構(gòu)實(shí)驗(yàn)結(jié)果進(jìn)行分析,訓(xùn)練集的CER、WER均小于測試集的CER、WER,這表明模型不存在過擬合現(xiàn)象,由此可以保證整體實(shí)驗(yàn)的有效性。MC1、MC2、MC3作為測試集在不同深度的蒙古語聲學(xué)模型下CER的下降率如圖7中的(a)、(b)、(c)所示,模型深度從6層開始,隨著深度的增加,三種語料庫的CER下降率以50%為基礎(chǔ)整體降低呈降低趨勢,即CER隨著深度的增加而增加。分析得出三種MC在6層PDH結(jié)構(gòu)的聲學(xué)模型下CER最低。

      圖7 三種蒙古語語料庫在深度不同的四種蒙古語聲學(xué)模型上的CER下降率

      選擇50%的WER作為語音識(shí)別的評價(jià)基準(zhǔn),三種MC測試集在不同深度的蒙古語聲學(xué)模型下WER的下降率分析結(jié)果如圖8中的(a)、(b)、(c)所示。當(dāng)深度大于6層時(shí),隨著模型深度的增加,WER下降率最高的聲學(xué)模型結(jié)構(gòu)與CER下降率最高得聲學(xué)模型結(jié)構(gòu)相同,均為6層PDH結(jié)構(gòu)。

      圖8 三種蒙古語語料庫在深度不同的四種蒙古語聲學(xué)模型上的WER下降率

      4.4.2 寬度結(jié)構(gòu)實(shí)驗(yàn)分析

      在深度結(jié)構(gòu)實(shí)驗(yàn)的基礎(chǔ)上,確定模型的深度為6層,寬度(Extend)從小到大分為E1、E2、E3、E4四種,選擇50%的CER作為基準(zhǔn)來觀察三種MC測試集在不同寬度的蒙古語聲學(xué)模型下CER的下降率。MC1、MC2、MC3在寬度不同的蒙古語聲學(xué)模型下CER下降率的分析結(jié)果如圖9的(a)、(b)、(c)所示,隨著寬度的增加,MC1、MC2的CER下降率均呈下降趨勢,相同寬度下MC2的CER下降率遠(yuǎn)小于MC1,但MC3的CER下降率呈上升趨勢。分析得出,MC1、MC2適合使用E1寬度的PDH結(jié)構(gòu)構(gòu)建蒙古語聲學(xué)模型,而MC3適合使用E4寬度的PDH結(jié)構(gòu)構(gòu)建蒙古語聲學(xué)模型。隨著MC規(guī)模的增加,適當(dāng)增加寬度可使對應(yīng)語料庫構(gòu)建的語言識(shí)別模型CER下降。

      圖9 三種蒙古語語料庫在寬度不同的四種蒙古語聲學(xué)模型上的CER下降率

      選擇50%的WER作為基準(zhǔn)來觀察三種MC測試集在不同寬度的蒙古語聲學(xué)模型下WER的下降率。MC1、MC2、MC3在寬度不同的蒙古語聲學(xué)模型下WER下降率分析結(jié)果如圖10中的(a)、(b)、(c)所示。隨著寬度的增加,MC1、MC2的WER下降率呈下降趨勢,而MC3的WER下降率呈上升趨勢。隨著模型寬度的改變,CER和WER的下降率保持一致,即隨著MC規(guī)模的增加,適當(dāng)增加寬度可使對應(yīng)語料庫構(gòu)建的語音識(shí)別模型WER下降。

      5 結(jié)論

      本文提出了RDH、TDH、PDH和HDH四種不同結(jié)構(gòu)的蒙古語聲學(xué)模型,并在20h、40h和60h三種規(guī)模的蒙古語語料庫上分別實(shí)現(xiàn)了構(gòu)建。在CER和WER的變化趨勢一致的情況下,得到以下結(jié)論: ①采用以上三種規(guī)模的蒙古語語料庫分別構(gòu)建了三個(gè)GMM-HMM蒙古語聲學(xué)模型,在CER、WER上均高于對應(yīng)的RDH、TDH、PDH和HDH模型,即DNN-HMM蒙古語聲學(xué)模型在識(shí)別率上優(yōu)于GMM-HMM蒙古語聲學(xué)模型。②在使用同等規(guī)模蒙古語語料庫構(gòu)建DNN-HMM聲學(xué)模型時(shí),深度為6層的PDH結(jié)構(gòu)優(yōu)于其他結(jié)構(gòu),表明6層PDH聲學(xué)模型能夠更好地學(xué)習(xí)蒙古語語音特征。③當(dāng)語料庫的規(guī)模從20h增加到60h的過程中,通過適當(dāng)增加聲學(xué)模型的寬度,能夠使模型學(xué)習(xí)到更加豐富的語音特征,從而降低蒙古語語音識(shí)別系統(tǒng)的CER和WER。

      然而,本文提出的四種DNN-HMM聲學(xué)模型僅使用蒙古語音素作為建模單元進(jìn)行建模。在未來的研究中,需要使用英語、漢語等不同語言進(jìn)行四種聲學(xué)模型的建模實(shí)驗(yàn)對比,確定DNN-HMM聲學(xué)模型結(jié)構(gòu)與不同語言之間的關(guān)系;使用字符和詞等不同的建模單元進(jìn)行建模,進(jìn)一步確定DNN-HMM聲學(xué)模型結(jié)構(gòu)與不同建模單元之間的關(guān)系。

      猜你喜歡
      蒙古語聲學(xué)語料庫
      含有“心”一詞蒙古語復(fù)合詞的語義
      愛的就是這股Hi-Fi味 Davis Acoustics(戴維斯聲學(xué))Balthus 70
      土默特地方蒙古語地名再探
      《語料庫翻譯文體學(xué)》評介
      Acoustical Treatment Primer:Diffusion談?wù)劼晫W(xué)處理中的“擴(kuò)散”
      Acoustical Treatment Primer:Absorption談?wù)劼晫W(xué)處理中的“吸聲”(二)
      Acoustical Treatment Primer:Absorption 談?wù)劼晫W(xué)處理中的“吸聲”
      論蒙古語中反映心理逆境傾向的某些字的含義
      把課文的優(yōu)美表達(dá)存進(jìn)語料庫
      俄語詞“Sherti”在蒙古語中的變義(蒙古文)
      赤城县| 彭泽县| 旬邑县| 迁西县| 婺源县| 永胜县| 衢州市| 林周县| 兴隆县| 公主岭市| 洞口县| 鹤山市| 和田市| 合江县| 昭觉县| 墨竹工卡县| 金门县| 塔河县| 乌兰察布市| 永定县| 明溪县| 四平市| 隆尧县| 桃园县| 布尔津县| 固阳县| 应用必备| 榆中县| 南部县| 禹州市| 金华市| 霍林郭勒市| 五家渠市| 双流县| 泰和县| 芷江| 石门县| 克什克腾旗| 罗山县| 南开区| 项城市|