• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      基于Kaldi的普米語語音識別

      2018-01-19 00:54:08,,
      計算機工程 2018年1期
      關(guān)鍵詞:魯棒性聲學識別率

      ,,

      (云南民族大學 數(shù)學與計算機科學學院,昆明 650500)

      0 概述

      近年來語音識別技術(shù)得到飛速的發(fā)展,通過自然語言控制機器的夢想正在逐步實現(xiàn)。國內(nèi)語音識別研究經(jīng)過60年左右的積累,尤其是近20年來快速的發(fā)展,已取得顯著成效。語音識別技術(shù)已由傳統(tǒng)的隱馬爾科夫模型(Hidden Markov Model,HMM)發(fā)展到了當今廣泛使用的深度學習技術(shù),并且取得較好的效果。但是這些研究都是針對英語、漢語等國際主流語言,對無文字瀕危少數(shù)民族語言進行語音識別的研究目前還比較少見。

      云南省有25個少數(shù)民族,大部分少數(shù)民族都有本民族的語言。由于民族語言眾多且語言之間差別較大,導致各民族之間的交流比較困難。同時,像普米族、基諾族等人口較少的民族有20%的語言已經(jīng)瀕危[1]。因此,從少數(shù)民族語言保護和傳承的角度看,進行少數(shù)民族語音識別研究就顯得尤為重要。本團隊的主要工作是針對普米語進行語音識別研究。普米族有本民族的語言,但沒有文字。普米語屬于漢藏語系藏緬語族羌語支,分為南北兩個方言[2]。在此之前本團隊的研究主要是基于HTK進行的,已取得了一些成果[3-7]。本文引入基于Kaldi的深度學習技術(shù)對普米語語音識別做進一步研究,這對普米語語音識別率的提高意義重大。

      文獻[8]提出深度學習的概念,激起了深度學習的研究熱潮。自2009年以來,將深度學習技術(shù)應用到語音識別領(lǐng)域取得巨大成功。百度研發(fā)的新技術(shù):深度語音識別(Deep Speech),通過使用一種叫做疊加的物理學原理,在干凈的語音語料中加入各種不同的背景噪聲來擴大語音語料量,用得到的語音語料進行深度語音識別實驗,同時使用百度強大的新計算機系統(tǒng)的GPU進行加速支撐,運算效率得到重大提升,詞錯誤率降低了10%[9]。微軟公司人工智能研發(fā)團隊受到機器學習集成技術(shù)的啟發(fā),系統(tǒng)性地結(jié)合使用了一系列的卷積神經(jīng)網(wǎng)絡(luò)模型、長短時間記憶單元的神經(jīng)網(wǎng)絡(luò)、全新的空間平滑方法和最大互信息訓練方法,為所有聲學模型架構(gòu)的性能帶來了顯著的提升,最好的單個聲學模型系統(tǒng)在NIST 2000 Switchboard數(shù)據(jù)集上的詞錯誤率為6.9%,數(shù)個聲學模型系統(tǒng)性地結(jié)合將詞錯誤率降低到6.3%[10]??拼笥嶏w將深度神經(jīng)網(wǎng)絡(luò)(Deep Neural Network,DNN)模型首次成功應用到中文語音識別領(lǐng)域,語音識別率得到很大提升[11]。這些基于深度學習的語音識別研究主要是針對英語、漢語等國際主流語言的,在少數(shù)民族語言語音識別中使用深度學習技術(shù)的還比較少見,查閱到的文獻主要集中在藏語、維吾爾語以及蒙古語。文獻[12]在基于DNN模型的聲學建模中,針對數(shù)據(jù)稀疏問題,提出了采用大語種數(shù)據(jù)訓練好的DNN模型作為目標模型的初始網(wǎng)絡(luò)進行模型優(yōu)化的策略,實驗用自然對話風格的藏語電話語音,共計10 327個句子,從中隨機選擇550個句子用于測試,其余的用于訓練。實驗結(jié)果表明,用1 000 h的漢語訓練的DNN模型作為藏語DNN模型的初始網(wǎng)絡(luò),相對直接用藏語訓練的DNN模型,語音識別率提升了6.37%[12]。文獻[13]提出了基于DNN模型的維吾爾語語音識別方法,以Kaldi語音識別工具包為實驗平臺,用4 466條維吾爾語語音訓練了一個含有4隱層的DNN模型,用訓練好的DNN模型對499條維吾爾語語音進行測試,測試結(jié)果顯示,DNN模型相比傳統(tǒng)的HMM詞錯誤率下降了31.09%[13]。文獻[14]基于Kaldi語音識別工具包,用DNN模型建立大詞匯量連續(xù)語音識別系統(tǒng),用78 h的蒙古語語音語料進行實驗,實驗結(jié)果表明,DNN-HMM模型比GMM-HMM模型語音識別率提高了約50%。因此,針對語音語料量和系統(tǒng)魯棒性的問題,本文將深度學習引入普米語語音識別中,在Kaldi上進行普米語語音識別實驗。

      本文所使用的深度學習模型是深度神經(jīng)網(wǎng)絡(luò)-隱馬爾科夫模型(DNN-HMM)的混合模型,以Kaldi語音識別工具包為實驗平臺,訓練一個含有4隱層的深度學習模型,實現(xiàn)普米語語音識別。

      1 Kaldi簡介及使用流程

      目前,常用的開源語音識別工具有Kaldi和HTK,Kaldi與HTK的比較如表1所示。

      表1 Kaldi與HTK比較

      從表1中可以看出,基于深度學習的語音識別實驗在Kaldi上進行更合適。因此,本文選用Kaldi語音識別工具包作為實驗平臺。

      1.1 Kaldi語音識別工具包

      Kaldi語音識別工具包是由約翰·霍普金斯大學開發(fā)的開源的語音識別工具包,用C++編寫并被Apache License v2.0授權(quán)許可[15-16]。Kaldi可以在Linux環(huán)境和Windows環(huán)境下編譯,但是在Linux環(huán)境下進行編譯比較穩(wěn)定。因此,本文將在Linux環(huán)境下編譯Kaldi。Kaldi語音識別工具包的框架結(jié)構(gòu)如圖1所示。

      圖1 Kaldi語音識別工具包結(jié)構(gòu)

      從圖1中可以看出,Kaldi語音識別工具包主要依賴2個外部開源庫: BLAS/LAPACK和OpenFST。同時,Kaldi本身也分為2個模塊,分別依賴這2個外部開源庫,這2個模塊通過Decodable接口橋接。

      BLAS是基本線性函數(shù)庫,是許多數(shù)值計算軟件庫的核心,主要用于向量操作、矩陣-向量操作、矩陣-矩陣操作等基本運算。LAPACK是一個高性能的用于數(shù)值計算的函數(shù)集,以BLAS為基礎(chǔ),包含了豐富的工具函數(shù),可用于常見的數(shù)值線性代數(shù)問題,例如求解線性方程、計算特征值和特征向量等問題。

      OpenFST是一個開源的用于構(gòu)造、合并、優(yōu)化和搜索加權(quán)有限狀態(tài)轉(zhuǎn)換器(Weighted Finite State Transducer,WFST)的庫。OpenFST在處理時間和空間規(guī)模很大的問題上時效果很好。WFST常被用于語音識別、模式匹配以及機器學習等任務(wù)中。在語音識別系統(tǒng)中,把數(shù)學模型轉(zhuǎn)換為有限狀態(tài)機模型,然后對有限狀態(tài)機模型進行優(yōu)化得到搜索空間,這樣可以降低語音識別系統(tǒng)的復雜度。

      1.2 基于Kaldi語音的識別實驗過程

      本文將Kaldi部署在Ubuntu14.04系統(tǒng)上,為了在DNN模型訓練時使用GPU加速,還需要安裝配置CUDA。

      所有安裝及配置都完成之后就可以在Kaldi上進行基于深度學習的普米語語音識別實驗了。實驗主要在/kaldi-trunk/egs/PrimiL/s5/下進行。具體過程如圖2所示。

      圖2 基于Kaldi的普米語語音識別過程

      從圖2可以看出,基于Kaldi的普米語語音識別主要分為3步,具體過程描述如下:

      1)普米語語音語料的準備。通過把錄音棚下錄制的干凈的普米語語音語料通過混音工具得到帶有背景噪音的普米語語音語料,用來擴大語音語料量。本文使用的混音工具是本團隊成員開發(fā)的[7]。接著把帶噪的語音語料和干凈的語音語料都用格式工廠轉(zhuǎn)換為Kaldi可用的格式。最后,將實驗用到的語音語料按要求存放在指定文件夾中。

      2)數(shù)據(jù)準備。數(shù)據(jù)準備又分為2個部分:第1部分是數(shù)據(jù)部分準備,先用KaldiDPT工具分別生成訓練集和測試集下的spk2gender、text、wav.scp以及utt2spk,KaldiDPT工具是專門用Kaldi數(shù)據(jù)部分的準備工具[15]。再以這些文件作為輸入,通過調(diào)用Kaldi中相應的工具,生成spk2utt、feats.scp以及cmvn.scp。其中,feats.scp中存儲所有語音語料的特征文件存放的位置,cmvn.scp中存儲所有語音語料的倒譜均值和方差歸一化統(tǒng)計量存放的位置。第2部分是語言部分準備,語言部分的準備以發(fā)音字典為輸入,依次調(diào)用prepare_lang.sh和format_data.sh工具,生成lang和lang_test_bg文件夾,這2個文件夾的差別在于lang_test_bg文件夾中多了G.fst文件,G.fst是語言模型的有限狀態(tài)轉(zhuǎn)換器格式的表示,用于解碼。普米語發(fā)音字典已根據(jù)《普米語簡志》準備好,且符合Kaldi的格式要求[15-16]。

      3)模型的訓練和測試。把前2步準備好的語音語料和文件用于模型的訓練和測試。本文訓練了5種不同的聲學模型,分別是:單音子GMM-HMM,記為Monophone,該模型的訓練過程要迭代39次,并且每迭代1次~3次要進行一次數(shù)據(jù)對齊;三音子GMM-HMM模型,記為Triphone1,該模型的訓練是以訓練好的Monophone模型為輸入,訓練過程要迭代34次,并且每迭代10次進行一次數(shù)據(jù)對齊;優(yōu)化后的三音子GMM-HMM模型,記為Triphone2,該模型是對三音子GMM-HMM模型進行線性判別分析、最大似然線性變換和發(fā)音自適應訓練的優(yōu)化;優(yōu)化后的子空間高斯混合模型,記為O-SGMM,該模型的訓練以Triphone2模型為輸入,訓練子空間高斯混合模型(Subspace Gauss Mixture Model,SGMM)之前要用通用背景模型進行初始化,再訓練SGMM,并進行最大互信息的區(qū)分性訓練;深度神經(jīng)網(wǎng)絡(luò)模型,記為G-DNN,是基于O-SGMM模型訓練的,G-DNN含有4層隱層,且使用GPU加速訓練過程。每個模型訓練完成后都會進行測試,得到基于該模型的普米語語音識別率。

      2 實驗及結(jié)果分析

      本文基于Kaldi的普米語語音識別實驗分為3個部分。第1部分:不同的聲學模型對普米語語音識別率的影響;第2部分:普米語語音語料的規(guī)模對普米語語音識別率的影響;第3部分:普米語語音識別系統(tǒng)的魯棒性。

      本文實驗使用的語音語料:4位普米語發(fā)音人在錄音棚環(huán)境錄制的包含1 650個普米詞匯的干凈的普米語語音語料,在錄音棚錄制普米語語音語料時,每個普米詞匯每個發(fā)音人說8遍。再通過混音工具對所有干凈的語音語料分別混入4種不同的背景噪音,每種隨機混音8次,每2次混音得到的帶噪的普米語語音語料記為一組,共有4組,分別記為第1組~第4組。因此,干凈的語音語料有:1 650個詞×8遍×4位發(fā)音人=52 800條,帶噪的語音語料有:1 650個詞×8遍×4種背景噪聲×8次混音×4位發(fā)音人=1 689 600條,共計1 742 400條語音語料。

      2.1 聲學模型實驗

      不同的聲學模型對語音識別率的影響較大,因此本實驗驗證不同的聲學模型對普米語語音識別率的影響。同時,為了避免語音語料量不足及測試集和訓練集設(shè)置的問題導致識別結(jié)果出現(xiàn)偶然性,進行交叉驗證實驗。

      本實驗用所有干凈的普米語語音語料和第1組帶噪的普米語語音語料。為了便于交叉驗證實驗的進行,將本節(jié)所用的所有實驗數(shù)據(jù)平均分為4組,分別記為第1組~第4組。使用留一交叉驗證的方法,其中3組用于訓練,余下的1組用于測試,每組數(shù)據(jù)都有且僅有一次作為測試集出現(xiàn)在實驗中。用測試集的序號標記實驗組的序號,例如以第4組為測試集,則記為第4組實驗。

      通過實驗得到不同聲學模型的語音識別率,如表2所示。

      表2 不同聲學模型的語音識別率 %

      為了更直觀地表示在不同聲學模型中,普米語語音識別率的變化情況,由表2中的數(shù)據(jù)繪制折線圖,得到圖3、圖4。

      圖3 不同聲學模型的語音識別率1

      圖4 不同聲學模型的語音識別率2

      從表2中可以看出,4組實驗的語音識別率不完全相同,在圖3中,4條折線幾乎重合,說明4組實驗中語音識別率的波動很小。由此可以得出,測試集和訓練集的設(shè)置沒有影響普米語語音識別率。從圖4可以看出,4組實驗中G-DNN模型的語音識別率最高,接著是O-SGMM模型、Triphone2模型、Triphone1模型、Monophone模型依次降低,而Monophone模型的語音識別率最低。以第1組為測試集的普米語語音識別實驗為例,通過對表2中的數(shù)據(jù)比較得到,G-DNN模型比O-SGMM模型語音識別率提升了2.6%,G-DNN模型比Triphone2模型語音識別率提升了11.7%,G-DNN模型比Triphone1模型語音識別率提升了23.5%,G-DNN模型比Monophone模型語音識別率提升了49.6%。由此可知,G-DNN模型有效地提升了普米語語音識別率。

      由于GMM-HMM在考慮三音子后,模型的參數(shù)迅速增加,模型參數(shù)無法充分地訓練,影響語音識別率。而深度學習模型是一種多隱層的網(wǎng)絡(luò)結(jié)構(gòu),每一層都單獨訓練,使得模型參數(shù)能夠充分地訓練,所以基于深度學習的聲學模型相比其余4個聲學模型,語音識別率有了明顯提升。因此,使用不同的聲學模型對普米語語音識別率的影響較大,其中,由G-DNN模型訓練得到的普米語語音識別系統(tǒng)的語音識別率最高,由Monophone模型訓練得到的普米語語音識別系統(tǒng)的語音識別率最低。由此可以得出,深度學習模型能夠有效地提升普米語語音識別率。

      2.2 不同語料量實驗

      不同語料量的實驗指的是單個普米語詞匯語音語料的數(shù)量不同的實驗?;谏疃葘W習的語音識別實驗,語音語料量的大小對語音識別率有很大的影響,本節(jié)將研究普米語語音語料量的大小對普米語語音識別率的影響。

      本實驗使用所有干凈的普米語語音語料和第1組~第4組帶噪的普米語語音語料,共進行了4組實驗。

      第1組實驗:用所有干凈的語音語料和第1組帶噪的語音語料,分別取干凈的和帶噪的語音語料的6/8用于訓練,余下的用于測試。

      第2組實驗:用所有干凈的語音語料加上第1組、第2組帶噪的語音語料,分別取干凈的和帶噪的語音語料的6/8用于訓練,余下的用于測試。

      第3組實驗:用所有干凈的語音語料加上第1組、第2組、第3組帶噪的語音語料,分別取干凈的和帶噪的語音語料的6/8用于訓練,余下的用于測試。

      第4組實驗:用所有干凈的語音語料加上第1組~第4組帶噪的語音語料,分別取干凈的和帶噪的語音語料的6/8用于訓練,余下的用于測試。

      通過實驗得到不同語料量的普米語語音識別率,如表3所示。

      表3 不同語料量實驗的語音識別率 %

      為了更直觀地表示當普米語語音語料量不同時,語音識別率的變化情況,由表3中的數(shù)據(jù)繪制折線圖,如圖5、圖6所示。

      圖5 不同語料量實驗的語音識別率1

      圖6 不同語料量實驗的語音識別率2

      由圖5可以看出,不論語料量的多少,每條折線均是從左往右呈上升趨勢,即每組實驗中均是由Monophone模型到Triphone1模型、Triphone2模型、O-SGMM模型、G-DNN模型語音識別率依次升高。由圖6可以看出,隨著普米語語音語料量的增加,Monophone模型、Triphone1模型、Triphone2模型以及O-SGMM模型的語音識別率都有所下降,只有G-DNN模型的語音識別率逐漸升高。當語料量從干凈的語音語料加1組加噪的語音語料增加到干凈的語音語料加4組加噪的語音語料時,基于G-DNN模型的普米語語音識別率提升了0.9%。實驗結(jié)果表明,增加普米語語音語料量可以促進基于深度學習的普米語語音識別率的提升。

      2.3 魯棒性實驗

      本實驗的目的在于驗證不同的聲學模型對普米語語音識別系統(tǒng)魯棒性的影響以及相同的聲學模型用不同的訓練集對普米語語音識別系統(tǒng)的魯棒性的影響。

      實驗使用所有干凈的普米語語音語料和第1組帶噪的普米語語音語料,共進行4組實驗。

      第1組實驗:用所有干凈的普米語語音語料,取6/8用于訓練,余下的用于測試。

      第2組實驗:用第1組實驗訓練好的模型,把第1組用于測試的干凈的普米語語音語料用混音工具隨機混音1次得到的帶噪普米語語音語料作為該組實驗的測試集。

      第3組實驗:將第1組實驗的訓練集加上第1組帶噪普米語語音語料的6/8用于該組實驗的訓練,第1組實驗的測試集作為該組實驗的測試集。

      第4組實驗:用第3組實驗訓練好的模型,用第2組實驗的測試集進行該組實驗的測試。

      通過實驗得普米語語音識別系統(tǒng)魯棒性實驗的語音識別率,如表4所示。

      表4 魯棒性實驗的語音識別率 %

      為了更直觀地表示魯棒性實驗普米語語音識別率的變化規(guī)律,由表4中的數(shù)據(jù)繪制折線圖,如圖7、圖8所示。

      圖7 魯棒性實驗的語音識別率1

      圖8 魯棒性實驗的語音識別率2

      對第1組實驗與第2組實驗進行比較,第1組、第2組實驗的訓練集相同,都是干凈的語音語料,測試集分別為干凈的和帶噪的語音語料。從圖7中可以看出,第1組實驗的語音識別率較高,第2組實驗的語音識別率較低,且2組實驗的語音識別率變化較大。由此可以得出,用干凈的語音語料訓練出來的模型只有用干凈的語音語料去測試才能得到較高的語音識別率,若是使用帶噪的語音語料去測試則語音識別率很低,說明僅使用干凈的語音語料訓練的語音識別系統(tǒng),系統(tǒng)的魯棒性較差。對第3組實驗與第4組實驗進行比較,第3組、第4組實驗的訓練集也相同,都是干凈的語音語料加上帶噪的語音語料,測試集分別為干凈的和帶噪的語音語料。從圖7可以看出,第3組實驗的語音識別率更高,第4組實驗的語音識別率更低,但是2組實驗的語音識別率變化不大。由此可以得出,在訓練集中加入帶噪的語音語料時,即使用帶噪的語音語料進行測試,語音識別率也不會大幅度地降低,說明同時使用干凈的和帶噪的語音語料進行訓練的語音識別系統(tǒng),系統(tǒng)的魯棒性較好。實驗結(jié)果表明,在訓練集中加入帶噪的語音語料能夠有效地提高普米語語音識別系統(tǒng)的魯棒性。

      從圖8可以看出,無論是在哪種方案的實驗中,G-DNN模型的語音識別率均比其余4個模型的語音識別率高。當測試集與訓練集的設(shè)定不同時,Monophone模型、Triphone1模型、Triphone2模型以及O-SGMM模型的語音識別率波動較大,而G-DNN模型的語音識別率波動較小。例如將第1組實驗與第2組實驗進行比較,如表5所示,當測試集由干凈的普米語語音語料換為帶噪的普米語語音語料時,Monophone模型的語音識別率下降了80.3%;Triphone1模型的語音識別率下降了77.4%;Triphone2模型的語音識別率下降了72.1%;O-SGMM模型的語音識別率下降了66.8%;G-DNN模型的語音識別率下降了18.2%。為了更直觀地表示不同聲學模型語音識別率的變化情況,繪制柱狀圖,如圖9所示。可以看出,G-DNN模型的語音識別率的減少量最小。由此可知,G-DNN模型的語音識別率降低得最少。實驗結(jié)果表明,G-DNN模型的魯棒性比其余4個聲學模型的魯棒性更好。

      表5 第1組實驗與第2組實驗語音識別率比較 %

      圖9 第2組比第1組語音識別率減少量

      通過對實驗結(jié)果的詳細分析,得到僅用干凈的語音語料訓練的語音識別系統(tǒng)中,只有用干凈的語音語料進行測試才能得到較高的語音識別率。如果用帶噪的語音語料進行測試,則語音識別率會變得很低,說明僅使用干凈的普米語語音語料訓練的普米語語音識別系統(tǒng)的魯棒性較差。而同時使用干凈的和帶噪的語音語料進行訓練時,不論是用干凈的語音語料進行測試,還是用帶噪的語音語料進行測試,語音識別率波動較小,說明在訓練集中加入帶噪的語音語料能夠提高普米語語音識別系統(tǒng)的魯棒性。同時,在4組實驗中,基于G-DNN模型的普米語語音識別系統(tǒng)的語音識別率波動最小,其余4個聲學模型的語音識別率波動較大。綜上所述,相比于Monophone模型、Triphone1模型、Triphone2模型和O-SGMM模型,G-DNN模型具有更好的魯棒性,即用深度學習技術(shù)能夠提高普米語語音識別系統(tǒng)的魯棒性。

      3 結(jié)束語

      本文在Kaldi上進行基于深度學習的普米語語音識別實驗,為加速模型的訓練,配置安裝了CUDA,有效地解決了深度學習模型訓練效率的問題。在Kaldi上進行了3類實驗:通過對不同聲學模型實驗結(jié)果的比較發(fā)現(xiàn),深度學習模型的語音識別率明顯高于其余的4個聲學模型,G-DNN模型比Monophone模型的語音識別率平均提升了49.8%;通過不同語音語料量的實驗發(fā)現(xiàn),在訓練集中增加語音語料量,可以提高基于深度學習的普米語語音識別率;通過魯棒性的實驗發(fā)現(xiàn),在訓練集中加入帶噪的語音語料可以提高普米語語音識別系統(tǒng)的魯棒性,并且基于深度學習的普米語語音識別系統(tǒng)的魯棒性比其余4個聲學模型的普米語語音識別系統(tǒng)的魯棒性更強。

      [1] 陸惠云.云南省七個“特少”民族語言使用狀況調(diào)查[J].玉溪師范學院學報,2014,30(1):45-59.

      [2] 解魯云.國內(nèi)普米族研究綜述[J].云南民族學院學報(哲學社會科學版),2003,20(1):75-78.

      [3] 李余芳,蘇 潔,胡文君,等.基于HTK的普米語孤立詞的語音識別[J].云南民族大學學報(自然科學版),2015,24(5):426-430.

      [4] 蘇 潔.基于HTK的普米語孤立詞識別研究[D].昆明:云南民族大學,2016.

      [5] 郭 琳,蘇 潔,李余芳,等.一種人機交互語音切分系統(tǒng)[J].云南民族大學學報(自然科學版).2016,25(1):87-91.

      [6] 蘇 潔,李余芳,郭 琳,等.HTK參數(shù)對普米語孤立詞識別率的影響[J].云南民族大學學報(自然科學版),2015,24(6):510-513.

      [7] 李余芳.基于HTK的帶噪普米語音識別系統(tǒng)的魯棒性研究[D].昆明:云南民族大學,2016.

      [8] HINTON G E,OSINDERO S,TEH Y W.A Fast Learning Algorithm for Deep Belief Nets[J].Neural Computation,2006,18(7):1527-1554.

      [9] AWNI H,CARL C,JARED C,et al.Deep Speech:Scaling up End-to-End Speech Recognition[EB/OL].(2014-10-19).https://arxiv.org/pdf/1412.5567v2.pdf.

      [10] XIONG W,DROPPO J,HUANG Xuedong,et al.Achieving Human Parity in Conversational Speech Recognition[EB/OL].(2016-10-17).https://arxiv.org/abs/1610.05256.

      [11] 科大訊飛.探索語音識別技術(shù)的前世今生[J].科技導報,2016,36(9):76-77.

      [12] 袁勝龍,郭 武,戴禮榮.基于深層神經(jīng)網(wǎng)絡(luò)的藏語識別[J].模式識別與人工智能,2015,28(3):209-213.

      [13] 其米克·巴特西,黃 浩,王羨慧.基于深度神經(jīng)網(wǎng)絡(luò)的維吾爾語語音識別[J].計算機工程與設(shè)計,2015(8):2239-2244.

      [14] ZHANG Hui,BAO Feilong,GAO Guanglai.Mongolian Speech Recognition Based on Deep Neural Networks[M]// SUN Maosong,LIU Zhiyuan,ZHANG Min.Chinese Computational Linguistics and Natural Language Processing Based on Naturally Annotated Big Data.Berlin,Germany:Springer,2015.

      [15] HU Wenjun,FU Meijun,PAN Wenlin.Primi Speech Recognition Based on Deep Neural Network[C]//Proceedings of IEEE International Conference on Intelligent Systems.Washington D.C.,USA:IEEE Press,2016:667-671.

      [16] 陸紹尊.普米語簡志[M].北京:民族出版社,1983.

      猜你喜歡
      魯棒性聲學識別率
      愛的就是這股Hi-Fi味 Davis Acoustics(戴維斯聲學)Balthus 70
      基于類圖像處理與向量化的大數(shù)據(jù)腳本攻擊智能檢測
      計算機工程(2020年3期)2020-03-19 12:24:50
      荒漠綠洲區(qū)潛在生態(tài)網(wǎng)絡(luò)增邊優(yōu)化魯棒性分析
      基于確定性指標的弦支結(jié)構(gòu)魯棒性評價
      基于真耳分析的助聽器配戴者言語可懂度指數(shù)與言語識別率的關(guān)系
      Acoustical Treatment Primer:Diffusion談?wù)劼晫W處理中的“擴散”
      Acoustical Treatment Primer:Absorption談?wù)劼晫W處理中的“吸聲”(二)
      Acoustical Treatment Primer:Absorption 談?wù)劼晫W處理中的“吸聲”
      提升高速公路MTC二次抓拍車牌識別率方案研究
      基于非支配解集的多模式裝備項目群調(diào)度魯棒性優(yōu)化
      海兴县| 迁西县| 景洪市| 济阳县| 连城县| 隆回县| 深泽县| 济南市| 城固县| 兴隆县| 喀什市| 叶城县| 东平县| 大庆市| 中山市| 上蔡县| 南充市| 二连浩特市| 松滋市| 东乡| 扎兰屯市| 五寨县| 汉中市| 高密市| 荆门市| 芒康县| 修武县| 景谷| 如皋市| 锦屏县| 黄陵县| 台东县| 昌乐县| 祁门县| 枝江市| 丹凤县| 连城县| 嘉祥县| 吉林市| 潮安县| 桐庐县|