• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      語音識別實現(xiàn)方法

      2021-01-05 19:38:39李姝儀李云潔蔣昊軒郭宗昱吳可欣劉博
      科技風 2021年35期
      關(guān)鍵詞:語音識別深度學習

      李姝儀 李云潔 蔣昊軒 郭宗昱 吳可欣 劉博

      摘?要:語音識別(Automatic Speech Recognition,ASR)是人工智能領(lǐng)域里一個重要的研究方向。對于如何實現(xiàn)語音識別,將語音序列轉(zhuǎn)化為文本序列,簡單來說就是確定問題,選擇一個模型之后再訓(xùn)練它。隨著開源社區(qū)的不斷擴大,加速了語音識別領(lǐng)域的研究進程,一些語音識別開源工具例如CMUSphinx、Julius、HTK、CMUSphinx、ISIP等也陸續(xù)興起,被研究者們廣泛運用。本文首先將介紹目前可以開發(fā)語音識別的工具CMUSphinx,Kaldi以及深度學習平臺;然后簡述CMUSphinx開源工具的實現(xiàn)流程;其次講述運用Kaldi的語音識別實踐過程;最后總結(jié)在語音識別實現(xiàn)中的一些問題以及未來的研究方向。

      關(guān)鍵詞:語音識別;CMUSphinx;Kaldi;深度學習

      1 語音識別工具

      1.1 CMUSphinx

      CMUSphinx——一種Carnegun大學開發(fā)的所有研究語音信息識別技術(shù)系統(tǒng)。2000年,Sphinx小組在幾個語音識別器組件中一直在做開源幾個器組件的工作。包括聲音解碼器和模型還有程序、資源有聲學模型訓(xùn)練軟件、語言模型和字典編輯軟件。

      1.2 Kaldi

      相較于早期開發(fā)的語音識別相關(guān)的開源工具包HTK,CMUSphinx等,Kaldi存在著自己的特性,例如代碼容易閱讀和理解;大量的線性代數(shù)支持利于其在不同線性代數(shù)庫之間切換;盡可能通用的算法實現(xiàn),避免使用只為特定任務(wù)服務(wù)的代碼;有著非常完整的語音識別系統(tǒng)訓(xùn)練腳本;擁有繁榮的開源社區(qū)、開放的代碼許可。這些優(yōu)勢都大大降低了kaldi作為語音識別工具包的門檻,也使得kaldi吸引了大批的用戶,成為語音識別工具包中的佼佼者。

      1.3 深度學習平臺

      近年來,由于深度學習的應(yīng)用,使得語音識別技術(shù)也更加先進。一系列算法、技術(shù)的應(yīng)用,也使得語音識別系統(tǒng)的建立并不局限于某個平臺。當下受到廣泛運用的深度學習框架有TensorFlow(Google首先開發(fā)并使用),PyTorch(Facebook首先開發(fā)并使用),CNTK(Microsoft首先開發(fā)并使用),MXNet(Amazon等使用)[1]。

      通用深度學習框架的內(nèi)核語言多為C++,前端接口語言多支持Python,這樣的語言搭配使用方法讓框架的運用既靈活又不失效率。相較于kaldi這樣術(shù)業(yè)有專攻的平臺,深度學習方法較多地作用于聲學模型和語言模型部分(或者端對端模型),并且還能拓展應(yīng)用于多種任務(wù)。

      2 CMUSphinx實現(xiàn)細節(jié)

      Sphinx是中國用于識別套件的領(lǐng)先語音識別工具包之一,有多種用于管理的工具和能用來建造語音應(yīng)用系統(tǒng)程序。卡耐基-梅隆的斯芬克斯包含許多不同的任務(wù)和應(yīng)用的開發(fā)包。選擇有時是很難的。以下是每個開發(fā)套件的目的:

      Pocketsphinx—C語言開發(fā)輕量級語音識別引擎的輕量級識別器庫;

      Sphinxtrain—聲學模型訓(xùn)練工具;

      Sphinxbase—Pocketsphinx和Sphinxtrain所需的支持庫;

      Sphinx4—用Java編寫的可調(diào)節(jié)識別器。

      (型號包括聲學模型,語言模型以及拼音字典)

      聲學的特征都被聲學模型所包含。其中n-gram是模型里最常用的,有限狀態(tài)語言模型以及字令統(tǒng)計都被包含而且定義語音序列是通過有限的狀態(tài)自動機(有時重量)來進行。如果想要高精度,模型的搜索空間限制必須非常成功。意思是它能比較好的推斷出下面的一個詞。語言模型通常限制注意到包括了的詞語。對于這個問題,屬于名稱識別,模型可以包含小塊,比如單詞以及音素。需要注意的是,這個開發(fā)里面的搜索空間是很差的,其識別精度會低于前面的語言學習模型(基于單詞)[2]。

      字典包含單詞至音素的映射,映射一般都不太有效果。不過字典并非是唯一一種把單詞映射到電話的方法。我們也能通過機器學習算法來學習其他可能復(fù)雜一些的功能。

      3 Kaldi語音識別實現(xiàn)基本流程

      3.1 數(shù)據(jù)準備

      在準備訓(xùn)練數(shù)據(jù)時,我們需要完成選擇訓(xùn)練數(shù)據(jù)和將數(shù)據(jù)整理成工具可以支持的格式這兩個任務(wù)。關(guān)于構(gòu)建符合Kaldi腳本規(guī)范的數(shù)據(jù)資源文件,包括數(shù)據(jù)文件夾data和語音文件夾data/lang中。

      3.1.1 基本數(shù)據(jù)

      通常會將數(shù)據(jù)分為訓(xùn)練數(shù)據(jù)、開發(fā)數(shù)據(jù)和測試數(shù)據(jù)三個子集,分別用train、dev和test表示[3]。當kaldi使用thchs30(由清華大學語音與語言技術(shù)中心出版的開放式中文語音數(shù)據(jù)庫)進行訓(xùn)練操作時,Thchs30經(jīng)過初步處理后會得到四種文本文件,可以直接打開查看(比如訓(xùn)練集則放在data/train下)。而且utt2spk和spk2utt這兩個文件是kaldi處理時必須存在的。需要注意的是對于不同數(shù)據(jù)源或任務(wù),可能需要另外準備一些文件。

      3.1.2 語言資料

      語言資料方面kaldi需要將文件存放于data/dict下,其余數(shù)據(jù)整理詳情可參考文獻[1]。當用于語音識別實驗訓(xùn)練的數(shù)據(jù)都準備齊全后,就需要Kaldi對這些數(shù)據(jù)進行處理。

      3.2 語音信號特征提取

      經(jīng)過預(yù)處理的信號,已經(jīng)是有一定純度的音頻信號,對于任何物體的識別或者是語音的識別,從機器識別的方向看,要抓住事物唯一的特征。[4]所以語音識別在進入聲學模型訓(xùn)練之前是要對語音的特征進行提取,一段語音信號用特征值來表示,因為有很多的特征值,就用特征向量來表示。提取特征值最常用的是MFCC(梅爾頻率倒譜系數(shù))[5]。

      接下來敘述MFCC的一般過程,第一步、將實際頻率于Mel頻率通過公式,第二步、在得到Mel頻率之后進行傅里葉變換,通過傅里葉變換的目的是看到信號能量的具體分布。第三步、利用帶有Mel尺度的三角濾波器過濾信號,第四步、因為過濾的信號是離散的數(shù)據(jù),所以通過反離散余弦變換就得到了我們需要的MFCC[6],公式如下:

      3.3 聲學模型訓(xùn)練過程

      3.3.1 獲得語料集的音頻集和對應(yīng)的文字集

      可以通過提供更精確的對齊,發(fā)音(句子)級別的起止數(shù)據(jù)時間,但這不是我們必須的。

      3.3.2 將獲得的文字集格式化

      Kaldi需要各種格式。訓(xùn)練過程將使用每個句子的開始和結(jié)束時間、每個句子的說話人ID以及文本集中使用的所有單詞和音素。

      3.3.3 從音頻文件提取聲學特征

      MFCC或者PLP被傳統(tǒng)教學方法進行廣泛使用。對于NN方法有所差異。

      3.3.4 單音素訓(xùn)練

      單個音素訓(xùn)練不使用當前音素之前或之后的上下文信息,而三個音素使用當前音素、前一音素和后一音素。

      3.3.5 基于GMM/HMM的框架

      (1)將音頻根據(jù)聲學模型對齊。聲學模型的參數(shù)在聲學訓(xùn)練時獲得,然而,這個發(fā)展過程我們可以通過使用訓(xùn)練和對齊的循環(huán)系統(tǒng)進行管理優(yōu)化。這也稱為維特比(維特比)訓(xùn)練(包括前后向和期望最大化密集型計算過程)。通過對齊音頻和文本,可以使用其他訓(xùn)練算法來改進和細化參數(shù)化模型。所以,每一個學生訓(xùn)練方法步驟會跟隨自己一個對齊步驟。

      (2)訓(xùn)練三音素模型。單音素模型僅表示單個音素的參數(shù),但音素隨上下文而變化。三音素模型使用上下文前后的音素來顯示音素的變化。

      并不是所有的單音素組合都存在于提供的文字集中,總共有3個可能的三音素,但是通過訓(xùn)練集所包含的是一個企業(yè)有限的子集,并且可以出現(xiàn)的三音素進行組合方式也要有一定的次數(shù)以方便學生訓(xùn)練,音素決策樹方法會將我們這些三音素聚類成更小的集合。

      (3)根據(jù)聲學模型重新對齊音頻以及重新訓(xùn)練三音素模型。重復(fù)上述步驟1和2,并添加額外和更精細的三音素模型訓(xùn)練,通常包括增量訓(xùn)練、lda mllt和sat。對齊算法主要包括學生說話人對齊和FMLLR。

      (4)訓(xùn)練算法。增量算法計算特征的一階和二階導(dǎo)數(shù),或動態(tài)參數(shù),以補充MFCC特征。

      LDA-MLLT(Linear Discriminant Analysis-Maximum Likelihood Linear Transform),LDA根據(jù)降維特征向量建立HMM狀態(tài)。MLLT根據(jù)LDA降維后的特征空間獲得每一個說話人的唯一變換。MLLT實際上是說話人的歸一化。

      Sat(speaker adaptive training)。Sat還使噪音正常化。

      (5)對齊算法。實際的對齊進行操作是一樣的,不同文集使用情況不同的聲學分析模型。

      3.4 解碼實現(xiàn)——維比特算法

      維比特算是經(jīng)過一個T*S的矩陣實現(xiàn)的,T是幀數(shù),S是HMM狀態(tài)總數(shù)。按幀遍歷聲學特征,每一幀的每個狀態(tài),把前一幀的累積狀態(tài)和這一這一幀的狀態(tài)累加,選擇這一幀代價最低的當成這一幀的最佳路徑。Kaldi的解碼器大多基于維比特算法,kald的解碼器有很多例如Simple Decoder,F(xiàn)ast Decoder,這些都是以庫的形式存在,在需要的時候選擇合適的解碼器[7]。

      4 總結(jié)

      Kaldi至今仍然是很強大的語音識別工具,由于代碼是開源的,所以如今它在Github上也很活躍。Kaldi是由GMM-HMM模型發(fā)展起來的,雖有眾多優(yōu)勢,但也存在著一些弊端,比如在聲音嘈雜的環(huán)境下的語音識別,語音識別遷移功能的欠缺,以及此模型層次較淺以至于不能捕捉數(shù)據(jù)間的深層特性。所以,隨著人工智能的發(fā)展出現(xiàn)了基于DNN—HMM的模型算法。

      GMM—HMM是基于概率統(tǒng)計的方法,來得到參數(shù)模型的,這也就意味著原始數(shù)據(jù)需要的特別龐大,原始數(shù)據(jù)的多少,與最后識別的準確性是正相關(guān)的。HMM—GMM不能學習深層的非線性變換特征,而DNN—HMM可以。在如今語音識別領(lǐng)域又出現(xiàn)了端對端的語音識別,后一種的模型會將前一種的缺點加以改進,使得語音識別更加的簡便,高效。雖然如今各種工具應(yīng)接不暇,但是如果我們能善假于物,明了其中的原理,也能夠提高語音識別技術(shù)研發(fā)的效率。

      參考文獻:

      [1]湯志遠,李藍天,王東,蔡云麟,石穎,鄭方.語音識別基本法[M].電子工業(yè)出版社,2021.

      [2]csdn.語音識別基礎(chǔ)篇(一)-CMU Sphinx基本簡介[EB/OL].https://blog.csdn.net/itas109/article/details/78568591,2017-11-18/2021/8/28.

      [3]陳果果,都家宇,那興宇,張俊博.Kaldi語音識別實戰(zhàn)[M].電子工業(yè)出版社,2020.

      [4]王凱,馬明棟.基于Kaldi的語音識別[J].計算機技術(shù)與發(fā)展,2021,31(01):13-17.

      [5]章武峰.基于Kaldi的中文語音識別研究[D].華中師范大學,2020.

      [6]楊勝捷,朱灝耘,馮天祥,陳宇.基于Kaldi的語音識別算法[J].電腦知識與技術(shù),2019,15(02):163-166.

      [7]朱春山.基于Kaldi的語音識別的研究[D].南京郵電大學,2018.

      基金項目:空中交通管理學院創(chuàng)新創(chuàng)業(yè)實踐基地,項目名稱:基于深度學習的無線電陸空通話語音識別軟件研究與開發(fā)(項目編號:202010059083)

      作者簡介:李姝儀(2000—?),女,漢族,云南人,本科,研究方向:語音識別;李云潔(1998—?),男,漢族,云南人,本科,研究方向:語音識別;蔣昊軒(2001—?),男,漢族,四川人,本科,研究方向:語音識別;郭宗昱(2000—?),女,漢族,湖南人,本科,研究方向:語音識別;吳可欣(2000—?),女,漢族,湖北人,本科,研究方向:語音識別。

      *通訊作者:劉博(1985—?),男,漢族,陜西人,碩士,中級,研究方向:空中交通管理、機器學習。

      猜你喜歡
      語音識別深度學習
      通話中的語音識別技術(shù)
      有體驗的學習才是有意義的學習
      電子商務(wù)中基于深度學習的虛假交易識別研究
      MOOC與翻轉(zhuǎn)課堂融合的深度學習場域建構(gòu)
      大數(shù)據(jù)技術(shù)在反恐怖主義中的應(yīng)用展望
      深度學習算法應(yīng)用于巖石圖像處理的可行性研究
      基于深度卷積網(wǎng)絡(luò)的人臉年齡分析算法與實現(xiàn)
      軟件工程(2016年8期)2016-10-25 15:47:34
      面向移動終端的語音簽到系統(tǒng)
      農(nóng)業(yè)物聯(lián)網(wǎng)平臺手機秘書功能分析與實現(xiàn)
      基于LD3320的非特定人識別聲控燈系統(tǒng)設(shè)計
      中方县| 天等县| 曲麻莱县| 于都县| 都匀市| 杭锦后旗| 左云县| 丰县| 东至县| 邹平县| 西充县| 湟源县| 教育| 昌平区| 专栏| 布尔津县| 陵水| 沧源| 汉沽区| 宁南县| 巴中市| 渝北区| 陇川县| 桃园县| 康乐县| 阳高县| 长寿区| 章丘市| 平和县| 牡丹江市| 晋州市| 新建县| 奈曼旗| 永靖县| 桦甸市| 潞西市| 河南省| 门源| 东山县| 墨竹工卡县| 黄冈市|