• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      淺談聲音識(shí)別模型發(fā)展趨勢

      2021-11-21 14:04:17盧林王東
      汽車實(shí)用技術(shù) 2021年12期
      關(guān)鍵詞:神經(jīng)網(wǎng)絡(luò)深度算法

      盧林,王東

      (1.黃岡職業(yè)技術(shù)學(xué)院,湖北 黃岡 438002;2.中汽研(天津)汽車工程研究院有限公司,天津 300300)

      引言

      聲音識(shí)別技術(shù)中主要包含語音識(shí)別和環(huán)境聲音識(shí)別,語音識(shí)別的出現(xiàn)讓人類和機(jī)器的交流變得更加智能和便捷。環(huán)境聲音識(shí)別同樣也在各領(lǐng)域取得了廣泛的應(yīng)用。如基于機(jī)器聲音識(shí)別的故障診斷、基于道路交通聲音識(shí)別的輔助駕駛等。目前實(shí)現(xiàn)聲音識(shí)別的準(zhǔn)備工作分別為特征參數(shù)的提取和構(gòu)建識(shí)別模型。近年來,為提高聲音識(shí)別準(zhǔn)確率、識(shí)別速度,各種識(shí)別模型被提出,這項(xiàng)智能技術(shù)在不斷地更新進(jìn)步。

      1 識(shí)別模型的發(fā)展

      1.1 動(dòng)態(tài)時(shí)間規(guī)整

      在聲音識(shí)別領(lǐng)域,早期采用的是語音識(shí)別中孤立詞識(shí)別的方法,其原理是對(duì)一段輸入信號(hào)進(jìn)行逐幀單獨(dú)識(shí)別,針對(duì)識(shí)別信號(hào)的長度各有不同的情況。上世紀(jì)60年代,日本學(xué)者Itakura首次動(dòng)態(tài)時(shí)間規(guī)整(Dynamic Time Warping,DTW)算法應(yīng)用到語音識(shí)別領(lǐng)域[1]。在識(shí)別過程中,不能簡單的將輸入的聲音與模板直接比較,即使是同一種聲音,其信號(hào)在時(shí)間長度上也不會(huì)完全相同,直接比較會(huì)降低識(shí)別率,因此可對(duì)聲音信號(hào)進(jìn)行時(shí)間規(guī)整,將待測聲音信號(hào)伸長或縮短,直到與參考模板的長度一致。DTW算法基于動(dòng)態(tài)規(guī)劃(Dyna-mic Programming,DP)的思想,能夠?qū)⑤斎胄盘?hào)的時(shí)長與模板的時(shí)長進(jìn)行動(dòng)態(tài)匹配,它也是聲音識(shí)別技術(shù)中出現(xiàn)較早的一種算法[2]。

      實(shí)驗(yàn)結(jié)果證明,將DTW算法應(yīng)用到語音識(shí)別領(lǐng)域在對(duì)孤立詞識(shí)別方面確實(shí)有著較好的識(shí)別效果,但其最明顯的缺點(diǎn)在于這種方法實(shí)現(xiàn)需要對(duì)大量路徑及這些路徑中的所有節(jié)點(diǎn)進(jìn)行匹配計(jì)算,從而導(dǎo)致計(jì)算量極大,隨著聲音樣本量及樣本長度的增大,其識(shí)別時(shí)間甚至將達(dá)到難以接受的程度,因此,無法直接應(yīng)用于大、中樣本量聲音識(shí)別。同時(shí),根據(jù)其優(yōu)缺點(diǎn),這種方法主要是應(yīng)用于孤立詞的識(shí)別上,對(duì)大詞匯量的連續(xù)聲音識(shí)別上其效果不太理想,所以,HMM/GMM等混合高速模型應(yīng)運(yùn)而生。

      1.2 隱馬爾科夫模型

      隱馬爾科夫模型(Hidden Markov Model,HMM)是目前聲音識(shí)別中使用最普遍的統(tǒng)計(jì)模型之一。它對(duì)時(shí)間序列結(jié)構(gòu)有著較強(qiáng)的建模能力,它不僅能描述不平穩(wěn)聲音信號(hào)的瞬態(tài)特征,還可以跟蹤隱含在觀測序列中的動(dòng)態(tài)特征。HMM是一個(gè)雙內(nèi)嵌式隨機(jī)過程,一個(gè)隨機(jī)過程用來表示隱含狀態(tài)鏈之間的轉(zhuǎn)移,另一個(gè)隨機(jī)過程用來表示隱含狀態(tài)鏈和可見狀態(tài)鏈對(duì)應(yīng)的統(tǒng)計(jì)關(guān)系[3]。

      HMM聲音識(shí)別的步驟是先對(duì)輸入的聲音信號(hào)應(yīng)用Baum-Welch算法訓(xùn)練其特征參數(shù),從而使觀測序列對(duì)HMM模型的輸出概率最大化。同時(shí)應(yīng)用這種算法還可以為每個(gè)輸入的聲音信號(hào)建立HMM模型參數(shù),將所有聲音的HMM模型參數(shù)組合起來,得到系統(tǒng)HMM模板庫。然后使用Viterbi算法,將待測的聲音和模板庫進(jìn)行模式匹配,搜索最優(yōu)狀態(tài)序列,并以最大后驗(yàn)概率為準(zhǔn)則獲得識(shí)別結(jié)果。

      但是HMM模型更多的反應(yīng)類別間的相似性,忽略了類別的差異性,因此具有較弱的分類能力和決策能力,同時(shí)其自適應(yīng)性和抗噪性也較差。

      1.3 高斯混合模型

      高斯混合模型(Gaussian Mixture Model,GMM)使用高斯分布作為參數(shù)模型,精確地量化事物,它是一種將事物分解為若干的基于高斯概率密度函數(shù)形成的模型[4]。GMM用M個(gè)高斯分布的線性組合來刻畫矢量的特征數(shù)據(jù)分布。

      在建模過程中,首先要初始化GMM算法,即初始化GMM模型中的協(xié)方差矩陣、均值矢量和權(quán)重,得到一個(gè)不準(zhǔn)確的初始化高斯模型,然后通過運(yùn)行迭代算法的次數(shù)來不斷縮小它的范圍,更新模型的參數(shù)值,直到收斂,最終訓(xùn)練出模型的參數(shù)。GMM訓(xùn)練中使用的迭代算法為最大期望算法(Expectation-Maximization algorithm,EM),EM算法可通過非完備數(shù)據(jù)集合來估計(jì)模型參數(shù),包含E-Step和MStep。其中,E-Step的功能是初始化模型,并根據(jù)給定的參數(shù)獲得似然度;M-Step的功能是重估參數(shù),利用最大似然準(zhǔn)則使得似然度最大。重復(fù)迭代兩個(gè)步驟直到收斂,訓(xùn)練出模型的參數(shù)。

      GMM的優(yōu)點(diǎn)是僅使用少量參數(shù)就能較好地描述對(duì)象的特征,聲學(xué)模型較小,容易移植到嵌入式平臺(tái)。但GMM的局限是計(jì)算量較大,收斂速度較慢。對(duì)異常點(diǎn)較為敏感,如果其中一個(gè)數(shù)據(jù)不服從正態(tài)分布,聚類算法會(huì)出現(xiàn)偏差,同時(shí)對(duì)訓(xùn)練數(shù)據(jù)量的要求較高。

      1.4 支持向量機(jī)

      支持向量機(jī)(Support Vector Machine,SVM)是一種基于統(tǒng)計(jì)原理開發(fā)的常用作分類器的淺層機(jī)器學(xué)習(xí)方法之一。在聲音識(shí)別中,它可以看作是一種分類器,可以將兩種或多種樣本準(zhǔn)確地分開,并使經(jīng)驗(yàn)風(fēng)險(xiǎn)和真實(shí)風(fēng)險(xiǎn)都盡可能地小。

      SVM算法的基本思想是在不同類的數(shù)據(jù)集上尋找一個(gè)最優(yōu)決策超平面將不同類的樣本分開,并使其距離不同類的分類邊緣(平行超平面并過距離超平面最近的數(shù)據(jù)點(diǎn))最大。當(dāng)數(shù)據(jù)集線性可分或近似線性可分時(shí),直接尋找最佳超平面,并使得錯(cuò)分點(diǎn)最少。當(dāng)數(shù)據(jù)集線性不可分時(shí),SVM將樣本從原始空間映射到高維空間,使其在此空間內(nèi)線性可分,然后尋找最佳超平面將樣本集在此空間內(nèi)區(qū)分開[5]?;谶@種方法,其在解決小樣本、非線性及高維模式識(shí)別中表現(xiàn)出許多特有的優(yōu)勢。

      SVM在中小樣本量訓(xùn)練集分類問題上能夠得到比其它算法更優(yōu)的效果,且可以解決樣本維數(shù)很高的問題。但當(dāng)特征數(shù)據(jù)為非線性問題時(shí),SVM算法并沒有固定的解決方案,遇到這種情況時(shí)往往采用網(wǎng)格交叉驗(yàn)證的思路來選擇最優(yōu)的核函數(shù)和其中的參數(shù)數(shù)值。此外在對(duì)大樣本數(shù)據(jù)進(jìn)行訓(xùn)練時(shí)其學(xué)習(xí)速度慢也是它的一個(gè)不足之處。

      1.5 人工神經(jīng)網(wǎng)絡(luò)

      人工神經(jīng)網(wǎng)絡(luò)(Artificial Neural Network,ANN)是自上世紀(jì)80年代以來人工智能領(lǐng)域興起的研究熱點(diǎn),并迅速應(yīng)用在聲音識(shí)別、圖像識(shí)別、文本識(shí)別等領(lǐng)域。它的原理是基于生物學(xué)中神經(jīng)網(wǎng)絡(luò),在理解和抽象人腦神經(jīng)系統(tǒng)結(jié)構(gòu)和人腦神經(jīng)系統(tǒng)對(duì)外界信息反饋機(jī)制后,以網(wǎng)絡(luò)拓?fù)渲R(shí)為理論基礎(chǔ),模擬人腦神經(jīng)網(wǎng)絡(luò)對(duì)外界信息處理機(jī)制的數(shù)學(xué)模型。ANN內(nèi)部模仿人腦神經(jīng)系統(tǒng),它由大量神經(jīng)元(節(jié)點(diǎn))組成,每個(gè)節(jié)點(diǎn)表示一種特定的輸出函數(shù)(激活函數(shù)),然后通過節(jié)點(diǎn)之間不同方式的連接組成不同的網(wǎng)絡(luò),并對(duì)信息進(jìn)行分布式并行處理,從而復(fù)現(xiàn)大腦神經(jīng)系統(tǒng)處理外部信號(hào)的功能。

      基于ANN的聲音識(shí)別系統(tǒng)內(nèi)部除了包含神經(jīng)元,還具有訓(xùn)練算法以及網(wǎng)絡(luò)結(jié)構(gòu)兩大要素。ANN采用了多種現(xiàn)代信息技術(shù)成果,如并行處理機(jī)制、非線性信息處理機(jī)制和信息分布存貯機(jī)制等,從而達(dá)到高效率處理數(shù)據(jù)和自適應(yīng)調(diào)節(jié)的功能,其中自適應(yīng)調(diào)節(jié)功能主要表現(xiàn)在訓(xùn)練過程中可以不斷調(diào)整自身的參數(shù)權(quán)值和拓?fù)浣Y(jié)構(gòu),以適應(yīng)環(huán)境和系統(tǒng)性能優(yōu)化的需求[6]。在聲音識(shí)別中使用的傳統(tǒng)神經(jīng)網(wǎng)絡(luò)有BP神經(jīng)網(wǎng)絡(luò)、基于RBF神經(jīng)網(wǎng)絡(luò)等。

      神經(jīng)網(wǎng)絡(luò)方法具有聯(lián)想記憶功能和良好的容錯(cuò)性、高并行性、良好的自適應(yīng)和自學(xué)習(xí)能力。然而,傳統(tǒng)神經(jīng)網(wǎng)絡(luò)也存在許多缺點(diǎn),例如難以準(zhǔn)確分析神經(jīng)網(wǎng)絡(luò)的各個(gè)指標(biāo)、不適合解決必須得到正確答案的問題、體系結(jié)構(gòu)通用性差等問題。

      2 深度學(xué)習(xí)在聲音識(shí)別中的應(yīng)用

      HMM、GMM、SVM與淺層神經(jīng)網(wǎng)絡(luò)等,歸根結(jié)底都是屬于淺層機(jī)器學(xué)習(xí)模型,這些淺層結(jié)構(gòu)在處理內(nèi)部結(jié)構(gòu)不復(fù)雜,在解決約束不強(qiáng)的數(shù)據(jù)時(shí)通過提取相應(yīng)特征進(jìn)行訓(xùn)練可取得較好的效果,但是在聲音識(shí)別中若遇到信號(hào)本身結(jié)構(gòu)復(fù)雜的數(shù)據(jù)時(shí),基于這些方法得到的訓(xùn)練模型會(huì)存在數(shù)據(jù)表征能力不強(qiáng)的現(xiàn)象,最終的識(shí)別效果也會(huì)有所欠缺,這促使了深度學(xué)習(xí)(Deep-Learning)的誕生和其在聲音識(shí)別領(lǐng)域的快速發(fā)展。

      深度學(xué)習(xí)的概念是由神經(jīng)網(wǎng)絡(luò)大師Hinton和其學(xué)生于2006年正式提出,基于深度學(xué)習(xí)的方法在ImageNet 圖像識(shí)別大賽中屢建戰(zhàn)功。不僅在圖像識(shí)別上,后來也被延伸應(yīng)用到聲音識(shí)別領(lǐng)域,現(xiàn)已成為國際研究的新熱點(diǎn)。從本質(zhì)上講,深度學(xué)習(xí)是建立一個(gè)具有多個(gè)隱藏層的機(jī)器學(xué)習(xí)架構(gòu)模型,通過大規(guī)模的數(shù)據(jù)訓(xùn)練,提取更具代表性的特征。與傳統(tǒng)神經(jīng)網(wǎng)絡(luò)限制網(wǎng)絡(luò)的層數(shù)不同,深度神經(jīng)網(wǎng)絡(luò)可根據(jù)設(shè)計(jì)者的要求,選擇任意的層數(shù)。

      目前,在基于深度學(xué)習(xí)方法的聲音識(shí)別中,逐漸開發(fā)出循環(huán)神經(jīng)網(wǎng)絡(luò)(Recurrent Neural Network,RNN)、卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Networks,CNN)和深度置信網(wǎng)絡(luò)(Deep Belief Network,DBN)雙向長短期記憶(Bidirectional Long-Short Term Memory,LSTM)等。

      深度神經(jīng)網(wǎng)絡(luò)根據(jù)其運(yùn)行原理可以接受比傳統(tǒng)神經(jīng)網(wǎng)絡(luò)大很多的輸入數(shù)據(jù)維度,并且它可以自動(dòng)學(xué)習(xí)數(shù)據(jù)的特征,在聲音識(shí)別中顯著縮短了特征提取的時(shí)間,同時(shí)伴隨著計(jì)算機(jī)GPU的發(fā)展,深度神經(jīng)網(wǎng)絡(luò)的訓(xùn)練時(shí)間也不斷減少,極大地提高了聲音識(shí)別的效率。

      3 聲音識(shí)別模型未來發(fā)展趨勢

      深度神經(jīng)網(wǎng)絡(luò)是傳統(tǒng)神經(jīng)網(wǎng)絡(luò)技術(shù)的極大突破,同時(shí)在大數(shù)據(jù)時(shí)代也為聲音識(shí)別模型提供了一個(gè)新的發(fā)展方向。未來聲音識(shí)別模型主要以深度神經(jīng)網(wǎng)絡(luò)聲學(xué)模型為基礎(chǔ)進(jìn)行更深入地研究與改進(jìn)。

      首先是對(duì)更深更復(fù)雜的深度神經(jīng)網(wǎng)絡(luò)的開發(fā)研究,雖然以目前的計(jì)算能力,在實(shí)際聲音識(shí)別中還不能取得很好的應(yīng)用,但這是推動(dòng)深度神經(jīng)網(wǎng)絡(luò)進(jìn)一步發(fā)展的必然趨勢。Deep-CNN是目前聲音識(shí)別模型領(lǐng)域最主要研究的一種模型,微軟、百度、IBM公司相繼推出了自己的Deep-CNN模型,推動(dòng)著神經(jīng)網(wǎng)絡(luò)向更深層發(fā)展。

      其次是混合模型的使用和改進(jìn),將不同模型結(jié)合使用,取長補(bǔ)短,達(dá)到更好的識(shí)別效果。已被應(yīng)用的混合模型有傳統(tǒng)的GMM-HMM模型,隨著ANN的提出,80年代晚期Morgan提出了基于ANN-HMM的混合模型。隨著近年來深度神經(jīng)網(wǎng)絡(luò)的飛速發(fā)展,基于DNN-HMM的混合模型成為了主流的算法。

      最后是粗粒度建模技術(shù)的出現(xiàn)和發(fā)展,這是近期出現(xiàn)的一種新的聲學(xué)模型技術(shù),粗粒度建模技術(shù)可以極大加快聲音識(shí)別的解碼速度,解碼速度的提升使得應(yīng)用更深和更復(fù)雜的神經(jīng)網(wǎng)絡(luò)建立聲學(xué)模型成為可能,這是提高識(shí)別速度的尖端技術(shù)之一。

      4 結(jié)語

      識(shí)別模型的建立是開展聲音識(shí)別工作中至關(guān)重要的一步,它直接關(guān)系到最終目標(biāo)識(shí)別效率。識(shí)別模型從開始的動(dòng)態(tài)時(shí)間規(guī)整,到隱馬爾科夫模型、高斯混合模型、人工神經(jīng)網(wǎng)絡(luò)等淺層模型的轉(zhuǎn)變,再到將深度神經(jīng)網(wǎng)絡(luò)強(qiáng)大的特征提取與分類能力應(yīng)用到聲音識(shí)別中。目前,基于深度神經(jīng)網(wǎng)絡(luò)的模型已經(jīng)成為了聲學(xué)建模的主流,并隨著計(jì)算機(jī)技術(shù)的發(fā)展而不斷進(jìn)步。

      猜你喜歡
      神經(jīng)網(wǎng)絡(luò)深度算法
      深度理解一元一次方程
      神經(jīng)網(wǎng)絡(luò)抑制無線通信干擾探究
      電子制作(2019年19期)2019-11-23 08:42:00
      基于MapReduce的改進(jìn)Eclat算法
      Travellng thg World Full—time for Rree
      深度觀察
      深度觀察
      進(jìn)位加法的兩種算法
      深度觀察
      一種改進(jìn)的整周模糊度去相關(guān)算法
      基于神經(jīng)網(wǎng)絡(luò)的拉矯機(jī)控制模型建立
      那曲县| 赫章县| 安达市| 靖远县| 太仆寺旗| 玉龙| 铜山县| 湟源县| 璧山县| 凤阳县| 达孜县| 乌鲁木齐市| 拉孜县| 白玉县| 湘乡市| 海原县| 商都县| 恭城| 田东县| 巢湖市| 永嘉县| 松江区| 驻马店市| 桂东县| 吉水县| 永吉县| 赤峰市| 南开区| 顺义区| 微博| 康马县| 敦煌市| 云梦县| 木里| 壶关县| 云浮市| 齐河县| 醴陵市| 陇川县| 昭平县| 太仆寺旗|