• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      語音識別技術(shù)的探究

      2017-05-27 14:47劉雨燃
      中國科技縱橫 2016年24期
      關(guān)鍵詞:語音識別人工智能

      劉雨燃

      【摘 要】隨著現(xiàn)代科學(xué)技術(shù)的發(fā)展,語音識別技術(shù)廣泛運用于人們?nèi)粘I畹姆椒矫婷?,為機器與人的交互提供了新的形式。本文將探究傳統(tǒng)語言識別技術(shù)的發(fā)展,介紹經(jīng)典語音識別技術(shù)的發(fā)展歷程,描述典型語言識別框架的組成模塊,以及展望語音識別技術(shù)的未來發(fā)展趨勢。近年來,由于機器學(xué)習(xí),特別是深度神經(jīng)網(wǎng)絡(luò)的發(fā)展,語言識別的準確率和實用性得到了大幅度提升。

      【關(guān)鍵詞】語音識別 語言模型 聲學(xué)模型 人工智能

      使用智能手機的朋友們都會對語音助手產(chǎn)生極大的興趣,不管是微軟的Cortana,還是蘋果的Siri,都是將語音識別融入現(xiàn)代技術(shù)的典范。語音識別是解決機器“聽懂”人類語言的一項技術(shù),也是人工智能重要部分。

      語音識別技術(shù)(speech recognition),也被稱為自動語音識別 (ASR),其目標是將人類的語音中的詞匯內(nèi)容轉(zhuǎn)換為計算機可讀的輸入,例如按鍵、二進制編碼或者字符序列。與說話人識別及說話人確認不同,后者嘗試識別或確認發(fā)出語音的說話人而前者的目標是語音中所包含的詞匯內(nèi)容。

      探究語音識別技術(shù)的框架、應(yīng)用與發(fā)展有利于全面了解語音識別。本文將從語音識別簡介、主流語言識別框架以及語言識別近年來的發(fā)展三個方面探究語音識別。

      1 語音識別簡介

      1.1 傳統(tǒng)語言識別技術(shù)發(fā)展

      對語音識別技術(shù)的研究可以追述到上世紀五十年代,1952年貝爾研究所Davis等人研究成功了世界上第一個能識別10個英文數(shù)字發(fā)音的實驗系統(tǒng),開創(chuàng)了語音識別的先河。上世紀六十年代,人工神經(jīng)網(wǎng)絡(luò)被引入了語音識別。上世紀七十年代以后,大規(guī)模的語音識別在小詞匯量、孤立詞的識別方面取得了實質(zhì)性的進展。傳統(tǒng)語音識別技術(shù)最大突破是隱式馬爾可夫模型的應(yīng)用,這一模型極大提高了語音識別的準確率[1]。

      1.2 語言識別的應(yīng)用

      作為智能計算機研究的主導(dǎo)方向和人機語音通信的關(guān)鍵技術(shù),語音識別一直受到各國科學(xué)界的廣泛關(guān)注。如今,隨著語音識別技術(shù)的研究的突破,其對計算機發(fā)展和社會生活的重要性日益凸現(xiàn)出來。在現(xiàn)實生活中,語音識別技術(shù)的應(yīng)用相當(dāng)廣泛,它改變了人與計算機交互的方式,使計算機更加智能。和鍵盤輸入相比,語音識別更符合人的日常習(xí)慣;使用語言控制系統(tǒng),相比手動控制,語音識別更加方便快捷,可以用在工業(yè)控制、智能家電等設(shè)備;通過智能對話查詢系統(tǒng),企業(yè)可以根據(jù)用戶的語音進行操作,為用戶提供自然、友好的數(shù)據(jù)檢索服務(wù)。

      2 語音識別框架

      目前主流的語音識別框架可以分為以下幾個模塊:信號處理,特征提取,聲學(xué)模型,語言模型,解碼器。

      2.1 信號處理

      信號處理模塊是對語音文件進行預(yù)處理。聲音是一種縱波,在識別語音時,輸入為WMV,MP3等格式的文件會被轉(zhuǎn)換成非壓縮的純波文件wav格式。然后在進行語音識別前,需要檢測該文件中的語音信號,該技術(shù)被稱之為語音活性檢測[2]。使用語言活性檢測技術(shù)可以有效降低噪音,去除非語音片段,提高語音識別的準確率。經(jīng)典的語音活性檢測算法由如下步驟組成:

      (1)使用spectral subtraction等方法對語言序列進行降噪。(2)將輸入信號的分成區(qū)塊并提取特征。(3)設(shè)計分類器判斷該區(qū)塊是否為語音信號。

      2.2 特征提取

      特征提取目的是提取出語音文件的特征,以一定的數(shù)學(xué)方式表達,從而可以參與到后續(xù)模塊處理中。在這一模塊,首先要將連續(xù)的聲音分成離散的幀。每一幀的時間既要足夠長,使得我們能夠判斷它屬于哪個聲韻母的信息,若過短則包含信息過少;每一幀時間也要盡量短,語音信號需要足夠平穩(wěn),能夠通過短時傅里葉分析進行特征提取,過長則會使信號不夠平穩(wěn)。分幀時使用如下改進技術(shù)可以有效提高識別準確率:相鄰的兩幀有所重疊減少分割誤差,將與臨近幀之間的差分作為額外特征,將多個語音幀堆疊起來。通過分幀處理,連續(xù)的語音被分為離散的小段,但還缺乏數(shù)學(xué)上的描述能力,因此需要對波形作特征提取。常見的方法是根據(jù)人耳的生理特征,把每一幀波形變換成一個多維向量。因此,這些向量包含了這些語音的內(nèi)容信息。該過程被稱為聲學(xué)特征提取,常見的聲學(xué)特征有MFCC、CPE、LPC等。

      MFCC是目前最常用、最基本的聲學(xué)特征,提取MFCC特征可以分為如下四個步驟:首先對每一幀進行傅里葉變換,取得每一幀的頻譜。再把頻譜與圖1中每個三角形相乘并積分,求出頻譜在每一個三角形下的能量,這樣處理可以減少數(shù)據(jù)量,并模仿人耳在低頻處分辨率高的特性。然后取上一步得到結(jié)果的對數(shù),這可以放大低能量處的能量差異。最后對得到的對數(shù)進行離散余弦變換,并保留前12~20個點進一步壓縮數(shù)據(jù)。通過特征提取,聲音序列就被轉(zhuǎn)換為有特征向量組成的矩陣。

      2.3 聲學(xué)模型

      聲學(xué)模型是語音識別中最重要的組成部分之一,其用于語音到音節(jié)概率的計算。目前主流的方法多數(shù)采用隱馬爾科夫模型,隱馬爾可夫模型的概念是一個離散時域有限狀態(tài)自動機。

      隱馬爾可夫模型HMM如圖2所示,是指這一馬爾可夫模型的內(nèi)部狀態(tài)x1,x2,x3外界不可見,外界只能看到各個時刻的輸出值y1,y2,y3。對語音識別系統(tǒng),輸出值通常就是從各個幀計算而得的聲學(xué)特征,輸入是由特征提取模塊提取的特征。用HMM刻畫語音信號需作出兩個假設(shè),一是內(nèi)部狀態(tài)的轉(zhuǎn)移只與上一狀態(tài)有關(guān),另一是輸出值Y只與當(dāng)前狀態(tài)X(或當(dāng)前的狀態(tài)轉(zhuǎn)移)有關(guān),這兩個假設(shè)大大降低了模型的復(fù)雜度。HMM的打分、解碼和訓(xùn)練相應(yīng)的算法是前向算法、維特比算法和前向后向算法。

      早期的聲學(xué)模型使用矢量量化(Vector Quantification)的方法,使其性能受到VQ算法的極大影響。對于連續(xù)取值的特征應(yīng)當(dāng)采用連續(xù)的概率分布如高斯混合模型或混合拉普拉斯模型等。為了解決模型參數(shù)過多的問題,可以使用某些聚類方法來減小模型中的參數(shù)數(shù)量,提高模型的可訓(xùn)練性。聚類可以在模型層次,狀態(tài)層次乃至混合高斯模型中每個混合的層次進行。

      2.4 語言模型

      語言模型音節(jié)到字概率的計算。 語言模型主要分為規(guī)則模型和統(tǒng)計模型兩種。相比于統(tǒng)計模型,規(guī)則模型魯棒性較差,對非本質(zhì)錯誤過于嚴苛,泛化能力較差,研究強度更大。因此主流語音識別技術(shù)多采用統(tǒng)計模型。統(tǒng)計模型采用概率統(tǒng)計的方法來揭示語言單位內(nèi)在的統(tǒng)計規(guī)律,其中N-Gram簡單有效,被廣泛使用。

      N-Gram基于如下假設(shè):第N個詞的出現(xiàn)只與前面N-1個詞相關(guān),而與其它任何詞都不相關(guān),整句的概率即為各個詞出現(xiàn)概率的乘積。詞與詞之間的概率可以直接從語料中統(tǒng)計N個詞同時出現(xiàn)的次數(shù)得到??紤]計算量和效果之間的平衡,N取值一般較小,常用的是二元的Bi-Gram和三元的Tri-Gram。

      2.5 解碼器

      解碼器是語音識別系統(tǒng)的核心之一,其任務(wù)是對輸入信號,根據(jù)聲學(xué)、語言模型及詞典,尋找能夠以最大概率輸出該信號的詞串。在實踐中較多采用維特比算法[3]搜索根據(jù)聲學(xué)、語言模型得出的最優(yōu)詞串。

      基于動態(tài)規(guī)劃的維特比算法在每個時間點上的各個狀態(tài),計算解碼狀態(tài)序列對觀察序列的后驗概率,保留概率最大的路徑,并在每個節(jié)點記錄下相應(yīng)的狀態(tài)信息以便最后反向獲取詞解碼序列。維特比算法在不喪失最優(yōu)解的條件下,同時解決了連續(xù)語音識別中HMM模型狀態(tài)序列與聲學(xué)觀察序列的非線性時間對準、詞邊界檢測和詞的識別,從而使這一算法成為語音識別搜索的基本策略。

      維特比(Viterbi)算法的時齊特性使得同一時刻的各條路徑對應(yīng)于同樣的觀察序列,因而具有可比性,Beam搜索在每一時刻只保留概率最大的前若干條路徑,大幅度的剪枝提高了搜索的效率。Viterbi-Beam算法是當(dāng)前語音識別搜索中最有效的算法。

      3 語音識別技術(shù)的發(fā)展

      近幾年來,特別是2009年以來,借助機器學(xué)習(xí)領(lǐng)域深度學(xué)習(xí)研究的發(fā)展,以及大數(shù)據(jù)語料的積累,語音識別技術(shù)得到突飛猛進的發(fā)展。

      在模型方面,傳統(tǒng)語音識別模型逐步被神經(jīng)網(wǎng)絡(luò)替代,使用神經(jīng)網(wǎng)絡(luò)可以更好地提取特征,擬合曲線。使用人工神經(jīng)網(wǎng)絡(luò)來提高語音識別性能的概念最早在80年代就提出了,但當(dāng)時高斯混合模型在大詞匯語音識別上表現(xiàn)得更好,因此人工神經(jīng)網(wǎng)絡(luò)并沒有進行商業(yè)應(yīng)用。隨著相關(guān)技術(shù)的進一步發(fā)展,微軟研究院利用深度神經(jīng)網(wǎng)絡(luò)建立了數(shù)千個音素的模型,比傳統(tǒng)方法減少了16%的相對誤差。其在建立起有超過660萬神經(jīng)聯(lián)系的網(wǎng)絡(luò)后,將總的語音識別錯誤率降低了30%,實現(xiàn)了語音識別巨大的突破[4]。

      同時目前多數(shù)主流語言識別解碼器采用了基于有限狀態(tài)機的解碼網(wǎng)絡(luò),該網(wǎng)絡(luò)將語音模型、詞典、聲學(xué)共享音字集統(tǒng)一為大的解碼網(wǎng)絡(luò),大幅度提高了解碼速度。

      在數(shù)據(jù)量上,由于移動互聯(lián)網(wǎng)的急速發(fā)展,從多個渠道獲取的海量語言原料為聲學(xué)模型和語言模型的訓(xùn)練提供了豐富的資源,不斷提升語音識別的準確率。

      4 結(jié)語

      語音是人們工作生活中最自然的交流媒介,所以語音識別技術(shù)在人機交互中成為非常重要的方式,語音識別技術(shù)具有非常廣泛的應(yīng)用領(lǐng)域和非常廣闊的市場前景。而隨著深度神經(jīng)網(wǎng)絡(luò)發(fā)展,硬件計算能力的提高,以及海量數(shù)據(jù)積累,語音識別系統(tǒng)的準確率和實用性將得到持續(xù)提高。

      參考文獻:

      [1]維基百科編者.語音識別[G/OL].維基百科,2016(20160829)[2016-08-29].

      [2]維基百科編者.語音活性檢測[G/OL].維基百科,2016(20160629)[2016-06-29].

      [3]維基百科編者.維特比算法[G/OL].維基百科,2016(20160920)[2016-09-20].

      [4] Dahl G E, Yu D, Deng L, et al. Context-dependent pre-trained deep neural networks for large-vocabulary speech recognition[J]. IEEE Transactions on Audio, Speech, and Language Processing, 2012, 20(1):30-42.

      [5]王炳錫,屈丹,彭煊.實用語音識別基礎(chǔ)[M].北京:國防工業(yè)出版社,2005.

      [6]詹新明,黃南山,楊燦.語音識別技術(shù)研究進展[J].現(xiàn)代計算機:下半月版,2008(9):43-45.

      猜你喜歡
      語音識別人工智能
      我校新增“人工智能”本科專業(yè)
      人工智能與就業(yè)
      通話中的語音識別技術(shù)
      基于LD3320的非特定人識別聲控?zé)粝到y(tǒng)設(shè)計
      长沙县| 抚州市| 东乡族自治县| 海阳市| 呼伦贝尔市| 中宁县| 汉川市| 泽普县| 高尔夫| 施秉县| 金山区| 南宫市| 灵石县| 南澳县| 靖西县| 新竹县| 平阴县| 汉阴县| 西城区| 开平市| 庆云县| 阜宁县| 新龙县| 兴山县| 五大连池市| 南华县| 青河县| 象山县| 英德市| 福安市| 巴塘县| 乌兰浩特市| 广州市| 河东区| 云南省| 迁西县| 县级市| 邓州市| 焦作市| 开阳县| 邢台市|