• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      淺談廣播電視新章節(jié)
      ——語音識(shí)別技術(shù)

      2018-07-02 09:44:34
      新聞研究導(dǎo)刊 2018年4期
      關(guān)鍵詞:馬爾科夫人工神經(jīng)網(wǎng)絡(luò)高斯

      王 雯

      (國(guó)家新聞出版廣電總局 成都監(jiān)測(cè)臺(tái),四川 成都 611130)

      對(duì)音頻信號(hào)的自動(dòng)分析和處理能夠?yàn)樾侣劰ぷ髡咛峁┰S多有用信息。例如,在新聞廣播中,音頻自動(dòng)分析與處理任務(wù)包括聲音識(shí)別、說話者分辨、錨點(diǎn)檢測(cè)、角色檢測(cè)、故事場(chǎng)景邊界檢測(cè)、頻道質(zhì)量評(píng)估、與聲音相關(guān)的事件檢測(cè)、非語言類聲音檢測(cè)與分類、音頻特征分類、靜音檢測(cè)、廣告檢測(cè)、語種識(shí)別、語音情感識(shí)別等。而語音識(shí)別技術(shù)是所有上述任務(wù)的工作基礎(chǔ),通常作為上述任務(wù)的前端技術(shù)被采用。

      要分析音頻信號(hào),首先需要對(duì)信號(hào)進(jìn)行預(yù)處理并提取音頻特征。最后,所提取的音頻特征經(jīng)由模式識(shí)別算法處理而得到分析或識(shí)別的結(jié)果。

      常用的音頻信號(hào)特征包括時(shí)域特征與頻域特征。零交叉率與梅爾頻率倒譜系數(shù)(Mel Frequency Cepstrum Coefficient,簡(jiǎn)稱“MFCC”)為最常用的時(shí)域與頻域特征。其他常用特征還包括音高、感知線性預(yù)測(cè)系數(shù)、諧波噪聲比率、線性預(yù)測(cè)編碼系數(shù)、色度特征、自相關(guān)性等。

      在模型識(shí)別階段,各種概率性和判別性的機(jī)器學(xué)習(xí)算法相繼被提出。高斯混合模型(Gaussian Mixture Model,簡(jiǎn)稱“GMM”)與隱馬爾可夫模型(Hidden Markov Model,簡(jiǎn)稱“HMM”)為音頻模式識(shí)別中最常用的模式識(shí)別算法。其他被廣泛采用的機(jī)器學(xué)習(xí)算法還包括支持向量機(jī)、人工神經(jīng)網(wǎng)絡(luò)、最鄰近分類器、決策樹、遺傳算法、模糊邏輯算法等。

      圖1 語音識(shí)別系統(tǒng)總體架構(gòu)

      一、機(jī)器學(xué)習(xí)算法

      以下列舉機(jī)器學(xué)習(xí)在語音智能識(shí)別方面的一些應(yīng)用。語音識(shí)別系統(tǒng)的總體架構(gòu)大體如圖1所示。

      輸入的音頻信號(hào)首先通過前端處理單元,該單元對(duì)信號(hào)進(jìn)行預(yù)處理并提取類頻譜特征。此后,這些特征被輸入模式識(shí)別算法用于估算屬于不同音素的概率。得到的音素概率結(jié)果將結(jié)合隱馬爾科夫模型、語言模型、詞典等共同作用對(duì)音頻進(jìn)行解碼(如圖1所示),推導(dǎo)出該音頻對(duì)應(yīng)的文本內(nèi)容。值得一提的是,模式識(shí)別與隱馬爾科夫模型都屬于機(jī)器學(xué)習(xí)范疇。

      二、機(jī)器學(xué)習(xí)算法在語音識(shí)別中的應(yīng)用

      自動(dòng)語音識(shí)別系統(tǒng)已經(jīng)被應(yīng)用在許多商業(yè)工作中,但系統(tǒng)仍然存在很多問題亟待解決。多年來,各種機(jī)器學(xué)習(xí)相關(guān)技術(shù)被運(yùn)用在自動(dòng)語音識(shí)別系統(tǒng)的語音建模中。其中,用隱馬爾科夫模型來預(yù)測(cè)問題是被大部分人所熟知的?,F(xiàn)實(shí)中,采用機(jī)器學(xué)習(xí)算法得到的結(jié)果往往不能綁定馬爾科夫模型的某一特定狀態(tài),但是可以給出屬于不同狀態(tài)的概率程度,因而催生了隱馬爾科夫模型。20世紀(jì)70年代以來,在許多關(guān)于自動(dòng)語音識(shí)別系統(tǒng)的評(píng)估中,隱馬爾科夫模型被公認(rèn)為語音識(shí)別技術(shù)中變化最大的框架遷移,因此其被認(rèn)為是語音識(shí)別技術(shù)中重要的里程碑。談到隱馬爾科夫模型,不得不提到與之相關(guān)的三個(gè)典型問題,即評(píng)估(前向算法)、解碼(維特比算法)以及訓(xùn)練。給定模型和某一觀察序列(結(jié)果),確定該模型生成此序列的概率為評(píng)估過程,該算法也被稱為前向算法;確定出現(xiàn)某結(jié)果最可能的狀態(tài)序列被稱為解碼,通常采用的是維特比(Viterbi)算法。更新模型參數(shù)使得產(chǎn)生某結(jié)果的可能性最大化被稱為訓(xùn)練,一般采用Baum-Welch算法。

      然而,隱馬爾科夫模型也有自身的局限性,一是該模型需要通過大量訓(xùn)練數(shù)據(jù)來防止由于測(cè)試和訓(xùn)練條件間的不匹配所導(dǎo)致的模型性能下降。一般情況下,混合高斯模型可以估算出這些隱馬爾科夫模型的輸出概率密度。而采用混合高斯模型與隱馬爾科夫模型的系統(tǒng)是目前自動(dòng)語音識(shí)別系統(tǒng)中最杰出的生成式學(xué)習(xí)方法。盡管如此,人們一直在尋找能夠替代隱馬爾科夫模型的方法,因此在20世紀(jì)80年代末90年代初催生了各種基于人工神經(jīng)網(wǎng)絡(luò)(Artifical Neural Network,簡(jiǎn)稱“ANN”)的語音識(shí)別技術(shù),許多工作者提出使用ANN或者特殊的多層感知器來估算語音識(shí)別中的概率問題。此外,另一種可選的概率估計(jì)手段是支持向量機(jī)(Support Vector Machine,簡(jiǎn)稱“SVM”)算法。值得一提的是,前面提到的隱馬爾科夫模型是一種生成式模型,即最終決策由生成模型對(duì)當(dāng)前模式輸出的似然概率來確定。相比之下,支持向量機(jī)是區(qū)分式模型。區(qū)分式模型與生成式模型可相互補(bǔ)充,因此催生了一種混合支持向量機(jī)與隱馬爾科夫模型的系統(tǒng),該系統(tǒng)類似隱馬爾科夫模型與多層感知機(jī)的混合系統(tǒng)。由于支持向量機(jī)具有強(qiáng)大的泛化能力,有助于提高自動(dòng)語音識(shí)別的魯棒性,近期的趨勢(shì)之一是在噪聲魯棒的語音識(shí)別系統(tǒng)中采用結(jié)構(gòu)化的支持向量機(jī)算法。以下分析語音識(shí)別系統(tǒng)中常用的機(jī)器學(xué)習(xí)算法,包括人工神經(jīng)網(wǎng)絡(luò)、支持向量機(jī)、混合高斯模型以及近幾年興起的深度學(xué)習(xí)。

      (一)人工神經(jīng)網(wǎng)絡(luò)在自動(dòng)語音識(shí)別中的應(yīng)用

      在人工神經(jīng)網(wǎng)絡(luò)中,每個(gè)音素都與多層感知機(jī)輸出層中特定輸出單元對(duì)應(yīng)。兩種常用神經(jīng)網(wǎng)絡(luò)類型是時(shí)間延遲神經(jīng)網(wǎng)絡(luò)(time-delay neural networks,TDNNs)和遞歸神經(jīng)網(wǎng)絡(luò)(recurrent neural networks)。雖然人工神經(jīng)網(wǎng)絡(luò)能夠?yàn)樽詣?dòng)語音識(shí)別解決許多問題,但仍然存在以下幾點(diǎn)不足急需改進(jìn):第一,人工神經(jīng)網(wǎng)絡(luò)無法模擬語音信號(hào)的時(shí)變性。第二,在為混合模型設(shè)計(jì)最佳網(wǎng)絡(luò)結(jié)構(gòu)方面存在一定的困難。第三,目前缺乏聯(lián)合的訓(xùn)練方式來同時(shí)訓(xùn)練隱馬爾科夫模型和人工神經(jīng)網(wǎng)絡(luò)模型。第四,對(duì)大型多層感知機(jī)的訓(xùn)練較為困難。

      (二)支持向量機(jī)

      支持向量機(jī)(SVM)是一種二類非線性分類器,能夠預(yù)測(cè)輸入向量值屬于類一還是類二。雖然在處理分類問題上,SVM是目前最先進(jìn)的工具,其應(yīng)用在語音識(shí)別上也有著優(yōu)缺點(diǎn),進(jìn)而促使語音領(lǐng)域的研究者不斷對(duì)其進(jìn)行研究。SVM用于ASR具有以下優(yōu)點(diǎn):第一,支持向量機(jī)魯棒性較好,因此適合在嘈雜的環(huán)境中進(jìn)行語音識(shí)別。第二,因?yàn)椴捎昧撕嘶侄危╧ernel trick),只需考慮核矩陣(kernel matrix)參與優(yōu)化,因此SVM已能處理應(yīng)對(duì)“維度災(zāi)難”,處理上千維度的輸入特征。

      它的不足之處在于:第一,許多SVM算法的實(shí)現(xiàn)需要將所有輸入樣本(數(shù)量表示為n)之間的核矩陣進(jìn)行存儲(chǔ),復(fù)雜度為O(n2),這是SVM的主要缺點(diǎn)。第二,SVM的輸出取決于所用核函數(shù)類型,對(duì)于給定的任務(wù),無法明確哪種核函數(shù)是最優(yōu)的。第三,SVM的輸入向量需要具有固定的大小,然而在語音識(shí)別中,每個(gè)語音序列有著不同的持續(xù)長(zhǎng)度。

      (三)高斯模型

      混合高斯模型(GMM)用于對(duì)連續(xù)的分布函數(shù)進(jìn)行參數(shù)化概率建模(采用高斯或正態(tài)分布),整個(gè)數(shù)據(jù)的分布則可以使用這些分布函數(shù)或高斯模型的混合模型來逼近?;旌细咚鼓P驮谄交拼笠?guī)模樣本的分布方面非常有效?;贕MM的隱馬爾科夫模型或者是混合高斯/隱馬爾科夫模型是目前自動(dòng)語音識(shí)別中最常用的機(jī)器學(xué)習(xí)方法。

      采用高斯模型待解決的問題如下:第一,需要對(duì)模型的方差設(shè)置合適的下限,可改進(jìn)泛化性能并防止方差變得極小。第二,使用GMM增加了計(jì)算的復(fù)雜性,因?yàn)樾枰幌盗袑?duì)數(shù)加法來計(jì)算GMM的似然概率。解決方法之一是僅選取對(duì)總概率值有相當(dāng)貢獻(xiàn)的高斯成分而舍棄其他權(quán)值很小的高斯成分;另一種方法是僅取所有高斯成分中最大的概率值來近似總概率值。第三,確定系統(tǒng)中每個(gè)狀態(tài)對(duì)應(yīng)的高斯成分?jǐn)?shù)量是一個(gè)問題。第一種方法是假設(shè)對(duì)所有狀態(tài)使用相同的成分?jǐn)?shù)量,并在數(shù)據(jù)的幫助下確定該數(shù)量;第二種方法是使用常用的貝葉斯準(zhǔn)則;第三種方法是將高斯成分的數(shù)量設(shè)計(jì)為與該狀態(tài)中觀測(cè)值數(shù)量相關(guān)的函數(shù)。第四,GMM建立在條件獨(dú)立性假設(shè)之上。

      另外,HMM / GMM系統(tǒng)的成功和普及源于以下原因:第一,歸因于高效的Baum-Welch算法,受其啟發(fā)催生了期望最大化(Expectation Maximization,簡(jiǎn)稱“EM”)算法,用于學(xué)習(xí)GMM和HMM模型。第二,生成式GMM / HMM模型已經(jīng)被證實(shí)能夠在有噪聲的語音環(huán)境下成功地將噪聲與語音信息分離。值得一提的是,在識(shí)別嘈雜的語音時(shí),其表現(xiàn)甚至可能超越人類。

      (四)深度學(xué)習(xí)在語音智能識(shí)別方面的應(yīng)用

      2006年,Hinton等人提出了一種新穎的機(jī)器學(xué)習(xí)框架,即深度學(xué)習(xí)或?qū)哟位瘜W(xué)習(xí)。最近通過實(shí)驗(yàn)發(fā)現(xiàn),深度學(xué)習(xí)算法已在包括自動(dòng)語音識(shí)別在內(nèi)的許多應(yīng)用中得到了極大的性能提升。在深度學(xué)習(xí)中,研究者開發(fā)了包含多處理層的層次化結(jié)構(gòu),技術(shù)的關(guān)鍵為對(duì)這些層的無監(jiān)督預(yù)訓(xùn)練以及有監(jiān)督反向誤差回傳進(jìn)行模式學(xué)習(xí)與分類。

      深度學(xué)習(xí)的興起與流行有以下兩個(gè)重要原因:第一,計(jì)算硬件(如GPU等)成本的顯著下降。第二,計(jì)算硬件(如GPU)等芯片處理能力的極大提升。

      所謂深度神經(jīng)網(wǎng)絡(luò)(DNN),其實(shí)是具有許多隱藏層的傳統(tǒng)MLP?;谏疃壬窠?jīng)網(wǎng)絡(luò)的語音模型在大詞匯連續(xù)語音識(shí)別(LVCSR)上的首次應(yīng)用案例出現(xiàn)于2012年。該案例利用了微軟Bing語音搜索數(shù)據(jù)庫(kù),使用5個(gè)預(yù)訓(xùn)練的神經(jīng)元層(每層包含2048個(gè)神經(jīng)元)將具有11個(gè)音素的語音上下文窗口分為可能的761種上下文狀態(tài)。該系統(tǒng)在測(cè)試集上獲得了69.6%的準(zhǔn)確率,而作為比較基準(zhǔn)的GMM / HMM的準(zhǔn)確率為63.8%。此外,該案例的研究者還發(fā)現(xiàn)綁定三音素作為上下文狀態(tài)比僅使用單音素作為上下文狀態(tài)效果更好。

      三、結(jié)語

      語音識(shí)別技術(shù)和機(jī)器學(xué)習(xí)技術(shù)相輔相成,而自動(dòng)語音識(shí)別和深度學(xué)習(xí)間有著深厚的關(guān)聯(lián),在最近幾年里,彼此的研究成果呈現(xiàn)互補(bǔ)狀態(tài)。語音識(shí)別中的深度學(xué)習(xí)由基于人工神經(jīng)網(wǎng)絡(luò)的語音識(shí)別器開啟,隨后發(fā)展為隱馬爾科夫與人工神經(jīng)網(wǎng)絡(luò)的混合模型,然而研究勢(shì)頭后來由于所采用的學(xué)習(xí)方法中的難點(diǎn)而受阻。可喜的是,最近興起的深度學(xué)習(xí)克服了這些困難。因此,隱馬爾科夫與混合高斯模型的結(jié)合正在慢慢被深度神經(jīng)網(wǎng)絡(luò)與隱馬爾科夫的混合模型所替代。設(shè)計(jì)高效的深度學(xué)習(xí)網(wǎng)絡(luò)結(jié)構(gòu)與魯棒的可應(yīng)對(duì)大規(guī)模、不確定、不完整數(shù)據(jù)的學(xué)習(xí)算法極具挑戰(zhàn)性,是未來要深入研究的方向。

      猜你喜歡
      馬爾科夫人工神經(jīng)網(wǎng)絡(luò)高斯
      小高斯的大發(fā)現(xiàn)
      基于疊加馬爾科夫鏈的邊坡位移預(yù)測(cè)研究
      基于改進(jìn)的灰色-馬爾科夫模型在風(fēng)機(jī)沉降中的應(yīng)用
      利用人工神經(jīng)網(wǎng)絡(luò)快速計(jì)算木星系磁坐標(biāo)
      天才數(shù)學(xué)家——高斯
      人工神經(jīng)網(wǎng)絡(luò)實(shí)現(xiàn)簡(jiǎn)單字母的識(shí)別
      電子制作(2019年10期)2019-06-17 11:45:10
      馬爾科夫鏈在教學(xué)評(píng)價(jià)中的應(yīng)用
      有限域上高斯正規(guī)基的一個(gè)注記
      基于聲發(fā)射和人工神經(jīng)網(wǎng)絡(luò)的混凝土損傷程度識(shí)別
      基于馬爾科夫法的土地格局變化趨勢(shì)研究
      河南科技(2014年11期)2014-02-27 14:10:11
      江油市| 阿拉善盟| 凤台县| 长泰县| 洱源县| 宝坻区| 涟水县| 莆田市| 开封市| 百色市| 三明市| 论坛| 屯门区| 施秉县| 嵩明县| 永寿县| 白朗县| 申扎县| 雷波县| 自贡市| 青河县| 遵义市| 临桂县| 武隆县| 绥宁县| 渭源县| 秭归县| 仪陇县| 怀远县| 峨山| 普定县| 曲阜市| 星子县| 富锦市| 和林格尔县| 伊宁市| 平舆县| 南安市| 弥渡县| 陵川县| 广丰县|