• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      基于RBM的語音特征提取方法研究

      2020-05-25 02:30趙從健雷菊陽李明明
      軟件導刊 2020年2期
      關鍵詞:語音識別特征提取

      趙從健 雷菊陽 李明明

      摘 要:針對傳統(tǒng)語音識別在多目標情況下識別率較低的問題,從特征參數(shù)提取角度,提出一種基于受限玻爾茨曼機(RBM)的特征提取方法。依據(jù)不同個體語音信號之間的特征差異提取特征參數(shù),通過梯度上升算法調(diào)整網(wǎng)絡參數(shù)以擬合給定訓練樣本,通過對比散度算法降低采樣達標所需狀態(tài)轉移次數(shù)以提高算法效率,再利用重構誤差曲線評價受限玻爾茨曼機對訓練樣本的似然度。實驗表明,當隱含層節(jié)點個數(shù)為30時,參數(shù)提取的重構誤差低于20%。此時使用改進的BP網(wǎng)絡訓練,與傳統(tǒng)算法相比,綜合識別率提高到86.9%,對提升多目標語音識別率具有重要意義。

      關鍵詞:語音識別;受限玻爾茨曼機;特征提取;梯度上升;對比散度

      DOI:10. 11907/rjdk. 191462 開放科學(資源服務)標識碼(OSID):

      中圖分類號:TP301文獻標識碼:A 文章編號:1672-7800(2020)002-0114-04

      英標:Research on Speech Feature Extraction Method Based on Restricted Boltzmann Machine

      英作:ZHAO Cong-jian,LEI Ju-yang,LI Ming-ming

      英單:(College of Mechanical and Automotive Engineering,Shanghai University of Engineering Science,Shanghai 201620,China)

      Abstract: In order to solve the problem that the rate of traditional speech recognition was low in the case of multiple targets, from the point view of feature parameter extraction, a feature extraction method based on restricted Boltzmann machine was proposed. It extracted the characteristic parameters mainly based on the characteristic differences between different individual speech signals, adjusted the parameters of the network by the gradient rise algorithm to fit the given training sample, reduced the number of state transitions required for sampling to reach the standard by the contrast divergence algorithm to improve the efficiency of the algorithm, used the reconstruction error curve to evaluate the likelihood of the restricted Boltzmann machine to the training samples. Experiments showed that when the number of hidden layer nodes is 30, the reconstruction error is less than 20%. Compared with traditional algorithm, the comprehensive recognition rate obtained form the improved BP network training was raised to 86.9%, which was of great significance for improving the speech recognition rate of multiple targets.

      Key Words: speech recognition; restricted Boltzmann machine; feature extraction; gradient rising; contrast divergence

      0 引言

      隨著大數(shù)據(jù)、人工智能、物聯(lián)網(wǎng)等領域的快速發(fā)展,個人信息安全問題隨之而來,個人身份認證成為熱門研究領域。和傳統(tǒng)的身份識別方法相比,聲紋識別擁有不易丟失、遺忘和被盜的特性[1-2]。目前,聲紋識別技術已經(jīng)應用于國家安全、金融認證、個性化語音交互等眾多領域,隨著技術的商業(yè)化運用,解決標準和技術等方面的問題迫在眉睫[3]。

      語音特征參數(shù)的選取直接影響識別效果,當前最常用的特征參數(shù)提取方法是梅爾倒譜系數(shù)(MFCC)和線性預測倒譜系數(shù)(LPCC)[4-5]。為解決復雜環(huán)境下的識別差異問題,研究者從提高特征魯棒性[6-9]、加入語音情感識別[10-11]等方面作了嘗試和改進,但依然未達到商業(yè)應用的程度。

      近年來,隨著深度置信網(wǎng)絡(DBN)的發(fā)展,人們開始重視深度學習在語音識別領域的應用[12-13],國內(nèi)外對受限玻爾茲曼機(RBM)作了大量研究[14-17]。文獻[18]結合高斯受限玻爾茨曼機和概率線性判別分析(PLDA),解決了說話人因子和通道因子難以分解的問題;文獻[19]將總體差異模型(TVM)中的差異矢量替換為受限玻爾茨曼機,結合i-vector模型構建可視層和隱含層服從高斯分布的超向量提取器。

      上述提取方法關注的是個體語音信號的共性,忽略了不同個體語音信號的差異性。鑒于RBM具有很強的自適應性和無監(jiān)督學習能力[20-21],可以學習和發(fā)現(xiàn)多識別目標之間的個體差異分布,本文提出一種基于RBM的語音特征提取方法。該方法通過梯度上升算法擬合訓練樣本、對比散度算法提高效率,一方面提高了特征參數(shù)的魯棒性,另一方面也可有效利用標簽缺失的數(shù)據(jù),在保持識別精度的基礎上加快網(wǎng)絡訓練效率。

      1 模型簡介

      利用受限波爾茨曼機提取語音信號的特征參數(shù),重構誤差評價受限玻爾茨曼機對訓練樣本的似然度。根據(jù)所提取的特征參數(shù)構建語音識別神經(jīng)網(wǎng)絡,訓練集調(diào)整網(wǎng)絡參數(shù),識別多目標語音信號集。

      1.1 受限玻爾茨曼機

      受限玻爾茨曼機是深度概率模型中常用的一種研究方法,其本質(zhì)上是一種基于能量模型的二分無向圖模型,如圖1所示。

      該模型主要由n個隱藏節(jié)點組成的隱藏層(Hidden Layer,簡記為h)和m個可視節(jié)點的可視層(Visible Layer,簡記為v)組成。不同層的節(jié)點互相關聯(lián),但沒有方向,同層的節(jié)點之間互相獨立??梢晫右话惚硎緮?shù)據(jù)的一個特征或類型,隱藏層的表征含義不明確,但隱含了可視層和輸入變量之間的關系,因此也稱為特征提取層。

      RBM是基于能量的模型,其聯(lián)合概率密度函數(shù)為:

      其中,v表示可視層的狀態(tài)向量,h表示隱藏層的狀態(tài)向量,b表示可視層的偏置向量,c表示隱藏層的偏置向量,W表示可視層和隱藏層之間的權值矩陣。

      1.2 語音識別

      語音識別屬于模式識別的一種,主要提取語音信號里的重要特征信息,并與語音庫里的樣本信號模型庫進行對比分析,從而判斷說話人的身份。

      圖2為語音識別系統(tǒng)流程。語音信號預處理有以下幾種方法:預加重、分幀、加窗、端點檢測等。經(jīng)過預處理的語音信號再提取特征用于后期訓練和識別。

      不同個體語音信號的特征向量包含不同的特征參數(shù),不同特征參數(shù)的選擇直接影響模型的識別率。選擇合適的、可以表征說話人身份的特征參數(shù),可以降低與語音識別無關的輸入(通常是噪音)影響,減少后續(xù)識別、匹配和判決階段的數(shù)據(jù)計算量,最終提高語音識別準確率。

      2 模型建立與實現(xiàn)

      在預處理好語音數(shù)據(jù)前提下, RBM網(wǎng)絡的訓練目標就是通過調(diào)整參數(shù)值去擬合該樣本數(shù)據(jù),使得調(diào)整后的RBM模型反映的概率分布與樣本數(shù)據(jù)盡可能一致。

      假定訓練數(shù)據(jù)集:S={s1,s2,s3,…,sns};

      其中ns表示訓練的樣本數(shù),每個樣本包括多維數(shù)據(jù)(記為j維數(shù)據(jù)),可表示為:si={x1i,x2i,x3i,…,xji},i=1,2,…,ns;

      上述的訓練數(shù)據(jù)是獨立分布的, RBM的目標就是最大化其似然函數(shù)。為計算方便,對函數(shù)兩邊取對數(shù)后得:

      2.1 梯度上升算法

      利用梯度上升方法,通過迭代逼近最大值,迭代公式為:

      其中,η>0為學習率,θ指各參數(shù)變量。

      對于梯度?lnLS/?θ的計算,實際上是lnLS對各個參數(shù)的偏導數(shù)計算。

      由式(4)可得多訓練樣本如下:

      利用梯度上升算法計算和化簡后,對于多個訓練樣本(即S={s1,s2,s3,…,sns})情形有如下公式:

      其中,ζ表示特定的單個訓練樣本,P(h|ζ)表示可見單元為特定訓練樣本y時對應的隱藏層概率分布。

      2.2 對比散度算法

      上述計算復雜度較高,為O(2nv+nh),與可視層和隱藏層神經(jīng)元個數(shù)呈正相關。

      對于大數(shù)據(jù)集來說,難以保證采樣后小樣本可以保留原數(shù)據(jù)的目標分布。每次進行MCMC采樣時,為了使原目標分布以精確狀態(tài)轉移到小樣本數(shù)據(jù)中,需要大量采集樣本,加大了RBM的訓練復雜度。

      采用k步對比散度算法,步驟為:①對?si∈S(i=1,2,…,ns),取初始值s(0)=s,然后進行k次Gibbs采樣。依次循環(huán)執(zhí)行步驟②、步驟③、步驟④k次;②第t次循環(huán),利用P(h|s(t-1))采樣h(t-1);③第t次循環(huán),利用P(s|h(t-1))采樣s(t);④每次采樣得到的值實際上是一次梯度上升迭代過程中偏導數(shù)的近似值,簡記為Δwi,j、Δaj、Δbi。利用式(4)、式(7)、式(8)、式(9),結合采樣得到的數(shù)據(jù)分別更新參數(shù)Δwi,j、Δaj、Δbi。

      其中,3個參數(shù)更新公式為:

      2.3 初始參數(shù)值選取

      為保證RBM訓練的高效與準確,要有嚴格的參數(shù)選取要求。

      (1)樣本預處理。將原樣本分割成多個小樣本數(shù)據(jù),每個樣本所含數(shù)據(jù)集數(shù)目大致相等,且互相沒有交集。這樣做可以利用并行處理數(shù)據(jù)的一些方法(如GPU),提高算法的運行處理效率。

      (2)確定學習率η。神經(jīng)網(wǎng)絡訓練過程中需要適當增大學習率,加快算法的收斂速度,但靜態(tài)設置過大的學習率會使結果變得不穩(wěn)定?,F(xiàn)引入學習率動量項ρ,利用類似式(5)的參數(shù)更新式:

      動態(tài)學習率更新方式和訓練中的特征參數(shù)保持一致,可以降低代碼復雜度,也可避免算法過早陷入局部最優(yōu)。

      (3)初始化參數(shù)矩陣W、a、b。權值矩陣W的參數(shù)來自正態(tài)分布N(0,0.01)的隨機數(shù),隱藏層偏置矩陣b初始化為零,而可見層偏執(zhí)矩陣a采用如下公式計算:

      其中,Pi表示訓練集的第i個特征處于激活狀態(tài)的樣本占所有樣本的比例。

      2.4 特征參數(shù)提取

      結合上述對比散度和梯度上升算法,可保證RBM訓練的正常進行,詳細步驟如下:

      (1)RBM網(wǎng)絡的初始化。①指定訓練樣本S;②確定訓練網(wǎng)絡的周期J,學習率η,對比散度的采樣參數(shù)k;③選取可見和隱藏層對應單元數(shù)目nv和nh;④初始化偏置向量a、b和權值矩陣W。

      (2)RBM網(wǎng)絡訓練。①重復學習訓練J次;②利用CD-K,生成Δwi,j、Δaj、Δbi;③利用式(10)、式(11)、式(12)更新特征參數(shù)表。

      3 實驗結果

      3.1 實驗設計

      利用倒譜系數(shù)法所提取4個不同類型的語音特征信號,分析采用RBM提取特征參數(shù)后對語音識別模型性能的影響,如圖3所示。從2 000組24維的數(shù)據(jù)集中隨機選擇1 500組作為訓練數(shù)據(jù),其余500組作為檢測數(shù)據(jù)驗證模型的識別率。

      為驗證多目標情況下各算法性能,分別利用PCA、MFCC、RBM特征提取后的參數(shù),利用同樣的語音識別方法(這里采用改進后的BP神經(jīng)網(wǎng)絡)對最終結果進行對比并分析。

      3.2 實驗分析

      重構誤差曲線反映了RBM對訓練樣本的似然度,分別在網(wǎng)絡隱藏層節(jié)點數(shù)nh=10、20、30、40、50時繪制訓練集的重構誤差曲線如圖4所示。

      由圖4可以看出,適當增加節(jié)點數(shù)可以降低重構誤差。當隱藏層節(jié)點數(shù)設置為30時效果較好,此時再增加隱藏層節(jié)點數(shù)反而會增大重構誤差。

      RBM預訓練完成后,利用共軛梯度算法對網(wǎng)絡調(diào)優(yōu)訓練,對比調(diào)優(yōu)后重構信號與原信號,訓練集的重構誤差變化如圖5所示。

      由圖5可知,重構誤差隨著迭代次數(shù)增加而減少,200次迭代后重構誤差變化不大。

      利用RBM提取特征參數(shù)后,采用改進型BP神經(jīng)網(wǎng)絡搭建語音識別網(wǎng)絡,對隨機待測語音信號進行識別,記錄300次訓練結果數(shù)據(jù)如表1所示。

      由表1可知,類別2和4,用3種方法識別率差異不大,但RBM結果更穩(wěn)定。類別1和3,RBM的識別準確率高且更為穩(wěn)定。選取其中的前8次訓練結果繪制成圖6。

      由圖6可以看出,對于單個類型的語音信號,采用RBM方法的準確率更高也更穩(wěn)定。

      作為測試集的500組數(shù)據(jù)屬于未知的隨機數(shù)據(jù),4類信號的數(shù)量占比不一致。多目標語音識別對于整體識別率有很高要求,記錄測試集在3種方法下的總識別率如表2所示。

      從表2可以看出,對于多目標語音識別,RBM依然有著良好表現(xiàn),結果優(yōu)于其它兩種方法。

      4 結語

      相較于傳統(tǒng)的語音特征提取算法,RBM擁有很強的數(shù)據(jù)特征適應性,可以準確表征出不同數(shù)據(jù)的本征特征,這在多目標數(shù)據(jù)訓練中的優(yōu)勢尤其明顯,具體表現(xiàn)為算法更穩(wěn)定及多目標的綜合誤差更低。此外,RBM的訓練采用無監(jiān)督學習,可使用大量存在缺失標簽的數(shù)據(jù),增強了算法對數(shù)據(jù)類型的適應性。

      本文也存在一些不足之處:由于語音信號的種類和數(shù)量有限,需要收集和處理現(xiàn)實環(huán)境下的語音信號,并將其數(shù)據(jù)化標簽化。在今后的研究中,還要考慮噪聲、方言、不同語義等環(huán)境因素,因此還需進一步改進特征提取方法。

      參考文獻:

      [1] 鄭方,李藍天, 張慧, 等. 聲紋識別技術及其應用現(xiàn)狀[J]. 信息安全研究,2016,2(1): 44-57.

      [2] 裴鑫. 聲紋識別系統(tǒng)關鍵技術研究[D]. 哈爾濱: 哈爾濱理工大學,2014.

      [3] 鄭方,程星亮. 聲紋識別:走出實驗室,邁向產(chǎn)業(yè)化[J]. 中國信息安全,2019(2): 86-89.

      [4] HU Z,ZENG Y,ZONG Y, et al. Improvement of MFCC parameters extraction in speaker recognition[J]. Computer Engineering & Applications, 2014, 50(7): 217-220.

      [5] BARUA P, AHMAD K, KHAN A, et al. Neural network based recognition of speech using MFCC features[C]. 2014 International Conference on Informatics, Electronics & Vision (ICIEV). IEEE, 2014.

      [6] 黃羿博, 張秋余, 袁占亭,等. 融合MFCC和LPCC的語音感知哈希算法[J]. 華中科技大學學報:自然科學版,2015, 43(2): 124-128.

      [7] 徐照松, 元建. 基于BP神經(jīng)網(wǎng)絡的語音情感識別研究[J]. 軟件導刊, 2014, 13(4): 11-13.

      [8] 高家寶. 支持向量機在語音識別中的應用[J]. 軟件導刊, 2015, 14(1): 39-40.

      [9] 于嫻, 賀松, 彭亞雄,等. 基于GMM模型的聲紋識別模式匹配研究[J]. 通信技術, 2015, 48(1): 97-101.

      [10] MILTON A, ROY S, SELVI S. SVM scheme for speech emotion recognition using MFCC feature[J]. International Journal of Computer Applications, 2014, 69(9): 34-39.

      [11] 徐照松, 元建. 基于BP神經(jīng)網(wǎng)絡的語音情感識別研究[J]. 軟件導刊, 2014, 13(4): 11-13.

      [12] 侯一民, 周慧瓊, 王政一. 深度學習在語音識別中的研究進展綜述[J]. 計算機應用研究, 2017, 34(8): 2241-2246.

      [13] 李曉坤, 鄭永亮, 袁娘, 等. 基于深度學習的聲紋識別方法研究[J]. 黑龍江大學工程學報, 2018, 9(1):64-70.

      [14] 張春霞,姬楠楠,王冠偉. 受限波爾茲曼機[J]. 工程數(shù)學學報, 2015(2): 159-173.

      [15] TRAN T,PHUNG D,VENKATESH S. Mixed-variate restricted boltzmann machines[J]. Computer Science,2014, 5(6): 213-229.

      [16] BERGLUND M,RAIKO T,CHO K. Measuring the usefulness of hidden units in Boltzmann machines with mutual information[M]. Berlin: Springer,2013.

      [17] MA X,WANG X. Average contrastive divergence for training restricted boltzmann machines[J]. Entropy, 2016,18(2):35-39.

      [18] TAFYLAKIS T, KENNY P, SENOUSSAOUI M, et al. PLDA using gaussian restricted boltzmann machines with application to speaker verification[C]. Proceedings of the 13th Annual Conference of the International Speech Communication Association,2012.

      [19] 酆勇,熊慶宇,石為人,等. 一種基于受限玻爾茲曼機的說話人特征提取算法[J]. 儀器儀表學報, 2016, 37(2): 256-262.

      [20] 楊杰,孫亞東,張良俊,等. 基于弱監(jiān)督學習的去噪受限玻爾茲曼機特征提取算法[J]. 電子學報, 2014, 42(12): 2365-2370.

      [21] 張立民,劉凱. 基于深度玻爾茲曼機的文本特征提取研究[J]. 微電子學與計算機, 2015, 32(2): 142-147.

      (責任編輯:杜能鋼)

      猜你喜歡
      語音識別特征提取
      基于Gazebo仿真環(huán)境的ORB特征提取與比對的研究
      基于Daubechies(dbN)的飛行器音頻特征提取
      一種基于LBP 特征提取和稀疏表示的肝病識別算法
      通話中的語音識別技術
      基于DSP的直線特征提取算法
      基于LD3320的非特定人識別聲控燈系統(tǒng)設計
      基于MED和循環(huán)域解調(diào)的多故障特征提取
      Walsh變換在滾動軸承早期故障特征提取中的應用
      乡宁县| 延安市| 景宁| 元江| 鸡泽县| 衢州市| 上思县| 甘洛县| 团风县| 沐川县| 双辽市| 磴口县| 沙湾县| 松桃| 自治县| 南通市| 新巴尔虎左旗| 双辽市| 兰考县| 海兴县| 通山县| 西乡县| 屏南县| 察隅县| 镇沅| 宝坻区| 贡山| 凤翔县| 吉隆县| 余庆县| 慈利县| 普陀区| 沧州市| 福贡县| 民权县| 香港| 饶河县| 清涧县| 报价| 屏山县| 铜山县|