• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      基于DNN與基音周期的說話人識別

      2020-02-07 13:33:50張學(xué)祥雷菊陽
      計算機與現(xiàn)代化 2020年1期
      關(guān)鍵詞:基音隱層語音

      張學(xué)祥,雷菊陽

      (上海工程技術(shù)大學(xué)機械與汽車工程學(xué)院,上海 201620)

      0 引 言

      物聯(lián)網(wǎng)時代,語音識別技術(shù)被視為實現(xiàn)下一代人機交互的關(guān)鍵技術(shù)。說話人識別技術(shù)作為語音識別技術(shù)中重要組成部分,被廣泛用于各種安全領(lǐng)域,在信息安全方面的作用顯得尤為重要[1]。說話人識別就是通過計算機訓(xùn)練提取說話人語音信號中的特征向量,自動地對說話人身份進(jìn)行判定的過程[2]。傳統(tǒng)說話人識別方法(GMM)屬于淺層不完全學(xué)習(xí)[3],通過提取語音的Mel頻率倒譜系數(shù)特征序列作為特征輸入,然后通過GMM參數(shù)來表征說話人身份[4-5]。然而對于處理說話人識別這種復(fù)雜非線性分類問題,采用傳統(tǒng)的線性系統(tǒng)理論顯然無法滿足分類的要求[6-7]。近年來,隨著GPU的開發(fā)以及數(shù)據(jù)集出現(xiàn),深度學(xué)習(xí)得到了空前的發(fā)展[8-9]。利用深層神經(jīng)網(wǎng)絡(luò)取代傳統(tǒng)的淺層模型,通過多層的非線性映射,可以對原始輸入特征提取更深層的特征表示,這在一定程度上模擬了人類語音信息的結(jié)構(gòu)化提取過程,從而找到了進(jìn)一步提高說話人識別準(zhǔn)確率的突破口。

      文獻(xiàn)[10]提出了基于深度神經(jīng)網(wǎng)絡(luò)的說話人識別方法,通過提取MFCC聲學(xué)特征作為模型訓(xùn)練的輸入,但是DNN是一種鑒別性模型,它對輸入特征沒有類似于淺層模型的特征相互獨立的要求,以MFCC特征作為DNN的輸入,反而會損失有用信息。本文提出采用梅爾對數(shù)濾波器組特征(Fbank)作為輸入,可以得到更好的識別效果。

      1 基于DNN-PP說話人模型

      基于DNN-PP說話人識別系統(tǒng)是一個雙重識別系統(tǒng),分為主線識別和輔線輔助確認(rèn)這2個部分。主線識別是將測試人語音特征參數(shù)與基于DNN訓(xùn)練的話者模型進(jìn)行模型匹配,通過閾值設(shè)定判決說話人身份。鑒于閾值設(shè)定的人為主觀性對識別效果的影響,采用基于基音周期的說話人匹配的輔助確認(rèn)模式,通過建立注冊人的基音庫,利用DTW算法對測試人的基音周期進(jìn)行個性匹配,輔助基于DNN說話人識別的主線識別。

      1.1 特征參數(shù)提取

      1.1.1 Fbank參數(shù)提取

      相比于MFCC特征,對數(shù)梅爾濾波器組特征更接近于原始特征信息,有利于DNN學(xué)習(xí)模型獲取更具代表性的信息。所以本文直接采用對數(shù)梅爾濾波器組特征(Fbank)作為DNN的輸入[11-12],圖1是Fbank參數(shù)提取原理框圖。

      圖1 Fbank參數(shù)提取過程

      1.1.2 基音周期提取

      基音周期描述了人在發(fā)濁音時聲帶振動的周期性,它包含了說話人語音信號的個性信息,因此基音周期的準(zhǔn)確提取對說話人識別的研究具有重要的意義。目前基音周期檢測技術(shù)有很多,主要有自相關(guān)法、倒譜法和小波變換。倒譜法對處理純凈的語音有比較準(zhǔn)確的效果,但是在加噪的語音中檢測效果并不理想[13];自相關(guān)法算法簡單,但是常會發(fā)生倍頻和半頻錯誤[14];而小波變換法具有較強的抗噪能力,但是在基音定位上存在困難[15]。本文采用小波變換和自相關(guān)法相結(jié)合的方法來對基音周期進(jìn)行檢測。

      針對語音信號的非平穩(wěn)性,本文選擇短時自相關(guān)函數(shù)對語音信號進(jìn)行處理[16]。短時自相關(guān)函數(shù)處理結(jié)果如下:

      (1)

      其中,ei(m)表示第m點加窗處理后第i幀信號;ei(m+τ)表示延遲τ點后的加窗信號。

      短時自相關(guān)函數(shù)法首先對原始信號進(jìn)行加窗處理,再將其與移位后的信號進(jìn)行相似度比較,當(dāng)相似度達(dá)到最大值時,則說明其移位距離等于基音周期。

      1.2 DNN特征層級學(xué)習(xí)及其網(wǎng)絡(luò)結(jié)構(gòu)設(shè)計

      深度神經(jīng)網(wǎng)絡(luò)是一個多隱層的多層感知器,由多個受限玻爾茲曼機(RBM)層組成,如圖2所示。每個RBM都可以用來學(xué)習(xí)不同的特征表示,越高層的特征表示越抽象,越具有不變性[17]。

      圖2 RBM結(jié)構(gòu)示意圖

      每個RBM都有一個可見層和一個隱藏層,單層節(jié)點之間互相獨立,層與層之間由權(quán)重連接,可見層單元和隱藏層單元滿足聯(lián)合概率分布:

      (2)

      其中,Z表示配分函數(shù),Z=∑v,hexp (-E(v,h));E(v,h)表示能量值。

      RBM作為一種能量模型,它可以無監(jiān)督學(xué)習(xí)輸入數(shù)據(jù)的概率分布,最大可能地擬合輸入數(shù)據(jù)。將多個RBM疊加可以得到深度置信網(wǎng)絡(luò)結(jié)構(gòu),如圖3所示。

      圖3 DNN特征學(xué)習(xí)過程

      DNN通過這種無監(jiān)督學(xué)習(xí)自下而上逐層訓(xùn)練提取深層特征;每次只訓(xùn)練一層,并將訓(xùn)練輸出特征序列作為下一層RBM的輸入;然后采用反向傳播算法自上而下對網(wǎng)絡(luò)參數(shù)進(jìn)行微調(diào)優(yōu)化[18]。

      在本文中,DNN網(wǎng)絡(luò)包含2個隱藏層,每一個隱藏層包含250個單元,激活函數(shù)采用sigmoid函數(shù),沖量值設(shè)定為0.9,初始學(xué)習(xí)率大小為0.8,迭代次數(shù)共計30次,迭代10輪以后,每5輪迭代對學(xué)習(xí)率進(jìn)行減半一次[19]。輸入采用對數(shù)梅爾濾波器組特征參數(shù),目標(biāo)向量的維度根據(jù)訓(xùn)練集說話人數(shù)確定為100。本文在輸出層采用softmax線性分類器對之前學(xué)習(xí)到的特征回歸分類,從而得到基于上一層特征的特征向量。

      1.3 DTW匹配基音周期

      動態(tài)時間規(guī)整DTW是一種模板匹配優(yōu)化方法,在基音周期匹配中,它用滿足一定條件的時間規(guī)整函數(shù)m=ω(n)將測試基音軌跡與說話人模型內(nèi)的基音軌跡規(guī)整到統(tǒng)一的空間尺度,通過匹配這2個基音周期序列的相似性,從而達(dá)到識別的效果。

      時間規(guī)整函數(shù)ω應(yīng)滿足:

      (3)

      其中,T(n)表示測試模板第n幀的特征參數(shù);R(ω(n))表示參考模板第m幀的特征參數(shù);d表示2個特征參數(shù)之間歐氏距離測度;D表示累積歐氏距離最小時的匹配路徑。

      但是如果直接根據(jù)傳統(tǒng)時間規(guī)整算法進(jìn)行基音匹配,計算復(fù)雜度過高,所以采用一種DTW的最優(yōu)匹配路徑改進(jìn)算法,改進(jìn)后的動態(tài)規(guī)整距離函數(shù)[20]為:

      (4)

      這是在原來最小累計距離函數(shù)的基礎(chǔ)上,采用逆向搜索的方法,尋找與當(dāng)前節(jié)點的(x,y)累計距離最小的前續(xù)節(jié)點作為路徑點,避免了傳統(tǒng)DTW算法逐點匹配帶來的計算量問題。

      利用DTW算法實現(xiàn)對說話人基音周期的個性匹配,輔助基于DNN話者模型的主線識別,可以有效地避免因閾值設(shè)定問題導(dǎo)致的系統(tǒng)識別率下降情況的發(fā)生。其主要過程為:當(dāng)基于DNN話者模型的主線識別過程中發(fā)生閾值溢出時,通過將待測說話人語音與系統(tǒng)注冊人基音庫中的基音周期進(jìn)行個性匹配,獲得對應(yīng)的說話人身份LabelA,將其與主線識別中最高相似程度的說話人身份LabelB進(jìn)行對比,如果2個模型識別說話人身份相同,則說明是DNN錯誤拒絕,即時糾正,否則,判定為陌生人語音輸入。

      2 系統(tǒng)識別測試過程

      給定一組注冊人S={S1,S2,…,Sn},對每個注冊人語音進(jìn)行基音提取,建立基音庫;假設(shè)注冊人S1對應(yīng)一個語料集X1={ο1,1,ο1,2,…,ο1,n},對每個語料集中的每一條語音ο1,i提取Fbank參數(shù),輸入到已訓(xùn)練好的DNN網(wǎng)絡(luò),提取DNN網(wǎng)絡(luò)的倒數(shù)第二層輸出向量作為相關(guān)因子p1,1,得到P1={p1,1,p1,2,p1,3,…,p1,n},最后對P1做平均值處理作為表征注冊人S1的相關(guān)因子P,如此就獲得基于DNN的話者模型。

      在測試階段,提取說話人語音信號Fbank參數(shù),然后通過已經(jīng)訓(xùn)練好的DNN獲得其相關(guān)因子Pi,最后計算測試語音的Pi和注冊語音的P之間的相似度。將這個值與事先給定的閾值比較并進(jìn)行判決,若滿足閾值條件,說明識別成功,若發(fā)生閾值溢出,應(yīng)轉(zhuǎn)入輔線輔助確認(rèn),當(dāng)由DTW匹配出基音周期得出的說話人身份LabelA與主線識別輸出的最大相似的說話人身份LabelB一致時,則認(rèn)為是主線識別的錯誤拒絕,應(yīng)及時糾正,否則判定為陌生人的語音輸入,具體流程如圖4所示。

      圖4 DNN-PP說話人識別過程

      3 實驗結(jié)果與分析

      3.1 實驗數(shù)據(jù)

      本文實驗樣本數(shù)據(jù)是利用軟件Cool Edit Pro 2.1在安靜的環(huán)境下對說話人語音進(jìn)行采集,采樣頻率為16000 Hz,保存為.wav格式文件。

      實驗中參與錄制人數(shù)共120人,60個男生和60個女生,錄制的內(nèi)容無文本要求,錄制時間為4 s,每個人錄制語音各50遍,其中100人語音集用于DNN訓(xùn)練,其余20人語音集用于注冊和驗證。實驗中一次注冊人數(shù)為2人,選擇注冊人每個人的語料集的前30遍語音用于注冊,后20遍語音用于確認(rèn)測試,其他未選中的人的錄音中每人隨機選中20遍語音作為本組測試的錯誤測試。

      3.2 評價指標(biāo)

      本文采用等錯誤率(EER)作為系統(tǒng)性能的評價指標(biāo),為使實驗結(jié)果更直觀,筆者將由實驗得到的錯誤接受率(FAR)和錯誤拒絕率(FRR)分別作為橫縱坐標(biāo)繪制二維曲線。找到FAR與FRR相等的點即為等錯誤率,等錯誤率越小,說明算法識別性能越優(yōu)越。在圖中直觀地顯示就是曲線離坐標(biāo)原點越近。

      3.3 實驗結(jié)果

      為了測試基于DNN-PP模型的說話人識別方法的優(yōu)越性,作為對比,在相同數(shù)據(jù)集的條件下,使用了另外2種說話人識別算法:使用K-mean算法獲得GMM初始化參數(shù),再利用EM算法建立GMM模型,基于GMM參數(shù)的說話人識別[21-22],用EM-GMM表示;直接利用語音的梅爾對數(shù)濾波器組特征作為輸入訓(xùn)練DNN模型[23-24](閾值設(shè)定統(tǒng)一),通過DNN模型參數(shù)表征說話人特有的個性信息,用DNN表示。

      圖5 基于相同數(shù)據(jù)集下3種算法的DET曲線

      圖5是基于相同數(shù)據(jù)集下3種算法的DET曲線,可以看出DNN-PP系統(tǒng)EER最低為1.6%,較DNN系統(tǒng)的EER降低了1.2%,而EM-GMM系統(tǒng)的EER明顯最高為4%,這說明基于DNN-PP模型的說話人識別系統(tǒng)性能要優(yōu)于GMM系統(tǒng)。

      表1 相同數(shù)據(jù)集上不同隱層數(shù)的DNN-PP系統(tǒng)等錯誤率

      L×N1×1502×1503×1504×1505×150DNN-PP3.9%3%2.3%2%1.9%2×N2×2002×2502×3002×350DNN-PP2.2%1.6%1.3%1.2%

      表1是基于相同數(shù)據(jù)集上,測試不同隱層數(shù)量對DNN-PP系統(tǒng)性能的影響。當(dāng)使用1層隱層時,EER為3.9%,基本與EM-GMM系統(tǒng)識別性能相當(dāng);當(dāng)使用2層隱層時,EER為3%,相比一個隱層的識別效果有了明顯的提高;當(dāng)層數(shù)為5層時,EER降低到1.9%,但是當(dāng)層數(shù)大于3時,隱層數(shù)量的增加對識別性能的提升幫助并不是很大。為了證實隱層單元數(shù)關(guān)鍵性作用,在2層隱層的基礎(chǔ)上增加每個隱層的單元數(shù),結(jié)果也顯示在表1中。當(dāng)各隱層包含350個單元時EER可以降低到1.2%。權(quán)衡系統(tǒng)識別性能與訓(xùn)練時間成本,采用2個隱層,每層250個單元可以滿足實際應(yīng)用。

      圖6是基于相同數(shù)據(jù)集上,不同信噪比下3種說話人識別方法的性能。對于DNN-PP系統(tǒng),信噪比每下降1 dB會有絕對0.35%的EER的增長;DNN系統(tǒng)信噪比每下降1dB會有絕對0.57%的EER的增長;而EM-GMM系統(tǒng)對噪聲影響的表現(xiàn)最差,信噪比每下降1 dB會有絕對0.92%的EER的增長。DNN-PP系統(tǒng)和DNN系統(tǒng)曲線變化較GMM系統(tǒng)更為平緩,因此可以說明DNN-PP系統(tǒng)比GMM系統(tǒng)更具有魯棒性。與DNN系統(tǒng)相比,DNN-PP系統(tǒng)在噪聲環(huán)境中的識別效果有了一定程度的改善。

      圖6 相同數(shù)據(jù)集上,在不同信噪比下3種算法性能對比

      4 結(jié)束語

      本文提出了一種相對于GMM說話人識別系統(tǒng)更好的DNN-PP系統(tǒng),通過實驗數(shù)據(jù)對比,基于本文DNN-PP模型的說話人識別方法在識別率和魯棒性方面都明顯優(yōu)于傳統(tǒng)的基于GMM模型的說話人識別,較單純使用DNN方法的識別率有了進(jìn)一步的提高。但是該說話人模型在正常信噪比范圍內(nèi)識別性能仍然存在較大的波動,在接下來的研究中還有待改進(jìn)。

      猜你喜歡
      基音隱層語音
      魔力語音
      基于MATLAB的語音信號處理
      電子制作(2019年14期)2019-08-20 05:43:38
      基于MQ3與MP3的價廉物美的酒駕語音提醒器
      電子制作(2019年9期)2019-05-30 09:42:10
      基于基音跟蹤的語音增強研究
      基于RDPSO結(jié)構(gòu)優(yōu)化的三隱層BP神經(jīng)網(wǎng)絡(luò)水質(zhì)預(yù)測模型及應(yīng)用
      人民珠江(2019年4期)2019-04-20 02:32:00
      對方正在輸入……
      小說界(2018年5期)2018-11-26 12:43:42
      樂理小知識
      小演奏家(2014年11期)2014-12-17 01:18:52
      一種改進(jìn)的基音周期提取算法
      基于近似結(jié)構(gòu)風(fēng)險的ELM隱層節(jié)點數(shù)優(yōu)化
      計算機工程(2014年9期)2014-06-06 10:46:47
      最優(yōu)隱層BP神經(jīng)網(wǎng)絡(luò)的滾動軸承故障診斷
      虹口区| 云梦县| 抚宁县| 大兴区| 方城县| 花莲市| 平谷区| 正定县| 七台河市| 兴山县| 西充县| 湟源县| 岳阳县| 攀枝花市| 米泉市| 廊坊市| 富裕县| 孝昌县| 封丘县| 巨野县| 磐安县| 卢湾区| 青河县| 谢通门县| 霍城县| 无极县| 白山市| 凤山市| 鄯善县| 宜宾县| 策勒县| 平顶山市| 进贤县| 海丰县| 黑山县| 北宁市| 墨玉县| 泽普县| 鄂托克前旗| 伊金霍洛旗| 南京市|