• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      基于深網(wǎng)圖像識別模型的語音認(rèn)證模式

      2018-01-19 11:35潘樹誠章堅武
      軟件導(dǎo)刊 2018年10期
      關(guān)鍵詞:卷積神經(jīng)網(wǎng)絡(luò)深度學(xué)習(xí)

      潘樹誠 章堅武

      摘 要:目前,互聯(lián)網(wǎng)身份認(rèn)證普遍采用單一的固定密碼認(rèn)證模式,認(rèn)證安全性非常低,因此迫切需要一種安全系數(shù)高又能普及的身份認(rèn)證方式。聲紋作為一種高活性生物特征,用于身份認(rèn)證具有十分廣闊的應(yīng)用前景?;谏疃葘W(xué)習(xí)(DL)的語音認(rèn)證系統(tǒng)包含兩個模型:聲紋辨別(VI)模型和聲紋文本匹配(VTM)模型,都基于卷積神經(jīng)網(wǎng)絡(luò)(CNN)。其中,VI模型是一個二分類模型,主要用于確認(rèn)當(dāng)前說話人是否為惡意(錄音)攻擊者;VTM模型是一個多分類模型,主要用來匹配用戶預(yù)先設(shè)定的身份認(rèn)證信息。通過實驗,兩個模型在ASVD數(shù)據(jù)集的識別率分別達(dá)到100%和98.3%,相比caffe-net模型,VTM模型的識別率提高了10.8個百分點。

      關(guān)鍵詞關(guān)鍵詞:VI模型;VTM模型;深度學(xué)習(xí);卷積神經(jīng)網(wǎng)絡(luò)

      DOIDOI:10.11907/rjdk.181193

      中圖分類號:TP301

      文獻(xiàn)標(biāo)識碼:A 文章編號:1672-7800(2018)010-0022-05

      英文摘要Abstract:The current Internet anthentication mode is generally in the form of single fixed passwords with very low security. Therefore it is urgent to have a new anthentication mode with high security and extensive adaptibility. As a highly active biometric feature, voiceprint has broad application prospect in identity anthentication. The vocie anthentication system based on deep learning includes two models:vocie identification model (VI) and vocie text matching model (VTM), which are both based on convolutional neural network (CNN). VI model is a binary-classification model mainly used to confirm if the current speaker is a malicious attacker or a recording. VTM model is a multi-classification model mainly used to match the preset users′ identity anthentication. According to the experiment, the two models achieve 100% and 98.3% recognition rates resepectively in the ASVD dataset. The recognition rate of VTM model has 10.8 percentage increase than that of CaffeNet model.

      英文關(guān)鍵詞Key Words:VI model; VTM model; deep learning; convolutional neural network

      0 引言

      在當(dāng)今移動互聯(lián)網(wǎng)時代,人與人之間的通信大部分是在線上完成的,比如通話、游戲、購物等。要在線上實現(xiàn)使用者的身份驗證,傳統(tǒng)的解決方案是通過設(shè)置密碼,運用系統(tǒng)自帶的加解密算法實現(xiàn)身份驗證。然而現(xiàn)在網(wǎng)上的應(yīng)用非常多,如果每個賬戶都設(shè)置一個新密碼,顯然是不可取的;所有賬戶都使用一個密碼,又保證不了信息安全,很容易被黑客攻擊。根本原因是密碼驗證類似于非生物活性特征的指紋識別驗證,是“非活性”、容易被復(fù)制的。由于每個人的聲紋特征不一致并難以被仿制,采用聲紋識別技術(shù)可以較好解決上述密碼驗證安全問題。

      近年來,人工智能深度學(xué)習(xí)技術(shù)開始慢慢進入人們的視野,成為當(dāng)下最熱門的話題之一。自從2006年Hinton等[1]提出深度學(xué)習(xí)(Deep Learning,DL)的概念,并基于深度置信網(wǎng)絡(luò)(Deep Belief Networks,DBN)提出非監(jiān)督貪心逐層訓(xùn)練算法以來,國內(nèi)外掀起了深度學(xué)習(xí)的研究熱潮[2]。2012年6月,斯坦福大學(xué)機器學(xué)習(xí)教授Andrew Ng和大規(guī)模計算機系統(tǒng)專家Jeff Dean共同主導(dǎo)了Google Brain項目[3];2014年3月,F(xiàn)acebook的Deep-Face項目基于9層深度網(wǎng)絡(luò)的人臉識別模型其識別率達(dá)到97.35%[4];2016年3月,基于深度學(xué)習(xí)卷積神經(jīng)網(wǎng)絡(luò)的人工智能-Alpha Go大戰(zhàn)世界圍棋冠軍李世石,并以4∶1的戰(zhàn)績?nèi)〉脛倮?,舉世震驚;2016年10月,硅谷推出的無人駕駛汽車在美國加州正式上路。語音識別技術(shù)隨著深度學(xué)習(xí)的熱浪得到了高速發(fā)展,目前國內(nèi)外很多公司都在積極推動語音識別技術(shù)的應(yīng)用。亞馬遜于2011-2013年相繼收購Yap、Evi和Ivona Software,增強語音識別在商品搜索上的技術(shù);Facebook于2013年相繼收購Mobile Technologies和Mit.ai,加強了定向廣告中的語音技術(shù);蘋果于2010-2015年相繼收購Siri Inc、Novauris Technologies、VocallQ和Emotient,進一步完善了Siri的功能;微軟研發(fā)Skype、Contana和微軟小冰,其中Contana在Win10系統(tǒng)中應(yīng)用較為成功;國內(nèi)華為、阿里巴巴、百度和科大訊飛等互聯(lián)網(wǎng)、通信巨頭也都紛紛在語音識別領(lǐng)域投入巨資進行大量應(yīng)用性研究。

      目前,深度學(xué)習(xí)技術(shù)被廣泛應(yīng)用到各個領(lǐng)域,其中發(fā)展最為迅速的屬圖像領(lǐng)域。圖像識別技術(shù)被廣泛應(yīng)用到實際生活中,比如支付寶的“刷臉”功能、汽車車牌識別功能及交通人流量的控制功能等。圖像識別在大數(shù)據(jù)分類、統(tǒng)計、識別等方面有很好的效果,但是作為一種非生物活性特征,其安全性系數(shù)比較低,所以在安全認(rèn)證方面有很大的不足。為解決該問題,阿里巴巴提出用戶在識別階段通過多個角度的臉部姿態(tài)增加人臉識別的安全性,但是對用戶體驗有很大的影響。鑒于此問題,本文提出基于語音信號的識別-匹配安全認(rèn)證模式系統(tǒng),將語音信號轉(zhuǎn)換成語譜圖和聲譜圖,通過圖像分類模型進行分類,并經(jīng)過系統(tǒng)的二次判決保證認(rèn)證系統(tǒng)的安全性。結(jié)合圖像識別技術(shù)高識別率和語音特征高生物活性系數(shù)兩個優(yōu)點,加強了認(rèn)證模式的安全性和適用性。

      1 認(rèn)證模式

      近年來不斷出現(xiàn)單口令密碼認(rèn)證系統(tǒng)被暴力破解[5-6]和字典分析[7]事件,說明單口令密碼認(rèn)證系統(tǒng)的安全系數(shù)有待提高。本文針對該問題,提出以表征生物特征活性系數(shù)最高的聲紋為基礎(chǔ)的二次判決識別匹配模式。該模式由3個模塊構(gòu)成:聲紋辨別(Voiceprint Identification,VI)模塊、短語句文本匹配模塊和系統(tǒng)判決模塊。

      單獨的短語句文本匹配VTM模型在原聲和錄音聲的多分類任務(wù)中效果不是很理想,而聲紋辨別VI模型和VTM模型分別在二分類問題及多分類問題上有很好的表現(xiàn)。首先將轉(zhuǎn)換后的語譜圖數(shù)據(jù)輸入二分類VI模型,分析模型輸出數(shù)據(jù)并傳遞參數(shù)給下一個環(huán)節(jié),如果識別失敗,系統(tǒng)輸出為警報狀態(tài),反之則進入短語句匹配模塊。再將轉(zhuǎn)換后的聲譜圖數(shù)據(jù)送入VTM模型,分析模型輸出數(shù)據(jù)并傳遞參數(shù)給系統(tǒng)輸出。

      1.1 聲紋特征優(yōu)勢

      聲紋[8-10]是一種“活性”系數(shù)非常高的生物非表征特征,具有很廣泛的應(yīng)用。在安全性方面,具有其它生物特征不具備的優(yōu)勢,其它一些生物特征如人臉、指紋、掌型、指靜脈和虹膜等都屬于表征特性,很容易被復(fù)制并落入第三方手中,而聲紋作為一種非表征特性,具有無法被完全復(fù)制的特點。在實用性方面,語音信號采集只需要一個錄音模塊,移動終端都具備該功能,所以聲紋識別的應(yīng)用價值非常高。聲紋特征與其它生物特征比較如表1所示[11]。

      1.2 CNN模型介紹

      深度學(xué)習(xí)技術(shù)在語音、圖像領(lǐng)域得到了快速發(fā)展。一些基于深度學(xué)習(xí)的識別模型漸漸取代了以UBM-MAP-GMM[12]模型(Douglas Reynold)、Joint Factor Analysis[13-16]模型(Patrick Kenny)和i-vector[17-18]模型(NajimDehak)為代表的傳統(tǒng)識別模型。在語音領(lǐng)域,遞歸神經(jīng)網(wǎng)絡(luò)[19-21](RNN、DRNN、LSTMs)模型因為具有時序上元素關(guān)聯(lián)程度的表達(dá)能力,在語音長文本識別中大放異彩。在圖像領(lǐng)域,卷積神經(jīng)網(wǎng)絡(luò)[22-25](CNN)模型因為具有局部感知區(qū)域、權(quán)值共享的優(yōu)勢,在圖像處理方面取得了非常大的成功。

      識別驗證系統(tǒng)需要短時、安全的識別模式,要求系統(tǒng)能夠快速獲得短語音的識別結(jié)果,而RNN模型對短語音識別效果不是很理想。鑒于CNN模型在圖像領(lǐng)域的巨大成功,本文借用圖像處理的方式進行語音識別。系統(tǒng)中用到了兩個模型:Binary-Classification(二分類)聲紋辨別模型和短文本匹配(Phrase-Matching)模型,都屬于卷積神經(jīng)網(wǎng)絡(luò)(CNN)模型。

      CNN模型可分為輸入層、卷積層、池化層、softmax分類層、全連接層以及輸出層,其中核心層是卷積(convolution)層和池化(pooling)層,屬于隱層。卷積層通過調(diào)整卷積核的大小和卷積步長,可以大大減少模型網(wǎng)絡(luò)的節(jié)點參數(shù),提高模型的效率;池化層通過調(diào)整池化核的大小和模式進一步減少模型參數(shù),并能夠銳化圖像特征。多層CNN模型一般都是由多個卷積層和池化層組合構(gòu)成的(見圖2)。

      CNN模型結(jié)構(gòu)中有3個要素:局部感知域、權(quán)值共享及pooling。該3個要素是卷積神經(jīng)網(wǎng)絡(luò)的核心思想,也是卷積神經(jīng)網(wǎng)絡(luò)能夠在圖像領(lǐng)域被廣泛應(yīng)用的關(guān)鍵。

      1.2.1 局部感知域

      CNN模型的每個卷積層中,都會有不同的卷積核窗口對輸入圖像進行局部卷積,并將結(jié)果作為下一層的輸入圖像,如圖3所示。圖3中前一層的綠色區(qū)域被稱作局部感知域,大小由卷積核窗口的大小決定。每個局部感知域通過卷積核窗口映射到下一層的一個神經(jīng)元。

      1.2.2 權(quán)值共享

      在卷積層中,卷積核需要對整個輸入圖片進行局部感知域的卷積掃描,卷積核內(nèi)的值與bias值被稱為該卷積核的權(quán)值。權(quán)值共享就是用同一個卷積核掃描整個圖片,它有兩個很重要的作用:其一,能夠大幅度減少輸出訓(xùn)練參數(shù),從而大幅度減少計算量;其二,能夠提取到無關(guān)特征位置的圖片底層邊緣特征,解決目標(biāo)特征空間位置變換的問題(見圖4)。

      1.2.3 pooling層

      pooling層的主要功能是聚化圖像特征、減少訓(xùn)練參數(shù)以及保持圖像(平移、旋轉(zhuǎn)、尺度)不變性。常見的池化方法有均值池化法和最大值池化法,并且池化窗口一般不會重疊。本文采用最大值池化法處理卷積后的圖片(見圖5)。

      1.3 VI模型

      聲紋辨別是指通過語音頻譜圖信號確定說話人的身份信息。本系統(tǒng)中的聲紋辨別模塊采用一個二分類模型,主要作用為檢測是否有攻擊性錄音信號與確定是否為目標(biāo)說話人。這個模型的輸出結(jié)果為3類:一是檢測是否有攻擊性錄音信號,如果有則系統(tǒng)發(fā)出安全預(yù)警;二是確認(rèn)是否為目標(biāo)說話人,如果是則進入下一環(huán)節(jié);三是判斷是否非前兩類,如果是則提示重新輸入。該模型由8層卷積神經(jīng)網(wǎng)絡(luò)構(gòu)成。

      2 實驗及結(jié)果分析

      實驗中,訓(xùn)練數(shù)據(jù)采集方法如下:在實驗室環(huán)境下,一個人說10個短語音片段,每個短語音片段分別說10次(訓(xùn)練)+1次(系統(tǒng)測試),分成10類;在采集該110個語音信號的同時,用另一個錄音設(shè)備將其錄下來,再經(jīng)過麥克風(fēng)播放并用同一個設(shè)備第二次采集,得到新的110個語音信號;第三次采集10個非本人發(fā)音的語音片段,就得到了200個訓(xùn)練數(shù)據(jù)和30個系統(tǒng)測試數(shù)據(jù)。本次實驗中兩個模型訓(xùn)練數(shù)據(jù)和測試數(shù)據(jù),比例都是4∶1,即160個模型訓(xùn)練數(shù)據(jù)和40個模型測試數(shù)據(jù)。30個系統(tǒng)測試數(shù)據(jù)則通過任務(wù)要求進行不同的搭配,實現(xiàn)系統(tǒng)的性能測試。

      訓(xùn)練階段,首先將上述采集的200個數(shù)據(jù),通過MATLAB程序轉(zhuǎn)換成訓(xùn)練要用的256*256像素灰度語譜圖。然后將該200個數(shù)據(jù)分為兩類:第一類是原始語音數(shù)據(jù),第二類是錄音設(shè)備播放的語音數(shù)據(jù),并作為二分類模型的訓(xùn)練數(shù)據(jù)。準(zhǔn)備完訓(xùn)練數(shù)據(jù)后,對二分類網(wǎng)絡(luò)進行參數(shù)調(diào)整,實驗采用2個二分類網(wǎng)絡(luò)模型(caffe-net官方提供模型及自己修改的mulrote-net模型),通過對比2個訓(xùn)練模型結(jié)果,擇優(yōu)選取。實驗中,2個模型分別迭代3 000次,得到的模型結(jié)果如下:①模型一,訓(xùn)練網(wǎng)絡(luò)識別率為1,loss值為5.008e-05,訓(xùn)練完成的模型在測試集上的識別率為1,loss值為0.23507,識別率曲線如圖6所示;②模型二,訓(xùn)練網(wǎng)絡(luò)識別率為0.975,loss值為2.39606e-05, 訓(xùn)練完成的模型在測試集上的識別率為0.975,loss值為0.307844,識別率曲線如圖7所示。

      對比兩者的訓(xùn)練結(jié)果,因為caffe-net的識別率優(yōu)于mulrote-net,所以在VI模型中選用caffe-net網(wǎng)絡(luò)。

      接下來訓(xùn)練VTM模型,將第一次采集的10個短語分成10類,記為(A1,A2,……A10),同樣把第二次采集的10個短語分成10類,記為(B1,B2,……B10),最終得到20類訓(xùn)練數(shù)據(jù)。通過MATLAB程序?qū)⒃紨?shù)據(jù)轉(zhuǎn)換成256*256像素的灰度聲譜圖,作為VTM的訓(xùn)練數(shù)據(jù)。

      調(diào)整VTM訓(xùn)練網(wǎng)絡(luò)的訓(xùn)練參數(shù),分別將數(shù)據(jù)送入caffe-net和mulrote-net網(wǎng)絡(luò)訓(xùn)練,迭代3 000次,得到的訓(xùn)練結(jié)果如下:①模型一,訓(xùn)練網(wǎng)絡(luò)識別率為88%,loss值是2.28352e-07,訓(xùn)練完成的模型在測試集上的識別率為87.5%,loss值為0.263325,識別率曲線如圖8所示;②模型二,訓(xùn)練網(wǎng)絡(luò)識別率為98%,loss值是1.3113e-07,訓(xùn)練完成的模型在測試集上的識別率為97.5%,loss值為0.177345,識別率曲線如圖9所示。

      對比兩者的訓(xùn)練結(jié)果,因為mulrote-net的識別率明顯優(yōu)于caffe-net,所以在VTM模型中選用mulrote-net網(wǎng)絡(luò)。

      系統(tǒng)測試階段,數(shù)據(jù)類型分為4類:匹配數(shù)據(jù)、非攻擊性非匹配數(shù)據(jù)、攻擊性匹配數(shù)據(jù)、攻擊性非匹配數(shù)據(jù)。每一組測試數(shù)據(jù)有3個語音片段,其來源組成決定了系統(tǒng)測試的數(shù)據(jù)類型。本文實驗測試了12組數(shù)據(jù),數(shù)據(jù)組成如表2所示。

      3 結(jié)語

      在被稱為“第三次技術(shù)革命”的互聯(lián)網(wǎng)時代,安全是最重要的一個環(huán)節(jié)。本文結(jié)合深度學(xué)習(xí)圖像知識和聲紋特征,在安全識別方面提出了一個解決方案。實驗采用一種“活性”系數(shù)非常高的生物特征——聲紋,因為其原始數(shù)據(jù)不能被無失真地保存下來,所以安全性非常高。也因為該特性,語音在安全領(lǐng)域具有很大的研究價值,同時也有很多技術(shù)難題。本實驗使用的數(shù)據(jù)都是在實驗室環(huán)境下采集的,并手動截取高能量語音區(qū)間,弱化了外界干擾對數(shù)據(jù)的影響。而在實際應(yīng)用中,語音信號采集不可避免會受到不同程度的外界干擾。

      接下來可以研究自動分離語音信息能量集中區(qū)間和外界噪音區(qū)間,并通過噪音分析對分離出來的有效語音區(qū)間部分進行去噪處理。這一技術(shù)將會對語音的實際應(yīng)用起到關(guān)鍵性作用。

      參考文獻(xiàn):

      [1] LECUN Y,BENGIO Y,HINTON G.Deep learning[J].Nature,2015,521(7553):436-444.

      [2] HINTON G E,OSINDERO S,TEH Y W.A fast learning algorithm for deep belief nets[J].Neural Computation,2014,18(7):1527-1554.

      [3] HALLIE S.The man behind the google brain: andrew NG and the quest for the new AI[EB/OL].https://www.wired.com.

      [4] JOHANNES B,CHRISTIAN E.Face recognition with deep learning for mobile applications [EB/OL].http://informatikprojekt.de.

      [5] VAITHYASUBRAMANIAN S,CHRISTY A.An analysis of CFG password against brute force attack for web applications[J].Contemporary Engineering Sciences,2015,8(9):367-374.

      [6] 郭鳳宇,錢怡.一個密碼暴力破解系統(tǒng)的設(shè)計[J].網(wǎng)絡(luò)與信息,2009(8):30-31.

      [7] VISHWAKARMA D,MADHAVAN C E V.Efficient dictionary for salted password analysis[C].IEEE International Conference on Electronics,Computing and Communication Technologies,2014:1-6.

      [8] KERSTA L G.Voiceprint identification[J].Nature,1962,196(4861):1253-1257.

      [9] KANE J A.Voice print recognition software system for voice identification and matching[P].US,US8595007B2.2013-11-26.

      [10] LI L,LIN Y,ZHANG Z,et al.Improved deep speaker feature learning for text-dependent speaker recognition[C].Signal and Information Processing Association Summit and Conference,2015:426-429.

      [11] 方植彬.信息與通信網(wǎng)絡(luò)安全技術(shù)——生物識別技術(shù)[J].電子產(chǎn)品可靠性與環(huán)境試驗,2014,32(5):55-61.

      [12] SHEN Y,YANG Y.A novel data description kernel based on one-class SVM for speaker verification[C].IEEE International Conference on Acoustics,Speech and Signal Processing,2007:489-492.

      [13] CHOW D,ABDULLA W H.Robust speaker identification based perceptual log area ratio and Gaussian mixture models[C].International Conference on Interspeech,2004:1761-1764.

      [14] HEBERT M.Text-dependent speaker recognition[M].Springer Berlin Heidelberg,2008.

      [15] VOGT R J,LUSTRI C J, SRIDHARAN S .Factor analysis modeling for speaker verification with short utterances[J].Journal of Substance Abuse Treatment,2008,10(1):11-16.

      [16] VOGT R, BAKER B, SRIDHARAN S.Factor analysis subspace estimation for speaker verification with short utterances[C].Brisbane:Interspeech,Conference of the International Speech Communication Association,2013.

      [17] KANAGASUNDARAM A, VOGT R, DEAN D,et al.I-vector based speaker recognition on short utterances[C].Florence:Annual Conference of the International Speech Communication Association,2011.

      [18] LARCHER A,BOUSQUET P M,KONG A L,et al.I-vectors in the context of phonetically-constrained short utterances for speaker verification[C].IEEE International Conference on Acoustics,Speech,and Signal Processing,2012:4773-4776.

      [19] KOUTNK J,GREFF K,GOMEZ F,et al.A clockwork RNN[J].Computer Science,2014:1863-1871.

      [20] JAIN A,ZAMIR A R,SAVARESE S,et al.Structural-RNN: deep learning on spatio-temporal graphs[C].Las Vegas: IEEE Conference on Computer Vision and Pattern Recognition (CVPR),2016.

      [21] TAI K S,SOCHER R,MANNING C D.Improved semantic representations from tree-structured long short-term memory networks[J].Computer Science,2015,5(1): 36.

      [22] SHIN H C,ROTH H R,GAO M,et al.Deep convolutional neural networks for computer-aided detection: CNN architectures,dataset characteristics and transfer learning[J].IEEE Transactions on Medical Imaging,2016,35(5):1285-1298.

      [23] ABDULNABI A H,WANG G,LU J,et al.Multi-task CNN model for attribute prediction[J].IEEE Transactions on Multimedia,2016,17(11):1949-1959.

      [24] RADENOVIC′,TOLIAS G,CHUM O.CNN image retrieval learns from BoW: unsupervised fine-tuning with hard examples[C].European Conference on Computer Vision,2016:3-20.

      [25] YAN Z,ZHANG H,PIRAMUTHU R,et al.HD-CNN: hierarchical deep convolutional neural networks for large scale visual recognition[C].IEEE International Conference on Computer Vision,2016:2740-2748.

      (責(zé)任編輯:何 麗)

      猜你喜歡
      卷積神經(jīng)網(wǎng)絡(luò)深度學(xué)習(xí)
      基于卷積神經(jīng)網(wǎng)絡(luò)溫室智能大棚監(jiān)控系統(tǒng)的研究
      基于深度卷積神經(jīng)網(wǎng)絡(luò)的物體識別算法
      有體驗的學(xué)習(xí)才是有意義的學(xué)習(xí)
      MOOC與翻轉(zhuǎn)課堂融合的深度學(xué)習(xí)場域建構(gòu)
      大數(shù)據(jù)技術(shù)在反恐怖主義中的應(yīng)用展望
      通州市| 淳安县| 乌鲁木齐市| 高安市| 南汇区| 富顺县| 清原| 靖西县| 玉溪市| 吉木萨尔县| 当雄县| 奉贤区| 九台市| 襄樊市| 鄂托克前旗| 汾西县| 亳州市| 柳河县| 屯留县| 淮北市| 余姚市| 岳西县| 通辽市| 兴和县| 招远市| 巨野县| 乌兰浩特市| 阿坝| 泊头市| 健康| 区。| 石门县| 庆城县| 馆陶县| 兴业县| 焉耆| 盐源县| 镇沅| 满洲里市| 舒城县| 宣城市|