• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      一種多模態(tài)生物特征融合算法探究

      2018-12-22 00:51:10王俊生韓慶芝
      關(guān)鍵詞:聲紋權(quán)值人臉

      王俊生, 王 波, 韓慶芝

      (1 國(guó)網(wǎng)電子商務(wù)有限公司, 北京 100053; 2 國(guó)網(wǎng)雄安金融科技集團(tuán)有限公司, 河北 雄安 071800;3 國(guó)家電網(wǎng)電力金融與電子商務(wù)實(shí)驗(yàn)室, 北京 100053)

      引言

      近年來(lái),在陸續(xù)涌現(xiàn)的各類(lèi)身份識(shí)別技術(shù)中,如指紋識(shí)別、人臉識(shí)別、聲紋識(shí)別等就正以其安全、方便的特性,以及較傳統(tǒng)的安全認(rèn)證技術(shù)所展現(xiàn)的更優(yōu)防偽性能,已在眾多身份認(rèn)證領(lǐng)域中獲得了廣泛應(yīng)用,而與此同時(shí)其市場(chǎng)規(guī)模也正悄然呈現(xiàn)出快速遞增態(tài)勢(shì)[1]。

      通常,生物識(shí)別技術(shù)多將分為單模態(tài)識(shí)別技術(shù)和多模態(tài)識(shí)別技術(shù)兩種。時(shí)下,隨著現(xiàn)代科學(xué)技術(shù)的飛躍式發(fā)展,其中的單模態(tài)生物識(shí)別技術(shù)已日漸凸顯出其相對(duì)居于劣勢(shì)的安全性,也就是存在著較大的安全風(fēng)險(xiǎn),例如仿真頭套、全息投影、人臉跟蹤等高科技手段的出現(xiàn),即從根本上打破了單模態(tài)生物識(shí)別技術(shù)的安全屏障。而多模態(tài)生物識(shí)別技術(shù)卻可通過(guò)數(shù)據(jù)融合算法將不同的生物特征進(jìn)行有機(jī)結(jié)合,如掌紋與人臉特征的融合[2]、指紋與聲紋特征的融合[3]、虹膜與指紋特征的融合[4]等,這樣就可有效彌補(bǔ)單模態(tài)生物識(shí)別技術(shù)的安全風(fēng)險(xiǎn),從而使識(shí)別系統(tǒng)的安全性能大大提高[5]。迄至目前,基于市場(chǎng)需求的多樣化和市場(chǎng)競(jìng)爭(zhēng)的選擇性作用,均已使得多模態(tài)生物識(shí)別技術(shù)日漸成為生物特征識(shí)別領(lǐng)域的研究熱點(diǎn),并且也終將引領(lǐng)生物特征識(shí)別領(lǐng)域的未來(lái)發(fā)展趨勢(shì)[6]。

      通過(guò)全面分析后可知,人臉識(shí)別技術(shù)具有唯一性和不易復(fù)制性,而且還兼具識(shí)別無(wú)接觸、使用上的便捷性和用戶(hù)友好性等特點(diǎn)[7],據(jù)此就贏得了廣闊的發(fā)展空間。但不可否認(rèn)的卻是,人臉識(shí)別技術(shù)的安全性相對(duì)較弱,也就是用戶(hù)將面臨隱私泄露的可能,而且其識(shí)別準(zhǔn)確率也會(huì)受到多種外界因素的影響,如光線(xiàn)、識(shí)別距離,以及化妝、整容所帶來(lái)的面部特征改變等。而另有研究表明,在將聲紋識(shí)別與其它生物特征比較后可知,前者表現(xiàn)出提取特征方便、獲取特征成本低[8]、受到距離影響較小的突出優(yōu)越性,因此將會(huì)更加適于應(yīng)用在遠(yuǎn)程身份認(rèn)證的方案設(shè)計(jì)中。此外,尤需一提的是,聲紋辨認(rèn)和確認(rèn)算法的運(yùn)行復(fù)雜度也很低。故而,聲紋識(shí)別已經(jīng)越來(lái)越受到業(yè)界的系統(tǒng)開(kāi)發(fā)者和用戶(hù)群體的高度重視與青睞。雖然如此,卻仍需看到,聲音本身具有易變性,而且也容易受到身體狀況、年齡、情緒等因素影響,以及環(huán)境噪音干擾等,因此現(xiàn)如今的聲紋識(shí)別大多情況下還僅是應(yīng)用在對(duì)身份認(rèn)證安全性要求不高的場(chǎng)景中。綜上論述演繹后可以推得,如果能夠?qū)⑸厦?種實(shí)用性強(qiáng)、特征易獲取、且應(yīng)用廣泛的生物特征進(jìn)行融合,就會(huì)在相當(dāng)程度上顯著提升身份識(shí)別的適用性、準(zhǔn)確性、隱蔽性及安全性,同時(shí)還能大幅降低生物識(shí)別對(duì)環(huán)境的依賴(lài)度,從而全面滿(mǎn)足用戶(hù)在不同目的和環(huán)境下的使用需求。

      在此基礎(chǔ)上,本文擬將運(yùn)用卷積神經(jīng)網(wǎng)絡(luò)提取人臉特征,而對(duì)聲紋特征的提取則采用了梅爾頻率倒譜系數(shù)(MFCC)的方法,并通過(guò)加權(quán)融合算法將2種特征加以融合,彌補(bǔ)單一模態(tài)生物識(shí)別技術(shù)的不足,使身份認(rèn)證系統(tǒng)具有更高的安全性和魯棒性。本文則將對(duì)此展開(kāi)如下的研究論述。

      1 基于卷積神經(jīng)網(wǎng)絡(luò)的人臉特征提取

      目前,基于深度模型的卷積網(wǎng)絡(luò)憑借其局部連接和權(quán)值共享的獨(dú)特優(yōu)勢(shì),在計(jì)算機(jī)視覺(jué)領(lǐng)域的研發(fā)實(shí)踐中占據(jù)著舉足輕重的位置。卷積神經(jīng)網(wǎng)絡(luò)本質(zhì)上是一個(gè)前饋神經(jīng)網(wǎng)絡(luò),通過(guò)卷積層和池化層的交替級(jí)聯(lián)模擬人類(lèi)視覺(jué)皮層中用于高層次特征提取的簡(jiǎn)單細(xì)胞和復(fù)雜細(xì)胞交替級(jí)聯(lián)結(jié)構(gòu)。

      卷積神經(jīng)網(wǎng)絡(luò)作為一種深度機(jī)器學(xué)習(xí)模型,通過(guò)多次訓(xùn)練數(shù)據(jù)學(xué)習(xí)得到特征提取參數(shù)[9],一方面通過(guò)神經(jīng)元的非全連接方式、即稀疏性連接方式,將相鄰每層的神經(jīng)元節(jié)點(diǎn)僅和與其相近的上一層神經(jīng)元節(jié)點(diǎn)鏈接,有效地減少了神經(jīng)網(wǎng)絡(luò)中的參數(shù)規(guī)模;另一方面,通過(guò)權(quán)值共享方式降低了網(wǎng)絡(luò)復(fù)雜度,減少了網(wǎng)絡(luò)參數(shù)。

      卷積神經(jīng)網(wǎng)絡(luò)特征提取的核心模塊包括隱含的卷積層和池化采樣層,采用梯度下降算法對(duì)網(wǎng)絡(luò)中的權(quán)重參數(shù)逐層反向調(diào)節(jié),并通過(guò)設(shè)置迭代次數(shù)反復(fù)訓(xùn)練網(wǎng)絡(luò)參數(shù)以提高網(wǎng)絡(luò)精度。其中,卷積層與池化采樣層是交替連接的。最高層是2個(gè)全連接層,首個(gè)全連接層的輸入是由卷積層和池化層進(jìn)行特征提取得到的特征圖像,最后一層全連接則是對(duì)圖像進(jìn)行分類(lèi)。

      卷積神經(jīng)網(wǎng)絡(luò)的結(jié)構(gòu)包括:卷積層、池化層和全連接層,每一層包含多個(gè)特征圖,每個(gè)特征圖將利用過(guò)濾器(卷積核)提取特征。具體來(lái)說(shuō),在卷積層中,進(jìn)行卷積計(jì)算可以提取輸入數(shù)據(jù)的高層次特征,從而增強(qiáng)原始數(shù)據(jù)的特征,并且還能夠達(dá)到科學(xué)降低噪音的效果。池化層通過(guò)最大池化或平均池化對(duì)圖像進(jìn)行下采樣,這樣可以減少模型的計(jì)算量,還能抵抗輸入的輕微形變或位移,使圖像具有旋轉(zhuǎn)不變性;而當(dāng)找到某個(gè)特征后,只需要知道該特征與其它特征的相對(duì)位置而無(wú)需確認(rèn)其詳細(xì)位置就可以對(duì)圖像進(jìn)行識(shí)別。卷積層和池化層是圖像特征提取的過(guò)程,最后將通過(guò)全連接層完成分類(lèi)任務(wù)(全連接層與BP神經(jīng)網(wǎng)絡(luò)一樣)。

      利用卷積神經(jīng)網(wǎng)絡(luò)通過(guò)逐層卷積降維提取人臉特征,并經(jīng)由多層非線(xiàn)性映射,從原始樣本(未經(jīng)處理的樣本)中歷經(jīng)多次迭代訓(xùn)練,自動(dòng)學(xué)習(xí)修正模型參數(shù)并形成相應(yīng)的特征提取器,這樣就能夠降低模型對(duì)訓(xùn)練樣本的要求。而且,當(dāng)網(wǎng)絡(luò)的層數(shù)越多,學(xué)習(xí)得到的樣本全局特征也就越多。更進(jìn)一步地,通過(guò)卷積和池化計(jì)算得到的圖像特征也不容易產(chǎn)生過(guò)擬合。

      2 聲紋特征提取

      聲紋特征提取采用梅爾頻率倒譜系數(shù)(MFCC),即使因其能夠很好地表達(dá)人耳對(duì)語(yǔ)音的感知,故而這里將通過(guò)構(gòu)建Mel三角濾波器組來(lái)模擬人耳的聽(tīng)覺(jué)特性,以提高語(yǔ)音識(shí)別系統(tǒng)的識(shí)別率和魯棒性。MFCC提取過(guò)程可闡釋如下。

      (1)預(yù)加重。將采集到的語(yǔ)音信息送入一個(gè)高通濾波器,即:H(Z)=1-μz-1。其中,μ表示預(yù)加重系數(shù),取值范圍為0.9~1。經(jīng)過(guò)預(yù)加重處理后,語(yǔ)音信號(hào)中的高頻部分得以增強(qiáng)。

      (2)分幀??紤]到語(yǔ)音信號(hào)在短時(shí)間內(nèi)平穩(wěn)的特點(diǎn),就可將其以每幀20~30 ms的時(shí)間進(jìn)行分段截取。同時(shí),為了切實(shí)保證幀與幀之間的連續(xù)性,還需要在分幀時(shí)加入一個(gè)幀移,即在2幀之間設(shè)置一個(gè)重疊區(qū)域。

      (3)加窗。通常使用漢明窗(Hamming Window),用于降低語(yǔ)音幀的邊緣效應(yīng),增加語(yǔ)音幀左端和右端的連續(xù)性。

      (4)快速傅里葉變換(FFT)。將語(yǔ)音信號(hào)從時(shí)域上轉(zhuǎn)換到頻域上進(jìn)行表示,通過(guò)觀察頻譜圖,了解能量分布狀況,有利于更好地觀察其特性。

      (5)三角帶通濾波器。將語(yǔ)音頻譜通過(guò)一組Mel尺度的三角形濾波器組,使頻譜平滑化,并避免諧波的影響,突顯原始語(yǔ)音的共振峰。不僅如此,還可以降低整體運(yùn)算量。

      (6)對(duì)數(shù)能量計(jì)算。將(5)中的每個(gè)濾波器組的輸出進(jìn)行對(duì)數(shù)運(yùn)算,得到對(duì)數(shù)能量譜。

      (7)離散余弦變換(DCT)。通過(guò)DCT變換得到MFCC系數(shù),使語(yǔ)音信號(hào)從頻域轉(zhuǎn)化至?xí)r域,從而可以得到MFCC特征。

      (8)動(dòng)態(tài)差分參數(shù)的提取。語(yǔ)音信號(hào)除了MFCC反映的靜態(tài)特征外,還包含動(dòng)態(tài)特性,而語(yǔ)音的動(dòng)態(tài)特性則可以用靜態(tài)特征的差分譜做出描述,常用一階差分和二階差分來(lái)反映語(yǔ)音信號(hào)的動(dòng)態(tài)特征。

      3 特征的加權(quán)融合算法

      人臉特征提取和聲紋特征提取是2個(gè)相對(duì)獨(dú)立的過(guò)程,特征提取方法不同,且屬于不同的生物模態(tài),因此這2種特征在融合之前,需要引入歸一化處理,就是將這2種特征的特征向量處于同一范圍,有助于對(duì)其進(jìn)行后續(xù)的綜合性分析。該部分研究?jī)?nèi)容可探討分述如下。

      3.1 歸一化方法

      本文采用z-score歸一化方法[10],方法中將基于原數(shù)據(jù)的均值和標(biāo)準(zhǔn)差進(jìn)行標(biāo)準(zhǔn)化,數(shù)學(xué)公式如下:

      (1)

      其中,x是由人臉(聲紋)的特征向量組成的矩陣;μ為矩陣的均值;xnew為歸一化后的新數(shù)據(jù)。人臉特征和聲紋特征在經(jīng)過(guò)了歸一化處理后,就將會(huì)整合統(tǒng)一到一個(gè)一致區(qū)間中。文中在此之后,將給出這2種特征的融合研究過(guò)程。

      3.2 融合算法

      本文采用遍歷加權(quán)方法進(jìn)行人臉特征和聲紋特征的融合[2],通過(guò)比較每一組權(quán)值的識(shí)別率大小確定權(quán)值。人臉和聲紋的權(quán)值之和始終為1,并且只在0.1~0.9之間變化,步長(zhǎng)為0.1,如式(2)所示:

      wf+ws=1wf=0.1,0.2,…,0.9

      (2)

      其中,wf表示人臉的權(quán)值,ws表示聲紋的權(quán)值。聲紋特征向量的權(quán)值與人臉特征向量的權(quán)值是成反向變化的,即當(dāng)人臉特征向量的權(quán)值從0.1~0.9之間變化時(shí),聲紋特征向量從0.9到0.1變化,并且當(dāng)人臉特征向量選定一個(gè)權(quán)值α?xí)r,所有類(lèi)別的人臉特征權(quán)值都為α,而所有聲紋特征的權(quán)值為1-α。當(dāng)所有特征權(quán)值經(jīng)過(guò)0.1~0.9變化后,需要計(jì)算每個(gè)權(quán)值的識(shí)別率,研究推得其數(shù)學(xué)表述如下:

      (3)

      其中,R表示系統(tǒng)識(shí)別率;L和F分別表示合法用戶(hù)和違法者嘗試的總次數(shù);LR和FR分別表示錯(cuò)誤拒絕和錯(cuò)誤接收的次數(shù)。從中選擇使R最大的權(quán)值,視作最佳組合的權(quán)值,并作為人臉和聲紋加權(quán)后的最終權(quán)值。

      在此基礎(chǔ)上,研究將利用卷積神經(jīng)網(wǎng)絡(luò)中的全連接層進(jìn)行最后的特征分類(lèi)判別。

      4 結(jié)束語(yǔ)

      本文針對(duì)單模態(tài)生物特征穩(wěn)定性差等缺陷,提出了將人臉特征與聲紋特征2種生物特征融合的方法。采用卷積神經(jīng)網(wǎng)絡(luò)來(lái)提取人臉特征,聲紋特征提取采用的是MFCC的方法,而后再經(jīng)過(guò)z-score方法將2種特征予以歸一化處理,接下來(lái)又采用遍歷加權(quán)的方法對(duì)2種特征進(jìn)行融合,融合之后通過(guò)卷積神經(jīng)網(wǎng)絡(luò)中的全連接層實(shí)現(xiàn)最終的特征分類(lèi)判別。

      猜你喜歡
      聲紋權(quán)值人臉
      一種融合時(shí)間權(quán)值和用戶(hù)行為序列的電影推薦模型
      有特點(diǎn)的人臉
      CONTENTS
      屏幕即指紋識(shí)別
      三國(guó)漫——人臉解鎖
      基于權(quán)值動(dòng)量的RBM加速學(xué)習(xí)算法研究
      基于數(shù)字水印的人臉與聲紋融合識(shí)別算法
      馬面部與人臉相似度驚人
      長(zhǎng)得象人臉的十種動(dòng)物
      奇聞怪事(2014年5期)2014-05-13 21:43:01
      聲紋
      祝您健康(2009年4期)2009-04-08 09:36:06
      昆明市| 临武县| 迭部县| 乡宁县| 赫章县| 通许县| 临汾市| 兴义市| 仁布县| 英德市| 睢宁县| 噶尔县| 永登县| 泰和县| 类乌齐县| 鸡西市| 灵山县| 靖州| 漳浦县| 筠连县| 津南区| 法库县| 禹城市| 自治县| 策勒县| 岳池县| 秦皇岛市| 南木林县| 通州区| 定襄县| 庄河市| 佛坪县| 盐边县| 翼城县| 易门县| 永修县| 阿城市| 双牌县| 宣恩县| 房山区| 安康市|