• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      基于ResNet18與膠囊網(wǎng)絡(luò)結(jié)合的人臉表情識(shí)別

      2023-09-29 09:27:00馮宇平鞠伯倫
      關(guān)鍵詞:人臉殘差注意力

      劉 寧, 孫 萍, 馮宇平*, 鞠伯倫

      (1.青島科技大學(xué) 自動(dòng)化與電子工程學(xué)院, 山東 青島 266061;2.青島海灣化學(xué)股份有限公司,山東 青島 266409;3.中國船舶集團(tuán)有限公司第七一六研究所,江蘇 連云港 222006)

      二十世紀(jì)七十年代初,著名心理學(xué)家EKMAN[1]提出人類6 種基本情感的概念,分別是開心、驚訝、悲傷、生氣、恐懼、憎惡,后來又加入中性表情,構(gòu)成人臉表情識(shí)別的7種基本表情。人臉表情識(shí)別可以分為兩類:傳統(tǒng)方法[2-3]和基于深度學(xué)習(xí)[4-13]的方法。由于傳統(tǒng)方法無法提取到人臉面部表情圖片的深層特征,因此目前人臉表情識(shí)別主要是基于深度學(xué)習(xí)方法的研究。文獻(xiàn)[7]針對(duì)實(shí)際場(chǎng)景中人臉表情多為復(fù)合表情的問題,提出一種深度位置保留(DLP-CNN)的人臉表情識(shí)別方法解決這種模糊性情感問題;文獻(xiàn)[9]提出一種paCNN 方法,根據(jù)相關(guān)人臉位置標(biāo)記,從最后的卷積特征圖中裁剪出感興趣的部分,學(xué)習(xí)并專注于局部具有區(qū)別性和代表性的部分;文獻(xiàn)[10]提出一種PAT-CNN方法,是以分層的方式學(xué)習(xí)和表達(dá)相關(guān)特征,從而減輕面部表情識(shí)別中由特定的人屬性引入的變化。雖然CNN 在很多方面都展現(xiàn)出它強(qiáng)大的性能,但也存在弊端,比如CNN 中的池化層會(huì)丟失圖片的部分特征,這限制了人臉表情識(shí)別技術(shù)的發(fā)展。2017年,HINTON 提出膠囊網(wǎng)絡(luò)[14],完美保留了卷積模塊提取到的圖片特征。文獻(xiàn)[12]將VGGNet16 網(wǎng)絡(luò)和膠囊網(wǎng)絡(luò)進(jìn)行結(jié)合,并添加AU(Action Unit)單元,在RAF-db數(shù)據(jù)集(圖片大小為224×224)上進(jìn)行實(shí)驗(yàn),識(shí)別率達(dá)到85.24%;文獻(xiàn)[13]將DenseNet網(wǎng)絡(luò)與膠囊網(wǎng)絡(luò)結(jié)合,針對(duì)多視角人臉表情進(jìn)行識(shí)別,在數(shù)據(jù)集FER2017 達(dá)到了平均值為53.9%的F1值。本研究將殘差網(wǎng)絡(luò)和膠囊網(wǎng)絡(luò)結(jié)合進(jìn)行人臉表情識(shí)別,并將所提到的方法在CK+、RAF-db和FER+[15]數(shù)據(jù)集上進(jìn)行了實(shí)驗(yàn)分析。

      1 算法與數(shù)據(jù)

      1.1 ResNet18網(wǎng)絡(luò)

      ResNet18網(wǎng)絡(luò)的主要結(jié)構(gòu)是4個(gè)堆疊的殘差塊,殘差塊結(jié)構(gòu)如圖1所示,它將輸入的特征信息通過一個(gè)1×1的卷積連接到殘差塊的輸出端,緩解了深層網(wǎng)絡(luò)在訓(xùn)練的梯度消失和爆炸的情況。在實(shí)驗(yàn)過程中,通過對(duì)比ResNet18 與膠囊網(wǎng)絡(luò)結(jié)合和ResNet34與膠囊網(wǎng)絡(luò)結(jié)合的實(shí)驗(yàn)結(jié)果,發(fā)現(xiàn)網(wǎng)絡(luò)更深的ResNet34與膠囊網(wǎng)絡(luò)結(jié)合后的優(yōu)勢(shì)并不大。分析這是由于本研究所采用的數(shù)據(jù)集尺寸較小,淺層的卷積神經(jīng)網(wǎng)絡(luò)就可以提取到豐富的特征信息,且在融入CBAM 注意力機(jī)制[16]后特征提取能力進(jìn)一步提高。

      圖1 殘差塊結(jié)構(gòu)圖Fig.1 Residual block structure diagram

      1.2 膠囊網(wǎng)絡(luò)

      膠囊的概念最早在2011年被HINTON 提出,在文獻(xiàn)[17]中,HINTON 團(tuán)隊(duì)展示了神經(jīng)網(wǎng)絡(luò)如何被用來學(xué)習(xí)特征,輸出整個(gè)矢量的實(shí)例化參數(shù),并且認(rèn)為該方法在旋轉(zhuǎn)不變性、尺度不變性和光照變化等方面比目前神經(jīng)網(wǎng)絡(luò)中使用的方法更有優(yōu)勢(shì)。2017年,HINTON 提出膠囊網(wǎng)絡(luò),并在MNIST 手寫體數(shù)據(jù)集上進(jìn)行了測(cè)試,獲得業(yè)界最佳的效果,隨后研究者證明膠囊網(wǎng)絡(luò)在圖像分類方面具有廣泛的應(yīng)用前景。

      1.2.1 膠囊網(wǎng)絡(luò)的結(jié)構(gòu)

      膠囊網(wǎng)絡(luò)框架是一個(gè)淺層的框架,主要有3部分:卷積層、初級(jí)膠囊層、數(shù)字膠囊層,如圖2所示。

      圖2 膠囊網(wǎng)絡(luò)結(jié)構(gòu)圖Fig.2 Capsule network structure diagram

      其中,卷積層主要用來提取輸入數(shù)據(jù)的特征,它是一個(gè)通道數(shù)為256,卷積核大小為9×9,步長(zhǎng)為1的單卷積層,激活函數(shù)采用ReLU 激活函數(shù)。初級(jí)膠囊層主要分為兩個(gè)部分:第一部分是一個(gè)通道數(shù)為256,卷積核大小為9×9,步長(zhǎng)為2的單卷積層;第二部分是一個(gè)reshape操作,將提取到的特征封裝為32個(gè)膠囊,每個(gè)膠囊含有8個(gè)卷積單元。數(shù)字膠囊層是初級(jí)膠囊層經(jīng)過路由機(jī)制得到的,數(shù)字膠囊層有7個(gè)膠囊,即將人臉面部表情分為7類。

      1.2.2 路由機(jī)制

      路由機(jī)制是膠囊網(wǎng)絡(luò)的核心,低層特征與高層特征之間是通過路由機(jī)制來更新權(quán)重系數(shù)的,在Hinton提出的膠囊網(wǎng)絡(luò)中采用的是動(dòng)態(tài)路由機(jī)制(dynamic routing),其原理圖如圖3所示,圖3是以路由機(jī)制迭代3次,任意個(gè)膠囊為例,展示膠囊網(wǎng)絡(luò)的動(dòng)態(tài)路由機(jī)制原理。其中V1~Vi是輸入膠囊,W1~Wi是權(quán)重矩陣,C11~Ci3是耦合系數(shù),V是輸出膠囊,U1~Ui、S1~Si和A1~Ai是中間值,Squashing是一個(gè)非線性的“擠壓”操作,目的是為了在保持膠囊方向不變的前提下,將膠囊的長(zhǎng)度收縮在0~1之間,其公式為

      圖3 動(dòng)態(tài)路由機(jī)制Fig.3 Dynamic routing mechanism

      其中‖Si‖是向量Si的模,當(dāng)‖Si‖2比較大時(shí),Vi的值趨向于1,當(dāng)‖Si‖2比較小時(shí),Vi的值趨向于0。

      1.3 注意力機(jī)制

      當(dāng)人進(jìn)入到一個(gè)新場(chǎng)景或者看到某張圖片時(shí)會(huì)有一個(gè)重點(diǎn)關(guān)注的區(qū)域,也就是注意力焦點(diǎn),人們會(huì)分配更多的注意力在這些區(qū)域以獲得更多的細(xì)節(jié),這就是人類所具有的選擇性注意力機(jī)制。深度學(xué)習(xí)的注意力機(jī)制[18-19]借鑒了人類的注意力機(jī)制,使得計(jì)算機(jī)可以像人類一樣可以重點(diǎn)關(guān)注圖片中的關(guān)鍵信息。目前,注意力機(jī)制從關(guān)注域方面可以分為3類:空間域注意力機(jī)制、通道域注意力機(jī)制和混合域注意力機(jī)制。

      空間域注意力機(jī)制如圖4(a)所示,它是將輸入的數(shù)據(jù)經(jīng)過一個(gè)空間轉(zhuǎn)換器(spatial transformer)模型,該模型能夠?qū)斎雸D像中的空間域信息進(jìn)行空間轉(zhuǎn)換,從而提取出關(guān)鍵的特征信息,并賦予不同的權(quán)重。通道域注意力機(jī)制如圖4(b)所示,它是先進(jìn)行Squeeze操作,將空間維度進(jìn)行特征壓縮,即每個(gè)二維的特征圖變成一個(gè)實(shí)數(shù),也就是該通道的權(quán)重,這相當(dāng)于具有全局感受野的池化操作,特征通道數(shù)不變?;旌嫌蜃⒁饬C(jī)制是將空間域和通道域注意力機(jī)制結(jié)合起來,這樣就可以同時(shí)擁有這兩種注意力機(jī)制的特性。

      圖4 注意力機(jī)制Fig.4 Attention mechanism

      1.4 本研究網(wǎng)絡(luò)結(jié)構(gòu)

      雖然Hinton提出的膠囊網(wǎng)絡(luò)在手寫體識(shí)別上取得業(yè)界最高的識(shí)別率,但是由于膠囊網(wǎng)絡(luò)前面特征提取部分只有兩個(gè)單卷積層,在對(duì)人臉面部表情特征提取時(shí),特征提取不全,因此,本研究對(duì)膠囊網(wǎng)絡(luò)前的卷積模塊進(jìn)行網(wǎng)絡(luò)加深。首先對(duì)Res Net18進(jìn)行改進(jìn),然后用改進(jìn)后的ResNet18 替換膠囊網(wǎng)絡(luò)的單卷積模塊,得到本研究的ResCaps Net網(wǎng)絡(luò)。具體的網(wǎng)絡(luò)結(jié)構(gòu)如下。

      首先,因人臉表情分類工作由膠囊網(wǎng)絡(luò)中的數(shù)字膠囊層來完成,所以去掉ResNet18的全連接層;然后為不損失卷積模塊提取到的特征,剔除全局平均池化層;另外還調(diào)整原ResNet18 第1 個(gè)卷積層的卷積核大小,原3×3的卷積核改為5×5 的;最后,對(duì)殘差模塊(Basic Block)進(jìn)行改進(jìn),其中第1個(gè)殘差塊保持不變,將第2、第3個(gè)殘差塊的步長(zhǎng)調(diào)整為1,第4個(gè)殘差塊的步長(zhǎng)保持不變,但將其通道數(shù)改為256。

      除此之外,為進(jìn)一步提升網(wǎng)絡(luò)性能,在4個(gè)殘差塊中加入CBAM 注意力機(jī)制,他是一種混合域的注意力機(jī)制,包含空間域和通道域兩種注意力模塊,其總體結(jié)構(gòu),如圖5所示。

      圖5 CBAM 注意力機(jī)制Fig.5 CBAM attention mechanism

      其中,通道域注意力模塊如圖6所示,它是在輸入特征F1上分別進(jìn)行全局最大池化和全局平均池化得到兩個(gè)一維向量,經(jīng)過共享的MLP層,然后相加再經(jīng)過Sigmoid激活函數(shù),得到通道注意力權(quán)重Mc(F1),Mc(F1)與輸入特征F1相乘后得到特征F2。

      圖6 通道域注意力模塊Fig.6 Channel domain attention mechanism

      空間域注意力模塊如圖7所示,它是在特征F2上進(jìn)行最大池化和平均池化,得到兩個(gè)特征圖,然后經(jīng)過一個(gè)7×7的卷積,得到一個(gè)新的特征圖,再經(jīng)過BN層和Sigmoid激活函數(shù),得到空間注意力權(quán)重Mc(F2),Mc(F2)與特征F2相乘后得到輸出特征F3。

      圖7 空間域注意力模塊Fig.7 Spatial domain attention mechanism

      最后將上述搭建的網(wǎng)絡(luò)與膠囊網(wǎng)絡(luò)進(jìn)行結(jié)合。由改進(jìn)后的ResNet18 來提取人臉面部表情的特征,再將提取到的特征圖送入膠囊網(wǎng)絡(luò)進(jìn)行訓(xùn)練和分類,具體網(wǎng)絡(luò)結(jié)構(gòu)如圖8所示。

      圖8 改進(jìn)的網(wǎng)絡(luò)結(jié)構(gòu)圖Fig.8 Improved network structure diagram

      1.5 數(shù)據(jù)集

      本研究所用到的數(shù)據(jù)集有:CK+、RAF-db 和FER+。

      CK+:該數(shù)據(jù)集是在實(shí)驗(yàn)室條件下建立的數(shù)據(jù)集,發(fā)布于2010 年,共有981 張48×48 大小的圖片,該數(shù)據(jù)集共分為7類表情。

      RAF-db:該數(shù)據(jù)集制作是目前最嚴(yán)苛的人臉表情數(shù)據(jù)集,該數(shù)據(jù)集中的每張圖片都是通過40個(gè)標(biāo)注者投票,然后取最高票數(shù)的那一類表情作為該圖片的標(biāo)簽,圖片大小是100×100。

      FER+:該數(shù)據(jù)集是英特爾公司在2017年時(shí)對(duì)FER2013數(shù)據(jù)集重新標(biāo)注而來,圖片大小是48×48。它將數(shù)據(jù)分為10類,實(shí)驗(yàn)僅使用其中7類表情。

      2 結(jié)果與分析

      為驗(yàn)證本研究所提出的人臉表情識(shí)別方法的可行性和有效性,在CK+、RAF-db和FER+數(shù)據(jù)集上進(jìn)行一系列實(shí)驗(yàn)。其中在使用FER+數(shù)據(jù)集時(shí),采用兩種方法:一種是單標(biāo)簽,即選用最大概率的表情作為該圖片的標(biāo)簽;二是考慮到數(shù)據(jù)集存在兩種等概率表情的圖片,如一張圖片中性和悲傷表情的概率均為40%等,因此采用雙標(biāo)簽來對(duì)數(shù)據(jù)進(jìn)行標(biāo)注。測(cè)試時(shí),選擇分類概率最高的作為識(shí)別結(jié)果,然后與標(biāo)簽進(jìn)行對(duì)比,所有識(shí)別正確的圖片數(shù)與總數(shù)相比算出識(shí)別率。

      2.1 改進(jìn)的ResNet18與膠囊網(wǎng)絡(luò)結(jié)合實(shí)驗(yàn)分析

      表1是3個(gè)數(shù)據(jù)集在不同網(wǎng)絡(luò)下的識(shí)別率,從中可以看出在CK+數(shù)據(jù)集上,單獨(dú)的CapsNet對(duì)于人臉表情識(shí)別的準(zhǔn)確率是非常低的。這是因?yàn)镃apsNet只有單卷積層,對(duì)復(fù)雜的人臉表情特征提取不足,再加上該網(wǎng)絡(luò)的魯棒性要比卷積神經(jīng)網(wǎng)絡(luò)差一些,導(dǎo)致其在人臉表情識(shí)別方面比Res Net18差很多,但是Caps Net在訓(xùn)練時(shí)收斂比較快,訓(xùn)練50代左右就可以達(dá)到最高準(zhǔn)確率,而ResNet18需要訓(xùn)練200代左右才能達(dá)到最高準(zhǔn)確率。本研究將二者進(jìn)行結(jié)合使其優(yōu)勢(shì)互補(bǔ),ResCapsNet網(wǎng)絡(luò)僅需訓(xùn)練50 代左右就可以達(dá)到最高準(zhǔn)確率,而且在CK+、RAF-db和FER+3個(gè)數(shù)據(jù)集上識(shí)別率分別提升了3.03%、6.30%、3.35%。

      表1 3個(gè)數(shù)據(jù)集在不同網(wǎng)絡(luò)下的識(shí)別率Table 1 The recognition rate of three data sets in different networks

      2.2 注意力機(jī)制對(duì)網(wǎng)絡(luò)性能影響分析

      為進(jìn)一步提高網(wǎng)絡(luò)性能,本研究在ResCapsNet中采用兩種方式添加不同的注意力機(jī)制,如圖9所示,并在RAF-db、FER+數(shù)據(jù)集上進(jìn)行對(duì)比實(shí)驗(yàn),具體實(shí)驗(yàn)結(jié)果如表2、3所示。

      表2 RAF-db數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果Table 2 Experimental results of RAF-db data set

      表3 FER+(單標(biāo)簽)數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果Table 3 Experimental results of FER+(single label)data set

      圖9 兩種注意力機(jī)制添加方式Fig.9 Add attention mechanism with two ways

      ResCaps Net中共有4個(gè)殘差塊,圖9中展示的是在一個(gè)殘差塊中如何添加CBAM 注意力機(jī)制。從表2、3中的實(shí)驗(yàn)結(jié)果不難看出方式二的準(zhǔn)確率普遍比方式一高,而且在3 種注意力機(jī)制中,添加CBAM 的效果最好。從表4中可以看出ResCaps-Net在采用方式二添加CBAM 注意力機(jī)制后,比未添加時(shí),CK+數(shù)據(jù)集識(shí)別準(zhǔn)確率提升1.01%,RAF-db數(shù)據(jù)集提升1.24%,FER+數(shù)據(jù)集識(shí)別提升1.28%,由此可以說明在殘差塊中添加CBAM注意力機(jī)制是非常有效的。

      表4 有無CBAM 注意力機(jī)制實(shí)驗(yàn)結(jié)果對(duì)比Table 4 Comparison of experimental results with or without CBAM attention mechanism

      2.3 不同方法實(shí)驗(yàn)結(jié)果對(duì)比分析

      表5、6是加入CBAM 注意力機(jī)制的ResCaps-Net網(wǎng)絡(luò)在RAF-db和FER+數(shù)據(jù)集上與其他文獻(xiàn)中方法的實(shí)驗(yàn)結(jié)果對(duì)比。從2個(gè)表中可以看出與目前人臉表情識(shí)別方法相比,本研究所提出的方法是具有一定優(yōu)勢(shì)的。并且從表6 中可以明顯看出,FER+ 數(shù)據(jù)集采用雙標(biāo)簽識(shí)別準(zhǔn)確率達(dá)到94.14%,遠(yuǎn)高于單標(biāo)簽準(zhǔn)確率,由此在一定程度上說明生活中人臉面部表情并不是單一表情,而是多種表情復(fù)合而成。

      表5 RAF-db數(shù)據(jù)集在不同方法下的實(shí)驗(yàn)結(jié)果Table 5 Experimental results of RAF-db data set under different methods

      表6 FER+數(shù)據(jù)集在不同方法下的實(shí)驗(yàn)結(jié)果Table 6 Experimental results of FER+data set under different method

      3 結(jié) 語

      提出一種改進(jìn)的Res Net18與膠囊網(wǎng)絡(luò)結(jié)合的方法,并應(yīng)用于人臉表情識(shí)別。改進(jìn)的方法與僅用卷積神經(jīng)網(wǎng)絡(luò)提取人臉表情特征相比,提取到的圖像特征更豐富,并且訓(xùn)練迭代次數(shù)少,僅需要迭代五十幾次就可以擬合,要遠(yuǎn)少于傳統(tǒng)的卷積神經(jīng)網(wǎng)絡(luò)。在CK+、RAF-db和FER+數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn)后,實(shí)驗(yàn)結(jié)果表明該網(wǎng)絡(luò)在人臉表情識(shí)別方面具有較高的準(zhǔn)確率。本研究后續(xù)的工作將從如何優(yōu)化網(wǎng)絡(luò)模型,減少網(wǎng)絡(luò)參數(shù)量,提高識(shí)別速度方面進(jìn)行研究。

      猜你喜歡
      人臉殘差注意力
      基于雙向GRU與殘差擬合的車輛跟馳建模
      讓注意力“飛”回來
      有特點(diǎn)的人臉
      基于殘差學(xué)習(xí)的自適應(yīng)無人機(jī)目標(biāo)跟蹤算法
      基于遞歸殘差網(wǎng)絡(luò)的圖像超分辨率重建
      三國漫——人臉解鎖
      “揚(yáng)眼”APP:讓注意力“變現(xiàn)”
      A Beautiful Way Of Looking At Things
      平穩(wěn)自相關(guān)過程的殘差累積和控制圖
      河南科技(2015年8期)2015-03-11 16:23:52
      馬面部與人臉相似度驚人
      合肥市| 日照市| 孟州市| 南阳市| 黑河市| 迭部县| 彝良县| 泾川县| 和林格尔县| 米脂县| 故城县| 嘉义县| 苍溪县| 吴旗县| 读书| 镇坪县| 鄂托克旗| 钦州市| 赤壁市| 孙吴县| 佛学| 英吉沙县| 汝州市| 磐石市| 余江县| 昌图县| 阳西县| 横峰县| 新干县| 新密市| 商都县| 西昌市| 孝感市| 五原县| 镶黄旗| 万荣县| 潼南县| 永靖县| 上饶县| 盖州市| 谢通门县|