張?為,李?璞
基于注意力機(jī)制的人臉表情識(shí)別網(wǎng)絡(luò)
張?為,李?璞
(天津大學(xué)微電子學(xué)院,天津 300072)
人臉表情識(shí)別一直是計(jì)算機(jī)視覺(jué)領(lǐng)域的一個(gè)難題.近年來(lái),隨著深度學(xué)習(xí)的飛速發(fā)展,一些基于卷積神經(jīng)網(wǎng)絡(luò)的方法大大提高了人臉表情識(shí)別的準(zhǔn)確率,但未能充分利用人臉圖像中的信息,這是由于對(duì)于面部表情識(shí)別有意義的特征主要集中在一些關(guān)鍵位置,例如眼睛、鼻子和嘴巴等區(qū)域,因此在特征提取時(shí)增加這些關(guān)鍵位置的權(quán)重可以改善表情識(shí)別的效果.為此,提出一種基于注意力機(jī)制的人臉表情識(shí)別網(wǎng)絡(luò).首先在主干網(wǎng)絡(luò)中加入了深淺層特征融合結(jié)構(gòu),以充分提取原始圖像中不同尺度的淺層特征,并將其與深層特征級(jí)聯(lián),以減少前向傳播時(shí)的信息丟失.然后在網(wǎng)絡(luò)中嵌入一種基于兩步法的通道注意力模塊,對(duì)級(jí)聯(lián)后的特征圖中的通道信息進(jìn)行編碼,得到通道注意力圖,再將其與級(jí)聯(lián)特征圖逐元素相乘,得到通道加權(quán)特征圖,將多尺度特征提取與空間注意力相結(jié)合,提出多尺度空間注意力模塊,對(duì)通道加權(quán)特征圖的不同位置進(jìn)行加權(quán),得到空間加權(quán)特征圖.最后將通道和空間均已加權(quán)的特征圖輸入到后續(xù)網(wǎng)絡(luò)中繼續(xù)進(jìn)行特征提取和分類.實(shí)驗(yàn)結(jié)果表明,所提出的方法與現(xiàn)有的基于深度學(xué)習(xí)的方法相比,在擴(kuò)展的Cohn-Kanada數(shù)據(jù)集上的表情識(shí)別準(zhǔn)確率提高了0~3%,在OULU-CASIA NIR&VIS數(shù)據(jù)集上的表情識(shí)別準(zhǔn)確率提高了1%~8%,證明了該方法的有效性.
人臉表情識(shí)別;卷積神經(jīng)網(wǎng)絡(luò);注意力機(jī)制;深淺層特征融合
人臉表情識(shí)別是人臉識(shí)別技術(shù)的重要組成部分,近年來(lái),在人機(jī)交互、自動(dòng)駕駛、精準(zhǔn)營(yíng)銷、課堂教學(xué)等領(lǐng)域得到了廣泛應(yīng)用,成為學(xué)術(shù)界和工業(yè)界的研究熱點(diǎn).根據(jù)特征提取方法的不同,人臉表情識(shí)別技術(shù)大致可以分為兩種方法:手工特征提取方法和基于深度學(xué)習(xí)的特征提取方法.
在早期的人臉表情識(shí)別方法中,首先進(jìn)行人工特征提取,然后將特征向量輸入到分類器中進(jìn)行訓(xùn)練.特征提取的質(zhì)量直接影響到面部表情分類的效果.常用的人臉特征提取方法有局部二值模式(local binary pattern,LBP)[1]、局部定向模式(local directional pattern,LDP)[2]和Gabor小波變換等[3].傳統(tǒng)的人臉特征提取方法雖然取得了一定的效果,但其缺點(diǎn)是人臉特征的提取是手工進(jìn)行的,容易受到干擾.近年來(lái),卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural network,?CNN)在計(jì)算機(jī)視覺(jué)研究中得到了廣泛的應(yīng)用,并在面部表情識(shí)別任務(wù)中取得了良好的效果.與傳統(tǒng)方法相比,CNN的主要優(yōu)點(diǎn)是網(wǎng)絡(luò)的輸入是原始圖像,避免了前期復(fù)雜的預(yù)處理.文獻(xiàn)[4]提出了一種身份感知的卷積神經(jīng)網(wǎng)絡(luò),使用兩個(gè)卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行訓(xùn)練,一個(gè)用于訓(xùn)練與面部表情相關(guān)的特征,另一個(gè)用于訓(xùn)練與身份相關(guān)的特征,提高了對(duì)不同人臉的表情識(shí)別準(zhǔn)確率.Mollahosseini等[5]以Incepiton層為基礎(chǔ)增加了網(wǎng)絡(luò)的寬度和深度,在CK+等數(shù)據(jù)集上取得了良好的效果.文獻(xiàn)[6]提出了一種融合卷積神經(jīng)網(wǎng)絡(luò),通過(guò)改進(jìn)的LeNet和ResNet分別提取面部特征,再將兩個(gè)特征向量連接起來(lái)用于分類,提高了面部表情識(shí)別的準(zhǔn)確性和魯棒性.Lee等[7]設(shè)計(jì)了一種分別提取人臉和背景區(qū)域特征的雙流編碼網(wǎng)絡(luò),結(jié)合情景進(jìn)行表情識(shí)別,使網(wǎng)絡(luò)減少歧義并提高情緒識(shí)別的準(zhǔn)確性.文獻(xiàn)[8]提出了一種自我修復(fù)網(wǎng)絡(luò)(self-cure network,SCN),通過(guò)排序正則化對(duì)訓(xùn)練中的每個(gè)樣本進(jìn)行加權(quán),緩解了大規(guī)模面部表情數(shù)據(jù)集標(biāo)注不準(zhǔn)確的問(wèn)題.雖然這些基于卷積神經(jīng)網(wǎng)絡(luò)的方法大大提高了人臉表情識(shí)別的準(zhǔn)確率,但仍未能充分利用人臉圖像中的信息.主要是由于對(duì)于面部表情識(shí)別任務(wù),可用于識(shí)別的特征主要集中在一些關(guān)鍵位置,例如眼睛、鼻子和嘴巴,因此增加這些關(guān)鍵特征的權(quán)重有助于改善表情識(shí)別效果.
人類的視覺(jué)系統(tǒng)傾向于關(guān)注圖像中輔助判斷的部分信息,并忽略掉不相關(guān)的信息.同樣,在計(jì)算機(jī)視覺(jué)中,某些輸入特征可能會(huì)比其他部分對(duì)決策更有幫助.因此可以通過(guò)學(xué)習(xí)中間注意力圖,然后在注意力圖和源特征圖上采用逐元素乘積的方式來(lái)給不同特征增加權(quán)重,從而選擇最具代表性的特征進(jìn)行分類. Hu等[9]提出了壓縮激勵(lì)模塊(squeeze-and-excitation block,SE block),證明了該模塊能以很小的額外計(jì)算成本給現(xiàn)有的深度卷積神經(jīng)網(wǎng)絡(luò)帶來(lái)顯著的性能提升.文獻(xiàn)[10]提出了一種自注意力編碼網(wǎng)絡(luò),首先計(jì)算特征圖每個(gè)通道的L2范數(shù)平方的倒數(shù),然后將該值與每個(gè)通道相乘得到加權(quán)特征圖,有效地增大了稀疏特征圖的權(quán)重.Woo等[11]設(shè)計(jì)了卷積塊注意力模塊(convolutional block attention module,CBAM),將通道注意力和空間注意力結(jié)合起來(lái),進(jìn)一步提高了卷積神經(jīng)網(wǎng)絡(luò)的性能.雖然現(xiàn)有的注意力機(jī)制改善了網(wǎng)絡(luò)的性能,但目前在計(jì)算通道注意力時(shí),為了匯總空間信息,通常采用平均池化或最大池化一次性地將每個(gè)通道上的所有空間特征編碼為一個(gè)全局特征.這種暴力的編碼方式會(huì)損失較多的信息,從而使學(xué)習(xí)到的注意力不準(zhǔn)確.
針對(duì)以上問(wèn)題,本文提出一種分兩步匯總空間信息的方法,可以更加精細(xì)地編碼空間特征,從而使學(xué)習(xí)到的通道注意力更加具有代表性.為了給一張?zhí)卣鲌D的不同位置賦予不同的權(quán)重,本文還提出一種多尺度空間注意力機(jī)制,以關(guān)注人臉關(guān)鍵部位的特征.此外,卷積神經(jīng)網(wǎng)絡(luò)在前向傳播過(guò)程中會(huì)丟失信息,而淺層特征包含了豐富的圖像信息.因此,本文充分提取原始圖像中不同尺度的淺層特征,然后與主干網(wǎng)絡(luò)中的深層特征堆疊,進(jìn)行深淺層特征融合,以提取出豐富的原始圖像信息.
圖1?本文網(wǎng)絡(luò)結(jié)構(gòu)示意
表1?主干網(wǎng)絡(luò)的最后幾個(gè)卷積層以及分類器
由于特征圖的每個(gè)通道都可以視為一個(gè)特征檢測(cè)器[14],因此可以賦予它們一個(gè)權(quán)重,給重要的通道更多的關(guān)注,給那些相對(duì)無(wú)用的通道較少的關(guān)注,可以提高網(wǎng)絡(luò)的特征提取能力.為了有效地計(jì)算通道注意力,需要將每個(gè)通道內(nèi)部的全局空間信息壓縮到一個(gè)通道描述符中.傳統(tǒng)的方法通常僅采用平均池化來(lái)壓縮空間信息,文獻(xiàn)[11]證明了采用平局池化和最大池化結(jié)合的方式可以更加精細(xì)地推斷通道注意力.此外,目前的通道注意力模塊大都采用暴力的編碼方式匯總空間信息,即將特征圖的尺寸從××直接壓縮到×1×1(其中表示特征圖的通道數(shù),表示高,表示寬),這種壓縮方式的優(yōu)點(diǎn)是簡(jiǎn)單,但也會(huì)不可避免地?fù)p失較多信息.為了解決這個(gè)問(wèn)題,本文提出一種新的基于兩步法的通道注意力模塊,可以更加精細(xì)地編碼空間特征,將其插入到深淺層特征融合之后,以關(guān)注那些增益較大的通道,抑制無(wú)關(guān)特征.
所提出的通道注意力模塊如圖2所示.與現(xiàn)有的方法不同,該方法分兩步匯總空間信息.首先通過(guò)平均池化和最大池化來(lái)聚合特征圖的空間信息,先將特征圖的維度壓縮到×3×3,而非×1×1,因此保留的空間信息是原來(lái)的9倍,以便于進(jìn)一步學(xué)習(xí)空間特征.然后將它們輸入到無(wú)填充的3×3卷積層中,以進(jìn)一步聚合空間信息,將每個(gè)通道編碼為一個(gè)特征描述子.同時(shí)將特征維度降低到輸入的1/(表示降維系數(shù)),以更好地?cái)M合通道間的相關(guān)性,并減少參數(shù)量和計(jì)算量.然后特征圖被輸入到一個(gè)1×1卷積層后將通道維數(shù)恢復(fù)為,并將兩個(gè)特征圖逐元素相加.為減少參數(shù)量,3×3卷積層和1×1卷積層對(duì)每個(gè)特征圖是共享的.最后采用sigmoid函數(shù)對(duì)合并后的特征圖進(jìn)行激活,將每個(gè)通道描述符壓縮到0~1范圍內(nèi),即得到了通道注意力圖.通道注意力的計(jì)算公式為
圖2?通道注意力模塊
在面部表情識(shí)別任務(wù)中,對(duì)表情分類有意義的特征主要集中在眉毛、眼睛、鼻子和嘴巴等關(guān)鍵部位,這是由于這些位置包含的紋理信息較多,當(dāng)人做出不同表情時(shí),這些位置的特征(如梯度和灰度等)會(huì)發(fā)生劇烈變化,因此可以通過(guò)空間注意力模塊在特征圖上增加這些關(guān)鍵部位的權(quán)重,使網(wǎng)絡(luò)更加專注于對(duì)表情識(shí)別至關(guān)重要的特征,提高網(wǎng)絡(luò)的特征提取能力.而不同部位(如眼睛、鼻子、嘴巴等)的特征可能存在于不同大小的感受野中,并且根據(jù)人臉在輸入圖片中所占的比例不同,紋理特征也會(huì)存在于不同大小的感受野中,如果感受野太小,則只能觀察到局部的特征,如果感受野太大,則獲取了過(guò)多的無(wú)效信息,因此本文將多尺度特征提取與空間注意力結(jié)合,相比于單尺度注意力,可以更加魯棒地提取權(quán)重特征.
圖3?多尺度空間注意力模塊
1) 擴(kuò)展的Cohn-Kanada(CK+)數(shù)據(jù)集
擴(kuò)展的Cohn-Kanada(CK+)數(shù)據(jù)集包含123名參與者的593個(gè)序列,其中118名參與者的327個(gè)序列有標(biāo)簽,共有6種基本面部表情(即憤怒、厭惡、恐懼、幸福、悲傷和驚訝).每個(gè)序列中包含了表情從平靜到峰值的圖片.從中選取927張峰值表情圖片,并增加227張中性表情圖片構(gòu)成7類表情數(shù)據(jù)集.7類表情的圖片數(shù)量分別為135、177、75、207、84、249和227,共1154張.
2) OULU-CASIA數(shù)據(jù)集
OULU-CASIA NIR&VIS面部表情數(shù)據(jù)集包含來(lái)自80名參與者的6種典型表情(高興、悲傷、驚訝、憤怒、恐懼、厭惡)的視頻.這些視頻是通過(guò)近紅外和可見(jiàn)光兩種成像系統(tǒng)在正常照明、弱照明和暗照明3種不同的光照條件下拍攝的.在本實(shí)驗(yàn)中,只使用可見(jiàn)光攝像機(jī)在正常光照下拍攝的視頻.一共有480個(gè)序列,每個(gè)序列同樣包含表情從平靜到峰值的一組圖片.選擇每個(gè)序列的后3幀進(jìn)行評(píng)估,即共有1440張圖片,構(gòu)成6類表情數(shù)據(jù)集.
首先通過(guò)face_recognition庫(kù)進(jìn)行人臉檢測(cè),提取出圖像中的臉部區(qū)域并統(tǒng)一縮放到220×220,然后將圖像的3個(gè)通道合并,保存為灰度圖,如圖4所示.訓(xùn)練時(shí)將輸入圖片隨機(jī)水平翻轉(zhuǎn),以增強(qiáng)網(wǎng)絡(luò)的泛化能力.實(shí)驗(yàn)采用交叉熵?fù)p失函數(shù)和隨機(jī)梯度下降法優(yōu)化總體損失,損失函數(shù)計(jì)算公式為
圖4?預(yù)處理后的人臉表情
式中:為樣本數(shù);為標(biāo)簽類別數(shù),、分別為樣本和類別索引號(hào);y,表示真實(shí)值向量;p,表示預(yù)測(cè)值向量.
批量大小設(shè)置為8,初始學(xué)習(xí)率設(shè)置為0.01,動(dòng)量初始化為0.9,訓(xùn)練輪數(shù)設(shè)置為200,50輪后,學(xué)習(xí)率開(kāi)始以每5輪0.9倍的速率衰減.計(jì)算公式為
式中:表示當(dāng)前訓(xùn)練輪數(shù);INT()表示向下取整.
測(cè)試時(shí),通過(guò)裁剪左上角、左下角、右上角、右下角和中心,然后對(duì)每幅裁剪圖像進(jìn)行翻轉(zhuǎn),得到10張216×216大小的圖片.取這10張圖片的預(yù)測(cè)結(jié)果的平均值來(lái)做最終的決策,以減少分類誤差.訓(xùn)練集與測(cè)試集的比值為4∶1.模型訓(xùn)練是在具有11Gb內(nèi)存的GeForce RTX 2080Ti GPU上完成的,利用了Pytorch深度學(xué)習(xí)框架.
所提出的模型由主干網(wǎng)絡(luò)部分、深淺層特征融合結(jié)構(gòu)、通道注意力和空間注意力模塊4個(gè)部分組成.為了研究每個(gè)模塊對(duì)網(wǎng)絡(luò)性能的影響,本文將兩個(gè)表情數(shù)據(jù)集合并為一個(gè)大數(shù)據(jù)集,進(jìn)行消融研究.首先測(cè)試了基準(zhǔn)網(wǎng)絡(luò)(GhostNet)的性能.然后在基準(zhǔn)網(wǎng)絡(luò)中加入深淺層特征融合結(jié)構(gòu),構(gòu)成深淺層特征融合網(wǎng)絡(luò)(deep and shallow feature fusion network,DSFFNet).為了對(duì)比所提出的基于兩步法的通道注意力與一步法通道注意力的性能,對(duì)所提出的通道注意力模塊進(jìn)行修改,利用平均池化和最大池化將特征圖的維度直接壓縮到×1×1,并將3×3卷積改為1×1卷積,將其嵌入到網(wǎng)絡(luò)中,構(gòu)成了基于一步法通道注意力網(wǎng)絡(luò)(one-step channel attention module based network,OSCAM-Net).此外,為了對(duì)比所提出的通道注意力模塊和目前最常用的注意力模塊的性能,將上述網(wǎng)絡(luò)中的注意力模塊替換為SE block,構(gòu)成了基于SE block的網(wǎng)絡(luò)SE-Net.再將SE block替換為所提出的通道注意力模塊(channel attention module,CAM),構(gòu)成了基于CAM的網(wǎng)絡(luò)CAM-Net.為了對(duì)比多尺度空間注意力與單尺度空間注意力機(jī)制的性能,首先在CAM-Net中加入單尺度空間注意力模塊(即僅用3×3的卷積核提取空間注意力),構(gòu)成網(wǎng)絡(luò)Ours_1,然后將單尺度空間注意力模塊替換為所提出的多尺度空間注意力模塊(multiscale spatial attention module,MSAM),構(gòu)成了本文最終的網(wǎng)絡(luò)Ours_2.以上幾個(gè)網(wǎng)絡(luò)的消融實(shí)驗(yàn)結(jié)果如表2所示.
表2?不同網(wǎng)絡(luò)的消融實(shí)驗(yàn)結(jié)果
Tab.2?Ablation experiment results of different networks
由表2可以看出,深淺層特征融合網(wǎng)絡(luò)相比基準(zhǔn)網(wǎng)絡(luò)的表情識(shí)別準(zhǔn)確率提高了1.23%.當(dāng)在網(wǎng)絡(luò)中加入基于一步法的通道注意力后性能又有所提升.而CAM-Net相比于OSCAM-Net識(shí)別準(zhǔn)確率提高了1%以上,并且相對(duì)于目前常用的通道注意力模塊SE block識(shí)別準(zhǔn)確率提高了2.3%左右,進(jìn)一步證明了所提出的通道注意力模塊的有效性.而Ours_1與CAM-Net的分類準(zhǔn)確率幾乎相當(dāng),說(shuō)明單尺度空間注意力無(wú)法準(zhǔn)確地提取出空間權(quán)重特征,不同位置的權(quán)重差別不大,無(wú)法有效提高網(wǎng)絡(luò)性能.對(duì)比之下,Ours_2相比于CAM-Net識(shí)別準(zhǔn)確率有較大提升,證明多尺度特征提取與空間注意力結(jié)合具有可行性,能夠更加精細(xì)地編碼空間權(quán)重特征,提升網(wǎng)絡(luò)性能.由此,可以得出所提出的每個(gè)模塊對(duì)最終結(jié)果都有一定程度的改進(jìn).
此外,為了更加直觀地觀察學(xué)習(xí)到的空間注意力,將其做可視化處理,生成熱度圖,如圖5所示,從左到右表情依次為憤怒、厭惡、恐懼、高興、悲傷和驚訝.熱度圖清楚地顯示了注意力區(qū)域.對(duì)于不同的表情,注意力區(qū)域有所不同.例如,對(duì)于憤怒的表情,網(wǎng)絡(luò)的注意力更多地集中在眼睛和眉毛區(qū)域;對(duì)于高興和驚訝的表情,網(wǎng)絡(luò)的關(guān)注點(diǎn)主要在嘴巴上;而對(duì)于另外3種表情,眼睛眉毛和嘴巴都有一定的貢獻(xiàn).這也可以更好地幫助理解人類表情的表達(dá)方式.
圖5?不同表情的空間注意力熱度圖
本文還研究了所提出的網(wǎng)絡(luò)對(duì)不同表情的識(shí)別效果.由于CK+表情數(shù)據(jù)集中不同表情的樣本數(shù)量不同,模型對(duì)于不同的表情擬合程度不同,對(duì)于樣本數(shù)量較少的表情,模型訓(xùn)練會(huì)欠擬合,導(dǎo)致識(shí)別效果較差,因此結(jié)果不具有代表性.而OULU-CASIA表情數(shù)據(jù)集中各種表情的樣本數(shù)量相等,因此可以更加公平地比較模型對(duì)不同表情的識(shí)別效果,故僅在該數(shù)據(jù)集上比較網(wǎng)絡(luò)對(duì)不同表情的識(shí)別效果.混淆矩陣如圖6所示,其中縱坐標(biāo)表示真實(shí)標(biāo)簽,橫坐標(biāo)表示預(yù)測(cè)類別.可以看出,所提出的網(wǎng)絡(luò)對(duì)于恐懼、高興、驚訝3種表情具有很好的識(shí)別效果,基本可以達(dá)到95%以上,這是由于這幾種表情特征比較明顯(例如眼睛睜大、嘴巴張開(kāi)等),而對(duì)憤怒、厭惡和悲傷的識(shí)別效果稍差,一些標(biāo)記為憤怒的面部表情被識(shí)別為悲傷,一些標(biāo)記為厭惡的表情被分類為憤怒,標(biāo)記為悲傷的表情被分類為了厭惡,即這3種表情之間的分類出現(xiàn)了一些混淆現(xiàn)象.這些錯(cuò)誤與筆者在查看數(shù)據(jù)集中的圖像時(shí)看到的是一致的,即不同的人表達(dá)這幾種情緒的方式有差異,有些表情具有一定的相似性以至于人類都無(wú)法準(zhǔn)確地辨別.
圖6?不同表情的識(shí)別準(zhǔn)確率混淆矩陣
本文還將所提出的方法與在CK+數(shù)據(jù)集和OULU-CASIA數(shù)據(jù)集上評(píng)估的最新方法進(jìn)行了對(duì)比,對(duì)比結(jié)果如表3所示.其中加粗的數(shù)據(jù)分別為不同方法在該數(shù)據(jù)集上的最高準(zhǔn)確率以及本文方法的準(zhǔn)確率.可以看出,所提出方法的性能超過(guò)了大多數(shù)現(xiàn)有方法.在OULU-CASIA數(shù)據(jù)集上,與基于手工特征提取的算法相比提高了10%~20%,與基于深度學(xué)習(xí)的算法相比提高了1%~8%.在CK+數(shù)據(jù)集上,與基于手工特征提取的算法相比準(zhǔn)確率提高了7%~10%,與現(xiàn)有的基于深度學(xué)習(xí)的方法相比大約提高了0~3%,雖然Fu等[16]的方法在此數(shù)據(jù)集上略高于本文方法,但在OULU-CASIA數(shù)據(jù)集上本文方法比其高了2%以上,證明了本文方法的有效性和先進(jìn)性.
表3?兩個(gè)數(shù)據(jù)集上不同方法的表情識(shí)別準(zhǔn)確率
Tab.3 Expression recognition accuracy of different methods in the two datasets %
本文提出了一種新的人臉表情識(shí)別網(wǎng)絡(luò),將提出的深淺層特征融合結(jié)構(gòu)、通道注意力模塊以及多尺度空間注意力模塊結(jié)合在一起,使它們成為一個(gè)相互促進(jìn)的整體,提高了人臉表情識(shí)別的準(zhǔn)確率和泛化性能.此外,所提出的基于兩步法的通道注意力模塊和多尺度空間注意力模塊是即插即用的,可以作為一個(gè)組件嵌入到任何其他卷積神經(jīng)網(wǎng)絡(luò)中,以提升網(wǎng)絡(luò)的性能.在CK+和OULU-CASIA兩個(gè)數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果表明,本文方法對(duì)于表情識(shí)別的準(zhǔn)確率優(yōu)于大多數(shù)現(xiàn)有方法.未來(lái)希望繼續(xù)改進(jìn)網(wǎng)絡(luò),使網(wǎng)絡(luò)不僅局限于對(duì)空間域的特征提取,也加入一些時(shí)間域的信息,從而進(jìn)一步提高模型的泛化能力.
[1] Ojala T,Pietik?inen M,Harwood D. A comparative study of texture measures with classification based on featured distributions[J]. Pattern Recognition,1996,29(1):51-59.
[2] Jabid T,Kabir M H,Chae O. Facial expression recog-nition using local directional pattern(LDP)[C]//2010 IEEE International Conference on Image Processing. Hong Kong,China,2010:1605-1608.
[3] 龔?安,曾?雷. 基于Gabor變換與改進(jìn)SLLE的人臉表情識(shí)別[J]. 計(jì)算機(jī)系統(tǒng)應(yīng)用,2017,26(9):210-214.
Gong An,Zeng Lei. Facial expression recognition based on Gabor transform and improved SLLE[J]. Computer Systems & Applications,2017,26(9):210-214(in Chinese).
[4] Zhang C,Wang P,Chen K,et al. Identity-aware con-volutional neural networks for facial expression recogni-tion[J]. Journal of Systems Engineering and Electron-ics,2017,28(4):784-792.
[5] Mollahosseini A,Chan D,Mahoor M H. Going deeper in facial expression recognition using deep neural networks[C]//2016 IEEE Winter Conference on Applications of Computer Vision(WACV). Lake Placid,USA,2016:1-10.
[6] Liu K C,Hsu C C,Wang W Y,et al. Facial expression recognition using merged convolution neural network[C]//2019 IEEE 8th Global Conference on Consumer Electronics(GCCE). Osaka,Japan,2019:296-298.
[7] Lee J,Kim S,Kim S,et al. Context-aware emotion recognition networks[C]//Proceedings of the IEEE/CVF International Conference on Computer Vision. Seoul,Korea,2019:10143-10152.
[8] Wang K,Peng X,Yang J,et al. Suppressing uncertainties for large-scale facial expression recognition[C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. Seattle,USA,2020:6897-6906.
[9] Hu J,Shen L,Sun G. Squeeze-and-excitation networks[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. Salt Lake City,USA,2018:7132-7141.
[10] 冀?中,柴星亮. 基于自注意力和自編碼器的少樣本學(xué)習(xí)[J]. 天津大學(xué)學(xué)報(bào)(自然科學(xué)與工程技術(shù)版),2021,54(4):338-345.
Ji Zhong,Chai Xingliang. Few-shot learning based on self-attention and auto-encoder[J]. Journal of Tianjin University(Science and Technology),2021,54(4):338-345(in Chinese).
[11] Woo S,Park J,Lee J Y,et al. Cbam:Convolutional block attention module[C]//Proceedings of the European Conference on Computer Vision(ECCV). Munich,Germany,2018:3-19.
[12] Han K,Wang Y,Tian Q,et al. Ghostnet:More features from cheap operations[C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. Seattle,USA,2020:1580-1589.
[13] He K,Zhang X,Ren S,et al. Deep residual learning for image recognition[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. Las Vegas,USA,2016:770-778.
[14] Zeiler M D,F(xiàn)ergus R. Visualizing and understanding convolutional networks[C]//European Conference on Computer Vision. Zurich,Switzerland,2014:818-833.
[15] Szegedy C,Liu W,Jia Y,et al. Going deeper with convolutions[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. Boston,USA,2015:1-9.
[16] Fu Y,Wu X,Li X,et al. Semantic neighborhood-aware deep facial expression recognition[J]. IEEE Transactions on Image Processing,2020,29:6535-6548.
[17] Zhao G,Pietikainen M. Dynamic texture recognition using local binary patterns with an application to facial expressions[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence,2007,29(6):915-928.
[18] Guo Y,Zhao G,Pietik?inen M. Dynamic facial expression recognition using longitudinal facial expression atlases[C]//European Conference on Computer Vision. Firenze,Italy,2012:631-644.
[19] Zhong L,Liu Q,Yang P,et al. Learning active facial patches for expression analysis[C]//2012 IEEE Conference on Computer Vision and Pattern Recognition. Providence,USA,2012:2562-2569.
[20] Liu M,Shan S,Wang R,et al. Learning expressionlets on spatio-temporal manifold for dynamic facial expression recognition[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. Columbus,USA,2014:1749-1756.
[21] Jung H,Lee S,Yim J,et al. Joint fine-tuning in deep neural networks for facial expression recognition[C]// Proceedings of the IEEE International Conference on Computer Vision. Santiago,Chile,2015:2983-2991.
[22] Sikka K,Sharma G,Bartlett M. LOMO:Latent ordinal model for facial analysis in videos[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. Las Vegas,USA,2016:5580-5589.
[23] Meng Z,Liu P,Cai J,et al. Identity-aware convolutional neural network for facial expression recognition[C]//2017 12th IEEE International Conference on Automatic Face & Gesture Recognition(FG 2017). Washington,USA,2017:558-565.
[24] Kim J H,Kim B G,Roy P P,et al. Efficient facial expression recognition algorithm based on hierarchical deep neural network structure[J]. IEEE Access,2019,7:41273-41285.
[25] Li S,Deng W,Du J P. Reliable crowdsourcing and deep locality-preserving learning for expression recognition in the wild[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. Hono-lulu,USA,2017:2852-2861.
[26] Yang H,Zhang Z,Yin L. Identity-adaptive facial ex-pression recognition through expression regeneration us-ing conditional generative adversarial networks[C]//2018 13th IEEE International Conference on Automatic Face & Gesture Recognition. Xi’an,China,2018:294-301.
[27] Kumawat S,Verma M,Raman S. LBVCNN:Local binary volume convolutional neural network for facial expression recognition from image sequences[C]// Pro-ceedings of the IEEE/CVF Conference on Computer Vi-sion and Pattern Recognition Workshops. Long Beach,USA,2019:207-216.
Facial Expression Recognition Network Based on Attention Mechanism
Zhang Wei,Li Pu
(School of Microelectronics,Tianjin University,Tianjin 300072,China)
Facial expression recognition has remained a challenging problem in computer vision. Recently,with the rapid development of deep learning,some methods based on convolutional neural networks have greatly improved the accuracy of facial expression recognition. However,these methods have not fully used the available information because the meaningful features for facial expression recognition are mainly concentrated in some key locations,such as eyes,nose,and mouth. Increasing the weight of these key positions can improve the effect of facial expression recognition. This paper proposed a facial expression recognition network based on an attention mechanism. First,a deep and shallow feature fusion structure was added to the backbone network. This structure was designed to fully extract the shallow features at various scales from the original image and cascade these features with deep features to reduce information loss during forward propagation. Second,a two-step-based channel attention module was embedded in the network to encode the channel information in the cascaded feature map and obtain the channel attention map. Then,this paper proposed a multiscale spatial attention module by combining multiscale feature extraction with spatial attention. Through this module,various positions of the channel-weighted feature map were weighted to obtain the spatial-weighted feature map. Finally,the feature map whose channels and spatial positions were weighted was input into the subsequent network for feature extraction and classification. Experimental results show that this method improves the expression recognition accuracy by 0—3% and 1%—8% on the extended Cohn-Kanada and OULU-CASIA NIR(near infrared)&VIS(visible light)datasets,respectively,which proves the effectiveness of this method.
facial expression recognition;convolutional neural network;attention mechanism;deep and shallow feature fusion
10.11784/tdxbz202105001
TP391
A
0493-2137(2022)07-0706-08
2021-05-01;
2021-10-17.
張?為(1975—??),男,博士,教授.Email:m_bigm@tju.edu.cn
張?為,tjuzhangwei@tju.edu.cn.
新一代人工智能科技重大專項(xiàng)資助項(xiàng)目(19ZXZNGX00030);應(yīng)急管理部消防救援局科研計(jì)劃重點(diǎn)攻關(guān)項(xiàng)目(2019XFGG20).
the Major Projects of New Generation Artificial Intelligence Technology(No.19ZXZNGX00030),the Key Research Project of Fire Rescue Bureau of Emergency Management Department(No.2019XFGG20).
(責(zé)任編輯:王曉燕)