• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      基于卷積神經(jīng)網(wǎng)絡(luò)的人臉表情識(shí)別

      2020-09-28 07:05姚夢竹黃官偉
      電腦知識(shí)與技術(shù) 2020年16期
      關(guān)鍵詞:圖像分類卷積神經(jīng)網(wǎng)絡(luò)

      姚夢竹 黃官偉

      摘要:表情識(shí)別在醫(yī)學(xué)、商業(yè)和刑事偵查等領(lǐng)域中有著廣泛的應(yīng)用前景。針對表情識(shí)別技術(shù)的研究歷時(shí)半個(gè)世紀(jì),經(jīng)歷了由傳統(tǒng)的手工提取特征向卷積神經(jīng)網(wǎng)絡(luò)自動(dòng)提取特征的飛躍。卷積神經(jīng)網(wǎng)絡(luò)由于其自學(xué)習(xí)能力因而得到了廣泛應(yīng)用,但仍存在訓(xùn)練時(shí)間過長、參數(shù)量過大等問題。該文針對以上問題,在Xception神經(jīng)網(wǎng)絡(luò)的基礎(chǔ)上簡化了模型的網(wǎng)絡(luò)層級(jí),刪除了傳統(tǒng)神經(jīng)網(wǎng)絡(luò)的全連接層并使用深度可分離卷積替代傳統(tǒng)的卷積層,構(gòu)造了mini-Xception網(wǎng)絡(luò)模型。通過在Fer2013公開人臉表情數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn),取得了66%的識(shí)別精度。改進(jìn)后的模型顯著降低了訓(xùn)練參數(shù)量并縮短了訓(xùn)練時(shí)間,提高了模型的泛化能力。

      關(guān)鍵詞:表情識(shí)別;卷積神經(jīng)網(wǎng)絡(luò);批量歸一化;圖像分類

      中圖分類號(hào):TP18? ? ? 文獻(xiàn)標(biāo)識(shí)碼:A

      文章編號(hào):1009-3044(2020)16-0019-05

      開放科學(xué)(資源服務(wù))標(biāo)識(shí)碼(OSID):

      Abstract: Facial expression recognition has a broad application prospect in the areas such as medicine, business and criminal investigation. The research on facial expression recognition has been going on for half a century, the manual feature extraction has been improved to the automatic feature extraction based on the convolutional neural network (CNN). CNN has been widely used due to its self-learning characteristics, but there are still some problems such as too long training time and too many parameters. Aiming at the above problems, this paper simplifies the construction of the model Xception Neural Network, removes the full connection layer and uses the depthwise separable convolution to construct the model Mini-xception. Good results have been achieved on the DataSet Fer2013. The new model reduces the number of parameters and the training time, which contributes to the stronger generalization ability of the model.

      Key words: facial expression recognition;convolutional neural network; batch normalization; image classification

      1 背景

      人類的面部表情是其最直接有效的情緒表達(dá)方式,人臉表情在醫(yī)學(xué)診斷、刑事偵查以及日常的人際交往中扮演著重要的角色。針對表情識(shí)別技術(shù)的研究被認(rèn)為是未來人機(jī)情感交互的主要發(fā)展方向[1]。美國的心理學(xué)家Ekman和Friesen [2]經(jīng)過大量的實(shí)驗(yàn)與測試后,將人類的表情定義為以下六類:生氣(Angry)、厭惡(Disgust)、恐懼(Fear)、高興(Happy)、悲傷(Sad)和驚訝(Surprise)。伴隨著信息技術(shù)的飛速發(fā)展,國內(nèi)外研究者針對人臉表情識(shí)別技術(shù)提出了許多新的研究方法。針對人臉面部表情的研究為人工智能注入了全新血液,已成為計(jì)算機(jī)視覺領(lǐng)域的研究熱點(diǎn)。從20世紀(jì)70年代至今,表情識(shí)別經(jīng)歷了由手工提取特征到計(jì)算機(jī)自動(dòng)提取特征的創(chuàng)新性變革,這一變革是表情識(shí)別研究的一次飛躍[3]。

      人臉表情識(shí)別的主要框架分為三個(gè)步驟:圖像預(yù)處理、特征提取和表情分類,如圖1所示。

      圖片預(yù)處理實(shí)現(xiàn)了圖片大小及色彩的調(diào)整,使計(jì)算機(jī)讀入的圖片更易被處理。通過圖像的預(yù)處理,可以盡量消除光照、角度等無關(guān)因素對模型的影響。圖片經(jīng)處理后再輸入模型進(jìn)行訓(xùn)練,可大大提高模型識(shí)別的精確度。特征提取是指利用計(jì)算機(jī)對圖像中包含的信息進(jìn)行提取,獲取能夠表征該圖像所屬類別的屬性信息。由于最終的分類環(huán)節(jié)是基于提取到的特征組合來對圖像進(jìn)行分類,所以從訓(xùn)練集中提取的特征在表情分類中扮演著至關(guān)重要的角色。早期的研究使用傳統(tǒng)的手工特征提取方法,主要有局部二值模式(LBP)、梯度方向直方圖(HOG)、主成分分析法(PCA)等。LBP將局部特征進(jìn)行比較,并通過圖像的局部灰度變化關(guān)系來表征圖像的局部紋理特征[4]。LBP能避免光照不均、圖像移位等帶來的影響,有效地表征圖像紋理信息,且運(yùn)算速度快;但是,LBP對圖像噪聲的敏感度高,并且沒有考慮到中心像素與鄰域像素的差值幅度,導(dǎo)致數(shù)據(jù)信息的部分丟失。Albiol[5]等人于2008年提出了HOG-EBGM算法,該算法使用HOG描述符,采用了尺度變換和圖像旋轉(zhuǎn)的不變性。該算法對較微小的位移、光照不均及面部旋轉(zhuǎn)角度等具有更好的魯棒性。手工提取特征會(huì)提取到對分類結(jié)果無意義的特征,或忽略了對分類結(jié)果影響較大的特征,為解決這一難題,基于卷積神經(jīng)網(wǎng)絡(luò)的人臉表情識(shí)別便應(yīng)運(yùn)而生。

      2 卷積神經(jīng)網(wǎng)絡(luò)概述

      卷積神經(jīng)網(wǎng)絡(luò)是受到生物學(xué)視覺系統(tǒng)的感受野機(jī)制的啟發(fā)而提出的,即一個(gè)神經(jīng)元只接受其所支配的刺激區(qū)域內(nèi)的信號(hào)。經(jīng)過近半個(gè)世紀(jì)的研究,卷積神經(jīng)網(wǎng)絡(luò)已從早期的理論原型發(fā)展成為可投入到實(shí)際應(yīng)用的網(wǎng)絡(luò)模型。標(biāo)準(zhǔn)的卷積神經(jīng)網(wǎng)絡(luò)由輸入層、數(shù)個(gè)卷積層、池化層和全連接層堆疊而成,如圖2所示。

      卷積神經(jīng)網(wǎng)絡(luò)中包含多層結(jié)構(gòu),并通過反向傳播來揭示海量數(shù)據(jù)中的復(fù)雜關(guān)系。其具有局部連接、子采樣和權(quán)重共享的特征,這些特征使得神經(jīng)網(wǎng)絡(luò)能夠在平移的過程中維持高度不變,并在縮放和旋轉(zhuǎn)的過程中具有一定的不變性。

      1998年LeCun[6]等人提出了LeNet-5網(wǎng)絡(luò),該網(wǎng)絡(luò)架構(gòu)由2層卷積層和3層池化層構(gòu)成,已成為標(biāo)準(zhǔn)的“模版”,主要應(yīng)用于手寫數(shù)字的識(shí)別和圖像分類等較為單一的任務(wù)。2012年Alex Krizhevsky 等[7]在LeNet-5網(wǎng)絡(luò)架構(gòu)的基礎(chǔ)上堆疊了更多層,并首次采用 ReLU 作為激活函數(shù),建立了AlexNet神經(jīng)網(wǎng)絡(luò)。該模型在海量圖像的分類研究中取得了重大進(jìn)展。傳統(tǒng)的卷積操作是將通道相關(guān)性與空間相關(guān)性進(jìn)行聯(lián)合映射,Szegedy等[8] 假設(shè)卷積通道相關(guān)性和空間相關(guān)性可進(jìn)行退耦,將二者分開映射,提出了Inception模塊的方法。每個(gè)Inception模塊內(nèi)使用不同過濾器的并行卷積塔進(jìn)行堆疊,降低網(wǎng)絡(luò)的復(fù)雜程度。該神經(jīng)網(wǎng)絡(luò)中采用1*1, 3*3和5*5的卷積核對特征進(jìn)行提取,降低了網(wǎng)絡(luò)中訓(xùn)練參數(shù)的數(shù)量,以此來提高神經(jīng)網(wǎng)絡(luò)內(nèi)部計(jì)算資源的利用率。Inception模型經(jīng)過改進(jìn)后,將所有1*1的卷積層進(jìn)行拼接,增加其中3*3的卷積分支數(shù)量,使其與1*1的卷積通道數(shù)量相等,由此得到Extreme Inception,如圖3所示。

      2016年Chollet等[9]在Inception模型的基礎(chǔ)上提出進(jìn)一步的假設(shè),即神經(jīng)網(wǎng)絡(luò)的通道相關(guān)性與空間相關(guān)性是可完全分離的,并使用深度可分離卷積[10]來替換Inception中的模塊,由此得到Xception網(wǎng)絡(luò)結(jié)構(gòu)。Xception與Extreme Inception極為類似但略有不同。前者先對每個(gè)信道的空間性進(jìn)行常規(guī)卷積,再對每個(gè)信道進(jìn)行1*1的逐點(diǎn)卷積。在每一次卷積操作后都加入批量歸一化BN[11]層和激活函數(shù)ReLU。中間部分的模塊則采用殘差相連的方式,減少神經(jīng)網(wǎng)絡(luò)的訓(xùn)練難度。其結(jié)構(gòu)如圖4所示。

      2.1 深度可分離卷積

      深度可分離卷積將傳統(tǒng)的卷積操作分解成一個(gè)深度卷積和一個(gè)1*1的逐點(diǎn)卷積。若輸入的特征圖的大小為[DF*DF*M],輸出的特征圖的大小為[DF*DF*N],卷積核為[DK*DK],則傳統(tǒng)的卷積操作的計(jì)算量為[DK*DK*M*N*DF*DF];深度可分離卷積的總計(jì)算量為[DK*DK*M*DF*DF+M*N*DF*DF]。二者的計(jì)算量之比為[1N+1D2K],大大地降低了神經(jīng)網(wǎng)絡(luò)中的參數(shù)量。

      2.2 Batch Normalization層

      當(dāng)網(wǎng)絡(luò)的層級(jí)結(jié)構(gòu)較多時(shí)極易出現(xiàn)網(wǎng)絡(luò)訓(xùn)練的收斂速度變慢等情況。Xception模型在網(wǎng)絡(luò)的每一層輸入之前插入一個(gè)歸一化BN層,對上一層輸出的數(shù)據(jù)先做歸一化處理再送入下一層。BN層可將每層輸入的數(shù)據(jù)分布控制在均值為0,方差為1的范圍內(nèi),保證數(shù)據(jù)的穩(wěn)定性,可有效地避免因輸入數(shù)據(jù)分布的變動(dòng)導(dǎo)致的過擬合問題。其公式為:

      2.3 ReLU 激活函數(shù)

      激活函數(shù)的應(yīng)用可提高神經(jīng)網(wǎng)絡(luò)的非線性建模的能力,增強(qiáng)模型的表達(dá)能力,以此來提高神經(jīng)網(wǎng)絡(luò)的分類精確度。Relu 函數(shù)屬于非飽和函數(shù)。當(dāng)函數(shù)的輸入為正值,輸出值與輸入值成線性關(guān)系,導(dǎo)數(shù)為1,無梯度彌散現(xiàn)象,能夠解決飽和函數(shù)的“梯度消失”問題,可加快收斂速度。ReLU激活函數(shù)為:

      2.4 Softmax層

      Softmax回歸模型是在Logistic回歸應(yīng)用于多分類問題上的推廣,Xception網(wǎng)絡(luò)架構(gòu)使用Softmax層在神經(jīng)網(wǎng)絡(luò)中對表情進(jìn)行分類。在Softmax中將x分為j類的概率為:

      其中,[Pyi=j|xi;θ]是圖像x對應(yīng)于每個(gè)表情分類j的概率,[θ]為待擬合參數(shù)。

      2.5 參數(shù)優(yōu)化

      本文在模型訓(xùn)練過程中使用Adam優(yōu)化器[12]動(dòng)態(tài)地調(diào)整學(xué)習(xí)率。Adam算法具有梯度對角縮放的不變性,適用于處理含有大量參數(shù)的問題,且在訓(xùn)練過程中只需要進(jìn)行少量的手動(dòng)調(diào)整。其參數(shù)更新公式為:

      其中,[θ]為待更新的參數(shù),[η]為學(xué)習(xí)率,[mt] 為梯度第一時(shí)刻的均值,[υt] 為第二時(shí)刻的方差。

      3 基于卷積神經(jīng)網(wǎng)絡(luò)的表情識(shí)別

      在構(gòu)建神經(jīng)網(wǎng)絡(luò)模型時(shí),首先要對輸入的圖像數(shù)據(jù)進(jìn)行預(yù)處理操作。由于輸入的原始圖像可能存在光線不均、角度偏移等問題,因此在輸入卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行訓(xùn)練前,要先對圖像進(jìn)行光照補(bǔ)償、角度仿射變換和人臉位置檢測等預(yù)處理。本文采取Fer2013數(shù)據(jù)集[13],由35887張人臉圖片組成,均為48×48的灰度圖像。其中有4953張angry圖片,547張disgust,5121張fear,8989張happy,6077張sad,4002張surprise,6198張neutral,分別對應(yīng)數(shù)字標(biāo)簽0-6。

      3.1 圖像預(yù)處理

      3.1.1 光照補(bǔ)償

      本文采用對圖像進(jìn)行灰度直方圖均衡化處理來削弱光照對圖像的影響。經(jīng)過均衡化處理的圖像,其像素盡可能均衡地分布于盡可能多的灰度等級(jí)。直觀來看,就是對圖像的灰度直方圖進(jìn)行拉伸,使其像素分布盡可能均勻,如圖5所示。

      3.1.2 數(shù)據(jù)增強(qiáng)

      Fer2013數(shù)據(jù)集是在非實(shí)驗(yàn)環(huán)境下獲取的,其數(shù)據(jù)量相對于CK+等其他表情數(shù)據(jù)集更大,且樣本更符合自然狀態(tài)下的人臉表情,但當(dāng)中包括了很多遮蓋、側(cè)臉和角度傾斜等干擾因素,并且存在許多非人臉的圖像。對Fer2013進(jìn)行數(shù)據(jù)增強(qiáng),即對一張人臉進(jìn)行鏡像、旋轉(zhuǎn)處理。其參數(shù)如表1所示。

      3.2 構(gòu)建CNN

      輸入的數(shù)據(jù)通過卷積層提取特征,再經(jīng)由池化層對提取到的特征進(jìn)行降維,最終由全連接層將降維后的特征“連接”起來進(jìn)行分類。對于多分類問題而言,增加其中間的隱藏層可提高分類精度,但與此同時(shí)其訓(xùn)練時(shí)間也會(huì)顯著變長。由于本文的研究對象都是48*48的灰度圖像,且數(shù)據(jù)庫規(guī)模較小,分類級(jí)別只有七種,因此選擇較為簡單的網(wǎng)絡(luò)模型。本文在Xception網(wǎng)絡(luò)結(jié)構(gòu)的基礎(chǔ)上簡化了卷積層的模塊數(shù)量,并刪除了最后的全連接層,構(gòu)建了一個(gè)mini-Xception模型。具體參數(shù)如圖7所示。

      本文的Mini-Xception由4個(gè)模塊組成,共有11個(gè)卷積層,其中包括8個(gè)深度可分離卷積和3個(gè)常規(guī)卷積。除去第一個(gè)常規(guī)卷積模塊外,其余部分采用殘差連接的堆疊結(jié)構(gòu)。最后一個(gè)卷積層后連接全局平均池化層,須設(shè)置參數(shù),對每一通道的特征圖取其均值作為最終的輸出值。在每個(gè)卷積層后都加入批量歸一化BN和ReLU激活函數(shù),減少因每層輸入分布的變動(dòng)導(dǎo)致的過擬合問題,提高模型的泛化能力。本網(wǎng)絡(luò)均采用了1*1或3*3的小卷積核,加強(qiáng)對表情特征的提取能力,并刪除了傳統(tǒng)網(wǎng)絡(luò)的全連接層。經(jīng)過Softmax 激活函數(shù)的處理后,最終的輸出為一個(gè)7維的特征向量,分別對應(yīng)7種表情分類。

      4 實(shí)驗(yàn)結(jié)果

      本文的研究基于Keras深度學(xué)習(xí)平臺(tái),采用經(jīng)預(yù)處理的Fer2013表情數(shù)據(jù)集作為訓(xùn)練模型。隨機(jī)抽取測試集的20%作為驗(yàn)證集,剩余部分作為訓(xùn)練樣本,且訓(xùn)練集與驗(yàn)證集的樣本數(shù)據(jù)無交叉。其訓(xùn)練參數(shù)設(shè)置如表2所示。

      表4為本文模型表情識(shí)別的混淆矩陣。Mini-Xception對happy的識(shí)別率可達(dá)87%,而對scare的識(shí)別度最低,僅為41%。在識(shí)別過程中可以觀察到,sad和scare, angry和disgust 的識(shí)別難度較大。CNN提取到了能被理解的人臉表情特征信息,這些信息幫助CNN對捕獲的人臉的情緒進(jìn)行預(yù)測。angry和disgust具有相似的眉毛特征和皺起的嘴角,易產(chǎn)生錯(cuò)誤分類。戴眼鏡的人常被錯(cuò)誤地分類為angry或scare, 因?yàn)樯钌难坨R框常與這兩種表情特征下的皺眉混淆;另外,由于眉毛上揚(yáng)角度相似,happy和surprise也常被混淆。并且,在使用經(jīng)過濾鏡美化的非自然狀態(tài)下的圖像進(jìn)行識(shí)別時(shí),其結(jié)果往往與肉眼所見大相徑庭。這也證明,人類的表情非常復(fù)雜,其種類并不止宏觀劃分的7種,表情識(shí)別是一種復(fù)雜且模糊的研究。

      5 結(jié)束語

      表情識(shí)別是情感識(shí)別的重要部分,該技術(shù)具有巨大的應(yīng)用價(jià)值,是人工智能發(fā)展的熱點(diǎn)方向。本文介紹了目前最新的神經(jīng)網(wǎng)絡(luò)模型Xception,并對該模型的精簡版進(jìn)行了實(shí)現(xiàn),取得了一定的效果。當(dāng)然,本研究仍有提高的空間,比如對Fer2013數(shù)據(jù)集中的非人臉樣本等噪聲數(shù)據(jù)進(jìn)行清洗,對錯(cuò)誤標(biāo)注的表情分類進(jìn)行修正,利用仿射變換將人臉進(jìn)行對齊等。將來的研究會(huì)對Fer2013數(shù)據(jù)集上的樣本優(yōu)化及適用于其他類似數(shù)據(jù)集的網(wǎng)絡(luò)模型進(jìn)行研究。

      參考文獻(xiàn):

      [1] Zeng Z H, Pantic M, Roisman G I, et al. A survey of affect recognition methods: audio, visual, and spontaneous expressions[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2009, 31(1): 39-58.

      [2] Ekman P, Friesen W V. Constants across cultures in the face and emotion[J]. Journal of Personality and Social Psychology, 1971, 17(2): 124-129.

      [3] 徐琳琳, 張樹美, 趙俊莉. 構(gòu)建并行卷積神經(jīng)網(wǎng)絡(luò)的表情識(shí)別算法[J]. 中國圖象圖形學(xué)報(bào), 2019, 24(2): 227-236.

      [4] Ojala T, Pietik?inen M, Harwood D. A comparative study of texture measures with classification based on featured distributions[J]. Pattern Recognition, 1996, 29(1): 51-59.

      [5] Albiol A, Monzo D, Martin A, et al. Face recognition using HOG–EBGM[J]. Pattern Recognition Letters, 2008, 29(10): 1537-1543.

      [6] LeCun Y, Bottou L, Bengio Y, et al. Gradient-based learning applied to document recognition[J]. Proceedings of the IEEE, 1998, 86(11): 2278-2324.

      [7] Krizhevsky A, Sutskever I, Hinton G E. ImageNet classification with deep convolutional neural networks[J]. Communications of the ACM, 2017, 60(6): 84-90.

      [8] Szegedy C, Liu W, Jia Y Q, et al. Going deeper with convolutions[C]//2015 IEEE Conference on Computer Vision and Pattern Recognition (CVPR), June 7-12, 2015. Boston, MA, USA. IEEE, 2015:1-9.

      猜你喜歡
      圖像分類卷積神經(jīng)網(wǎng)絡(luò)
      基于數(shù)據(jù)挖掘的圖像分類算法
      基于卷積神經(jīng)網(wǎng)絡(luò)溫室智能大棚監(jiān)控系統(tǒng)的研究
      基于云計(jì)算的圖像分類算法
      基于深度卷積神經(jīng)網(wǎng)絡(luò)的物體識(shí)別算法
      基于錨點(diǎn)建圖的半監(jiān)督分類在遙感圖像中的應(yīng)用
      和政县| 华亭县| 乐平市| 临漳县| 渑池县| 巴里| 阜宁县| 凯里市| 阳山县| 天门市| 梧州市| 嘉荫县| 龙海市| 博野县| 瓦房店市| 泸州市| 米易县| 宜兴市| 兴隆县| 阿拉善左旗| 旬邑县| 宜川县| 焉耆| 平和县| 凌海市| 枞阳县| 福安市| 鄢陵县| 罗山县| 禹城市| 界首市| 古交市| 瑞金市| 漳州市| 正蓝旗| 东丰县| 蒲城县| 湘乡市| 浮梁县| 泰兴市| 河源市|