• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      一種基于改進(jìn)稠密卷積神經(jīng)網(wǎng)絡(luò)的表情識(shí)別方法

      2022-05-12 10:16戴沁璇羅曉曙蒙志明黃苑琴
      現(xiàn)代電子技術(shù) 2022年9期
      關(guān)鍵詞:人臉濾波器卷積

      戴沁璇,羅曉曙,蒙志明,黃苑琴

      (1.廣西師范大學(xué) 電子工程學(xué)院,廣西 桂林 541000;2.廣西師范大學(xué) 創(chuàng)新創(chuàng)業(yè)學(xué)院,廣西 桂林 541000)

      0 引 言

      人臉表情識(shí)別(Facial Expression Recognition,F(xiàn)ER)是指從給定的靜態(tài)圖像或動(dòng)態(tài)視頻序列中分離特定的表情狀態(tài),以確定所識(shí)別對(duì)象的心理狀態(tài)與情感。文獻(xiàn)[1]的研究結(jié)果表明,人們?nèi)粘=涣髦?5%的信息是通過不同的人臉表情傳達(dá)的,而只有7%的信息是通過語(yǔ)言傳達(dá)的。人臉表情是傳達(dá)人類情感和意圖最有效、最自然和最常見的信號(hào)之一。

      隨著科學(xué)研究的蓬勃發(fā)展,特別是近年來人工智能的快速發(fā)展,人們希望機(jī)器能夠相對(duì)準(zhǔn)確地識(shí)別人臉表情。隨著近年來計(jì)算機(jī)和網(wǎng)絡(luò)技術(shù)的發(fā)展,海量圖像數(shù)據(jù)可以通過計(jì)算機(jī)更好地存儲(chǔ)、傳輸和處理,為人臉的表情識(shí)別提供了基礎(chǔ)。人臉表情識(shí)別技術(shù)應(yīng)用廣泛,例如疲勞駕駛檢測(cè)、安全監(jiān)控器、教學(xué)監(jiān)視和測(cè)謊儀檢測(cè)等。

      人臉表情識(shí)別包括三個(gè)部分:人臉檢測(cè)、特征提取和表情識(shí)別。人臉檢測(cè)是通過諸如眼睛、鼻子和嘴巴等關(guān)鍵點(diǎn)定位圖像中人臉的位置,例如文獻(xiàn)[11]提出的類似Haar 特征提取的AdaBoost 級(jí)聯(lián)分類器。在機(jī)器學(xué)習(xí)算法中有手工提取特征的方法,例如:局部二進(jìn)制模式和Gabor等。在特征提取后應(yīng)采用分類方法進(jìn)行人臉表情識(shí)別,例如支持向量機(jī)(SVM)、隨機(jī)森林、稀疏編碼、神經(jīng)網(wǎng)絡(luò)等。盡管這些方法在特定領(lǐng)域取得了巨大成功,但是大多數(shù)方法只能獲得底層的功能,而不能獲得高級(jí)語(yǔ)義。

      為了克服上述缺點(diǎn),采用卷積神經(jīng)網(wǎng)絡(luò)(Convolu?tional Neural Network,CNN)是識(shí)別人臉表情的一種非常有效的方法。因?yàn)榫矸e神經(jīng)網(wǎng)絡(luò)可以同時(shí)執(zhí)行特征提取和分類過程,并且可以從數(shù)據(jù)中自動(dòng)發(fā)現(xiàn)多級(jí)表示。因此,近年來提出了一些性能優(yōu)異的卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)應(yīng)用于表情識(shí)別。例如文獻(xiàn)[16]提出一種深度神經(jīng)網(wǎng)絡(luò)體系結(jié)構(gòu)來解決面部表情識(shí)別問題,并通過多個(gè)標(biāo)準(zhǔn)面部數(shù)據(jù)集驗(yàn)證所提出的結(jié)構(gòu)。文獻(xiàn)[17]提出了一種基于三個(gè)最先進(jìn)的面部檢測(cè)器的集成方法。文獻(xiàn)[18]提出了一種基于輕量級(jí)卷積神經(jīng)網(wǎng)絡(luò)的表情識(shí)別方法。

      在上述研究工作的啟發(fā)下,本文提出了一種基于改進(jìn)的稠密卷積神經(jīng)網(wǎng)絡(luò)的表情識(shí)別方法,改進(jìn)了卷積層的初始化方法,并且在激活層中提出了一種新型激活函數(shù),同時(shí)改進(jìn)了稠密CNN 框架,最后在表情識(shí)別系統(tǒng)上得到驗(yàn)證。

      1 基于改進(jìn)卷積神經(jīng)網(wǎng)絡(luò)的人臉表情識(shí)別模型

      1.1 卷積層初始化方法的改進(jìn)

      本文首先預(yù)先設(shè)計(jì)了一個(gè)基于Gabor 的改進(jìn)濾波器庫(kù),然后在訓(xùn)練網(wǎng)絡(luò)模型之前,使用該庫(kù)中的Gabor濾波器初始化改進(jìn)神經(jīng)網(wǎng)絡(luò)基本屬性的第一層。Gabor函數(shù)是一個(gè)用于邊緣提取的線性濾波器,用于各種計(jì)算機(jī)視覺應(yīng)用,例如邊緣檢測(cè)和紋理分析。類似于人類視覺系統(tǒng),從Gabor 濾波器中創(chuàng)建一個(gè)濾波器組,如果發(fā)生變化,它會(huì)響應(yīng)頻率和方向??臻g域中的Gabor 濾波器是由復(fù)雜的兩分量Gabor 函數(shù)產(chǎn)生的,這兩個(gè)分量是高斯函數(shù)和正弦平面波函數(shù)。式(1)給出了這種Gabor函數(shù)的計(jì)算公式:

      式中:w(,)和(,)分別是高斯函數(shù)和正弦函數(shù)。要將式(1)中的Gabor 函數(shù)轉(zhuǎn)換為二維濾波器,可以按照式(2)重新構(gòu)建Gabor 函數(shù):

      式中:是高斯函數(shù)的標(biāo)準(zhǔn)偏差;是Gabor 濾波器方向;是余弦函數(shù)的波長(zhǎng)參數(shù);是空間視圖比率因子;是余弦函數(shù)的相位參數(shù)。

      在本文提出的方法中,為第一層卷積層創(chuàng)建了一個(gè)Gabor 濾波器庫(kù),它代表了改進(jìn)卷積神經(jīng)網(wǎng)絡(luò)的基本級(jí)別屬性,庫(kù)中創(chuàng)建的Gabor 濾波器的總數(shù)等于改進(jìn)卷積神經(jīng)網(wǎng)絡(luò)第一層卷積層中的通道數(shù)(即特征圖數(shù))。由于本文使用的改進(jìn)卷積神經(jīng)網(wǎng)絡(luò)的第一層卷積層具有24 個(gè)特征圖,因此在庫(kù)中總共生成了24 個(gè)Gabor 濾波器。創(chuàng)建的Gabor 濾波器所需的核心參數(shù)由表1 給出的取值范圍確定,圖1 是Gabor 濾波器的部分示例。

      表1 Gabor 參數(shù)范圍

      圖1 濾波的部分樣例

      在神經(jīng)網(wǎng)絡(luò)中對(duì)圖像進(jìn)行訓(xùn)練時(shí),它們都傾向于學(xué)習(xí)第一層的特征,這些特征類似于Gabor 濾波器或色塊。因此,在本文提出的方法中,使用預(yù)先生成的Gabor 濾波器對(duì)網(wǎng)絡(luò)進(jìn)行初始化,然后在改進(jìn)模型中,用CK+、FER2013 和FER2013Plus 三個(gè)數(shù)據(jù)集進(jìn)行訓(xùn)練。

      1.2 激活函數(shù)優(yōu)化

      卷積神經(jīng)網(wǎng)絡(luò)中常用的激活函數(shù)包括Sigmoid、ReLU 函數(shù)等。Sigmoid 函數(shù)雖然處處連續(xù)便于求導(dǎo),而且便于數(shù)據(jù)前向傳輸,但是在其趨向無窮大時(shí),函數(shù)值變化很小,容易缺失梯度,不利于深層神經(jīng)網(wǎng)絡(luò)的誤差反向傳播,所以Sigmoid 函數(shù)梯度下降法訓(xùn)練網(wǎng)絡(luò)時(shí)容易出現(xiàn)梯度消失現(xiàn)象。ReLU 函數(shù)計(jì)算復(fù)雜度低,不需要進(jìn)行指數(shù)運(yùn)算,而且適合用于誤差反向傳播,但是ReLU 函數(shù)的輸出不是零中心的,而且在<0 時(shí)梯度為0,這樣就會(huì)導(dǎo)致負(fù)的梯度被置零,那么這個(gè)神經(jīng)元就有可能不會(huì)被激活。

      因此,基于上述問題,本文提出了一種對(duì)數(shù)線性函數(shù)(Logarithmic Linear Unit,LLU),其表達(dá)式如式(3)所示,函數(shù)曲線如圖2 所示。

      圖2 對(duì)數(shù)線性函數(shù)曲線

      根據(jù)LLU()表達(dá)式和圖2a)可知,LLU()滿足激活函數(shù)的五個(gè)基本屬性:

      1)非線性。LLU()函數(shù)是非線性的,可以在CNN中的非線性映射中發(fā)揮很好的作用。

      2)可微性。此屬性是必需的,LLU()的一階導(dǎo)數(shù)如式(4)所示,因此可以使用基于梯度的訓(xùn)練方法。

      3)單調(diào)性。從LLU()>0 可以看出,LLU()是單調(diào)遞增的函數(shù),可以保證CNN 中每一層網(wǎng)絡(luò)都是凸函數(shù)。

      4)≈。當(dāng)>0 時(shí),LLU()滿足此條件,參數(shù)的初始化是一個(gè)很小的隨機(jī)值,對(duì)神經(jīng)網(wǎng)絡(luò)的訓(xùn)練將是有效的。

      5)輸出值是無限的。LLU()的輸出值是無限的。當(dāng)以較小的學(xué)習(xí)速度訓(xùn)練模型時(shí),可以獲得較高的訓(xùn)練效率。

      對(duì)LLU′()函數(shù)求極限可知,當(dāng)趨于負(fù)無窮大和正無窮大時(shí),極限分別為0.4 和1.4。從圖2b)所示的LLU′()圖像可以看出,當(dāng)太小時(shí),它將不會(huì)為0;而當(dāng)太大時(shí),其值將接近1.4。因此在CNN 中采用LLU()激活函數(shù)可以進(jìn)行有效的梯度下降訓(xùn)練。

      1.3 稠密面部表情神經(jīng)網(wǎng)絡(luò)

      稠密卷積神經(jīng)網(wǎng)絡(luò)(DenseNet)具有獨(dú)特架構(gòu),它通過密集的連接模式和許多降維層最大限度地使訓(xùn)練參數(shù)最小化。密集連接主要由密集塊和過渡層組成,前者定義輸入和輸出之間的連接關(guān)系,后者控制通道數(shù)。

      稠密神經(jīng)網(wǎng)絡(luò)中有兩個(gè)關(guān)鍵的超參數(shù):增長(zhǎng)率和稠密塊數(shù)。增長(zhǎng)率表示卷積層過濾器的數(shù)量,它決定了特征圖的增長(zhǎng)速率,例如,框架中有個(gè)卷積層,當(dāng)具有個(gè)通道的數(shù)據(jù)進(jìn)入這些卷積層時(shí),則第個(gè)卷積層將具有+(-1)個(gè)輸入特征圖。為了更好地理解稠密網(wǎng)絡(luò)結(jié)構(gòu),并且能夠靈活地調(diào)整超參數(shù),本文在稠密卷積神經(jīng)網(wǎng)絡(luò)中設(shè)立了另一個(gè)超參數(shù)密集塊。

      本文使用的稠密卷積神經(jīng)網(wǎng)絡(luò)包含49 個(gè)卷積層、4 個(gè)池化層和1 個(gè)Softmax 層。輸入為48×48 的灰度圖像,然后經(jīng)過3×3 卷積層,3×3 卷積層采用1.1 節(jié)所述的Gabor 濾波器實(shí)現(xiàn)卷積層初始化。隨后設(shè)計(jì)了4 個(gè)密集塊,每個(gè)塊包含12 個(gè)卷積層。過渡層連接在每個(gè)密集塊的末端,由平均池化層、瓶頸層和壓縮層組成。最后,根據(jù)不同的目標(biāo)類別,連接7 類Softmax 層或10 類Softmax 層作為最終輸出層,輸出識(shí)別結(jié)果如圖3 所示。

      圖3 改進(jìn)的稠密面部表情神經(jīng)網(wǎng)絡(luò)模型

      激活函數(shù)和批量歸一化也包括在卷積層中,其中激活函數(shù)為式(3)的LLU()。與ReLU 和Sigmoid 相比,LLU()不會(huì)屏蔽軸負(fù)半軸的信號(hào),信號(hào)按一定比例保留,不會(huì)造成信號(hào)為負(fù)值時(shí)某些特征損失,并且不會(huì)像Sigmoid 函數(shù)一樣出現(xiàn)梯度消失。批量歸一化的目的是確保每一層的輸入均具有零均值和單位方差,它加快了網(wǎng)絡(luò)的訓(xùn)練速度。

      卷積層中的廣義計(jì)算如式(5)~式(8)所示:

      式中:(x)是本文提出的對(duì)數(shù)線性函數(shù)LLU();(x)是卷積計(jì)算函數(shù),卷積核為3×3 大??;(x)是批量歸一化函數(shù),x是輸入圖像中每個(gè)像素的值;Conv 表示卷積;是期望值;var 是方差;[]中的數(shù)據(jù)是三維矩陣。

      2 實(shí)驗(yàn)結(jié)果

      2.1 實(shí)驗(yàn)環(huán)境和數(shù)據(jù)集

      由于在模型訓(xùn)練中需要進(jìn)行卷積計(jì)算,相對(duì)于CPU而言,GPU 的運(yùn)用將極大地縮短訓(xùn)練時(shí)間,加快訓(xùn)練速度。本實(shí)驗(yàn)中使用的計(jì)算機(jī)配置是雙E5?2637 v4 CPU,操作系統(tǒng)為Ubuntu 16.04,同時(shí)還使用了GTX1080Ti 顯卡、12 GB 內(nèi)存來加速訓(xùn)練;使用的平臺(tái)是Google 開發(fā)的機(jī)器學(xué)習(xí)框架Tensorflow 1.9.0。

      本文使用CK+、FER2013 和FER2013Plus 這三種數(shù)據(jù)集。CK+數(shù)據(jù)集在Cohn?Kanade 數(shù)據(jù)集的基礎(chǔ)上進(jìn)行了擴(kuò)展,并于2010 年發(fā)布,該數(shù)據(jù)集包含123 個(gè)對(duì)象和593個(gè)圖像序列。每個(gè)圖像序列的最后一幀都有一個(gè)動(dòng)作單元標(biāo)簽。在593 個(gè)圖像序列中,有327 個(gè)序列具有情感標(biāo)簽。圖4 是CK+數(shù)據(jù)集的示例。

      圖4 CK+數(shù)據(jù)集示例

      FER2013數(shù)據(jù)集包含35 887個(gè)不同的圖像。訓(xùn)練集包含28 709 個(gè)示例,公共測(cè)試集包含3 589 個(gè)示例,私有測(cè)試集包括3 589 個(gè)示例,這些數(shù)據(jù)集由48×48 像素的面部灰度圖像組成。該數(shù)據(jù)集中標(biāo)記了7 個(gè)表情:中立、快樂、悲傷、驚奇、憤怒、厭惡和恐懼。FER2013 數(shù)據(jù)集的一些示例如圖5 所示。

      圖5 FER2013 數(shù)據(jù)集示例

      FER2013Plus是FER2013 的升級(jí)版本,此版本中的表情分為10個(gè)類別,并采用多標(biāo)簽分類。與FER2013數(shù)據(jù)集相比多了輕視、未知和不是人臉這三個(gè)類別。

      2.2 訓(xùn)練結(jié)果

      2.2.1 CK+數(shù)據(jù)集中的結(jié)果

      在數(shù)據(jù)擴(kuò)充方面,使用標(biāo)準(zhǔn)的10?crop 方法進(jìn)行數(shù)據(jù)擴(kuò)充,即在每個(gè)圖像周圍添加零值的4行或4列,然后截取左上、右上、左下、右下和中間5 個(gè)圖塊,鏡像翻轉(zhuǎn)將數(shù)量翻至10 個(gè)圖塊。與使用包含數(shù)十萬甚至數(shù)百萬個(gè)大規(guī)模參數(shù)的ResNet 和AlexNet 這類模型相比,本文模型只有7.2×10個(gè)可訓(xùn)練參數(shù)。

      圖6顯示了CK+數(shù)據(jù)集在本文提出模型上的訓(xùn)練曲線,以及與利用ResNet和AlexNet模型訓(xùn)練的比較結(jié)果。

      圖6 CK+數(shù)據(jù)集在三種模型上的訓(xùn)練曲線

      從圖6 可以看出,經(jīng)過100 個(gè)epoch 的訓(xùn)練,本文模型準(zhǔn)確率可以達(dá)到99.78%,具有更好的泛化能力,相比ResNet 和AlexNet 兩個(gè)網(wǎng)絡(luò)訓(xùn)練的結(jié)果都要好。

      2.2.2 FER2013 和FER2013Plus 數(shù)據(jù)集中的結(jié)果

      圖7 和圖8 分別顯示了FER2013 和FER2013Plus 數(shù)據(jù)集的訓(xùn)練曲線。結(jié)果表明:這兩個(gè)數(shù)據(jù)集在本文提出模型上的準(zhǔn)確率分別為70.78%和85.43%。FER2013 數(shù)據(jù)集在ResNet 和AlexNet 的準(zhǔn)確率分別為67.82%和68.02%,與這兩個(gè)模型相比,本文提出的模型具有更高的表情識(shí)別準(zhǔn)確率。

      圖7 FER2013 數(shù)據(jù)集在三種模型上的訓(xùn)練曲線

      圖8 FER2013Plus 數(shù)據(jù)集在三種模型上的訓(xùn)練曲線

      在文獻(xiàn)[23]中,F(xiàn)ER2013Plus 使用眾包提高標(biāo)簽的準(zhǔn)確率,并設(shè)計(jì)了4 種方法來解決目標(biāo)函數(shù)的問題。本文僅將多數(shù)表決方法用于預(yù)處理。在FER2013Plus 數(shù)據(jù)集上,ResNet 和AlexNet 的準(zhǔn)確率分別為83.17%和81.36%。與ResNet 相比,本文提出的模型表情識(shí)別準(zhǔn)確率提高了2%以上;與AlexNet 網(wǎng)絡(luò)相比,本文提出的模型表情識(shí)別準(zhǔn)確率提高了4%以上。

      2.2.3 人臉表情系統(tǒng)設(shè)計(jì)

      為了探索人臉表情識(shí)別在實(shí)際場(chǎng)景中的應(yīng)用,基于本文模型構(gòu)建了人臉表情識(shí)別系統(tǒng)。這個(gè)系統(tǒng)能夠?qū)崿F(xiàn)兩個(gè)功能:其一可以識(shí)別圖片上的面部表情;其二可以實(shí)時(shí)識(shí)別面部表情。在功能一中,首先將預(yù)先準(zhǔn)備好的圖片導(dǎo)入系統(tǒng),系統(tǒng)獲取圖片并進(jìn)行人臉檢測(cè),然后分析人臉上的面部表情,最后顯示圖像上的人臉屬于哪一類表情。在功能二中,系統(tǒng)首先通過攝像頭捕獲人臉,然后循環(huán)捕獲人臉圖像幀并進(jìn)行人臉檢測(cè),最后輸出當(dāng)前的人臉表情,從而實(shí)現(xiàn)人臉表情的實(shí)時(shí)識(shí)別。圖9 為表情系統(tǒng)結(jié)構(gòu)設(shè)計(jì)框圖。圖10顯示了圖像識(shí)別功能,包括單人圖像和多人圖像的識(shí)別。圖11顯示了實(shí)時(shí)識(shí)別結(jié)果。

      圖9 面部表情識(shí)別系統(tǒng)結(jié)構(gòu)設(shè)計(jì)框圖

      圖10 識(shí)別單人圖像和多人圖像

      圖11 實(shí)時(shí)識(shí)別面部表情

      3 結(jié) 語(yǔ)

      本文提出了一種基于改進(jìn)的稠密卷積神經(jīng)網(wǎng)絡(luò)的表情識(shí)別方法。該方法首先采用Gabor濾波器初始化卷積層,然后提出一種新型激活函數(shù)對(duì)數(shù)線性函數(shù)LLU()與稠密卷積神經(jīng)網(wǎng)絡(luò)相結(jié)合的模型。實(shí)驗(yàn)結(jié)果表明,該模型與現(xiàn)有的ResNet 和AlexNet 模型相比,不僅具有更少的參數(shù),而且其表情識(shí)別率有明顯提高。最后,設(shè)計(jì)了一個(gè)人臉表情識(shí)別系統(tǒng),不僅能實(shí)現(xiàn)靜態(tài)圖像的表情識(shí)別,而且能實(shí)時(shí)識(shí)別攝像頭采集的視頻表情,具有一定的表情識(shí)別應(yīng)用價(jià)值。

      注:本文通訊作者為羅曉曙。

      猜你喜歡
      人臉濾波器卷積
      基于3D-Winograd的快速卷積算法設(shè)計(jì)及FPGA實(shí)現(xiàn)
      有特點(diǎn)的人臉
      從濾波器理解卷積
      三國(guó)漫——人臉解鎖
      開關(guān)電源EMI濾波器的應(yīng)用方法探討
      基于傅里葉域卷積表示的目標(biāo)跟蹤算法
      基于Canny振蕩抑制準(zhǔn)則的改進(jìn)匹配濾波器
      基于TMS320C6678的SAR方位向預(yù)濾波器的并行實(shí)現(xiàn)
      馬面部與人臉相似度驚人
      長(zhǎng)得象人臉的十種動(dòng)物
      林口县| 咸阳市| 玉龙| 白水县| 苏尼特左旗| 清徐县| 延庆县| 永顺县| 牙克石市| 东乌| 宣恩县| 娄底市| 万荣县| 上蔡县| 东阳市| 靖宇县| 仁寿县| 改则县| 克拉玛依市| 长沙市| 泸溪县| 太白县| 上林县| 贡嘎县| 永新县| 光山县| 石林| 桂平市| 神木县| 宝应县| 临潭县| 自贡市| 晋中市| 昭平县| 商都县| 沾益县| 富锦市| 洪湖市| 墨江| 白银市| 响水县|