程其玉 鐘志水 劉華敏 汪 立 李 璐
( 安徽信息工程學(xué)院計算機與軟件工程學(xué)院,安徽 蕪湖 241100 )
隨著智能化時代的到來, 面部表情識別技術(shù)作為人工智能中對于研究人的行為狀態(tài)的基礎(chǔ), 逐漸在各個領(lǐng)域發(fā)展應(yīng)用起來。 由于在機器開發(fā)時模擬的圖像僅為實驗室中的理想情況, 即使已經(jīng)考慮到光線、眼鏡、遮擋等因素,但在實際生活中攝像頭采集到的面部圖像往往達不到所需的識別尺寸, 因而識別精準(zhǔn)度就會隨之降低。 圖像識別中,當(dāng)輸入圖像的尺寸減小時, 神經(jīng)網(wǎng)絡(luò)的特征提取程度也受到限制,反之,圖像進行放大時,會導(dǎo)致部分細節(jié)的丟失,從而導(dǎo)致圖像分辨率降低, 進而導(dǎo)致圖像識別的準(zhǔn)確率降低。
近些年,隨著人臉識別和面部表情識別的發(fā)展,部分學(xué)者不再拘泥于理想數(shù)據(jù)庫進行訓(xùn)練。 2017 年胡(HU)等人首次提出了對微小人臉面部區(qū)域進行檢測, 并且訓(xùn)練出了可以在不同面部尺寸中進行檢測的多尺度的模型[1]。 2018 年白(BAI)等人將超分辨率網(wǎng)絡(luò)應(yīng)用到人臉檢測和識別中[2],該網(wǎng)絡(luò)使用超分辨率網(wǎng)絡(luò)對圖像進行細化以生成清晰且真實的高分辨率圖像, 最終實現(xiàn)了能夠最低檢測10*10 像素的面部圖像。2019 年邵(SHAO)等人重點研究了尺寸為16*16 像素的微小面孔, 通過探索生成對抗性網(wǎng)絡(luò)W-GAN (Wasserstein Generative Adversarial Net)的潛力,將它們重建到8 倍上采樣版本[3]。 2020 年,余(YU)等人提出了一種新的超分辨率變革性對抗性神經(jīng)網(wǎng)絡(luò),以同時產(chǎn)生幻覺(由8 倍的上采樣)和正面化微小(16*16 像素)不對齊的人臉圖像[4]。 南(NAN)等人提出一種基于特征超分辨率的人臉表情識別方法FSR-FER, 可針對低分辨率面部表情圖像進行訓(xùn)練識別, 通過在RAF-DB 數(shù)據(jù)庫上放大2 倍、3 倍、4倍、8 倍驗證了所提出網(wǎng)絡(luò)的效果, 即最小能夠識別25*25 像素大小的面部圖片[5]。 言(YAN)等人從濾波器學(xué)習(xí)的角度來執(zhí)行低分辨率的面部表情識別,在CK+、MMI、JAFFE 數(shù)據(jù)庫上進行了輸入大小為8*8、16*16、32*32 分別放大4 倍、2 倍、1 倍的驗證,在RAF-DB 數(shù)據(jù)庫上也進行了放大三倍實驗的驗證[6]。綜上,近些年研究者們提出的超分辨率方法,大多都是通過網(wǎng)絡(luò)深度的提升來提高超分辨率的性能,而要加深網(wǎng)絡(luò)的整體深度, 對訓(xùn)練時的時間要求以及對計算機性能的要求也都會提高。 因此,本文提出一種微小面部表情識別網(wǎng)絡(luò)CTE-FER,網(wǎng)絡(luò)結(jié)構(gòu)如圖1 所示,旨在解決在圖像采集中由于像素等原因?qū)е虏杉降拿娌繄D像較小以及分辨率較低, 從而導(dǎo)致面部表情識別準(zhǔn)確率降低的問題。 首先,本文引入來自Cutblur 的圖像預(yù)處理機制[7], 結(jié)合EDSR(Enhanced Deep Residual Networks for Single Image Super-Resolution)超分辨率網(wǎng)絡(luò)進行訓(xùn)練[8]。 由于要縱向加深網(wǎng)絡(luò)的整體深度, 其訓(xùn)練的時間延長以及對計算機性能要求也會提高。 綜合考慮網(wǎng)絡(luò)層次深度以及超分辨率效果, 本文在不改變EDSR 網(wǎng)絡(luò)縱向深度的同時提出了在橫向程度上添加通道, 以構(gòu)成三通道的EDSR 網(wǎng)絡(luò)。其次,將其與FER 面部表情識別網(wǎng)絡(luò)結(jié)合, 構(gòu)成端對端的基于Cutblur 的三通道EDSR 表情識別網(wǎng)絡(luò),稱之為CTE-FER 網(wǎng)絡(luò)。 最后,本文采用多項實驗對比驗證所提出算法的有效性。
圖1 CTE-FER 網(wǎng)絡(luò)結(jié)構(gòu)
本文提出的三通道超分辨率微小面部表情識別網(wǎng)絡(luò)分為三個部分。如上文圖1 所示,分別為Cutblur圖像預(yù)處理部分、 三通道EDSR 超分辨率部分以及FER 面部表情識別部分。 CTE-FER 圖像預(yù)處理部分是將面部圖像在超分辨率網(wǎng)絡(luò)訓(xùn)練之前進行色塊方面的預(yù)處理, 以減少圖像特征處理時對超分辨率結(jié)果和表情識別結(jié)果的影響。 三通道的EDSR 網(wǎng)絡(luò)對處理后的圖像特征進行學(xué)習(xí), 三通道將網(wǎng)絡(luò)的橫向深度加深, 保證了網(wǎng)絡(luò)縱向深度不變的同時提升其訓(xùn)練效果和穩(wěn)定性。 表情識別部分為對超分辨率處理后的圖像特征進行面部特征的提取和分類, 最終得到識別的結(jié)果。
CTE-FER 算法首先采用Cutblur 對圖像進行預(yù)處理, 通過在空間上將不同分辨率的圖像色塊相互填充, 從而實現(xiàn)有針對性地對某一特征區(qū)域進行超分辨率處理。 如圖2 所示, 將低分辨率圖像 (lowresolution ,LR) 中的圖像塊進行裁剪并粘貼在高分辨率圖像(high-resolution ,HR) 中對應(yīng)位置; 使用HR 對放大后的LR 反向進行局部區(qū)域的填充操作。通過預(yù)處理,既可以讓模型知道如何處理,也可以知道哪里需要處理, 即算法可以自適應(yīng)地對圖像進行不同程度的處理, 而不是盲目地對所有像素進行超分辨率處理。
圖2 Cutblur 預(yù)處理原理
假設(shè)給定LR 圖像xLR∈RW*H*C和HR 圖像xLR∈RW*H*C,CTE-FER 首先對LR 圖像進行s 倍的雙三次插值,再通過剪切、粘貼進行色塊相互填充,生成成對的訓(xùn)練樣本xLR∈RW*H*C:
其中s 是放大倍數(shù),M∈0.{ }1sW*sH為二值Mask,其主要功能為確定所需要進行裁剪粘貼的部分。
本文提出的三通道EDSR 網(wǎng)絡(luò)如圖3 所示, 將經(jīng)過Cutblur 處理后的特征向量作為輸入信息T1in、T2in、T3in,輸入到三通道EDSR 的網(wǎng)絡(luò)中。再經(jīng)過低分辨率特征提取塊conv(s,n)得到提取后的特征T′1in、T′2in和T′3in。
圖3 三通道EDSR
conv(s,n)代表卷積層,公式中的s 和n 分別是濾波器的大小和數(shù)目。 之后便將這些特征進行殘差塊ResBlock 多次迭代。
fRes表示T′in,ResBlock 層, 經(jīng)多次迭代加和后將輸出的殘差結(jié)構(gòu)進行上采樣以及圖像重建,如此便得到了經(jīng)過殘差網(wǎng)絡(luò)訓(xùn)練的超分辨率放大后的圖像特征T1out、T2out和T3out。 之后再將三通道得到的圖像特征進行加權(quán), 得到綜合的超分辨率特征值Tout。
其中μ 為權(quán)重, 具體參數(shù)獲取方法將在消融實驗給出。
在得到三通道加權(quán)后的超分辨率圖像特征之后,CTE-FER 將圖像特征放入面部表情識別網(wǎng)絡(luò)中進行面部特征提取與分類。
其中,I0表示面部表情識別輸出結(jié)果,fSMFER表示面部表情網(wǎng)絡(luò)。
此CTE-FER 網(wǎng)絡(luò)的損失函數(shù)可以表示為:
其中,LDF表示三通道EDSR 網(wǎng)絡(luò)的損失函數(shù),Lfer表示面部表情識別網(wǎng)絡(luò)的損失函數(shù)。 在此選擇交叉熵作為損失函數(shù)。λDE和λfer表示正則化參數(shù)。其中,三通道EDSR 網(wǎng)絡(luò)采用損失函數(shù)L1 來優(yōu)化, 面部表情網(wǎng)絡(luò)采用交叉熵損失函數(shù)優(yōu)化。 因此可以表示為:
其中,μ值與公式9 一致,LSR1、LSR2、LSR3分別對應(yīng)三個通道的損失,THR為輸入的高分辨率圖像特征,即目標(biāo)特征。 Ix為表情識別實際標(biāo)簽。
本實驗在Pytorch3.6 的環(huán)境中運行, 使用NVIDIA2080GPU 進行訓(xùn)練。 訓(xùn)練時一共有700 000個steps,每訓(xùn)練1 000 個steps 顯示一次。 在網(wǎng)絡(luò)中使用Adam 優(yōu)化器優(yōu)化網(wǎng)絡(luò)參數(shù),初始學(xué)習(xí)率為1e-4。 對于三通道的EDSR 網(wǎng)絡(luò)來說,訓(xùn)練時間和改進之前的訓(xùn)練時間相差無幾, 在輸入低分辨率圖像大小為12*12 像素放大四倍的情況下,每訓(xùn)練1 000 個steps 大約需要10 分鐘。
表1 展示了本文所提出的CTE-FER 算法與采用CARN 網(wǎng)絡(luò)和不同通道分別在CK+、FER2013、BU-3DFE 數(shù)據(jù)庫中的表情識別結(jié)果的比較。 放大倍數(shù)為3和4 時,將數(shù)據(jù)庫采用雙三次插值法縮小到原來1/3 和1/4 分別得到大小為16*16 像素和12*12 像素的輸入。
表1 消融實驗
在表1 中,CSC-FER 為在單通道時采用CARN算法時的結(jié)果, 其在CK+數(shù)據(jù)集上的結(jié)果為91.92%, 在FER2013 和BU-3DFE 的結(jié)果分別為66.26%和78.8%。 但對于其未采用Cutblur, 只采用EDSR 結(jié)果相對比結(jié)果并不理想。 CSE-FER 為單通道采用EDSR 網(wǎng)絡(luò)時的結(jié)果,可以看到,在三個數(shù)據(jù)集上該算法得到的結(jié)果較采用同等網(wǎng)絡(luò)深度網(wǎng)絡(luò)(CARN)時的結(jié)果要好,并且在放大三倍的情況下整體面部表情識別的準(zhǔn)確率也較為理想。 因此,在網(wǎng)絡(luò)中選取EDSR 作為基礎(chǔ)網(wǎng)絡(luò), 同時為進一步驗證多通道的有效性,本文將輸入大小縮小為12*12 像素,即縮小4 倍的情況。 可以看出, 在圖像進一步縮小時,各個數(shù)據(jù)庫的識別準(zhǔn)確率都有一定程度的降低。綜合比較單通道(CSE-FER)、雙通道(CDE-FER)、三通道(CTE-FER)時的情況可以看出,在按通道時所有數(shù)據(jù)庫的準(zhǔn)確率均有明顯提升。 進一步進行四通道訓(xùn)練時, 在FER2013 數(shù)據(jù)庫中可以看到準(zhǔn)確率開始下降,也正是因為訓(xùn)練所需時間為三通道的兩倍,針對四通道之后的訓(xùn)練不再繼續(xù)。
上文公式(9)中有三個參數(shù)μ1、μ2、μ3,分別用于確定三通道EDSR 網(wǎng)絡(luò)中的各個通道的影響。 本實驗采用FER2013 數(shù)據(jù)庫進行實驗,首先采用不定系數(shù)法保持μ1=1 不變, 然后調(diào)整μ2和μ3的值來觀察識別準(zhǔn)確率,從下頁圖4 可以看出,當(dāng)μ2=μ3=0.08 時面部表情識別準(zhǔn)確率最高;之后保持μ2=μ3=0.08 不變,調(diào)整μ1的值,得出的結(jié)果如下頁圖5 所示。 可以看出當(dāng)μ1=0.8 時,面部表情識別準(zhǔn)確率達到最高。 綜上,本實驗在μ1=0.8,μ2=μ3=0.08 時達到最優(yōu)值。
圖4 μ1=1,改變μ2,μ3 時面部表情識別準(zhǔn)確率的變化
圖5 μ2=μ3=0.08 時,改變μ1 時面部表情識別準(zhǔn)確率的變化
圖6 展示出本算法在CK+、FER2013、BU-3DFE數(shù)據(jù)庫中的混淆矩陣分析,從圖中可以看到,各種表情開心與驚訝的表情準(zhǔn)確率相對較高, 而其他的表情準(zhǔn)確率相對略低, 并且不同的數(shù)據(jù)庫中的相同表情準(zhǔn)確率的順序也不相同, 這是因為每個數(shù)據(jù)庫中的各個表情所占比重不同, 以及每個數(shù)據(jù)庫的圖像來源、清晰度、表情程度等均對其造成影響。
圖6 CTE-FER 在三個數(shù)據(jù)庫上的混淆矩陣
表2 展示了在數(shù)據(jù)庫CK+、FER2013、BU-3DFE本章算法與先進算法結(jié)果進行比較, 可以看出在本文輸入大小僅為12*12 像素時,CK+數(shù)據(jù)庫和BU-3DFE 數(shù)據(jù)庫中得到的結(jié)果可以與先進算法相媲美,達到96.97%和80.40%,而對于FER2013 數(shù)據(jù)庫, 由于其原始數(shù)據(jù)庫是由網(wǎng)絡(luò)中的圖片得到,存在較大的噪聲,且分辨率較低,在進行超分辨率訓(xùn)練時, 高分辨率的圖像決定訓(xùn)練結(jié)果的最優(yōu)值,因此FER2013 數(shù)據(jù)庫得到的效果與先進算法存在一定差距。
表2 不同方法在CK+、FER2013、BU-3DFE 數(shù)據(jù)庫上的準(zhǔn)確度(不同輸入大?。?/p>
為了驗證在相同輸入大小時的CTE-FER 網(wǎng)絡(luò)性能, 將其在放大倍數(shù)為4 時的結(jié)果與其他網(wǎng)絡(luò)在相同輸入大小時進行比較。 對比結(jié)果如表3 所示,在相同輸入大小時,本文提出的CTE-FER 網(wǎng)絡(luò)的表情識別結(jié)果高于其他網(wǎng)絡(luò)。
表3 面部表情識別在CK+、FER2013、BU-3DFE 數(shù)據(jù)庫上的準(zhǔn)確度(相同輸入大?。?/p>
為了進一步對本文提出了網(wǎng)絡(luò)性能進行驗證,針對RAF-DB 數(shù)據(jù)庫進行實驗, 并與現(xiàn)有的部分超分辨率面部表情識別算法進行比較,實驗結(jié)果于表4所示。 可以看出與其他網(wǎng)絡(luò)的結(jié)果對比,在放大倍數(shù)為2 的情況下,準(zhǔn)確率略低于E-FCNN 算法結(jié)果,而在放大3 倍和放大4 倍時得到的結(jié)果均高于其他算法。 因此,在高放大倍數(shù)的情況下,本章所提算法具有優(yōu)越性。
表4 RAF-DB 數(shù)據(jù)庫的低分辨率面部表情識別比較
研究提出一種基于超分辨率的面部表情識別算法CTE-FER, 對于微小尺寸的面部表情進行識別,通過針對超分辨率算法進行多通道的改進, 提升針對小尺寸下面部表情圖像的超分辨率效果, 進而提升整體面部表情識別的準(zhǔn)確率。 同時,研究采用大量的對比實驗評估該算法的性能,實驗結(jié)果表明,本文提出的算法有效地提升了微小面部表情的識別準(zhǔn)確率。 未來研究將進一步提升算法的性能,降低算法訓(xùn)練時間的同時提升準(zhǔn)確率。