莫宏偉,傅智杰
(哈爾濱工程大學(xué) 自動化學(xué)院,黑龍江 哈爾濱 150001)
人臉表情自動識別是情感計算和計算機視覺領(lǐng)域的研究熱點之一[1-5]。近年來,隨著人工智能的迅猛發(fā)展,人臉表情識別在多媒體娛樂、人機交互、機器智能等領(lǐng)域有著廣泛的應(yīng)用前景。近年來,許多研究者致力于人臉表情識別研究,并提出了許多有效的方法。
Zheng等[6]提出了核典型關(guān)聯(lián)分析(kernel canoncal correlation analysis,KCCA)的人臉表情識別方法,通過對輸入圖像中人面部34個關(guān)鍵點進行定位,然后將這些關(guān)鍵點通過Gabor小波變換轉(zhuǎn)換成帶有標(biāo)注信息的圖向量(labeled graph,LG)來表示人臉特征。另外,針對每個訓(xùn)練人臉表情圖像,將6種表情類型的標(biāo)簽轉(zhuǎn)化成一個六維語義表達向量,進而學(xué)習(xí)LG向量與語義表達向量之間的相關(guān)關(guān)系,利用這種關(guān)系推斷出測試圖像的語義表達。在不同人臉表情數(shù)據(jù)庫上的實驗結(jié)果表明了該方法的有效性。與目標(biāo)檢測等計算機視覺任務(wù)相比,圖像描述不僅需要檢測圖像中的內(nèi)容,還需要理解圖像中目標(biāo)物體之間的具體關(guān)系,并使用自然語言正確地表達出來。Uddin等[7]提出了一種新的方法來對基于時間序列的視頻中的人臉表情進行識別,首先從時間序列人臉中提取局部方向模式特征,然后進行主成分分析和線性判別分析,使特征具有較強的魯棒性。最后,利用隱馬爾可夫模型對不同的面部表情進行局部特征建模和識別,取得了較好的識別效果。Yu[8]提出了一種基于圖像的靜態(tài)面部表情識別方法,該方法包含一個基于3個最先進的人臉檢測器集成的人臉檢測模塊,以及一個基于多層深度卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural network, CNN)級聯(lián)的分類模塊。為了自動決定級聯(lián)CNN的權(quán)重分配問題,提出了通過最小化對數(shù)似然損失和最小化鉸鏈損失2種自適應(yīng)訓(xùn)練卷積神經(jīng)網(wǎng)絡(luò)權(quán)值的優(yōu)化方案。Baccouche等[9]設(shè)計了一種時空卷積稀疏自編碼器,在不需要任何監(jiān)督信息的情況下學(xué)習(xí)稀疏移位不變表示。
雖然上述人臉表情識別方法取得了較好的識別效果,但需要注意的是,這些方法通常認(rèn)為訓(xùn)練數(shù)據(jù)樣本和測試數(shù)據(jù)樣本的數(shù)據(jù)分布相同。而在實際應(yīng)用中,可能無法滿足相同的分布假設(shè)。特別是當(dāng)訓(xùn)練數(shù)據(jù)和測試數(shù)據(jù)來自2個不同的數(shù)據(jù)庫,且這2個數(shù)據(jù)庫是在不同的數(shù)據(jù)收集環(huán)境下收集的。對于這樣的跨域人臉表情識別問題,傳統(tǒng)的人臉表情識別方法可能無法達到很好的識別效果。近年來,遷移學(xué)習(xí)在圖像分類[10-11]和標(biāo)注[12-13]、目標(biāo)識別[14-17]和特征學(xué)習(xí)[18-20]等方面都有很好的應(yīng)用前景。且在跨域識別問題上展現(xiàn)出較大的優(yōu)勢,越來越受到研究者的關(guān)注。
在跨域人臉表情識別問題中,源域和目標(biāo)域來自不同的數(shù)據(jù)庫,服從不同的數(shù)據(jù)分布,因此需要解決的主要問題就是如何減小不同域之間的分布差異。近幾年,一些研究者通過對源域和目標(biāo)域數(shù)據(jù)進行權(quán)重的重用來減小域之間的分布差異[21],或者通過找到一個共享的特征表示在保留原始數(shù)據(jù)屬性的同時來減小域之間的分布差異[22-23]。但是大多數(shù)存在的方法僅對齊了邊緣分布而忽略了條件分布的重要性,且往往需要目標(biāo)域中有少量標(biāo)簽樣本。
因此,為了解決源域和目標(biāo)域數(shù)據(jù)來自2個不同的數(shù)據(jù)集,服從不同的邊緣分布和條件分布,且目標(biāo)域沒有標(biāo)記數(shù)據(jù)的無監(jiān)督跨域表情識別問題,本文提出將聯(lián)合分布對齊的遷移學(xué)習(xí)方法應(yīng)用于跨域表情識別。該方法通過找到一個特征變換,將源域和目標(biāo)域數(shù)據(jù)映射到一個公共子空間中,在該子空間中聯(lián)合對齊邊緣分布和條件分布來減小域之間的分布差異,然后對變換后的特征進行訓(xùn)練得到一個域適應(yīng)分類器來預(yù)測目標(biāo)域樣本標(biāo)簽,提高跨域人臉表情識別的準(zhǔn)確率。
分布對齊的核心思想是通過找到一個特征變換矩陣,將源域和目標(biāo)域樣本映射到一個公共子空間,即可再生核希爾伯特空間(reproducing kernel Hilbert space, RKHS),通過引入無參數(shù)的最大均值差異MMD來度量源域和目標(biāo)域數(shù)據(jù)之間邊緣分布和條件分布的距離,在該子空間中在最大化投影后源域和目標(biāo)域數(shù)據(jù)方差的同時,聯(lián)合對齊邊緣分布和條件分布,最小化域之間的分布距離,即
然后對變換后的特征進行訓(xùn)練得到一個域適應(yīng)分類器,來對目標(biāo)域中的數(shù)據(jù)標(biāo)簽進行預(yù)測。分布對齊原理示意圖如圖 1所示。
圖1 分布對齊原理示意Fig.1 Schematic diagram of the distribution alignment
在進行分布對齊之前,需要解決的主要問題就是找到一個合適的度量準(zhǔn)則來計算2個域之間的分布差異。而在機器學(xué)習(xí)中存在很多度量準(zhǔn)則可以度量不同分布之間的差異, 例如歐氏距離、余弦相似度、KL散度等。但這些方法通常計算起來比較復(fù)雜。因此為了對齊邊緣分布,減小邊緣分布P(Xs) 和P(Xt) 之間的差異,采用無參數(shù)的最大均值差異MMD來度量不同分布之間的距離。
MMD的主要目標(biāo)就是在RKHS中計算經(jīng)過變換后的源域樣本和目標(biāo)域樣本均值之間的距離。因此,邊緣分布對齊的目標(biāo)函數(shù)可以寫成:
式中:xi、xj分別為源域和目標(biāo)域中的第i個樣本和第j個樣本;H表示可再生核希爾伯特空間。
通過矩陣技巧和跡優(yōu)化,式(3)可以被改寫為
其中L是MMD矩陣,計算如下:
因此,通過式(4)使得域之間的邊緣分布P(Xs) 和P(Xt) 盡可能地接近,減小了域之間的邊緣分布差異。
減小邊緣分布的差異通常并不能保證域之間的條件分布差異也隨之減小。實際上最小化條件分布Ps(Ys|Xs) 和Pt(Yt|Xt) 之間的差異對于跨域識別問題來說也是至關(guān)重要的。然而,對齊條件分布并不是很容易,在目標(biāo)域沒有標(biāo)簽數(shù)據(jù),對條件分布Pt(Yt|Xt) 直接進行求解是行不通的。因此可以使用類條件分布的充分統(tǒng)計量Pt(Xt|Yt) 來近似Pt(Yt|Xt)。近來的一些工作開始通過內(nèi)核映射空間中的樣本選擇、聯(lián)合訓(xùn)練[24]、循環(huán)驗證[25]、核密度估計[26]等進行條件分布對齊。但是這些方法往往都需要在目標(biāo)域中有一些標(biāo)簽數(shù)據(jù),所以這些方法并不能解決我們的問題。
為了解決這一問題,提出利用目標(biāo)域數(shù)據(jù)的偽標(biāo)簽,即通過將在有標(biāo)簽的源域數(shù)據(jù)上訓(xùn)練的基分類器應(yīng)用于無標(biāo)簽的目標(biāo)域數(shù)據(jù),可以很容易地預(yù)測目標(biāo)域數(shù)據(jù)的偽標(biāo)簽。由于不同域之間的分布差異,這些偽標(biāo)簽可能不是太準(zhǔn)確,需要在實驗中進行迭代優(yōu)化。在源域帶標(biāo)簽數(shù)據(jù)上訓(xùn)練的基分類器可以是標(biāo)準(zhǔn)的學(xué)習(xí)器,例如支持向量機(SVM)、NN等。
有了真實標(biāo)簽的源域數(shù)據(jù)和帶有偽標(biāo)簽的目標(biāo)域數(shù)據(jù)之后,就可以在標(biāo)簽空間Y的每個類中匹配類條件分布Ps(xs|ys=c) 和Pt(xt|yt=c),c={1,2,···,C} 。為了測量類條件分布Ps(xs|ys=c)和Pt(xt|yt=c) 之間的距離,本文對MMD進行了修改。因此,條件分布對齊的目標(biāo)函數(shù)可以寫成:
因此,通過式(7)減小了域之間的條件分布差異。但是在本文要解決的問題中,目標(biāo)同時是最小化域間的邊緣分布和條件分布的差異。因此將式(4)、(7)與式(2)合并到一起得到DaL的優(yōu)化問題,即表示轉(zhuǎn)換矩陣W的Frobenius范數(shù)。
φ=diag(φ1,φ2,···,φk)∈Rk×k
令 為拉格朗日乘子,根據(jù)約束優(yōu)化理論,可以推導(dǎo)出式(9)的拉格朗日函數(shù),即
令式(10)對變換矩陣W求偏導(dǎo)數(shù),并令其等于零可得到其廣義特征分解:
最后,選擇式(11)的前k個最小特征值對應(yīng)的特征向量作為變換矩陣W的解。算法的偽代碼如算法1所示。
算法1 分布對齊算法(DaL)
輸入 數(shù)據(jù)矩陣X,標(biāo)簽矩陣ys,子空間維度k,以及正則化參數(shù) λ;
輸出 變換矩陣W,域適應(yīng)分類器f。
2)通過對式(11)進行特征分解選擇最小的k個特征向量構(gòu)建變換矩陣W;
4)重復(fù)步驟2)、3)直至收斂;
圖2 CK+數(shù)據(jù)庫部分表情樣本Fig.2 Partial expression samples of CK + Database
2)Oulu-CASIA NIR & VIS Database數(shù)據(jù)庫[29]
該數(shù)據(jù)庫主要由Oulu-CASIA NIR(近紅外相機)和Oulu-CASIA VIS(可見光相機)兩部分組成,如圖3、4所示,均通過對年齡范圍為25~58歲的80位測試者進行表情采集,其中男性和女性的比例分別為73.8%和26.2%。在80位測試者中,50位芬蘭測試者由奧盧大學(xué)進行采集,剩余的測試者由中國科學(xué)院模式識別實驗室完成采集整理。整個數(shù)據(jù)庫包含的面部表情為高興、生氣、厭惡、驚訝、恐懼和悲傷,所有這些表情都是在3種不同光源條件(正常、強光、黑暗)下,分別通過一個可見光攝像機和一個近紅外攝像機獲得的。
圖3 Oulu-CASIA VIS分別在黑暗、正常、強光條件下數(shù)據(jù)庫中表情樣本Fig.3 Expression samples of Oulu-CASIA VIS under dark, normal and strong light conditions respectively
1)CK+數(shù)據(jù)庫
CK+(the extended cohn-kanda dataset)數(shù)據(jù)庫[27]是美國的匹茲堡大學(xué)團隊和卡內(nèi)基梅隆大學(xué)團隊合作在CK(cohn–kanade)數(shù)據(jù)庫[28]上進行擴充
為了比較,本文選擇了近年來在跨域人臉表情識別中常使用的遷移學(xué)習(xí)算法,包括核均值匹配(kernel mean matching, KMM)[30]、Kullback-Leibler重要性估計過程(kullback-leibler importance estimation process, KLIEP)[31]、選擇性遷移機(selective transfer machine, STM)[5]等與本文提出的分布對齊(DaL)進行對比,這些方法的參數(shù)設(shè)置將在后面進行介紹。此外,使用線性支持向量機(SVM)作為這4種基準(zhǔn)對比方法的分類器,即KLIEP+SVM、KMM+SVM、STM+SVM和DaL+SVM,同時將無遷移的SVM作為基準(zhǔn)方法與這4種算法進行對比。
在實驗過程中,每次選取這3個數(shù)據(jù)庫中的任意2個分別作為源域(訓(xùn)練集)和目標(biāo)域(測試集),因此可以得到6組對比實驗,即
1) CK+作為源域,Oulu-CASIA NIR作為目標(biāo)域,用C&N表示;
2) Oulu-CASIA NIR作為源域,CK+作為目標(biāo)域,用N&C表示;
3) CK+作為源域,Oulu-CASIA VIS作為目標(biāo)域,用C&V表示;
4) Oulu-CASIA VIS作為源域,CK+作為目標(biāo)域,用V&C表示;
5) Oulu-CASIA NIR作為源域,Oulu-CASIA VIS作為目標(biāo)域,用N&V表示;
6) Oulu-CASIA VIS作為源域,Oulu-CASIA NIR作為目標(biāo)域,用V&N表示。
在本文實驗中所用到的3個數(shù)據(jù)庫中的表情樣本構(gòu)成如表1所示。實驗中所有方法采用的參數(shù)設(shè)置及評價指標(biāo)如下:在實驗中,線性支持向量機(SVM)以固定的C=0.2,且在實驗過程中,為了公平對比,所有方法均采用線性核函數(shù)。對于KMM來說主要有2個參數(shù)B和 ε,分別設(shè)置為
表1 實驗所用數(shù)據(jù)庫樣本構(gòu)成Table 1 Composition of database samples used in the experiment
式中:A表示準(zhǔn)確率;Dt表示目標(biāo)域樣本;y?(x) 表示各對比算法預(yù)測的目標(biāo)域樣本標(biāo)簽;y(x) 表示目標(biāo)域樣本的真實標(biāo)簽。
不同對比方法在本文設(shè)置的6種實驗場景下的平均準(zhǔn)確率分別如表2、3所示。從實驗結(jié)果可以看出:
1)本文提出的DaL在不同場景下的識別效果相對于無遷移學(xué)習(xí)的傳統(tǒng)機器學(xué)習(xí)算法SVM有大幅提升,且均高于KMM、KLIEP和STM,表明DaL在跨域人臉表情識別的有效性。
2)從表2和表3的1、2和3、4四組實驗中可以看出,在源域為CK+而目標(biāo)域分別為Oul u-CASIA VIS和Oulu-CASIA NIR時的識別準(zhǔn)確率均低于在源域分別為Oulu-CASIA VIS和Oulu-CASIA NIR而目標(biāo)域為CK+時的識別準(zhǔn)確率,并結(jié)合表1可以看出,出現(xiàn)這種情況的原因:1)可能是因為CK+數(shù)據(jù)庫中的表情樣本數(shù)量較少;2)可能是因為CK+數(shù)據(jù)庫中樣本數(shù)量不均衡造成的。
3)通過表2和3中5、6兩組實驗可以看出,在源域為Oulu-CASIA VIS,目標(biāo)域為Oulu-CASIA NIR上的識別效果要高于在源域為Oulu-CASIA NIR,目標(biāo)域為Oulu-CASIA VIS上的識別效果,出現(xiàn)這種現(xiàn)象的原因可能是由于Oul u-CASIA VIS和Oulu-CASIA NIR數(shù)據(jù)庫中表情圖像使用的采集設(shè)備不同,在Oul u-CASIA VIS和Oul u-CASIA NIR數(shù)據(jù)庫中的表情圖像分別是通過可見光相機和近紅外相機拍攝的,表明模型從由可見光相機拍攝的表情圖像上提取的特征要比近紅外圖像上提取的質(zhì)量更高。
4)通過對比表2和表3中6組實驗可以看出,通過圓形LBP特征提取方法在R= 2,P=16時提取特征的識別效果均高于R= 1,P=8時的識別效果,這一現(xiàn)象表明,在擴大特征提取半徑和增加臨近像素點時,LBP提取的特征相對較好。
5)通過對比表2和3中的6組實驗可以看出,SVM在5、6兩組實驗上的識別效果相對于前4組實驗來說有了較大提升。這是因為,Oulu-CASIA VIS和Oulu-CASIA NIR數(shù)據(jù)庫中的樣本之間的差異,要小于CK+中樣本與Oul u-CASIA VIS和Oul u-CASIA NIR之間的差異。在Oul u-CASIA VIS和Oulu-CASIA NIR中樣本的采集對象相同,因此樣本間的特征差異相對較小。所以,對于無遷移學(xué)習(xí)的傳統(tǒng)機器學(xué)習(xí)算法SVM來說,在5、6兩組上的識別率相對較好。
表 2不同方法在6種不同實驗場景下的平均準(zhǔn)確率Table 2 Average accuracy of different methods in six different experimental scenarios%
表 2不同方法在6種不同實驗場景下的平均準(zhǔn)確率Table 2 Average accuracy of different methods in six different experimental scenarios%
?
表 3不同方法在6種不同實驗場景下的平均準(zhǔn)確率Table 3 Average accuracy of different methods in six different experimental scenarios %
表 3不同方法在6種不同實驗場景下的平均準(zhǔn)確率Table 3 Average accuracy of different methods in six different experimental scenarios %
?
為了更加直觀地表示各對比算法的識別效果,給出了這5種算法在不同場景下的平均準(zhǔn)確率曲線,如圖5所示。從圖5中可以清晰看出,本文提出的Da L方法在跨域人臉表情識別上的有效性。
圖5 各對比算法在不同實驗場景下的平均準(zhǔn)確率曲線Fig.5 Average accur acy curve of each compar i son algorithm in different experimental scenarios
為了進一步驗證提出方法的有效性,本文選擇表3中序號為3和5的這一組對比實驗進行分析,并給出了在C&V和N&V兩種實驗場景下各對比算法在6種表情上的識別率混淆矩陣,分別如圖6和圖7所示。
通過圖6和圖7可以看出,在CK+作為源域,Oulu-CASIA VIS作為目標(biāo)域時,在DaL中各種表情的識別率均高于各基準(zhǔn)對比算法,并且不同算法在6種表情上的識別率差異相對較大。例如,在DaL中 “驚訝”、“高興”這2種表情的識別率相對較高,分別為72%、60%,而“悲傷”和“恐懼”這2種表情的識別率較低,分別為36%、32%。
圖6 C&V實驗場景下各對比方法在6種表情上的識別率混淆矩陣Fig.6 Confusion matrix of the recognition rate of each comparison method on six expressions in the C&V experimental scene
圖7 N&V實驗場景下各對比方法在6種表情上的識別率混淆矩陣Fig.7 Confusion matrix of the recognition rate of each comparison method on six expressions in the N&V experimental scene
結(jié)合表2可知,出現(xiàn)這種現(xiàn)象主要是因為在CK+數(shù)據(jù)庫中 “吃驚”表情的樣本數(shù)量最多,有85張表情圖像,而“恐懼”僅有25張表情圖像。另外,還可以看到,“憤怒”、“厭惡”和“悲傷”這3種表情比較容易誤判,結(jié)合圖4中各表情樣本,出現(xiàn)這種情況原因可能是因為受試者在表達這3種表情時的面部運動變化不大,因此提取的特征較為相似,不易于區(qū)分。此外,當(dāng)源域為Oulu-CASIA NIR,目標(biāo)域為Oulu-CASIA VIS時,“悲傷”和“恐懼”這2種表情的識別準(zhǔn)確率有了大幅提升,平均提高了22%左右,且其他4種表情的識別率也有較大提升。這進一步說明了,數(shù)據(jù)庫中樣本數(shù)量的多少對跨域人臉表情識別的效果具有一定的影響。但無論CK+和Oulu-CASIA NIR哪個數(shù)據(jù)庫作為源域,DaL的識別準(zhǔn)確率均高于各基準(zhǔn)對比算法,驗證了該算法在跨域人臉表情識別上的有效性。
圖4 Oulu-CASIA NIR分別在黑暗、正常、強光條件下數(shù)據(jù)庫中表情樣本Fig.4 Expression samples of Oulu CASIA NIR under dark, normal and strong light conditions respectively
本文提出將一種基于分布對齊的遷移學(xué)習(xí)方法應(yīng)用到跨域人臉表情識別中,通過找到一個特征變換矩陣,將源域和目標(biāo)域樣本映射到一個公共子空間,引入無參數(shù)的最大均值差異MMD來度量源域和目標(biāo)域數(shù)據(jù)之間邊緣分布和條件分布的距離,在該子空間中最大化投影后源域和目標(biāo)域數(shù)據(jù)方差的同時,聯(lián)合對齊邊緣分布和條件分布,最小化域之間的分布距離,然后對遷移后的特征進行訓(xùn)練得到一個域適應(yīng)分類器,來對目標(biāo)域中的數(shù)據(jù)標(biāo)簽進行預(yù)測,與4種基準(zhǔn)方法在不同實驗場景下的實驗結(jié)果表明,本文提出的算法在跨域人臉表情識別上具有優(yōu)勢。但是還有一些不足之處,需要進一步的研究:1)對于跨域人臉表情識別來說,實驗中的數(shù)據(jù)集樣本數(shù)量的多少對于實驗效果會產(chǎn)生很大的影響。因此,對于如何建立大樣本人臉表情數(shù)據(jù)庫將會是下一步需要進行的工作。2)在本文中對條件分布進行對齊時,由于目標(biāo)域數(shù)據(jù)中沒有標(biāo)簽數(shù)據(jù),因此在實驗中通過目標(biāo)域數(shù)據(jù)的偽標(biāo)簽來進行對齊。但由于域之間的分布差異問題,這種方法預(yù)測的偽標(biāo)簽可能不是很準(zhǔn)確。因此,對于在條件分布對齊時目標(biāo)域中無標(biāo)簽數(shù)據(jù)的問題,需要進一步探索新方法來解決。