楊 韜, 孔 軍,2
(1.江南大學 輕工業(yè)先進過程控制重點實驗室,江蘇 無錫 214122;2.新疆大學 電氣工程學院, 新疆 烏魯木齊 830047)
人臉對齊的目的是從人臉圖像或視頻中定位出諸如眼睛、鼻子、嘴巴等面部特征點,具有廣泛的應用前景。但是在現實中,由于人臉形狀的多變性,及姿態(tài)、不同人臉檢測結果等因素的影響,人臉對齊問題仍然面臨巨大挑戰(zhàn)。
近年,人臉對齊問題的研究取得了很大進步。在諸多算法中,級聯(lián)形狀回歸算法作為主流算法而不斷被研究改進。Cao X等人[1]提出的顯式形狀回歸(ESR),通過學習一系列人臉形狀回歸量,控制人臉由初始形狀逐步收斂于目標真實形狀,但該算法對噪聲十分敏感,且需要存儲大量的形狀回歸量。Ren S等人[2]隨后提出了對于每個面部特征點編碼局部二值特征(local binary feature,LBF),提高了對齊速度與精度,但該算法很容易受不同人臉檢測器的影響,同時對于較大人臉姿態(tài)的魯棒性不強。
本文在原始LBF算法的基礎上進行改進。首先,在特征點相關子區(qū)域設計了一種相對索引特征代替形狀索引特征;同時提出了一種空間依賴假設,結合相對索引在每個依賴區(qū)域進行聯(lián)合線性回歸,最后以實驗的方式比較本文的算法與原始的LBF算法,包括對齊表現(精度比較)和算法的魯棒性(敏感性分析)。
給出一張人臉圖像I,人臉對齊問題可以看作由一個包含M個面部特征點的形狀S通過迭代的方式最終收斂到目標真實形狀的過程
(1)
級聯(lián)形狀回歸算法通常從一個初始形狀S0開始,可以是取自所有訓練樣本的平均形狀,然后通過T個回歸器(R1,R2,…,RT)以級聯(lián)的方式逐漸修正形狀估計?;貧w器Rt輸出形狀增量ΔSt結合上一級形狀估計St-1更新當前形狀估計St
St=St-1+ΔSt
(2)
實際算法設計中,形狀增量ΔSt獲取可以解釋為
ΔSt=WtΦt(I,St-1)
(3)
級聯(lián)形狀回歸算法:
1:fort=1 toTdo
2:Set ΔSt←0,Δt←-St-1
3:ft=Φt(I,St-1) ? 獲得特征
4:ΔSt=Rt(ft) ? 回歸
5:St=St-1+ΔS?更新形狀估計
6:end for
輸出:最終估計ST
LBF算法的創(chuàng)新在于在隨機森林的框架下編碼每個特征點周圍的局部紋理,將像素特征轉化成二值化稀疏特征矩陣。隨后結合這些局部二值化特征聯(lián)合學習一個全局線性回歸矩陣Wt
(4)
公式前半部分為回歸目標;后者為Wt的L2范數正則化矩陣;λ為一個自由收縮參數。實驗證明,這種編碼方式可使回歸更快地收斂,LBF也因此取得了目前對齊算法中最快的成績。
但該算法很容易受不同人臉檢測器的影響。圖1給出了原始LBF算法在不同人臉檢測器下對齊效果。圖中第一列的人臉檢測結果來自于IBUG[3],后2列來自于目前最先進的人臉檢測器HeadHunter[4]和Dlib[5]。同時該算法對于較大人臉姿態(tài)的魯棒性不強??赡苁怯捎趩我坏男螤钏饕卣髋c全局線性回歸配合不足以有效解決現實中的人臉對齊問題。同時,由于人臉外部輪廓和五官各部分的定位難度不同,全局回歸共用一個損失函數會導致各個特征點在訓練損失函數中分布嚴重不平衡。
圖1 LBF人臉對齊算法在不同人臉檢測器下的表現
現實中的人臉對齊常受到較大形狀變化的挑戰(zhàn),為了解決這個問題,ESR算法利用形狀索引特征:以當前形狀St-1為基準,任意像素點在圖像中的位置可以由離其最近的特征點m到這個像素點的相對坐標索引,即(m,δx,δy)。這種索引方法相較于傳統(tǒng)的圖像全局坐標索引方式魯棒性更強。受啟發(fā)于ESR算法的成功,LBF在St-1的每個特征點周圍隨機采樣P個像素點,并使用形狀索引方式索引像素點。
然而,單一的形狀索引特征在面對較大形狀變化或個體差異時魯棒性仍不夠強,如圖2(a)所示,相同形狀索引值對應的像素點在兩個人臉上位置差別很大。本文提出了一種更為魯棒的特征索引方式,稱為相對索引特征。對于每個目標特征點m,首先尋找與其具有依賴關系的特征點n。隨后在這兩個特征點之間采樣像素點,并通過二者距離比例r來索引像素點,即(m,n,r),如圖2(b)所示。從圖2中可以看出,在面對較大人臉形狀變化時,本文的相對索引特征魯棒性更強。
圖2 相對索引特征對比形狀索引特征
實際上,如果直接在任意兩個特征點之間采樣像素點,會出現一些采樣的像素點與目標特征點距離過遠,從而導致這些像素點失去了描述目標特征點周圍紋理信息的意義。將具有相互依賴關系的特征點歸為一組可以避免出現該問題。本文簡單地將所有特征點進行分組。如圖3所示,圖3(a)給出了本文作者手動將所有特征點劃分為K組,即St=(St,1,St,2,…,St,K);圖3(b)給出了原始LBF算法在以特征點為圓心的一個圓區(qū)域內采樣像素點;圖3(c)給出了本文算法在一個空間依賴假設的前提下,在相鄰特征點之間進行采樣。這種特征點間依賴假設在后續(xù)線性回歸中仍然使用到。
圖3 空間依賴假設和特征采樣
(5)
式中L和R分別為當前結點中訓練樣本經過分裂后分別落在左、右子結點的子樣本集合;D(L)和D(R)為左、右子結點樣本回歸目標的方差。訓練完成后,所有的葉子結點儲存了訓練樣本的特征信息。隨機森林的輸出為所有葉子結點的集合:樣本到達葉子結點處值為1;否則,為0。
考慮到簡單結合所有的局部二值特征構成一個Φt并全局學習一個線性回歸矩陣Wt并未有效利用特征點之間的形狀約束,且會導致各個特征點在訓練損失函數中分布嚴重不平衡。本文將放棄原有的全局線性學習,在之前的空間依賴假設的前提下將特征映射函數分為K組,即{Φt,1,Φt,2,…,Φt,K} 。然后分別對每組特征點聯(lián)合學習,即半全局線性學習。對于每一組k,學習過程可以描述為
(6)
特征映射函數Φt,k具有以下特性:1)特征的維數很大;2)特征是高度稀疏的,因為大部分值為0。選擇使用支持向量回歸(SVR),同時采用雙坐標下降法處理該大規(guī)模稀疏線性系統(tǒng),即使用基于L2范數正則化的L2損失支持向量回歸[6]。
實驗將本文算法與近幾年出現的幾種先進算法進行對比。實驗評估使用300-W[3]基準數據集,包含3 148個訓練樣本和689個測試樣本。實驗中所做的唯一預處理是圖像去均值操作。
實驗平臺為Ubuntu C++環(huán)境。實驗將本文算法與ESR,LBF,CLM[7,8]算法進行對比,實驗結果如圖4所示。首先比較了幾種算法的平均對齊誤差(AE),如圖4(a),誤差通過除以兩眼間距離的方式正規(guī)化。為了防止一些對齊誤差較大的樣本影響評估,舍去了對齊誤差最高的10個樣本后重新繪制了圖4(b)。對比2圖可以看出,盡管只去掉了10個樣本,平均對齊誤差的改變幅度卻有所差別,例如LBF算法降低了0.83,而本文的算法降低了0.79,相對更穩(wěn)定。
圖4 算法表現對比
繪制了累積誤差分布(cumulative error distribution,CED)曲線,如圖4(c)。本文采用了文獻[8]的設定,樣本對齊誤差大于0.1即為對齊失敗。由于使用平均對齊誤差的方式比較算法優(yōu)良容易受到較大對齊誤差樣本的影響,設計了一種新的評價機制,即曲線下面積(area under curve,AUC)
(7)
式中e為對齊誤差;f(e)為累積誤差分布函數。圖4(d)給出了這種評價機制結果。從式(7)可以看出 不受對齊誤差大于0.1的樣本的影響,且相較于CED曲線可以更為直觀地評價算法的表現。本文統(tǒng)一采用平均形狀作為各個算法的初始形狀S0。從圖4中可以看出,本文的算法無論在對齊精度還是穩(wěn)定性上均優(yōu)于其他算法。
4.2.1 人臉框中心偏移
為了測試算法的魯棒性,實驗將繼續(xù)測試各個算法在人臉框中心出現偏移的情況下的表現。實驗中,將標準人臉框按照上下左右4個方向從0.01~0.1倍框大小共偏移40次。對于每個偏移半徑,計算4個方向上的平均對齊誤差,將得到10組檢測結果,并繪制AUC0.1曲線比較算法的魯棒性,如圖5所示。從圖中可以看出,當人臉框發(fā)生偏移時,各算法均會受到影響,其中CLM算法表現最為穩(wěn)定。到當偏移半徑超過0.04時,LBF算法變得十分敏感,AUC0.1值從0.451(原始) 到0.438(3 %偏移),到0.409(5 %偏移),到0.363(7 %偏移)。本文的算法較LBF和ESR算法更為穩(wěn)定。
圖5 人臉框位移下各算法表現
4.2.2 人臉框縮放
實驗測試了各個算法在人臉框縮放情況下的表現。實驗中,將標準人臉框按0.9~1.1倍比例縮放,圖6給出了各個算法的表現。比較發(fā)現,本文算法與CLM算法對于人臉框縮放穩(wěn)定性較好,LBF算法對于人臉框縮放十分敏感,即使微小的縮放即極大影響算法的表現。
圖6 人臉框縮放下各算法表現
提出了一種魯棒性更強的相對索引特征,并且依賴于特征點間的約束關系將所有特征點分組學習。實驗結果表明:本文算法加強了形狀約束,在人臉姿態(tài)或人臉框變化條件下具有更強的魯棒性。下一步將嘗試改進二值特征編碼方式,降低特征維度,提高特征的判決性。
參考文獻:
[1] Cao X,Wei Y,Wen F,et al.Face alignment by explicit shape regression[C]∥Computer Vision and Pattern Recognition,IEEE,2012:2887-2894.
[2] Ren S,Cao X,Wei Y,et al.Face alignment at 3000 FPS via regressing local binary features[C]∥IEEE Conference on Computer Vision and Pattern Recognition,IEEE,2014:1685-1692.
[3] Sagonas C,Tzimiropoulos G,Zafeiriou S,et al.300 Faces in-the-wild challenge:The first facial landmark localization challenge[C]∥IEEE International Conference on Computer Vision Workshops,IEEE,2013:397-403.
[4] Mathias M,Benenson R,Pedersoli M,et al.Face detection without bells and whistles[M].Computer Vision,ECCV 2014,Springer International Publishing,2014:720-735.
[5] King D E.Dlibml:A machine learning toolkit[J].Journal of Machine Learning Research,2009,10(3):1755-1758.
[6] Fan R E,Chang K W,Hsieh C J,et al.LIBLINEAR:A library for large linear classification[J].Journal of Machine Learning Research,2008,9(9):1871-1874.
[7] Wang Y,Lucey S,Cohn J F.Enforcing convexity for improved alignment with constrained local models[C]∥IEEE Conference on Computer Vision & Pattern Recognition,Proc of IEEE Comput Soc Conf on Comput Vis Pattern Recognit,2008:1.
[8] Fanelli G,Gall J,Dantone M,et al.Real-time facial feature detection using conditional regression forests[C]∥IEEE Conference on Computer Vision and Pattern Recognition,IEEE Computer Society,2012:2578-2585.