孔英會,陳佩瑤
(華北電力大學 電子與通信工程系,河北 保定 071003 )
基于視頻的人臉和步態(tài)自適應融合身份識別
孔英會,陳佩瑤
(華北電力大學 電子與通信工程系,河北 保定 071003 )
多生物特征融合的主要目的是利用其互補性來提高系統(tǒng)的識別性能。主要針對行走視頻中人臉和步態(tài)兩個生物特征融合的識別方法進行研究,對多個角度視頻下的人臉和步態(tài)提出了基于決策層的自適應加權融合方法,實驗結果證明該方法的融合識別結果比單一生物識別方法以及最大法則、加權法則等融合算法具有更高的識別率。
視頻;人臉;步態(tài);自適應;融合
生物特征識別技術由于其可靠性高、安全性好、魯棒性強等優(yōu)勢日益受到關注。典型的生物特征包括指紋、手掌紋理、人臉、虹膜、人耳、聲音等[1]。目前的生物特征識別系統(tǒng)大多是基于單一生物特征的,然而在不同環(huán)境下單一的生物特征由于其局限性并不總能得到令人滿意的識別率。因此多生物特征融合系統(tǒng)應運而生,利用了生物特征之間在某些條件下的互補性來提高系統(tǒng)的識別性能。
隨著監(jiān)控視頻技術的發(fā)展,基于監(jiān)控視頻的身份識別受到廣泛關注,而監(jiān)控視頻下可以獲得的生物特征有人臉、步態(tài)、虹膜、膚色等,其中,由于人臉和步態(tài)都具有易獲得性和普遍性,并且在許多方面都具有互補性,所以融合人臉和步態(tài)的多生物特征識別技術有著很大的發(fā)展和研究潛力。信息融合識別方法中融合策略的選取對識別結果有明顯影響,目前關于融合人臉和步態(tài)所取得的研究成果有:Bir Bhanu等人[2]分別使用PCA和MDA從增強的側面人臉圖像(EFSI)和步態(tài)能量圖(GEI)中提取特征,然后在匹配分數(shù)層上使用加法法則、乘法法則、最大法則等幾種融合策略將二者融合。李軼等人[3]采用基于傅里葉描繪子和關鍵點特征的方法提取步態(tài)特征,采用傅里葉變換和奇異值分解提取步態(tài)圖像中的側面人臉特征取,繼而在決策層上利用最大法則、加法法則和乘法法則對人臉和步態(tài)特征進行融合。這些研究都使識別效果有了提升,但相對存在局限,因為融合策略基本采用靜態(tài)融合,未考慮數(shù)據(jù)變化產生的影響,而自適應融合通過對實際數(shù)據(jù)進行分析確定合理的權值分配策略,可進一步提高識別性能。耿鑫等人[4]提出了一種可以根據(jù)實時外界條件而動態(tài)調整的自適應人臉和步態(tài)融合方法,在融合過程中考慮到了可能會影響到人臉和步態(tài)關系的兩個因素,即人體到攝像頭的距離和成像角度,取得了好的結果;張立峰等人[5]提出基于方差估計的多傳感器自適應加權融合算法,可得到壓力傳感器數(shù)據(jù)中方差最小的數(shù)據(jù)融合值,提高了測量數(shù)據(jù)的準確性。這些為本文的研究提供了有益的參考。
目前多數(shù)研究采用的人臉與步態(tài)融合方法并未考慮根據(jù)環(huán)境條件進行實時調整和改變融合權值,如最大法則、乘法法則、固定權值的加法法則等。本文通過在決策層上將每個生物特征的距離匹配值進行自適應分配權值以獲得最優(yōu)的聯(lián)合匹配分數(shù),達到最好的信息融合結果,由于該融合權值會隨著不同的測試對象和角度發(fā)生變化,因此有一定的實時性和適應性。
本文研究內容和主要工作可分為以下4個部分:1)步態(tài)輪廓圖像的提取和步態(tài)能量圖的建立;2)基于Haar特征的人臉檢測;3)人臉和步態(tài)數(shù)據(jù)庫的建立;4)使用非負矩陣分解NMF提取步態(tài)和人臉的特征,經(jīng)匹配后在決策層進行自適應融合得到識別結果。流程圖如圖1所示。
圖1 融合步態(tài)和人臉身份識別流程圖
2.1 步態(tài)圖像歸一化和步態(tài)能量圖的建立
在視頻監(jiān)控中步態(tài)是用于遠距離身份識別的一個重要生物特征。獲得一個視頻中人體的運動信息和步態(tài)特征,要先從拍攝行走視頻序列中提取出標準的二值化步態(tài)輪廓圖像。步驟為: 1)使用基于高斯模型的背景差法分割出二值步態(tài)圖像; 2)使用膨脹、腐蝕等形態(tài)學運算去掉二值圖像中的噪聲和空洞,完成圖像預處理; 3)通過將上半身剪影的質心設為中心實現(xiàn)圖像的水平對齊,按比例調整每個輪廓圖像保證所有的剪影都有著相同的高度,得到統(tǒng)一尺寸的標準歸一化二值步態(tài)輪廓圖像,如圖2所示。
常規(guī)的人體行走可以視為周期性的動作,人體按照一個穩(wěn)定的頻率進行重復的動作。因此,將整個步態(tài)序列劃分成多個周期是可行的。在一個歸一化的二值側影序列中,每一幀側影的下半身的時間序列信號指示出了步態(tài)的頻率和相位信息。假設二值化步態(tài)輪廓圖Bi(x,y,t)是在一個視頻序列的所有視頻幀中的第i個步態(tài)周期的時刻t所提取的,則灰度級的步態(tài)能量圖(GEI)[6]被定義為
(1)
圖2 從視頻序列中獲取標準歸一化二值步態(tài)圖像
式中:N是在一個步態(tài)周期內的視頻幀數(shù)量;t是視頻序列的幀號數(shù);x和y則是歸一化的二值圖像B的坐標值。圖3顯示了在一個步態(tài)周期內0°、54°和90°的人體樣本側影圖像,最右是相應的步態(tài)能量圖。它反映了側影的主要形狀和在步態(tài)周期上人體運動信息的變化,可作為步態(tài)識別的重要依據(jù)。
圖3 歸一化步態(tài)輪廓圖像及相應步態(tài)能量圖
2.2 AdaBoost人臉檢測
目標檢測方法最初由Paul Viola提出,并由Rainer Lienhart對這一方法進行了改善。首先,利用上百幅樣本圖片的Haar特征進行分類器訓練,得到一個級聯(lián)的boosted分類器。訓練樣本分為正例樣本和反例樣本,其中正例樣本是指待檢測目標樣本,反例樣本指其他任意圖片,所有的樣本圖片都被歸一化為同樣的尺寸大小。分類器訓練完以后,就可以應用于輸入圖像中的感興趣區(qū)域的檢測。
對于每個類Haar特征,都可以生成一個分類器,其形式為
(2)
式中:x代表樣本;hi(x)為第i個類Haar特征hi在樣本上的取值;pi是分類方向符號;fi為由特征hi構成的分類器;θi為分類器fi的閾值。Adaboost算法的目的就是在分類器集合中尋找分類錯誤最小的弱分類器,即尋找參數(shù)hi,pi,θi,在反復進行多次迭代訓練后,使分類錯誤趨近于零,最后將這些弱分類器組合成強分類器。檢測到目標區(qū)域分類器輸出為1,否則輸出為0。為了在整幅圖像中檢測未知大小的目標物體,掃描程序通常需要移動調整不同比例大小的搜索窗口對圖片進行幾次掃描。在圖像檢測中,被檢窗口依次通過每一級分類器,全部通過每一級分類器檢測的區(qū)域即為目標區(qū)域。基礎分類器是至少有兩個葉結點的決策樹分類器。Haar特征是基礎分類器的輸入,該特征可以用來描述人臉、眼睛、嘴唇、鼻子、人體、車輛等目標物體。擴展的Haar特征[7]有4種,如圖4所示。
圖4 擴展的Haar特征
2.3 利用Haar分類器從視頻幀中獲得標準化人臉圖像
要從行走視頻中獲得標準化的人臉圖像作為數(shù)據(jù)庫,主要可分為3個步驟:1)利用訓練好的行人全身檢測Haar級聯(lián)分類器對視頻幀進行檢測得到行人全身;2)利用訓練好的人臉檢測Haar級聯(lián)分類器從步驟1)中所得的行人全身圖像中獲得正面或者側面人臉;3)對步驟2)獲得的各種尺寸的低分辨率人臉圖像通過雙三次插值法得到統(tǒng)一尺寸的較高分辨率的人臉圖像,如圖5所示。
圖5 從視頻序列中獲取歸一化多角度人臉圖像
3.1 基于NMF的人臉和步態(tài)特征提取
NMF是一種新的特征提取方法,它的思想是對基矩陣引入非負約束,把一個大的非負矩陣V分解成兩個非負矩陣矩陣W和H的乘積[8],即V=WH,從而提取到有意義的局部成分,克服其他子空間分解方法所出現(xiàn)的系數(shù)之間的正負相互抵消而使得特征削弱的現(xiàn)象,更好地反映局部特征,提高識別的準確率。
基于NMF的人臉和步態(tài)特征提取是:首先讀入人臉和步態(tài)的訓練圖像數(shù)據(jù)庫,得到訓練圖像矩陣V=[V1,V2,…,Vn],n為訓練庫中圖像數(shù)量,列向量Vi代表一張訓練圖像。通過NMF變換公式V=WH得到
(3)
式中:W=[W1,W2,…,Wn]為基矩陣:H=[H1,H2,…,Hn]為系數(shù)矩陣,W的每一列Wi為一幅基圖像,Hi為第i張訓練圖像Vi在基圖像矩陣W=[W1,W2,…,Wn]上的投影后的系數(shù),訓練庫中每張訓練圖像近似為基圖像的線性組合,使用Hi代表Vi從而達到了降維和特征提取的目的,Wi則是基于NMF的基圖像。
3.2 人臉和步態(tài)的決策層自適應融合方法
多特征融合技術的一個核心問題就是融合策略問題,即選擇在哪個層次級別上融合的問題。根據(jù)生物特征識別的基本方法,目前多特征融合在四個層次[9]上進行,即數(shù)據(jù)層、特征層、匹配層和決策層。也有人將在較高層次融合的匹配層和決策層統(tǒng)稱為決策層融合。
決策層融合的主要思想是分別對采集層、特征層和匹配層的處理進行評估,然后利用數(shù)據(jù)融合的方法將評估結果在匹配層進行表達,使得各層的有效性和可靠性在最后的匹配計算中得到體現(xiàn),獲得更加客觀的識別結果。對于多生物特征的識別來說,匹配輸出的結果往往是一個多維的向量,向量中的每一個成員都表示一個不同來源的匹配結果,決策層融合算法的研究目的就是在這樣的一個向量空間做類內和類間的劃分。本文采用的是在決策層上對兩組匹配值進行自適應融合以達到最優(yōu)識別效率。
對人臉和步態(tài)進行NMF特征提取之后,需要分別獲得其歐氏距離匹配數(shù)組:將待測人臉或者步態(tài)圖像的一維特征列向量c對基圖像所形成的坐標系上進行投影S=c·W,得到投影矩陣,求出待測圖像與所有n幅訓練圖像的歐氏距離,從而得到人臉或者步態(tài)的歐式距離匹配數(shù)組F={F1,F2,…,FN}以及G={G1,G2,…,GN}。分別得到人臉和步態(tài)距離匹配值數(shù)組之后,需要先將所得的歐氏距離數(shù)組進行歸一化。本文使用線性歸一化方法[10]
(4)
式中:soriginal定義為輸出的原始匹配值;snorm為歸一化之后的匹配值。由此得到歸一化的匹配值數(shù)組Sf={Sf1,Sf2,…,SfN}和Sg={Sg1,Sg2,…,SgN},歸一化前后的匹配值分布如圖6所示,這種歸一化方法可以將原始匹配數(shù)組映射到[0,1]區(qū)間中去,且不會改變數(shù)據(jù)的分布形式。
圖6 不改變原來曲線的分布歸一化前后的匹配值分布
在得到人臉和步態(tài)的輸出匹配分數(shù)后,如何分配各個子系統(tǒng)所占的權重以達到最好的融合效果是整個融合系統(tǒng)的核心問題。而反映一個匹配分數(shù)數(shù)組曲線的主要參數(shù)就是離散度。離散程度反映了一個數(shù)組的波動大小,通常和兩個參數(shù)有關,即均值μ和標準差σ,其中
(5)
(6)
式中:N為訓練樣本的個數(shù)。標準差的大小反映了數(shù)組的均衡性、穩(wěn)定性、差異性等,標準差較大的說明各個子系統(tǒng)得到的匹配分數(shù)對類之間有較好的區(qū)分度。
(7)
(8)
由于本文中僅包含人臉和步態(tài)兩個生物特征,n=2,可得
(9)
(10)
由于每兩個人臉和步態(tài)距離匹配值數(shù)組的變化和不同,所得的匹配離散度w=μ/σ2也在發(fā)生變化,因此相對于其他方法來說,該融合方法具有很好的實時性與自適應性。
本實驗采用中科院自動化研究所建立的CASIA步態(tài)數(shù)據(jù)庫中的DatasetB提供的步態(tài)視頻來提取人臉和步態(tài)的圖像數(shù)據(jù)庫。DatasetB是一個大規(guī)模的多角度步態(tài)視頻數(shù)據(jù)庫,其中共有124個人,每個人有11個視角(0°,18°,36°,…,180°),在3種行走條件下(普通條件、穿大衣、攜帶包裹條件)采集。實驗選取了DatasetB中的前40個人在普通條件下的0°,54°,90°視角進行人臉識別和步態(tài)識別。使用之前, 對數(shù)據(jù)庫中的數(shù)據(jù)進行了一個粗略的篩選, 由于光照條件和背景干擾等問題剔除了DatasetB中用于步態(tài)識別的5,28,34三個對象的視頻幀和用于人臉的5,15兩個對象的視頻幀數(shù)據(jù),這樣保留了DatasetB中的36個對象的正面行走數(shù)據(jù)用于完成訓練和測試。對于這36個對象,實驗從其中每人的6個普通條件行走視頻中任意選取2個視頻序列,一個用于訓練數(shù)據(jù)庫,一個作為測試庫。
本文主要利用普通行走條件下0°,54°,90°這3種角度的人臉和步態(tài)進行融合實驗,分別為:0°行走視頻中的人臉和0°行走視頻中的步態(tài)融合,54°行走視頻中的人臉和54°行走視頻中的步態(tài)融合,以及雙視角條件下0°行走視頻中的人臉和90°行走視頻中的步態(tài)融合。為了方便人臉和步態(tài)的特征融合,首先將人臉圖像和步態(tài)能量圖歸一化成大小一致的二值化圖像,人臉和步態(tài)的訓練數(shù)據(jù)庫和測試數(shù)據(jù)庫中分別有36幅圖像,如圖7所示。利用NMF提取特征向量并計算出測試圖像與所有訓練圖像降維向量的歐氏距離,并得到歸一化的人臉和步態(tài)特征匹配值數(shù)組Sf={Sf1,Sf2…,SfN}和Sg={Sg1,Sg2…,SgN}。
本文分別采用最大法則、加入權值的加法法則和本文所提出的自適應方法進行融合。對于加入權值的加法法則, 選擇文獻[3]所使用的方法,選取的權值分別為步態(tài)和人臉的識別率,表1給出了0°行走視頻中人臉和步態(tài)相融合所得識別結果,表2給出了54°行走視頻中人臉和步態(tài)相融合所得識別結果,表3給出了雙視角下0°人臉和90°步態(tài)融合所得識別結果;圖8則展示了部分自適應融合法則可以改善使用加法法則和最大法則判錯的情況。
圖7 部分各角度的人臉和步態(tài)訓練數(shù)據(jù)庫
融合方法僅人臉僅步態(tài)最大法則加法法則本文方法識別率/%69.4472.227586.1188.89
表2 54°行走視頻中人臉和步態(tài)相融合所得識別率
表3 雙視角下0°人臉和90°步態(tài)融合所得識別率
圖8展示了雙視角條件下使用各融合法則的部分判決結果,圖8a顯示了4號目標使用加法法則判錯,自適應融合法則判對的情況;圖8b顯示了11號目標使用最大法則判錯,自適應融合法則判對的情況。
圖8 雙視角條件下使用各融合法則的部分判決結果
從實驗結果可以看出,無論采用何種角度組合方式和以上哪種融合方法,將人臉和步態(tài)特征融合后進行識別的識別率都不低于采用單一特征的識別率,且采用本文所提出的決策層自適應匹配融合方法通過最優(yōu)權值分配和總均方誤差的非線性規(guī)劃過程,可以改善最大法則和加法法則的判錯情況,使得識別錯誤率降低,具有很好的實時性和實用性。
本文提出了一種采用視頻序列中多個角度的人臉和步態(tài)進行自適應融合的身份識別方法,首先采用步態(tài)能量圖對一個或多個步態(tài)周期內的人體運動信息進行描述,利用級聯(lián)的Haar分類器從視頻幀中檢測出人臉區(qū)域,然后利用非負矩陣分解NMF提取人臉和步態(tài)特征并分別獲取測試圖像到訓練圖像庫的歐式距離數(shù)組集合,在決策層利用非線性規(guī)劃將每個生物特征的距離匹配值進行自適應分配權值以獲得最優(yōu)的聯(lián)合匹配分數(shù),達到最好的信息融合結果,由于該融合權值會隨著不同的測試對象和角度發(fā)生變化,因此有一定的實時性和適應性。實驗結果表明,本文提出的融合方法的識別性能要優(yōu)于單一生物識別方法以及最大法則、加權法則等靜態(tài)融合算法,能達到很好的信息融合效果。
[1]NIINUMA K,PARK U,JAIN A K.Soft biometric traits for continuous user authentication[J].Information Forensics and Security,2004,5(4):771-780.
[2]ZHOU XL,BHANU B.Integrating face and gait for human recognition at a distance in video[J].IEEE Trans.System Man.and Cybernetics,2007,37(5):1119-1137.
[3]李軼,明東,王璐,等.融合步態(tài)和人臉特征的遠距離身份識別研究[J].儀器儀表學報,2011,32(2): 264-270.
[4]GENG Xin,WANG Liang,LI Ming, et al.Adaptive fusion of gait and face for human identification in video[J].Applications of Computer Vision,2008,7(9):1-6.
[5]李媛媛,張立峰.多傳感器自適應加權融合算法及其應用研究[J].自動化與儀器儀表,2008(2):10-13 .
[6]唐春林.基于幀差能量圖遺傳算法的自遮擋步態(tài)識別[J].電視技術,2014,38(5):173-177.
[7]郭磊,王秋光.Adaboost人臉檢測算法研究及OpenCv實現(xiàn)[J].哈爾濱理工大學學報,2009,14(5):123-126 .
[8]WANG Yuxiong,ZHANG Yujin.Nonnegative matrix factorization:a comprehensive review [J].IEEE Trans.Knowledge and Data Engineering,2013,25(6):1337-1351.
[9]LIU Chengjun.Learning the uncorrelated,independent, and discriminating color spaces for face recognition[J].Information Forensics and Security,2008,3(2):213-222.
[10]周斌,林喜榮.量化層多生物特征融合的最佳權值[J].清華大學學報,2008,48(2):192-195.
Adaptive Fusion of Multi-biometrics for Human Identification in Video
KONG Yinghui,CHEN Peiyao
(ElectronicsandCommunicationEngineering,NorthChinaElectricPowerUniversity,HebeiBaoding071003,China)
The purpose of multiple biometric fusion is to improve the recognition performance by utilizing their complementary.In this paper, the feature fusion recognition method of multi-view face and gait in video is studied, and a adaptive decision fusion method is proposed.The results show that the adaptive fusion features carry the most discriminating power compared to any individual biometric and other static fusion rules like MAX and SUM.
video; face; gait; adaptive; fusion
TP391.41
A
10.16280/j.videoe.2015.05.033
2014-07-12
【本文獻信息】孔英會,陳佩瑤.基于視頻的人臉和步態(tài)自適應融合身份識別[J].電視技術,2015,39(5).
孔英會(1965— ),女,教授,主研智能信息處理,圖像處理;
陳佩瑤(1992— ),女,碩士,主研圖像處理。
責任編輯:閆雯雯