傅澤華 龔 勛 李天瑞
(西南交通大學信息科學與技術學院,成都,611756)
二維及三維多模人臉數(shù)據(jù)庫構建
傅澤華 龔 勛 李天瑞
(西南交通大學信息科學與技術學院,成都,611756)
基于圖像的二維人臉識別技術日趨成熟,但仍受光照、姿態(tài)和表情等變化的影響。利用三維人臉模型提高人臉識別性能并將其應用于實際成為近幾年學術界的研究趨勢。本文提出了SWJTU-MF多模人臉數(shù)據(jù)庫(SWJTU multimodal face database, SWJTU-MF Database),包含200個中性表情中國人的4種人臉樣本數(shù)據(jù),包括可見光圖像、二維視頻序列、三維人臉(高精度)和立體視頻序列。本文首先分類介紹現(xiàn)有的三維人臉識別算法,然后概述相關的多模人臉數(shù)據(jù)庫,接著提出SWJTU-MF多模人臉數(shù)據(jù)庫,并說明數(shù)據(jù)庫的采集裝置、采集環(huán)境、采集過程及數(shù)據(jù)內(nèi)容,隨后簡要展示數(shù)據(jù)標準化過程。最后討論本數(shù)據(jù)庫面向的應用研究,并給出SWJTU-MF建議的評測協(xié)議。
三維人臉;人臉識別;人臉重建;視頻序列;立體視頻序列
圖1 3D人臉識別研究現(xiàn)狀Fig.1 Research status of 3D face recognition
隨著消費型三維人臉設備的逐步發(fā)展,設備的采集精度不斷提升,這使得基于三維模型的人臉識別成為可能。三維信息是自動人臉識別中克服姿態(tài)、光照等因素的關鍵技術,是人臉識別發(fā)展的一個趨勢,也是解決人臉識別根本難題的一個手段。根據(jù)測試集(Probe)的不同,三維人臉識別方案大概可以分成兩類,如圖1所示。(1) 測試集為二維圖像?;谶@種方案,可以利用原型集中的三維人臉合成不同姿態(tài)的二維人臉,與測試集中的人臉圖像進行匹配[1]。還可以利用當前獲取的一張或多張二維圖像重建三維人臉,并與原型集中的人臉進行匹配[2-4]。另一種思路是學習三維人臉與二維人臉之間的對應關系,直接進行匹配。比如用局部主成分分析(Partial principal component analysis,PPCA)進行匹配[5],或者用典型關聯(lián)分析(Canonical correlation analysis,CCA)匹配[6-9]。(2) 測試集為三維人臉?;谶@種方案,可以考慮先將原型集與測試集三維人臉對齊,再進行匹配。對齊方法可以將三維人臉分別對齊參照模型(Morphable model)[10],也可以用迭代最近點(Iterative closest point algorithm)等算法進行直接匹配[11-12]。另一種策略是從三維人臉中提取特征向量再進行匹配,如文獻[13]利用尺度不變特征變換(Scale invariant feature transform,SIFT)算法提取三維人臉特征,文獻[14]結合三維人臉的紋理信息與三維點云信息,采用基于曲波的方法得到特征向量。第1個多模人臉數(shù)據(jù)庫BT-David[15]發(fā)布于1997年,包含了35個人分別在5個非約束光照的不同場景下的演講錄像以及對應音頻,該數(shù)據(jù)庫主要用于自動語音識別和人臉識別。隨后一個類似規(guī)模的數(shù)據(jù)庫M2VTS數(shù)據(jù)庫發(fā)布了[16],旨在用于多模態(tài)人臉識別研究。鑒于前兩個數(shù)據(jù)庫皆存在規(guī)模過小,采用的數(shù)據(jù)存儲技術太老且數(shù)據(jù)質(zhì)量較差等缺點,Kieron Messer的研究小組在1999年建立了XM2VTS數(shù)據(jù)庫[17],該數(shù)據(jù)庫包含了395個人在不同姿態(tài)下的高分辨率人臉圖像、高精度演講錄像及其對應的音頻,其中393個人還包含1個三維模型。該數(shù)據(jù)庫數(shù)據(jù)規(guī)模大、人臉數(shù)據(jù)類型較多,但是需要收費且價格昂貴,令不少研究人員望而卻步。美國國家標準與技術局(National institute of standard and technology,NIST)在2005年組織了FRGC2005評測活動,并建立了FRGC數(shù)據(jù)庫[18](目前已發(fā)布第2個版本),該數(shù)據(jù)庫被設計用來研究人臉識別中如何利用多模人臉數(shù)據(jù)提高識別效率,數(shù)據(jù)規(guī)模極大,包含466人的50 000個數(shù)據(jù),包括主動、被動采集的二維靜態(tài)人臉圖像以及三維人臉圖像,但沒有采集視頻序列且人臉的姿態(tài)較少。而同年發(fā)布的IV2多模生物數(shù)據(jù)庫[19]主要用于多模態(tài)生物識別,在人臉數(shù)據(jù)方面較FRGC數(shù)據(jù)庫多了低分辨率的二維靜態(tài)人臉以及視頻序列。文獻[20]為研究不同類型人臉生物特征之間的關系,首次提出異質(zhì)人臉生物特征識別(Heterogeneous face biometrics),并建立了異質(zhì)人臉生物特征識別數(shù)據(jù)庫[21](HFB face database),該數(shù)據(jù)庫包括了100個人的二維人臉圖像、近紅外圖像和三維人臉數(shù)據(jù),其不足之處在于庫中的人臉數(shù)據(jù)都是靜態(tài)采集的,沒有包含動態(tài)人臉數(shù)據(jù)。類似數(shù)據(jù)庫還有PolyU-NIRFD[22]。另外還有一些多模人臉數(shù)據(jù)庫在紅外圖像、二維可見光圖像的基礎上,加入采集距離的變化,如NFRAD[23],SWIR[24]和LDHF database[25]。表1將常用的多模人臉數(shù)據(jù)庫進行了對比,可以發(fā)現(xiàn)現(xiàn)有的多模人臉數(shù)據(jù)庫皆包含了三維人臉(高精度)與二維可見光圖像。面對當前的研究趨勢,缺少1個既包含三維高、低精度人臉數(shù)據(jù),又包含二維高、低精度人臉數(shù)據(jù)的人臉數(shù)據(jù)庫,而本文提出的SWJTU多模人臉數(shù)據(jù)庫(SWJTU multimodal face database, SWJTU-MFDB)正好填補了這個空缺。表1中n/m表示數(shù)據(jù)庫設計有m人,目前發(fā)布版本包括n個人?!?D高”指二維高精度圖像?!?D低”指低精度的監(jiān)控攝像機拍攝的二維視頻/圖像?!?D高”指用高精度3D采集設備采集的3D人臉模型?!癛GB-D”指用快速、低精度采集設備采集的序列幀(包括低質(zhì)量圖像與對應的深度圖)。表1中的“√”指當前數(shù)據(jù)集包含該類數(shù)據(jù),“—”表示不包含;“是否免費”項中“Y”(Yes)表示當前數(shù)據(jù)集可免費獲取用以學術研究,“N”(No)則反之。
表1 多模人臉數(shù)據(jù)庫對比
本文提出并建立一個多模人臉數(shù)據(jù)庫SWJTU-MFDB用于人臉研究。該數(shù)據(jù)庫主要包含了二維高精度人臉圖像、二維人臉視頻序列、三維高精度人臉模型和立體人臉視頻序列(Kinect采集的低精度RGB-D序列),主要用于研究各種實際場景中遇到的人臉識別與建模問題。本數(shù)據(jù)庫主要包括了200個中性表情的中國人的多模人臉樣本數(shù)據(jù)。對于每個采集對象,采集了3張二維高精度人臉圖像,11張二維人臉視頻序列幀,1~2個三維高精度人臉模型以及5~11個立體人臉視頻序列幀。相較于XM2VTSDB,IV2 DB等目前較為全面的多模人臉數(shù)據(jù)庫,本文提出的SWJTU-MFDB只多了一項立體人臉視頻序列數(shù)據(jù),但在此基礎上可進行的研究更為廣泛。直觀地來看,這一項數(shù)據(jù)的增加可以增加以下3種不同的人臉識別策略研究:(1) 二維高精度人臉圖像對立體人臉視頻序列的識別研究;(2) 二維人臉視頻序列對立體人臉視頻的序列識別;(3) 三維高精度人臉對立體人臉視頻序列的識別研究。這些研究將推動實用性三維人臉識別的發(fā)展。眾所周知,利用傳統(tǒng)的硬件設備(如激光掃描儀、結構光等)雖然具有較高的精度,但設備造價高、不靈活且采集速度慢,因此將三維高精度人臉模型作為測試集顯然不現(xiàn)實。而類Kinect的設備正處于蓬勃發(fā)展階段,這類設備采集不需要用戶配合、采集速度快(Kinect可以達到30幀/s)且采集精度越來越高,這正是將三維人臉識別推向?qū)嶋H應用的核心需求。
由于三維采集設備對頭發(fā)等深色部位的掃描效果比較差,且本數(shù)據(jù)庫所面向的人臉研究僅對人的面部區(qū)域感興趣,因此在數(shù)據(jù)采集前,統(tǒng)一要求采集對象(不論男女)整理儀容、將遮蓋面部的頭發(fā)挽起。此外,還要求采集對象不能化妝、不戴任何飾物(眼鏡除外)。
1.1 數(shù)據(jù)獲取
(1) 二維高精度人臉
采集二維高精度人臉數(shù)據(jù)時使用了型號為NEX-F3的索尼數(shù)碼相機。相機被固定在可調(diào)節(jié)高度的三腳架上且采集背景為白色,如圖2所示。采集使用了3 568×3 568的高分辨率,這是為了保證人臉區(qū)域大于600×800 DPI。采集時,要求采集對象坐在相機正前方。為了保證采集的人臉區(qū)域在圖像中央,會手動調(diào)整三腳架的高度。對于每一個被采集者,采集3張不同姿態(tài)的二維靜態(tài)人臉圖像,如圖3所示。姿態(tài)分別為正面(0°)、向左側(cè)30°和向右側(cè)30°。
圖2 采集設備與場景示意圖Fig.2 Acquisition device and environment
圖3 二維高精度人臉數(shù)據(jù)Fig.3 2D high resolution face data
(2) 二維人臉視頻序列
二維人臉視頻序列通過Axis 215攝像頭獲取。為了模擬真實的監(jiān)控場景,攝像頭被安置在距地面2.5 m的墻上,采集場景如圖2(b)所示,轉(zhuǎn)椅被放置在攝像頭的正前方,距墻3 m。采集過程中,采集對象被要求坐在正對攝像頭的轉(zhuǎn)椅上,并錄制一段監(jiān)控視頻。錄制時,采集對象需直視正前方,從左到右勻速轉(zhuǎn)動180°。為了模擬真實監(jiān)控錄像中人臉的旋轉(zhuǎn)角度變化,從監(jiān)控錄像中手動篩出若干不同角度的監(jiān)控幀。對于每個采集對象的監(jiān)控錄像,首先從旋轉(zhuǎn)角度(Yaw Rotation)-90°~90°之間,每隔20°取一張,篩選出10張圖像,再篩出一張正常姿態(tài)(Yaw Rotation為0°)下的人臉圖像1張,共11張圖像。采集的數(shù)據(jù)如圖4所示。
(3) 三維高精度模型
高精度三維人臉數(shù)據(jù)通過基于結構光的Wisesoft三維人臉數(shù)據(jù)測量儀獲取。采集背景采用一塊黑色的幕布,以避免其他物體信息對拍攝造成干擾,如圖2(c)所示。采集時,采集對象需坐在測量儀器正前方,鼻尖距離測量儀器前面板約90~110 cm。如圖2(c)所示,采集用的座椅可升降,以保證采集時采集者的頭部在儀器的中部。采集過程約2~3 s,在這期間,采集對象需靜止不動并維持中性表情,眼睛直視前方。一次采集完成即可獲取被采集者頭部的幾何信息和彩色紋理信息。大多數(shù)采集對象采集了1張三維人臉。而對于戴眼鏡者,則需要采集兩張,分別在戴眼鏡與不戴眼鏡狀態(tài)下采集, 采集圖像如圖5所示。
圖4 二維人臉視頻序列數(shù)據(jù)Fig.4 2D face data from video sequences
(4) 立體人臉視頻序列
立體人臉視頻序列數(shù)據(jù)主要通過Microsoft Kinect v2采集,如圖2(d)所示,Kinect被水平固定在一個三腳架上。采集過程中,采集者被要求站在Kinect正前方2.5 m處,在5 s內(nèi)盡可能慢地、勻速地面向Kinect徑直走1.5 m,隨后站定以便于采集另一組Kinect數(shù)據(jù)。與采集二維高精度人臉圖像時一樣,為了使有效區(qū)域(臉部)盡可能地在Kinect鏡頭范圍內(nèi),根據(jù)采集對象的不同身高會手動調(diào)整三腳架的高度。另外,為便于進行Kinect數(shù)據(jù)采集,基于Open-NI2[29]Library開發(fā)了一個Kinect人臉采集系統(tǒng)。該系統(tǒng)按預先定義好的數(shù)據(jù)結構自動捕獲、處理并存儲人臉幀數(shù)據(jù)。對于每一個被采集者,采集5~10幀連續(xù)立體人臉圖像,另包含一張參考幀,采集圖像如圖6所示。與采集三維高精度人臉一樣,對于戴眼鏡的采集對象,會在戴眼鏡與不戴眼鏡狀態(tài)下分別采集。采集完成后,手動剔除行走中產(chǎn)生的模糊幀。
圖5 三維高精度靜態(tài)人臉數(shù)據(jù) 圖6 立體人臉視頻序列數(shù)據(jù) Fig.5 High resolution 3D face data Fig.6 3D face data from estereo video sequences
1.2 數(shù)據(jù)內(nèi)容
SWJTU-MF DB包含以下內(nèi)容:(1) 原始數(shù)據(jù),如表2所示。包括二維高精度人臉圖像、二維人臉視頻序列、三維高精度人臉和立體人臉視頻序列。(2) 所有人臉數(shù)據(jù)都提供手動標定的二維特征點坐標,特征點描述如圖7所示。其中三維人臉模型的特征點坐標可從對應的二維紋理圖映射得到。(3) 歸一化后的二維高精度人臉圖像和二維人臉視頻序列。(4) 裁剪后的三維高精度人臉。
表2 原始數(shù)據(jù)內(nèi)容說明
圖7 特征點示意圖Fig.7 Description of feature points
(1) 人臉數(shù)據(jù)預處理。本數(shù)據(jù)庫人臉數(shù)據(jù)的預處理主要包括標點和人臉裁剪。對于數(shù)據(jù)庫中所有二維人臉圖片,手動標出如圖7所示的5個特征點。隨后再由對應的二維紋理圖映射得到三維人臉模型的特征點坐標。在二維人臉視頻序列圖像中,當人臉旋轉(zhuǎn)角度過大時,會遮擋住一部分特征點,只對旋轉(zhuǎn)角度在-50°~+50°之間的人臉圖像標定特征點。如圖5,6所示,三維點云模型包含了大量除頭部以外的其他數(shù)據(jù)。在使用之前,需要對其進行人臉裁剪。對于高精度三維人臉模型,以鼻尖為圓心,用適當半徑的圓球?qū)ζ溥M行裁剪。對于立體人臉視頻序列中的低精度三維人臉模型,為了方便后續(xù)的標準化處理,采用主動形狀模型[30](Active shape model,ASM)在二維紋理圖上定位人臉的76個特征點,再根據(jù)人臉輪廓的特征點信息進行人臉區(qū)域裁剪。
(2) 二維高精度人臉。歸一化時,以兩瞳孔的距離和方向軸作為基準進行水平旋轉(zhuǎn)與橫向尺度縮放,并將人臉區(qū)域裁剪到相同大小。
(3) 二維人臉視頻序列。由于旋轉(zhuǎn)角度大于+50°或者小于-50°的人臉圖片特征點不全,因此只歸一化旋轉(zhuǎn)角度在-50°~+50°之間的人臉圖像,歸一化方法同1.2節(jié)。
(4) 三維高精度人臉。對于高精度三維人臉,采用基于平面模板的稠密對應方法[31]對其進行標準化。
(5) 立體人臉視頻序列。由于人臉的個性差異,直接由Kinect獲取的三維人臉數(shù)據(jù)存在很大差別[32],低精度三維人臉的頂點數(shù)不同,且不能一一對應。為了建立一個操作性強的Kinect低精度人臉庫,要對配合姿態(tài)下的Kinect人臉數(shù)據(jù)進行標準化處理,實現(xiàn)低精度三維人臉的稠密對應。鑒于本文提出的數(shù)據(jù)庫同時具有相對應的高三維人臉數(shù)據(jù)與低精度三維人臉數(shù)據(jù)(立體視頻序列幀),采用文獻[33]中提出的針對Kinect數(shù)據(jù)的基于可變模板的三維人臉標準化方法。如圖8所示,首先根據(jù)低精度三維人臉的頂點數(shù),確定二維模板大?。蝗缓蟛捎酶呔热S人臉數(shù)據(jù)庫生成二維平均模板,生成過程中用Delaunay算法對高精度三維人臉柱面展開圖的平均圖進行特征區(qū)域劃分,從而得到二維平均模板。最后用基于高精度數(shù)據(jù)生成的模板重采樣算法,自動實現(xiàn)低精度三維人臉頂點的一一對應。其中q為模板的縮放倍數(shù),qw,qh指w,h縮放q倍后的大小。
圖8 二維可變模板生成流程圖Fig.8 Flow chart of 2D dynamic template acquisition
3.1 應用研究
本數(shù)據(jù)庫主要可應用于多模態(tài)/混合人臉識別、三維人臉重建分析、姿態(tài)分析和人臉特征點定位等。其中可著重解決以下兩個問題:(1) 隨著三維人臉技術的發(fā)展,采用三維人臉模型來解決人臉識別中的光照、姿態(tài)和表情問題已經(jīng)成為趨勢。然而業(yè)界就三維高精度人臉識別較傳統(tǒng)的二維高精度人臉識別是否真的性能更好這個問題一直爭論不斷[18]。本數(shù)據(jù)庫同時包含了三維高精度人臉模型與二維高精度人臉圖像,可以解決上述問題。(2) 三維高精度設備價格昂貴、采集時需要固定姿態(tài)且采集速度慢,在現(xiàn)實應用中實用性較低。而目前逐漸流行的類Kinect的RGB-D采集設備雖然廉價,但采集數(shù)據(jù)的精度較差。因此,通過低精度三維人臉重建高精度三維人臉有重要意義。當前已有一些基于低精度重建高精度人臉的算法[28,34],但重建效果只能靠主觀判斷,并沒有統(tǒng)一的評價標準。而本數(shù)據(jù)庫同時包含了三維高精度人臉模型和Kinect采集的低精度三維人臉模型,通過本數(shù)據(jù)庫可以建立統(tǒng)一的三維重建評價體系,并探索和解決通過廉價設備采集的低精度三維人臉是否能夠重建出高精度三維人臉。
3.2 測試協(xié)議
3.2.1 2-3維識別
基于SWJTU-MFDB可以進行二維對三維的人臉識別。這里設計2種方案進行識別。
(1) 純?nèi)S對比。即通過一張或多張照片重建三維人臉,再按一定的匹配策略與已知三維人臉庫中的模型進行比較識別。
(2) 根據(jù)獲取的人臉二維圖像,計算出人臉的姿態(tài)偏轉(zhuǎn)角度,然后把已知三維人臉庫中的模型按同樣姿態(tài)偏轉(zhuǎn)角度投影到二維平面上,并將得到的二維圖像與待檢測二維人臉圖像按一定的匹配策略進行二維特征的比較識別。根據(jù)兩種不同方案的特點,將數(shù)據(jù)集劃分成3個集合,分別為訓練集合(Trainingset)、原型圖像集合(Gallery)和測試集合(Probesets),集合劃分結果如表3所示。
3.2.2 建模精度評價
在三維人臉重建完成后,通常需要對建模精度進行評價,建議兩種方法,(1)對重建后的人臉模型進行識別,識別率越高則建模精度越高,實驗數(shù)據(jù)集劃分參見表3的方案1。(2) 原始三維人臉與重建后人臉中,頂點數(shù)較多的向頂點數(shù)較少的對齊,然后進行精度分析,實驗時采用交叉驗證[26]的方法。
表3 2D-3D識別數(shù)據(jù)集合劃分
Tab.3 Set partitioning of 2D-3D recognition data
方案1方案2Gallery三維高精度人臉,每人1幅,共200幅。三維高精度人臉,每人1幅,共200幅。Trainingsets從人臉庫中隨機選取60人的可見光人臉圖像,每人選取1幅正面圖像,1~2幅側(cè)面圖像。從人臉庫中隨機選取60人的二維監(jiān)控人臉圖像,每人11幅(姿態(tài)變化)。Probesets除去訓練集以外余下的140人的可見光人臉圖像,每人選取1幅正面圖像,1~2幅側(cè)面圖像。除去訓練集以外余下140人的二維監(jiān)控人臉圖像,每人11幅(姿態(tài)變化)。
本文介紹了多模人臉數(shù)據(jù)庫SWJTU-MFDB,首先總結了當前的三維人臉識別現(xiàn)狀,具體分析了現(xiàn)有的人臉數(shù)據(jù)庫,接著介紹了數(shù)據(jù)采集的環(huán)境與所使用的設備,然后羅列了SWJTU多模人臉數(shù)據(jù)庫的具體內(nèi)容,最后著重介紹了Kinect采集的低精度三維人臉數(shù)據(jù)的預處理過程。與現(xiàn)有的人臉數(shù)據(jù)庫相比,本數(shù)據(jù)庫具有以下特點:(1) 同時包含二維與三維人臉數(shù)據(jù),便于研究如何解決不同姿態(tài)、不同光照條件下的人臉識別問題以及三維重建問題。(2) 不但采集了高精度人臉數(shù)據(jù),還采集了對應的低精度人臉數(shù)據(jù)。(3) 包括了不同姿態(tài)下的二維人臉數(shù)據(jù)與不同距離下(疏密、精度不同)采集的三維人臉數(shù)據(jù),便于研究各種實際場景中遇到的人臉識別、建模問題。該數(shù)據(jù)庫提供的多模人臉數(shù)據(jù),豐富了現(xiàn)有的人臉數(shù)據(jù)庫,為人臉識別與重建領域的進一步研究提供了一套標準的測試數(shù)據(jù)集。
致謝 在此,我們向?qū)Ρ疚牡墓ぷ鹘o予支持和建議的西南交通大學四川省云計算與智能技術高校重點實驗室的老師和同學表示感謝。
[1] Lu X, Colbry D, Jain A K. Three-dimensional model based face recognition[C]∥Pattern Recognition, International Conference on IEEE Computer Society.[S.l.]:IEEE, 2004:362-366.
[2] Blanz V, Vetter T. Face recognition based on fitting a 3d morphable model[J]. IEEE Transactions on Pattern Analysis & Machine Intelligence, 2003, 25(9):1063-1074.
[3] Hu Y, Jiang D, Yan S, et al. Automatic 3D reconstruction for face recognition[C]∥Sixth IEEE International Conference on Automatic Face and Gesture Recognition.[S.l.]: IEEE, 2004: 843-848.
[4] Moeini A, Moeini H, Faez K. Expression-invariant face recognition via 3D face reconstruction using gabor filter bank from a 2D single image[C]∥22nd International Conference on Pattern Recognition (ICPR)IEEE Computer Society.[S.l.]:IEEE,2014:4708-4713.
[5] Rama A, Tarres F, Onofrio D, et al. Mixed 2D-3D information for pose estimation and face recognition[C]∥Acoustics, 2006 IEEE International Conference on Speech and Signal Processing.[S.l]:IEEE,2006:2.
[6] Huang D, Ardabilian M, Wang Y, et al. Asymmetric 3D/2D face recognition based on LBP facial representation and canonical correlation analysis[C]∥16th IEEE International Conference on Image Processing (ICIP).[S.l]:IEEE, 2009: 3325-3328.
[7] Huang D, Ardabilian M, Wang Y, et al. Automatic asymmetric 3D-2D face recognition[C]∥ 20th International Conference on Pattern Recognition (ICPR).[S.l]:IEEE,2010:1225-1228.
[8] Huang D, Ardabilian M, Wang Y, et al. Oriented gradient maps based automatic asymmetric 3D-2D face recognition[C]∥5th IAPR International Conference on Biometrics (ICB).[S.l]:IEEE,2012:125-131.
[9] Yang W, Yi D, Lei Z, et al. 2D-3D face matching using CCA[C]∥ 8th IEEE International Conference on Automatic Face & Gesture Recognition.[S.l]:IEEE, 2008: 1-6.
[10]Ansari A, Abdel-Mottaleb M. 3D face modeling using two views and a generic face model with application to 3D face recognition[C]∥IEEE Conference on Advanced Video and Signal Based Surveillance.[S.l]:IEEE,2003:37-44.
[11]Cook J, Chandran V, Sridharan S, et al. Face recognition from 3d data using iterative closest point algorithm and Gaussian mixture models[C]∥2nd International Symposium on 3D Data Processing, Visualization and Transmission.[S.l]:IEEE, 2004:502-509.
[12]Mohammadzade H, Hatzinakos D. Iterative closest normal point for 3D face recognition[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence,2013,35(2):381-397.
[13]Quy N H, Quoc N H, Anh N T L, et al. 3D human face recognition using Sift descriptors of face′s feature regions[M].Switzerland: Springer International Publishing, 2015:117-126.
[14]Elaiwat S, Bennamoun M, Boussaid F, et al. A curvelet-based approach for textured 3D face recognition[J]. Pattern Recognition,2015,48(4):1235-1246.
[15]Chibelushi C C, Gandon S, Mason J S, et al. Design issues for a digital integrated audio-visual database[C]∥IEE Colloquium on Integrated Audio-Visual Processing for Recognition, Synthesis and Communication. [S.l]:IET, 1996:7.
[16]Pigeon S, Vandendorpe L. The M2VTS multimodal face database (release 1.00)[C]∥Audio-and Video-Based Biometric Person Authentication. Berlin,Heidelberg:Springer,1997:403-409.
[17]Messer K, Matas J, Kittler J, et al. XM2VTSDB:The extended M2VTS database[C]∥2nd International Conference on Audio and Video-based Biometric Person Authentication.Washington D C,USA:[s.n.],1999:965-966.
[18]Phillips P J, Flynn P J, Scruggs T, et al. Overview of the face recognition grand challenge[C]∥2005 IEEE Computer Society Conference on Computer Vision and Pattern Recognition (CVPR 2005).Arlington,VA,VSA:2005:947-954.
[19]Petrovska-Delacrétaz D, Lelandais S, Colineau J, et al. The IV 2 multimodal biometric database (including Iris, 2D, 3D, stereoscopic, and talking face data), and the IV 2-2007 evaluation campaign[C]∥ 2nd IEEE International Conference on Biometrics:Theory, Applications and Systems.Arlington,VA,USA:IEEE,2008:1-7.
[20]Li S Z. Heterogeneous face biometrics[M].US:Springer,2009:700-702.
[21]Li S Z, Lei Z, Ao M. The HFB face database for heterogeneous face biometrics research[C]∥2009 IEEE Computer Society Conference on Computer Vision and Pattern Recognition Workshops(CVPR Workshops 2009).[S.l]:IEEE,2009:1-8.
[22]Zhang B, Zhang L, Zhang D, et al. Directional binary code with application to PolyU near-infrared face database[J]. Pattern Recognition Letters,2010,31(14):2337-2344.
[23]Maeng H, Choi H C, Park U, et al. NFRAD:Near-infrared face recognition at a distance[C]∥2011 International Joint Conference on Biometrics (IJCB).[S.l]:IEEE,2011:1-7.
[24]Bourlai T, Cukic B. Multi-spectral face recognition:Identification of people in difficult environments[C]∥2012 IEEE International Conference on Intelligence and Security Informatics (ISI).[S.l]:IEEE,2012:196-201.
[25]Kang D, Han H, Jain A K, et al. Nighttime face recognition at large standoff:Cross-distance and cross-spectral matching[J]. Pattern Recognition,2014,47(12):3750-3766.
[26]Toderici G, Evangelopoulos G, Fang T, et al. UHDB11 database for 3D-2D face recognition[C]∥Pacific-Rim Symposium on Image and Video Technology 2013. Berlin, Heidelberg: Springer, 2013: 73-86.
[27]Bagdanov A D, Del B A, et al. Florence faces: A dataset supporting 2d/3d face recognition[C]∥2012 5th International Symposium on Communications Control and Signal Processing (ISCCSP). Rome, Italy:IEEE, 2012:1-6.
[28]Berretti S, Del Bimbo A, Pala P. Superfaces:A super-resolution model for 3D faces[C]∥Computer Vision-ECCV 2012. Workshops and Demonstrations. Berlin, Heidelberg:Springer,2012:73-82.
[29]Apple.InC. OpenGL[EB/OL]. https:∥www.opengl.org/. 2015-05-20.
[30]Cootes T F, Taylor C J, Cooper D H, et al. Active shape models-their training and application[J]. Computer Vision and Image Understanding,1995,61(1):38-59.
[31]龔勛, 王國胤. 基于特征點的三維人臉形變模型[J]. 軟件學報,2009,20(3):724-733.
Gong Xun, Wang Guoying. 3D face deformable model based on feature points[J]. Journal of Software,2009,20(3):724-733.
[32]胡永利, 尹寶才, 程世銓, 等. 創(chuàng)建中國人三維人臉庫關鍵技術研究[J]. 計算機研究與發(fā)展,2005,42(4):622-628.
Hu Yongli, Yin Baocai, Cheng Shiquan, et al. Research on key technology in construction of a Chinese 3D face database[J]. Journal of Computer Research and Development,2005,42(4):622-628.
[33]傅澤華, 龔勛. 基于可變模板的Kinect三維人臉標準化[J]. 機械, 2014,41(S):343-348.
Fu Zehua, Gong Xun. Kinect 3D face standardization based on resizable templates[J]. Machinery,2014,41(S):343-348.
[34]Hernandez M, Choi J, Medioni G. Laser scan quality 3-d face modeling using a low-cost depth camera[C]∥Proceedings of the 20th European Signal Processing Conference (EUSIPCO).[S.l]:IEEE,2012:1995-1999.
Although 2D-based face recognition technology becomes more and more mature, recognition results are still affected by light, posture, facial expressions and other changes. It is a trend to improve the performance of face recognition by 3D face model as well as to apply 3D face recognition in practice. To tackle these problems, SWJTU multimodal face database which contains face data from 200 Chinese people with neutral expression is proposed. The database includes visible light images, video sequences, 3D face models (high resolution) and stereo video sequences. Here, we describe the apparatuses, environments and procedure of the data collection and present the normalization procedure of the database. Finally, database applications are discussed and then several evaluation protocols for SWJTU multimodal face database are presented to measure face recognition and reconstruction performance.
3D face; face recognition; face reconstruction; video sequences; stereo video sequences
國家自然科學基金(61202191)資助項目;計算智能重慶市重點實驗室開放基金(CQ-LCI-2013-06)資助項目。
2015-06-05;
2016-06-30
TP391.41
A
傅澤華(1990-),女,碩士研究生,研究方向:三維人臉重建,機器視覺,E-mail:mata_fu@163.com。
龔勛(1980-),男,副教授,研究方向:圖像處理,模式識別,人工智能。
李天瑞(1969-),男,教授,研究方向:數(shù)據(jù)挖掘、粗糙集、粒計算和云計算。
2D & 3D Multi-modal Face Database
Fu Zehua, Gong Xun, Li Tianrui
(School of Information Science and Technology, Southwest Jiaotong University, Chengdu, 611756, China)