• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      一種基于彩色+深度的人臉識別算法

      2017-06-19 18:51:49袁帥英郭大波
      測試技術(shù)學(xué)報 2017年3期
      關(guān)鍵詞:識別率人臉頭部

      袁帥英, 郭大波

      (山西大學(xué) 物理電子工程學(xué)院, 山西 太原 030006)

      一種基于彩色+深度的人臉識別算法

      袁帥英, 郭大波

      (山西大學(xué) 物理電子工程學(xué)院, 山西 太原 030006)

      本文提出了一種基于彩色+深度(RGB-D)的人臉識別方法, 以提高識別率. 首先從Kinect獲得一個具有豐富的頭部姿勢變化、 光照變化等不同條件下的彩色+深度(RGB-D)圖像, 將獲取的同一個人在不同條件下的多個圖像看做一個圖像集; 其次將Kinect獲得的原始深度數(shù)據(jù)用于姿態(tài)估計和臉區(qū)域的自動裁剪. 根據(jù)估計的姿態(tài)將一組臉部圖像集分成多個子圖像集. 對于分類, 本文提出了一種基于塊的協(xié)方差矩陣表示圖像模型在黎曼流形上一個子圖像集的方法以降維, 并使用SVM模型分別學(xué)習(xí)每個子圖像集, 然后將所有子圖像集的結(jié)果相融合得出最終的識別結(jié)果. 本文所提出的方法已經(jīng)在包含不同條件下超過5 000幅 RGB-D圖像數(shù)據(jù)集中進(jìn)行了評估. 實驗結(jié)果表明本文算法可實現(xiàn)高達(dá)98.84%的識別率.

      k-均值; 局部二進(jìn)制模式; 支持向量機(jī); 黎曼流形; 圖像集分類; 人臉識別算法

      0 引 言

      人臉識別歷來被視為是基于單一圖像的分類技術(shù)[1]. 隨著科技日新月異的發(fā)展和視頻捕捉技術(shù)成本的逐步降低, 一個人的多幅不同圖像也變得越來越容易獲得, 這里我們把一個人的多幅不同圖像定義為一個圖像集. 為了根據(jù)一個圖像集做出相關(guān)的識別或者分類的決策, 基于圖像集的模型和分類技術(shù)近來已經(jīng)引起研究者的廣泛關(guān)注.

      目前的圖像集分類技術(shù)絕大多數(shù)是基于2D圖像的[2], 圖像集是一個復(fù)雜的非線性流形, 并在不同的條件下發(fā)生變化, 包括任意姿勢、 改變光照條件、 表現(xiàn)畸形、 用手或物體有意遮擋和利用服裝變化進(jìn)行偽裝等. 現(xiàn)有的關(guān)于二維圖像集分類過程包括兩個步驟[2], 分別使用固定大小的窗口進(jìn)行人臉檢測和人臉跟蹤. 由于監(jiān)測和跟蹤存在誤差, 所以檢測窗口并不總是覆蓋所有圖像集中相同的人臉區(qū)域, 這就會引入一些不必要的變化, 甚至是相同類別的圖像最終判別為不同圖像, 從而導(dǎo)致相同類別的圖片最終映射為特征集上不同位置上的點, 導(dǎo)致產(chǎn)生不必要的噪聲, 從而降低分類的精度.

      在這些條件中, 姿勢和角度變化是最具挑戰(zhàn)性的, 我們可將不同姿態(tài)進(jìn)行數(shù)據(jù)分集處理. 對于光照條件干擾問題, 三維數(shù)據(jù)模型是最有效的解決途徑[3]. 綜合考慮, 微軟推出的kinect傳感器[4]是捕獲三維圖像最適合的工具, 它可以很快地同時捕獲2D(RGB圖像)和深度圖像(Depth)[5], 深度數(shù)據(jù)是基于紅外的, 本質(zhì)上不受光照變化的影響[4]. 使用kinect獲得的深度數(shù)據(jù)可以輕易地從背景和相同的人臉區(qū)域通過多幅圖像裁剪比較精確地裁剪出人臉區(qū)域. 本文的算法可解決由于受光照變化使得基于RGB圖像的人臉識別性能下降的問題.

      本文的目的是著手處理一組基于RGB-D圖像集的分類問題. 將一個圖像集分成多個子圖像集可以有效解決視角變化所帶來的問題. 更具體地說, 本文使用隨機(jī)森林回歸技術(shù)[6]可以估計一個三維人臉并且通過估計姿勢將一個圖像集中的圖像分離成若干集群. 每個集群中的圖像被視為一個子圖像集, 然后通過我們提出的基于塊的協(xié)方差矩陣算法建模. 這個子圖像集的結(jié)果表示為黎曼流形上的點[3]. 對于分類, 可使用一個黎曼核函數(shù)將黎曼流形上的點嵌入到再生核希爾伯特空間, 為每個子圖像集學(xué)習(xí)生成單獨的SVM模型. 本文所提出的方法在Biwi Kinect人臉面部數(shù)據(jù)庫上進(jìn)行了驗證[7].

      本文的主要貢獻(xiàn)包括: ① 從低分辨率kinect獲取數(shù)據(jù)進(jìn)行人臉識別不同于基于二維RGB圖像的分類算法, 這種算法有效地使用了從Kinect傳感器獲得的深度數(shù)據(jù), 增加了信息維度; ② 使用深度數(shù)據(jù)將集合中的圖像集群為子圖像集, 從而解決了姿勢變化問題; ③ 引入一個有效的基于塊的協(xié)方差矩陣表示圖像集模型以降低維度,因此很具計算優(yōu)勢; ④ 使用黎曼流形上的SVM分類.

      1 二維圖像集分類方法

      圖像集分類技術(shù)通常包含兩個主要的步驟: 一是在圖像集中找到一些具有代表性的圖像進(jìn)行訓(xùn)練得到特征向量; 二是為這些特征向量定義合適的距離度量. 根據(jù)使用的表征類型, 現(xiàn)有的二維圖像集方法可以分為參數(shù)模型方法和非參數(shù)模型方法[8]. 參數(shù)模型方法是近似一個圖像集的某種統(tǒng)計分布模型的參數(shù), 然后測試兩組圖像之間的相似性(兩個分布參數(shù)的差異), 例如K-L散度[9]. 若測試和訓(xùn)練圖像集之間不存在緊密聯(lián)系, 則此方法就不能達(dá)到理想結(jié)果, 甚至?xí)? 另一類圖像集分類方法為非參數(shù)方法, 沒有像參數(shù)方法那樣做關(guān)于數(shù)據(jù)統(tǒng)計分布的假設(shè), 據(jù)報道該方法的試驗結(jié)果取得了較理想的效果, 近來發(fā)展也比較迅速[10].

      基于非參數(shù)模型的方法代表了很多不同的處理圖像集的方法, 包括自適應(yīng)學(xué)習(xí)樣本集[11]、 線性子空間[12]、 混合子空間[13]和復(fù)雜的非線性流形等方法[14]. 基于這種類型的表示方法, 不同的距離度量決定了圖像集之間的距離. 比如, 圖像集與圖像集之間的距離可以看作是具有代表性的圖像集之間的歐式距離. 為了通過線性子空間確定具有代表性圖像集之間的距離, 文獻(xiàn)中多使用特征角, 兩個子空間之間的特征角d∶0≤θ1≤…≤θd≤π/2是由一個空間中的任意向量與第二個子空間中的任意向量所形成的最小角來定義的. 基于特征角方法的例子有互子空間方法(MSM)[15]和正交子空間方法(OSM)[16], 互子空間方法是使用主成分分析法(PCA)[17]計算兩個子空間之間特征角的最小值; 正交子空間方法是一個子空間中的每個向量都與另一個子空間中的所有向量正交從而找到特征角.

      關(guān)于非參數(shù)方法研究出很多不同的分類策略, 都是為了對類中的圖像集進(jìn)行判別. 這些分類策略大致分為兩種類型: 首先, 這種方法是直接一對一的計算集距離, 并且基于最鄰近分類進(jìn)行決策; 其次, 該方法第一次學(xué)習(xí)一個判別函數(shù), 然后利用已學(xué)習(xí)的判別函數(shù)對圖像集分類. 通過計算具有代表性的集均值之間一一對應(yīng)的集距離, 能夠非常有效地處理內(nèi)部集變化, 但是它的性能卻很容易受到離群值的影響. 使用查詢集一對一去匹配所有集合的計算代價高昂, 而且當(dāng)數(shù)據(jù)集非常大時這些方法可能會變得非常緩慢. 相比于一對一匹配方法, 第二類方法更有效, 這些方法大部分是線性判別函數(shù)(LDA)的擴(kuò)展, 包括判別典型相關(guān)分析(DCC)[18], 多種判別分析(MDA)和圖形嵌入判別分析[19].

      2 基于RGB-D的圖像集分類

      本文是基于RGB-D的圖像集分類, 與2D圖像分類方法不同, 我們不用做任何關(guān)于訓(xùn)練和測試圖像集之間的數(shù)據(jù)相關(guān)性的假設(shè). 提出了一個新的非參數(shù)模型的方法, 即基于塊的協(xié)方差矩陣表示黎曼流形上的圖像集模型, 在黎曼流形上表示圖像集計算效率非常高而且維度低. 然后我們設(shè)計黎曼流形上的SVM分類器和學(xué)習(xí)最優(yōu)判別函數(shù), 最終做出關(guān)于圖像集分類的決策. 這種方法做分類不僅準(zhǔn)確率高而且效率也高. 它的好處是避免了一對一查詢匹配圖像集去匹配整個圖像集帶來的繁瑣的計算, 還可以改變圖像集大小.

      2.1 人臉區(qū)域分割及圖像集分集

      從Kinect傳感器獲得的數(shù)據(jù)包含了人臉和上半身, 為了分割出人臉區(qū)域, 我們采用自動預(yù)處理方式, 包含3個步驟: ① 背景分割; ② 人臉檢測與估計; ③ 基于姿勢的人臉區(qū)域精確裁剪. 具體介紹如下.

      2.1.1 背景分割

      首先, 通過使用深度數(shù)據(jù)將人臉部和身體從背景中分割出來. 假設(shè)臉部和身體是離Kinect最近的對象, 我們設(shè)定一個深度閾值就可以將臉部和身體從背景中分割出來. 該閾值通過使用k-means[20]將包含臉部和身體的深度值類聚成兩簇而自動確定. 分割結(jié)果如圖 1(a) 所示: 為了效果明顯我們將分割后的背景置為深藍(lán)色而將人體置為淡藍(lán)色. 我們只需保留人體部分即可.

      圖 1 基于深度的人臉預(yù)處理 Fig.1 Face image preprocessing based on depth.

      2.1.2 人臉檢測和估計

      隨機(jī)森林回歸算法[6]可用于人臉檢測和頭部姿勢的估計. 首先, 使用一個人臉統(tǒng)計模型可產(chǎn)生大量的人臉數(shù)據(jù), 從訓(xùn)練數(shù)據(jù)中提取主要成份為人臉檢測和頭部姿勢估計訓(xùn)練回歸分類器. 為了方便訓(xùn)練, 提取的主成分需要注釋頭部旋轉(zhuǎn)角度和鼻尖的位置并且指定一個類標(biāo)簽(如果從臉部提取的斑點則標(biāo)注為1, 其他的標(biāo)注為0). 使用已學(xué)習(xí)的回歸分類器我們就可以判斷人臉部是否存在于給定范圍的圖像中, 并且在實時逐幀的基礎(chǔ)上依據(jù)轉(zhuǎn)動、 傾斜和偏角[φ,θ,Ψ]估計頭部姿勢.

      2.1.3 基于姿勢的人臉區(qū)域精確裁剪

      接下來需要確定一個有確定尺寸和位置的矩形窗口用于從臉部和身體區(qū)域的圖像中裁剪出人臉部位. 如圖1(b)所示, 需要確定矩形窗口的左上角的坐標(biāo)(xt,yt)和右下角的坐標(biāo)(xb,yb). 首先, 通過找到從背景中分割出來的平滑后的頭頂部計算yi. 圖像中具有m(本文實驗中取m=5)個非零像素(深度值)的第一行作為人頭部的頂部. 給定yi通過yb=yt+h可以近似確定yb,h是窗口的高度也是從頭部到kinect傳感器之間距離的函數(shù). 通過實驗確定(z是頭部到kinect傳感器的平均距離單位m)是最佳的近似窗口裁剪高度. 給出yt和yb, 現(xiàn)在我們就可以從身體部分分割出臉部區(qū)域, 接著從xt和xb被定義為具有m非零像素的第一列開始, 分別向左和向右修剪區(qū)域. 給定(xt,yt)和(xb,yb), 就可以從剩下的區(qū)域內(nèi)裁剪臉部區(qū)域. 很顯然沿著轉(zhuǎn)動和偏移方向極度旋轉(zhuǎn)頭部, 被裁剪窗口覆蓋的臉部區(qū)域在不同的圖像中是不一致的. 例如, 當(dāng)該人俯視的情況下, 剪切區(qū)域?qū)⒅饕采w顱骨, 頭發(fā), 前額和嘴部區(qū)域, 但是將錯過包括下巴在內(nèi)的臉的底部區(qū)域. 為了克服這個問題我們結(jié)合從圖像范圍內(nèi)已經(jīng)估計出的姿勢信息, 從而確保臉部區(qū)域被均勻裁剪. 重新定義yt=yt+(βφ+γψ), 這里β=5/8,γ=5/8; 在這里我們垂直移動的截取窗口向上或向下取決于頭部姿勢. 如果該人頭部正在俯視則裁剪窗口下移動, 反之亦然. 已估計出的裁剪窗口最后用于裁剪出RGB的人臉區(qū)域和深度圖像的人臉區(qū)域, 裁剪效果分別如圖1中的(c)和(d)所示.

      Viola 和Jones提出的人臉檢測算法[21]或跟蹤算法[22]無法在極端的頭部旋轉(zhuǎn)和非正面人臉的的情況下使用. 本文所提出的基于深度信息的算法能在頭部姿勢變化很大的情況下精確地裁剪出不同圖像中的相同的面部區(qū)域.

      給定一個圖像集, 我們把它分成c子圖像集. 如圖 2 將每個圖像集分為c(在該圖中c=3)子圖像集, 然后使用基于塊的協(xié)方差矩陣表示每個圖像子集. 為了做到這一點, 每個子集中的n個圖像被劃分成16(4×4)個不同的塊, 協(xié)方差矩陣C是利用式(1)計算所得.

      圖 2 圖像集分為c子圖像集Fig.2 Image set is divided into c sub-image set

      分割是基于其在第2.1節(jié)所估計的頭部姿勢. 首先, 使用訓(xùn)練數(shù)據(jù)中的所有圖像的可用姿勢信息將圖像集分為c圖像子集,c子圖像集集群中心由k均值計算所得. 使用這些集群中心, 集合中的圖像分別被分配到c集群之一. 集群中心和各圖像的姿勢矢量之間的最短歐式距離被用作分配集群的標(biāo)準(zhǔn). 為了提高識別率我們需要根據(jù)其旋轉(zhuǎn)矩陣表示每個圖像的姿勢信息. 更具體地說, 每個圖像中的姿態(tài)信息是由歐拉角[φ,θ,ψ]轉(zhuǎn)換成旋轉(zhuǎn)矩陣RM∈R3×3, 其中

      式中: RM表示在圖像中的面部姿態(tài)的單矢量.

      2.2 圖像集合表示

      (1)

      2.3 訓(xùn)練單獨的SVM模型

      SVM是一種無監(jiān)督二分類算法, 它構(gòu)造一個超平面優(yōu)化獨立的兩個類之間的數(shù)據(jù)點而實現(xiàn)最佳分離[24]. 最初的SVM是為歐氏空間里的數(shù)據(jù)設(shè)計的. 由于我們的數(shù)據(jù)點(對稱正定矩陣)不在歐氏空間, 而在一個復(fù)雜的非線性流行叫李群的黎曼流形上. 因此,我們將數(shù)據(jù)點從黎曼流形映射到一個高維希爾伯特空間[25]. 這種映射是通過使用黎曼核函數(shù)實現(xiàn)的. 通過使用核函數(shù)我們最終將數(shù)據(jù)點從黎曼流形映射到再生核希爾伯特空間(RKHS)[25].

      給定義一個含有m個訓(xùn)練數(shù)據(jù)點的集合Xtrain={x1,x2,x3,…,xm}, 其中xi∈R16×16為LBP特征[23]塊的協(xié)方差矩陣集合; 對應(yīng)的類Ytrain={y1,y2,y3,…,ym}, 其中yi∈{-1,+1}; 這樣在黎曼流形上的SVM問題則歸結(jié)為尋找一個最大間隔超平面從yi=1的點中分離出yi=-1的點. 使用軟間隔支持向量機(jī)可以解決以下最優(yōu)化問題

      (2)

      式中: W是系數(shù)向量; b是截距; ξi是一個處理不可分?jǐn)?shù)據(jù)的參數(shù); c是懲罰系數(shù); fi∈Rm是再生希爾伯特核空間中的特征向量, 它是由Xi和Xtrain計算所得

      (3)

      文獻(xiàn)[25]中所提到的原始問題可利用式(2)轉(zhuǎn)化成為一個凸優(yōu)化問題; 利用拉格朗日的對偶性可以解決以下雙重優(yōu)化問題

      (4)

      (5)

      最初SVM處理的是二分類問題, 使用合適的多分類策略它可以擴(kuò)展到多分類, 例如一對一和一對多. 多分類SVM策略[26]的比較表明在一對一和一對多中, 一對多策略的速度更快. 因此在我們的實驗中采用一對多的多分類策略. 對于k分類我們訓(xùn)練k個二元SVM模型, 每個對應(yīng)一個類. 給定Xtest, 使用式(5)從每個已訓(xùn)練的支持向量機(jī)模型的超平面上計算Xtest的歸一化距離d(Xtest).

      2.3.1 黎曼核函數(shù)

      為了將數(shù)據(jù)點從黎曼流形嵌入到再生核希爾伯特空間(PKHS)[25], 我們使用斯坦因核函數(shù). 鑒于兩個對稱正定矩陣X和Y之間的斯坦因核函數(shù)定義為

      (6)

      斯坦因核函數(shù)類似于在歐幾里得空間中的高斯核函數(shù), 從而相應(yīng)地可以將歐式空間中用指數(shù)表示的距離用斯坦應(yīng)散度S(X,Y)代替. 斯坦散度是在確定的黎曼流形上對稱正定矩陣之間距離的一個度量. 斯坦因散度定義為

      (7)

      2.3.2 融合子圖像集結(jié)果

      如前所述基于集群的姿勢信息將一個圖像集分成c子圖像集, 然后訓(xùn)練單獨的支持向量機(jī)模型, 每一個支持向量機(jī)模型對應(yīng)一個子圖像集. 為了做出關(guān)于查詢圖像集的分類決策, 我們需要充分考慮來自所有C子圖像集的通過SVM分類產(chǎn)生的類信息. 為了融合C子圖像集的信息, 我們從C支持向量機(jī)給定C類標(biāo)識, 然后計算所有類出現(xiàn)的頻率. 出現(xiàn)頻率最高的類標(biāo)識被認(rèn)定為查詢圖像集的標(biāo)識. 若出現(xiàn)頻率相同, 則與超平面距離最大的測試集的標(biāo)識作為查詢集的標(biāo)識.

      2.3.3 融合RGB與D(深度)的結(jié)果

      通過使用RGB或D(深度)圖像我們可以采用已有的圖像集分類技術(shù)直接利用D圖像計算協(xié)方差矩陣. 通過RGB圖像和D圖像獲得的分類信息融合就可以實現(xiàn)基于RGB-D的圖像集分類. 為了實現(xiàn)RGB-D圖像集分類, 我們分別學(xué)習(xí)了RGB(轉(zhuǎn)換為灰度級)和D圖像的SVM模型. 總之對每個要識別的對象內(nèi)共2c子圖像集, 也就是RGB子圖像集對應(yīng)c個子圖像集和D圖像對應(yīng)另c個子圖像集. 學(xué)習(xí)了2c個單獨的支持向量機(jī)模型并且通過融合所有2c支持向量機(jī)模型的信息做出關(guān)于RGB-D查詢集分類問題的決策. RGB和D的融合過程如圖 3 所示. 類標(biāo)識信息和到超平面的所有2c子圖像集的距離來源于相應(yīng)的已學(xué)習(xí)的SVM模型.

      圖 3 分類過程中RGB和D圖像集的融合Fig.3 The fusion scheme of RGB sets and D sets in the classification process

      3 結(jié)果分析

      利用Kinect傳感器獲取的人臉數(shù)據(jù)集評價我們提出方法的性能. 首先對數(shù)據(jù)集進(jìn)行描述, 然后討論我們的實驗, 最后驗證我們提出的基于RGB-D圖像集分類技術(shù)的性能.

      3.1 Kinect人臉數(shù)據(jù)庫

      Biwi Kinect數(shù)據(jù)庫有5 000張RGB-D圖像. 分別為5 000張RGB圖像和5 000張深度圖像. 依據(jù)光照, 頭部姿勢變化, 表情變化, 太陽鏡偽裝以及用手遮擋等使結(jié)果集中融合了大量不同的圖像. 下面我們利用Biwi數(shù)據(jù)庫測試本文方法的性能. Biwi Kinect頭部姿勢數(shù)據(jù)庫: kinect獲得的頭部姿勢數(shù)據(jù)最初是為了估計頭部姿勢. 該數(shù)據(jù)集包含20個人(6女性和14個男性)超過5 000個RGB-D圖像. 如圖 4 所示是此數(shù)據(jù)集中一個人的一些圖像. 頭部姿勢偏轉(zhuǎn)的范圍在-75°~+75°之間, 傾斜角在-60°~+60°之間. 該數(shù)據(jù)集還包含部分被手遮擋和太陽鏡偽裝圖像, 這使實驗更具挑戰(zhàn)性.

      圖 4 Biwi Kinect數(shù)據(jù)集中某個對象的不同姿勢圖Fig.4 Different pose maps of an object in the Biwi Kinect data set

      3.2 實驗分析

      結(jié)合3.1節(jié)中介紹的數(shù)據(jù)總共超過5 000RGB-D圖像, 所得到的數(shù)據(jù)結(jié)果集有很大范圍的變化, 因此很具挑戰(zhàn)性. 為了訓(xùn)練更多單獨的SVM模型, 我們隨即將每個身份的圖像分成k小份然后進(jìn)行試驗. 因此對于每個人臉圖像得到k個圖像集, 然后訓(xùn)練其中一個圖像集, 其余的k-1個用來做測試. 確保在大部分不同的圖像集中沒有出現(xiàn)重疊現(xiàn)象. 共得到20個訓(xùn)練圖像集和個測試圖像集. 通過改變k(k=1,2,3,4,5)的取值進(jìn)行實驗, 隨著k值逐漸增加, 實驗難度也隨之加大, 因為k值增加意味著每個圖像集中圖像數(shù)量將減少, 同時增加了測試圖像集中的數(shù)量, 考慮到我們的實驗結(jié)果, 根據(jù)k取值不同每個實驗重復(fù)進(jìn)行5次, 實驗的平均識別率如表 1 所示.

      表 1 未分為子圖像集的識別率

      結(jié)果表明平均識別率隨著k值的變化而變化, 隨著k值的增加圖像被分成更多的圖像集, 而每個圖像集中圖像的數(shù)量卻減少了. 每個圖像集中圖像的數(shù)量減少意味著圖像的多樣性也減少, 這就降低了識別性能. 當(dāng)k取值為3時效果最佳, 當(dāng)k取值為5時效果有所下降. 實驗中RGB圖像的識別率為92.81+1.04%; 深度圖像的識別率為94.01±1.35%; 而深度圖像與彩色圖像融合之后的識別率則可以達(dá)到96.05±1.81%, 因此它對基于圖像集分類的貢獻(xiàn)是顯著的.

      3.3 分割成圖像子集對圖像集的影響

      在每組不同的圖像集中, 頭部姿勢的變化是整個識別過程中最具挑戰(zhàn)性的任務(wù), 因為很多由于頭部姿勢的變化而導(dǎo)致人臉發(fā)生變化. 通過將每個集合中的圖像分成c子圖像集, 我們可以有效地處理頭部旋轉(zhuǎn)問題.c=1,2,3,4, 根據(jù)c取值不同, 我們將每個身份的圖像隨機(jī)編排到k集合中, 每個實驗進(jìn)行5次, 實驗結(jié)果如表 2 所示.

      本文提出的基于RGB-D的圖像集分類技術(shù)在k=3和k=5時識別率分別達(dá)到了98.84%和96.56%. 這些結(jié)果表明利用深度數(shù)據(jù)將圖像集劃分為c子圖像集使得識別的性能得到了很大的改善. 當(dāng)k=3時, RGB圖像的識別率也從91.46%提高到96.54%. 比Lei, Y. J.等[27]人的識別率要高.

      表 2 圖像集分成c子圖像集后的識別率

      3.4 預(yù)處理對性能的影響

      用于校驗我們所提出的基于RGB-D圖像集分類算法的Kinect數(shù)據(jù)集, 允許有很大范圍的頭部姿勢變化. 為了使圖像集分類算法更準(zhǔn)確, 在預(yù)處理的時候就要求更精確的裁剪出人臉部位. 預(yù)處理包括Viola和Jones提出的人臉檢測只適用于人臉部圖像的人臉跟蹤[22], 而非正面人臉和極度的頭部旋轉(zhuǎn)的情況是不能被檢測到的. 此外, 當(dāng)使用Viola和Jones提出的算法[21]從不同的圖像中裁剪人臉區(qū)域時裁減窗口的位置是不固定的, 這就可能導(dǎo)致裁剪不完整最終影響人臉識別率. 本文基于RGB-D的人臉識別算法通過深度預(yù)處理方法精確裁剪出人臉區(qū)域, 有效地克服了這些變化. 接下來用實驗驗證預(yù)處理對人臉識別性能的影響. 首先采用3.1節(jié)討論過的預(yù)處理方法進(jìn)行實驗, 然后再采用[21, 22]中的人臉檢測與跟蹤的方法進(jìn)行實驗. 對于這倆種方法我們?nèi)≈祂=1, 3, 5和c=1, 在這里不考慮頭部姿勢變化和圖像集分為子圖像集這倆種因素. 取每一個人在k個集合中的圖像進(jìn)行實驗5次, 得出的平均結(jié)果如表 3 所示.

      表 3 不同預(yù)處理對識別結(jié)果影響

      實驗結(jié)果表明: 本文提出的預(yù)處理算法效果明顯比Viola等人的算法效果要好. 特別是在k=3的時候如表 3 所示這個差距就太大了. 實驗數(shù)據(jù)表明使用深度數(shù)據(jù)不僅可以克服這些變化, 并且可以從多張圖像中精確地裁剪出同樣的人臉區(qū)域, 很明顯本文的方法大幅提高了識別性能.

      4 結(jié) 論

      本文利用紅外線不受光照變化的影響這一物理特性, 采用Kinect獲取深度圖像, 然后利用深度數(shù)據(jù)獨特的距離特點使用k-means方法實現(xiàn)精確的背景分割, 本文的人臉檢測算法效果明顯強(qiáng)于當(dāng)今主流的由Viola和Jones提出的人臉檢測算法, 實現(xiàn)94.71%的識別率. 更為重要的是我們通過圖像集分為子集實現(xiàn)降維, 因此很具計算優(yōu)勢, 同時使用黎曼流形上的SVM分類思想訓(xùn)練盡可能多單獨的SVM模型, 有效克服了姿勢變化所帶來的影響, 最終實現(xiàn)高達(dá)98.84%的識別率.

      [1] Cevikalp H, Triggs B. Face recognition based on image sets[C]. 2010 IEEE Conference on Computer Vision And Pattern Recognition (Cvpr). San Francisco, CA: IEEE, 2010: 2567-2573.

      [2] 路翀. 基于二維圖像表示的人臉識別算法研究[D]. 大連: 大連理工大學(xué), 2012.

      [3] Hayat M, Bennamoun M, El-Sallam A. An RGB-D based image set classification for face recognition [J]. Neurocomputing, 2016, 171: 889-900.

      [4] 石曼銀. Kinect技術(shù)與工作原理的研究[J]. 哈爾濱師范大學(xué)自然科學(xué)學(xué)報, 2013(3): 83-86. Shi Manyin. Research on Kinect technology and working principle[J]. Journal of Natural Science of Harbin Normal University, 2013(3): 83-86. (in Chinese)

      [5] 魏尚. 基于Kinect深度圖像的三維人臉識別技術(shù)研究[D]. 天津: 天津師范大學(xué), 2012.

      [6] Fanelli G, Gall J, Van Gool L. Real time head pose estimation with random regression forests[C]. Computer Vision and Pattern Recognition (CVPR), 2011 IEEE Conference on. IEEE, 2011: 617-624.

      [7] Ding X, Huang C, Fang C. Head pose estimation based on random forests for multiclass classification[C]. Pattern Recognition (ICPR), 2010 20th International Conference on, 2010: 934-937.

      [8] 馬佳義. 基于非參數(shù)模型的點集匹配算法研究[D]. 武漢: 華中科技大學(xué), 2014.

      [9] Moacir Ponti, Josef Kittler, Mateus Riva, et al. A decision cognizant Kullback-Leibler divergence[J]. Pattern Recognition, 2017, 61: 470-478.

      [10] Wang Mei, Liang Jiuzhen. Face recognition algorithm of 2DPCA nonparametric subspace analysis[J]. Computer Engineering, 2011, 37 (24): 187-189,192.

      [11] 袁理, 陳慶虎. 基于自適應(yīng)3DLBP特征的人臉深度圖像識別[J]. 電視技術(shù), 2013, 37(19): 46-49. Yuan Li, Chen Qinghu. Face recognition based on intensity image and adaptive 3DLBP features[J]. Video Engineering, 2013, 37(19): 46-49. (in Chinese)

      [12] 黃麗坤. 線性子空間人臉識別算法及姿態(tài)問題研究[D]. 西安: 電子科技大學(xué), 2010.

      [13] 彭本華. 基于子空間的人臉識別算法研究[D]. 成都: 西南交通大學(xué), 2009.

      [14] 陳華杰. 非線性流形上多姿態(tài)人臉檢測與識別[D]. 杭州: 浙江大學(xué), 2006.

      [15] Yamaguchi O, Fukui K, Maeda K. Face recognition using temporal image sequence[C]. Automatic Face and Gesture Recognition, 1998. Proceedings. Third IEEE International Conference on. IEEE, 1998: 318-323.

      [16] Zagoruiko N G. Pattern recognition by the method of pairwise template comparison in competent feature subspaces[J]. Doklady Mathematics, 2002, 65 (1): 143-145.

      [17] 黃泉龍. 基于PCA的人臉識別研究[D]. 南京: 西安電子科技大學(xué), 2012.

      [18] Kim T K, Kittler J, Cipolla R. Discriminative learning and recognition of image set classes using canonical correlations[J]. Ieee Transactions on Pattern Analysis And Machine Intelligence, 2007, 29 (6): 1005-1018.

      [19] Harandi M T, Sanderson C, Shirazi S, et al. Graph Embedding Discriminant Analysis on Grassmannian Manifolds for Improved Image Set Matching[C]. 2011 IEEE Conference on Computer Vision And Pattern Recognition (Cvpr), 2011: 332-342.

      [20] Dey T, Deb T. Extended study of k-Means clustering technique for human face classification and recognition[C]. IEEE International Conference on Electrical, Computer and Communication Technologies. IEEE, 2015: 1-4.

      [21] Viola P, Jones M J. Robust real-time face detection[J]. International Journal of Computer Vision, 2004, 57(2): 137-154.

      [22] Ross D A, Lim J, Lin R S, et al. Incremental learning for robust visual tracking[J]. International Journal Of Computer Vision, 2008, 77 (1): 125-141.

      [23] Ojala T, Pietikainen M, Maenpaa T. Multiresolution gray-scale and rotation invariant texture classification with local binary patterns[J]. Ieee Transactions on Pattern Analysis and Machine Intelligence, 2002, 24 (7): 971-987.

      [24] Faruqe M O, Hasan M A M. Face recognition using PCA and SVM[C]. International Conference on Anti-Counterfeiting, Security, and Identification in Communication. IEEE, 2009: 97-101.

      [25] Bie T D, Cristianini N. Kernel methods for exploratory pattern analysis: a demonstration on text data[J]. 2004, 3138: 16-29.

      [26] Lin C J. A comparison of methods for multiclass support vector machines[J]. IEEE Transactions on Neural Networks, 2002, 13 (4): 1026-1027.

      [27] Lei Y J, Bennamoun M, Hayat M, et al. An efficient 3D face recognition approach using local geometrical signatures[J]. Pattern Recognition, 2014, 47 (2): 509-524.

      A Face Recognition Algorithm Based on RGB-D

      YUAN Shuaiying, GUO Dabo

      (College of Physics and Electronics Engineering, Shanxi University, Taiyuan 030006, China)

      In this paper, a face recognition method based on color-depth(RGB-D) was proposed to improve the recognition rate. First of all, images are acquired under different conditions, such as wide-range head posture changes and illuminations from the Kinect. Then RGB-D images of the same person under different conditions are selected into an image set. Secondly, the original depth data acquired by Kinect was used for pose estimation and automatic cropping of face region and a group of face image set was separated into several sub-image sets. For classification, a block-based covariance matrix was proposed to represent a subset image on a Riemannian manifold to decrease dimensions. The SVM models were used to study each sub-image set separately, and then the results of all the sub-image set together to get the final recognition results. The proposed algorithm has been evaluated on the dataset with more than 5 000 RGB-D images obtained in different conditions. The experimental results show that the proposed algorithm can achieve 98.84% recognition rate.

      k-means; LBP; SVM; riemannian manifolds; classification of image sets; face recognition algorithm

      1671-7449(2017)03-0241-09

      2017-01-12

      袁帥英(1989-), 男, 碩士生, 主要從事圖像處理與機(jī)器學(xué)習(xí)等研究.

      郭大波(1963-), 男, 博士, 副教授, 主要從事計算機(jī)視覺等研究.

      TP391.41

      A

      10.3969/j.issn.1671-7449.2017.03.010

      猜你喜歡
      識別率人臉頭部
      有特點的人臉
      頭部按摩治療老伴失憶
      火箭的頭部為什么是圓鈍形?
      軍事文摘(2020年22期)2021-01-04 02:16:38
      基于類圖像處理與向量化的大數(shù)據(jù)腳本攻擊智能檢測
      基于真耳分析的助聽器配戴者言語可懂度指數(shù)與言語識別率的關(guān)系
      三國漫——人臉解鎖
      動漫星空(2018年9期)2018-10-26 01:17:14
      提升高速公路MTC二次抓拍車牌識別率方案研究
      高速公路機(jī)電日常維護(hù)中車牌識別率分析系統(tǒng)的應(yīng)用
      自適應(yīng)統(tǒng)計迭代重建算法在頭部低劑量CT掃描中的應(yīng)用
      馬面部與人臉相似度驚人
      三明市| 林周县| 巴林右旗| 垦利县| 容城县| 易门县| 太原市| 上饶县| 嵩明县| 客服| 太康县| 澄迈县| 曲阳县| 建昌县| 同德县| 达州市| 呼玛县| 定结县| 应城市| 娱乐| 临猗县| 长白| 宁晋县| 清河县| 平邑县| 沂水县| 安泽县| 前郭尔| 灵丘县| 胶南市| 陈巴尔虎旗| 和龙市| 新蔡县| 丹棱县| 新民市| 永济市| 海兴县| 通化县| 迁西县| 都匀市| 孟津县|