霍春寶,楊 闖,佟智波,楊紅喆,王丹丹
(1.遼寧工業(yè)大學(xué) 電氣工程學(xué)院,遼寧 錦州 121001;2.錦州石化公司 礦區(qū)事業(yè)部,遼寧 錦州 121001;3.國(guó)網(wǎng)錦州供電公司 電力調(diào)度控制中心,遼寧 錦州 121001;4.上海應(yīng)用技術(shù)大學(xué) 計(jì)算機(jī)科學(xué)與信息工程學(xué)院,上海 200235)
人臉識(shí)別技術(shù)與其他生物特征識(shí)別技術(shù)相比,具有不易偽造、不易竊取、不會(huì)遺忘、不會(huì)侵犯,易分辨等優(yōu)勢(shì)[1],因而人臉識(shí)別技術(shù)在各個(gè)領(lǐng)域中被廣泛采用,如銀行、醫(yī)院、機(jī)場(chǎng)等.近些年來,隨著智能技術(shù)的快速發(fā)展,人臉識(shí)別技術(shù)開始與其他技術(shù)結(jié)合,實(shí)現(xiàn)更強(qiáng)大功能,例如,與活體檢測(cè)相結(jié)合實(shí)現(xiàn)刷臉支付,與汽車的主控制系統(tǒng)相結(jié)合實(shí)現(xiàn)刷臉車啟動(dòng),為用戶提供全新智能體驗(yàn).
人臉識(shí)別系統(tǒng)[2]可以分為:檢測(cè)與定位,對(duì)圖像中是否存在人臉進(jìn)行判斷并標(biāo)記;圖像預(yù)處理,對(duì)圖像因外界因素影響導(dǎo)致的變化進(jìn)行校正;特征提取,從高維圖像中提取可以很好表征人臉特征的低維度特征向量;匹配識(shí)別,通過某種分類策略判斷待識(shí)別人臉?biāo)鶎兕悇e.
本文依據(jù)光學(xué)字符識(shí)別(Optical Character Recognition,OCR)技術(shù)中特征提取算法所具有的優(yōu)勢(shì),將傳統(tǒng)SIFT 人臉識(shí)別算法與LTP 算法結(jié)合,并進(jìn)行改進(jìn),不僅增加特征對(duì)旋轉(zhuǎn)、光照、噪聲干擾等影響因素的魯棒性,還降低了計(jì)算的復(fù)雜度.
通過對(duì)OCR 技術(shù)的結(jié)構(gòu)特征研究分析,發(fā)現(xiàn)此類特征都是在字符關(guān)鍵點(diǎn)基礎(chǔ)上得到,常見的字符關(guān)鍵特征點(diǎn)包括拐點(diǎn)、交叉點(diǎn)、端點(diǎn)、局部曲率最大的點(diǎn)等.結(jié)構(gòu)特征不僅對(duì)相似字符有較好的識(shí)別能力,而且可以最大程度減少無識(shí)別作用的信息,以達(dá)到提高識(shí)別速度和識(shí)別率目的.
根據(jù)OCR 技術(shù)中結(jié)構(gòu)特征優(yōu)勢(shì)思想,采用尺度不變特征變換(Scale Invariant Feature Transform,SIFT)算法進(jìn)行關(guān)鍵點(diǎn)定位.SIFT 算法是一種基于尺度空間的特征提取方法[3-4],提取出的關(guān)鍵點(diǎn)具有尺度、方向和大小,因此在偏移、旋轉(zhuǎn)、部分仿射變換的情況下,也能較好地進(jìn)行識(shí)別,傳統(tǒng)SIFT算法工作流程見圖1.
圖1 SIFT 算法工作流程Fig.1 Workflow of SIFT algorithm
SIFT 算法的高斯金字塔[4-6]處理圖像,不僅能夠較好地描述物體的細(xì)節(jié)特征,還能保留整體的特征.
利用尺度可變高斯函數(shù)對(duì)原始圖像進(jìn)行卷積運(yùn)算,通過改變空間尺度參數(shù)可獲得不同模糊程度的圖像,公式為
式中,x,y為像素點(diǎn),pixel;σ為模糊尺度;金字塔每組包含S層,若第1 層的尺度用σ0表示,則第n層的尺度為
式中,k為放大比例系數(shù),s為常數(shù)3.金字塔模型的整體呈塔狀,見圖2.
圖2 高斯金字塔結(jié)構(gòu)Fig.2 structure of Gauss pyramid
尺度規(guī)范化LoG(Laplacion of Gaussiom)算子具有尺度不變性,但運(yùn)算復(fù)雜度高,所以采用高斯差分(Difference of Gaussian,DoG)算子進(jìn)行近似.LoG 算子與尺度可變高斯函數(shù)之間的關(guān)系式為
DoG 算子的計(jì)算公式為
由式(6)可知,DoG 金字塔只需利用高斯金字塔中的圖像進(jìn)行簡(jiǎn)單相減即可得到.尋找某層的DoG 局部極值點(diǎn),需要利用周圍的26 個(gè)像素點(diǎn)進(jìn)行比較.
圖3 DoG 金字塔極值點(diǎn)檢測(cè)Fig.3 DoG pyramid extreme point detection
去除對(duì)比度較低和邊緣較敏感的極值點(diǎn),只保留穩(wěn)定性較高的極值點(diǎn)作為關(guān)鍵點(diǎn).邊緣敏感度利用了Hessian 矩陣進(jìn)行判斷,對(duì)比度利用DoG 算子的二階Taylor 展開式
式中,γ越大表示主曲率越大,邊緣的可能性越大,若式(10)成立,則表示此點(diǎn)穩(wěn)定.
OCR 技術(shù)的網(wǎng)格特征[7-9]具有良好的抗干擾能力,其主要思想是將子區(qū)域中所有特征值累計(jì)求和,通過這種方式可以在一定程度上降低或消除局部噪聲和微小畸變對(duì)識(shí)別結(jié)果的影響.
依據(jù)網(wǎng)格特征的思想選擇采用旋轉(zhuǎn)無關(guān)的等價(jià)模式的LTP 特征,這是一種能夠描述局部紋理的特征,對(duì)灰度變化、旋轉(zhuǎn)和噪聲都具有良好的魯棒性,且計(jì)算速度快.本文特征在關(guān)鍵點(diǎn)為中心的9×9 區(qū)域中提取,見圖4.
圖4 LTP 的特征提取區(qū)域Fig.4 feature extraction area of LTP
局部三值模式(Local Ternary Pattern,LTP)算法[10-11]是在局部二值(Local Binary Pattern,LBP)算法的基礎(chǔ)上提出,在繼承LBP 特征優(yōu)點(diǎn)的同時(shí),還改善了對(duì)噪聲的敏感度,提取更加豐富的局部紋理信息.三值量化函數(shù)為
式中,x i和xc分別為鄰域像素點(diǎn)和中心像素點(diǎn)的灰度值.LTP 的編碼公式為
式中,P為鄰域像素點(diǎn)的個(gè)數(shù);R為采樣區(qū)域的半徑.將三值圖像分解為ULTP 和LLTP 這2 個(gè)LBP 圖像,分別計(jì)算特征值,計(jì)算過程見圖5.
圖5 LTP 特征值的計(jì)算過程Fig.5 calculation process of LTP eigenvalue
LTP 特征值的種類會(huì)隨著采樣點(diǎn)的增加而增多,易出現(xiàn)維數(shù)災(zāi)難.為降低特征維數(shù)并提高旋轉(zhuǎn)無關(guān)性,需要進(jìn)行旋轉(zhuǎn)無關(guān)和等價(jià)模式處理.旋轉(zhuǎn)不變處理的主要思想是首先將編碼不斷地按位進(jìn)行旋轉(zhuǎn),得到一組大小不同的數(shù)值,并從中選擇最小的值作為該點(diǎn)特征值,見圖6.
圖6 LTP 特征值的計(jì)算過程Fig.6 calculation process of LTP eigenvalue
旋轉(zhuǎn)無關(guān)的計(jì)算公式為
式中,P和R分別為采樣點(diǎn)的個(gè)數(shù)和采樣區(qū)域的半徑.等價(jià)模式是將小于等于2 次跳變的編碼歸為等價(jià)模式中的一類,其余的歸為另一類.經(jīng)過等價(jià)模式處理的特征能夠在保留原始圖像主要信息的同時(shí),實(shí)現(xiàn)有效地降維.等價(jià)模式的計(jì)算公式為
式中,g0,gc分別中心像素點(diǎn)和鄰域像素點(diǎn).經(jīng)過旋轉(zhuǎn)無關(guān)和等價(jià)模式處理的特征值從256 種減少為9種.并在3×3 的子區(qū)域中統(tǒng)計(jì)LTP 特征值,可得到3×3×9 的特征,表示為
式中,hi(i=1,2,…,9)為子區(qū)域的LTP 特征向量.
本文提取的旋轉(zhuǎn)無關(guān)和等價(jià)模式下的LTP 特征在SIFT 關(guān)鍵點(diǎn)的基礎(chǔ)上得到,能較好處理識(shí)別中的臉部變化問題.人臉識(shí)別算法整體結(jié)構(gòu)見圖7.
圖7 人臉識(shí)別算法整體結(jié)構(gòu)Fig.7 overall structure of the face recognition algorithm
傳統(tǒng)的SIFT 人臉識(shí)別算法使用的交叉匹配方式,不僅運(yùn)算量大,而且會(huì)出現(xiàn)無關(guān)特征之間的匹配,對(duì)識(shí)別結(jié)果造成不利的影響.為了實(shí)現(xiàn)對(duì)應(yīng)匹配,并弱化易受影響區(qū)域?qū)φw識(shí)別率的影響,本文采用非均勻網(wǎng)格的方式對(duì)圖像進(jìn)行劃分.
通過研究可知大多數(shù)關(guān)鍵點(diǎn)分布在五官區(qū)域,見圖8.
圖8 SIFT 關(guān)鍵點(diǎn)的分布Fig.8 distribution of sift key points
采用以雙眼的內(nèi)眼角作為垂直方向劃分的依據(jù),以“三庭五眼”先驗(yàn)知識(shí)作為水平方向劃分的依據(jù),將圖像劃分為3×3,見圖9.
圖9 非均勻網(wǎng)格Fig.9 non-uniform grid
根據(jù)特征所屬的網(wǎng)格進(jìn)行對(duì)應(yīng)的匹配,并賦予不同的權(quán)值,通過加權(quán)方式計(jì)算整體相似度,弱化易受影響區(qū)域?qū)ψR(shí)別準(zhǔn)確性的影響.整體相似度的計(jì)算公式為
式中,si為第i個(gè)子網(wǎng)格識(shí)別率,%;wi為第i個(gè)子網(wǎng)格權(quán)重.
人臉數(shù)據(jù)庫(kù)中包含姿態(tài)、光照、偏轉(zhuǎn)等影響因素下的人臉圖像,保證實(shí)驗(yàn)結(jié)果的穩(wěn)定性和客觀性.研究分析可知額頭區(qū)域存在的關(guān)鍵點(diǎn)較少,識(shí)別能力較弱,所以將標(biāo)號(hào)為0、1、2 的子網(wǎng)格看作一個(gè)整體進(jìn)行識(shí)別實(shí)驗(yàn),其他子網(wǎng)格則按照劃分的情況進(jìn)行實(shí)驗(yàn),結(jié)果見表1.
表1 人臉子區(qū)域的置信度與權(quán)重Tab.1 confidence and weight of face sub-regions
人臉庫(kù)中選取4 種典型的姿態(tài)變化圖像,包括左右偏轉(zhuǎn)、上揚(yáng)頭、下低頭和部分遮擋,部分測(cè)試樣本見圖10(a),同時(shí)選取不同光照情況下的人臉圖像,部分圖像見圖10(b),驗(yàn)證本文人臉識(shí)別算法對(duì)姿態(tài)變化、部分遮擋和光照變化情況的魯棒性.本次實(shí)驗(yàn)的識(shí)別率結(jié)果見表2.
表2 非理環(huán)境下的人臉識(shí)別率Tab.2 face recognition rates in unreasonable environment
圖10 人臉庫(kù)部分測(cè)試樣本Fig.10 some test samples of face library
為保證實(shí)驗(yàn)的客觀性,本次對(duì)比實(shí)驗(yàn)從人臉庫(kù)中隨機(jī)地選取200 張圖像用于算法的識(shí)別率驗(yàn)證,每組重復(fù)10 次實(shí)驗(yàn),取平均值作為識(shí)別結(jié)果,對(duì)比見表3.
表3 人臉識(shí)別算法的對(duì)比實(shí)驗(yàn)結(jié)果Tab.3 comparative experimental results of face recognition algorithms
由表2 和表3 中的實(shí)驗(yàn)結(jié)果可知,本文改進(jìn)的SIFT 識(shí)別算法不僅提高了識(shí)別率,還較大程度地降低了識(shí)別過程所消耗的時(shí)間,同時(shí)對(duì)于姿態(tài)變化、部分遮擋和光照變化等非理想的人臉圖像也有較好的識(shí)別率.
實(shí)驗(yàn)結(jié)果表明,改進(jìn)的人臉識(shí)別算法具有較好的識(shí)別率和識(shí)別速度:
(1)降低基于SIFT 關(guān)鍵點(diǎn)的人臉特征維數(shù);
(2)減少不同子區(qū)域間交叉匹配的復(fù)雜度;
(3)通過LTP 算法對(duì)人臉特征進(jìn)行描述,增加了特征對(duì)姿態(tài)變化、噪聲干擾以及光照變化的穩(wěn)定性.