吳曉天 鄭州地鐵集團(tuán)有限公司/大連交通大學(xué) 電氣信息學(xué)院 李林 張麗艷 大連交通大學(xué) 電氣信息學(xué)院
陳靜梅 鄭州地鐵集團(tuán)有限公司 杜雪婷 大連交通大學(xué) 電氣信息學(xué)院
近幾年,人臉識(shí)別算法研究一直是計(jì)算機(jī)視覺、圖像處理和模式識(shí)別等領(lǐng)域中的熱點(diǎn),在身份識(shí)別、公安刑偵、機(jī)器人和網(wǎng)絡(luò)驗(yàn)證等方面得到實(shí)際應(yīng)用,具有非常廣闊的應(yīng)用前景。人臉識(shí)別算法按處理的特征可分成兩大類:基于幾何特征和基于代數(shù)特征。目前人臉識(shí)別算法大多是基于代數(shù)特征的統(tǒng)計(jì)方法,如主成分分析法(PCA)、Fisher線形判別分析(FLD)、神經(jīng)網(wǎng)絡(luò)方法 和支持向量機(jī)。
1990年,Sirovich和Kirby提出利用Karhunen-Loeve變換來(lái)表征人臉信息。1991 年,Pentland和Turk 實(shí)現(xiàn)了PCA算法對(duì)正面人臉圖像的識(shí)別。PCA算法在特征提取和降維方面表現(xiàn)較好,但識(shí)別率低,不能滿足人們的需求。1936年,F(xiàn)isher提出了線性判別法(LDA)方法即FLD算法,其數(shù)學(xué)思想是從高維數(shù)據(jù)空間中提取出有限的低維特征,并能用這些特征進(jìn)行優(yōu)質(zhì)的判別。本文將兩種方法結(jié)合,給出了一種PCA+FLD的人臉識(shí)別方法。
PCA又稱為主成分分析法,是在數(shù)據(jù)空間提取一組低維向量來(lái)表達(dá)該數(shù)據(jù),通常包含兩部分:訓(xùn)練和識(shí)別。訓(xùn)練是利用訓(xùn)練圖像樣本數(shù)據(jù)來(lái)構(gòu)建特征臉;識(shí)別是將待識(shí)別圖像樣本數(shù)據(jù)投影到特征臉子空間上,并且與投影后的訓(xùn)練樣本相比較,本文采用歐式距離得出識(shí)別結(jié)果。如果有N個(gè)訓(xùn)練樣本,分了L類,其中每類K個(gè)樣本,需要測(cè)試有M個(gè)樣本,則訓(xùn)練樣本x可用公式(1)表示。
本文PCA+FLD算法是在PCA的基礎(chǔ)上采用低維特征區(qū)分開不同類別的樣本,并且還要讓相同類樣本更好的聚集,即選擇使類間離散度和類內(nèi)的離散度比值最大的特征(Fisher準(zhǔn)則)。類內(nèi)離散度為SW,類間離散度為SB分別如公式(2)(3)所示。
Fisher準(zhǔn)則是假設(shè)SW非奇異條件下,尋找使得最大的加權(quán)矩陣W。
其中SB的非零空間和SW的零空間的相交空間,該空間的辨識(shí)力最強(qiáng)。在降維過程中SW應(yīng)是非奇異的,否則也會(huì)丟失最好的辨識(shí)能力。FLD算法在人臉識(shí)別中的應(yīng)用并不順利,當(dāng)樣本數(shù)小樣本維數(shù)時(shí),就會(huì)出現(xiàn)小樣本問題,導(dǎo)致“PCA+FLD”方法主要分兩部分,首先利用PCA降維,再在得到的低維空間上用FLD算法進(jìn)行最佳分類?!癙CA+LDA”人臉識(shí)別的過程主要分訓(xùn)練和識(shí)別兩個(gè)階段。算法實(shí)現(xiàn)步驟包括以下13步。
5)確定維數(shù)。本文根據(jù)信息量來(lái)計(jì)算,只選取前n個(gè)最大特征值及其對(duì)應(yīng)的特征向量。本文先將特征值從大到小排列,若前n個(gè)值之和大于所有特征值之和的90%,則最小的n就是所確定的維數(shù)N。
7)降維:
8)按照公式(2)和(3)計(jì)算樣本類內(nèi)離散度矩陣SW和類間離散度矩陣。
10)利用公式(10),將所有訓(xùn)練樣本投影到t維子空間,得到最佳分類特征如公式(11)所示。這就是含有L類特征的人臉識(shí)別數(shù)據(jù)庫(kù)。
11)識(shí)別時(shí)用待識(shí)別的人臉圖像,利用公式(3)得到差值矩陣。對(duì)做兩次投影變換,得到最佳分類特征。
12) 用公式(12)計(jì)算最佳分類特征 與每類人臉的最小歐式距離。
本文采用樣本圖像源自O(shè)RL標(biāo)準(zhǔn)人臉庫(kù)40人的樣本人臉圖像。首先通過算法將圖像分辨率均歸一為112x92。接著對(duì)圖像灰度化處理,再采用直方圖均衡化處理以擴(kuò)大灰度范圍。大多算法將每個(gè)人的部分圖片作為訓(xùn)練樣本,剩下的作為檢測(cè)樣本,有時(shí)會(huì)出現(xiàn)某幅圖片誤分類,導(dǎo)致識(shí)別率降低。本文采用將全部400幅圖片都用來(lái)檢測(cè),增大檢測(cè)樣本基數(shù),使算法檢測(cè)結(jié)果更可信。改變訓(xùn)練和測(cè)試樣本的構(gòu)成,對(duì)樣本進(jìn)行多次檢測(cè),最后對(duì)檢測(cè)結(jié)果求平均值得到表1。從表1可知,訓(xùn)練樣本數(shù)大于3時(shí),基于PCA+FLD算法要比PCA算法的識(shí)別正確率高。隨訓(xùn)練樣本數(shù)增加,可以看出全部樣本因?yàn)闄z測(cè)樣本基數(shù)大識(shí)別率單調(diào)遞增,而部分樣本檢測(cè)結(jié)果有起伏波動(dòng)。
表1 部分樣本和全部樣本使用PCA算法和PCA+FLD算法的檢測(cè)結(jié)果
本文實(shí)現(xiàn)了PCA降維與FLD結(jié)合的算法應(yīng)用于人臉識(shí)別,仿真結(jié)果表明本文算法比PCA算法的識(shí)別率有明顯的提高,代價(jià)是本文算法在訓(xùn)練樣本少的時(shí)候識(shí)別效果較差。