羅燦峰
(武漢傳媒學(xué)院,湖北 武漢 430205)
人臉識(shí)別技術(shù)通過(guò)圖像采集設(shè)備采集目標(biāo)人臉圖像,并利用相應(yīng)的算法識(shí)別目標(biāo)身份。與其他生物特征識(shí)別技術(shù)相比,人臉識(shí)別具有識(shí)別過(guò)程友好方便、操作簡(jiǎn)便、多人同時(shí)識(shí)別等優(yōu)點(diǎn)。人臉識(shí)別技術(shù)具有廣泛的應(yīng)用場(chǎng)景。除傳統(tǒng)的門禁系統(tǒng)外,還可以與視頻監(jiān)控系統(tǒng)、手機(jī)解鎖、計(jì)算機(jī)登錄身份認(rèn)證等結(jié)合使用。尤其是目前,公安安全技術(shù)要求最為迫切。人臉識(shí)別技術(shù)可用于協(xié)助公安機(jī)關(guān)解決案件。因此,如果人臉識(shí)別領(lǐng)域能夠突破其技術(shù)瓶頸,將充分挖掘其巨大的潛在市場(chǎng)價(jià)值。
在整個(gè)人臉識(shí)別過(guò)程中,除了人臉的檢測(cè)和對(duì)齊外,最重要的是人臉特征的提取。不同的方法可以不同地提取特征。卷積神經(jīng)網(wǎng)絡(luò)模型主要是基于監(jiān)督學(xué)習(xí),獲得具有類間差異的人臉特征向量,將不同的人臉圖像分為不同的類別,訓(xùn)練網(wǎng)絡(luò)利用交叉熵?fù)p失函數(shù)進(jìn)行多分類任務(wù)學(xué)習(xí),最終去除了Softmax層,采用全連接。SoftMax前一層的部分。層的輸出用作面部特征表示。
這兩種算法都是通過(guò)深度卷積網(wǎng)絡(luò)從原始圖像數(shù)據(jù)中自動(dòng)提取特征。最后,在人臉識(shí)別中,常用余弦相似度和歐氏距離來(lái)度量不同人臉之間的相似度。對(duì)于人臉檢索任務(wù),直接對(duì)查詢圖像與數(shù)據(jù)庫(kù)中圖像的相似性進(jìn)行排序輸出。人臉驗(yàn)證的任務(wù)還可以訓(xùn)練二元分類器確定查詢圖像是否是同一個(gè)人的相似性閾值。
1.基本模型結(jié)構(gòu)
卷積層使用連續(xù)的小尺寸卷積核代替單個(gè)大尺寸的卷積核,全部使用 3×3 大小,步長(zhǎng)設(shè)定為1,通過(guò)零填充保持輸出數(shù)據(jù)體的尺寸與輸入相同。相比單個(gè)大尺寸的卷積核,連續(xù)小尺寸卷積核可以達(dá)到同樣的提取效果,且由于層數(shù)增加,經(jīng)激活函數(shù)進(jìn)一步增加了非線性,增強(qiáng)模型表達(dá)力。
在訓(xùn)練過(guò)程中在前兩個(gè)全連接層后都增加Dropout層,Dropout 層的作用在于按照一定比例隨機(jī)暫時(shí)舍棄部分該層的神經(jīng)元,這樣使得在使用批梯度下降進(jìn)行網(wǎng)絡(luò)訓(xùn)練時(shí),每次訓(xùn)練的網(wǎng)絡(luò)結(jié)構(gòu)都不相同,在更新權(quán)重時(shí)被舍棄的神經(jīng)元的權(quán)重就保持不變。
2.相似性度量
通過(guò)訓(xùn)練完成的卷積網(wǎng)絡(luò)模型提取出人臉特征向量,在應(yīng)用于最終的人臉識(shí)別時(shí),主要通過(guò)比較兩個(gè)人臉特征向量之間的相似度判定人物身份。常用的相似性度量方法包括歐氏距離、余弦相似度等,本文所提出的方法最終都選擇使用余弦相似度比較人臉之間的相似程度。
余弦相似度計(jì)算的是兩個(gè)向量間夾角的余弦值,公式定義如下式(2-1):
余弦相似度的值范圍在-1 到 1 之間,兩特征向量方向一致時(shí)夾角較小,相似度趨于 1,說(shuō)明兩個(gè)特征越相似,更可能是同一人。相反的,夾角越大相似度越小,說(shuō)明屬于不同人。
1.CACD數(shù)據(jù)集及圖像預(yù)處理
CACD數(shù)據(jù)集由Chen等在2014年公開(kāi),是當(dāng)時(shí)數(shù)據(jù)量最大的跨年齡變化人臉數(shù)據(jù)集。在收集該數(shù)據(jù)集時(shí),研究人員首先考慮了兩點(diǎn)重要的原則,一是數(shù)據(jù)集中的人需要包含不同年齡,二是這些人的面部圖片能夠通過(guò)互聯(lián)網(wǎng)方便、大量地采集。鑒于此研究人員選擇了IMDb.com上不同年齡的名人作為待收集的對(duì)象,最終從1951年至1990年出生的名人中,每年選取排名前50位,一共包含了2000位名人。然后通過(guò)Google搜索這些名人的圖片,以名人“名字+年份”作為關(guān)鍵詞。每個(gè)人采集2009年至2018年的圖片,因而年齡跨度為十年。但此方法獲取的圖片也包含大量噪聲影響,如檢索到的圖片包含多人或某些名人在有的年份公開(kāi)的圖片很少等,研究人員僅對(duì)測(cè)試集數(shù)據(jù)進(jìn)行了人工檢驗(yàn)。在對(duì)所有收集的圖片進(jìn)行人臉檢測(cè)、去重后,最終CACD數(shù)據(jù)集得到了年齡在16到62歲的共163446張人臉圖片,其中20-60歲的圖片居多,平均每人有80張左右的圖片數(shù)據(jù)。
CACD 數(shù)據(jù)集包含足夠的數(shù)據(jù)量,且每個(gè)人包含的圖片數(shù)較為均勻,可用于深度卷積神經(jīng)網(wǎng)絡(luò)模型的訓(xùn)練,為提高模型的識(shí)別效果,在訓(xùn)練前還需要對(duì)圖像數(shù)據(jù)進(jìn)行一些預(yù)處理操作。
為進(jìn)一步增強(qiáng)模型的泛化能力,在訓(xùn)練過(guò)程中使用圖像增強(qiáng)技術(shù)構(gòu)建更多的訓(xùn)練樣本,更有效抑制過(guò)擬合。對(duì)于訓(xùn)練集數(shù)據(jù)主要采取兩種圖像增強(qiáng)技術(shù):水平翻轉(zhuǎn)和隨機(jī)裁剪。由于人臉具有一定的對(duì)稱性,通過(guò)水平翻轉(zhuǎn)圖像可以使訓(xùn)練得到的模型對(duì)同一人不同角度具有一定魯棒性。
經(jīng)檢測(cè)對(duì)齊處理后人臉區(qū)域的圖像大小為 256×256,進(jìn)一步通過(guò)隨機(jī)裁剪至224×224 大小的圖片作為最終訓(xùn)練的輸入,可以成倍增加訓(xùn)練樣本數(shù)量,促使網(wǎng)絡(luò)模型對(duì)部分位置的平移變換甚至是面部遮擋不敏感,有效提升模型的泛化能力。
2.實(shí)驗(yàn)結(jié)果與分析
本節(jié)實(shí)驗(yàn)選擇40年中每年排名3至5的名人共120名作為測(cè)試集,以這120人在2013年的圖片作為查詢圖片,另外將剩余圖片分為2004至2006年、2007至2009年、2010至2012年三組,作為待檢索的數(shù)據(jù)庫(kù)圖片,分別測(cè)試在不同年齡區(qū)間上的檢索效果。
(1)批規(guī)范化的影響
本小節(jié)主要通過(guò)實(shí)驗(yàn)比較批規(guī)范層對(duì)深度網(wǎng)絡(luò)訓(xùn)練的影響,一個(gè)模型ModelA 保持原狀,一個(gè)模型 ModelB 在卷積層和全連接層后增加批規(guī)范化層,使用相同的 SGD 優(yōu)化算法及0.1的學(xué)習(xí)率,在CACD數(shù)據(jù)集上訓(xùn)練多分類模型。
圖2-1 兩種網(wǎng)絡(luò)模型分類loss曲線
(a)訓(xùn)練集 loss 曲線;(b)驗(yàn)證集 loss 曲線
圖2-1所示為兩個(gè)模型的loss曲線,可以明顯發(fā)現(xiàn)批規(guī)范化操作加速了模型的收斂,在前期 loss 值能夠更加快速下降,最終也更傾向收斂于較低值。深層的網(wǎng)絡(luò)結(jié)構(gòu)給梯度的更新帶來(lái)了困難,實(shí)驗(yàn)證明批規(guī)范化操作確實(shí)能有效解決這一問(wèn)題。從在CACD測(cè)試集上的檢索效果看,選取 ModelA 訓(xùn)練集迭代 20 輪得到的模型與 ModelB 迭代 6 輪得到的模型比較第一識(shí)別率。ModelA 在不同年份數(shù)據(jù)庫(kù)上的第一識(shí)別率分別為 82.4%、76.5%、74.46%,ModelB 則分別為 88.3%、86%、82.6%,直觀地體現(xiàn)了兩種模型提取的特征間的差距。
(2)特征維數(shù)影響
基于深度卷積神經(jīng)網(wǎng)絡(luò)的模型以倒數(shù)第二層全連接層的輸出作為人臉特征向量,然后通過(guò)余弦相似度計(jì)算兩個(gè)人臉圖像間的相似性,因而訓(xùn)練得到的特征維數(shù)會(huì)對(duì)相似性計(jì)算產(chǎn)生一定的影響。高維特征向量在進(jìn)行有監(jiān)督分類訓(xùn)練時(shí),能夠更快達(dá)到收斂,但向量相對(duì)稀疏且可能包含更多噪聲;低維的特征向量相對(duì)更緊密,但訓(xùn)練中準(zhǔn)確率提升更緩慢。
在同樣采取 SGD優(yōu)化算法進(jìn)行模型訓(xùn)練的條件下,特征維數(shù)選擇128、256、512、1024 進(jìn)行實(shí)驗(yàn)。圖2-2給出了不同特征維數(shù)下在各年份區(qū)間數(shù)據(jù)庫(kù)檢索的MAP曲線,由圖中可以看出更高維的特征在檢索準(zhǔn)確率上反而效果更差,最高維的1024維特征在各年份區(qū)間上的MAP值都是最低的。隨著特征向量維數(shù)的逐步降低,檢索的MAP值均有一定的提升,特征維數(shù)為256時(shí)提升較為明顯,在相隔最久的2004至2006的數(shù)據(jù)庫(kù)上檢索準(zhǔn)確率均值達(dá)到了63.42%。
圖2-2 不同特征維數(shù)下檢索 MAP 曲線
在進(jìn)一步降低特征維數(shù)至 128 維時(shí),MAP 值沒(méi)有繼續(xù)提升且比 512 維的模型效果還稍有降低,可能是由于維數(shù)過(guò)低,在進(jìn)行 1584 類的多分類任務(wù)模型訓(xùn)練時(shí),未能很有效將特征壓縮至 128 維,觀察訓(xùn)練過(guò)程中驗(yàn)證集loss 曲線也可見(jiàn)趨于收斂時(shí)的 loss 值相對(duì)較大。
人臉識(shí)別因其廣泛的實(shí)際應(yīng)用場(chǎng)景而引起了眾多研究者的關(guān)注。同時(shí),人臉識(shí)別的準(zhǔn)確性往往受到諸多因素的影響。本文針對(duì)年齡變化引起的認(rèn)知問(wèn)題,研究了基于深度學(xué)習(xí)的認(rèn)知方法在這一問(wèn)題上的有效性。利用Web技術(shù)設(shè)計(jì)并實(shí)現(xiàn)了一個(gè)人臉識(shí)別應(yīng)用程序。介紹了該應(yīng)用程序的設(shè)計(jì)目標(biāo)和開(kāi)發(fā)環(huán)境。詳細(xì)介紹了應(yīng)用程序各模塊的實(shí)現(xiàn)方法,并對(duì)其基本功能進(jìn)行了測(cè)試。該應(yīng)用具有輕便、跨平臺(tái)的特點(diǎn),能夠滿足人臉識(shí)別的日常需要。