褚新建
關(guān)鍵詞:人臉識別;卷積神經(jīng)網(wǎng)絡(luò);網(wǎng)絡(luò)結(jié)構(gòu);檢測精度
0 引言
人臉識別技術(shù)的關(guān)鍵就在于人臉檢測,作為重要研究方向廣泛應(yīng)用于模式識別和計算機識別領(lǐng)域[1]。人工設(shè)計特征作為傳統(tǒng)人臉檢測方法的重要監(jiān)測依據(jù)。目前由于人臉檢測算法表現(xiàn)出較高的檢測精度,因而應(yīng)用于多個領(lǐng)域[2]。人臉檢測算法結(jié)合深度學習在卷積神經(jīng)網(wǎng)絡(luò)得到廣泛應(yīng)用下逐漸獲取進一步發(fā)展,早已作為主流研究方法應(yīng)用于各領(lǐng)域,檢測準確率高于傳統(tǒng)方法,超過95%[3],拓展人臉識別研究具有重要的意義。
近年,人臉識別技術(shù)早已被Facebook、Google、商湯科技、曠世科技應(yīng)用融入到各個領(lǐng)域,尤其是在卷積神經(jīng)網(wǎng)絡(luò)不斷持續(xù)進步發(fā)展的趨勢[4]。很多挑戰(zhàn)和問題在實際應(yīng)用環(huán)節(jié)始終存在。盡管從識別準確度來看,在LFW 數(shù)據(jù)集中應(yīng)用多種方式均可獲取較佳結(jié)果,人眼識別能力也得到顯著提升,然而必須要選取大量訓練樣本訓練各深度模型,倘若研究機構(gòu)場所小型化或?qū)儆诟咝?,實現(xiàn)相對較為困難[5]。所以目前亟需解決的主要問題就在于怎樣訓練可滿足人臉匹配要求和快速區(qū)別人臉特征的性能佳且結(jié)構(gòu)簡單[6]。本文應(yīng)用卷積神經(jīng)網(wǎng)絡(luò)到人臉識別領(lǐng)域,并開展網(wǎng)絡(luò)訓練以及測試優(yōu)化分析。
1 基于卷積神經(jīng)網(wǎng)絡(luò)的人臉檢測算法
圖1 給出了AlexNet 網(wǎng)絡(luò)模型結(jié)構(gòu)圖。網(wǎng)絡(luò)模型中全連接層和卷積層分別為3 個和5 個,總共為8 層。將ReLU、局部響應(yīng)歸一化及池化層增加至前兩層后,將Dropout 和池化加入到第6、7 層,并在第8 層應(yīng)用softmax 分類器[7]。
將Dropout 技術(shù)引進全連接層中,這種情況下全連接層在AlexNet 網(wǎng)絡(luò)模型訓練整個流程中的連接概率為固定且以隨機稀疏方式為主,將部分神經(jīng)元丟棄,有利于網(wǎng)絡(luò)復雜度降低,參數(shù)計算量得到減少,過擬合現(xiàn)象也會在某種程度上減小[8]。需采取局部歸一化操作方式處理輸出結(jié)果,有效抑制局部神經(jīng)元,進而促進網(wǎng)絡(luò)泛化能力的進一步強化。
網(wǎng)絡(luò)模型算量與卷積核結(jié)構(gòu)尺寸大小相關(guān),感受也隨著卷積核尺寸增大而擴大,盡管圖片特征信息提取效率有效增加,但計算參數(shù)急劇增加。小尺寸的卷積核被更多研究學者應(yīng)用,可有效增加模型的寬度和深度。網(wǎng)絡(luò)參數(shù)模型訓練時長將得到顯著減少,同時還有利于降低第一層的參數(shù)計算量。
在人臉檢測時應(yīng)用本文提出的網(wǎng)絡(luò)模型,需提前區(qū)分人臉及非人臉區(qū)域,為確保降低神經(jīng)網(wǎng)絡(luò)參數(shù),將第2 個全連接層刪除,僅將第1、第3 個全連接層保留。按照1×1 卷積核尺寸標準修改第1 個全連接層,用全連接神經(jīng)網(wǎng)絡(luò)替代原有神經(jīng)網(wǎng)絡(luò),任意大小的尺寸均可輸入卷積神經(jīng)網(wǎng)絡(luò),人臉分類選用第2 個全連接層。本文所用的網(wǎng)絡(luò)結(jié)構(gòu)參數(shù)見表1 所示。本文所用的網(wǎng)絡(luò)結(jié)構(gòu)邏輯見圖2 所示。
2 實驗結(jié)果分析
2.1 數(shù)據(jù)集
作為評測數(shù)據(jù)集,F(xiàn)DDB 常用于人臉檢測?;叶群筒噬珗D共2 845 張圖片均包含在數(shù)據(jù)集中,共有5 171人臉標注數(shù)據(jù),人臉拍攝環(huán)境為自然狀況。測試集挑戰(zhàn)性較高,同時低分辨率、遮擋等情況都包含在內(nèi),拍攝環(huán)境與日常應(yīng)用場景都十分貼近。
作為人臉檢測的大型基準數(shù)據(jù)集,WIDERFace 由香港中文大學建立而成。采用手工標注數(shù)據(jù)集,人臉總數(shù)為4 萬張,光照及遮擋等不同場景下人臉圖像變化情況均包含在內(nèi)。
2.2 網(wǎng)絡(luò)模型訓練設(shè)置
本文在訓練改進卷積神經(jīng)網(wǎng)絡(luò)時,將Tensorfl ow 深度學習開源平臺作為重要應(yīng)用工具,選取NVIDIAGTX1050 型GPU 加速,訓練數(shù)據(jù)用SSD 固態(tài)硬盤緩存,完成CUDA9.0GPU 并行計算庫的安裝。
網(wǎng)絡(luò)訓練基于網(wǎng)絡(luò)參數(shù)完成,同時將0 作為卷積層學習率,訓練的卷積層為候選框生成網(wǎng)絡(luò)特有,為確保能實現(xiàn)卷積神經(jīng)網(wǎng)絡(luò)中人臉分類及候選框生成網(wǎng)絡(luò)間的共享,最后環(huán)節(jié)需要微調(diào)人臉分類網(wǎng)絡(luò)。
2.3 實驗結(jié)果分析
在人臉檢測中對本文改進的模型結(jié)構(gòu)性能進行驗證,選取測試的數(shù)據(jù)集為FDDB 人臉數(shù)據(jù)集。召回率要求在實際使用過程中的嚴格程度更深,所以評估本算法應(yīng)用的評價指標以FDDB 為主,F(xiàn)alsepositive 表示橫軸,即FP,誤檢數(shù)為檢測出人臉但實際非人臉的數(shù)量,Truepositiverate 表示縱軸,即recall 召回率。如圖3 所示,為測試曲線圖。
本文對比了CascadeCNN 及MTCNN 等較為經(jīng)典的人臉檢測算法,測試評價方法均選用FDDB 數(shù)據(jù)庫實現(xiàn),另外還對比了各檢測方法所耗費的時長,下圖為各檢測算法對應(yīng)的數(shù)據(jù)結(jié)果。
算法比較結(jié)果見表2。其中,fps 表示檢測速度,即每秒傳輸?shù)膸瑪?shù)。通常算法檢測速度隨幀數(shù)增長而加快。本文主要是在GPU 上完成檢測速度的統(tǒng)一測試。與CascadeCNN、MTCNN,兩種算法相比,本文算法表現(xiàn)出較高的召回率,對比表中數(shù)據(jù)得出準確率最高,相比于MTCNN 和CascadeCNN 檢測速度較低,人臉簽到系統(tǒng)的基礎(chǔ)需求得到滿足。
為了確保人臉檢測算法多個特征能更直觀且清晰地顯示,在開展人臉檢測驗證前采用隨機方式挑選圖片,圖4 為檢測具體結(jié)果。側(cè)臉及戴頭盔遮擋的單人照片依次如圖(a)(b)所示,通過觀察對比得出,檢測人臉圖片的準確度及清晰度均相對較高,這意味著對于部分遮擋人臉或側(cè)臉采用本文算法展示的魯棒性較佳。
3 結(jié)束語
本文開展基于卷積神經(jīng)網(wǎng)絡(luò)的人臉識別檢測分析,得到以下有益結(jié)果:
1)本文算法表現(xiàn)出較高的召回率,人臉簽到系統(tǒng)的基礎(chǔ)需求得到滿足。
2)對于部分遮擋人臉或側(cè)臉采用本文算法展示的魯棒性較佳。