王斌
(山西建設投資集團有限公司,太原030006)
隨著計算機視覺的發(fā)展,圖像/視頻中的人臉識別廣泛用于身份驗證、公共交通、辦公場所等方面,在現代化社會中發(fā)揮著重要的作用,已經成為人工智能與機器視覺的研究和應用熱點[1,2]。人臉識別技術是一種基于人類面部特征的用于個人身份識別的一種技術,在初期階段,主要方法是利用人臉各部分比例特征作為參數,建立人臉識別系統(tǒng)的原型。隨著信息技術的發(fā)展,對信息的收集和分析變得不那么復雜,人臉識別的發(fā)展方向也逐步轉變?yōu)橐哉麖埬槥槟P停⒉捎脧椥云ヅ?、灰度處理和形狀分離等方法進行處理。目前,人臉識別的代表方法有Eigenface、SphereFace、Fisherface 等,但是特征仍需要人工提取,送入分類器中進行識別的過程比較復雜,特別是遇到角度變化、表情變化、遮擋等問題時識別效率將有所下降。卷積神經網絡在圖像、語音等領域發(fā)展快速,不但可以自適應提取面部特征,在速度和準確率上相較傳統(tǒng)的機器學習的方法都有出色的表現。本文采用遷移學習優(yōu)化SSD 網絡模型訓練過程,改進的SSD 網絡模型對不同人臉目標進行識別,識別效率較高。
深度卷積神經網絡使得圖像的識別率相比傳統(tǒng)的識別方法有了長足的進步,由于直接對原始數據進行學習,對比非深度方法,它能夠自動地提取更具表現力的特征,以及滿足了實際應用中的端到端的需求。從AlexNet 的8 層網絡到VGG 的16 層網絡,更深的卷積網絡整合了不同層次的特征。相關研究表明,可以通過增加網絡層數豐富特征,Simonyan 等證明識別的精度隨著網絡深度的加深而提高,然而反向傳播時梯度爆炸導致簡單的堆疊卷積層并不能順利地訓練網絡。有研究通過dropout 技術和批量歸一化使得有限的深層能夠繼續(xù)訓練,但在一定的訓練迭代之后出現精度的飽和導致精度下降問題依然存在。
圖1 SSD 網絡模型結構
SSD(Single Shot MultiBox Detector)是Wei Liu 于2016年在ECCV 上提出的一種目標檢測算法,與Faster RCNN 相比,該算法沒有生成proposal 的過程,極大提高了檢測速度。其基本結構如圖1所示。
SSD 網絡在基礎網絡部分采用了VGG16 卷積結構直接作用特征圖預測目標類別和外圍框。通過網絡主體結構對特征進行提取,在各卷積層中進行卷積與下采樣處理。輸入的圖像尺寸通常為300*300。網絡結構在訓練的過程中會產生損失量,定義損失函數在訓練過程中具有評估網絡結構優(yōu)劣的作用,所對應的損失函數包括位置損失函數Lloc和分類損失函數Lconf,損失函數如式(1)所示:
數據對于神經網絡的訓練至關重要。一般來說,原始數據量越大,訓練出來的模型精度越高,泛化能力越強。但是,做數據標注費時費力,往往不容易收集太多。并且當在一定數據集上訓練好一個卷積神經網絡后,變換了對應的數據又要費時費力地進行新任務的模型訓練,訓練時間長、收斂速度慢。
遷移學習(Transfer learning)是一種機器學習方法,就是把為任務A 開發(fā)的模型作為初始點,把已學訓練好的模型參數遷移到為任務B 開發(fā)模型的過程中。
考慮到大部分數據或任務是存在相關性的,本文將ORL標準人臉庫預訓練的網絡權重參數作為SSD 檢測框架的初始權重模型,通過遷移學習將已經學到的模型參數分享給SSD網絡模型,共享底層結構權值參數,然后修改SSD 模型的頂層網絡結構進行微調,以此克服不同人臉數據之間的差異性,模型訓練快速地收斂于鄰域很小的損失值。該方法可以加快并優(yōu)化模型的學習效率,降低隨機設置初始權值帶來的網絡不穩(wěn)定性,避免網絡從零學習的盲目性。
針對人臉識別過程中,會出現斜側、遮擋等問題,本文利用已有的標準人臉庫,對數據集進行了水平翻轉、裁剪和顏色抖動等操作,制造出更多的圖片進行數據增強應用于網絡遷移學習的過程,進而提高改進SSD 網絡的精度和泛化能力。
人臉識別的模型建立過程中,為了提高模型的泛化能力,提高人臉識別的準確率和訓練速度,本文設計的模型性能提升方法主要包括3 點:①增加卷積模型深度;②標準人臉庫訓練SSD 模型基礎上,進行遷移學習,降低訓練時間;③結合人臉斜側、遮擋對視頻窗口的實際可能發(fā)生的情況,對數據訓練集進行水平翻轉、裁剪和顏色抖動等操作,增強網絡訓練數據。
人臉識別仿真實驗中,本文基于Tensorflow 深度學習框架,首先配置訓練環(huán)境,選擇輸入圖像參數,網絡深度等參數進行模型訓練?;谶w移學習的原始數據預訓練得到的超參數:Learning momentum 設置為0.9,regularization parameter 設置為0.02,圖像批處理大小設置為16,learning rate 設置為10-3 防止過擬合。
將本文提出的基于遷移學習的SSD 網絡進行建模訓練后,應用于測試集進行識別結果檢測。圖2(a)和(b)給出了人臉識別的測試原圖1和原圖2,對應的識別結果分別為圖2(c)和(d),并且圖中給出了人臉準確率、處理時長及每秒可處理的幀數??梢钥闯?,當圖像中的人臉有較大的表情動作或者人臉比例較小的情況下,改進后的SSD 能夠快速準確識別人的正臉。
圖2 基于改進SSD 人臉識別原圖及結果圖
圖3給出了未經過數據增強的SSD 模型及經過數據增強的改進的SSD 模型對側臉的識別對比結果圖。如圖3(a)中人臉向左邊傾斜,左右不對稱,左臉部分面積小。圖3(b)為未經過數據增強的SSD 識別結果,圖3(c)為經過數據增強后的改進SSD 識別結果。由圖中數據可以明顯看出未經過數據增強的SSD 模型識別對側臉的覆蓋率差,識別準確率相對更低。反之,經過數據增強后的改進SSD 模型對微側臉的模型具有更好的覆蓋率和準確率。
圖3 數據增強的側臉識別結果對比
圖4(a)和(b)給出了由于人物動作導致人臉圖像不完整、出現輕微遮擋的原圖1和原圖2,圖4(c)、(d)為識別后的圖像,由結果圖可以看出,改進后的SSD 模型對有輕微遮擋的人臉識別效果較好,且識別速度較快、魯棒性強。
圖4 基于改進SSD 人臉識別模型識別輕微遮擋圖像
為了對本文提出的改進SSD 模型進行客觀評價,采用指標查準率P(%)和召回率R(%)進行評價。其中P 表示檢測框正確的比例,如式(2)所示,R 表示正確預測框在所有預測框中的比例,如式(3)所示。
mAP(mean average precision)表示目標查準率基礎上對召回率積分的平均,本文的改進SSD 模型的P-R 曲線如圖5所示,由圖可見,本文的SSD 網絡識別精度較高。
圖5 基于改進SSD 模型P-R 曲線圖
人臉識別是人工智能應用的熱門問題,而卷積神經網絡則是圖像識別領域新興的有效方法。本文以人臉識別為研究內容,在經典SSD 模型的基礎上,運用遷移學習的方法,將標準數據集下的權重移植到SSD 模型訓練中作為初始權重模型,并采用數據加強和增加卷積模型深度的方法進一步提高模型檢測精度和準確性,仿真實驗結果表明,本文SSD 模型可以有效識別多姿態(tài)、多角度、輕微遮擋的人臉目標,準確率較高、識別速度快、魯棒性強。