摘要:在控制科學(xué)與工程領(lǐng)域,局部遮擋人臉圖像識別因其在復(fù)雜場景中的應(yīng)用需求而備受關(guān)注。本文提出一種基于深度學(xué)習(xí)的識別方法,詳細設(shè)計VGG算法與ResNet算法結(jié)合的RepVGG混合算法后,闡述了RepVGG的通道注意力機制和SoftPool池化改進的具體過程,實現(xiàn)了對局部遮擋人臉圖像的高效識別。此外,通過本文研究方法與傳統(tǒng)方法對比的仿真實驗,驗證了本文方法的優(yōu)越性和魯棒性。
關(guān)鍵詞:局部遮擋人臉圖像識別;深度學(xué)習(xí);卷積神經(jīng)網(wǎng)絡(luò)
引言
局部遮擋的人臉圖像識別在身份驗證、監(jiān)控和安全等領(lǐng)域中具有重要應(yīng)用價值。由于遮擋會導(dǎo)致特征丟失和誤識別,傳統(tǒng)方法在處理這類復(fù)雜場景時表現(xiàn)欠佳。隨著深度學(xué)習(xí)技術(shù)的發(fā)展,通過卷積神經(jīng)網(wǎng)絡(luò)(CNN)對圖像進行多層次特征提取,結(jié)合注意力機制與池化改進,能夠顯著提升對遮擋區(qū)域的識別精度[1]。因此,本文針對局部遮擋人臉圖像,提出了一種基于深度學(xué)習(xí)的識別方法。
1. 局部遮擋人臉圖像識別中的深度學(xué)習(xí)算法設(shè)計
1.1 VGG卷積神經(jīng)網(wǎng)絡(luò)
在局部遮擋人臉圖像識別中,VGG卷積神經(jīng)網(wǎng)絡(luò)能夠以逐層提取特征的方式,有效應(yīng)對人臉圖像中的遮擋問題,準確識別出目標人物[2]。VGG卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)主要由13層卷積層、5層池化層、3層全連接層組成。首先,輸入224×224×3的人臉圖像數(shù)據(jù)進行預(yù)處理后進入網(wǎng)絡(luò)。第一層卷積層對輸入圖像進行224×224×64的卷積操作,采用3×3的卷積核,步長為1,并在每次卷積后使用ReLU激活函數(shù)。這一過程確保了高維度特征的提取,也保留了原始圖像的空間分辨率。接下來的卷積層逐步提取更高層次的特征,在每一層卷積操作后都會應(yīng)用最大池化(max pooling)操作,以減少數(shù)據(jù)維度,提高計算效率。經(jīng)過2×2的池化核將112×112×128的特征圖降維為56×56×256,進一步提取出更具代表性的特征。在全連接層中,特征圖被展平后進入4096個神經(jīng)元的全連接層,并由ReLU激活函數(shù)處理,最終將高維特征映射到1000維的輸出空間,使用Softmax函數(shù)完成分類。
1.2 ResNet卷積神經(jīng)網(wǎng)絡(luò)
ResNet卷積神經(jīng)網(wǎng)絡(luò)因其獨特的殘差結(jié)構(gòu),具備強大的特征提取與識別能力,尤其在處理局部遮擋問題時表現(xiàn)出色[3]。ResNet的核心思想是引入殘差單元解決深度網(wǎng)絡(luò)中的梯度消失問題。在ResNet結(jié)構(gòu)中輸入特征維度為64-d,由兩個3×3的卷積層結(jié)合ReLU激活函數(shù),來提取深度特征。卷積后,輸入的初始特征與卷積層輸出直接進行逐元素相加,形成輸出特征。這種“恒等映射”的設(shè)計,使得網(wǎng)絡(luò)在訓(xùn)練過程中能夠更加高效地保留原始特征,避免梯度消失問題。而另一種ResNet結(jié)構(gòu)則增加了1×1的卷積層,用于升維和降維,以256-d的高維度特征處理更復(fù)雜的輸入數(shù)據(jù)。在實際實現(xiàn)中,ResNet-50結(jié)構(gòu)包含多個殘差單元,確保了網(wǎng)絡(luò)在處理局部遮擋人臉圖像時能夠準確提取到有效特征,并規(guī)避因遮擋帶來的信息丟失。
1.3 RepVGG局部有遮擋人臉識別混合算法設(shè)計
1.3.1 RepVGG技術(shù)原理
RepVGG作為一種全新的卷積神經(jīng)網(wǎng)絡(luò)架構(gòu),融合了VGG和ResNet的優(yōu)勢,在處理局部遮擋問題時展現(xiàn)出了卓越的性能。VGG卷積神經(jīng)網(wǎng)絡(luò)雖然在簡單性和推理效率上具有優(yōu)勢,但其缺乏深度信息的有效利用,導(dǎo)致對復(fù)雜圖像的特征提取能力有限。而ResNet引入殘差結(jié)構(gòu)極大地緩解了梯度消失問題,但其網(wǎng)絡(luò)結(jié)構(gòu)復(fù)雜,計算開銷較大。因此,結(jié)合兩者的優(yōu)勢,本研究提出了高效且具有深度學(xué)習(xí)能力的RepVGG混合算法。RepVGG將卷積層和batch normalization(BN)層結(jié)合后形成了簡化的殘差結(jié)構(gòu)。在訓(xùn)練階段,RepVGG利用多個并行的卷積路徑(3×3、1×1卷積層)和BN層來增強模型的表達能力,并采用ReLU激活函數(shù)對輸出特征進行非線性變換。在推理階段,這些并行路徑經(jīng)過參數(shù)融合策略后,轉(zhuǎn)換為一個等效的3×3卷積層,從而大大減少了計算開銷,提高了推理效率。
1.3.2 RepVGG通道注意力機制模型
引入通道注意力機制后,RepVGG模型顯著提升了對局部遮擋特征的捕捉能力,有效提高了模型的整體識別精度,特別是在處理復(fù)雜場景的人臉識別任務(wù)中表現(xiàn)尤為出色。RepVGG通道注意力機制由自適應(yīng)地調(diào)整通道間的權(quán)重分配,強化了重要特征的表達,也抑制了無關(guān)或冗余的特征。
在具體實現(xiàn)中,輸入特征圖X的尺寸為C'、H'、W',首先由變換函數(shù)Ftr將其映射到尺寸為C、H、W的特征圖U。此處的變換函數(shù)Ftr為卷積操作公式為
(1)
式中,Wconv表示卷積核參數(shù),*表示卷積運算。接下來,特征圖U由全局平均池化(global average pooling, GAP)函數(shù)Fsq壓縮為C×1×1的向量,計算公式為
(2)
式中,V為壓縮后的特征向量,i和j為特征圖的空間位置索引。此向量再經(jīng)過兩個全連接層(fully connected layers),產(chǎn)生一個長度為C的權(quán)重向量Wch該過程可以表示為
(3)
式中,W1和W2分別為全連接層的權(quán)重矩陣,δ(·)為ReLU激活函數(shù),σ(·)為Sigmoid激活函數(shù)。最后,注意力機制將Wch重新作用到特征圖U的每個通道上,得到增強后的特征圖S,即
(4)
式中,⊙表示逐通道的權(quán)重乘法操作。
1.3.3 SoftPool池化方法改進RepVGG
在局部遮擋人臉圖像識別中,為進一步提升RepVGG模型的特征提取和抗干擾能力,引入了SoftPool池化方法對傳統(tǒng)池化操作進行了優(yōu)化和改進[4]。SoftPool池化方法能夠保留更多特征信息,同時抑制無關(guān)或噪聲特征,使得模型在處理復(fù)雜場景時更加魯棒[5]。圖1展示了ECA通道注意力模塊結(jié)合SoftPool池化方法的實現(xiàn)過程。在前向傳播過程中,特征圖a經(jīng)過SoftPool池化,得到池化后的特征圖,公式表示為
(5)
式中,ai表示第i個位置的特征值,aj表示第j個位置的特征值,權(quán)重Wj根據(jù)Softmax函數(shù)計算,具體公式為
(6)
式中,R為特征圖的鄰域范圍,eaj為指數(shù)運算,旨在強調(diào)重要特征值并抑制無關(guān)特征。池化后的特征圖傳遞至ECA模塊,進一步計算通道注意力權(quán)重αi并將其與對應(yīng)的特征值相乘,得到加權(quán)后的特征圖a,具體公式為
(7)
在反向傳播過程中,SoftPool池化方法對梯度的傳播進行了優(yōu)化,避免了傳統(tǒng)池化方法中信息損失過大的問題[6]。SoftPool池化的梯度反向傳播公式為
(8)
式中,是特征圖ai對池化后特征圖的偏導(dǎo)數(shù)。R是鄰域范圍,表示特征圖a中的一個局部區(qū)域,即3×3的矩形區(qū)域。
2. 基于深度學(xué)習(xí)的局部遮擋人臉圖像識別
2.1 人臉圖像預(yù)處理
首先,利用高斯濾波器對輸入圖像進行去噪處理,有效去除圖像中的隨機噪聲,使得后續(xù)特征提取更加穩(wěn)定[7]。其次,采用直方圖均衡化方法增強圖像對比度,使人臉特征更加突出。在處理遮擋問題時,采用了基于多尺度Retinex的圖像增強算法,該算法能夠在保留圖像細節(jié)的同時,增強局部特征,使得遮擋區(qū)域的信息更加明顯[8]。在實現(xiàn)過程中,本文選用的設(shè)備為NVIDIA A100 GPU,處理圖像分辨率為1080p,采用的高斯濾波器核大小為5×5,標準差設(shè)定為1.5。對于直方圖均衡化處理,采用自適應(yīng)均衡化(CLAHE)方法,以避免過度增強帶來的偽影。多尺度Retinex算法中的尺度參數(shù)設(shè)置為15、80和250,達到對不同尺度的遮擋進行有效處理。經(jīng)過上述預(yù)處理步驟,圖像質(zhì)量明顯改善,特別是在人臉的細節(jié)特征上,預(yù)處理后的圖像為后續(xù)的深度學(xué)習(xí)識別提供了更高質(zhì)量的輸入。
2.2 人臉圖像特征提取
預(yù)處理后的圖像將輸入到VGG中進行初步特征提取。此階段主要聚焦于提取圖像中邊緣和紋理信息等低層次特征[9]。經(jīng)過一系列的3×3卷積核操作,初步捕捉圖像中的基礎(chǔ)結(jié)構(gòu),并應(yīng)用ReLU激活函數(shù),增強特征表達的非線性能力。此步驟確保圖像的基本信息在后續(xù)的深層處理過程中仍能得到有效保留。經(jīng)過初步處理的特征圖會被傳遞至ResNet。ResNet的殘差模塊專注于更深層次特征的提取,使用跳躍連接的方式緩解梯度消失問題。該部分網(wǎng)絡(luò)的殘差結(jié)構(gòu)保證了信息的順利傳遞和高效學(xué)習(xí),特別是在存在遮擋的情況下,也能夠更好地挖掘出圖像中的有效特征。最后,特征圖進入RepVGG進行進一步處理。RepVGG根據(jù)其獨特的卷積路徑與SoftPool池化操作,對特征進行精細化處理。SoftPool池化則自適應(yīng)地調(diào)整權(quán)重,重點保留對識別任務(wù)至關(guān)重要的特征,也能減少噪聲的干擾。與此同步,RepVGG的通道注意力機制也會計算各通道的重要性,并動態(tài)調(diào)整權(quán)重,從而進一步強化關(guān)鍵特征,確保處理局部遮擋人臉圖像時能夠提取到最具辨識度的特征[10]。
3. 仿真實驗與結(jié)果分析
3.1 實驗環(huán)境
為驗證基于深度學(xué)習(xí)的局部遮擋人臉圖像識別方法的有效性,本研究在高性能計算平臺上進行了仿真實驗。實驗環(huán)境選用NVIDIA A100 GPU服務(wù)器,該服務(wù)器配備了40GB的顯存,能夠高效處理大規(guī)模的圖像數(shù)據(jù)。操作系統(tǒng)為Ubuntu 20.04 LTS,深度學(xué)習(xí)框架使用了PyTorch 1.9.0,并結(jié)合CUDA 11.4加速訓(xùn)練過程。實驗中使用的數(shù)據(jù)集為LFW(Labeled Faces in the Wild),該數(shù)據(jù)集包含多個場景下的人臉圖像,并以人工方式引入了佩戴口罩、眼鏡等局部遮擋。實驗還模擬真實應(yīng)用中的復(fù)雜性,在數(shù)據(jù)集中增加了高斯噪聲和光照變化這類噪聲干擾,以測試模型在復(fù)雜環(huán)境中的魯棒性。
3.2 實驗步驟
實驗分為兩個主要階段:傳統(tǒng)局部遮擋人臉圖像識別方法與基于深度學(xué)習(xí)方法的對比實驗。
在第一階段,采用傳統(tǒng)的局部遮擋人臉識別方法進行實驗。該方法主要基于SIFT手工設(shè)計的特征提取器,結(jié)合支持向量機(SVM)作為分類器。對每張人臉圖像進行灰度化處理,然后使用SIFT特征提取算子提取圖像的關(guān)鍵點和描述子。接著,將提取的特征輸入SVM進行訓(xùn)練和測試。為提高識別精度,實驗中使用了5折交叉驗證的方式,并在不同的遮擋比例下對模型進行測試。
在第二階段,采用本文提出的基于深度學(xué)習(xí)的局部遮擋人臉圖像識別方法。首先,對輸入圖像進行歸一化和數(shù)據(jù)增強進行預(yù)處理。然后,利用設(shè)計的深度學(xué)習(xí)模型進行特征提取和分類。在訓(xùn)練過程中,使用Adam優(yōu)化器,初始學(xué)習(xí)率設(shè)置為0.0001,每輪訓(xùn)練均包括前向傳播、損失計算、反向傳播、參數(shù)更新。在總計100個訓(xùn)練周期后,使用測試集對模型進行評估,并記錄準確率(ACC)。
3.3 仿真實驗結(jié)果分析
實驗結(jié)果展示了傳統(tǒng)識別方法與本文識別方法在不同訓(xùn)練周期下的準確率變化情況。在訓(xùn)練初期(10~30個epoch),傳統(tǒng)方法的準確率提升較為緩慢,主要由于其對局部遮擋的魯棒性不足,難以有效應(yīng)對復(fù)雜遮擋場景;在后續(xù)的訓(xùn)練過程中(40~100個epoch),深度學(xué)習(xí)方法的精度持續(xù)提升,并在80個epoch后逐漸趨于穩(wěn)定,最終達到0.95的準確率,而傳統(tǒng)方法的最終準確率則停留在0.80左右。此結(jié)果表明,深度學(xué)習(xí)方法在處理局部遮擋人臉圖像時,能夠更加有效地提取關(guān)鍵特征,并且在面對復(fù)雜的噪聲和遮擋時,具有更強的魯棒性和泛化能力。
結(jié)語
本文通過設(shè)計結(jié)合VGG與ResNet的RepVGG的混合算法,提出了一種高效的局部遮擋人臉圖像識別方法。實驗結(jié)果表明,該方法在復(fù)雜場景下的識別準確率顯著優(yōu)于傳統(tǒng)方法,并且具備較強的魯棒性與泛化能力。
參考文獻:
[1]王晨海,彭嬋娟.基于機器視覺的局部遮擋人臉圖像識別仿真[J].計算機仿真,2023,40(11):170-174.
[2]李煒.基于面部邊緣細節(jié)的局部遮擋人臉圖像識別[J].吉林大學(xué)學(xué)報(信息科學(xué)版),2023,41(4):732-738.
[3]林海馨.基于雙級生成對抗網(wǎng)絡(luò)的人臉去遮擋研究[D].西安:長安大學(xué),2023.
[4]王一朵.基于PCA、LDA與SVM相結(jié)合的人臉圖像識別應(yīng)用研究[D].蘭州:蘭州交通大學(xué),2023.
[5]徐勝超.一種新的多姿態(tài)人臉圖像識別方法[J].計算機與數(shù)字工程,2023,51(2):468-471,478.
[6]孟宣彤,修楊,陳慧.基于深度學(xué)習(xí)的人臉美學(xué)質(zhì)量評價方法研究[J].信息技術(shù)與信息化,2024(8):77-82.
[7]陳嘉茹,侯英勇,王樹臣,等.基于深度學(xué)習(xí)的雞臉識別與行為分析算法研究[J].數(shù)字農(nóng)業(yè)與智能農(nóng)機,2024(8):24-26.
[8]陳韓英,胡熔曦.深度學(xué)習(xí)技術(shù)在刑偵圖像處理中的應(yīng)用研究[J].湖南警察學(xué)院學(xué)報,2024,36(4):75-84.
[9]王子銘,孫永俁,鄭智康,等.智能咽拭子采樣機器人系統(tǒng)的設(shè)計與開發(fā)[J].智能計算機與應(yīng)用,2024,14(8):184-190.
[10]王東.基于神經(jīng)網(wǎng)絡(luò)的人臉識別模型研究[J].科技創(chuàng)新與應(yīng)用,2024,14(22):5-8,13.
作者簡介:井煜,碩士研究生,18629015260@163.com,研究方向:深度學(xué)習(xí)。
基金項目:中國高校產(chǎn)學(xué)研創(chuàng)新基金——數(shù)智融合視域下基于AIGC技術(shù)的MR交互技術(shù)研究與實踐(編號:2023KY025)。