基于HOG和特征描述子的人臉檢測與跟蹤

2020-04-09 03:16:46

浙江工業(yè)大學(xué)學(xué)報(bào) 2020年2期

(浙江工業(yè)大學(xué) 計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院，浙江杭州 310023)

人臉檢測是指在給定圖像中確定人臉的位置、大小和姿態(tài)，其本質(zhì)是模式識(shí)別的一種應(yīng)用。常用的人臉檢測方法有基于知識(shí)的方法、基于統(tǒng)計(jì)模型的方法和基于模板匹配的方法等。人臉跟蹤是在圖像序列中捕獲人臉信息的一種技術(shù)，該技術(shù)在視頻監(jiān)控、圖像處理和人機(jī)交互等方面應(yīng)用廣泛，是近年來計(jì)算機(jī)視覺中的熱點(diǎn)之一。常用的人臉跟蹤方法有基于圖像特征的方法、基于機(jī)器學(xué)習(xí)的方法和基于深度學(xué)習(xí)的方法等。隨著社會(huì)的發(fā)展，人們對(duì)人臉檢測的精度要求和人臉跟蹤的準(zhǔn)確度要求不斷提高，因此該課題的深化研究有重要的實(shí)用價(jià)值。在人臉檢測中存在真實(shí)場景下的光照變化和隨機(jī)噪聲問題；在人臉跟蹤中會(huì)出現(xiàn)多人臉干擾和人臉姿態(tài)變換的問題[1]。針對(duì)這兩類難點(diǎn)，國內(nèi)外學(xué)者進(jìn)行了大量的研究。對(duì)于人臉檢測中遇到的難點(diǎn)，吳素雯等[2]提出了一種基于Gabor優(yōu)化的卷積神經(jīng)網(wǎng)絡(luò)與選擇性搜索策略相結(jié)合的算法，提高了在光照變化下的檢測效率，但對(duì)部分傾斜和光照不均勻的人臉仍存在漏檢。洪楊等[3]針對(duì)人臉圖像中存在的區(qū)域噪聲提出了改進(jìn)的多尺度Retinex算法，能夠提高原圖像的檢測率，然而漏檢問題依然存在。Lienhart等[4]對(duì)Haar特征進(jìn)行擴(kuò)展，訓(xùn)練形成了Haar-like分類器，能夠檢測傾斜角度的人臉，但是暴力枚舉的過程增加了內(nèi)存消耗。胡麗喬等[5]提出了一種自適應(yīng)加權(quán)HOG特征的人臉識(shí)別算法，在識(shí)別率上優(yōu)于傳統(tǒng)算法，同時(shí)在光照方面具有較強(qiáng)的魯棒性，但是計(jì)算復(fù)雜度偏高。對(duì)于人臉跟蹤遇到的難點(diǎn)，F(xiàn)ukunaga等[6]提出Meanshift算法，基于核直方圖對(duì)人臉進(jìn)行建模，跟蹤準(zhǔn)確率較差。歷艷琨等[7]利用人臉特征點(diǎn)跟蹤3D人臉姿態(tài)的變化，實(shí)現(xiàn)了對(duì)單人臉姿態(tài)的穩(wěn)定跟蹤。張江鑫等[8]提出了一種基于Camshift聚類的粒子濾波人臉跟蹤算法，能在人臉無規(guī)則曲線運(yùn)動(dòng)中準(zhǔn)確跟蹤目標(biāo)人臉。楊超等[9]提出了一種改進(jìn)的Camshift-KLT算法，能夠減小跟蹤偏移距離，提高跟蹤命中率。以上跟蹤算法都比較偏向?qū)θ四槄^(qū)域或輪廓的跟蹤，無法區(qū)分不同的人臉，會(huì)出現(xiàn)當(dāng)多個(gè)人臉區(qū)域重疊時(shí)跟蹤目標(biāo)轉(zhuǎn)移至另一張人臉的問題，使得跟蹤準(zhǔn)確率下降。

筆者提出了一種基于HOG和特征描述子的人臉檢測與跟蹤算法。實(shí)驗(yàn)前先對(duì)視頻幀進(jìn)行預(yù)處理操作，利用直方圖均衡化進(jìn)行光照補(bǔ)償，利用中值濾波進(jìn)行圖像降噪；然后基于HOG特征檢測人臉；最后通過ResNet生成特征描述子，利用結(jié)合特征描述子的校正策略獲得跟蹤結(jié)果。筆者算法能夠減少光照和噪聲的影響，而且可以在多人臉干擾和人臉姿態(tài)不斷變化的情況下區(qū)分不同的人臉。算法分為基于HOG特征的人臉檢測過程和基于特征描述子的人臉跟蹤過程，下文將按照上述思路分別進(jìn)行說明。

1 基于HOG特征的人臉檢測

圖1為基于HOG特征的人臉檢測流程圖。首先輸入一張人臉圖像，然后提取HOG特征，再與人臉檢測器進(jìn)行匹配，最后輸出檢測的結(jié)果。

圖1 基于HOG特征的人臉檢測流程圖

針對(duì)真實(shí)場景中的光照和噪聲問題，HOG特征提取步驟中的歸一化伽馬能夠進(jìn)一步消除光照變化、隨機(jī)噪聲帶來的影響，提高人臉檢測準(zhǔn)確度。

1.1 提取HOG特征

特征提取是模式識(shí)別研究的基本問題之一。對(duì)于圖像識(shí)別，高質(zhì)量的圖像特征可以有效地表示原始圖像的性質(zhì)，且在圖像分類中起決定作用[10]。在人體關(guān)鍵部位圖像中合適的特征描述包括HOG特征和Haar-like特征等[11]。方向梯度直方圖(Histogram of oriented gradient，HOG)特征的核心思想是在一個(gè)大小統(tǒng)一、網(wǎng)格密集的細(xì)胞單元上進(jìn)行計(jì)算，利用相互重疊的局部對(duì)比度歸一化技術(shù)來提高描述能力[12]。HOG特征能夠很好地描述圖像局部差分信息且不易受噪聲干擾，在目標(biāo)檢測和跟蹤領(lǐng)域中是描述邊緣和形狀最好的特征之一。另一種常用的Haar-like特征反映了目標(biāo)的灰度變化情況，適合描述目標(biāo)陰影。與Haar-like特征相比，HOG特征保持了幾何和光學(xué)轉(zhuǎn)化不變性，能夠很好地描述目標(biāo)輪廓，因此筆者采用HOG特征作為人臉檢測中的特征表示。

HOG特征提取步驟[13-16]為

1)歸一化伽馬。使用伽馬變換歸一化圖像，有效地降低圖像局部的陰影和光照變化。

2)滑動(dòng)窗口設(shè)置。分割圖像為若干個(gè)滑動(dòng)窗口(block)，block用于在整幅圖像上滑動(dòng)提取人臉HOG特征。

3)計(jì)算梯度。將block均勻分成4 個(gè)單元(cell)，block之間采用重疊兩個(gè)細(xì)胞單元(cell)的形式進(jìn)行滑動(dòng)。計(jì)算出圖像的像素點(diǎn)(x,y)的水平方向和垂直方向的梯度，水平方向上的梯度Ix(x,y)為

Ix(x,y)=I(x+1,y)-I(x-1,y)

(1)

垂直方向上的梯度Iy(x,y)為

Iy(x,y)=I(x,y+1)-I(x,y-1)

(2)

得出像素點(diǎn)(x,y)的梯度幅值m(x,y)為

(3)

同樣可得像素點(diǎn)(x,y)的梯度方向θ(x,y)為

(4)

4)累加計(jì)算獲得空間細(xì)胞的梯度方向。將梯度方向均勻分成m(m通常為9)個(gè)方向(bin)，如果梯度方向存在正負(fù)，則將360°均勻分成m個(gè)區(qū)間，否則將180°均勻分成m個(gè)區(qū)間。將相同cell上所有相同梯度方向的點(diǎn)梯度幅值進(jìn)行基于權(quán)重的累加計(jì)算，得出該cell的梯度直方圖(HOG)。

5)在重疊的細(xì)胞塊內(nèi)進(jìn)行歸一化對(duì)比。歸一化每個(gè)block內(nèi)的多個(gè)cell梯度直方圖為一個(gè)直方圖來表示當(dāng)前block的HOG特征。

6)收集檢測窗口上所有塊的HOG。通過滑動(dòng)block窗口完成整幅圖像的HOG特征的提取。

7)輸出HOG特征。

1.2 匹配人臉檢測器

利用HOG特征匹配人臉首先需要訓(xùn)練人臉檢測器，訓(xùn)練分為預(yù)處理和訓(xùn)練兩個(gè)階段。

預(yù)處理階段：1)輸入采集的人臉圖像訓(xùn)練集、測試集，標(biāo)記每一張圖片的具體的人臉邊界(bounding box)；2)進(jìn)行圖片上采樣，目的是為了放大較小的人臉，使檢測準(zhǔn)確度提高，上采樣的同時(shí)調(diào)整相應(yīng)的bounding box；3)對(duì)訓(xùn)練集中的人臉圖像進(jìn)行鏡像處理，擴(kuò)充樣本數(shù)量。

訓(xùn)練階段：1)定義掃描器(scanner)，用于掃描圖片并提取HOG特征；2)設(shè)置scanner的窗口尺寸，通過圖像金字塔變換實(shí)現(xiàn)在不同尺寸上檢測人臉的目的；3)定義訓(xùn)練器(trainer)，用于訓(xùn)練人臉檢測器，其通過scanner初始化；4)進(jìn)行訓(xùn)練，生成并完善人臉檢測器，當(dāng)出現(xiàn)未確認(rèn)的人臉邊界時(shí)對(duì)該區(qū)域進(jìn)行忽略，防止出現(xiàn)錯(cuò)誤的人臉檢測信息；5)進(jìn)行測試，得到返回的檢測結(jié)果。

圖2為一種正面人臉檢測器的HOG特征，該人臉檢測器對(duì)正臉的匹配度較好。相較于現(xiàn)有常用的基于Haar-like特征的人臉檢測算法，該算法精度更高，能夠識(shí)別更多的人臉。為了在輸入的視頻幀中能更好地提取人臉的有效信息，筆者選用基于HOG特征的人臉檢測算法。

圖2 人臉檢測器的HOG特征

2 基于特征描述子的人臉跟蹤

圖3為基于特征描述子的人臉跟蹤流程圖。首先輸入當(dāng)前幀通過人臉檢測得到的結(jié)果，定位各張人臉的68 個(gè)關(guān)鍵點(diǎn)，將其分別輸入到ResNet模型中得到內(nèi)容為128 維向量的特征描述子。若原先未存有特征描述子，則初始化該特征描述子為跟蹤目標(biāo)的判斷基準(zhǔn)，若已存在特征描述子，則計(jì)算兩者的歐氏距離?？紤]到當(dāng)前幀中可能有多個(gè)人臉，會(huì)生成多個(gè)距離值，選擇距離值最小的作為當(dāng)前幀的計(jì)算值。如果距離值低于默認(rèn)閾值，則表明兩個(gè)特征描述子都基于同一張人臉生成，更新特征描述子為當(dāng)前幀生成的描述子并更新跟蹤區(qū)域；反之則認(rèn)為兩個(gè)特征描述子不屬于同一張人臉，此時(shí)替換存儲(chǔ)的特征描述子，轉(zhuǎn)移跟蹤目標(biāo)為新特征描述子表示的人臉。當(dāng)前幀處理完后，載入下一幀，循環(huán)進(jìn)行人臉跟蹤。

圖3 基于特征描述子的人臉跟蹤流程圖

2.1 利用ResNet獲取特征描述子

卷積神經(jīng)網(wǎng)絡(luò)(Convolutional neural network，CNN)在圖像處理、模式識(shí)別和計(jì)算機(jī)視覺等方面引起了人們廣泛的關(guān)注，因?yàn)镃NN模型能夠有效提取圖像的特征描述子[17]。深度殘差網(wǎng)絡(luò)(Residual networks，ResNet)是由He等[18]提出的一種改良的卷積神經(jīng)網(wǎng)絡(luò)，動(dòng)機(jī)是神經(jīng)網(wǎng)絡(luò)的退化問題。傳統(tǒng)CNN與ResNet相比，傳統(tǒng)CNN中卷積層和全連接層在傳遞信息時(shí)，存在信息丟失、損耗等問題；而ResNet能通過旁路支線將輸入連接到后面的層，使其可以直接學(xué)習(xí)殘差，優(yōu)化基礎(chǔ)網(wǎng)絡(luò)性能的同時(shí)保護(hù)了信息的完整性。因此筆者采用ResNet模型，在提取特征描述子方面能夠比傳統(tǒng)CNN取得更好的效果。

算法采用ResNet模型提取人臉特征描述子，輸入人臉圖像及對(duì)應(yīng)的關(guān)鍵點(diǎn)，返回一個(gè)128 維的人臉特征描述子。在人臉特征描述子提取完成后，依次添加對(duì)應(yīng)的人臉標(biāo)識(shí)，便于跟蹤結(jié)果的更新。

2.2 利用歐氏距離計(jì)算相似性度量

特征描述子本質(zhì)上是特征向量，計(jì)算特征向量的相似性可用距離進(jìn)行評(píng)價(jià)。常用的距離有曼哈頓距離、歐氏距離和切比雪夫距離，通過實(shí)驗(yàn)對(duì)比將3 種距離分別用于計(jì)算人臉特征描述子的相似性度量，最后選取區(qū)分度較好的歐氏距離作為衡量人臉特征描述子的標(biāo)準(zhǔn)。歐氏距離指兩點(diǎn)在m維空間上的真實(shí)距離，2個(gè)n維向量A(x11,x12, …,x1n)和B(x21,x22, …,x2n)的歐氏距離為

(5)

2.3 利用人臉標(biāo)識(shí)隊(duì)列更新跟蹤目標(biāo)

因?yàn)橐粡垐D片可能有多個(gè)人臉，需分別計(jì)算得出兩個(gè)人臉特征描述子的歐氏距離。選取最小的距離值后，需要用閾值評(píng)價(jià)兩個(gè)描述子的相似程度。當(dāng)距離值小于閾值即相似度較高，則認(rèn)定兩個(gè)人臉屬于同一個(gè)人，跟蹤結(jié)果更新；否則相似度較低，認(rèn)定人臉屬于他人，跟蹤目標(biāo)轉(zhuǎn)移。因?yàn)橐曨l幀中人臉的姿態(tài)時(shí)刻發(fā)生變化，每一幀的人臉都不盡相同。如果始終以初始檢測的人臉描述子為基準(zhǔn)進(jìn)行相似度計(jì)算，在視頻幀中始終只有同一人的前提下，會(huì)出現(xiàn)因人臉姿態(tài)變化過大導(dǎo)致距離值偏大，使得跟蹤結(jié)果出現(xiàn)偏差。且新檢測的視頻幀中的人臉不可能與存儲(chǔ)的原特征描述子的人臉完全一致，從而使距離值總有一定的誤差。為了盡可能地消除這種誤差，當(dāng)認(rèn)定檢測的視頻幀中人臉為存儲(chǔ)的人臉時(shí)，將人臉標(biāo)識(shí)對(duì)應(yīng)的原特征描述子進(jìn)行更新。由于視頻幀的連貫性，人臉的姿態(tài)變化在檢測的連續(xù)兩幀中變化較小。采用檢測的上一幀中相同人臉的特征描述子作為基準(zhǔn)，能從最大程度上抑制人臉姿態(tài)變化產(chǎn)生的干擾。當(dāng)新提取的特征描述子與當(dāng)前存儲(chǔ)的特征描述子相似度過低時(shí)，將新出現(xiàn)的人臉特征描述子替換原特征描述子并同時(shí)替換人臉標(biāo)識(shí)。

為了防止某一幀中由于隨機(jī)干擾因素過于嚴(yán)重導(dǎo)致的相同人臉也檢測錯(cuò)誤的情況出現(xiàn)，設(shè)計(jì)了一種基于時(shí)間順序的長度為L(L為大于1的奇數(shù))的人臉標(biāo)識(shí)隊(duì)列。該隊(duì)列中根據(jù)時(shí)間先后順序，將每一幀中檢測到的人臉標(biāo)識(shí)放入隊(duì)列末尾，根據(jù)隊(duì)列的先入先出原則，當(dāng)隊(duì)列元素總數(shù)達(dá)到L，則移除開頭的元素。隊(duì)列中始終存儲(chǔ)當(dāng)前幀和前L-1幀的人臉標(biāo)識(shí)，隊(duì)列中數(shù)目最多的人臉標(biāo)識(shí)則為連續(xù)幀中的人臉檢測結(jié)果。只有在當(dāng)前幀的人臉檢測結(jié)果與連續(xù)幀的人臉檢測結(jié)果相同時(shí)，原特征描述子才進(jìn)行更新，能夠較好地降低某一幀的誤差影響。

3 實(shí)驗(yàn)及結(jié)果分析

3.1 實(shí)驗(yàn)環(huán)境

所有仿真結(jié)果基于Inter(R)Core(TM)i5-8250U @ 1.60 GHz處理器，8 GB內(nèi)存，操作系統(tǒng)為Ubuntu 16.04，編程語言使用Python 3.6，使用PyCharm 2018開發(fā)環(huán)境編寫算法，每段圖像序列長度為1 000 幀，每幀圖像分辨率為640×480。

3.2 實(shí)驗(yàn)?zāi)Ｐ?/h3>
Dlib是一個(gè)包含機(jī)器學(xué)習(xí)算法的第三方開源工具包，為提高人臉檢測和跟蹤的準(zhǔn)確率，實(shí)驗(yàn)所需模型采用Dlib中經(jīng)大量數(shù)據(jù)訓(xùn)練完成的模型。人臉檢測模型采用的基于HOG的正面人臉檢測器，參考頁面為http://dlib.net/dlib/image_processing/frontal_face_detector.h.html。人臉關(guān)鍵點(diǎn)模型采用的68 點(diǎn)關(guān)鍵點(diǎn)模型，下載地址為http://dlib.net/files/shape_predictor_68_face_landmarks.dat.bz2。訓(xùn)練完成的ResNet模型，下載地址為http://dlib.net/files/dlib_face_recognition_resnet_model_v1.dat.bz2。

3.3 圖像中光照和噪聲的預(yù)處理結(jié)果

使用直方圖均衡化和中值濾波進(jìn)行預(yù)處理的效果如圖4所示。圖4(a)為原始樣例圖像，分辨率為640×480，圖像中光照不均勻且存在隨機(jī)噪聲；圖4(b)為直方圖均衡化處理的人臉圖像，針對(duì)圖像的光照問題，從視覺效果看，處理后的圖像亮度提升明顯，對(duì)比度增強(qiáng)，細(xì)節(jié)特征也更加清晰；圖4(c)為進(jìn)行中值濾波處理后的人臉圖像，針對(duì)圖像的噪聲問題，其中大部分突出的噪聲點(diǎn)已被過濾。該樣例圖像的直方圖均衡化和中值濾波處理的時(shí)間約為0.002 96 s，對(duì)檢測幀數(shù)的時(shí)間影響可忽略不計(jì)。

圖4 樣例圖像的處理結(jié)果

3.4 HOG特征提取結(jié)果及人臉檢測

以圖4(c)為待檢測樣例圖像，基于HOG特征的人臉檢測進(jìn)一步消除了光照和噪聲的影響，提取得到的結(jié)果如圖4(d)所示，為使結(jié)果更加直觀，運(yùn)算中歸一化了各個(gè)像素點(diǎn)的梯度，同時(shí)加入了梯度量級(jí)的非線性映射梯度，使梯度方向產(chǎn)生了明顯的深淺和長度差異，更容易區(qū)分邊緣。圖5(a)為經(jīng)過人臉檢測器匹配后的標(biāo)記人臉邊界的圖像，可以看出當(dāng)存在一張或多張人臉時(shí)，基于HOG特征的人臉檢測器都能予以識(shí)別。圖6表示隨著視頻序列的長度逐漸增大時(shí)，基于Hog特征和基于Haar-like特征的人臉檢測算法在檢測人臉準(zhǔn)確度上的情況，可以看出基于Hog特征的檢測準(zhǔn)確度在90%以上，而基于Haar-like特征的檢測準(zhǔn)確度只有60%左右，說明基于Hog特征的人臉檢測算法比基于Haar-like特征的能檢測到更多的人臉，更適合本實(shí)驗(yàn)的人臉檢測研究，而基于Haar-like特征的算法準(zhǔn)確度較低，容易遺漏視頻幀中的部分人臉，影響人臉跟蹤結(jié)果。

圖5 人臉檢測算法結(jié)果與人臉關(guān)鍵點(diǎn)定位結(jié)果

圖6 不同人臉檢測算法的對(duì)比實(shí)驗(yàn)

3.5 人臉跟蹤結(jié)果實(shí)驗(yàn)

將檢測到人臉的視頻幀進(jìn)行人臉關(guān)鍵點(diǎn)定位。圖5(b)為圖5(a)進(jìn)行人臉關(guān)鍵點(diǎn)定位的結(jié)果，位于眉毛、眼睛、鼻子、嘴巴和面部輪廓的特征點(diǎn)都已經(jīng)被標(biāo)明。通過輸入當(dāng)前視頻幀和定位的人臉關(guān)鍵點(diǎn)到訓(xùn)練好的ResNet模型，可以得到128 維的特征描述子，作為當(dāng)前圖像中人臉的向量表示，圖5(b)左一的人臉提取的特征描述子如圖7所示。

圖7 人臉的特征描述子

針對(duì)兩個(gè)特征描述子的相似度比較問題，需要通過與默認(rèn)閾值比較得出結(jié)果。默認(rèn)閾值的確定需要計(jì)算兩個(gè)相同人臉的不同特征描述子的距離值作為標(biāo)準(zhǔn)，且該距離值變化幅度不能過大，最好在某一數(shù)值上下保持微小波動(dòng)。圖8(a)為曼哈頓距離、歐氏距離、切比雪夫距離3 種距離在已知相同人臉的兩個(gè)不同特征描述子下進(jìn)行計(jì)算的結(jié)果。圖8(b)為曼哈頓距離、歐氏距離、切比雪夫距離3 種距離在已知不同人臉的兩個(gè)不同特征描述子下進(jìn)行計(jì)算的結(jié)果。由圖8(a)可知，相同人臉的不同特征描述子的曼哈頓距離變化較大，在(1.15，3.70)的區(qū)間內(nèi)波動(dòng)，結(jié)合圖8(b)中不同人臉特征描述子的曼哈頓距離波動(dòng)區(qū)間(3.65，5.63)，兩者存在重疊區(qū)間。而歐氏距離和切比雪夫距離在相同人臉的不同特征描述子的條件下距離值變化較為平穩(wěn)(圖8a)。表1為實(shí)驗(yàn)中歐氏距離與切比雪夫距離的比較，能夠看出：切比雪夫距離的變化范圍雖平穩(wěn)，區(qū)分度仍然偏小，且當(dāng)距離值為0.09時(shí)不能很好地判定一組特征描述子是否為同一張人臉。而歐氏距離的變化范圍較小且區(qū)分度較切比雪夫距離更大，故筆者采用歐氏距離作為一組特征描述子是否為相同人臉的判別標(biāo)準(zhǔn)，參考表1的數(shù)據(jù)，相同人臉的不同特征描述子的歐氏距離小于0.38，而不同人臉的不同特征描述子的歐氏距離大于0.43，計(jì)算得出邊界值0.38和0.43的平均值為0.405，結(jié)果保留兩位小數(shù)為0.40，將其設(shè)定為默認(rèn)閾值。

圖8 相同人臉和不同人臉的一組特征描述子的不同距離

表1 實(shí)驗(yàn)中歐氏距離與切比雪夫距離的比較

Table 1 The comparison of Euclidean distance and Chebyshev distance in experiment

距離度量相同人臉的不同特征描述子不同人臉的不同特征描述子歐氏距離范圍(0.13,0.38)(0.43,0.63)切比雪夫距離范圍(0.03,0.09)(0.09,0.15)

更新原特征描述子所需的人臉標(biāo)識(shí)隊(duì)列長度L需要通過多人臉跟蹤實(shí)驗(yàn)確定。表2為人臉標(biāo)識(shí)隊(duì)列長度L對(duì)人臉跟蹤準(zhǔn)確率的關(guān)系，從表中可得：當(dāng)L等于5時(shí)，人臉跟蹤準(zhǔn)確率達(dá)到峰值；且當(dāng)L大于5時(shí)，值越大人臉跟蹤準(zhǔn)確率越低，因?yàn)楫?dāng)人臉標(biāo)識(shí)隊(duì)列長度越大，不同人臉的跟蹤目標(biāo)切換越不靈活，會(huì)出現(xiàn)整個(gè)視頻序列都只跟蹤初始人臉的情況。為了即能降低視頻某一幀的誤差影響，又能靈活地應(yīng)對(duì)多個(gè)人臉的跟蹤目標(biāo)切換，取L為5，此時(shí)本實(shí)驗(yàn)人臉跟蹤準(zhǔn)確率為83.78%。多人臉跟蹤優(yōu)先度問題的解決策略是：以視頻幀中最先被識(shí)別的人臉為初始跟蹤目標(biāo)，每當(dāng)跟蹤目標(biāo)消失時(shí)進(jìn)行目標(biāo)切換。圖9為多人臉實(shí)驗(yàn)效果圖，第1張圖為第1個(gè)人的人臉跟蹤結(jié)果，第2，3張圖中當(dāng)?shù)?個(gè)人從視頻中出現(xiàn)時(shí)，實(shí)驗(yàn)的跟蹤目標(biāo)仍為第1個(gè)人，當(dāng)?shù)?個(gè)人的人臉從視頻中消失時(shí)，跟蹤目標(biāo)轉(zhuǎn)換到第2個(gè)人，而當(dāng)?shù)?個(gè)人出現(xiàn)時(shí)，因?yàn)楦櫮繕?biāo)已經(jīng)切換，所以跟蹤結(jié)果不受影響。

表2 人臉標(biāo)識(shí)隊(duì)列長度L對(duì)人臉跟蹤準(zhǔn)確率的關(guān)系

Table 2 The relationship between the length of a face queue and face tracking accuracy

人臉標(biāo)識(shí)隊(duì)列長度L人臉跟蹤準(zhǔn)確率/%376.08583.78782.38979.781174.07

圖9 多人臉切換實(shí)驗(yàn)

筆者算法和近年來提出的人臉跟蹤算法比較如表3，4所示。單人臉情況下，表中算法都有較高的跟蹤準(zhǔn)確率。多人臉情況下，表中算法的跟蹤準(zhǔn)確率都有不同程度的下降，文獻(xiàn)[8-9]的算法因?yàn)槲瘁槍?duì)多人臉干擾問題提出有效的解決方案，在切換跟蹤目標(biāo)上出現(xiàn)明顯誤差，使得平均誤識(shí)別幀數(shù)增大。在跟蹤準(zhǔn)確率方面，筆者算法提出的跟蹤校正策略對(duì)多人臉干擾問題的解決效果較好，相比其他兩種算法有明顯優(yōu)勢(shì)。在跟蹤實(shí)時(shí)性方面，筆者算法雖然比其他兩種算法耗時(shí)，但基本上滿足實(shí)時(shí)的需求。

表3 單人臉情況下不同跟蹤算法的實(shí)驗(yàn)對(duì)比

表4 多人臉情況下不同跟蹤算法的實(shí)驗(yàn)對(duì)比

4 結(jié) 論

通過對(duì)人臉特征的研究，提出了一種基于HOG和特征描述子的人臉檢測與跟蹤算法。該算法引入圖像預(yù)處理，降低了光照變化與隨機(jī)噪聲的干擾。在人臉檢測方面，筆者方法通過HOG特征能夠檢測視頻幀出現(xiàn)的人臉，進(jìn)一步降低光照、噪聲的影響。在人臉跟蹤方面，筆者方法借助人臉的關(guān)鍵點(diǎn)實(shí)時(shí)生成特征描述子，通過比較歐氏距離來更新跟蹤目標(biāo)，能夠排除現(xiàn)實(shí)場景中多人臉的干擾，同時(shí)也更好地適應(yīng)了人臉的姿態(tài)變化。實(shí)驗(yàn)結(jié)果表明算法準(zhǔn)確率較高且魯棒性較好。但是，實(shí)驗(yàn)中也反映出該算法存在的不足，即當(dāng)場景中人臉的數(shù)目過多導(dǎo)致視頻幀率下降，該問題在以后工作中會(huì)采用優(yōu)化人臉檢測算法進(jìn)一步改良。