吳鳳嬌,劉 寬,候紅濤,孫收余,趙 凱,羅子江
(1.貴州財(cái)經(jīng)大學(xué)信息學(xué)院,貴陽(yáng) 550025;2.北京盛開(kāi)智聯(lián)科技有限公司,北京 101300)
目標(biāo)跟蹤作為計(jì)算機(jī)視覺(jué)中一個(gè)經(jīng)典的研究問(wèn)題,被普遍應(yīng)用于視頻監(jiān)控、人機(jī)交互、自動(dòng)駕駛和安防監(jiān)控等領(lǐng)域,人臉作為一個(gè)重要的跟蹤對(duì)象也不例外。人臉跟蹤的核心思想是根據(jù)人臉的重要生物特征在上下文時(shí)空中進(jìn)行特征搜索和匹配,從而得到人臉在視頻序列中的位置和大小信息。目前,人臉跟蹤算法主要包括傳統(tǒng)的人臉跟蹤算法、相關(guān)濾波人臉跟蹤算法、基于深度學(xué)習(xí)的人臉跟蹤算法。傳統(tǒng)的人臉跟蹤算法和基于相關(guān)濾波的人臉跟蹤算法大多采用手工特征,手工設(shè)計(jì)特征局限于經(jīng)驗(yàn)性不足,難以達(dá)到較好的跟蹤性能。卷積神經(jīng)網(wǎng)絡(luò)的出現(xiàn)以及在人臉檢測(cè)領(lǐng)域取得的顯著成果,相繼被運(yùn)用到人臉跟蹤領(lǐng)域。在精度上表現(xiàn)優(yōu)異的算法以Nam等提出的MDNet算法為代表。MDNet在精度上表現(xiàn)突出,但在實(shí)際應(yīng)用環(huán)境中難以達(dá)到實(shí)時(shí)跟蹤。為解決跟蹤算法實(shí)時(shí)性低的問(wèn)題,Bertinetto等人基于相似性判斷提出SiamFC跟蹤算法,該算法僅將模板和搜索區(qū)域的距離作為相似性判斷依據(jù),加快算法推理速度,但魯棒性不足。Li等基于RGBT(RGB-Thermal)目標(biāo)跟蹤研究缺乏綜合評(píng)價(jià)平臺(tái),提出RGBT234數(shù)據(jù)集,并提供了相應(yīng)的評(píng)價(jià)基線,但其算法復(fù)雜度較高,難以實(shí)時(shí)處理。本文提出多模態(tài)余弦相似孿生網(wǎng)絡(luò)人臉跟蹤算法,該算法采用可見(jiàn)光(visible spectrum,VIS)和紅外光(infrared spectrum,IR)圖片作為輸入,削減跟蹤算法對(duì)光照變化的敏感度,增強(qiáng)算法在光照差異變大的環(huán)境中的跟蹤性能,并用余弦相似相關(guān)替換互相關(guān)層,增強(qiáng)模板與搜索分支的相似性判別能力。為彌補(bǔ)余弦相似和多模態(tài)輸入增加的計(jì)算開(kāi)銷(xiāo),結(jié)合MobileNet、PP-LCNet和PeleeNet思想設(shè)計(jì)適合于人臉跟蹤輕量級(jí)特征提取網(wǎng)絡(luò)。大量實(shí)驗(yàn)證明,本文的人臉跟蹤方法有效解決光照變化明顯、背景相似干擾、快速移動(dòng)、遮擋等問(wèn)題,實(shí)際跟蹤速度可達(dá)到115.7 fps。
本文算法基于SiamFC,該算法將目標(biāo)跟蹤任務(wù)轉(zhuǎn)換為相似性學(xué)習(xí),將模板和搜索區(qū)域的距離作為相似性判斷依據(jù)。但當(dāng)目標(biāo)處于暗光、曝光和復(fù)雜多運(yùn)動(dòng)物體的場(chǎng)景下,單獨(dú)的VIS圖像無(wú)法提供足夠的信息,導(dǎo)致跟蹤精度下降乃至跟蹤失敗,而IR圖像能夠很好地應(yīng)對(duì)光線問(wèn)題,有效地補(bǔ)充了VIS圖像的不足。因此,本文采用多模態(tài)余弦相似孿生網(wǎng)絡(luò)人臉跟蹤,網(wǎng)絡(luò)包括模板分支和搜索分支,兩個(gè)分支分別將模板和搜索的VIS-IR圖融合為一張3通道的模板圖z和搜索圖i,如圖1所示。
圖1 多模態(tài)余弦相似孿生網(wǎng)絡(luò)人臉跟蹤網(wǎng)絡(luò)
圖1中多模態(tài)余弦相似孿生網(wǎng)絡(luò)人臉跟蹤算法包括模板分支和搜索分支,搜索分支和模板分支的輸入通道為3。多模態(tài)輸入融合計(jì)算方式如式(1)所示:
式(1)中表示可見(jiàn)光特征,表示紅外光特征,β表示VIS圖像的融合系數(shù),β表示IR圖像的融合系數(shù)。為了更好地利用好雙模態(tài)圖像互補(bǔ)的信息,本文采用了權(quán)重分配策略,使用亮度信息離散度作為融合系數(shù)分配的參考依據(jù)。圖2(a)為相同場(chǎng)景中拍攝到的VIS圖與IR圖。圖2(b)為與圖2(a)對(duì)應(yīng)的像素亮度統(tǒng)計(jì)情況,其中橫軸表示圖片寬,縱軸表示圖片對(duì)應(yīng)像素列、像素亮度加和。由圖2可知,VIS圖片中像素亮度分布離散度大且無(wú)明顯規(guī)律,而IR圖片橫軸中心位置(動(dòng)態(tài)目標(biāo)存在的位置)像素亮度集聚度高,且?guī)缀醭收龖B(tài)分布。
圖2 VIS圖與IR圖差異對(duì)比直方圖
故,融合系數(shù)計(jì)算方式如式(2)所示:
和表示像素所在的行和列,?和分別表示VIS圖與IR圖,其中屬于正態(tài)因子系數(shù),計(jì)算方式如式(3),其中和分別是IR圖像單個(gè)像素亮度和整體亮度均值。
對(duì)模板分支和搜索分支X進(jìn)行相同的特征變換=(),生成特征圖F和F。本文對(duì)F和F操作,余弦相似相關(guān)的計(jì)算方式如式(4)所示:
式(4)中“?”表示余弦相似相關(guān),和分別表示模板分支和搜索分支。經(jīng)過(guò)余弦相似相關(guān)的特圖值都將被擬合到-1到1之間。
多模態(tài)輸入和余弦相似相關(guān)在跟蹤算法中造成算力增加,推理速度減慢等問(wèn)題。基于此,本文設(shè)計(jì)輕量級(jí)卷積神經(jīng)網(wǎng)絡(luò)平衡計(jì)算開(kāi)銷(xiāo),特征提取主干網(wǎng)絡(luò)結(jié)構(gòu),如表1所示。
表1 多模態(tài)人臉跟蹤孿生網(wǎng)絡(luò)結(jié)構(gòu)
表1所示,基于SiamFC思想設(shè)計(jì)本文網(wǎng)絡(luò)結(jié)構(gòu)包括搜索分支和模板分支,搜索分支輸入大小是模板分支的四倍。為減少推理延遲,在主干網(wǎng)絡(luò)特征提取以深度可分離卷積為主,深度可分離卷積對(duì)普通卷積進(jìn)行過(guò)程分解,有效縮減模型量、節(jié)約算力。復(fù)雜背景下的人臉跟蹤需要更深層的語(yǔ)義特征作為跟蹤的外觀判斷依據(jù),隨著網(wǎng)絡(luò)深度的增加,感受野隨之增大,在網(wǎng)絡(luò)末尾增加三個(gè)Dense_Block,結(jié)構(gòu)如圖3所示。
圖3 深度模塊結(jié)構(gòu)
圖3(a)為PeleeNet網(wǎng)絡(luò)中的Dense結(jié)構(gòu)塊,直接將上一階段的特征圖通過(guò)Concat方式進(jìn)行特征融合。圖3(b)為本文借鑒PeleeNet中Dense結(jié)構(gòu)塊設(shè)計(jì)的特征提取網(wǎng)絡(luò)結(jié)構(gòu),在其基礎(chǔ)上,左邊分支直接用可分離卷積代替標(biāo)準(zhǔn)卷積進(jìn)行特征提取,在右邊分支使用兩個(gè)深度可分離空洞卷積增加感受野,提高算法在資源受限設(shè)備中的適用性。
SiamFC跟蹤對(duì)特征提取后的模板特征和搜索分支特征進(jìn)行互相關(guān)操作,互相關(guān)操作能以較小的算力完成最大響應(yīng)點(diǎn)的搜索,但最大響應(yīng)點(diǎn)定位容易出現(xiàn)誤判,如圖4所示。
圖4 余弦相似相關(guān)與互相關(guān)對(duì)比
圖4中當(dāng)跟蹤區(qū)域出現(xiàn)相似背景(多人臉干擾時(shí)),互相關(guān)操作容易出現(xiàn)最大響應(yīng)位置計(jì)算錯(cuò)誤,導(dǎo)致人臉跟蹤失敗。余弦相似相關(guān)充分挖掘局部特征向量之間的內(nèi)在關(guān)系,尋找相似度最大的最優(yōu)位置,抗特異性強(qiáng),局部相似性度量準(zhǔn)確性高。本文的余弦相似計(jì)算方式如式(5)所示。
式(5)中表示通道,和分別表示特征圖上某點(diǎn)所在行和列,表示搜索分支的一個(gè)局部特征集,表示模板分支全局部特征集,其中的局部特征集和的全局特征集數(shù)量相等。
實(shí)驗(yàn)訓(xùn)練PC機(jī)環(huán)境:CPU選取Intel(R)Core(TM)i7-5930,顯卡NVIDIA GTX 1080 Ti,采用Visual Studio 2013,OpenCV3.1.0和Caffe框架實(shí)現(xiàn)多模態(tài)余弦相似孿生網(wǎng)絡(luò)人臉跟蹤算法。
本文采用ChokePoint數(shù)據(jù)集、RGBT234數(shù)據(jù)集和自制樣本數(shù)據(jù)集對(duì)本文的人臉跟蹤算法進(jìn)行實(shí)驗(yàn)驗(yàn)證。ChokePoint數(shù)據(jù)集包含432個(gè)視頻。RGBT234數(shù)據(jù)集是較大規(guī)模的雙模態(tài)跟蹤數(shù)據(jù)集,它囊括了234對(duì)VIS和IR視頻序列。自制的數(shù)據(jù)集考慮多人干擾、人臉遮擋等因素,共搜集103282對(duì)VIS-IR可變性面部圖片。
2.3.1 評(píng)價(jià)指標(biāo)
本文提出的多模態(tài)余弦相似孿生網(wǎng)絡(luò)人臉跟蹤方法采用平均中心像素誤差精度(accuracy)、魯棒性(robustness)、重疊率(overall)進(jìn)行評(píng)估。平均像素誤差,即實(shí)際人臉中心位置與預(yù)測(cè)人臉中心位置小于給定閾值的百分比,魯棒性評(píng)估決定人臉跟蹤算法的穩(wěn)定性,重疊率越高算法的跟蹤鎖定位置更準(zhǔn)確。
2.3.2 定性分析
實(shí)際測(cè)試過(guò)程中僅對(duì)首幀視頻幀進(jìn)行初始化,同時(shí)使用實(shí)際拍攝視頻序列和ChockPoint數(shù)據(jù)集視頻序列進(jìn)行測(cè)試評(píng)估,部分實(shí)際評(píng)估結(jié)果如圖5、圖6所示,其中直角虛線框表示真實(shí)的標(biāo)準(zhǔn)框,圓角虛線框表示SiamFC算法跟蹤結(jié)果,直角實(shí)體框表示本算法的跟蹤結(jié)果。
圖5 光照明暗變化人臉跟蹤示例
圖6 相似多人臉干擾跟蹤示例
圖5為ChockPoint數(shù)據(jù)集中的測(cè)試樣例圖片幀,從圖5可以看出,第485幀、第498幀、第506幀和第513幀均呈現(xiàn)不同的光照色差,基于本文算法繪制出的矩形框仍然能較準(zhǔn)確地框出人臉?biāo)谖恢?,而SiamFC算法則出現(xiàn)不同程度的抖動(dòng)。
圖6為實(shí)際應(yīng)用環(huán)境中拍攝的多人臉干擾的視頻序列,在第145幀,兩種跟蹤算法均能進(jìn)行較準(zhǔn)確的人臉跟蹤。隨著時(shí)間的推移,第153幀和第164幀中開(kāi)始出現(xiàn)大面積人臉重疊,SiamFC的跟蹤框大范圍抖動(dòng),引入過(guò)多非目標(biāo)人臉信息。從第164幀到第178幀,SiamFC的跟蹤框明顯跟錯(cuò)了對(duì)象,而本文的人臉跟蹤算法依舊能準(zhǔn)確地鎖定跟蹤人臉,進(jìn)行準(zhǔn)確的人臉跟蹤,能有效解決多人干擾人臉目標(biāo)跟錯(cuò)現(xiàn)象,抗干擾性強(qiáng),具有更強(qiáng)的魯棒性。
2.3.3 定量分析
在我們的實(shí)驗(yàn)中,對(duì)增加不同模塊和策略的主干網(wǎng)絡(luò)進(jìn)行增益實(shí)驗(yàn)比較,其中DP表示使用本文設(shè)計(jì)的輕量級(jí)主干特征提取網(wǎng)絡(luò),IR是紅外光圖,VIS是可見(jiàn)光圖,Cor表示互相關(guān),Cos表示余弦相似相關(guān),具體參數(shù)如表2所示。
表2 不同策略組合的主干網(wǎng)絡(luò)命名
將本文設(shè)計(jì)的人臉跟蹤網(wǎng)絡(luò)以及幾種變體網(wǎng)絡(luò)在自制數(shù)據(jù)集上的平均像素誤差精度、魯棒性、平均覆蓋率、測(cè)試速度進(jìn)行比較,具體實(shí)驗(yàn)結(jié)果如表3所示。
表3 不同主干網(wǎng)絡(luò)跟蹤性能比較
表3中,將SiamFC的主干網(wǎng)絡(luò)AlexNet直接替換為本文設(shè)計(jì)的輕量級(jí)主干網(wǎng)絡(luò),跟蹤整體性能略微降低,為彌補(bǔ)深度可分離卷積帶來(lái)的精度下降,采用HSwish作為激活函數(shù),增加非線性,并在主干網(wǎng)絡(luò)末尾增加三個(gè)Dense_Block增大感受野,豐富深層語(yǔ)義信息提取。直接使用IR圖像作為輸入,跟蹤精度相對(duì)于VIS的有所下降,據(jù)分析,IR圖像相對(duì)于VIS丟失了顏色等重要信息。Siam-DP+VIS+IR(Ours)對(duì)孿生網(wǎng)絡(luò)的搜索分支同時(shí)融合可見(jiàn)光圖與紅外光圖,消弱光照強(qiáng)度變化對(duì)跟蹤外觀模型表征的影響。Siam-DP+VIS+IR+Cos(Ours)把互相關(guān)操作替換為余弦相似相關(guān),余弦相似相關(guān)將輸出響應(yīng)最大值進(jìn)行歸一化,提高網(wǎng)絡(luò)模型的相似性判別能力,在本文設(shè)計(jì)的四種主干網(wǎng)絡(luò)中,整體性能均優(yōu)于SiamFC。
2.3.4 方法有效性比較
為驗(yàn)證本文提出的基于多模態(tài)余弦相似孿生網(wǎng)絡(luò)人臉跟蹤方法的有效性,與其他人臉跟蹤算法進(jìn)行比較,其中包括基于稀疏表示的IVT跟蹤算法、基于相關(guān)濾波的KCF跟蹤算法、基于深度學(xué)習(xí)孿生網(wǎng)絡(luò)的SiamFC跟蹤算法、基于深度學(xué)習(xí)位置回歸的GOTURN人臉跟蹤算法等。
表4和表5分別為不同人臉跟蹤算法和本文的跟蹤算法在光照變化(IV)、遮擋(OCC)、快速移動(dòng)(FM)、背景干擾(BC)、運(yùn)動(dòng)模糊(MB)等5種環(huán)境下平均像素距離誤差在20個(gè)像素以?xún)?nèi)、平均成功率即平均跟蹤面積重疊率為0.45以上的百分比的實(shí)驗(yàn)結(jié)果,表中最優(yōu)結(jié)果已使用加粗顯示。
表4 基于ChockPoint數(shù)據(jù)集的平均像素誤差精度和平均成功率(用“/”隔開(kāi))的比較
表5 基于RGBT234數(shù)據(jù)集的平均像素誤差精度和平均成功率(用“/”隔開(kāi))的比較
表4中基于深度學(xué)習(xí)的人臉跟蹤算法在跟蹤性能上均取得顯著提升,從表中可以看出,雖然在FM和MB條件下的跟蹤效果不是最好,但是在IV、OCC、BC三種條件下的表現(xiàn)優(yōu)于其他四種跟蹤算法。表中四種經(jīng)典跟蹤算法的平均成功率依次是0.676、0.691、0.717、0.7366,本文算法的平均成功率為0.781。實(shí)驗(yàn)表明,本文提出的人臉跟蹤算法即使是在跟蹤環(huán)境復(fù)雜多變的情況下依舊能達(dá)到較優(yōu)的跟蹤效果。
表5中,本文所提出的人臉跟蹤算法整體性能較優(yōu),其中在FM條件下略差于Li等的基準(zhǔn)算法,但其他條件下皆較優(yōu),整體平均精度達(dá)到0.762,整體平均成功率為0.484,比Li等的分別提高8.3%和4.8%。進(jìn)一步證明了在多模態(tài)輸入的條件下,本文的人臉跟蹤算法即使是在跟蹤環(huán)境復(fù)雜多變的情況下依舊能達(dá)到較優(yōu)的跟蹤效果。
本文以實(shí)際應(yīng)用環(huán)境為背景,為解決光照變化大、背景相似干擾等人臉跟蹤問(wèn)題,提出多模態(tài)余弦相似孿生網(wǎng)絡(luò)人臉跟蹤算法。首先,采用成對(duì)的VIS-IR圖片作為網(wǎng)絡(luò)的輸入,利用這兩種模態(tài)信息互補(bǔ)的特點(diǎn),降低光照強(qiáng)弱變化對(duì)圖片特征的敏感度,提高跟蹤過(guò)程中外觀建模的魯棒性。其次,結(jié)合SiamFC算法中互相關(guān)層存在相似度計(jì)算異常的問(wèn)題引入余弦相似相關(guān)層,進(jìn)一步對(duì)相似度值進(jìn)行歸一化,有效解決互相關(guān)層由個(gè)別差異值引起的相似度誤判問(wèn)題。余弦相似相關(guān)相比互相關(guān)增加較大的算力開(kāi)銷(xiāo),本文通過(guò)構(gòu)建輕量級(jí)的特征提取網(wǎng)絡(luò)有效地減少余弦相關(guān)增加的算力開(kāi)銷(xiāo)。為提高算法的適用性,采用大量不同角度、姿態(tài)、遮擋、佩戴飾物的樣本數(shù)據(jù)進(jìn)行模型訓(xùn)練。經(jīng)實(shí)驗(yàn)驗(yàn)證,本文的人臉跟蹤算法有效解決跟蹤過(guò)程中光照干擾、多人臉干擾、復(fù)雜背景、跟丟、跟錯(cuò)等問(wèn)題,提高人臉跟蹤算法穩(wěn)定性,實(shí)際跟蹤速度達(dá)到115.7fps,具有較高的實(shí)時(shí)性和較強(qiáng)的移植性。