鮑文霞 茅麗麗 王 年 楊先軍 劉 晉 瞿金杰
(1安徽大學(xué)電子信息工程學(xué)院, 合肥 230601)(2中國(guó)科學(xué)院合肥物質(zhì)科學(xué)研究院, 合肥 230031)(3公安部物證鑒定中心, 北京 100038)
足跡指的是人體在站立或行走條件下,腳掌通過(guò)體重壓力作用在承痕體所形成的痕跡[1].醫(yī)學(xué)研究表明,足跡數(shù)據(jù)具有唯一性和獨(dú)特性[2-3],反映了對(duì)象的生理特征和行為特征.在偵查犯罪案件中,足跡特征相對(duì)于人體的其他特征,更加不易偽裝,刑偵人員可以從中挖掘到更多有效的信息.因此,國(guó)內(nèi)外研究人員開展了形式多樣的足跡方面的研究.例如,Osisanwo等[4]使用捺印技術(shù)獲取足跡圖像,比較分割后各區(qū)域的壓力面積和壓力值標(biāo)準(zhǔn)偏差,并進(jìn)行圖像匹配.Khokher等[5]通過(guò)平板掃描儀獲取了21人足底圖像,使用主成分分析(PCA)和獨(dú)立成分分析(ICA)線性投影技術(shù)提取足底的紋理和形狀特征來(lái)進(jìn)行足跡識(shí)別.Heydarzadeh等[6]使用壓力傳感器平面板采集35人足跡數(shù)據(jù),將每幀圖像疊加合成一張融合圖像,使用支持向量機(jī)(SVM)對(duì)足跡圖像進(jìn)行分類識(shí)別.
從以上研究可看出,目前還沒(méi)有公共的足跡圖像數(shù)據(jù)集,并且足跡圖像采集規(guī)范和采集設(shè)備多樣化,在不同采集設(shè)備下獲取的多模態(tài)足跡圖像包含的信息既有共性,又有各自的獨(dú)特性,通過(guò)一種模態(tài)定向檢索到另一種模態(tài)的足跡圖像在足跡的鑒定比對(duì)、識(shí)別中有著重要的應(yīng)用.對(duì)多模態(tài)數(shù)據(jù)的處理屬于多視圖學(xué)習(xí)(multi-view learning)問(wèn)題,通過(guò)利用數(shù)據(jù)在不同視圖學(xué)習(xí)的難易程度不同來(lái)實(shí)現(xiàn)視圖之間的協(xié)同學(xué)習(xí).例如,Sun等[7]提出8個(gè)PAC-貝葉斯邊界來(lái)分析和比較多視圖分類器的泛化性能,并驗(yàn)證了多視圖邊界的有效性.Xie等[8]提出多視圖拉普拉斯支持向量機(jī)的方法,在圖像和文本的多模態(tài)分類任務(wù)中具有較好的效果.跨模態(tài)圖像檢索是多視圖學(xué)習(xí)方法的一個(gè)具體應(yīng)用,其難點(diǎn)在于需要克服不同模態(tài)間的“語(yǔ)義鴻溝”.
目前基于圖像的跨模態(tài)檢索方法主要有子空間方法[9]、主題模型方法[10]、哈希變換方法[11]和深度學(xué)習(xí)方法[12].深度學(xué)習(xí)方法能夠利用神經(jīng)網(wǎng)絡(luò)構(gòu)造一個(gè)多模態(tài)公共空間,從而減小跨模態(tài)的異構(gòu)性.
現(xiàn)有的足跡研究受到數(shù)據(jù)樣本的限制,關(guān)于跨模態(tài)足跡檢索研究還很少.因此,本文首先利用光學(xué)足跡采集器和壓力足跡采集器,采集并建立了一個(gè)包含138人的跨模態(tài)足跡數(shù)據(jù)集.然后根據(jù)足跡圖像的特點(diǎn),設(shè)計(jì)了一種基于空間注意力機(jī)制的雙分支網(wǎng)絡(luò)用于跨模態(tài)足跡檢索.該網(wǎng)絡(luò)采用了雙分支結(jié)構(gòu),并引入了空間注意力機(jī)制和雙約束損失,以學(xué)習(xí)到更有效的多模態(tài)共享特征表示.
本文采集光學(xué)足跡圖像所使用的儀器為杭州創(chuàng)恒電子技術(shù)開發(fā)有限公司所研制的光學(xué)足跡采集器,如圖1(a)所示.該采集器由正面為腳踏面的等腰三棱鏡、均勻直流光源、拍攝裝置組成,采集時(shí)不需要在足底涂抹油墨,而是利用棱鏡全反射原理形成足跡圖像并由拍攝裝置獲取.光學(xué)足跡采集時(shí)的軟件界面如圖1(b)所示,采集圖像的分辨率為1 362×2 871 dpi.
(a) 光學(xué)足跡采集器(單位:mm)
本文采集壓力足跡圖像所使用的儀器是杭州創(chuàng)恒電子技術(shù)開發(fā)有限公司提供的單板壓力足跡采集器,如圖2(a)所示.采集的軟件界面如圖2(b)所示,采集圖像分辨率為250×150 dpi.
(a) 壓力足跡采集器
從生物力學(xué)角度來(lái)看,足跡采集器可以獲取采集者自然行走過(guò)程中的壓力變化以及足跡特征等數(shù)據(jù)信息.該采集器的性能穩(wěn)定,能夠較好地保證采集圖像的質(zhì)量,表1給出了采集器的主要技術(shù)參數(shù).其中采集頻率達(dá)到100 Hz,可以滿足人體行走時(shí)正常實(shí)現(xiàn)圖像采集的要求;傳感器密度達(dá)到25點(diǎn)/cm2,幅面達(dá)到50 cm×30 cm的有效區(qū)域,便于清晰地觀察到采集的壓力圖像.
表1 壓力采集器主要參數(shù)
數(shù)據(jù)采集前,首先在系統(tǒng)錄入被采集人員的身高、體重等基本信息.表2給出了被采集人員的基本信息分布.在圖像采集過(guò)程中,可能會(huì)受到光照、灰塵、被采集人員的腳部施力狀態(tài)和行走姿勢(shì)、儀器噪聲等因素的不同程度的影響.為了提高采集的規(guī)范性,要求采集儀器表面保持一定的清潔和一致的光照條件.足跡是體現(xiàn)人體心理的重要載體,心理活動(dòng)與足跡之間有著必然的聯(lián)系[13],因此被采集人員的心理活動(dòng)也會(huì)影響采集數(shù)據(jù)的質(zhì)量,故要求被采集人員在行走過(guò)程中盡量放松自然,同時(shí)要求腳印落在采集儀器的中心位置,以避免不必要的噪聲干擾.同時(shí)在正式采集前,被采集人員需要事先經(jīng)過(guò)采集器來(lái)回行走10趟.
表2 被采集人員的信息分布
正式采集時(shí),被采集人員在赤足條件下自然行走過(guò)采集器,采集器自動(dòng)采集行走時(shí)留下的左右腳各10幅足跡圖像.最終共采集5 520幅足跡圖像,其中光學(xué)赤足圖像和壓力赤足圖像各有2 760幅,表3統(tǒng)計(jì)了采集圖像的數(shù)量分布.圖3展示了不同被采集人員在每種模態(tài)下的6幅足跡圖像,其中左腳圖像和右腳圖像各3幅.同一個(gè)人的光學(xué)圖像和壓力圖像在形態(tài)、圖像分布位置等方面存在很大差異,同時(shí)在單模態(tài)內(nèi)同一個(gè)人以及不同人之間的圖像也存在一定差異,例如在光學(xué)圖像的紋理、形態(tài)等方面和壓力圖像的重壓面等方面.
(a) 被采集人員1的足跡圖像
表3 采集圖像的數(shù)量統(tǒng)計(jì)
足跡圖像采集易受光線、灰塵及儀器噪聲等因素影響,本文采用了中值濾波對(duì)光學(xué)足跡圖像和壓力足跡圖像進(jìn)行去噪.如圖3所示,采集的光學(xué)足跡圖像中含有標(biāo)尺部分,因此需要對(duì)圖像進(jìn)行去標(biāo)尺操作.光學(xué)赤足圖像的預(yù)處理如圖4所示,壓力赤足圖像的預(yù)處理如圖5所示.為了提升網(wǎng)絡(luò)模型的泛化能力和魯棒性,本文對(duì)采集圖像進(jìn)行垂直翻轉(zhuǎn)、水平翻轉(zhuǎn)、逆時(shí)針旋轉(zhuǎn)10°和順時(shí)針旋轉(zhuǎn)10°的數(shù)據(jù)增廣.光學(xué)足跡圖像和壓力足跡圖像的增廣操作如圖6和圖7所示.經(jīng)擴(kuò)充后,每個(gè)人的光學(xué)足跡圖像和壓力足跡圖像分別擴(kuò)展為100幅.
(a) 原圖
(a) 原圖
(a) 濾波
不同模態(tài)足跡圖像的特征既有共性,又有各自的特點(diǎn),并且不同個(gè)體的足跡圖像特征差異小,同一個(gè)體的足跡圖像特征差異大.因此,為了獲取具有同一個(gè)體穩(wěn)定性、不同個(gè)體高區(qū)分性的特征,本文設(shè)計(jì)了一個(gè)既能充分學(xué)習(xí)每個(gè)模態(tài)中具有辨別性的固有特征又能獲取不同模態(tài)足跡的共享特征空間的雙分支網(wǎng)絡(luò).該網(wǎng)絡(luò)結(jié)構(gòu)包含特征提取模塊、特征嵌入和雙約束損失3個(gè)模塊,如圖8所示,該網(wǎng)絡(luò)結(jié)構(gòu)以端到端的方式學(xué)習(xí)特征表示并進(jìn)行距離度量.
圖8 跨模態(tài)足跡檢索的網(wǎng)絡(luò)結(jié)構(gòu)
在深度學(xué)習(xí)中,隨著網(wǎng)絡(luò)深度的增加,可能會(huì)伴隨著梯度消失或梯度爆炸等問(wèn)題,不利于網(wǎng)絡(luò)的收斂?jī)?yōu)化.常用的ResNet50[14]通過(guò)短接操作構(gòu)建了恒等映射,使得原始粗略的特征和訓(xùn)練后得到的精細(xì)化特征之間相互補(bǔ)充,以增強(qiáng)有用的特征,過(guò)濾掉一些無(wú)用特征.同時(shí),ResNet50網(wǎng)絡(luò)的學(xué)習(xí)過(guò)程是去擬合殘差,不是直接擬合輸入和輸出,優(yōu)化更簡(jiǎn)單,不僅能學(xué)習(xí)充分的足跡信息,還使得梯度反向傳播時(shí)不容易出現(xiàn)梯度消失等問(wèn)題.因此,本文在特征提取模塊中,采用經(jīng)過(guò)預(yù)訓(xùn)練的ResNet50網(wǎng)絡(luò)作為雙分支結(jié)構(gòu)中的每個(gè)單分支的基礎(chǔ)網(wǎng)絡(luò),提取足跡特征,ResNet50的網(wǎng)絡(luò)結(jié)構(gòu)圖如9所示.考慮到各模態(tài)中細(xì)粒度足跡圖像的類內(nèi)特征不易學(xué)習(xí),本文在各分支的ResNet50網(wǎng)絡(luò)的Layer3和Layer4層后引入空間注意力模塊,從而學(xué)習(xí)到各模態(tài)中更有辨別性的固有特征;在特征嵌入模塊中通過(guò)部分參數(shù)共享構(gòu)建一個(gè)模態(tài)共享空間;為了增大模態(tài)內(nèi)的類間差異和減小跨模態(tài)中同類別之間的差異[15],本文應(yīng)用了雙約束損失,即交叉熵?fù)p失和異質(zhì)中心損失.
圖9 ResNet50的網(wǎng)絡(luò)結(jié)構(gòu)
細(xì)粒度足跡圖像存在較大的類內(nèi)差距和較小的類間差距,增加了各模態(tài)類內(nèi)和類間特征學(xué)習(xí)的難度.為了使網(wǎng)絡(luò)關(guān)注到各模態(tài)內(nèi)不同類別圖像的關(guān)鍵區(qū)域,學(xué)習(xí)到更有辨別性的特征,本文在ResNet50基礎(chǔ)網(wǎng)絡(luò)的Layer3和Layer4層后引入了1×1的空間注意力機(jī)制,空間注意力結(jié)構(gòu)圖如圖10所示.該注意力主要包括一個(gè)1×1的卷積操作和一個(gè)Sigmoid激活操作,具體實(shí)現(xiàn)是將ResNet50網(wǎng)絡(luò)的Layer3和Layer4層后輸出的尺寸為b×c×h×w的特征圖通過(guò)一個(gè)1×1的卷積和Sigmoid激活操作,得到一個(gè)注意力掩圖,再將注意力掩圖與輸入特征圖進(jìn)行對(duì)應(yīng)元素相乘操作,以得到可以突出關(guān)鍵區(qū)域的特征向量,其中b表示超參數(shù)batch size,c為通道數(shù),h和w分別為高度和寬度;Sigmoid激活函數(shù)可以增加神經(jīng)網(wǎng)絡(luò)模型的非線性,以便增加對(duì)樣本非線性關(guān)系的擬合能力.考慮到學(xué)習(xí)到的凸顯關(guān)鍵區(qū)域的特征向量可能具有局限性,再將其和原始輸入特征向量進(jìn)行對(duì)應(yīng)元素相加的操作,以學(xué)習(xí)到更為全面的特征,即圖10中的輸出特征圖.
圖10 1×1的空間注意力模塊
為了能同時(shí)考慮到模態(tài)內(nèi)和模態(tài)間的差異,本文采用雙約束損失對(duì)網(wǎng)絡(luò)進(jìn)行約束.損失函數(shù)結(jié)構(gòu)如圖11所示,通過(guò)將圖8中雙分支網(wǎng)絡(luò)輸出的2個(gè)模態(tài)的特征向量在第一維度上拼接后再訓(xùn)練,實(shí)現(xiàn)特征嵌入模塊中的參數(shù)共享,以此來(lái)構(gòu)建一個(gè)模態(tài)共享空間,再將拼接的特征向量經(jīng)過(guò)全連接層FC1、BN層得到降維特征向量,最后經(jīng)過(guò)2種不同的處理分別得到交叉熵?fù)p失和異質(zhì)中心損失.本文總的損失函數(shù)如下:
圖11 損失函數(shù)結(jié)構(gòu)圖
LZ=LID+LHC
(1)
式中,LID為交叉熵?fù)p失;LHC為異質(zhì)中心損失.
交叉熵?fù)p失是利用特定模態(tài)信息來(lái)學(xué)習(xí)類別特征,并對(duì)各模態(tài)的類內(nèi)特征進(jìn)行約束,使類間差異增大,同時(shí)也有助于增大跨模態(tài)樣本的相關(guān)性.如圖11所示,全連接層FC1、BN層后得到的降維特征向量,經(jīng)過(guò)LeakyRelu激活函數(shù)和Dropout丟棄訓(xùn)練策略的處理后,再經(jīng)過(guò)全連接層FC2、Softmax函數(shù)后結(jié)合標(biāo)簽計(jì)算可得到交叉熵?fù)p失.其中,BN可以在一定程度上提升網(wǎng)絡(luò)訓(xùn)練速度,加快收斂過(guò)程;Dropout操作則是為了防止過(guò)擬合.交叉熵?fù)p失計(jì)算公式如下:
(2)
式中,i表示每個(gè)訓(xùn)練樣本;K表示2倍的batch size,本文中batch size為32;j表示每個(gè)類別;n為總的類別數(shù),本文中n設(shè)置為82;xi為第i個(gè)樣本的特征向量;yi為樣本i的真實(shí)類別;wj表示第j列的權(quán)重,wyi表示第yi列的權(quán)重.
異質(zhì)中心損失可以通過(guò)降低跨模態(tài)同類別樣本的中心距離來(lái)減小跨模態(tài)的類內(nèi)差異[16].如圖11所示,全連接層FC1、BN層后得到的降維特征向量,經(jīng)過(guò)L2正則化處理后,再將每個(gè)模態(tài)的特征向量結(jié)合每個(gè)模態(tài)的標(biāo)簽計(jì)算可得到異質(zhì)中心損失.異質(zhì)中心損失計(jì)算公式如下:
(3)
實(shí)驗(yàn)所用計(jì)算機(jī)帶有2塊NVIDIA 2070ti顯卡,采用Linux操作系統(tǒng).網(wǎng)絡(luò)模型均在PyTorch中搭建,使用隨機(jī)梯度下降(SGD)優(yōu)化器進(jìn)行訓(xùn)練,損失函數(shù)為交叉熵?fù)p失和異質(zhì)中心損失,經(jīng)過(guò)200次迭代后完成訓(xùn)練.本文將前100次迭代的網(wǎng)絡(luò)學(xué)習(xí)率設(shè)置為0.01,后100次迭代的網(wǎng)絡(luò)學(xué)習(xí)率設(shè)置為0.001,每次迭代的批處理大小設(shè)置為32.
本文采用文獻(xiàn)[17-18]中的評(píng)價(jià)指標(biāo)來(lái)評(píng)估細(xì)粒度跨模態(tài)檢索的性能,即平均精度均值(mAP)和CMC曲線中的Rank1、Rank5、Rank10.其中RankK值表示檢索集中前K個(gè)檢索結(jié)果中出現(xiàn)正確匹配的概率.本文基于跨模態(tài)足跡圖像的互檢索問(wèn)題開展研究,為了充分體現(xiàn)本文方法的互檢索性能,將2種檢索模式下mAP均值和Rank1均值作為本文的評(píng)價(jià)指標(biāo).
將實(shí)驗(yàn)數(shù)據(jù)集劃分為訓(xùn)練集、驗(yàn)證集和測(cè)試集,其中訓(xùn)練集含82人的光學(xué)和壓力足跡圖像,驗(yàn)證集含28人的光學(xué)和壓力足跡圖像,測(cè)試集也含28人的光學(xué)和壓力足跡圖像.為了保證實(shí)驗(yàn)的科學(xué)性,確保訓(xùn)練集、驗(yàn)證集和測(cè)試集的類別和圖像互不交叉重疊,本文采用2種檢索模式:① 根據(jù)光學(xué)圖像檢索壓力圖像;② 根據(jù)壓力圖像檢索光學(xué)圖像.為了提高檢索的可靠性,將驗(yàn)證集和測(cè)試集中查詢庫(kù)和檢索庫(kù)的數(shù)據(jù)量比例設(shè)置為1∶2,即查詢庫(kù)中每人50幅圖像,檢索庫(kù)中每人100幅圖像.在每次迭代中進(jìn)行訓(xùn)練后都在驗(yàn)證集上進(jìn)行測(cè)試,得到mAP和Rank值,并且將Rank1取得最高值的模型保存為最優(yōu)模型.為了證明模型的有效性,最后在測(cè)試集中運(yùn)用保存的最優(yōu)模型進(jìn)行驗(yàn)證,記錄和保存最后的實(shí)驗(yàn)結(jié)果.
本文提出了基于空間注意力機(jī)制的雙分支網(wǎng)絡(luò)結(jié)構(gòu),為了驗(yàn)證該結(jié)構(gòu)的檢索性能,從5個(gè)方面進(jìn)行對(duì)比實(shí)驗(yàn).
3.4.1 圖像預(yù)處理對(duì)檢索性能的影響
為了證明本文采用的去標(biāo)尺、濾波和數(shù)據(jù)增強(qiáng)等預(yù)處理方法對(duì)跨模態(tài)足跡檢索的實(shí)用性,在預(yù)處理前和預(yù)處理后的數(shù)據(jù)集上進(jìn)行了實(shí)驗(yàn)效果對(duì)比,如表4所示.由表可知,在光學(xué)到壓力檢索模式下的mAP值和Rank1值達(dá)到70.17%和90.64%,在壓力到光學(xué)檢索模式下的mAP值和Rank1值達(dá)到71.49%和84.36%,預(yù)處理之后的mAP均值和Rank1均值分別為70.83%和87.50%,相較于預(yù)處理之前的檢索精度分別高出7.52%和11.43%,進(jìn)一步提高了跨模態(tài)足跡檢索的精度.濾波能夠去除一定的噪聲,提高采集圖像的質(zhì)量,有利于卷積神經(jīng)網(wǎng)絡(luò)的特征學(xué)習(xí)和網(wǎng)絡(luò)的訓(xùn)練優(yōu)化,并且通過(guò)數(shù)據(jù)增廣的操作,能夠增強(qiáng)網(wǎng)絡(luò)的泛化性,提高跨模態(tài)足跡圖像的檢索精度.
表4 預(yù)處理前后的跨模態(tài)足跡檢索效果圖 %
3.4.2 消融實(shí)驗(yàn)
為了驗(yàn)證本文設(shè)計(jì)的雙分支網(wǎng)絡(luò)中引入空間注意力機(jī)制及雙約束損失在跨模態(tài)足跡檢索中的有效性,進(jìn)行了消融實(shí)驗(yàn).實(shí)驗(yàn)結(jié)果如表5所示,表中CBAM(convolutional block attention module)是一種結(jié)合了通道注意力和空間注意力的注意力機(jī)制,可以與一些前饋卷積神經(jīng)網(wǎng)絡(luò)集成[19].
表5中還比較了不同雙約束損失下的檢索結(jié)果.當(dāng)只采用交叉熵?fù)p失時(shí),mAP均值為51.18%,Rank1均值為75.11%.若采用交叉熵?fù)p失和中心損失時(shí),mAP均值為46.46%,Rank1均值為69.47%,相較于僅使用交叉熵?fù)p失時(shí)的實(shí)驗(yàn)效果,分別降低了4.72%和5.64%,表明中心損失[20]不利于本文的跨模態(tài)足跡檢索研究.若采用中心損失和異質(zhì)中心損失時(shí),實(shí)驗(yàn)效果最好,mAP均值為67.99%,Rank1均值為85.15%,不僅優(yōu)于采用交叉熵?fù)p失和中心損失時(shí)的mAP均值和Rank1均值,相較于僅使用交叉熵?fù)p失時(shí)的實(shí)驗(yàn)效果,mAP均值和Rank1均值也分別提高了16.81%和10.04%.這不僅說(shuō)明了異質(zhì)中心損失的實(shí)驗(yàn)效果優(yōu)于中心損失,而且本文采用的交叉熵和異質(zhì)中心損失的雙約束損失也明顯優(yōu)于單個(gè)交叉熵?fù)p失,大大提升了實(shí)驗(yàn)效果.由表5可知,在采用交叉熵?fù)p失基礎(chǔ)上,在網(wǎng)絡(luò)的Layer3和Layer4層引入空間注意力機(jī)制的檢索效果,相較于引入CBAM注意力機(jī)制,mAP均值和Rank1均值分別提高了1.05%和1.14%;同時(shí)本文在雙約束損失的基礎(chǔ)上,引入空間注意力機(jī)制的檢索效果也明顯優(yōu)于CBAM注意力機(jī)制,其中mAP均值和Rank1均值分別提高了2.85%和3%.實(shí)驗(yàn)結(jié)果表明,在網(wǎng)絡(luò)的Layer3和Layer4層引入空間注意力機(jī)制有助于學(xué)習(xí)到可辨別性特征,進(jìn)一步提升跨模態(tài)檢索性能.
表5 本文方法的消融實(shí)驗(yàn)結(jié)果 %
3.4.3 特征提取模塊對(duì)比實(shí)驗(yàn)
為了驗(yàn)證本文特征提取模塊的有效性,分別與AlnexNet、Vgg19、ResNet18、ResNet34、ResNet50、InceptionV4、InceptionResNetV2、MobileNet、ShuffleNetV2這9種特征提取網(wǎng)絡(luò)進(jìn)行了對(duì)比實(shí)驗(yàn),不同特征提取模塊的效果如圖12所示.從圖中可以觀察到,ResNet網(wǎng)絡(luò)相較于其他網(wǎng)絡(luò),能夠取得較好的實(shí)驗(yàn)效果.AlexNet網(wǎng)絡(luò)出現(xiàn)時(shí)間最早,只包含8層;Vgg19網(wǎng)絡(luò)采用連續(xù)的幾個(gè)3×3的卷積核代替AlexNet中的較大卷積核,增加了網(wǎng)絡(luò)的深度,但參數(shù)量遠(yuǎn)遠(yuǎn)多于AlnexNet網(wǎng)絡(luò);InceptionV4采用了不同Inception模塊的連接,并使用全局平均池化代替全連接層,減少參數(shù)量;InceptionResNetV2在InceptionV4的基礎(chǔ)上引用ResNet網(wǎng)絡(luò)中殘差連接操作,以訓(xùn)練更深的網(wǎng)絡(luò);MobileNet和ShuffleNetV2這2種輕量級(jí)網(wǎng)絡(luò)能夠較好地實(shí)現(xiàn)計(jì)算速度與準(zhǔn)確度之間的平衡.
圖12 不同特征提取模塊的mAP均值和Rank1均值
如圖12所示,ResNet50的檢索精度最高,其中mAP均值和Rank1均值相較于Vgg19,分別提高了64.06%和81.50%;相較于AlnexNet,分別提高了33.57%和31.93%;而InceptionResNetV2下的mAP均值和Rank1均值比InceptionV4下的分別高出21.99%和25.32%,也說(shuō)明了這種殘差連接操作的有效性,但相比較于ResNet50,仍分別降低了8.97%和3.54%,考慮到InceptionResNetV2相對(duì)于ResNet50的網(wǎng)絡(luò)結(jié)構(gòu)復(fù)雜性更大,因此不利于跨模態(tài)足跡檢索的研究;而 MobileNet和ShuffleNetV2這2種輕量級(jí)網(wǎng)絡(luò)的檢索效果均低于ResNet50.從以上數(shù)據(jù)分析可以看出ResNet50網(wǎng)絡(luò)相較于其他網(wǎng)絡(luò)的有效性,由于網(wǎng)絡(luò)設(shè)計(jì)的高效和殘差模塊的引入,可以學(xué)習(xí)到更加深層的語(yǔ)義信息.為了使網(wǎng)絡(luò)提取到更具有辨別性的特征,本文在ResNet50的Layer3和Layer4層引入了1×1的空間注意力機(jī)制,其中mAP均值和Rank1均值比ResNet50下的分別提高了2.84%和2.35%,進(jìn)一步提升了實(shí)驗(yàn)效果,也驗(yàn)證了本文引入的空間注意力機(jī)制對(duì)跨模態(tài)足跡檢索中特征學(xué)習(xí)的有效性.
3.4.4 空間注意力機(jī)制位置的對(duì)比實(shí)驗(yàn)
本文將1×1的空間注意力機(jī)制應(yīng)用在ResNet50的Layer3和Layer4層.為了證明實(shí)驗(yàn)的合理性,本文將該空間注意力機(jī)制應(yīng)用在ResNet50的不同Layer層間的實(shí)驗(yàn)效果進(jìn)行了對(duì)比,結(jié)果如圖13所示.當(dāng)空間注意力機(jī)制應(yīng)用在ResNet50的Layer1、Layer2、Layer3和Layer4時(shí)的mAP均值分別為68.82%、69.53%、70.46%、68.57%,而應(yīng)用在Layer1和Layer2層、Layer2和Layer3層以及Layer3和Layer4層的mAP均值分別為69.84%、70.82%和70.83%,基本優(yōu)于注意力機(jī)制應(yīng)用在單層時(shí)的實(shí)驗(yàn)效果,而應(yīng)用在Layer2和Layer3層以及Layer3和Layer4層的mAP均值相較于Layer1和Layer2層的實(shí)驗(yàn)效果,分別提升了0.98%和0.99%,也說(shuō)明在ResNet50網(wǎng)絡(luò)的后幾層應(yīng)用空間注意力能夠進(jìn)一步提升跨模態(tài)檢索精度.
圖13 空間注意力機(jī)制在不同Layer層間的mAP值
3.4.5 與其他跨模態(tài)檢索方法的比較
為了進(jìn)一步驗(yàn)證本文跨模態(tài)足跡檢索算法的有效性,在本文采用的足跡數(shù)據(jù)集上,與常用的跨模態(tài)檢索方法FGC[21]、BDTR[22]、HC[16]進(jìn)行對(duì)比實(shí)驗(yàn).FGC的研究對(duì)象是包含圖像、文本、聲音以及視頻的多模態(tài)數(shù)據(jù),提升了細(xì)粒度檢索效果;BDTR和HC的研究對(duì)象是行人重識(shí)別中的可見光和紅外光行人圖像,在跨模態(tài)行人重識(shí)別領(lǐng)域取得較好的檢索效果.表6中顯示了不同方法下的mAP均值和Rank均值的對(duì)比實(shí)驗(yàn)結(jié)果.由表可知,本文方法取得最優(yōu)效果,其中mAP均值、Rank1均值、Rank5均值、Rank10均值和Rank20均值分別達(dá)到70.83%、87.50%、94.07%、96.22%和97.83%,相較于FGC,分別高出26.28%、30%、21.42%、15.97%和11.47%;相較于HC,分別高出12.95%、10.32%、6.07%、4.29%和2.72%;相較于BDTR,分別高出64.49%、74.82%、62.78%、51.47%和37%.
表6 不同方法的結(jié)果對(duì)比 %
FGC方法是將各模態(tài)輸入樣本在第一維度上進(jìn)行拼接后再經(jīng)過(guò)一個(gè)單分支的ResNet50網(wǎng)絡(luò)進(jìn)行多模態(tài)的學(xué)習(xí),損失函數(shù)包括交叉熵?fù)p失和中心損失,其中交叉熵?fù)p失是為了實(shí)現(xiàn)各模態(tài)類別的分類以及確保多模態(tài)中同類別特征的緊致性,中心損失是為了實(shí)現(xiàn)各模態(tài)類別的分類以及確保多模態(tài)中同類別特征的緊致性,但是該中心損失僅有益于減小同模態(tài)的類內(nèi)特征距離,忽略了跨模態(tài)的類內(nèi)之間的距離.BDTR方法以AlexNet為基礎(chǔ)網(wǎng)絡(luò)構(gòu)建了雙分支網(wǎng)絡(luò)結(jié)構(gòu),設(shè)計(jì)了雙向雙重約束損失,而AlexNet屬于淺層網(wǎng)絡(luò),在特征學(xué)習(xí)階段無(wú)法學(xué)習(xí)到每個(gè)模態(tài)的固有特征,不利于網(wǎng)絡(luò)的整體優(yōu)化.HC方法中采用了類似BDTR中的雙分支網(wǎng)絡(luò)結(jié)構(gòu),損失函數(shù)和本文的雙約束損失相同,但由于該方法對(duì)網(wǎng)絡(luò)輸出特征向量進(jìn)行多次分割后再分別計(jì)算損失值,使得網(wǎng)絡(luò)難以有效地學(xué)習(xí)跨模態(tài)足跡特征.而本文設(shè)計(jì)的跨模態(tài)足跡檢索算法,不僅采用了有效的雙分支網(wǎng)絡(luò)學(xué)習(xí)各模態(tài)的固有特征,并在網(wǎng)絡(luò)的Layer3和Layer4層引入空間注意力機(jī)制,有助于獲取更有辨別性的足跡特征.同時(shí)還采用了雙約束損失來(lái)優(yōu)化網(wǎng)絡(luò),考慮到了模態(tài)內(nèi)和模態(tài)間的特征差異,其中異質(zhì)中心損失計(jì)算中沒(méi)有對(duì)輸出特征向量進(jìn)行分割,增強(qiáng)了足跡特征的相關(guān)性.
1) 該網(wǎng)絡(luò)在特征提取模塊的各分支中分別采用ResNet50作為基礎(chǔ)網(wǎng)絡(luò),并為了學(xué)習(xí)到更有辨別性的固有特征,在Layer3和Layer4層還引入空間注意力機(jī)制.
2) 為了減小跨模態(tài)的異構(gòu)性,在特征嵌入模塊通過(guò)部分參數(shù)共享學(xué)習(xí)一個(gè)多模態(tài)的公共空間.
3) 為了同時(shí)對(duì)模態(tài)內(nèi)和模態(tài)間的特征學(xué)習(xí)進(jìn)行約束,本文采用了交叉熵?fù)p失和異質(zhì)中心損失的雙約束損失.最后在所構(gòu)建的138人數(shù)據(jù)集上進(jìn)行消融以及對(duì)比實(shí)驗(yàn),結(jié)果表明:在光學(xué)到壓力檢索模式下的mAP值和Rank1值達(dá)到70.17%和90.64%,在壓力到光學(xué)檢索模式下的mAP值和Rank1值達(dá)到71.49%和84.36%.這2種檢索模式下的mAP均值和Rank1均值分別達(dá)到70.83%和87.50%,優(yōu)于常用的FGC、BDTR、HC等跨模態(tài)檢索方法.