李 韜,李 捷,徐大林
(江蘇自動(dòng)化研究所,江蘇 連云港 222061)
行人重識別(Person Re-identification,Re-ID)是一個(gè)重要的計(jì)算機(jī)視覺任務(wù),其目的是跨攝像頭檢索同一身份的行人。由于在不同攝像機(jī)視角下行人的視覺表達(dá)有劇烈的變化,因此,行人重識別是一個(gè)極具挑戰(zhàn)的任務(wù)。如何找到一個(gè)具有高辨識度的特征表達(dá)是這個(gè)任務(wù)的關(guān)鍵之一。
多任務(wù)學(xué)習(xí)(Multi-task Learning,MTL)是機(jī)器學(xué)習(xí)中的一種學(xué)習(xí)范式,其目的是利用多個(gè)相關(guān)任務(wù)的有用信息使得所有任務(wù)相互受益[1]。在多層特征空間模型中,任務(wù)是相關(guān)的,很自然就想到的一種方式是所有子任務(wù)共享低層特征空間[1]。這種共享的特征空間比單獨(dú)任務(wù)的特征空間具有更強(qiáng)的表達(dá)能力。
在最近的行人重識別領(lǐng)域中,許多模型使用了多任務(wù)的思想來提高模型的性能。文獻(xiàn)[2]通過引入批量特征圖遮擋的任務(wù)來提高模型的泛化能力。文獻(xiàn)[3]通過大量的實(shí)驗(yàn)表明了聯(lián)合訓(xùn)練softmax損失函數(shù)和triplet損失函數(shù)能夠顯著提升模型性能。文獻(xiàn)[4]所提出的模型使用了多個(gè)損失函數(shù),并且可以被看作聯(lián)合了姿態(tài)任務(wù)和分類任務(wù)。
然而,本文中我們考慮從全局特征空間中提取多個(gè)特征子空間,并把聯(lián)合訓(xùn)練多個(gè)特征子空間看作一個(gè)多任務(wù)學(xué)習(xí)。具體而言,首先,在初始全局特征空間中提取多個(gè)特征子空間,然后,聯(lián)合訓(xùn)練這些特征子空間來提高最終全局特征空間的表達(dá)能力。所提的模型之所以使用特征子空間,是因?yàn)樘卣髯涌臻g更容易學(xué)習(xí)細(xì)粒度特征,從而使得最終的全局特征空間擁有更多的細(xì)粒度特征[5]。這一現(xiàn)象的本質(zhì)類似于隨機(jī)擦除,隨機(jī)擦除通過遮擋部分區(qū)域構(gòu)造新的數(shù)據(jù),其作為一個(gè)數(shù)據(jù)增強(qiáng)的方法能夠有效提高模型的泛化能力。在我們的方法中,特征子空間可以被看作一個(gè)被遮擋的全局特征空間,從而迫使特征子空間學(xué)習(xí)更多細(xì)粒度特征而提高泛化能力。注意,本文中使用了兩種方法來獲得特征子空間:一種是對原始特征空間進(jìn)行分割,另一種是對原始特征空間進(jìn)行不同的池化。與隨機(jī)擦除通過遮擋特征圖所有通道的部分區(qū)域相比,我們的方法可以看作是遮擋某層特征圖的部分通道。
我們在Market-1501數(shù)據(jù)集和DukeMTMC-reID數(shù)據(jù)集上進(jìn)行了大量的實(shí)驗(yàn)。實(shí)驗(yàn)結(jié)果表明基于多任務(wù)學(xué)習(xí)的多特征子空間方法能夠顯著提升行人重識別的性能。
1)我們?yōu)樾腥酥刈R別問題提出了一個(gè)新的簡單的多任務(wù)方法,該方法是基于多特征子空間和多softmax損失函數(shù)的。
2)基于上述方法,我們提出了一個(gè)新的叫作多特征子空間(Multiple Feature Subspaces,MFS)模型,該模型顯著提升了行人重識別性能。
3)在Market-1501和DukeMTMC-reID數(shù)據(jù)集上做出了大量的實(shí)驗(yàn)。
在行人重識別領(lǐng)域,近年來許多方法采用卷積神經(jīng)網(wǎng)絡(luò)來提取特征。隨著越來越多的卷積網(wǎng)絡(luò)模型的提出[6-7],許多工作致力于將這些新的模型融合到行人重識別中[8]。此外,許多工作也在研究深度度量學(xué)習(xí)。例如,triplet損失函數(shù)[9]是來自于度量學(xué)習(xí)的一個(gè)普遍而有效的損失函數(shù),其通過拉大類間距離并縮小類內(nèi)聚類來增強(qiáng)模型的表達(dá)能力。
多任務(wù)學(xué)習(xí)利用多個(gè)相關(guān)任務(wù)來提高所有任務(wù)的泛化能力。事實(shí)上,多層的前饋神經(jīng)網(wǎng)絡(luò)就是一個(gè)天然的多任務(wù)學(xué)習(xí)模型。其輸入層和隱藏層可以看作是多個(gè)任務(wù)共享的部分,輸出部分可以看作許多子任務(wù)的并列所得。此外,文獻(xiàn)[10]提出了一個(gè)交互學(xué)習(xí)模型,該模型中一組學(xué)生模型在訓(xùn)練期間通過相互學(xué)習(xí)來提升自己。
事實(shí)上,多任務(wù)學(xué)習(xí)在行人重識別中也是廣泛應(yīng)用的。許多行人重識別方法可以被看作多任務(wù)模型。例如,對行人分割后使用多個(gè)損失函數(shù)來約束相應(yīng)部分的方法就是其中一個(gè),并已經(jīng)被證實(shí)能夠顯著提升模型的性能,所以該方法在最近幾年中得到了大量關(guān)注和改進(jìn)。Zhao等人[11]探索了對人體多個(gè)部件建模并聯(lián)合表達(dá)的方法。文獻(xiàn)[12]提出了作者提出了一個(gè)聯(lián)合局部特征選擇和全局特征選擇的方法。文獻(xiàn)[13]提出了一個(gè)基于姿態(tài)的深度模型,該模型利用人體部件線索來提升模型性能,這就要求模型在學(xué)習(xí)特征表達(dá)的同時(shí)使用姿態(tài)點(diǎn)。Sun等人提出了一個(gè)基于人體部件的模型[14],其通過劃分特征圖和重新分配異常點(diǎn)的方法來實(shí)現(xiàn)自動(dòng)劃分人體部件。文獻(xiàn)[15]提出了一個(gè)多粒度網(wǎng)絡(luò)模型,該模型探索了行人重識別中的全局特征和局部特征的表征。Zhang等人[16]使用多個(gè)損失函數(shù)和一個(gè)金字塔模型來學(xué)習(xí)從粗粒度到細(xì)粒度的特征。Dai等人[17]在批量特征圖上遮擋部分區(qū)域來減少模型的過擬合。文獻(xiàn)[18]在基于softmax損失函數(shù)和triplet損失函數(shù)的基礎(chǔ)模型上使用許多技巧(tricks),從而使得模型性能達(dá)到了較高的水平,作者提到triplet損失函數(shù)和softmax損失函數(shù)具有相互促進(jìn)的優(yōu)點(diǎn),并加以改進(jìn)。
綜上可以看到,在行人重識別領(lǐng)域中,許多模型都使用了多任務(wù)學(xué)習(xí)的思想。然而,這些方法沒有考慮全局特征空間在通道上的劃分。在本文中,我們探索了如何使用多個(gè)特征子空間和softmax損失函數(shù)來增強(qiáng)全局特征空間的表達(dá)能力。通過對原始的全局特征空間在通道上進(jìn)行劃分,我們可以得到大量的特征子空間,并且,每個(gè)特征子空間都要由一個(gè)softmax損失函數(shù)來約束以保障其能學(xué)習(xí)到特征表達(dá)。
本文提出了多特征子空間模型(MFS),模型結(jié)構(gòu)如圖1所示。
行人重識別通常被視為一個(gè)圖像檢索問題,其主要目的是從數(shù)據(jù)集中找到相同身份的人的圖像。我們的主要目的是找到一個(gè)編碼函數(shù)f(·)和一個(gè)度量函數(shù)D(·,·),其中,f(·)將輸入的圖像x映射為一個(gè)高維特征向量f(x),之后,度量函數(shù)D(·,·)度量特征向量f(x)和f(y)的相似性。
本文中,我們訓(xùn)練一個(gè)神經(jīng)網(wǎng)絡(luò)來學(xué)習(xí)一個(gè)好的編碼函數(shù)f(·),并利用歐幾里得距離充當(dāng)度量函數(shù)D(·,·)。通常,我們首先把具有C個(gè)類的數(shù)據(jù)集X劃分為訓(xùn)練集Xtrain和測試集Xtest,然后,我們設(shè)計(jì)一個(gè)神經(jīng)網(wǎng)絡(luò),并通過在Xtrain上訓(xùn)練該網(wǎng)絡(luò)得到編碼函數(shù)f(x),然后,我們計(jì)算測試集Xtest上所有的編碼特征,并根據(jù)比較,找出前K個(gè)最接近所給的詢查圖像q的圖像集,最后,如果所找到的K個(gè)圖像的身份和詢查圖像q的身份一致率越高,那么,我們認(rèn)為所訓(xùn)練的神經(jīng)網(wǎng)絡(luò)越成功。
根據(jù)多任務(wù)學(xué)習(xí)的理論,單個(gè)任務(wù)學(xué)習(xí)不能使得模型忽視噪聲的影響,從而減弱了模型的泛化能力。然而,多任務(wù)學(xué)習(xí)中的多任務(wù)有不同的噪聲模式,所以,同時(shí)學(xué)習(xí)兩個(gè)任務(wù)的模型能夠減弱噪聲影響,并學(xué)習(xí)一個(gè)更泛化的特征表達(dá)。所以,我們的主要問題是如何構(gòu)建多個(gè)有用的多任務(wù)。在本文中,我們考慮特征子空間更容易學(xué)習(xí)細(xì)粒度特征,所以,把單個(gè)特征子空間的訓(xùn)練看作一個(gè)子任務(wù),將問題具體為如何在原始全局特征空間中提取多個(gè)特征子空間。
規(guī)范化描述上述思想,我們定義一個(gè)全局特征F,f(x)∈F。然后使用兩種方法來提取特征子空間,一個(gè)方法是使用平均池化和最大池化得到兩個(gè)池化特征子空間,F(xiàn)={Favg,F(xiàn)max},另一個(gè)是方法是把特征子空間按通道劃分為多個(gè)特征子空間,每個(gè)特征子空間所得通道在本文中是相同的。因此,我們能夠得到兩種級別的特征子空間。
圖1 MFS模型結(jié)構(gòu)
最終我們得到具有兩個(gè)級別的六個(gè)特征子空間,如下所示:
其中{Favg-0,F(xiàn)avg-1,F(xiàn)max-0,F(xiàn)max-1}構(gòu)建第一個(gè)最終全局特征空間,{Favg,F(xiàn)max}構(gòu)建第二個(gè)最終全局特征空間。
在訓(xùn)練階段,我們?yōu)槊恳粋€(gè)特征子空間分配一個(gè)softmax損失函數(shù),然后聯(lián)合訓(xùn)練這六個(gè)任務(wù)。注意,對{Favg,F(xiàn)max}兩個(gè)特征子空間的訓(xùn)練是必要的。如果我們拋棄{Favg,F(xiàn)max},那么余下模型相當(dāng)于四個(gè)完全一樣的小網(wǎng)絡(luò)組成的模型,小模型所學(xué)習(xí)的特征相同而沒有互補(bǔ)性,更不用說細(xì)粒度特征。換句話說,只有在{Favg,F(xiàn)max}存在的條件下,余下的四個(gè)任務(wù)才具有差異性。
基于上述方法,我們?yōu)樾腥酥刈R別提出了一個(gè)多特征子空間模型,所提出的多特征子空間模型MFS如圖1所示。我們的MFS模型把原始全局特征空間劃分為多個(gè)特征子空間,然后通過聯(lián)合訓(xùn)練使得它們能夠相互受益,從而得到一個(gè)更好的全局特征空間。
接下來,我們將把圖1所示的模型詳細(xì)說明。我們的模型結(jié)構(gòu)主要被劃分為四個(gè)部分:骨干網(wǎng)絡(luò)(Backbone Network,BN),平均池化的多子空間模塊(Multi-Subspace Block,M-SBK),最大池化的多子空間模塊(M-SBK)和最終的全局特征空間模塊(Final Global Feature Space Block,F(xiàn)-FBK)。此外,池化多子空間模塊可以分為三個(gè)子空間模塊(Subspace Block,SBK)。
1)骨干網(wǎng)絡(luò)
本文采用ResNet-50[6]作為骨干網(wǎng)絡(luò)來進(jìn)行特征提取。骨干網(wǎng)絡(luò)摒棄第四階段開始時(shí)的下采樣,所以接下來的特征圖會(huì)變大。ResNet-50的四個(gè)階段完成后,對特征圖進(jìn)行全局平均池化操作,從而得到一個(gè)2048維度的特征向量,稱這種類型的骨干網(wǎng)絡(luò)為平均池化骨干網(wǎng)絡(luò)(Average Pooling Backbone,AP-BN)。我們稱由AP-BN所得的特征空間為平均池化空間(Average Pooling Space,APS)。如果把最后的全局平均池化替換為全局最大池化,那么將此類骨干網(wǎng)絡(luò)稱之為最大池化骨干網(wǎng)絡(luò)(Maximum Pooling Backbone,MP-BN)。同樣,我們稱由MP-BN所得的特征空間為最大池化空間(Maxmum Pooling Space,MPS)。
2)子空間模塊
此模塊的主要作為是特征壓縮。此模塊跟隨在骨干網(wǎng)絡(luò)之后,骨干網(wǎng)絡(luò)輸出的高維特征向量由此模塊的(Batch Normalization,BN)和一個(gè)全連接層(Fully Connected Layer,F(xiàn)CL)壓縮為低維的特征向量。我們稱這種壓縮組合為子空間模塊。
注意子空間模塊的輸出可以是任意低于2048維度的特征向量。
3)多子空間模塊
多個(gè)子空間模塊的組合即為多子空間模塊。本文中,多子空間模塊為三個(gè)子空間模塊組合而成。具體地,由骨干網(wǎng)絡(luò)所輸出的2048維特征向量經(jīng)過同等劃分操作生成兩個(gè)1024維特征向量,最終得到三個(gè)特征向量。每一個(gè)特征向量都追加一個(gè)子空間模塊,所以得到三個(gè)子空間模塊,這種組合稱為多子空間模塊。
可以看出,本文主要添加了兩個(gè)低維度的特征子空間模塊。這樣做的原因是低維度的特征子空間在高維空間存在的背景下能夠?qū)W習(xí)更多細(xì)粒度特征。高緯特征子空間模塊的主要作用是充當(dāng)全局空間,一方面能夠?qū)W習(xí)全局特征,另一方面能夠避免兩個(gè)低維度特征子空間模塊失去差異性。
4)全局特征空間模塊
全局特征空間模塊主要指的是圖1中模型的最終輸出模塊。事實(shí)上,本文從圖1中得知最終模型有6個(gè)特征子空間,為了避免重復(fù),相應(yīng)組合成了兩個(gè)最終全局特征空間,但我們只使用其一。
5)平均池化分支和最大池化分支
根據(jù)池化方式不同而組合了不同的特征空間。通常,骨干網(wǎng)絡(luò)的特征向量是全局平均池化所得,但是這種方式得到的特征向量只保留了平均池化的信息而丟失其他信息。因此,本文采用另一種全局最大池化來捕獲最大池化信息作為補(bǔ)充,故最終得到了兩種池化分支。平均池化分支(Average Pooling Branch,APB)由平均池化骨干網(wǎng)絡(luò)和平均池化多特征子空間模塊組合而成。相應(yīng)地,最大池化分支(Maximum Pooling Branch,MPB)由最大池化骨干網(wǎng)絡(luò)和最大池化多特征子空間模塊組成。
6)基礎(chǔ)網(wǎng)絡(luò)
選擇平均池化分支并只保留2048維特征子空間就組合成了基礎(chǔ)網(wǎng)絡(luò)。通過使用隨機(jī)擦除、熱啟動(dòng)、包括翻轉(zhuǎn)和剪切的數(shù)據(jù)增強(qiáng)方法,我們的基礎(chǔ)網(wǎng)絡(luò)模型在Marknet-1501數(shù)據(jù)集上達(dá)到了77.95%的Map和91.42的Rank-1。
7)MFS模型結(jié)構(gòu)
MFS模型如圖1所示。由平均池化分支和最大池化分支組成,兩個(gè)分支共享低層網(wǎng)絡(luò)。通過訓(xùn)練網(wǎng)絡(luò),本文得到了6個(gè)特征子空間。如圖1所示組成了兩個(gè)最終的全局特征空間,由于第一個(gè)和第二個(gè)高度重合,所以只使用第一個(gè)全局特征空間進(jìn)行下一步度量計(jì)算。
8)損失函數(shù)
盡管在度量學(xué)習(xí)中存在各種各樣的損失函數(shù),但是為了更好地探索、更加廣泛使用softmax損失函數(shù),我們只采用softmax損失函數(shù)。
正如網(wǎng)絡(luò)結(jié)構(gòu)中所描述的,我們的MFS模型有兩個(gè)分支,每個(gè)分支包含三個(gè)損失函數(shù),所以我們最終的模型共有6個(gè)softmax損失函數(shù)。單個(gè)softmax損失函數(shù)的公式為
其中,fi是第i個(gè)特征,Wk對應(yīng)第k類的權(quán)重向量,C代表訓(xùn)練數(shù)據(jù)集中有C個(gè)類別,N代表訓(xùn)練一個(gè)批量圖像有N張。我們最終的損失函數(shù)如下
其中,avg代表平均池化,2048和1024分別代表2048維向量和1024維向量。
本文使用Resnet-50作為骨干網(wǎng)絡(luò),所以最終得到的特征圖有2048個(gè)通道,把這2048通道特征圖當(dāng)作原始的全局特征空間。對于此特征空間的壓縮,通常使用全局平均池化來減少特征空間的維度,但是這樣只能獲得平均池化帶來的信息。本文中不僅僅使用全局平均池化得到平均池化的信息,也使用全局最大池化得到最大池化帶來的信息。引入最大池化特征子空間的目的有兩個(gè),一個(gè)是它能給平均池化特征子空間帶來增益,另一個(gè)是它能為最終的全局特征空間帶來新的信息,從而使我們能夠充分利用原始的全局特征空間。此外,我們能繼續(xù)劃分上一步所得的兩個(gè)池化的特征子空間,即把池化的特征子空間劃分為兩個(gè)維度相同的部分,所以可以再多得四個(gè)特征子空間。最終,對于共有的六個(gè)特征子空間,分別為其添加softmax損失函數(shù),并聯(lián)合訓(xùn)練。
本文測試了兩個(gè)廣泛使用的行人重識別數(shù)據(jù)集,一個(gè)為Market-1501[22],另一個(gè)為DukeMTMC-reID[23]。生成訓(xùn)練集和測試集的策略和我們最近的一些工作[17-18]一致。
在最近的工作中,輸入圖像的分辨率一般為384×128或者為286×128。本文采用286×128的分辨率。
我們的實(shí)驗(yàn)在評估階段只進(jìn)行了單查詢評估,并且沒有使用re-ranking[24]來提升模型性能。對于評價(jià)指標(biāo),本文使用了常用的Rank-1指標(biāo)和mAP(mean Average Precision)指標(biāo)。
測試階段,選擇第一個(gè)最終全局特征進(jìn)行度量計(jì)算。
為了測試所提出的改進(jìn)方法是否對高性能的基礎(chǔ)模型有益,我們對基礎(chǔ)模型增加了一些trick來增強(qiáng)模型,這些trick有熱啟動(dòng)、隨機(jī)擦除、設(shè)置第四層的下采樣stride為1來擴(kuò)張?zhí)卣鲌D,水平翻轉(zhuǎn)和隨機(jī)裁剪。通過使用這些trick和數(shù)據(jù)增強(qiáng)方法,我們的基礎(chǔ)網(wǎng)絡(luò)模型在Rank-1達(dá)到了91.42%,在mAP達(dá)到了77.95%。
在我們的模型中,骨干網(wǎng)絡(luò)的權(quán)重來自于基于ImageNet.[25]的預(yù)訓(xùn)練網(wǎng)絡(luò)權(quán)重,初始學(xué)習(xí)率設(shè)置為0.01,且每40個(gè)輪回下降10倍。然而,所有特征空間模塊和分類器的學(xué)習(xí)率在每個(gè)輪回中比骨干網(wǎng)絡(luò)高10倍。我們在前5個(gè)輪回中使用了熱啟動(dòng)。模型共訓(xùn)練100個(gè)輪回。優(yōu)化方法是批量隨機(jī)梯度下降(Mini-Batch Gradient Descent),批量為16。
對我們的MFS模型和其他模型在market-1501和DukeMTMC-reID數(shù)據(jù)集上的評價(jià)指標(biāo)進(jìn)行比較,比較結(jié)果如表1中所示。
表1 與其他行人重識別方法比較
本文模型在Market-1501數(shù)據(jù)集上達(dá)到了93.3%的Rank-1和82.8%的mAP,在DukeMTMC-reID數(shù)據(jù)集上達(dá)到了84.1%的Rank-1和72.3%的mAP。這表明我們最終的全局特征空間擁有更好的性能。
本文進(jìn)行了一些實(shí)驗(yàn)來展示我們模型的可視化結(jié)果,如圖2所示。前兩行是正確的結(jié)果,剩下兩行是失敗的結(jié)果。
這些性能的增益是因?yàn)閮蓚€(gè)原因,一個(gè)是基于多個(gè)特征子空間的多任務(wù)學(xué)習(xí)改善了每個(gè)特征子空間的性能,另一個(gè)是最大池化操作采樣到了新的特征從而豐富了最終的全局特征空間。在消融實(shí)驗(yàn)中,本文將通過逐個(gè)消融的方法來驗(yàn)證我們的猜想。
最終的全局特征空間性能得到提升,有兩個(gè)原因,一個(gè)是多任務(wù)學(xué)習(xí)造成的性能增益,另一個(gè)是添加的最大池化操作采樣到了新的信息。為了驗(yàn)證上述猜想,本文主要進(jìn)行了如下三個(gè)部分實(shí)驗(yàn),第一部分和第二部分主要針對第一個(gè)猜想,第三部分設(shè)計(jì)的實(shí)驗(yàn)針對第二個(gè)猜想。
圖2 MFS模型結(jié)果可視化
1)平均池化子空間(基礎(chǔ)網(wǎng)絡(luò))的增益
大量的實(shí)驗(yàn)在Market-1501數(shù)據(jù)集上進(jìn)行,從而研究是否基于多特征子空間的多任務(wù)學(xué)習(xí)能改善基礎(chǔ)網(wǎng)絡(luò)模型的性能。正如前文所述,基礎(chǔ)網(wǎng)絡(luò)的特征子空間僅僅為平均池化分支拋棄劃分所得的兩個(gè)特征子空間后剩余的2048維度特征子空間。我們主要探索了多特征子空間模塊對其的影響和最大池化子空間(同樣拋棄劃分所得的特征子空間)模塊對其的影響。實(shí)驗(yàn)結(jié)果如表2所示,+代表添加某一個(gè)模塊后,基礎(chǔ)網(wǎng)絡(luò)的平均池化空間的性能。MSBK代表多特征子空間模塊,MP代表最大池化子空間模塊。
我們發(fā)現(xiàn),無論添加哪個(gè)模塊都能使得基礎(chǔ)網(wǎng)絡(luò)的空間性能得到提升。根據(jù)表2的結(jié)果所示,如果只添加多特征子空間模塊,平均池化子空間的性能在mAP上提升了2.6%和在Rank-1上提升了1.2%,這表明平均池化子空間從其他特征子空間的學(xué)習(xí)中獲得益處。此外,如果只添加了最大池化子空間,那么平均池化子空間在mAP上提升了1.6%,在Rank-1上提升了0.4%。這表明平均池化子空間從最大池化子空間的學(xué)習(xí)中獲得益處。如果同時(shí)增加多特征子空間模塊和最大池化子空間模塊,那么平均池化子空間在mAP上提升了3.8%,在Rank-1上提升了1.3%。
表2 其他子任務(wù)對平均池化子空間的影響
2)最大池化子空間的增益
既然平均池化所采樣的信息和最大池化所采樣的信息是不同的,那么有必要探究最大池化子空間的情況。最大池化子空間的性能情況如表3所示。同樣地,+代表在最大池化子空間上添加模塊,MSBK代表多特征子空間模塊,AP代表平均池化分支(剔除了劃分所得的特征子空間),MPS代表最大池化特征子空間。
表3 其他子任務(wù)對最大池化子空間的影響
在MSBK的幫助下,最大池化子空間在mAP上增加了1.4%并在Rank-1上增加了0.4%。在AP的幫助下,最大池化子空間在mAP和Rank-1上分別增加了1.0%和1.3%。最終同時(shí)增加兩個(gè)模塊,最大池化子空間的mAP和Rank-1分別增加了2.2%和1.3%。
綜上兩個(gè)部分,多特征子空間能相互學(xué)習(xí)確實(shí)是成立的,第一個(gè)實(shí)驗(yàn)猜想得到了驗(yàn)證。
3)最大池化空間帶來的新特征
最后,我們主要關(guān)注最大池化空間所帶來的新信息。為了消除多任務(wù)學(xué)習(xí)帶來的影響而僅僅研究采樣新信息的增益,我們直接訓(xùn)練一個(gè)只有平均池化子空間和最大池化子空間的模型。首先,計(jì)算所得的平均池化子空間的性能,然后,計(jì)算平均池化子空間和最大池化子空間所合并的全局特征空間的性能,它們的差就代表新信息增益。實(shí)驗(yàn)結(jié)果如表4所示,可以看到,合并的全局特征空間比受多任務(wù)影響的平均池化子空間在mAP和Rank-1上分別增加了1.9%和1.3%。這表明第二個(gè)豐富全局特征空間的猜想是正確的,最大池化操作確實(shí)豐富了全局特征空間,增添了新信息。
4)多種池化比較
在全局池化中,有多種池化方法,其中最常見的有全局隨機(jī)池化(Stochastic pool)、全局LP范數(shù)池化(L2_norm pool)、全局softmax池化(Softmax pool)、全局混合池化(Mix pool)、全局平均池化(Average pool)和全局最大池化(Max pool)。其中,本模型把全局平均池化作為基本池化,其他池化作為開拓子空間之用。為了選擇較好的池化來開拓子空間,進(jìn)行了大量實(shí)驗(yàn)對常見池化進(jìn)行了比較,比較結(jié)果如表4所示,可以發(fā)現(xiàn)不同池化有不同效果,但是差別不大。隨機(jī)池化效果最低,L2范數(shù)池化效果最好。鑒于最大池化是常用的池化,所以把全局最大池化加入了模型MFS中。
表4 多種全局池化方法對比
本文為行人重識別提出了一個(gè)新的基于多特征子空間的多任務(wù)學(xué)習(xí)模型。這個(gè)模型把原始的全局特征空間劃分為多個(gè)特征子空間,利用多任務(wù)學(xué)習(xí)的思想同時(shí)訓(xùn)練多個(gè)子空間。實(shí)驗(yàn)結(jié)果表明,多特征子空間學(xué)習(xí)過程中相互受益,并且所拼接得到的最終全局特征空間獲得了新信息,因此使得模型更加魯棒。