摘要: 針對車輛重識別任務(wù)中樣本類內(nèi)差異性大和類間相似度高的問題,提出了一種Vision Transformer框架下的車輛重識別方法。設(shè)計一種關(guān)鍵區(qū)域選擇模塊,整合Transformer中注意力分?jǐn)?shù)矩陣,加強車輛的具有辨別性區(qū)域的關(guān)注程度,減小局部區(qū)域過度集中的注意力權(quán)重;構(gòu)建一種包含對比損失和中心損失的混合損失函數(shù),對比損失函數(shù)的引入增強了模型捕捉和比較樣本之間的差異的能力,中心損失使得同一類別的樣本更加緊密地聚集在一起,增強類間樣本的區(qū)分度。實驗結(jié)果驗證了其有效性。
關(guān)鍵詞: 車輛重識別; 自注意力機制; 注意力權(quán)重; 區(qū)域選擇
中圖分類號: TP391.41
文獻(xiàn)標(biāo)志碼: A
文章編號: 1671-6841(2025)01-0046-07
DOI: 10.13705/j.issn.1671-6841.2023179
Optimization of Vehicle Re-identification Model Based on Vision Transformer
ZHANG Zhen, ZHANG Yabin, TIAN Hongpeng
(School of Electrical Engineering and Information Engineering, Zhengzhou University, Zhengzhou 450001,
China)
Abstract: A vehicle re-identification method based on the Vision Transformer framework was proposed to address the challenges of large intra-class variations and high inter-class similarities in vehicle re-identification tasks. A key region selection module was designed to integrate attention score matrices from Transformers, enhancing the focus on discriminative regions of vehicles and reducing the excessive attention weights on local regions. A hybrid loss function was constructed, incorporating contrastive loss and center loss. The introduction of contrastive loss enhanced the model′s ability to capture and compare differences between samples, while center loss promoted tighter clustering of samples within the same category, thus improving inter-class sample discrimination. Experimental results validated the effectiveness of the proposed method.
Key words: vehicle re-identification; self-attention mechanism; attention weight; region selection
0引言
近年來,隨著人們對智能化設(shè)備的需求越來越多,重識別問題受到廣泛關(guān)注[1]。車輛的重識別任務(wù)能解決車輛識別、追蹤和定位等多個難題,并提高公安監(jiān)控系統(tǒng)的安全性和可靠性,成為計算機視覺領(lǐng)域的研究熱點。車輛重識別任務(wù)被認(rèn)為是圖像檢索的子任務(wù),其技術(shù)內(nèi)容主要為判斷圖像或視頻序列中是否存在特定車輛,解決跨攝像機、跨場景下的車輛識別與搜索[2]。
車輛重識別發(fā)展可以分為兩個階段。前一階段是Liu等[3]提出VeRi數(shù)據(jù)集前,當(dāng)時缺乏大規(guī)模高質(zhì)量數(shù)據(jù)集,主要以手動設(shè)計和提取特征為主,以各類探測器為輔進行車輛重識別。后一階段是隨著深度學(xué)習(xí)技術(shù)的發(fā)展,一些研究者或機構(gòu)提出了大規(guī)模的車輛重識別數(shù)據(jù)集,并統(tǒng)一了評價指標(biāo),基于卷積的模型被廣泛應(yīng)用于車輛重識別任務(wù)。
基于卷積的車輛重識別方法[4-7]通常使用三維卷積神經(jīng)網(wǎng)絡(luò)來提取視頻中的空間和時間特征,然后使用度量學(xué)習(xí)或注意力機制來增強鑒別性特征。這些研究都以卷積神經(jīng)網(wǎng)絡(luò)為核心,引入新的網(wǎng)絡(luò)結(jié)構(gòu)、注意力機制和局部特征表示。這類方法的優(yōu)勢是可以利用卷積層的局部感知能力來捕捉車輛的細(xì)節(jié)和紋理信息,以及使用池化層或下采樣層來減少計算量和參數(shù)量。然而,這類方法也存在一些缺點,如無法充分利用全局信息,以及受卷積和下采樣操作導(dǎo)致信息損失。
盡管在車輛重識別任務(wù)中,卷積神經(jīng)網(wǎng)絡(luò)一直是主流方法,然而近年來Transformer模型作為一種基于自注意力機制的新興模型,在自然語言處理和計算機視覺領(lǐng)域取得了顯著的成功。對于車輛重識別任務(wù)而言,Transformer模型具有獨特的優(yōu)勢和潛力。首先,Transformer模型能夠建模全局關(guān)系并捕捉圖像中的長距離依賴關(guān)系,這對理解車輛的整體結(jié)構(gòu)和特征分布至關(guān)重要。其次,Transformer的自注意力機制能夠有效地對不同位置的特征進行加權(quán)聚合,從而提高車輛特征的判別性和表達(dá)能力。此外,Transformer模型的可解釋性也為車輛重識別任務(wù)提供了便利,通過可視化注意力權(quán)重或熱力圖,研究人員可以更好地理解模型的決策過程和關(guān)注的區(qū)域。
當(dāng)前將Transformer應(yīng)用于研究車輛重識別的論文相對較少。這可能是由于車輛重識別任務(wù)的特殊性和挑戰(zhàn)性,以及卷積神經(jīng)網(wǎng)絡(luò)在該領(lǐng)域的廣泛應(yīng)用和成熟。Yu等[8]提出了一種面向語義的特征耦合Transformer模型,通過約束網(wǎng)絡(luò)學(xué)習(xí)更有效的特征,取得了較顯著效果,但是大大提高了模型的復(fù)雜度。Pan等[9]提出一種逐步混合Transformer模型應(yīng)對車輛重識別的多模態(tài)數(shù)據(jù)融合和特征學(xué)習(xí)的挑戰(zhàn),但需要手動設(shè)置融合配置,從而限制了不同場景下模型的魯棒性。Du等[10]設(shè)計了一種以Visual Transformer為骨干網(wǎng)絡(luò)的SIE模塊,核心思想是將視角信息整合到位置與圖像塊向量中,使模型能夠?qū)W習(xí)到不受視角變化影響的特征,由于視角因素在車輛重識別任務(wù)中占據(jù)的特殊地位,使整個模型的性能得到提升。這些方法都取得了非常好的效果,但對樣本間具有辨別性的區(qū)域關(guān)注度不足,同時也沒有考慮模型在圖像局部權(quán)重過于集中的問題。
Transformer模型的一個限制是它主要依賴于自注意力機制來建模全局信息,往往無法充分捕捉到圖像中的局部信息。這在車輛重識別任務(wù)中尤為重要,因為樣本之間的類內(nèi)差異性較大、類間相似度高。由于Transformer可能無法準(zhǔn)確捕捉到車輛圖像中的細(xì)微差異,從而導(dǎo)致模型在處理這些任務(wù)時表現(xiàn)不佳。
針對以上問題,本文提出一種基于Vision Transformer的車輛重識別模型的優(yōu)化方法。首先,設(shè)計了一種關(guān)鍵區(qū)域選擇模塊,在Vision TransforATpmmpMzS8gHFyhju6K05vURmfbJUJZjydx2RPKJ5DQ=mer模型中利用多頭注意力來提取特征,并計算出車輛圖像中具有細(xì)微差異的關(guān)鍵區(qū)域,加強對車輛的具有辨別性區(qū)域的關(guān)注度;其次,設(shè)計了一種混合損失函數(shù),其中的對比損失能夠捕捉和比較樣本間的差異,而中心損失對類別中心進行約束[11],縮短深層特征與相應(yīng)類中心在特征空間中的距離;最后,在兩個公開的車輛重識別數(shù)據(jù)集VehicleID和VeRi-776上進行實驗,并顯示出了其優(yōu)秀的性能。
1本文方法
本文提出的模型主要包括:1) 序列化與位置編碼。位于模型的第一層,該模塊將車輛圖片轉(zhuǎn)換為一種符合Transformer結(jié)構(gòu)輸入的序列化向量信息。2) Transformer編碼器。用以學(xué)習(xí)整張車輛圖片的全局特征信息。3) 關(guān)鍵區(qū)域選擇。能夠提取出具有分辨性的區(qū)域特征,提升模型區(qū)分細(xì)微差距的能力。4) 混合損失。在標(biāo)準(zhǔn)Vision Transformer中使用的交叉熵?fù)p失基礎(chǔ)上,構(gòu)造了包括對比損失和中心損失的混合損失函數(shù)。其結(jié)構(gòu)流程如圖1所示。
1.1序列化與位置編碼
首先,以不重疊的方式將輸入的單張車輛圖像X∈RH×W×C按照固定尺寸分割為圖像序列xi∈RP×P×C(i=1,2,…,N),其中:H×W為原圖像尺寸;C為通道數(shù);P×P和N=HW/P2分別為分割后的圖像塊尺寸和圖像塊個數(shù)。利用一個可學(xué)習(xí)線性映射向量
E∈R(P×P×C)×D將圖像塊序列中的每個元素映射到一個D維特征空間,同時使用一個可學(xué)習(xí)的分類向量
x∈R1×D作為分類令牌,用以提取目標(biāo)的全局特征表示。最后,使用一個位置編碼信息向量
E∈R(N+1)×D與映射后的圖像塊序列直接相加,即
Z=(x,
x1E,
x2E,…,xNE)+
E,(1)
作為Transformer的輸入序列。
1.2Transformers編碼器
Transformer編碼器由L個Transformer層堆疊而成,Transformer層的結(jié)構(gòu)包括多頭自注意力層(multi-head self attention layer,MSA)[12]、歸一化(layer norm,LN)、殘差連接(residual connection,RC)和多層感知機(multi-layer perceptron,MLP)。第l層的輸出結(jié)果為
Z′=
MSA(LN(Z))+Z,l=1,2,…,L,(2)
Z=MLP(LN(Z′))+
Z′,l=1,2,…,L,(3)
其中:Z′和Z分別代表序列特征矩陣經(jīng)過第l層MSA和MLP后的輸出。MSA層的底層邏輯是基于自注意力機制,模仿了生物視覺的顯著性檢測和選擇性注意,彌補了卷積神經(jīng)網(wǎng)絡(luò)感受野有限的問題[13]。
輸入序列進入每個MSA或MLP層前,都進行歸一化處理,經(jīng)過每個MSA或MLP層后,又使用殘差連接與歸一化前的輸入進行直接融合。MSA層的計算過程為
Q=ZWQ,
K=ZWK,
V=ZWV,
Z=Attention(Q,
K,V),i=1,2,…,k,
MultiHead(Q,K,V)=
Concat(Z,Z,…,
Z)Wo,(4)
其中:Attention(·)為注意力機制的計算操作;Concat(·)為連接操作;MultiHead(·)為拼接多個自注意力頭的輸出并線性變換操作;k為MSA層注意力的頭數(shù);Q、K和
V分別表示查詢向量、鍵值向量和值向量;
Z表示每個注意力頭的輸出向量;
Wo為輸出的投影矩陣;
WQ、WK和
WV為可學(xué)習(xí)的權(quán)重矩陣;
Q、K和V為單頭注意力中的
Q、K、V在不同特征子空間下進行的拆分。從多個角度提取特征相關(guān)性的同時不增加額外的計算量,并將各個自注意力層提取到的信息合并。
1.3關(guān)鍵區(qū)域選擇
雖然Transformer運用了自注意力、交叉注意力和位置編碼等方法,具備比較強的全局信息交互能力,但對于車輛重識別分類任務(wù)中具有較細(xì)微但關(guān)鍵區(qū)域的關(guān)注度并不充分,這可能導(dǎo)致模型在處理需要關(guān)注局部特征的任務(wù)時表現(xiàn)不佳。因此,本文提出一種關(guān)鍵區(qū)域的選擇方法。首先重新整合Transformer中注意力分?jǐn)?shù)矩陣,加強對車輛的具有辨別性區(qū)域的關(guān)注程度。其次,選擇性舍棄進入Transformer編碼器模塊最后一層的部分特征序列輸入,降低了局部區(qū)域過度集中的注意力權(quán)重。
具體來說,首先,第L個Transformer層即Transformer編碼器模塊最后一層的序列特征輸入為
Z=(Z0,
Z1,Z2,…,
ZN)。(5)
其次,MSA層會計算出一個注意力分?jǐn)?shù)矩陣,該矩陣代表序列特征的每個令牌間的相似程度,前L-1的注意力分?jǐn)?shù)矩陣為
A=(a0,
a1,a2,…,
ak),l∈1,2,…,L-1,(6)
ai=(b0,
b1,b2,…,
bN),i∈0,1,…,k,(7)
其中:ai代表第l層計算出的第i個注意力頭的分?jǐn)?shù)矩陣;
bj(j=1,2,…,N)代表第i個注意力頭的分?jǐn)?shù)矩陣中第j個圖像塊與分類令牌XSQgMXMq27/LRoUmV6Ms6Q==
x以及N個圖像塊令牌
xiE間的語義關(guān)聯(lián)性。為整合前L-1層注意力分?jǐn)?shù)矩陣信息,使用矩陣連乘,
A=
∏L-10AAT。(8)
與單層注意力分?jǐn)?shù)矩陣A相比,A能捕捉到信息序列從輸入層傳播到高層的過程。
最后,從A中選取前k個具有最大表征的位置對應(yīng)的索引
(A,A,…,A),并使用此索引在
Z中提取對應(yīng)的令牌,作為新的特征序列替換原信息區(qū)域的特征序列,進入最后一層Transformer層的序列特征為
Z=(Z0,
ZA,ZA,…,
ZA)。(9)
在模型的高層,通過這樣的關(guān)鍵區(qū)域選擇模塊,在保留了全局信息的同時,使最后一層Transformer層關(guān)注了不同子類之間的細(xì)微差別。
1.4混合損失函數(shù)
首先,標(biāo)準(zhǔn)的Vision Transformer模型使用的交叉熵?fù)p失函數(shù)可以捕獲到比較顯著的類間差異,但對類間樣本的細(xì)微差異的捕獲能力不足。由于對比損失使用的是樣本對比較的方式,對于相似的樣本對,模型在學(xué)習(xí)過程中會更加關(guān)注它們之間的微小差異,計算過程可以表示為
L=1N2
{∑Nj:y=y
[1-cos(Z,Z)]+
∑Nj:y≠y
max{[cos(Z,Z)-α],0}},(10)
其中:N為批大小;Z代表第i個圖像經(jīng)過整個模型后輸出的向量;
cos(Z,Z)為
Z與Z的余弦相似度;α是一個超參數(shù),只有余弦相似度大于
α的損失才能對L起作用。
其次,車輛重識別任務(wù)的主要挑戰(zhàn)在于同一輛車在不同場景下的外觀變化較大,例如光照變化、姿態(tài)變化、遮擋等,這些因素會導(dǎo)致同一輛車在不同場景下的圖像特征發(fā)生較大的變化,從而降低識別的準(zhǔn)確性。另一方面,Transformer模型的缺陷在于其對于長序列的處理能力較弱,同時其注意力機制可能會受到輸入序列中各元素之間相似性的影響,從而影響模型的判別能力。
因此,本文引入中心損失的作用是將局部特征映射到其對應(yīng)的特征中心,并將同一類別的特征聚集在一起,從而形成該類別的特征中心。通過將同一類別的特征聚集在一起,可以降低不同類別之間的特征相似性,從而增強模型的判別能力。同時,中心損失可以對不同類別之間的特征中心進行正則化,以避免特征中心之間的相似性影響模型的判別能力,計算公式為
L=12
∑Ni=1
‖Z-
C‖2,(11)
其中:y為第i個圖像的類別標(biāo)簽;C表示類別y的特征中心。整個模型的損失為
L=L+L+βL,(12)
其中:L為類別塊的真實標(biāo)簽與預(yù)測標(biāo)簽之間的交叉熵?fù)p失;β為超參數(shù)。
2實驗結(jié)果與分析
2.1數(shù)據(jù)集及評價指標(biāo)
本文選擇在車輛重識別任務(wù)中應(yīng)用較為廣泛且關(guān)注度較高的兩個公開數(shù)據(jù)集VeRi-776[3]和VehicleID[14],其中VehicleID有三個測試子集,ID數(shù)分別為800、1 600和2 400(Test800、Test1 600和Test2 400)。表1為兩個數(shù)據(jù)集的詳細(xì)信息。
使用mAP(mean average precision)、CMC@1和CMC@5三個評價指標(biāo),分別表示平均精度均值、檢索結(jié)果中排名前1和前5的檢索準(zhǔn)確率,其中CMC為累計匹配特性(cumulative matching characteristic,CMC)。
2.2實驗細(xì)節(jié)
本文的車輛重識別模型實驗的平臺為Windows操作系統(tǒng)、AMD Ryzen 7 6800H處理器、16 GB內(nèi)存,RTX3060顯存為6GB,軟件環(huán)境為cuda12.1、pytorch1.12.1、python3.10.10、cudatoolkit11.3等。
在對圖像的預(yù)處理部分,將所有車輛圖像的像素調(diào)整為256×256,所有的訓(xùn)練圖像都進行隨機水平翻轉(zhuǎn)、裁剪,實現(xiàn)圖像的增強。Vision Transformer模型采用12層的Transformer架構(gòu),多頭自注意力層的頭數(shù)也為12,圖像塊的像素大小為16×16,再加上一個可學(xué)習(xí)的分類向量,此時圖像塊序列的向量維度為257×768。模型的訓(xùn)練階段,采用經(jīng)過加載ImageNet的預(yù)訓(xùn)練模型配置文件vit_base_patch16_224進行微調(diào),總損失中中心損失的權(quán)重參數(shù)β設(shè)置為0.0005,更新模型參數(shù)的優(yōu)化算法為隨機梯度下降法(stochastic gradient descent,SGD),動量(momentum)為0.9,batch size設(shè)置為24,epochs為100,權(quán)重衰減(weight decay)設(shè)置為0.0001,學(xué)習(xí)率初始化為0.008,使用余弦退火(cosine annealing)動態(tài)調(diào)整學(xué)習(xí)率的變化模式。
2.3消融實驗
為了驗證本文所提模型各個部分的有效性,以及比較網(wǎng)絡(luò)中不同模塊對整個模型的貢獻(xiàn),本文在以Vision Transformer作為主框架的基礎(chǔ)上,逐步加入各改進模塊在VeRi-776數(shù)據(jù)集上展開消融實驗,實驗結(jié)果如表2所示(黑體數(shù)據(jù)為最優(yōu)值)。其中,第一行是本文的基準(zhǔn),基于原Vision Transformer模型,KAS(key area selection module)表示關(guān)鍵區(qū)域選擇模塊,CON(contrastive loss)表示在原來的交叉熵?fù)p失函數(shù)中引入對比損失,CEN(center loss)表示在原來的交叉熵?fù)p失函數(shù)中引入中心損失。
從表2第一行與第二行可以看出,在加入關(guān)鍵區(qū)域選擇模塊后,與原始的基準(zhǔn)相比,mAP、Rank-1和Rank-5指標(biāo)分別提高了4.8%、1.5%和0.8%;從表2第三行與第五行可以看出,基于使用交叉熵?fù)p失和對比損失的融合損失后引入關(guān)鍵區(qū)域選擇模塊,其mAP、Rank-1和Rank-5指標(biāo)分別提高了4.2%、
1.2%和0.7%;從表2第四行與第六行可以看出,在使用交叉熵?fù)p失和中心損失的基礎(chǔ)上,引入關(guān)鍵區(qū)域選擇模塊,其mAP、Rank-1和Rank-5指標(biāo)分別提升了4.9%、1.1%和0.9%。這些結(jié)果都證明了關(guān)鍵區(qū)域辨別模塊對本文提出的基于Vision Transformer的有效性。
同時可以看到在Rank-1指標(biāo)上,關(guān)鍵區(qū)域選擇模塊的引入讓使用了對比損失的模型比使用了中心損失的模型效果更好,而在其他兩個指標(biāo)上更差。主要的原因是在進行車輛圖像檢索時,對比損失的模型能夠在捕捉和比較樣本之間的差異上更有優(yōu)勢,而中心損失使得同一類別的樣本更加緊密地聚集在一起,對類間相似性的處理結(jié)果會更好。
從表2的第一行與第三行、第四行可以看出,在單獨引入對比損失與中心損失后,與原始的基準(zhǔn)相比,mAP、Rank-1和Rank-5分別提升了1.7%、0.6%和0.2%,以及1.2%、0.8%和0.2%;從表2的第三行、第四行與第七行可以看出,使用混合損失函數(shù)比單獨加入對比損失或者中心損失在指標(biāo)上均有提升,證明了本文所提出的混合損失函數(shù)的合理性與有效性。
2.4對比實驗
為驗證本文所提模型的有效性和優(yōu)勢,與多種主流算法分別在VeRi-776和VehicleID數(shù)據(jù)集上進行了對比實驗,選擇的對比算法包括NuFACT[15]、DDM[16]、AAVER[17]、AGNet-ASL[18]、UMTS[19]、PVEN[20]、PSA[21]、CAL[22]、MUSP[23]。算法的對比結(jié)果如表3、表4所示(黑體數(shù)據(jù)為最優(yōu)值)。
從表3可以看出,本文算法在VeRi-776數(shù)據(jù)集上的mAP、Rank-1、Rank-5分別達(dá)到了79.30%、96.50%和98.80%,除mAP值略低于PVEN的mAP值0.2%外,其他指標(biāo)均超過了其余優(yōu)秀算法。在Rank-1指標(biāo)上,相比該指標(biāo)性能最高的對比算法UMTS高出0.7%,在Rank-5指標(biāo)上,相比該指標(biāo)性能最高的對比算法高出0.4%。表4為各算法在VehicleID的三個測試子集上的結(jié)果。Test800的Rank-5和Test1 600的Rank-1指標(biāo)上,本文算法略低于MUSP算法0.1%,可能的原因是VehicleID樣本的分布存在差異,而MUSP中的降噪手段使Test800和Test1 600包含了該方法更擅長處理的特定場景。除此之外,其他指標(biāo)均取得了最好的結(jié)果。
2.5可視化分析
對本文所提模型和基準(zhǔn)進行可視化,使用Grad-CAM[24]方法來獲取訓(xùn)練后的模型對輸入車輛圖像的熱力圖,如圖2所示。輸入的兩張原圖均調(diào)整像素尺寸為256×256,其中上方與下方的兩張車輛圖片分別來源于VehicleID和VeRi-776數(shù)據(jù)集,圖片左邊和右邊分別代表基準(zhǔn)與本文所提模型的注意力權(quán)重在車輛圖像上的分布情況。可以看到,與基準(zhǔn)相比,本文所提出的關(guān)鍵區(qū)域選擇模塊加強了對車輛的車窗周圍和輪胎附近具有細(xì)微差異區(qū)域的關(guān)注度,同時減小了原模型對某一局部區(qū)域過分集中的注意力權(quán)重,從而在一定程度上解決了基準(zhǔn)在某些訓(xùn)練數(shù)據(jù)集上容易學(xué)習(xí)到一些過擬合的特征,導(dǎo)致其泛化能力弱的問題。
3結(jié)論
本文提出了一種基于Vision Transformer的車輛重識別模型的優(yōu)化方法。首先,通過設(shè)計一種關(guān)鍵區(qū)域選擇模塊,使模型在最后一層編碼器前整合前L-1層注意力分?jǐn)?shù)矩陣,捕捉信息序列從輸入層傳播到高層的過程,加強對車輛的具有辨別性區(qū)域的關(guān)注程度,同時減小了局部區(qū)域過度集中的注意力權(quán)重;其次,為促進整個網(wǎng)絡(luò)的優(yōu)化,設(shè)計了一個混合損失函數(shù),進一步增強模型捕捉樣本差異的能力;最后,在VeRi-776和VehicleID數(shù)據(jù)集上的實驗結(jié)果表明,本文模型相較于其他主流算法,有著更好的綜合性能。然而,本文的方法也不可避免存在一些需要改進之處,如何引入額外的視角信息并優(yōu)化車輛重識別模型的決策部分是下一步工作的方向。
參考文獻(xiàn):
[1]張正, 陳成, 肖迪. 基于圖像語義分割的車輛重識別[J]. 計算機工程與設(shè)計, 2022, 43(10): 2897-2903.
ZHANG Z, CHEN C, XIAO D. Vehicle re-identification based on image semantic segmentation[J]. Computer engineering and design, 2022, 43(10): 2897-2903.
[2]張富凱. 基于城市視頻監(jiān)控圖像的車輛重識別關(guān)鍵技術(shù)研究[D]. 北京: 中國礦業(yè)大學(xué)(北京), 2020.
ZHANG F K. Research on Key Technologies of Vehicle re-Identification Based on Urban Video Surveillance Images[D]. Beijing: China University of Mining & Technology, Beijing, 2020.
[3]LIU X C, LIU W, MA H D, et al. Large-scale vehicle re-identification in urban surveillance videos[EB/OL].(2016-08-29)[2023-05-30]. https:∥ieeexplore.ieee.org/document/7553002.
[4]LIU Y C, HU H F, CHEN D H. Attentive part-based alignment network for vehicle re-identification[J]. Electronics, 2022, 11(10): 1617.
[5]SONG L P, ZHOU X, CHEN Y Y. Global attention-assisted representation learning for vehicle re-identification[J]. Signal, image and video processing, 2022, 16(3): 807-815.
[6]ZHENG Z D, RUAN T, WEI Y C, et al. VehicleNet: learning robust visual representation for vehicle re-identification[J]. IEEE transactions on multimedia, 2020, 23: 2683-2693.
[7]WANG Y F, GONG B H, WEI Y, et al. Video-based vehicle re-identification via channel decomposition saliency region network[J]. Applied intelligence, 2022, 52(11): 12609-12629.
[8]YU Z, HUANG Z Y, PEI J M, et al. Semantic-oriented feature coupling transformer for vehicle re-identification in intelligent transportation system[EB/OL].(2023-03-24)[2023-05-30]. https:∥ieeexplore.ieee.org/document/10081216.
[9]PAN W J, HUANG L H, LIANG J B, et al. Progressively hybrid transformer for multi-modal vehicle re-identification[J]. Sensors, 2023, 23(9): 4206.
[10]DU L S, HUANG K L, YAN H. ViT-ReID: a vehicle re-identification method using visual transformer[C]∥2023 3rd International Conference on Neural Networks, Information and Communication Engineering. Piscataway: IEEE Press, 2023: 287-290.
[11]YU Z, ZHU M P. Efficient but lightweight network for vehicle re-identification with center-constraint loss[J]. Neural computing and applications, 2022, 34(15): 12373-12384.
[12]李佳盈, 蔣文婷, 楊林, 等. 基于ViT的細(xì)粒度圖像分類[J]. 計算機工程與設(shè)計, 2023, 44(3): 916-921.
LI J Y, JIANG W T, YANG L, et al. Fine-grained visual classification based on vision transformer[J]. Computer engineering and design, 2023, 44(3): 916-921.
[13]李清格, 楊小岡, 盧瑞濤, 等. 計算機視覺中的Transformer發(fā)展綜述[J]. 小型微型計算機系統(tǒng), 2023, 44(4): 850-861.
LI Q G, YANG X G, LU R T, et al. Transformer in computer vision: a survey[J]. Journal of Chinese computer systems, 2023, 44(4): 850-861.
[14]LIU H Y, TIAN Y H, WANG Y W, et al. Deep relative distance learning: tell the difference between similar vehicles[C]∥2016 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). Piscataway: IEEE Press, 2016: 2167-2175.
[15]LIU X C, LIU W, MEI T, et al. PROVID: progressive and multimodal vehicle reidentification for large-scale urban surveillance[J]. IEEE transactions on multimedia, 2018, 20(3): 645-658.
[16]HUANG Y, LIANG B R, XIE W P, et al. Dual domain multi-task model for vehicle re-identification[J]. IEEE transactions on intelligent transportation systems, 2022, 23(4): 2991-2999.
[17]KHORRAMSHAHI P, KUMAR A, PERI N, et al. A dual-path model with adaptive attention for vehicle re-identification[C]∥2019 IEEE/CVF International Conference on Computer Vision (ICCV). Piscataway: IEEE Press, 2019: 6131-6140.
[18]WANG H B, PENG J J, CHEN D Y, et al. Attribute-guided feature learning network for vehicle reidentification[J]. IEEE MultiMedia, 2020, 27(4): 112-121.
[19]Jin X, Lan C L, Zeng W J, et al. Uncertainty-Aware Multi-Shot Knowledge Distillation for Image-Based Object Re-Identification[C]∥34th AAAI Conference on Artificial Intelligence/32nd Innovative Applications of Artificial Intelligence Conference/10th AAAI Symposium on Educational Advances in Artificial Intelligence. Palo Alto: AAAI Press, 2020: 11165-11172.
[20]MENG D C, LI L, LIU X J, et al. Parsing-based view-aware embedding network for vehicle re-identification[C]∥2020 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Piscataway: IEEE Press, 2020: 7101-7110.
[21]YANG J, XING D, HU Z, et al. A two-branch network with pyramid-based local and spatial attention global feature learning for vehicle re-identification[J]. CAAI transactions on intelligence technology, 2021(1): 46-54.
[22]RAO Y M, CHEN G Y, LU J W, et al. Counterfactual attention learning for fine-grained visual categorization and re-identification[C]∥2021 IEEE/CVF International Conference on Computer Vision. Piscataway: IEEE Press, 2021: 1005-1014.
[23]LEE S, WOO T, LEE S H. Multi-attention-based soft partition network for vehicle re-identification[J]. Journal of computational design and engineering, 2023, 10(2): 488-502.
[24]SELVARAJU R R, COGSWELL M, DAS A, et al. Grad-CAM: visual explanations from deep networks via gradient-based localization[J]. International journal of computer vision, 2020, 128(2): 336-359.