嚴(yán)麗平 張文剝 宋凱 蔡彧 王靜 徐嘉悅
摘要:【目的】為了解決在復(fù)雜環(huán)境下,對小目標(biāo)特征困難以及對小目標(biāo)檢測效果不佳等問題,提出了一種基于Transformer的交通標(biāo)志檢測基干模型?!痉椒ā客ㄟ^充分利用卷積和Transformer的優(yōu)勢,構(gòu)建了一種注意力融合的多尺度特征提取基干模型,能夠使基干網(wǎng)絡(luò)以全局上下文信息為支撐,有選擇地增強(qiáng)有用信息的特征,并抑制不重要的特征。此外,為了在增強(qiáng)特征融合的同時防止網(wǎng)絡(luò)退化,還加入了類池連接。最后,在TT100K數(shù)據(jù)集上進(jìn)行實(shí)驗?!窘Y(jié)果】實(shí)驗結(jié)果表明,以該模型為骨干的元體系結(jié)構(gòu)取得了最高84%的mAP,與基線模型相比mAP最大提升約7%?!窘Y(jié)論】模型在提高特征提取效果的同時,也為交通標(biāo)志檢測提供了一種新的思路。
關(guān)鍵詞:交通標(biāo)志檢測;自動駕駛;Transformer;注意力融合
中圖分類號:TU391.41;U463.6 文獻(xiàn)標(biāo)志碼:A
本文引用格式:嚴(yán)麗平,張文剝,宋凱,等. 基于Transformer的交通標(biāo)志檢測模型研究[J]. 華東交通大學(xué)學(xué)報,2024,41(1):61-69.
Research on Traffic Sign Detection Model Based on Transformer
Yan Liping1, Zhang Wenbo1, Song Kai2, Cai Yu1, Wang Jing1, Xu Jiayue1
(1. School of Software, East China Jiaotong University, Nanchang 330013, China;
2. School of Information Engineering, East China Jiaotong University, Nanchang 330013, China)
Abstract: 【Objective】 In order to solve the difficulties such as small target feature extraction, a transformer-based traffic sign detection model was proposed.【Method】Through fully utilizing the advantages of convolution and Transformer, a multi-scale feature extraction backbone model was established with attention fusion, which could enable the backbone network to selectively enhance the features of useful information and suppress the unimportant ones with the support of global context information. In addition, pooling-like connection are incorporated in order to prevent network degradation while enhancing feature fusion. Finally, experiments were conducted on the TT100K dataset. 【Result】The experimental results show that the meta-architecture with this model as the backbone achieves the highest mAP of 84%, and the maximum improvement of mAP is about 7% compared with the baseline model. 【Conclusion】 The model provides a new idea for traffic sign detection while improving feature extraction.
Key words: traffic sign detection; automatic driving; Ttransformer; attention fusion
Citation format:YAN L P, ZHANG W B, SONG K, et al. Research on traffic sign detection model based on Transformer[J]. East China Jiaotong University, 2024, 41(1): 61-69.
【研究意義】作為自動駕駛和高清地圖環(huán)境感知的關(guān)鍵技術(shù)之一,交通標(biāo)志檢測對于為車輛提供道路信息判斷和實(shí)時安全預(yù)警具有重要意義。由于道路條件和自然環(huán)境的不同,交通標(biāo)志檢測的結(jié)果受到光線變化、惡劣天氣和運(yùn)動模糊等諸多因素的限制,大大增加了這項任務(wù)的難度。
【研究進(jìn)展】大多數(shù)傳統(tǒng)的交通標(biāo)志檢測方法都依賴于人工從顏色信息[1]和幾何形狀[2]中提取特征。但是,由于傳感器在運(yùn)動中傳輸,交通標(biāo)志區(qū)域的比例變化、遮擋等問題阻礙了這些方法的實(shí)際應(yīng)用。
為了在準(zhǔn)確性和效率之間取得平衡,先進(jìn)的物體檢測算法開始使用深度卷積神經(jīng)網(wǎng)絡(luò)(CNN)[3]代替人工特征提取。經(jīng)典的兩階段檢測模型如Faster R-CNN[4]、Cascade R-CNN[5]等,雖然檢測精度高,但其復(fù)雜的結(jié)構(gòu)導(dǎo)致檢測效率低下。與兩階段模型相比,單階段模型,如RetinaNet[6]、SSD[7]系列以及YOLO[8]系列的結(jié)構(gòu)相對簡單,其檢測效率較高,但檢測精度卻不盡如人意。
最近,基于Transformer的新模型表明端到端的標(biāo)準(zhǔn)轉(zhuǎn)換器可以執(zhí)行目標(biāo)檢測[9]、分類[10]、分割等任務(wù)[11]。如ViT、PVT[12]等在各種計算機(jī)視覺任務(wù)中取得了令人鼓舞的成果并迅速成為基干模型,這是因為Transformer擁有強(qiáng)大的建模能力。
【創(chuàng)新特色】然而,Transformer將圖像視為序列,在對局部窗口中的視覺特征以及尺度變換進(jìn)行建模時,缺乏獲取通道維度信息的能力,隨著網(wǎng)絡(luò)深度的加深,導(dǎo)致每個通道之間的信息逐漸丟失,因此Transformer無法直接用于復(fù)雜環(huán)境下的小目標(biāo)特征提取。然而卷積卻可以為Transformer提供必要的通道維度信息。
【關(guān)鍵問題】本文提出了基于類池化連接的注意力融合轉(zhuǎn)換器(transformer based on attention fusion with pooling-like connection, AFPC-T),通過將可縮放的卷積注意力模塊(scalable convolutional attention block, SCAB)嵌入到標(biāo)準(zhǔn)的Transformer中構(gòu)建雙注意力融合模塊(dual attention block, DAB),并通過類池化連接(pooling-like connection, PC)模塊來加強(qiáng)特征融合,然后通過高度集成的PAB(pooling-like attention block, PAB)模塊建立分層式網(wǎng)絡(luò)基干模型,來解決在復(fù)雜的交通環(huán)境下對小目標(biāo)特征提取困難等問題。
1 AFPC-T整體架構(gòu)
圖1展示了高度集成的AFPC-T網(wǎng)絡(luò)架構(gòu)及其組件。AFPC-T是四階段特征提取基干模型,即輸入1幅圖像輸出4張不同尺度的特征圖用于后續(xù)的分類和回歸。在第一階段開始之前,需要對輸入圖像進(jìn)行特征編碼(Patch embedding)。例如,給定一幅大小為[H×W×3]的二維圖像特征,其中[H]為特征高度,[W]為特征寬度,3為通道數(shù),將其劃分為每個大小為[4×4×3]的[HW42]個一維序列。然后,對一維序列進(jìn)行線性投影,得到大小為[HW42×C1]的序列,其中[C1]為映射維度,之后序列進(jìn)入第一階段。嵌入的序列在PAB模塊中進(jìn)行特征提取后,一方面通過維度轉(zhuǎn)換(Reshape),得到大小為[H4×W4×C2]的二維特征圖F1,其中[C2]為通道維度,一方面通過特征融合后得到最終的一維序列。同樣,使用前一階段的序列映射作為輸入,可以得到以下特征輸出:F2,F(xiàn)3,F(xiàn)4。它們相對于輸入圖像的步長分別為8、16像素和32像素。最終的4個特征圖{F1,F(xiàn)2,F(xiàn)3,F(xiàn)4},其大小分別為[H4×W4×C2],[H8×W8×2C2],[H16×W16×4C2],[H32×W32×8C2],再經(jīng)過多尺度特征融合后,最終作為分類和檢測模型的輸入。
2 PAB整體結(jié)構(gòu)
PAB結(jié)構(gòu)主要包括雙注意力模塊(DAB)和嵌入DAB的可縮放的卷積注意力模塊(SCAB)。隨后,DAB、PC和其他模塊被集成到PAB中,以減少結(jié)構(gòu)冗余。因此,高度集成的PAB模塊構(gòu)建AFPC-T四階段分層網(wǎng)絡(luò)結(jié)構(gòu)以生成不同尺度特征圖用于不同任務(wù)。
2.1 SCAB結(jié)構(gòu)
卷積在深度學(xué)習(xí)中被廣泛應(yīng)用,因為它能夠有效地捕捉數(shù)據(jù)的空間結(jié)構(gòu),提取重要特征。所以,為了增強(qiáng)網(wǎng)絡(luò)的表征能力,SCAB模塊被用來模擬通道之間的關(guān)系。具體方法是先壓縮空間信息,再通過激勵生成標(biāo)量值來代表每個通道的重要性。圖1(d)展示了這一過程,輸入的圖像特征先通過通道全局平均池化(global average pooling, GAP)來進(jìn)行空間壓縮,再通過一維卷積(conv1d, Conv)進(jìn)行局部跨通道交互以取代原來的多層感知機(jī)(multilayer perceptron, MLP)來降低模型的復(fù)雜度。設(shè)[x∈?H×W×C2]為輸入的圖像特征,則通道權(quán)重可以寫成
式中:[gx=1WHi=1,j=1W,Hxij]是GAP;[σ]是Sigmoid激活函數(shù);[α]是平衡因子,用于平衡通道注意力的影響,其值設(shè)為0.1。設(shè)[y=gx],那么[Conv]可以寫成
式中:[C1DS]表示一維卷積,[S]表示一維卷積的卷積核大小,其值設(shè)為3。通過激活通道權(quán)重[ω],對特征[x]的每個通道下的特征映射[xC2∈?H×W]進(jìn)行重新縮放,從而得到最終輸出。具體表達(dá)式可寫為
式中:[X=x1,x2,…,xC2]是通道注意的輸出,即帶有通道注意力的特征圖并且[X∈?H×W×C2];[FscalexC2,ωC2]是標(biāo)量[ωC2]與特征圖[xc2∈?H×W]之間的通道乘法。小目標(biāo)通常具有相對較低的信噪比,可能會被背景干擾,而SCAB通過學(xué)習(xí)每個通道的權(quán)重,可以使網(wǎng)絡(luò)在處理小目標(biāo)時更靈敏,更有針對性地捕捉小目標(biāo)的特征。
2.2 DAB結(jié)構(gòu)
為了改進(jìn)模型的表示,本文在標(biāo)準(zhǔn)轉(zhuǎn)換器(圖2(a))中添加了一個基于通道注意力的模塊SCAB。在這種改進(jìn)的架構(gòu)中(圖2(b)),在LN模塊之后,輸入的特征先通過SCAB模塊得到帶有通道注意力的特征后,再進(jìn)入(S)W-MHSA模塊中得到通道注意力與空間注意力融合后的特征,之后進(jìn)入隨后的LN模塊和MLP模塊。此外,需要注意的是,如圖2(c)所示,每個由W-MHSA模塊組成的DAB之后都必須帶有一個由SW-MHSA模塊組成的DAB。因此,對于給定的輸入特征[x],連續(xù)的DAB可以精確描述如下
式中:[i]表示第[i]個DAB模塊;[xi]和[xi]分別表示[SW-MHSA]和[SCAB]融合后的特征輸出以及[MLP]的輸出特征;[W-MHSA]和[SW-MHSA]分別表示使用常規(guī)和滑動窗口的多頭自注意力。對于給定的輸入特征[x∈?H×W×C2],將其劃分為大小為[M×M]的[HWM2]個局部窗口,其中[M]為窗口大小,值為7。然后,在每個局部窗口內(nèi)計算自注意力,對于某個局部窗口特征[xw∈?M2×C1],使用MHSA(multi-head self-attention, MHSA)對其依賴關(guān)系建模,則基于窗口的自注意力可以表示為
式中:查詢向量[Q]、鍵向量[K]和值向量[V]由線性映射計算得出,即[Q,K,V=xwWQ,xwWK,xwWV]。其中[WQ,WK,WV∈?C1×Dh]分別表示查詢矩陣、鍵矩陣和值矩陣。[Dh]通常設(shè)為[Dh],[D]表示序列映射維度,[h]是自注意力的頭數(shù)。單頭自注意力重復(fù)[h]次,并將[h]個頭的輸出特征沿通道維度串聯(lián)起來,形成多頭自注意力。[SoftMax]表示Softmax激活函數(shù),自注意力的實(shí)現(xiàn)采用了相對位置編碼,[B]表示相對位置編碼,[T]表示轉(zhuǎn)置。SCAB模塊產(chǎn)生的帶有通道注意力特征是作為(S)W-MHSA模塊的輸入,所以經(jīng)過(S)W-MHSA模塊建模后的特征即是最終的雙注意力融合的特征[xd]。[xd]在LN模塊之后進(jìn)入MLP模塊,MLP模塊由兩層神經(jīng)網(wǎng)絡(luò)組成,其精準(zhǔn)表達(dá)為
式中:[W1∈?C1×Dmlp],[W2∈?Dmlp×C1]是學(xué)習(xí)到的線性變換;[Dmlp]表示線性映射維度;[GELU]是激活函數(shù)。最后,雙注意力融合的特征映射在經(jīng)過特征交互后,進(jìn)入下一個DAB模塊或一方面通過Reshape操作得到一個二維的特征圖輸出,一方面進(jìn)入序列合并(patch merging, PM)。
Transformer雖然擁有對每個元素間的相似性權(quán)重建模的強(qiáng)大能力,但是卻缺少了建模通道間的關(guān)系。而本文將可以建模通道間關(guān)系的SCAB模塊嵌入到(S)W-MHSA模塊之前,利用Transformer和卷積優(yōu)勢互補(bǔ),形成了雙注意力融合的特征映射,使得模型一方面可以利用全局上下文信息,加強(qiáng)對小目標(biāo)特征增強(qiáng)的同時減少背景信息的干擾,另一方面雙注意力映射可以同時關(guān)注不同通道不同位置的特征,以提高模型對小目標(biāo)的敏感性。
2.3 PAB結(jié)構(gòu)
如圖1(b)所示,PAB集成了3個主要組件:DAB模塊、PM模塊和PC模塊。特征提取是通過在PAB中堆疊一個或多個DAB模塊來實(shí)現(xiàn)的。DAB提取后的特征映射,一方面通過Reshape操作獲得二維特征圖用于后續(xù)的多尺度特征融合,一方面通過PM模塊進(jìn)行下采樣以實(shí)現(xiàn)分層式結(jié)構(gòu),最后加入PC模塊以增強(qiáng)特征提取。PC模塊用序列合并取代了原始卷積操作,在增強(qiáng)特征融合的同時,還避免了融合不同結(jié)構(gòu)特征的問題。AFPC-T可以提供不同尺度的特征,以幫助完成分類和回歸任務(wù)。在進(jìn)入第一階段之前,給定的二維圖像特征[x∈?H×W×3]經(jīng)過序列編碼和映射后變成大小為[x∈?H1×W1×C1]的一維序列,其中[H1=H/4],[W1=W/4],[C1]是映射維度,默認(rèn)為96。那么PAB模塊可以被寫為
式中:[PM]和[PC]均為Patch merging操作;[yj]表示第[j]個PAB模塊的一維特征輸出;[xj]表示第[j]個PAB模塊的一維特征輸入,這里[j]等于1,[DABl]表示含有l(wèi)個[DAB]。輸入序列[x∈?H1×W1×C1]通過[DAB]獲得用于注意力融合的特征映射,然后經(jīng)過一個或多個[DAB]后進(jìn)入[PM]。在[PM]中,一維序列將被重塑為二維特征,然后將寬度和高度減半,維度變?yōu)樵瓉淼?倍,即[x]的大小變?yōu)閇H2×W2×2C2],其中[H2=H1/2],[W2=W1/2]。之后,二維特征被轉(zhuǎn)換回一維序列。最后,轉(zhuǎn)換的序列與[PC]生成的特征融合,然后進(jìn)入下一個PAB模塊。
3 實(shí)驗數(shù)據(jù)預(yù)處理及實(shí)施細(xì)節(jié)
TT100K數(shù)據(jù)集是最受歡迎的交通標(biāo)志數(shù)據(jù)集之一,它包含各種場景下的交通標(biāo)志,更能反映真實(shí)的交通狀況。該數(shù)據(jù)集包含3個大類,共221種,基本覆蓋中國所有交通標(biāo)志。如圖3所示展示了部分交通標(biāo)志:指示標(biāo)志,禁止標(biāo)志,警告標(biāo)志。照片數(shù)量超過100 000張,分辨率為2 048×2 048像素。
為了提高檢測效果,本文從數(shù)據(jù)集中刪除了未標(biāo)記和重復(fù)的交通標(biāo)志圖像,并選取了42種交通標(biāo)志類別,每個類別的圖像都大于100張,其中有6 105張訓(xùn)練圖像和3 071張測試圖像。
此外,為了提高模型的預(yù)測性能,還采用了數(shù)據(jù)增強(qiáng)技術(shù)來擴(kuò)展數(shù)據(jù)集。如圖4所示,通過4(b)亮度變化,4(c)添加噪聲和4(d)翻轉(zhuǎn)等至少一種或多種效果,使得每個類別都超過500個實(shí)例。經(jīng)過數(shù)據(jù)擴(kuò)充后,最終的訓(xùn)練數(shù)據(jù)集包含17 704幅圖像。表1顯示了最終的訓(xùn)練和測試圖像數(shù)量。需要注意的是,訓(xùn)練集以及測試集中都包含了各種各樣的環(huán)境以及場景,本文沒有專門區(qū)分特定的場景。
本文使用了Microsoft COCO基準(zhǔn)中提到的相同檢測指標(biāo),這有助于發(fā)現(xiàn)檢測器對不同大小物體的檢測能力。包括小型物體(面積小于32×32像素)、中型物體(面積大于32×32像素小于96×96像素)和大型物體(面積大于96×96像素)。平均精度(mean average precision, mAP)和每秒幀數(shù)(frames per second, FPS)也用于衡量每種方法的性能。對于多類檢測,mAP表示所有類別中AP的平均值。此外,本文在計算mAP時使用的IoU(intersection over union, IoU)值為0.5和0.75。
本文使用了3種具有代表性的元架構(gòu)和ResNet-101作為基線來評估AFPC-T的性能。元架構(gòu)主要包括兩個兩階段模型Faster R-CNN和Cascade R-CNN,以及一個單階段模型RetinaNet。具體來說,使用AFPC-T構(gòu)建這些框架的骨干,所有以AFPC-T為骨干的模型的深度均為[2,2,6,2],均使用AdamW優(yōu)化器。對于Faster R-CNN和Cascade R-CNN,初始學(xué)習(xí)率設(shè)定為0.000 1,對于RetinaNet,初始學(xué)習(xí)率設(shè)定為0.000 05。所有模型的預(yù)熱迭代次數(shù)都設(shè)定為1 000,在第8次和第11次迭代時學(xué)習(xí)率遞減為前學(xué)習(xí)率的0.1倍。此外,所有模型都加載了默認(rèn)的預(yù)訓(xùn)練權(quán)重以減少訓(xùn)練時間。
所有實(shí)驗均在Ubuntu 20.04系統(tǒng)上進(jìn)行,GeForce RTX 3 090 ti GPU配有24 GB內(nèi)存,使用編程語言Python 3.8、深度學(xué)習(xí)框架PyTorch 1.12和MMdetection框架進(jìn)行實(shí)驗和評估。由于TT100K中的圖像均為2 048×2 048像素,不便于訓(xùn)練,因此使用默認(rèn)的圖像縮放為(1 333, 800)。此外,每個骨干模型都提供了四階段特征輸出,經(jīng)過特征融合后進(jìn)入分類和回歸模型。
4 實(shí)驗分析
4.1 結(jié)果分析
如圖5所示,展示了以AFPC-T為基干模型在訓(xùn)練集上訓(xùn)練12個epoch的Loss圖像,可以看到在迭代次數(shù)為25 000次左右(即12 epoch)Loss趨于穩(wěn)定,之后將訓(xùn)練好的元架構(gòu)用于測試集測試。
通過在3種元架構(gòu)中添加不同模型作為骨干進(jìn)行了對比實(shí)驗,表2報告了在測試集上測試的實(shí)驗結(jié)果,其中mAP50和mAP75分別表示0.5和0.75的IoU,S、M和L分別表示對應(yīng)于小、中和大型物體群的mAP。從這些結(jié)果中可以看出,在所有元架構(gòu)方法中,以AFPC-T為骨干的模型都優(yōu)于基線模型,且FPS沒有明顯下降。與基線模型相比,以RetinaNet為模型的mAP50的最大提升幅度約為7%。此外,其APsmall提高了約3%,APmedium提高了約6%,APlarge提高了約8%。雖然RetinaNet有了顯著提高,但CascadeRCNN取得了最佳結(jié)果。在只訓(xùn)練了12個epoch的情況下,其mAP50達(dá)到了84.0%,而mAP75達(dá)到了78.7%。實(shí)驗結(jié)果表明,在略微降低FPS的情況下大大提高了不同物體尺寸下的mAP,在一定程度上體現(xiàn)了檢測精度和推理速度之間的平衡。
4.2 消融分析
消融實(shí)驗進(jìn)一步驗證AFPC-T的有效性,通過將通道注意力模塊(CA)和類池連接(PC)逐一添加到基線模型中,以證明它們的效果。表3報告了消融實(shí)驗的結(jié)果,+CA表示在Swin-T中添加SCAB。+CA,+PC表示在Swin-T中加入SCAB的同時加入PC。通過添加CA模塊來激活更多重要維度,F(xiàn)aster R-CNN和Cascade R-CNN以及RetinaNet的性能得到了顯著提高,尤其是在大中小型范圍內(nèi)。Cascade R-CNN+CA使其mAP50、mAP75、S、M分別從83.8%、78.5%、45.1%、74.3%提高到85.0%、79.8%、47.2%、75.1%。在FPS僅從19.8下降到18.2的情況下,CA的有效性得到了證明。
為了探索每個模 塊的作用,還對PC的效果進(jìn)行了評估。如表3所示,PC在一定程度上提高了檢測器的性能。采用Faster R-CNN+CA+PC后,其mAP50、mAP75、S、M和L分別從78.6%、73.4%、37.2%、71.9%和74.9%提高到80.4%、75.3%、40.7%、73.2%和75.6%。實(shí)驗結(jié)果表明,CA和PC都提高了AFPC-T的性能,而且它們的組合達(dá)到了最佳性能。為了進(jìn)一步探討PC的影響,制作了Epoch和損失之間的關(guān)系圖。如圖6所示,加入PC后,在相同損失范圍內(nèi),訓(xùn)練次數(shù)略微減少,證明了PC的有效性。
4.3 可視化分析
為了探索雙重注意力融合對特征的具體影響,本文對部分特征圖進(jìn)行了可視化處理,以便對AFPC-T進(jìn)行定性檢查。圖7展示了3種元架構(gòu)的特征可視化結(jié)果。每個元架構(gòu)中的上組均為基線模型Swin-T,下組基于AFPC-T。可以看出,在這3種元架構(gòu)中,AFPC-T比基線模型Swin-T能更準(zhǔn)確地覆蓋圖像中的單個或多個物體,而對背景的關(guān)注較少。觀察結(jié)果表明,引入通道注意力有助于AFPC-T聚焦更重要的物體。顯然,通道注意力和空間注意力可以分別幫助模型更好地關(guān)注圖像的重要特征和位置信息。將這兩種注意力結(jié)合起來可以進(jìn)一步提高模型的性能。
為了檢測AFPC-T在實(shí)際交通場景中的效果,本文對部分實(shí)驗結(jié)果進(jìn)行了可視化展示。如圖8所示,Cascade R-CNN,F(xiàn)aster R-CNN和RetinaNet 都使用AFPC-T作為TT100K數(shù)據(jù)集上部分檢測結(jié)果的骨干。檢測結(jié)果包括交通標(biāo)志的類別和置信度。圖8的放大圖像部分顯示,AFPC-T能夠很好地適應(yīng)多分類問題(42 個類別),并能準(zhǔn)確檢測小尺寸目標(biāo)。
5 結(jié)論
本文通過對TT100K數(shù)據(jù)集進(jìn)行擴(kuò)充,對不同大小的交通標(biāo)志進(jìn)行檢測得出以下結(jié)論。
1)本文提出一種基于Transformer交通標(biāo)志檢測模型。在特征提取階段通過將全局通道注意力引入到Transformer中,使網(wǎng)絡(luò)學(xué)會利用全局信息,選擇性地增強(qiáng)包含有用信息的特征,抑制不重要的特征。
2)實(shí)驗結(jié)果表明,在較少epoch的訓(xùn)練下以AFPC-T為基干的模型均取得最高的mAP。其中以Cascade R-CNN為元架構(gòu)的AFPC-T的mAP50精度達(dá)到了84.0%,與基線模型相比提高了約7%。
參考文獻(xiàn):
[1]? ?HUANG Z, YU Y, GU J, et al. An efficient method for traffic sign recognition based on extreme learning machine[J]. IEEE Transactions on Cybernetics, 2016, 47(4): 920-933.
[2]? ?PANG Y, YUAN Y, LI X, et al. Efficient HOG human detection[J]. Signal Processing, 2011, 91(4): 773-781.
[3]? ?QIN Z, ZHANG P, WU F, et al. Fcanet: Frequency channel attention networks[C]//Montreal: 2021 IEEE/CVF International Conference on Computer Vision (ICCV), 2021.
[4]? ?REN S Q, HE K M, GIRSHICK R, et al. Faster R-CNN: Towards real-time object detection with region proposal networks[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2017,39(6): 1137-1149.
[5]? ?CAI Z, VASCONCELOS N. Cascade R-CNN: Delving into high quality object detection[C]//Salt Lake: 2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition, 2018.
[6]? ?LIN T Y, GOYAL P, GIRSHICK R, et al. Focal loss for dense object detection[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2020, 42(2): 318-327.
[7]? ?LIM J S, ASTRID M, YOON H J, et al. Small object detection using context and attention[C]//Jeju Island: 2021 International Conference on Artificial Intelligence in Information and Communication (ICAIIC), 2021.
[8]? ?CHEN Y, WANG J, DONG Z, et al. An attention based YOLOv5 network for small traffic sign recognition[C]//Anchorage: 2022 IEEE 31st International Symposium on Industrial Electronics (ISIE), 2022.
[9]? ?CHU X, TIAN Z, WANG Y, et al. Twins: Revisiting the design of spatial attention in vision transformers[J]. Advances in Neural Information Processing Systems, 2021, 34: 9355-9366.
[10] HUANG G, WANG Y, LYU K, et al. Glance and focus networks for dynamic visual recognition[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2022, 45(4): 4605-4621.
[11] CHEN X, WANG X, ZHOU J, et al. Activating more pixels in image super-resolution transformer[C]//Vancouver: 2023 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), 2023.
[12] WANG W H, XIE E, LI X, et al. Pyramid vision transformer: A versatile backbone for dense prediction without convolutions[C]//Montreal: 2021 IEEE/CVF International Conference on Computer Vision (ICCV), 2021.
通信作者:嚴(yán)麗平(1980—),女,副教授,博士,碩士生導(dǎo)師,研究方向為智能交通、人工智能。E-mail: csyanliping@163. com。