尹航 范文婷
摘要:目標(biāo)檢測是計(jì)算機(jī)視覺領(lǐng)域三大任務(wù)之一,同時(shí)也是計(jì)算機(jī)視覺領(lǐng)域內(nèi)一個(gè)最基本和具有挑戰(zhàn)性的熱點(diǎn)課題,近一年來基于Transformer的目標(biāo)檢測算法研究引發(fā)熱潮。簡述Transformer框架在目標(biāo)檢測領(lǐng)域的研究狀況,介紹了其基本原理、常用數(shù)據(jù)集和常用評(píng)價(jià)方法,并用多種公共數(shù)據(jù)集對(duì)不同算法進(jìn)行對(duì)比以分析其優(yōu)缺點(diǎn),在綜述研究基礎(chǔ)上,結(jié)合行業(yè)應(yīng)用對(duì)基于Transformer的目標(biāo)檢測進(jìn)行總結(jié)與展望。
關(guān)鍵詞:目標(biāo)檢測;Transformer;計(jì)算機(jī)視覺;深度學(xué)習(xí)
中圖分類號(hào):TP391? ? ? 文獻(xiàn)標(biāo)識(shí)碼:A? ? 文章編號(hào):2096-4706(2021)07-0014-04
A Summary of Research on Target Detection Based on Transformer
YIN Hang,F(xiàn)AN Wenting
(College of Information Science and Technology,Zhongkai University of Agriculture and Engineering,Guangzhou? 510225,China)
Abstract:Target detection is one of the three major tasks in the field of computer vision. At the same time,it is also a basic and challenging hot topic in the field of computer vision. In almost a year,the research of object detection algorithms based on Transformer has caused a boom. This paper sketches the research status of Transformer framework in the field of target detection,introduces its basic principle,common data sets and common evaluation methods,and compares different algorithms with several public data sets,so as to analyze their advantages and disadvantages. On the basis of summarizing the research,also combined the industry application,this paper summarizes and prospects of the object detection based on Transformer.
Keywords:target detection;Transformer;computer vision;deep learning
收稿日期:2021-02-26
基金項(xiàng)目:廣東省自然科學(xué)基金面上項(xiàng)目(2021A1515011605)
0? 引? 言
目標(biāo)檢測是計(jì)算機(jī)視覺領(lǐng)域的核心任務(wù),是實(shí)現(xiàn)目標(biāo)跟蹤、行為識(shí)別的基礎(chǔ),目前主流基于卷積神經(jīng)網(wǎng)絡(luò)的目標(biāo)檢測算法分為一階段和兩階段類型。由于Transformer[1]框架在自然語言處理(NLP)領(lǐng)域取得巨大成功,研究者嘗試將其遷移到計(jì)算機(jī)視覺領(lǐng)域。
2018年,Parmar首次將Transformer應(yīng)用于圖像生成,提出Image Transformer模型[2]。2020年,Carion等人將CNN與Transformer結(jié)合,提出一個(gè)完備的端到端的DETR目標(biāo)檢測框架[3],首次將Transformer應(yīng)用到目標(biāo)檢測。隨后的一年內(nèi),類似算法不斷涌現(xiàn):Zhu[4]等人提出借鑒可變卷積神經(jīng)網(wǎng)絡(luò)的Deformable DETR模型;Zheng[5]等人提出降低自我注意模塊計(jì)算復(fù)雜度的ACT算法;谷歌提出ViT模型[6]并應(yīng)用于圖像分類。圖1為近年來基于Transformer目標(biāo)檢測模型。
1? Transformer 模型
Transformer模型也稱為基于注意力機(jī)制模型,多應(yīng)用于自然語言處理領(lǐng)域,模型包括Encoder和Decoder兩部分,結(jié)構(gòu)如圖2所示。
其中Encoder編碼器由6個(gè)具有相同結(jié)構(gòu)的層組成,每層包含2個(gè)子層:多頭注意力和前饋網(wǎng)絡(luò),每組子層進(jìn)行殘差連接,后做歸一化處理。每層Encoder輸出如式(1)所示:
(1)
其中,x為輸入序列。
Decoder解碼器與Encoder結(jié)構(gòu)類似,但多一個(gè)掩碼層,該層用于掩蓋未預(yù)測的信息,保證每次預(yù)測結(jié)果都只基于已知信息。Decoder層的輸入為Encoder的輸出和上一層Decoder的輸出,把Encoder層的輸出作為K和V,上一層Decoder層輸出作為Q,將Q、K、V輸入到注意力模塊進(jìn)行attention操作。Transformer通過Encoder編碼器對(duì)輸入序列進(jìn)行編碼,將編碼結(jié)果輸入到Decoder,最后將Decoder的輸出通過線性變換和一個(gè)Softmax層來預(yù)測下一個(gè)輸出,此框架具有較強(qiáng)的語義特征提取和長距離特征捕獲能力,其并行計(jì)算能力與CNN相當(dāng)。如果考慮圖像與文本的維度差異,將圖像轉(zhuǎn)換為序列,便可輸入到模型進(jìn)行處理,因此將Transformer遷移到計(jì)算機(jī)視覺領(lǐng)域是有理論依據(jù)、切實(shí)可行的。
2? 常用目標(biāo)檢測數(shù)據(jù)集及評(píng)價(jià)方法
2.1? 常用目標(biāo)檢測數(shù)據(jù)集
數(shù)據(jù)集是衡量和比較算法性能的共同基礎(chǔ)[7]。常用的目標(biāo)檢測數(shù)據(jù)集有VOC和COCO,行人檢測常用數(shù)據(jù)集有CityPersons,如表1所示。
2.2? 常用目標(biāo)檢測評(píng)價(jià)方法
目標(biāo)檢測常用評(píng)價(jià)方法包括:平均精度(AP)和每秒檢測圖片數(shù)量(FPS),行人檢測常用的評(píng)價(jià)方法為MR-2,下文進(jìn)行具體說明。
2.2.1? 平均精度
平均精度AP特指PR曲線下方面積,式(2)式(3)描述了精確度(Precision)與召回率(Recall)的計(jì)算公式。
(2)
(3)
在PR曲線基礎(chǔ)上,通過計(jì)算每個(gè)召回率對(duì)應(yīng)的準(zhǔn)確率求平均,可以獲得AP。
各類AP的平均mAP是最常用的指標(biāo),它表示模型在所有類別上表現(xiàn)的好壞,通常數(shù)值越高表示效果越好。mAP公式為:
(4)
2.2.2? FPS
每秒檢測圖片數(shù)量(FPS)用于衡量模型的檢測速度,通常每秒處理圖片數(shù)量越多,模型效果越好。
2.2.3? MR-2
Log-average miss rate(MR-2)是行人檢測中最常用的度量標(biāo)準(zhǔn),也被稱為漏檢率。它以對(duì)數(shù)標(biāo)度計(jì)算每個(gè)圖像的假陽性漏檢率,范圍為[0.01,100]。
3? 基于Transformer目標(biāo)檢測模型
3.1? CNN+Transformer目標(biāo)檢測模型
基于CNN+Transformer目標(biāo)檢測模型包括DETR和Deformable DETR。
3.1.1? DETR
2020年,Carion[1]等人成功將Transformer框架應(yīng)用于目標(biāo)檢測領(lǐng)域中,提出了DETR模型,將ResNet特征提取網(wǎng)絡(luò)與Transformer結(jié)合,把檢測任務(wù)分為特征提取和目標(biāo)預(yù)測兩個(gè)部分,整體結(jié)構(gòu)如圖3所示。
該模型將輸入圖片放入CNN特征提取網(wǎng)絡(luò),得到低分辨率特征圖。將特征圖展平成一個(gè)序列并加上空間位置編碼后輸入到Transformer的編碼器中,得到各個(gè)物體編碼后的特征,隨后將其與Object Query輸入到解碼器中進(jìn)行并行解碼。與原始解碼器不同,該解碼器在做Multi-Head Attention時(shí)也加上了空間位置編碼,在解碼器中的每個(gè)輸出都連上一個(gè)前饋網(wǎng)絡(luò)用于預(yù)測目標(biāo)類型和邊界框。在訓(xùn)練時(shí)使用Hungarian loss來計(jì)算預(yù)測值與真實(shí)標(biāo)注之間的損失。
該模型在COCO和自定義數(shù)據(jù)集上的AP與Faster RCNN[6]效果相當(dāng),但其在小目標(biāo)檢測上效果不如Faster RCNN,因此2020年10月Zhu[7]等人提出使用Deformable DETR來解決上述問題。
3.1.2? Deformable DETR
Deformable DETR借鑒了可變形卷積網(wǎng)絡(luò)的思想,使用可變形注意模塊代替DETR中Transformer注意力模塊,縮小K采樣范圍,讓Q與更有意義的K進(jìn)行比較,減少計(jì)算量,提升速度。對(duì)于小目標(biāo)檢測效果不佳的問題,該模型使用多尺度可變形注意力模塊,對(duì)不同尺度特征圖進(jìn)行可變形注意,將每層的注意力結(jié)果相加得到多尺度注意力,從而提高小目標(biāo)檢測效果,結(jié)構(gòu)如圖4所示。
該模型與DETR相比,收斂速度快10倍、小目標(biāo)檢測AP提升3.9%,大目標(biāo)檢測AP與Faster RCNN相比,提高4.6%。雖然該模型在訓(xùn)練速度和小目標(biāo)檢測上得到了很大的改進(jìn),但對(duì)于遮擋目標(biāo)的檢測效果仍然不佳。
3.2? 基于Transformer特征提取網(wǎng)絡(luò)目標(biāo)檢測模型
2020年10月Dosovitskiy等[8]提出Vision Transformer(ViT)模型,在大型數(shù)據(jù)集JFT300M上的圖像分類效果超越當(dāng)前SOTA的結(jié)果,因此Beal等人利用ViT模型作為特征提取網(wǎng)絡(luò),提出用于目標(biāo)檢測的ViT-FRCNN模型[9]。ViT-FRCNN模型結(jié)構(gòu)如圖5所示。
ViT-FRCNN模型首先將圖片分割成N個(gè)P×P子圖,將其按順序排列,轉(zhuǎn)換為序列化數(shù)據(jù),隨后將其輸入到ViT網(wǎng)絡(luò),將每個(gè)子圖的輸出重新組合成特征圖,輸入到含有RPN模塊的檢測網(wǎng)絡(luò)中實(shí)現(xiàn)預(yù)測。
3.3? 對(duì)比實(shí)驗(yàn)
本文為了衡量各基于Transformer目標(biāo)檢測模型的性能,基于公共數(shù)據(jù)集開展對(duì)比實(shí)驗(yàn),如表2所示。通過對(duì)比實(shí)驗(yàn),可見基于Transformer模型的目標(biāo)檢測精度優(yōu)于Faster RCNN模型,但檢測速度明顯不足。在基于COCO數(shù)據(jù)集的對(duì)比測試中發(fā)現(xiàn),基于Transformer模型算法平均響應(yīng)時(shí)間為Faster RCNN模型的2.1倍;對(duì)水果、蔬菜等小目標(biāo)檢驗(yàn)測試平均響應(yīng)時(shí)間為Faster RCNN模型的2.8倍,高于人物等較大目標(biāo)檢測的平均響應(yīng)時(shí)間,由此可見基于Transformer模型目標(biāo)檢測在工業(yè)農(nóng)業(yè)生產(chǎn)等領(lǐng)域的實(shí)際應(yīng)用還不夠成熟。
4? 結(jié)? 論
本文對(duì)基于Transformer目標(biāo)檢測模型進(jìn)行了分析,雖然此類模型在目標(biāo)檢測任務(wù)中有較好表現(xiàn),但仍存在許多不足。如DETR系列模型的檢測速度較慢,對(duì)小目標(biāo)檢測性能不佳;TSP模型提高了檢測速度,但大目標(biāo)檢測性能退化。目前,基于DETR算法的改進(jìn)主要是針對(duì)模型收斂速度和小目標(biāo)檢測,收斂速度的改進(jìn)通過調(diào)整注意力模塊的輸入來降低自注意的計(jì)算量來達(dá)到加速效果,而小目標(biāo)檢測任務(wù)則通過加入多尺度特征融合來實(shí)現(xiàn)?;谔卣魈崛【W(wǎng)絡(luò)的ViT-FRCNN系列模型提升了收斂速度,但平均精度有待提高。同時(shí),實(shí)際目標(biāo)檢測應(yīng)用場景環(huán)境復(fù)雜,反光倒影、灰塵遮擋等各類噪聲突出,SIRR等算法可用于基于Transformer模型的前期去噪處理,提高整體精度。
參考文獻(xiàn):
[1] VASWANI A,SHAZEER N,PARMAR N,et al. Attention is all you need [C]//Advances in Neural Information Processing Systems.Long Beach,2017:5998-6008
[2] PARMAR N,VASWANI A,USZKOREIT J,et al. Image Transformer [J/OL].arXiv:1802.05751 [cs.CV].(2018-02-15).https://arxiv.org/abs/1802.05751.
[3] CARION N,MASSA F,SYNNAEVE G,et al. End-to-End Object Detection with Transformers [M].Switzerland:Springer,2020.
[4] ZHU X Z,SU W J,LU L W,et al. Deformable DETR:Deformable Transformers for End-to-End Object Detection [J/OL].arXiv:2010.04159 [cs.CV].(2020-10-18).https://arxiv.org/abs/2010.04159.
[5] ZHENG M H,GAO P,WANG X G,et al. End-to-End Object Detection with Adaptive Clustering Transformer [J/OL].arXiv:2011.09315 [cs.CV].(2020-11-18).https://arxiv.org/abs/2011.09315v1.
[6] LIU L,OUYANG W L,WANG X G,et al. Deep Learning for Generic Object Detection:A Survey [J]. International Journal of Computer Vision,2020,128:261–318.
[7] DAI J F,QI H Z,XIONG Y W,et al. Deformable Convolutional Networks [C]//2017 IEEE International Conference on Computer Vision(ICCV).Venice:IEEE,2017:764-773.
[8] DOSOVITSKIY A,BEYER L,KOLESNIKOV A,et al. An Image is Worth 16x16 Words:Transformers for Image Recognition at Scale [J/OL].arXiv:2010.11929 [cs.CV].(2020-10-22).https://arxiv.org/abs/2010.11929.
[9] BEAL J,KIM E,TZENG E,et al. Toward Transformer-Based Object Detection [J/OL].arXiv:2012.09958 [cs.CV].(2020-12-17).https://arxiv.org/abs/2012.09958.
作者簡介:尹航(1978—),男,漢族,山東東明人,副教授,博士,研究方向:機(jī)器學(xué)習(xí)。