毛峰 凌永標(biāo) 郭尹 江志強(qiáng) 耿浩 任佳銳
摘要:針對(duì)電力安全施工中施工人員著裝不規(guī)范問(wèn)題,筆者采用智能視覺(jué)計(jì)算中的目標(biāo)檢測(cè)技術(shù),對(duì)施工人員是否佩戴安全帽以及穿著工作服是否規(guī)范的情況進(jìn)行自動(dòng)檢測(cè),提出一種基于多尺度注意力網(wǎng)絡(luò)(MAR-CNN)的著裝不規(guī)范檢測(cè)方法。該方法針對(duì)安全帽及著裝等目標(biāo)大小不一的多尺度特性,在Faster R-CNN網(wǎng)絡(luò)的基礎(chǔ)上,結(jié)合了特征金字塔(FPN)思想,設(shè)計(jì)了多尺度注意力(MA)網(wǎng)絡(luò)模塊。此外,該注意力機(jī)制可以有效抑制背景特征,增強(qiáng)檢測(cè)對(duì)象的特征,有效緩解施工現(xiàn)場(chǎng)背景復(fù)雜帶來(lái)的錯(cuò)檢漏檢現(xiàn)象。在電網(wǎng)施工現(xiàn)場(chǎng)數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果表明筆者所提方法具有有效性。
關(guān)鍵詞:目標(biāo)檢測(cè);著裝檢測(cè);電力安全;多尺度網(wǎng)絡(luò);注意力機(jī)制
中圖分類號(hào):TP381? ? ? 文獻(xiàn)標(biāo)識(shí)碼:A
文章編號(hào):1009-3044(2022)21-0004-04
開(kāi)放科學(xué)(資源服務(wù))標(biāo)識(shí)碼(OSID):
電力建設(shè)施工具有工人多、工作內(nèi)容繁多和危險(xiǎn)系數(shù)大等特點(diǎn),因此為了保障現(xiàn)場(chǎng)人員的人身安全及預(yù)防危險(xiǎn),佩戴安全帽及安全著裝顯得尤為重要。然而,存在有小部分施工人員防范意識(shí)薄弱,經(jīng)常不戴安全帽或未規(guī)范著裝進(jìn)入施工現(xiàn)場(chǎng),更有甚者在施工過(guò)程中摘除安全帽和脫掉工作服,給電力施工建設(shè)帶來(lái)危險(xiǎn)。電網(wǎng)安全施工監(jiān)管急需對(duì)施工全過(guò)程中工人不規(guī)范著裝進(jìn)行自動(dòng)化檢測(cè)和報(bào)警的解決方案。
隨著人工智能深度學(xué)習(xí)的發(fā)展,計(jì)算機(jī)視覺(jué)的研究廣泛應(yīng)用于智能視頻監(jiān)控、機(jī)器人導(dǎo)航、工業(yè)檢測(cè)、智慧醫(yī)療等諸多領(lǐng)域,通過(guò)相關(guān)技術(shù)的應(yīng)用可以有效減少對(duì)人力資源的消耗,具有重要的現(xiàn)實(shí)意義。目標(biāo)檢測(cè)正是計(jì)算機(jī)視覺(jué)的一個(gè)熱門方向。筆者利用目標(biāo)檢測(cè)技術(shù)對(duì)施工現(xiàn)場(chǎng)工人的一些不規(guī)范著裝進(jìn)行全程自動(dòng)化地檢測(cè),可以有效地提升智能電網(wǎng)現(xiàn)場(chǎng)作業(yè)安全管控的能力。
為了實(shí)現(xiàn)電力施工人員著裝不規(guī)范的自動(dòng)化檢測(cè),筆者收集并標(biāo)注了一批電力施工現(xiàn)場(chǎng)的工人規(guī)范著裝與不規(guī)范著裝的數(shù)據(jù)集。圖1展示了一對(duì)電力施工人員著裝規(guī)范與不規(guī)范的示例。筆者標(biāo)注施工人員安全帽正常佩戴和未佩戴、工作服穿戴規(guī)范和不規(guī)范這幾種典型類別,其中“aqm”表示安全帽正常佩戴,“aqmqs”表示安全帽未佩戴,“gzf”表示工作服穿戴規(guī)范,“gzfyc”表示工作服穿戴不規(guī)范。
筆者提出一種基于多尺度注意力網(wǎng)絡(luò)(MAR-CNN)的著裝不規(guī)范檢測(cè)方法。該方法針對(duì)安全帽及著裝等目標(biāo)大小不一的多尺度特性,在Faster R-CNN網(wǎng)絡(luò)的基礎(chǔ)上,結(jié)合了特征金字塔(FPN)思想,設(shè)計(jì)了多尺度注意力(MA)網(wǎng)絡(luò)模塊。此外,該注意力機(jī)制可以有效抑制背景特征,增強(qiáng)檢測(cè)對(duì)象的特征,有效緩解施工現(xiàn)場(chǎng)背景復(fù)雜帶來(lái)的錯(cuò)檢漏檢現(xiàn)象。
1 相關(guān)工作
1.1 經(jīng)典的目標(biāo)檢測(cè)網(wǎng)絡(luò)
目標(biāo)檢測(cè)是計(jì)算機(jī)視覺(jué)中的一個(gè)重要任務(wù),近年來(lái)得到了廣泛的研究。目前,基于深度學(xué)習(xí)的目標(biāo)檢測(cè)框架主要分為兩大類:一類是兩階段目標(biāo)檢測(cè)算法,這類算法以區(qū)域卷積神經(jīng)網(wǎng)絡(luò)R-CNN[1]為代表;另一類是單階段目標(biāo)檢測(cè)算法,以SSD[4]等為代表,從回歸的角度出發(fā),研究目標(biāo)檢測(cè)問(wèn)題。而兩階段目標(biāo)算法是一種將目標(biāo)檢測(cè)統(tǒng)一為區(qū)域建議加分類器的框架,即將檢測(cè)任務(wù)分為回歸任務(wù)和分類任務(wù)。一般來(lái)說(shuō),兩階段目標(biāo)算法在許多公共基準(zhǔn)數(shù)據(jù)集上可以獲得更好的檢測(cè)性能。
Ross Girshick等人將候選區(qū)域[5]與CNN結(jié)合起來(lái),提出一種目標(biāo)檢測(cè)算法R-CNN[1]。R-CNN利用了Selective Search[6] 獲得候選區(qū)域,之后對(duì)候選區(qū)域的大小進(jìn)行處理后,進(jìn)行特征提取,再使用分類器判別是否屬于特定的類別。對(duì)于選定的候選框,使用回歸器進(jìn)一步調(diào)整邊界位置。而Fast R-CNN[2]將R-CNN的多個(gè)步驟整合在一起,對(duì)于候選區(qū)域的提取仍然使用的是Selective Search算法。Faster R-CNN[3]主要是通過(guò)使用RPN網(wǎng)絡(luò)代替Selective Search算法,RPN網(wǎng)絡(luò)通過(guò)在特征圖上做滑窗操作,使用預(yù)定義好尺度的錨框映射到原圖,得到候選區(qū)域,實(shí)現(xiàn)端到端的目標(biāo)檢測(cè)。Cascade R-CNN[7]提出一種multi-stage的網(wǎng)絡(luò),利用前一個(gè)階段的輸出進(jìn)行下一階段的訓(xùn)練,階段越往后使用更高的IoU閾值,保證樣本數(shù)量的情況下產(chǎn)生更高質(zhì)量的檢測(cè)框。
1.2 多尺度網(wǎng)絡(luò)
目標(biāo)大小尺度不一的問(wèn)題一直是目標(biāo)檢測(cè)的主要難點(diǎn)之一。多尺度圖像金字塔是一種常用的改進(jìn)方案[8]。在圖像金字塔策略的基礎(chǔ)上,SNIP[9]提出一種尺度歸一化方法。但是,他們的推理速度較慢。另外一些方法利用不同空間分辨率的多層次特征來(lái)緩解尺度變化,或者直接根據(jù)骨干網(wǎng)絡(luò)提出的金字塔特征層次結(jié)構(gòu)作為檢測(cè)器進(jìn)行預(yù)測(cè)[7,12]。ION[10]連接不同層的特征,以生成更好的特征圖進(jìn)行預(yù)測(cè)。為了彌補(bǔ)底層特征中語(yǔ)義的缺失,F(xiàn)PN網(wǎng)絡(luò)[11]提出一種自上而下地融合多尺度特征的路徑,以在高層特征中整合強(qiáng)語(yǔ)義信息。PANet[15]在FPN上增加了一個(gè)額外的自底向上的路徑聚合網(wǎng)絡(luò);STDL[12]提出一個(gè)利用跨尺度特性的尺度轉(zhuǎn)換模塊;M2det[13]提出一個(gè)U形模塊來(lái)融合多尺度特征。
1.3 注意力網(wǎng)絡(luò)模塊
注意力網(wǎng)絡(luò)模塊的核心思想是基于原有的數(shù)據(jù)找到其之間的關(guān)聯(lián)性,根據(jù)重要程度不同賦予不同的權(quán)重。自注意力機(jī)制是注意力機(jī)制的改進(jìn),其減少了對(duì)外部信息的依賴,更擅長(zhǎng)捕捉數(shù)據(jù)或特征的內(nèi)部相關(guān)性,能夠有效提高模型訓(xùn)練的并行性和效率。SENet[14]通過(guò)顯式建模通道之間的相互依賴性自適應(yīng)地重新校準(zhǔn)通道的特征響應(yīng),可以利用小的計(jì)算代價(jià)獲取大的性能提升。Huet等人[15]提出一種應(yīng)用自注意力機(jī)制的目標(biāo)關(guān)系模塊,對(duì)一組目標(biāo)以及它們之間的關(guān)系進(jìn)行建模,提高對(duì)象的識(shí)別能力。DANet[16]通過(guò)融合并行的通道注意力模塊和位置注意力模塊的結(jié)果來(lái)捕獲豐富的上下文相關(guān)性,自適應(yīng)地將局部特征與其全局相關(guān)性相結(jié)合。SANet[17]通過(guò)池化層實(shí)現(xiàn)多尺度特征聚合,同時(shí)生成軟全局注意掩碼,增強(qiáng)像素級(jí)密集預(yù)測(cè)的目標(biāo)。
針對(duì)電力施工現(xiàn)場(chǎng)存在的場(chǎng)景復(fù)雜導(dǎo)致的尺度變化多樣性等問(wèn)題,筆者結(jié)合了特征金字塔(FPN)思想,設(shè)計(jì)了多尺度注意力(MA)網(wǎng)絡(luò)模塊,提出了一個(gè)多尺度注意力網(wǎng)絡(luò)。
2 多尺度注意力網(wǎng)絡(luò)(MAR-CNN)
本文基于對(duì)目標(biāo)檢測(cè)網(wǎng)絡(luò)和區(qū)域建議生成網(wǎng)絡(luò)共享全圖像卷積特征的Faster R-CNN網(wǎng)絡(luò)結(jié)構(gòu)進(jìn)行設(shè)計(jì)。為了對(duì)一張既具有高分辨率又具有較強(qiáng)語(yǔ)義信息的特征圖進(jìn)行預(yù)測(cè),網(wǎng)絡(luò)結(jié)合了在以特征金字塔為基礎(chǔ)結(jié)構(gòu)對(duì)每一層級(jí)的特征圖分別進(jìn)行預(yù)測(cè)的FPN結(jié)構(gòu)。針對(duì)電力施工場(chǎng)景中,隨著施工規(guī)模、地點(diǎn)的不同,目標(biāo)尺度豐富以及背景復(fù)雜這一現(xiàn)象,本文設(shè)計(jì)出一個(gè)多尺度注意力(MA)模塊。
2.1 多尺度注意力(MA)模塊
為了緩解目標(biāo)尺度變化較大帶來(lái)的障礙,筆者參考了現(xiàn)有的一些多尺度信息融合的方式,并在融合中增加通道注意力,詳細(xì)結(jié)構(gòu)如圖2所示。
受相互學(xué)習(xí)思想[18]的啟發(fā),Pang等人[19]提出了一種聚合交互策略(AIM),以更好地利用多層次特征,避免因分辨率差異較大而對(duì)特征融合造成干擾。單級(jí)特征只能表征尺度特定的信息。在自上而下的路徑中,淺層特征的細(xì)節(jié)表現(xiàn)能力由于深層特征的不斷積累而減弱。受上述思想啟發(fā),本文融合相鄰層的特征,因?yàn)樗鼈兊某橄蟪潭雀咏?,同時(shí)獲得了豐富的尺度信息。如圖2所示,可分為三種融合方式。第一種,將來(lái)自ResNet網(wǎng)絡(luò)第一層的特征與第二層的特征進(jìn)行融合,首先將高低層特征分別采樣到對(duì)方分辨率大小,再分別進(jìn)行融合,然后將融合過(guò)后的特征再次進(jìn)行融合(此時(shí)融合后特征分辨率與低層特征分辨率相同),再增加一條殘差連接,將特征與低層特征融合。第二種,融合方式同第一種,只是此時(shí)選取ResNet網(wǎng)絡(luò)三層相鄰特征進(jìn)行融合,最終特征大小分辨率與中間層特征相同。第三種,同前兩種方式,選取ResNet網(wǎng)絡(luò)第三層的特征與第四層的特征進(jìn)行融合,最終特征大小分辨率與高層特征相同。
另外,由于電力施工場(chǎng)景背景較為復(fù)雜,常施工于城市街道、鄉(xiāng)村街道、農(nóng)田等各種不同場(chǎng)景下,為了抑制這種背景帶來(lái)的不利影響,筆者在尺度信息融合過(guò)程中,使用了Squeeze-and-Attention模塊(SA)[17]。SA模塊擴(kuò)展于SE模塊[14]并引入了通道注意力機(jī)制,通過(guò)通道之間的相關(guān)性把重要的特征增強(qiáng),不重要的特征減弱,從而讓提取的特征指向性更強(qiáng),對(duì)網(wǎng)絡(luò)性能帶來(lái)了一定的性能提升。
2.2 基于多尺度注意力的目標(biāo)檢測(cè)網(wǎng)絡(luò)
MAR-CNN目標(biāo)檢測(cè)網(wǎng)絡(luò)的整體結(jié)構(gòu)見(jiàn)圖3,主干網(wǎng)絡(luò)選取ResNet101網(wǎng)絡(luò),將主干網(wǎng)絡(luò)后四層獲取到的特征送入多尺度注意力模塊,經(jīng)過(guò)MA模塊后得到特征:[Cii∈1,2,3,4]。
再結(jié)合帶有top-down結(jié)構(gòu)和橫向連接的FPN[11]結(jié)構(gòu)設(shè)計(jì),以此融合具有高分辨率的低層特征和具有豐富語(yǔ)義信息的高層特征。此時(shí),筆者得到特征[Pii∈1,2,3,4],再使用RPN網(wǎng)絡(luò)進(jìn)行預(yù)測(cè)。RPN網(wǎng)絡(luò)實(shí)際分為2條分支,一個(gè)分支通過(guò)softmax分類用來(lái)判斷anchors是否為需要檢測(cè)的物體,另一分支用于計(jì)算對(duì)于anchors的邊界框回歸的偏移量,以獲得精確的proposals。而最后的proposal層則負(fù)責(zé)綜合前景anchors和與其對(duì)應(yīng)邊界框回歸的偏移量獲取最后的proposals,同時(shí)剔除太小和超出邊界的 proposals。RPN 提高了區(qū)域建議質(zhì)量,從而提高了整體目標(biāo)檢測(cè)精度。另外,圖3中Res_layer [ii∈1,2,3,4]表示的是不同的ResNet層,F(xiàn)C為全連接層。
3 實(shí)驗(yàn)
3.1 實(shí)驗(yàn)環(huán)境
實(shí)驗(yàn)代碼基于PyTorch深度框架。在訓(xùn)練階段,采用數(shù)據(jù)增強(qiáng)技術(shù)來(lái)避免過(guò)擬合問(wèn)題。筆者的網(wǎng)絡(luò)在Tesla P100-PCIE-16GB上訓(xùn)練了20個(gè)epoch。經(jīng)實(shí)驗(yàn)證明,20個(gè)epoch已經(jīng)可以使模型收斂。骨干網(wǎng)絡(luò)參數(shù)(ResNet-101)使用ImageNet數(shù)據(jù)集上預(yù)先訓(xùn)練的相應(yīng)模型進(jìn)行初始化。筆者使用動(dòng)量SGD優(yōu)化器,其權(quán)重衰減為0.0001,初始學(xué)習(xí)速率為0.02,動(dòng)量為0.9。
3.2 數(shù)據(jù)集
本文實(shí)驗(yàn)所使用的數(shù)據(jù)來(lái)源于真實(shí)電力施工場(chǎng)景。筆者針對(duì)電力施工人員工作服穿戴、安全帽佩戴情況,共實(shí)地收集了5431張圖片,并從中劃分4888張圖片作為訓(xùn)練集,其余作為驗(yàn)證集。數(shù)據(jù)共包括4類對(duì)象,表1列舉出筆者制作的數(shù)據(jù)集的具體檢測(cè)對(duì)象分布情況,其中數(shù)量表示的是每一類檢測(cè)目標(biāo)的標(biāo)注框數(shù)量而非圖片數(shù)量。每一張圖片中可能包含多個(gè)標(biāo)注框。筆者的數(shù)據(jù)集存在的挑戰(zhàn)主要是由真實(shí)場(chǎng)景中施工現(xiàn)場(chǎng)的多樣性帶來(lái)了目標(biāo)對(duì)象的尺度變化較大,另在街道中施工時(shí),行人及旁觀者也將被進(jìn)行檢測(cè),這對(duì)筆者的檢測(cè)效果帶來(lái)了一定的挑戰(zhàn)。
3.3 對(duì)比實(shí)驗(yàn)
3.3.1 與其他現(xiàn)有方法對(duì)比
將MAR-CNN方法與其他的方法在真實(shí)施工場(chǎng)景數(shù)據(jù)集上進(jìn)行比較,筆者將Faster R-CNN[3]、SSD[4]、Cascade R-CNN[7]、GFL[20]、ATSS[21]5種目標(biāo)檢測(cè)方法以及MAR-CNN方法的實(shí)驗(yàn)結(jié)果展示在表2中。從表中數(shù)據(jù),可以說(shuō)明筆者方法的有效性。在真實(shí)施工場(chǎng)景的數(shù)據(jù)集上,筆者的方法針對(duì)施工人員佩戴安全帽和穿戴工作服的檢測(cè)結(jié)果具有一定的可靠性,從而更大程度地對(duì)施工人員的人身安全進(jìn)行保護(hù)。
為了更好地說(shuō)明,筆者繪制了實(shí)驗(yàn)過(guò)程中的loss變化圖,以及各類方法的mAP結(jié)果圖,如圖4和圖5。圖4中,橫坐標(biāo)為訓(xùn)練迭代次數(shù)。如圖5所示,本文方法的收斂速度與效果是圖中最好的,橫坐標(biāo)表示為訓(xùn)練epoch次數(shù)。從各個(gè)數(shù)據(jù)對(duì)比中可以看出,本文方法與其他方法相比較,達(dá)到了最優(yōu)的性能。
3.3.2 模塊有效性對(duì)比實(shí)驗(yàn)
MAR-CNN是基于Faster R-CNN[3]網(wǎng)絡(luò)結(jié)構(gòu),結(jié)合FPN[11]思想,并使用了帶有通道注意力的信息融合模塊。
筆者首先討論MAR-CNN對(duì)比帶有FPN[11]思想的Faster R-CNN[3]網(wǎng)絡(luò)的效果。如表3所示,從檢測(cè)結(jié)果可以看出,MAR-CNN方法的檢測(cè)精度更高一些。其中AP0.5表示在訓(xùn)練和測(cè)試中使用的閾值。AP0.5是指當(dāng)檢測(cè)框與標(biāo)注框重疊的交并比超過(guò)0.5即認(rèn)為檢測(cè)到目標(biāo)時(shí)的平均精度,AP0.75表示閾值為0.75。
同時(shí),筆者對(duì)不同尺度目標(biāo)的檢測(cè)精度進(jìn)行了分析,如表4所示。表4中選用的IoU為0.5,目標(biāo)的標(biāo)注面積小于322為小目標(biāo),用APs來(lái)表示;目標(biāo)的標(biāo)注面積介于322和962之間的稱為中等目標(biāo),用APm來(lái)表示;目標(biāo)的標(biāo)注面積大于962的稱為大目標(biāo),用APl來(lái)表示。如表4所示,筆者的方法在三種尺度的目標(biāo)上檢測(cè)精度均高于帶有FPN[11]思想的Faster R-CNN[3]網(wǎng)絡(luò)的檢測(cè)精度,這也從側(cè)面說(shuō)明了本文所提的MA模塊的有效性。
其次,筆者對(duì)不同的檢測(cè)類別結(jié)果也做了分析,并將結(jié)果展示于表5中,此時(shí)檢測(cè)框與標(biāo)注框重疊的交并比的閾值設(shè)定為0.7。從表5中,筆者可以發(fā)現(xiàn),安全帽未佩戴的檢測(cè)精度整體較低,這是因?yàn)槲磁宕鞯那闆r大多為施工現(xiàn)場(chǎng)的非工作人員以及極少部分的工作人員,導(dǎo)致安全帽未佩戴的情況更加豐富,其中一個(gè)表現(xiàn)就是尺度變化更豐富。相對(duì)于帶有FPN[11]思想的Faster R-CNN[3]網(wǎng)絡(luò),筆者的方法在這個(gè)類別上的檢測(cè)效果也可以達(dá)到小幅度的提升,從而說(shuō)明本文方法的有效性。
為了更直接地說(shuō)明筆者所提方法中各模塊的有效性,針對(duì)網(wǎng)絡(luò)中有無(wú)FPN思想、有無(wú)聚合交互策略(AIM)以及有無(wú)通道注意力機(jī)制做了對(duì)比實(shí)驗(yàn),并將實(shí)驗(yàn)結(jié)果展示在表6中。另外,筆者選擇SE模塊作為注意力機(jī)制替換SA時(shí),AP0.75僅有0.42,AP0.5僅為0.71。從而更加直觀地說(shuō)明多尺度注意力(MA)模塊的有效性。
4 結(jié)論
為了進(jìn)一步提升電力施工現(xiàn)場(chǎng)的安全性,保障現(xiàn)場(chǎng)人員的人身安全,筆者設(shè)計(jì)出一種多尺度信息融合目標(biāo)檢測(cè)算法MAR-CNN,對(duì)電力施工人員著裝不規(guī)范的典型情況進(jìn)行自動(dòng)檢測(cè)。為了得出更可靠的結(jié)果,筆者收集了真實(shí)場(chǎng)景的施工現(xiàn)場(chǎng)圖片,制作出一個(gè)電網(wǎng)施工人員著裝數(shù)據(jù)集,并在這個(gè)數(shù)據(jù)集上驗(yàn)證了筆者方法的有效性。
參考文獻(xiàn):
[1] Girshick R,Donahue J,Darrell T,et al.Rich feature hierarchies for accurate object detection and semantic segmentation[C]//2014 IEEE Conference on Computer Vision and Pattern Recognition.June 23-28,2014,Columbus,OH,USA.IEEE,2014:580-587.
[2] Girshick R.Fast R-CNN[C]//2015 IEEE International Conference on Computer Vision.December 7-13,2015,Santiago,Chile.IEEE,2015:1440-1448.
[3] Ren S Q,He K M,Girshick R,et al.Faster R-CNN:towards real-time object detection with region proposal networks[J].IEEE Transactions on Pattern Analysis and Machine Intelligence,2017,39(6):1137-1149.
[4] Liu W,Anguelov D,Erhan D,et al.SSD:single shot MultiBox detector[M]//Computer Vision – ECCV 2016.Cham:Springer International Publishing,2016:21-37.
[5] Hosang J,Benenson R,Dollár P,et al.What makes for effective detection proposals?[J].IEEE Transactions on Pattern Analysis and Machine Intelligence,2016,38(4):814-830.
[6] Uijlings J R R,Sande K,Gevers T,et al.Selective search for object recognition[J].International Journal of Computer Vision,2013,104(2):154-171.
[7] Cai Z W,Vasconcelos N.Cascade R-CNN:delving into high quality object detection[C]//2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition.June 18-23,2018,Salt Lake City,UT,USA.IEEE,2018:6154-6162.
[8] Liu S,Qi L,Qin H F,et al.Path aggregation network for instance segmentation[C]//2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition.June 18-23,2018,Salt Lake City,UT,USA.IEEE,2018:8759-8768.
[9] Singh B,Davis L S.An analysis of scale invariance in object detection - SNIP[C]//2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition.June 18-23,2018,Salt Lake City,UT,USA.IEEE,2018:3578-3587.
[10] Bell S,Zitnick C L,Bala K,et al.Inside-outside net:detecting objects in context with skip pooling and recurrent neural networks[C]//2016 IEEE Conference on Computer Vision and Pattern Recognition.June 27-30,2016,Las Vegas,NV,USA.IEEE,2016:2874-2883.
[11] Lin T Y,Dollár P,Girshick R,et al.Feature pyramid networks for object detection[C]//2017 IEEE Conference on Computer Vision and Pattern Recognition.July 21-26,2017,Honolulu,HI,USA.IEEE,2017:936-944.
[12] Zhou P,Ni B B,Geng C,et al.Scale-transferrable object detection[C]//2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition.June 18-23,2018,Salt Lake City,UT,USA.IEEE,2018:528-537.
[13] Zhao Q J,Sheng T,Wang Y T,et al.M2Det:a single-shot object detector based on multi-level feature pyramid network[J].Proceedings of the AAAI Conference on Artificial Intelligence,2019,33:9259-9266.
[14] Hu J,Shen L,Sun G.Squeeze-and-excitation networks[C]//2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition.June 18-23,2018,Salt Lake City,UT,USA.IEEE,2018:7132-7141.
[15] Hu H,Gu J Y,Zhang Z,et al.Relation networks for object detection[C]//2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition.June 18-23,2018,Salt Lake City,UT,USA.IEEE,2018:3588-3597.
[16] Fu J,Liu J,Tian H J,et al.Dual attention network for scene segmentation[C]//2019 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR).June 15-20,2019,Long Beach,CA,USA.IEEE,2019:3141-3149.
(下轉(zhuǎn)第14頁(yè))
(上接第7頁(yè))
[17] Zhong Z L,Lin Z Q,Bidart R,et al.Squeeze-and-attention networks for semantic segmentation[C]//2020 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR).June 13-19,2020,Seattle,WA,USA.IEEE,2020:13062-13071.
[18] Ying Zhang, Tao Xiang, Timothy M Hospedales, et al. Deep mutual learning. In CVPR, pages 4320–4328, 2018.
[19] Pang Y W,Zhao X Q,Zhang L H,et al.Multi-scale interactive network for salient object detection[C]//2020 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR).June 13-19,2020,Seattle,WA,USA.IEEE,2020:9410-9419.
[20]? Xiang Li, Wenhai Wang, Lijun Wu,et al. Generalized focal loss: Learning qualified and distributed bounding boxes for dense object detection. arXiv preprint arXiv:2006.04388, 2020.
[21] Zhang S F,Chi C,Yao Y Q,et al.Bridging the gap between anchor-based and anchor-free detection via adaptive training sample selection[C]//2020 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR).June 13-19,2020,Seattle,WA,USA.IEEE,2020:9756-9765.
【通聯(lián)編輯:唐一東】