• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      基于注意力機(jī)制和多層次特征融合的目標(biāo)檢測算法

      2023-01-08 11:29:18周秋艷肖滿生范雙南
      關(guān)鍵詞:卷積精度特征

      周秋艷,肖滿生,范雙南

      (1.湖南工業(yè)大學(xué) 計算機(jī)學(xué)院,湖南 株洲 412007;2.湖南交通工程學(xué)院 電氣與信息工程學(xué)院,湖南 衡陽 421001)

      1 研究背景

      目標(biāo)檢測是指從圖像中獲取感興趣的目標(biāo),確定每個目標(biāo)的準(zhǔn)確位置和類別,并在圖像上進(jìn)行標(biāo)注。近年來隨著目標(biāo)檢測的快速發(fā)展,該技術(shù)被廣泛應(yīng)用于智能駕駛、醫(yī)學(xué)圖像診斷、行人檢測和航天航空等領(lǐng)域[1-3]。

      基于手工特征提取的傳統(tǒng)檢測算法主要包括以下步驟:圖像預(yù)處理、窗口滑動、特征提取和特征數(shù)據(jù)處理、分類器分類[4]。這些算法在特征提取階段常用的視覺特征有Harr 特征[5]、HOG 特征[6]、SIFT(scale-invariant feature transform)特征[7]等,但這些特征被用于識別特定的任務(wù)時往往存在一些缺陷。如依靠人工的先驗知識設(shè)計特征提取器,缺乏一定客觀性,因此對多樣性目標(biāo)的檢測魯棒性差,在復(fù)雜場景下很難取得較好的效果,檢測精度和速度較低。近年隨著深度學(xué)習(xí)的迅速發(fā)展,許多學(xué)者利用深度卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural networks,CNN)進(jìn)行特征提取,該模型的泛化能力較強(qiáng),目標(biāo)檢測精度和速度得到了較大提升。目前主流的目標(biāo)檢測算法主要分為單階段和兩階段兩種策略,基于候選框的兩階段方法如R-CNN(region-based convolutional neural networks)[8]、Faster RCNN[9]、Cascade RCNN[10]等,其實現(xiàn)過程為:先對感興趣的區(qū)域進(jìn)行候選框獲取,而后利用CNN 網(wǎng)絡(luò)生成對應(yīng)的特征圖,對候選框進(jìn)行分類識別和邊框回歸,完成目標(biāo)檢測,此類方法檢測精度較高,但實時性不強(qiáng)。而基于回歸的單階段方法如SSD(single shot multibox detector)[11]和YOLO(you only look once)[12]等,此類方法利用CNN 網(wǎng)絡(luò)直接預(yù)測目標(biāo)的類別與位置,無需獲取候選框,檢測的實時性較強(qiáng),但精度不高。針對這些問題,專家學(xué)者提出了許多基于深度學(xué)習(xí)框架模型以改善目標(biāo)檢測效果,對于不同尺度的目標(biāo)需要不同大小感受野的特征去識別,而神經(jīng)網(wǎng)絡(luò)的高層特征中包含了豐富的語義信息,因此許多方法是通過增加網(wǎng)絡(luò)層數(shù)來獲得語義信息更強(qiáng)的高層特征圖,從而提升網(wǎng)絡(luò)性能,但隨著卷積層數(shù)增加,圖像經(jīng)過大量特征處理后,目標(biāo)的位置信息變?nèi)?。高層特征圖的語義信息較強(qiáng)、分辨率較低,而低層特征圖的分辨率較高、語義信息較弱,同時相鄰層級的特征圖間的相關(guān)性在此過程中會愈加弱化,導(dǎo)致分類和回歸的精度不高。針對這些問題,一系列典型的多尺度特征融合模塊被提出,如特征金字塔網(wǎng)絡(luò)(feature pyramid network,F(xiàn)PN)[13]、神經(jīng)結(jié)構(gòu)搜索特征金字塔網(wǎng)絡(luò)(neural architecture Search Feature Pyramid Network,NAS-FPN)[14],以及許多運用了多尺度特征融合方法的網(wǎng)絡(luò):如PANet(path aggregation network)[15]、HRNet(high-resolution representation learning for human pose estimation)[16]。Tan M.X.等[17]提出了一種加權(quán)雙向特征金字塔網(wǎng)絡(luò)(bi-directional feature pyramid network,Bi-FPN)實現(xiàn)快速的多尺度特征融合。Cao J.X.等[18]通過整合注意力引導(dǎo)的多路徑特征,利用了來自各種大感受野的判別信息,提出注意力引導(dǎo)的上下文特征金字塔網(wǎng)絡(luò)。Xing H.J.等[19]提出了基于雙重注意力機(jī)制的特征金字塔網(wǎng)絡(luò),改善了小目標(biāo)檢測效果,Hu J.等[20]對通道之間的相互依賴性進(jìn)行建模以自適應(yīng)地重新校準(zhǔn)通道特征響應(yīng),提出了SENet(squeeze and excitation networks),極大改善了網(wǎng)絡(luò)性能。

      受上述思想啟發(fā),本文提出了一種基于注意力機(jī)制和多層次特征融合的目標(biāo)檢測算法,能夠有效提高目標(biāo)檢測精度,主要貢獻(xiàn)如下:

      1)設(shè)計了簡單的注意力模塊(simple attention module,SAM),并將其應(yīng)用于主干網(wǎng)絡(luò),對網(wǎng)絡(luò)通道關(guān)系進(jìn)行建模以增強(qiáng)網(wǎng)絡(luò)的表征能力;

      2)針對檢測中的多尺度問題及網(wǎng)絡(luò)中不同分辨率的特征對網(wǎng)絡(luò)性能提升貢獻(xiàn)的不同,本文設(shè)計了基于深度可分離卷積的多層次特征融合模塊(multi-layer feature fusion module,MFFM),對多尺度特征進(jìn)行融合,在保證效率的情況下豐富了特征信息,同時引入可學(xué)習(xí)的權(quán)重,獲取不同輸入特征的重要性程度,以更好地平衡不同尺度的特征信息。

      2 目標(biāo)檢測算法

      2.1 簡單的注意力模塊

      注意力機(jī)制是在全局信息中獲得需要關(guān)注的部分的一種方式。本文融合了SAM,利用通道注意力機(jī)制整合特征圖來選擇性地強(qiáng)調(diào)互相關(guān)聯(lián)通道的重要性,增強(qiáng)包含更多關(guān)鍵信息的特征,并抑制無關(guān)或較弱關(guān)聯(lián)的特征,以平衡不同通道之間的特征信息。其結(jié)構(gòu)如圖1 所示。如圖1 所示,SAM 結(jié)構(gòu)主要作用在殘差模塊的分支,將殘差結(jié)構(gòu)的輸出作為它的輸入,H、W分別表示輸入特征圖的高和寬,C表示通道數(shù),即輸入特征圖大小為H×W×C。通過全局平均池化將特征圖壓縮為1×1×C的向量,將全局空間信息壓縮到通道描述子中,使其具有全局的感受野來對通道維度上的特征相關(guān)性進(jìn)行建模。經(jīng)過1×1 卷積將特征通道數(shù)調(diào)整為輸入通道數(shù)的1/r,r為縮放比例,通過實驗得出r取16 比較合適(詳見3.4 節(jié)),可以實現(xiàn)準(zhǔn)確度和計算復(fù)雜度之間的良好平衡。對壓縮了通道數(shù)的特征圖經(jīng)ReLU 激活,使其具有學(xué)習(xí)通道間的非線性交互能力,再通過一個1×1 卷積恢復(fù)通道數(shù),最后以Sigmoid 函數(shù)進(jìn)行歸一化處理,獲得0~1 之間的權(quán)重,通過Scale 操作將每個通道賦予權(quán)重值。其中涉及的理論過程推導(dǎo)如式(1)所示。

      圖1 SAM 結(jié)構(gòu)Fig.1 SAM structure

      SAM 完成了通道相關(guān)性的構(gòu)建,自適應(yīng)地為不同通道學(xué)習(xí)到不同的通道注意力權(quán)重,讓網(wǎng)絡(luò)專注于有更多貢獻(xiàn)的通道,增強(qiáng)判別能力。

      2.2 多層次特征融合模塊

      在目標(biāo)檢測網(wǎng)絡(luò)中,深層特征語義信息強(qiáng)但分辨率低,淺層特征分辨率高但語義信息弱[21-22],本文融合了不同分辨率的特征,利用深層特征圖中含有目標(biāo)豐富的語義信息和淺層特征圖的局部位置信息來提高網(wǎng)絡(luò)的性能,解決多尺度問題。

      經(jīng)過主干網(wǎng)絡(luò)自底向上路徑特征提取輸出的5層特征圖中,每層最后一個殘差塊輸出的特征圖為P1~P5,由于P1語義信息較弱、分辨率過大不利于計算,因此采用P2~P5作為加權(quán)特征融合網(wǎng)絡(luò)的輸入,用1×1 的卷積核對原始特征橫向連接,統(tǒng)一修正特征圖的通道數(shù)為256,進(jìn)而進(jìn)行自頂向下與復(fù)用的低層特征進(jìn)行第一次融合,第一次只對P3和P4特征圖做此操作,得到過渡特征集合。此時過渡特征中高層的特征信息較低層特征來說更弱,底層特征分辨率高,包含了更多小目標(biāo)檢測的細(xì)節(jié)信息,因此對過渡特征進(jìn)行二次融合。采用1×1 的卷積核對過渡特征圖進(jìn)行橫向連接,對每層特征圖利用下采樣操作使其與更高一層特征圖具有相同尺寸。再將低層特征自底向上與復(fù)用的高層特征融合,由于P2特征圖包含更多空間位置信息,因此將P2參與二次融合,與過渡特征圖P3融合,P5特征圖含有豐富的語義信息,也參與二次融合中。這種對同一層的原始輸入特征直接連接到輸出特征參與自底向上特征融合的做法能夠充分利用高層特征的強(qiáng)語義信息和底層特征的空間位置信息,最終得到輸出特征,送入RPN 網(wǎng)絡(luò)進(jìn)行后續(xù)處理,MFFM 結(jié)構(gòu)如圖2 所示。

      圖2 MFFM 結(jié)構(gòu)Fig.2 MFFM structure

      為了降低其復(fù)雜度,本文利用深度可分離卷積代替3×3 普通卷積,深度可分離卷積通過兩次卷積操作實現(xiàn),先分別對通道同時進(jìn)行3×3 卷積,批量正則化后,通過1×1 逐點卷積,較之普通卷積,參數(shù)量大大減少。此外,不同的輸入特征具有不同的分辨率,通常它們對輸出特征所作出的貢獻(xiàn)有所不同[23],因此引入權(quán)重讓網(wǎng)絡(luò)學(xué)習(xí)每個輸入特征的重要性,更好地平衡不同尺度的特征信息。權(quán)重計算如式(3)所示:式中:wi(wi≥0)為可學(xué)習(xí)權(quán)重,用ReLU 函數(shù)將權(quán)重歸一化,表示每個輸入特征的重要性程度;ε為一個很小的值,設(shè)置為0.000 1,避免數(shù)值不穩(wěn)定;L為計算的權(quán)重結(jié)果值。

      以兩個特征圖融合為例進(jìn)行說明,如式(4)(5)所示。

      式(4)(5)中:為第4 層的輸入特征值;為自頂向下路徑上第4 層的過渡特征值,為便于區(qū)分同一層上不同類型的特征,本文采用上標(biāo)in、td、out區(qū)分該層的輸出特征、過渡特征、輸出特征;為自底向上路徑上第4 層的輸出特征;Resize為用于分辨率匹配的上采樣或下采樣;DwConv為用于特征處理的深度可分離卷積操作。

      2.3 分類網(wǎng)絡(luò)

      經(jīng)過特征融合的特征圖通過3×3 的卷積運算去除混疊效應(yīng)后送到RPN 網(wǎng)絡(luò)。RPN 網(wǎng)絡(luò)的詳細(xì)介紹見文獻(xiàn)[9],圖3 所示為RPN 網(wǎng)絡(luò)結(jié)構(gòu)圖。首先,在特征圖上初步提取檢測目標(biāo)候選區(qū)域,本文采用4 種不同尺度面積{642,1282,2562,5122}、3 種不同長寬比{1 ∶2,1 ∶1,2 ∶1}生成12 種不同大小的anchor,進(jìn)行1×1 卷積,輸出24 維的向量,輸入到Softmax 進(jìn)行二分類。其次,RPN 對分類后舍棄背景的anchor 進(jìn)行邊界框回歸操作,得到檢測目標(biāo)的一系列候選區(qū)域。需要將這些候選區(qū)域映射到原圖中,由于得到的候選區(qū)域大小不同,本文采用ROI Align方法獲得固定尺寸的特征圖,通過全連接和Softmax激活函數(shù),并結(jié)合邊界框回歸進(jìn)行精確地分類識別和回歸定位,獲得檢測目標(biāo)所屬類別的概率和邊框的準(zhǔn)確位置。

      圖3 RPN 網(wǎng)絡(luò)結(jié)構(gòu)圖Fig.3 RPN network structure

      2.4 目標(biāo)檢測算法模型

      前面設(shè)計了SAM 和MFFM 結(jié)構(gòu),本文基于此,提出了基于注意力機(jī)制和多層次特征融合的目標(biāo)檢測算法,整體框架如圖4 所示。

      圖4 目標(biāo)檢測模型框架圖Fig.4 Target detection model frame diagram

      如圖4 所示,其基于Cascade RCNN 改進(jìn),采用ResNet50 作為主干網(wǎng)絡(luò),利用SAM,旨在通過它能使網(wǎng)絡(luò)執(zhí)行動態(tài)通道特征重新校準(zhǔn)以提高網(wǎng)絡(luò)的表征能力,從通道維度方面提高目標(biāo)檢測精度。將原始圖像輸入主干網(wǎng)絡(luò)完成圖像特征提取,具體改進(jìn)工作和實現(xiàn)細(xì)節(jié)詳見2.1 節(jié)。其次,本文設(shè)計了MFFM,將主干網(wǎng)絡(luò)提取到的不同層次特征圖進(jìn)行多尺度融合,實現(xiàn)語義特征和位置特征的有效融合,得到融合后的特征圖,具體的多尺度特征融合思想和實現(xiàn)細(xì)節(jié)詳見2.2 節(jié)。最后利用改進(jìn)的RPN 網(wǎng)絡(luò)[24]在特征圖上獲取包含面積種類更多的區(qū)域建議,利用ROI Align 方法進(jìn)行特征映射,用softmax 進(jìn)行分類和邊框回歸,其實現(xiàn)過程詳見2.3 節(jié)。至此完成目標(biāo)檢測,得到含有目標(biāo)類別、目標(biāo)框和置信度的圖像。

      3 實驗和結(jié)果分析

      3.1 數(shù)據(jù)集和實驗環(huán)境

      本實驗使用2 個數(shù)據(jù)集,一個是圖像分類和目標(biāo)檢測中常用的標(biāo)準(zhǔn)數(shù)據(jù)集PASCAL VOC 2012,在實驗過程中將其xml 標(biāo)簽文件轉(zhuǎn)換為json 格式,該數(shù)據(jù)集中共有11 540 張已標(biāo)注好的圖像數(shù)據(jù)和27 450個目標(biāo)物體,其中訓(xùn)練集含有5 717 張圖像數(shù)據(jù),測試集有5 823 張,數(shù)據(jù)集中包含行人、汽車、狗、雨傘等20 個類別。另一個數(shù)據(jù)集是針對深度學(xué)習(xí)技術(shù)在醫(yī)學(xué)圖像診斷領(lǐng)域的應(yīng)用,收集了胃腸道息肉圖像數(shù)據(jù)(GP Images)。胃腸道息肉是常見的消化系統(tǒng)疾病,可發(fā)生于胃腸道內(nèi)多個部位,會隨著病情的發(fā)展出現(xiàn)癌變的情況,因此及時診斷發(fā)現(xiàn)胃腸道息肉非常重要。本文采用改進(jìn)后的目標(biāo)檢測算法對采集到的胃腸道息肉圖像進(jìn)行檢測和識別,協(xié)助醫(yī)護(hù)人員準(zhǔn)確捕捉到胃腸道息肉的精確位置。此數(shù)據(jù)集共有1 000 張標(biāo)注好的圖像數(shù)據(jù),包含一個類別:polyp。本實驗運行環(huán)境配置:操作系統(tǒng)Ubuntu 16.04,顯卡GeForce RTX 2080Ti,2.50 GHz CPU,CUDA 版 本10.2,基于Pytorch 框架和Python 編程語言實現(xiàn)。

      3.2 評價指標(biāo)

      為了驗證本文所提算法的性能,選用目標(biāo)檢測任務(wù)中的平均精度AP(average precision)作為本文算法的評價指標(biāo),其中涉及到的精度p(precision)和召回率r(recall)的計算公式如式(6)所示,以檢測結(jié)果框與真實框的交并比(IOU)來判定正負(fù)樣本。

      式中:TP為被模型預(yù)測為正類的正樣本數(shù);FP為被預(yù)測為正類的負(fù)樣本數(shù);FN為被預(yù)測為負(fù)類的正樣本數(shù)。

      平均精度AP則為PR曲線下的面積,計算公式如式(7)所示。

      式中p(r)為以r為參數(shù)的函數(shù)。

      實驗中涉及的AP(平均值)、AP50、AP75分別表示當(dāng)IOU 為0.50:0.95,0.50,0.75 時的AP值,APS、APM、APL分別表示像素面積小于322,322~962,962的目標(biāo)框AP值。

      3.3 數(shù)據(jù)預(yù)處理

      在進(jìn)行目標(biāo)檢測時不僅要改善網(wǎng)絡(luò)模型結(jié)構(gòu),往往還需關(guān)注數(shù)據(jù)集的質(zhì)量,可對數(shù)據(jù)集進(jìn)行數(shù)據(jù)增強(qiáng),即對輸入圖像的像素點的分布、值的大小進(jìn)行一些根本性的變換,同時保證圖像的標(biāo)簽數(shù)據(jù)與之對應(yīng)。本文采用在線數(shù)據(jù)增強(qiáng)技術(shù)中常用的隨機(jī)翻轉(zhuǎn),本質(zhì)上目標(biāo)本身類別在翻轉(zhuǎn)后未發(fā)生改變,但能增加數(shù)據(jù)集的多樣性,訓(xùn)練過程中先對每個批次的訓(xùn)練數(shù)據(jù)進(jìn)行數(shù)據(jù)增強(qiáng),設(shè)置隨機(jī)翻轉(zhuǎn)概率flip_ratio=0.5,即每張圖像有0.5 的概率進(jìn)行翻轉(zhuǎn)操作,如圖5 所示為訓(xùn)練集中圖像數(shù)據(jù)進(jìn)行翻轉(zhuǎn)后的部分圖像,通過對圖像數(shù)據(jù)進(jìn)行變換可以得到泛化能力更強(qiáng)的網(wǎng)絡(luò),能一定程度上避免網(wǎng)絡(luò)訓(xùn)練過擬合的情況。

      圖5 PASCAL VOC 2012 數(shù)據(jù)增強(qiáng)圖像Fig.5 PASCAL VOC 2012 data image enhancement

      針對胃腸道息肉數(shù)據(jù)集難以找到充足數(shù)據(jù)的問題,本文采用一些離線數(shù)據(jù)增強(qiáng)方法對數(shù)據(jù)集進(jìn)行處理,如旋轉(zhuǎn)、亮度調(diào)整、平移變換、裁剪、鏡像變換。如圖6 所示為部分訓(xùn)練集圖像原圖和經(jīng)過離線數(shù)據(jù)增強(qiáng)后的圖像效果,以此增加了訓(xùn)練樣本的數(shù)量、豐富了訓(xùn)練數(shù)據(jù)的分布,能夠提升模型的魯棒性。

      圖6 GP Images 數(shù)據(jù)增強(qiáng)圖像Fig.6 Images data image enhancement

      3.4 實驗結(jié)果分析

      網(wǎng)絡(luò)訓(xùn)練時,設(shè)置初始學(xué)習(xí)率為0.002 5,權(quán)重衰減系數(shù)為0.000 1,優(yōu)化動量參數(shù)為0.9。且訓(xùn)練時RPN 網(wǎng)絡(luò)中IoU(intersection over union)閾值選為0.7 和0.3 來區(qū)分正負(fù)樣本,測試時采用SoftNMS 對區(qū)域建議進(jìn)行分支預(yù)測,設(shè)置閾值為0.7。為了對本文提出的檢測算法的有效性進(jìn)行評估,選取目標(biāo)檢測領(lǐng)域中常用的幾種經(jīng)典檢測算法:YOLOv3、SSD、CornerNet、faster RCNN 和Cascade RCNN,其中包含了單階段和兩階段的方法,將其與本文提出的算法在相同的實驗環(huán)境下進(jìn)行訓(xùn)練和測試?;谒o出的評價指標(biāo),對實驗結(jié)果進(jìn)行對比和分析,如表1 所示。

      表1 不同算法在PASCAL VOC 2012 的性能比較Table 1 Performance comparison of different algorithms on PASCAL VOC 2012

      對比不同IoU 閾值對應(yīng)的平均精度和目標(biāo)框不同像素面積對應(yīng)的平均精度,可以看出,本文提出的方法明顯優(yōu)于其他檢測算法。相較于Cascade RCNN,分別在AP、AP50、AP75得到了2.1%,2.0%,2.5%的提升,對不同像素面積的目標(biāo)檢測精度APS、APM、APL也分別提升了1.0%,2.1%,2.5%,實驗證明,該方法可有效提升目標(biāo)檢測精度。對于數(shù)據(jù)集的20 個類別,進(jìn)一步比較了不同算法在每個類別上的平均精度AP,結(jié)果如圖7 所示。

      圖7 不同算法在PASCAL VOC 2012 數(shù)據(jù)集上的檢測結(jié)果Fig.7 Detection results of different algorithms on Pascal VOC 2012 dataset

      圖7 中數(shù)據(jù)表明,相較于其他目標(biāo)檢測算法,本文提出的基于注意力機(jī)制和多層次特征融合的檢測方法,在精度上有顯著提升,該方法在每個類別上的平均精度都優(yōu)于其他方法,證明了該方法的有效性。

      除了和目標(biāo)檢測方法中經(jīng)典算法相比之外,本文還選取了近年來采用其它注意力機(jī)制和特征融合方式的算法,在PASCAL VOC 2012 數(shù)據(jù)集上訓(xùn)練和測試,并將測試結(jié)果與本文提出的算法進(jìn)行比較,結(jié)果見表2。表中PANet、HRNet、NAS-FPN 采用了其它多尺度特征融合方法,DANet、ACNet 中則是引入了其它注意力機(jī)制方法。由表可知本文提出算法與上述算法相比,檢測精度都有所提升。其中HRNet、ACNet 在APS上的檢測結(jié)果分別為14.9%,14.8%,雖然本文提出的算法在APS上略低,但在AP、AP50、AP75、APM、APL上的檢測結(jié)果遠(yuǎn)優(yōu)于其它算法,總體上本文的算法能夠?qū)崿F(xiàn)較好的檢測效果。

      表2 相似算法在PASCAL VOC 2012 上的性能比較Table 2 Performance comparison of similarity algorithms on PASCAL VOC 2012

      為了驗證本文所提出的方法中各個模塊對檢測性能的優(yōu)化作用,分別對SAM 和MFFM 的有效性進(jìn)行評估,并基于相同的實驗環(huán)境和參數(shù)配置,在PASCAL VOC 2012 數(shù)據(jù)集上進(jìn)行消融實驗,分析實驗結(jié)果。具體實驗方案如下:1)在模型中單獨驗證SAM;2)在模型中單獨驗證MFFM;3)在模型中同時驗證SAM 和MFFM。

      消融實驗的數(shù)據(jù)結(jié)果如表3 所示,本文提出的方法是在Cascade RCNN 模型的基礎(chǔ)上進(jìn)行改進(jìn),因此相較于表1 中未添加SAM 和MFFM 的Cascade RCNN 的檢測結(jié)果,單獨添加通道注意力模塊后的模型在AP50、AP75上分別得到0.7%,0.8%的提升,單獨添加了多層次特征融合方法的模型在AP、AP50、AP75上分別得到0.2%,1.0%,0.8%的提升,當(dāng)SAM和WFFM 都運用到模型中時,精度的提升效果最明顯,實驗結(jié)果表明使用SAM 和MFFM 能夠有效提升模型檢測精度。

      表3 在PASCAL VOC 2012 數(shù)據(jù)集上的消融實驗結(jié)果Table 3 Ablation experimental results on PASCAL VOC 2012 dataset

      對于GP Images 數(shù)據(jù)集經(jīng)過同樣的策略訓(xùn)練和測試,表4 給出了不同像素面積的目標(biāo)檢測精度。表4中實驗數(shù)據(jù)表明,相較于Cascade RCNN,本文提出的算法在AP、AP50、AP75上分別提升了5.8%,1.5%,1.1%,能夠?qū)崿F(xiàn)較好的檢測效果。

      表4 不同算法在GP Images 上的性能比較Table 4 Performance comparison of different algorithms on GP Images

      為了驗證對GP Images 數(shù)據(jù)集采取數(shù)據(jù)增強(qiáng)策略的作用,本文將所提出的模型在原GP Images 數(shù)據(jù)集和采取了數(shù)據(jù)增強(qiáng)策略的GP Images 數(shù)據(jù)集上分別進(jìn)行訓(xùn)練和測試,以不同像素面積的檢測精度作為評價指標(biāo),實驗結(jié)果如表5 所示。由表中數(shù)據(jù)可知,采取了數(shù)據(jù)增強(qiáng)策略得到的檢測效果有一定的提升,在AP和AP75上分別提升了3.4%和0.8%,對網(wǎng)絡(luò)模型的檢測精度具有優(yōu)化作用。

      表5 數(shù)據(jù)增強(qiáng)策略在GP Images 上的性能對比Table 5 Performance comparison of data enhancement strategies on GP Images

      最后,對2.1 節(jié)簡單的注意力模塊(SAM)中涉及的縮放比例r的取值進(jìn)行實驗驗證,本實驗在Cascade RCNN 模型中添加SAM,且r的取值分別為4,8,16,32,在GP Images 數(shù)據(jù)集上經(jīng)過訓(xùn)練測試,實驗結(jié)果如表6 所示。由表可知,當(dāng)r=16 時,模型在精度和速度方面較好平衡,故本文r取16。

      表6 不同縮放比例r 對模型性能的影響Table 6 Effects of different scaling ratios r on model performance

      4 結(jié)語

      本文提出了基于注意力機(jī)制和多層次特征融合的目標(biāo)檢測算法,通過在主干網(wǎng)絡(luò)中融合SAM,利用通道注意力機(jī)制有選擇的突出作用性更強(qiáng)的通道特征信息,從而提高網(wǎng)絡(luò)的判別能力;其次,本文針對目標(biāo)檢測算法中的多尺度問題,改進(jìn)了FPN,結(jié)合深度可分離卷積,設(shè)計了MFFM,充分融合深層特征豐富的全局語義信息和淺層特征的局部空間位置信息,使網(wǎng)絡(luò)提取的特征更具表征能力,并為不同層次的特征引入權(quán)重,更好地平衡不同尺度的特征信息。實驗結(jié)果表明,本文提出的算法在一定程度上大大提高了目標(biāo)檢測精度,改善了檢測效果。接下來將進(jìn)一步優(yōu)化模型,致力于在保持精度的同時提升網(wǎng)絡(luò)的效率。

      猜你喜歡
      卷積精度特征
      基于3D-Winograd的快速卷積算法設(shè)計及FPGA實現(xiàn)
      如何表達(dá)“特征”
      從濾波器理解卷積
      電子制作(2019年11期)2019-07-04 00:34:38
      不忠誠的四個特征
      基于DSPIC33F微處理器的采集精度的提高
      電子制作(2018年11期)2018-08-04 03:25:38
      基于傅里葉域卷積表示的目標(biāo)跟蹤算法
      抓住特征巧觀察
      GPS/GLONASS/BDS組合PPP精度分析
      改進(jìn)的Goldschmidt雙精度浮點除法器
      一種基于卷積神經(jīng)網(wǎng)絡(luò)的性別識別方法
      云林县| 紫金县| 衡东县| 抚州市| 武安市| 渝中区| 安乡县| 德钦县| 通许县| 南康市| 绩溪县| 黑河市| 辛集市| 青田县| 慈利县| 泉州市| 原阳县| 临朐县| 玛多县| 名山县| 顺昌县| 麟游县| 尚志市| 台东县| 甘孜县| 南陵县| 齐齐哈尔市| 格尔木市| 永胜县| 新竹市| 遵义县| 嵊州市| 册亨县| 丹阳市| 宁南县| 颍上县| 平武县| 合江县| 普格县| 综艺| 巴彦淖尔市|