• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      降低冗余檢測(cè)框數(shù)量的目標(biāo)檢測(cè)算法①

      2022-03-23 07:33:10王憲保吳夢(mèng)嵐姚明海
      高技術(shù)通訊 2022年12期
      關(guān)鍵詞:錨框真值精度

      王憲保 吳夢(mèng)嵐 姚明海

      (浙江工業(yè)大學(xué)信息工程學(xué)院 杭州310023)

      0 引言

      目標(biāo)檢測(cè)是目前計(jì)算機(jī)視覺領(lǐng)域非?;钴S的研究方向[1],廣泛地應(yīng)用在自動(dòng)駕駛、工業(yè)檢測(cè)[2]和視頻監(jiān)控等多個(gè)領(lǐng)域。隨著深度卷積神經(jīng)網(wǎng)絡(luò)(deep convolutional neural network,DCNN)的發(fā)展,基于深度學(xué)習(xí)的目標(biāo)檢測(cè)方法具有特征自動(dòng)提取、泛化能力強(qiáng)的優(yōu)點(diǎn),已然成為目標(biāo)檢測(cè)的主流方法。基于深度學(xué)習(xí)的目標(biāo)檢測(cè)算法根據(jù)是否需要特意生成候選區(qū)域可以分為2 類:單階段算法和兩階段算法。這2 種方法都需要對(duì)象候選區(qū)域來對(duì)目標(biāo)進(jìn)行回歸和分類。為了減少候選區(qū)域生成的時(shí)間損耗,Ren 等人[3]在更快速的基于區(qū)域生成的卷積神經(jīng)網(wǎng)絡(luò)(faster region-based convolutional neural network,Faster RCNN)中提出了一種基于錨框的檢測(cè)方法(anchor-based object detection,ABOD)。該方法用一組形狀、數(shù)量及變化比例固定的錨框來代替需要算法產(chǎn)生或預(yù)劃分的對(duì)象候選區(qū)域。這一方法的提出,大幅提高了單階段和兩階段算法的精度和速度。但是ABOD 算法仍存在諸多不足:(1)錨框的形狀、數(shù)量和變化比例對(duì)檢測(cè)的精度影響很大。(2)為了得到高的召回率,錨框需要盡可能地遍布圖像,因此也產(chǎn)生了更多的負(fù)樣本。(3)算法會(huì)涉及到多種與錨框相關(guān)的計(jì)算,如在迭代訓(xùn)練中不斷調(diào)整錨框位置的坐標(biāo)和計(jì)算錨框與真值框的交并比(intersection over union,IoU)。

      針對(duì)ABOD 算法存在的問題,同時(shí)為了計(jì)算簡(jiǎn)便,研究者將越來越多的目光投向了單階段的無錨框檢測(cè)算法(anchor-free object detection,AFOD)。Law 等人[4]提出用一組對(duì)角點(diǎn)來確定目標(biāo)對(duì)象的邊界框位置,從而舍棄算法對(duì)錨框的需求。但是這個(gè)方法由于要組合對(duì)角點(diǎn),會(huì)對(duì)最后的檢測(cè)結(jié)果造成很大的不確定性,所以Duan 等人[5]提出加入對(duì)象中心點(diǎn)的檢測(cè)。上述方法都是先找到目標(biāo)的關(guān)鍵點(diǎn),再由關(guān)鍵點(diǎn)定位到目標(biāo)整體,間接地對(duì)目標(biāo)進(jìn)行檢測(cè)。Tian 等人[6]結(jié)合全卷積語義分割的思想,提出全連接單階段目標(biāo)檢測(cè)算法(fully convolutional one-stage object detection,FCOS)算法,該算法直接在最后的特征圖上預(yù)測(cè)目標(biāo)類別和邊界框的位置,實(shí)現(xiàn)了像素級(jí)別的預(yù)測(cè)。這種密集檢測(cè)的方式增加了正樣本點(diǎn)的數(shù)量,使得前后背景的候選樣本數(shù)量更加平衡,但是模型的訓(xùn)練效果很容易受樣本點(diǎn)的選擇方式影響,例如選擇遠(yuǎn)離目標(biāo)的樣本點(diǎn)用于訓(xùn)練,會(huì)產(chǎn)生一些低質(zhì)量的檢測(cè)框。除此之外,AFOD算法對(duì)于低分辨率的圖片進(jìn)行檢測(cè)時(shí)可以得到評(píng)估效果較好的結(jié)果,但對(duì)密集復(fù)雜場(chǎng)景的圖像則會(huì)出現(xiàn)密集重合的目標(biāo)定位框。

      針對(duì)上述問題,本文提出了一種降低冗余檢測(cè)框數(shù)量的目標(biāo)檢測(cè)方法,算法對(duì)密集重合的定位框進(jìn)行了計(jì)算與置信分?jǐn)?shù)分配。本文主要貢獻(xiàn)如下。

      (1)使用基于錨框的目標(biāo)檢測(cè)算法RetinaNet[7]的網(wǎng)絡(luò)結(jié)構(gòu)提出一種可以降低冗余檢測(cè)框數(shù)量的無錨框目標(biāo)檢測(cè)算法。

      (2)提出了一種增強(qiáng)的通道注意力機(jī)制,加入算法中提高其特征表達(dá)能力。

      (3)提出一種類內(nèi)分?jǐn)?shù)重分配機(jī)制的推理策略,有效抑制了重合框,提高了檢測(cè)精度。

      1 相關(guān)工作

      本文算法借用了如圖1 所示的RetinaNet 算法的網(wǎng)絡(luò)結(jié)構(gòu),每一層特征圖P3、P4、P5都是來自于特征提取器的輸出C3、C4、C5經(jīng)過卷積和上層特征層上采樣相加得到的。對(duì)應(yīng)的P6由P5通過卷積下采樣生成,P7由P6通過卷積下采樣計(jì)算生成。整個(gè)算法需要主干網(wǎng)絡(luò)、多尺度特征構(gòu)建、樣本選擇和尋找局部最優(yōu)檢測(cè)框。

      圖1 RetinaNet 的簡(jiǎn)易結(jié)構(gòu)

      1.1 主干網(wǎng)絡(luò)

      VoVNet[8]與殘差網(wǎng)絡(luò)[9]一樣,可以作為模型的主干網(wǎng)絡(luò)來提取待測(cè)圖像的特征。VoVNet 網(wǎng)絡(luò)是由多個(gè)一次性聚合(one-shot aggregation,OSA)模塊連接而成,OSA 的存在使得模型的計(jì)算能力增強(qiáng),能耗降低。并且由于OSA 對(duì)特征圖采用了特殊的連接方式,使得網(wǎng)絡(luò)可以有效地提取特征。如圖2所示,OSA 模塊中有2 種連接方式。一種是一組卷積層的連接,這可使網(wǎng)絡(luò)獲得較大的感受野。另一種是在最后一次性地聚集了各個(gè)卷積層輸出特征,增加了整個(gè)網(wǎng)絡(luò)的特征聚合能力,同時(shí)保證輸入輸出的通道數(shù)相同。OSA 的計(jì)算公式如式(1)所示。

      圖2 一次性聚合模塊

      其中,Fj表示第j層卷積層的輸出,F3×3和F1×1分別代表3 ×3 和1 ×1 的卷積操作,xi和xi+1是當(dāng)前OSA 模塊的輸入和輸出,⊕表示連接計(jì)算。

      1.2 多尺度特征

      當(dāng)前的目標(biāo)檢測(cè)算法為了檢測(cè)不同尺度大小的對(duì)象,主要將主干網(wǎng)絡(luò)提取的多尺度特征構(gòu)成金字塔的形狀。所以圖像金字塔是一組由原圖經(jīng)過不同的尺寸縮放得到的特征圖,從低層到高層,圖像的分辨率逐層減少。它在算法的預(yù)測(cè)中的使用方式主要有:(1)用不同尺度的特征圖單獨(dú)預(yù)測(cè)不同尺度的目標(biāo),如Wei 等人[10]提出的SSD(single shot multibox detector)算法。(2)融合不同尺度的特征圖用于預(yù)測(cè),如Lin 等人[11]就此提出了特征金字塔網(wǎng)絡(luò)(feature pyramid network,FPN),對(duì)主干網(wǎng)絡(luò)生成的特征圖采用自頂向下的方式,將高層的特征向低層傳播并與同層特征進(jìn)行融合,縮小了不同層級(jí)的特征圖之間的語義差異,增強(qiáng)了特征圖的表征能力。

      1.3 樣本的選擇

      對(duì)于一般的ABOD 算法,哪個(gè)錨框用于回歸訓(xùn)練都需要經(jīng)過計(jì)算確定,如RetinaNet 算法,對(duì)于生成的每層特征圖像的每個(gè)像素點(diǎn)位置都預(yù)設(shè)多個(gè)錨框,然后分別計(jì)算每個(gè)錨框與真值框的IoU,如果IoU 大于設(shè)定的閾值,那么這個(gè)錨框會(huì)被標(biāo)定為正樣本。對(duì)應(yīng)于AFOD 算法,通過直接尋找關(guān)鍵點(diǎn)或是位置和尺度信息來確定正樣本點(diǎn),如FoveaBox 算法[12]先將真值框映射到相應(yīng)特征層上,根據(jù)預(yù)設(shè)位置將真值框內(nèi)部的特征點(diǎn)fi(第i層特征層)置為待選正樣本,當(dāng)待選點(diǎn)落在設(shè)定的尺度范圍之內(nèi),那么待選樣本點(diǎn)可以被認(rèn)定為正樣本點(diǎn),它的標(biāo)簽是它所在真值框的標(biāo)簽。這種樣本的選擇方法與ABOD算法相比,可以得到更多的正樣本點(diǎn),前后背景的候選樣本點(diǎn)的數(shù)量更加均衡,也節(jié)省了很多與錨框相關(guān)的計(jì)算量。Zhang 等人[13]引入了錨框,將樣本點(diǎn)等同于錨框中心點(diǎn),每個(gè)樣本點(diǎn)對(duì)應(yīng)8 個(gè)錨框。用距離描述錨框中心點(diǎn)與真值框中心點(diǎn)的距離,從中挑選出距離最近的前k個(gè)錨框,再用錨框與真值框的IoU 的標(biāo)準(zhǔn)差和平均值的和作為閾值用來挑選符合要求的錨框。如果挑選出來的錨框中心點(diǎn)的位置在真值框內(nèi)部,那么該中心點(diǎn)是正樣本。Qiu 等人[14]利用邊界信息來增強(qiáng)有效樣本點(diǎn)的信息表達(dá)能力。限制樣本點(diǎn)的位置,可以減少錯(cuò)誤標(biāo)定的正樣本數(shù)量;增強(qiáng)樣本點(diǎn)的特征表達(dá),能夠增強(qiáng)它對(duì)應(yīng)的目標(biāo)信息,有利于目標(biāo)回歸。

      1.4 非極大值抑制

      非極大值抑制[15](non maximum suppression,NMS)在很多模型的推理階段被用來抑制冗余的檢測(cè)框。算法1 描述了NMS 如何利用每個(gè)檢測(cè)框的類別置信度和檢測(cè)框之間的IoU 來尋找局部的極大值。

      Liu 等人[16]在多任務(wù)的損失函數(shù)中加入與類別相關(guān)的NMS 損失,學(xué)習(xí)每個(gè)樣本的NMS 分?jǐn)?shù),實(shí)現(xiàn)類別之間的NMS 抑制效果。NMS 中加入類別相關(guān)的改進(jìn),可以得到更好的檢測(cè)效果,減少目標(biāo)丟失的可能性和冗余檢測(cè)框數(shù)量。

      2 方法

      本文基于RetinaNet 算法的網(wǎng)絡(luò)結(jié)構(gòu)提出的目標(biāo)檢測(cè)方法與一般的目標(biāo)檢測(cè)算法相比,考慮了特征圖不同通道的相關(guān)性,提出改進(jìn)VoVNet。在原VoVNet 網(wǎng)絡(luò)提取特征時(shí)加入一種增強(qiáng)的改進(jìn)通道注意力模塊(improved squeeze-and-excitation,ISE),增強(qiáng)了通道信息的表達(dá),減少了通道信息的丟失。獲取圖像多層特征之后,進(jìn)行樣本選擇,再將樣本導(dǎo)入到預(yù)測(cè)分支,進(jìn)行算法訓(xùn)練。訓(xùn)練完成之后,在算法推理階段中,采用提出的類內(nèi)的交并比分?jǐn)?shù)重分配策略,來減少重合檢測(cè)框的數(shù)量。

      2.1 改進(jìn)VoVNet

      為了提高模型的計(jì)算能力,算法使用VoVNet v1-57 作為特征提取器提取輸入圖像的特征。為了使特征更好地表達(dá),基于殘差網(wǎng)絡(luò)的啟發(fā),在xi與VoVNet 網(wǎng)絡(luò)中OSA 模塊輸出結(jié)合前,加入改進(jìn)的通道注意力模塊。文獻(xiàn)[17]中的通道注意力模塊(squeeze-and-excitation,SE)使用全局平均池化來擠壓特征圖通道的空間相關(guān)性,然后經(jīng)過2 層激活函數(shù)分別為ReLU 和sigmoid 的全連接層來獲取通道的權(quán)重。對(duì)于特征圖x∈RC×H×W的通道權(quán)重S(x) ∈RC×1×1的計(jì)算過程如式(2)所示。

      其中favg(x) 代表全局池化操作,WC/r、WC∈RC×1×1是2 層全連接層的權(quán)重,σ 和δ 分別代表sigmod 函數(shù)和ReLU 函數(shù)。從式(2)中可以看出,SE 中的2層特征層連接,勢(shì)必會(huì)對(duì)計(jì)算造成負(fù)擔(dān),所以就采取先降維和后升維的操作,減少參數(shù)量。讓特征圖經(jīng)過第1 個(gè)全連接層從C通道減少到C/r通道,第2個(gè)全連接層又將特征圖的通道數(shù)從C/r通道擴(kuò)充到原通道數(shù)。在這通道減少又復(fù)原的過程中,會(huì)對(duì)特征造成通道信息的丟失,所以提出將全連接層減至1 個(gè),通道數(shù)維持為C以此提高模塊的性能。同時(shí),為了增強(qiáng)全局特征的表達(dá),加入全局最大值池化,計(jì)算表達(dá)式如式(3)所示,其中fmax(x) 代表全局最大值池化操作。

      圖3 改進(jìn)的一次性聚合模塊

      其中x′i+1表示輸出,xi和xi+1是原OSA 模塊的輸入和輸出,?表示元素相乘。

      2.2 預(yù)測(cè)

      2.2.1 多尺度特征圖上的樣本點(diǎn)選擇

      對(duì)特征提取器提取的特征融合方式如圖1所示,因此,特征層P3~P7對(duì)輸入圖片的下采樣率為{si}={8,16,32,64,128}。

      獲取到不同級(jí)別的特征圖之后,就是對(duì)特征圖上的像素點(diǎn)進(jìn)行挑選。第i層特征層上的點(diǎn)fi映射回原圖對(duì)應(yīng)感受野中心的位置坐標(biāo)為(x,y),如果這個(gè)點(diǎn)位于真值框內(nèi)部,且該點(diǎn)到真值框4 條邊的最大垂直距離滿足該層預(yù)設(shè)的尺度范圍,就認(rèn)定點(diǎn)fi是正樣本,其類別標(biāo)簽標(biāo)定為真值框??紤]到真值框內(nèi)的點(diǎn)并不都是位于目標(biāo)對(duì)象上:有些樣本遠(yuǎn)離真值框中心,這種樣本點(diǎn)預(yù)測(cè)出來的邊界框會(huì)偏離被測(cè)物體;有些樣本是屬于背景,會(huì)預(yù)測(cè)出錯(cuò)誤的檢測(cè)框。所以在選擇樣本點(diǎn)的時(shí)候,在真值框內(nèi)部設(shè)置一個(gè)正區(qū)域:一個(gè)與真值框同中心的正方形區(qū)域。正區(qū)域的設(shè)置可以排除一些低質(zhì)量或是錯(cuò)誤標(biāo)定的樣本點(diǎn),正區(qū)域以外的真值框的像素點(diǎn)都不會(huì)被輸送到損失函數(shù)中用于回歸分類。在研究中對(duì)比發(fā)現(xiàn),與真值框同中心的正方形的邊長(zhǎng)為1.5× si時(shí),模型的預(yù)測(cè)效果會(huì)好于其他數(shù)值。

      由于各個(gè)級(jí)別的特征圖尺度不同,可以根據(jù)預(yù)設(shè)的尺寸來決定每層預(yù)測(cè)對(duì)象的大小。在ABOD算法中,如RetinaNet 多尺度特征圖P3、P4、P5、P6層對(duì)應(yīng)用于預(yù)測(cè)回歸的錨框面積分別為642、1282、2562、5122。與此相對(duì)應(yīng),在本文算法中直接對(duì)P3、P4、P5、P6層 設(shè) 置 的 尺 度 范 圍 為[0,64]、[64,128]、[128,256]、[256,512],P7層設(shè)置的尺度范圍為[512,∞],用來限制每個(gè)層級(jí)預(yù)測(cè)對(duì)象的大小。

      2.2.2 預(yù)測(cè)分支

      每層特征圖都對(duì)應(yīng)2 個(gè)預(yù)測(cè)分支,用來預(yù)測(cè)目標(biāo)的類別和位置回歸。每個(gè)預(yù)測(cè)分支都由4 層卷積層構(gòu)成,分類器最后一層的輸出是20 維的類別標(biāo)簽向量,回歸器輸出的是一個(gè)4 維的位置向量。訓(xùn)練用的損失函數(shù)如式(5)所示。

      近日,《小主人報(bào)》攜手貝恩口腔醫(yī)院,開啟了名為“小牙醫(yī)體驗(yàn)”的活動(dòng)。在工作人員的帶領(lǐng)下,小記者們參觀了整個(gè)醫(yī)院,不僅看到了各種各樣的先進(jìn)儀器,還了解了牙齒健康檢查和治療的流程。學(xué)習(xí)完了相關(guān)的理論知識(shí)后,小記者們穿上白大褂,化身為小小牙醫(yī)。他們拿起口腔鏡,走進(jìn)診室,幫助小伙伴們檢查口腔健康情況。通過此次參觀,小記者們表示一定會(huì)好好愛護(hù)自己的牙齒。

      式中,N表示正樣本數(shù);m、n表示的是所有特征圖上點(diǎn)對(duì)應(yīng)原圖的位置坐標(biāo);Lfl表示的是focal loss 函數(shù),用于分類訓(xùn)練;Cm,n和C′m,n分別表示預(yù)測(cè)的類別標(biāo)簽和對(duì)應(yīng)的真值框標(biāo)簽;f(C′m,n) 是一個(gè)非負(fù)函數(shù),當(dāng)C′m,n>0 時(shí)取1,C′m,n≤0 時(shí)取0;Lil表示的是算法UnitBox 中的IoU loss[18]函數(shù),用于回歸訓(xùn)練,其中dm,n和d′m,n分別表示預(yù)測(cè)和目標(biāo)的位置。

      至此算法的整體框架如圖4 所示。整體框架包括特征提取、特征層樣本點(diǎn)選擇和預(yù)測(cè)分支。

      圖4 框架結(jié)構(gòu)圖

      2.3 推理策略

      檢測(cè)算法對(duì)目標(biāo)分布密集的場(chǎng)景檢測(cè)容易產(chǎn)生重疊的檢測(cè)框,如圖5 所示。僅僅采用NMS 來抑制多余的檢測(cè)框是不夠的,所以在進(jìn)行NMS 操作前,加入類內(nèi)分?jǐn)?shù)重分配和增大類間檢測(cè)框位置間距2個(gè)操作。

      圖5 AFOD 算法對(duì)有密集分布對(duì)象的檢測(cè)結(jié)果

      一張待檢測(cè)的圖片輸入到網(wǎng)絡(luò)中,相當(dāng)于從特征圖上的一組點(diǎn)對(duì)目標(biāo)進(jìn)行預(yù)測(cè),得到一組初步檢測(cè)的結(jié)果,即目標(biāo)邊界框坐標(biāo)(框的左上角和右下角坐標(biāo))、類別標(biāo)簽和類的置信的分?jǐn)?shù)。按照類的置信分?jǐn)?shù)從大到小進(jìn)行排列,選取前k個(gè)點(diǎn)的預(yù)測(cè)結(jié)果,按照不同的類別進(jìn)行處理,如算法2 所示。對(duì)于同一個(gè)類別中的檢測(cè)框Bc,計(jì)算它們之間的IoU,如果大于某個(gè)閾值,則認(rèn)為它們是同一個(gè)目標(biāo)的檢測(cè)結(jié)果。對(duì)同一對(duì)象的檢測(cè)框,根據(jù)它們之間的IoU 進(jìn)行分?jǐn)?shù)重分配。考慮到再分配的分?jǐn)?shù)與Bc中各個(gè)檢測(cè)框之間的IoU 大小有關(guān),IoU 越大給原來的分增值越多,且不能丟失原有的分?jǐn)?shù)。因此提出檢測(cè)框分?jǐn)?shù)重分配的規(guī)則如式(6)所示。

      式中,S′c表示分配后檢測(cè)框的置信分?jǐn)?shù),Im表示該檢測(cè)框與第m個(gè)檢測(cè)框的IoU 的值,Sc是檢測(cè)框原來的分?jǐn)?shù)。

      所有類的內(nèi)部分?jǐn)?shù)重分配完成之后,整合之前獲取的檢測(cè)框的分?jǐn)?shù),再次進(jìn)行分?jǐn)?shù)排序,執(zhí)行NMS 操作。

      3 實(shí)驗(yàn)結(jié)果與分析

      本節(jié)主要對(duì)算法在公共數(shù)據(jù)集上的測(cè)試結(jié)果進(jìn)行對(duì)比,以此對(duì)算法的有效性作詳細(xì)說明。首先通過消融實(shí)驗(yàn)獲取算法需要的參數(shù),然后通過對(duì)比本文算法和經(jīng)典的單階段無錨框目標(biāo)檢測(cè)算法——FCOS 算法在不同主干網(wǎng)絡(luò)、推理策略的檢測(cè)精度,證明本文算法檢測(cè)精度優(yōu)于FCOS 算法,加入的通道注意力機(jī)制可以提高網(wǎng)絡(luò)的檢測(cè)精度,提出的推理策略可以減少冗余檢測(cè)框數(shù)量。

      3.1 實(shí)驗(yàn)設(shè)定

      實(shí)驗(yàn)硬件平臺(tái)為NVIDIA RTX 2060 SUPER 8 GHz、NVIDIA GTX 1060 6 GB,軟件平臺(tái)為CUDA 10.2、PyTorch 1.7.0 和Python 3.7。所有實(shí)驗(yàn)結(jié)果均在上述實(shí)驗(yàn)環(huán)境中獲得。算法使用的數(shù)據(jù)集是一直被各種檢測(cè)和分割算法作為訓(xùn)練集和測(cè)試集的Pascal VOC 數(shù)據(jù)集。由于Pascal VOC 2012 訓(xùn)練集的圖片數(shù)量過少,所有的實(shí)驗(yàn)都使用Pascal VOC 2012 的訓(xùn)練集和驗(yàn)證集,共11 552 張圖片作為模型的訓(xùn)練集,用與Pascal VOC 2012 類別一致的Pascal VOC 2007[19]的測(cè)試集共2510 張圖片作為模型的測(cè)試集。Pascal VOC 收集了20 種處于不同場(chǎng)景的物體的圖片,每張圖片都有對(duì)應(yīng)的物體位置、種類和關(guān)鍵點(diǎn)的標(biāo)簽文件。并且數(shù)據(jù)集中各個(gè)類別中的目標(biāo)在圖像中尺度不一,可以滿足算法對(duì)多尺度目標(biāo)進(jìn)行預(yù)測(cè)的條件??紤]到實(shí)驗(yàn)設(shè)備的限制,把數(shù)據(jù)集中用于訓(xùn)練的圖片大小全部縮放為512 像素×448像素。采用帶動(dòng)量的隨機(jī)梯度下降(stochastic gradient descent,SGD)進(jìn)行網(wǎng)絡(luò)的權(quán)重更新,其他的實(shí)驗(yàn)參數(shù)設(shè)定除了特定說明都如表1 所示。

      表1 實(shí)驗(yàn)參數(shù)設(shè)定表

      3.2 精度比較

      本文主要將FCOS 算法和本文算法訓(xùn)練20 代后進(jìn)行對(duì)比,通過平均精度(mean average precision,mAP)這一指標(biāo)來展示不同算法的實(shí)驗(yàn)結(jié)果。

      3.2.1 不同主干網(wǎng)絡(luò)的精度對(duì)比

      算法的主干網(wǎng)絡(luò)分別是ResNet 50、VoVNet v1-57 和具有殘差連接的VoVNet v1-57,推理策略采用NMS,它們?cè)赩OC 2007 驗(yàn)證集上的實(shí)驗(yàn)結(jié)果按照不同的主干網(wǎng)絡(luò)分成3 組進(jìn)行對(duì)比,結(jié)果如表2 所示,可以得出以下結(jié)論。

      表2 Pascal 2007 的檢測(cè)結(jié)果

      (1)比較第1、2 組算法獲得的平均精度(mAP)可以看出,使用VoVNet v1-57 作為主干網(wǎng)絡(luò)的算法性能優(yōu)于使用ResNet 50 的算法性能,前者網(wǎng)絡(luò)的檢測(cè)精度高于后者。

      (2)比較第2、3 組算法的檢測(cè)結(jié)果可知,VoVNet v1-57 網(wǎng)絡(luò)中加入殘差不論對(duì)FCOS 算法還是本文算法,檢測(cè)的平均精度均有所提高。

      (3)比較第1、2、3 組檢測(cè)結(jié)果可知,本文算法的平均精度均優(yōu)于FCOS 算法。

      3.2.2 加入注意力機(jī)制的算法精度對(duì)比

      算法的主干網(wǎng)絡(luò)是在殘差中加入通道注意力機(jī)制的VoVNet v1-57,即改進(jìn)VoVNet。它們?cè)赩OC 2007 驗(yàn)證集上的實(shí)驗(yàn)結(jié)果如表3 所示,其中+ISE表示加入通道注意力機(jī)制模塊。結(jié)合表2,從實(shí)驗(yàn)結(jié)果可以看出,在殘差部分加入通道注意力機(jī)制,與單獨(dú)引入殘差連接的網(wǎng)絡(luò)相比,其平均檢測(cè)精度提高幅度更大。

      表3 Pascal 2007 的檢測(cè)結(jié)果

      除了平均精度對(duì)比,本文還做了主干網(wǎng)絡(luò)為VoVNet v1-57 和加入通道注意力機(jī)制的VoVNet v1-57 的訓(xùn)練損失曲線對(duì)比,結(jié)果如圖6 所示。

      圖6 算法訓(xùn)練的損失曲線

      圖6 中虛線表示的是主干網(wǎng)絡(luò)為VoVNet v1-57的整體損失曲線,實(shí)線表示的是加入通道注意力機(jī)制的VoVNet v1-57 的整體損失曲線。結(jié)合表2 和表3 的實(shí)驗(yàn)結(jié)果,從圖中可以看出兩個(gè)算法的收斂情況基本一致,但是在殘差連接處加入通道注意力機(jī)制的VoVNet v1-57 檢測(cè)效果得到明顯提高。

      3.2.3 不同推理策略的算法精度和檢測(cè)框數(shù)量對(duì)比對(duì)于一個(gè)檢測(cè)目標(biāo)而言,過分重疊的檢測(cè)框,與真值框的IoU 的值都會(huì)滿足所設(shè)定的閾值,除了提高算法的精度,只能從其他方面進(jìn)行衡量,因此提出用檢測(cè)框與真值框的數(shù)量差box-d 作為輔助衡量指標(biāo)。在采用NMS 和本文推理策略對(duì)算法進(jìn)行驗(yàn)證前,通過消融實(shí)驗(yàn)獲取算法推理策略中需要的IoU閾值,實(shí)驗(yàn)結(jié)果表4 所示。

      表4 關(guān)于推理策略閾值的實(shí)驗(yàn)結(jié)果

      表4 中的實(shí)驗(yàn)是在算法的主干網(wǎng)絡(luò)為加入殘差的VoVNet v1-57、訓(xùn)練20 代的情況下做的對(duì)比實(shí)驗(yàn)。從實(shí)驗(yàn)結(jié)果來看,對(duì)于本文算法,推理策略中使用的IoU 閾值為0.6 或是0.7 時(shí),算法能取得最好的檢測(cè)結(jié)果。因此隨后的實(shí)驗(yàn)中,本文算法提出的推理策略的IoU 閾值均設(shè)為0.6。

      獲取所需的IoU 閾值后,分別對(duì)算法使用NMS和提出的推理策略,實(shí)驗(yàn)結(jié)果如表5 所示。從實(shí)驗(yàn)結(jié)果可以看出,本文提出的推理策略,在保證精度的同時(shí),降低了冗余檢測(cè)框的數(shù)量。

      表5 Pascal 2007 的檢測(cè)結(jié)果

      圖7 是表5 中本文算法分別對(duì)數(shù)據(jù)集和現(xiàn)實(shí)采樣圖片的可視化結(jié)果??梢钥闯?圖7中檢測(cè)框上標(biāo)記的置信分?jǐn)?shù)與圖5 相比發(fā)生了明顯的變化,均比圖5 的數(shù)值大,說明類內(nèi)分?jǐn)?shù)重分配推理策略已經(jīng)通過重疊檢測(cè)框的IoU 值再次計(jì)算了置信度,使得算法在確保每個(gè)對(duì)象對(duì)應(yīng)一個(gè)檢測(cè)框的同時(shí),減少了冗余的檢測(cè)框數(shù)量。

      圖7 檢測(cè)可視化結(jié)果

      為了驗(yàn)證推理策略的實(shí)用性,在FCOS 算法和已經(jīng)訓(xùn)練好的Faster RCNN 和YOLO v3 算法上進(jìn)行驗(yàn)證,實(shí)驗(yàn)結(jié)果如表6 所示。該實(shí)驗(yàn)是為了驗(yàn)證推策略的通用性,所以3 個(gè)算法不同的訓(xùn)練設(shè)定不影響推理策略的有效性。表中第1 列中的本文算法表示在算法的推理階段使用的推理策略是本文提出的類內(nèi)交互比分?jǐn)?shù)重分配機(jī)制。3 組實(shí)驗(yàn)的實(shí)驗(yàn)指標(biāo)均表明本文的推理策略可以減少檢測(cè)框的冗余數(shù)量,從而提高了算法精度。

      表6 在Pascal 2007 的檢測(cè)結(jié)果

      4 結(jié)論

      為了減少冗余檢測(cè)框的數(shù)量,同時(shí)有效提升目標(biāo)檢測(cè)的定位精度,本文基于RetinaNet 網(wǎng)絡(luò)結(jié)構(gòu)提出了一種減少類內(nèi)檢測(cè)框重疊推理策略的目標(biāo)檢測(cè)算法。實(shí)驗(yàn)結(jié)果表明,在選取的正樣本中含有錯(cuò)誤的類別標(biāo)定或是由低質(zhì)量樣本預(yù)測(cè)得到低質(zhì)量的檢測(cè)結(jié)果,可以通過中心采樣和類內(nèi)分?jǐn)?shù)的重分配影響檢測(cè)框的NMS 操作來減少錯(cuò)誤的檢測(cè)結(jié)果,從而提高檢測(cè)精度。在實(shí)驗(yàn)過程中,本文算法仍然可以滿足實(shí)時(shí)性的要求,今后的工作中還可以繼續(xù)優(yōu)化。除此之外,算法的參數(shù)量、簡(jiǎn)化網(wǎng)絡(luò)結(jié)構(gòu)等方面還需進(jìn)一步改進(jìn)。

      猜你喜歡
      錨框真值精度
      基于YOLOv3錨框優(yōu)化的側(cè)掃聲吶圖像目標(biāo)檢測(cè)
      錨框策略匹配的SSD飛機(jī)遙感圖像目標(biāo)檢測(cè)
      基于SSD算法的輕量化儀器表盤檢測(cè)算法*
      基于GA-RoI Transformer的遙感圖像任意方向目標(biāo)檢測(cè)
      基于DSPIC33F微處理器的采集精度的提高
      電子制作(2018年11期)2018-08-04 03:25:38
      10kV組合互感器誤差偏真值原因分析
      電子制作(2017年1期)2017-05-17 03:54:35
      GPS/GLONASS/BDS組合PPP精度分析
      真值限定的語言真值直覺模糊推理
      基于真值發(fā)現(xiàn)的沖突數(shù)據(jù)源質(zhì)量評(píng)價(jià)算法
      改進(jìn)的Goldschmidt雙精度浮點(diǎn)除法器
      大邑县| 合作市| 云林县| 榆树市| 莲花县| 收藏| 儋州市| 余干县| 长汀县| 庆安县| 蓬莱市| 绥江县| 三门峡市| 广水市| 永福县| 调兵山市| 龙泉市| 惠东县| 丰原市| 衡阳县| 双峰县| 汪清县| 庄河市| 定日县| 灵川县| 韶关市| 保靖县| 东乡族自治县| 阜宁县| 浦城县| 如东县| 承德市| 沁源县| 江口县| 普定县| 湘潭县| 余庆县| 青海省| 平顶山市| 句容市| 弥渡县|