• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      語境信息約束下的多目標檢測網(wǎng)絡

      2019-03-11 07:29鄔亞男,李君君,張彬彬
      智能計算機與應用 2019年6期
      關鍵詞:目標檢測卷積神經網(wǎng)絡

      鄔亞男,李君君,張彬彬

      摘要:目標檢測問題一直是計算機視覺以及機器學習領域非常重要的研究課題,并且在交通監(jiān)控、醫(yī)學影像、輔助駕駛等方面有著廣泛的應用。由于現(xiàn)實任務對于檢測速度和精度的要求,目標檢測一直是計算機視覺領域具有挑戰(zhàn)性的任務。語境信息可以作為推理的關鍵證據(jù)應用于多目標識別領域。由此,提出語境信息約束下的直接預測目標類別和目標位置的多目標檢測網(wǎng)絡。該網(wǎng)絡采取端對端的訓練方式,分層提取特征,并利用語境信息微調網(wǎng)絡的輸出結果以更好地進行實時預測。在PASCAL VOC 2007數(shù)據(jù)集上的定性及定量實驗結果,證明了深度語境網(wǎng)絡下的目標檢測模型具有顯著的目標檢測性能,優(yōu)于當前先進的方法。實驗證明,利用語境信息可以為目標檢測提供有效的判定依據(jù),提高檢測的準確率。

      關鍵詞:目標檢測;語境信息;實時檢測;卷積神經網(wǎng)絡

      0引言

      目標檢測的任務是集目標分類、目標定位兩者之所長,檢測輸入圖像中所有感興趣的目標的類別屬性和位置屬性,輸出相對應的概率標簽,表明將目標分類為該類別的概率,明確輸入圖像中感興趣物體的位置和范圍,以矩形框表示物體的所在。目標檢測問題一直是計算機視覺以及機器學習領域非常重要的研究課題,并且在視頻監(jiān)控、行人檢測、行為識別、場景理解等方面有著廣泛的應用。

      傳統(tǒng)目標檢測模型主要由人工設計特征以及分類決策構成。通過人工設計特征表達,然后設計相應的分類器對目標進行檢測。雖然這些手工制作的方法取得了令人矚目的成功,但其在實踐中不能靈活捕獲圖片信息,這可能會阻礙性能進一步提高。隨著機器學習理論逐步完善以及深度學習技術的日益發(fā)展,深度網(wǎng)絡模型不斷發(fā)展壯大,對于特征的表達能力日益增強,檢測精度也得以提升。目標檢測任務從傳統(tǒng)模型逐漸向基于深度學習的模型研究,涌現(xiàn)了一大批深度網(wǎng)絡下的目標檢測模型。盡管如此,由于現(xiàn)實任務高精度、高速度的目標檢測需求,當前的目標檢測結果仍然差強人意。因此,深度檢測模型設計仍然面臨著巨大的壓力,仍然是亟待優(yōu)化和解決的具有挑戰(zhàn)性的研究課題。

      語境線索在搜索和檢測物體中有著重要作用,并且在計算機視覺和認知神經科學等方面有著重要的應用。語境有助于圖像理解,符合現(xiàn)實世界的客觀規(guī)律,語境信息對于人類識別物體也至關重要,計算機視覺的許多研究證明,通過適當?shù)恼Z境建模能夠有效改進識別算法。由于視覺對象在其外觀、動作等方面變化很大,通常難以僅使用局部線索來學習魯棒模型。同時,由于物體幾乎不是孤立地發(fā)生的,其語境信息,可以用來評估目標檢測模型的輸出并提高檢測性能。本文的主要貢獻如下:

      (1)在SSD模型基礎上,提出語境信息約束下的直接預測目標類別和目標位置的多目標檢測網(wǎng)絡,該網(wǎng)絡采取端對端的訓練方式,分層提取特征并進行實時的目標檢測。

      (2)采用語境信息作為約束條件,預測目標類別和目標位置,利用語境信息微調網(wǎng)絡的輸出結果,以更好地進行實時預測。

      (3)在PASCAL VOC 2007數(shù)據(jù)集上的實驗結果,證明了本文方法在公開數(shù)據(jù)集測試中具有顯著的目標檢測性能,優(yōu)于當前先進的方法。

      1相關工作

      針對圖像目標檢測問題,通常有兩種常見的目標檢測模型,一種為基于滑動窗口的目標檢測模型,另一種為基于區(qū)域提議的目標檢測模型。在卷積神經網(wǎng)絡出現(xiàn)之前,DPM和選擇性搜索受到了許多的關注。在R-CNN結合選擇性搜索、區(qū)域提議以及卷積神經網(wǎng)絡帶來顯著改進后,基于區(qū)域提議的目標檢測方法變得流行。

      SPPnet顯著加快了原有的R-CNN方法,其引入了一個空間金字塔池化層,對區(qū)域大小和尺度更加魯棒,并允許分類層重用多個圖像分辨率下生成的特征映射上計算的特征。Fast R-CNN擴展了SPPnet.使得其可以通過最小化置信度和邊界框回歸的損失,來對所有層進行端到端的微調,并初次利用MuhiBox學習目標信息。然而,F(xiàn)ast R-CNN仍然選擇使用選擇性搜索進行區(qū)域提議,浪費了太多的檢測時間。據(jù)此,F(xiàn)aster R-CNN提出區(qū)域提議網(wǎng)絡進行區(qū)域提議,并引入了一種方法,通過微調共享卷積層和預測層將區(qū)域提議網(wǎng)絡和Fast R-CNN結合在一起,使用區(qū)域提議網(wǎng)絡池化中級特征,提升了檢測速度。

      基于滑動窗口的目標檢測模型完全跳過提出步驟,直接預測多個類別的邊界框和置信度。OverFeat是首先利用滑動窗口進行目標檢測的方法,在知道了底層目標類別的置信度之后,直接從最頂層的特征映射的每個位置預測邊界框。之前常見的檢測方法都將檢測轉換為分類問題,而YOLO另辟蹊徑,僅僅經過一個神經網(wǎng)絡,將檢測轉換為回歸問題,從而實現(xiàn)端對端優(yōu)化。YOLO使用整個最頂層的特征映射來預測多個類別和邊界框(這些類別共享)的置信度。YOLO經過不斷更新多次優(yōu)化升級得到目前的YOLOv3.并在設計上進行了一定的改進:首先融合先前的Darknet-19網(wǎng)絡以及殘差網(wǎng)絡,設計出DarkNet-53網(wǎng)絡進行特征提取,功能更加強大。此外,YOLOv3還能夠進行跨尺度預測,利用金字塔網(wǎng)絡的概念預測出三個不同的尺度上邊界框。

      語境信息可以作為推理的關鍵證據(jù)應用于多目標識別領域。然而,上述研究忽略了語境信息的重要作用,僅僅利用設計的目標檢測器檢測對象類別及位置,結果可能會違反現(xiàn)實世界中的規(guī)律。在考慮語境信息之后,準確性得到了很大改善。在傳統(tǒng)模型中,檢測算法由人工設計特征及淺層分類器構成。語境信息可作為正則化約束條件,調整檢測結果以提高性能,也可以約束深度學習模型,利用這種豐富的且有區(qū)別的語境信息有助于機器獲取行為發(fā)生時相應的場景信息,獲得圖像內容的理解,提高檢測的準確度。例如,Bell等人也分別對語境和外部場景進行了建模。利用空間循環(huán)神經網(wǎng)絡分別對感興趣區(qū)域的外部環(huán)境整合了多尺度語境,有助于特定的小目標檢測。Zhe等人通過可學習的直方圖層在端到端訓練中學習深度神經網(wǎng)絡中的統(tǒng)計語境特征,將可學習的直方圖層集成到深層網(wǎng)絡中,探索了語義分割和目標檢測兩個視覺問題。Heilbron等人提出語境級聯(lián)模型,通過采用與人類活動相關的語義先驗,語境級聯(lián)模型產生高質量的特定類別的行動提議,并通過級聯(lián)的方式抑制無關的活動提議。

      2語境信息約束下的多目標檢測網(wǎng)絡

      利用語境信息作為約束條件,能夠準確且有效地捕捉圖片中除了目標物本身之外的所有信息(包括其它目標信息和背景信息)。語境信息作為目標檢測推理過程的關鍵證據(jù),具有重要的作用及意義。以此作為切入點,構建語境信息約束下實時的多目標檢測網(wǎng)絡,如圖l所示。該網(wǎng)絡分層提取特征并依次進行邊框回歸和分類,從而得到圖像中所有感興趣的目標類別屬性和位置屬性。

      語境信息約束下的多目標檢測網(wǎng)絡的主要貢獻如下:

      (1)在SSD模型基礎上進行改進,提出語境信息約束下能夠端對端訓練的多目標檢測網(wǎng)絡,并依次進行邊框回歸和分類。

      (2)采用語境信息約束網(wǎng)絡輸出結果,微調網(wǎng)絡的輸出結果以更好地進行實時預測。

      2.1語境約束

      多目標檢測網(wǎng)絡經過初步訓練,將得到訓練集圖像所有候選框中目標的語義類別、標簽以及所有候選框的位置坐標。由此,可以計算出候選框中心位置點的坐標。已知語義類別集合,可得候選目標O的位置屬性v.以及候選目標的語義屬性a。定義語義存在矩陣,統(tǒng)計每一幅圖像中出現(xiàn)的類別,語義存在矩陣,統(tǒng)計所有訓練集圖像中同時出現(xiàn)的類別,對即可得語義類別共現(xiàn)頻率矩陣,統(tǒng)計訓練集圖像中同時出現(xiàn)的類別頻率。由候選目標的語義屬性以及語義類別共現(xiàn)頻率矩陣作為語義信息獲取目標類別關系。目標類別之間語義約束置信度獲取方法如下:

      其中,I表示訓練集圖像I(n)∈Itrain;a表示語義類別集合am,an∈a;v表示候選框vi,vj∈ v;o候選框中目標的語義類別標簽;I表示計數(shù)函數(shù)。

      由目標對的位置信息可計算類別間的相對位置信息。該信息是一個向量,包含兩個類別間的距離和角度信息,由目標對的相對位置信息可計算類別間相對位置,分別作為位置信息獲取目標類別關系。目標類別之間位置約束置信度獲取方法如下:

      其中,[xi,yi]表示候選框的中心位置坐標;[△xij,△yij]表示屬于兩個類別am,an之間的候選框vi,vj相對位置;v為目標對的相對位置均值;σ2為目標對的相對位置方差;f為標準正態(tài)分布函數(shù)。

      根據(jù)捕獲的目標類別關系,微調候選目標框的類別得分。通過語境約束Csemantic以及Clocation判斷后,對于每張圖片的每個目標,考慮所有與之相關的候選框類別,得到最終類別置信度c。

      2.2網(wǎng)絡模型

      語境信息約束下的多目標檢測網(wǎng)絡與Faster R-CNN中的區(qū)域提議網(wǎng)絡非常相似,也使用了一組固定的邊界框進行預測,類似于RPN中的錨邊界框。但并不是使用這些來池化特征并評估另一個分類器,而是為每個目標類別在每個邊界框中同時生成一個分數(shù)。因此,本文的方法避免了將區(qū)域提議網(wǎng)絡與Fast R-CNN合并的復雜性,并且更容易訓練,更快且更直接地集成到其它任務中。語境信息約束下的多目標檢測網(wǎng)絡使用默認邊界框,方法比現(xiàn)有方法更靈活,可以在不同尺度的多個特征映射的每個特征位置上使用不同長寬比的默認邊界框。如果只從最頂層的特征映射的每個位置使用一個默認框,語境信息約束下的多目標檢測網(wǎng)絡將具有與OverFeat相似的架構,若使用整個最頂層的特征映射,并添加一個全連接層進行預測來代替卷積預測器,并且沒有明確地考慮多個長寬比,將近似地再現(xiàn)YOLO。

      利用在ILSVRC CLS-LOC數(shù)據(jù)集上已經預先訓練好的VGG16網(wǎng)絡,作為基礎卷積神經網(wǎng)絡架構。通過多層卷積分層提取特征,直接檢測圖像中的目標,最終獲得固定尺度的邊界框以及對象的類別。將多個卷積層添加到VGG16第五個卷積層之后,VGG第六、七層原本為全連接層,將其替換為卷積層,從其中重采樣參數(shù)。然后繼續(xù)增加4個卷積層,所以總共含有6種尺度的卷積層,尺寸逐漸減小,每種尺度的卷積層都能學習到一個特征圖,將6種尺度卷積層學習的多個特征圖預測組合在一起,以便于針對不同尺度的目標檢測問題。SSD模型訓練一開始,需要將真實信息分配給固定的檢測器,輸出集合中的特定輸出,一旦確定了這個分配,損失函數(shù)和反向傳播就可以應用端到端了。通過計算交疊面積,保證唯一的默認框與真實標簽一一對應,之后只要交疊面積大于設定的閾值就將默認框與真實標簽進行隨機匹配,使網(wǎng)絡可以預測同個位置的多個框。測試時,根據(jù)訓練好的模型得到每個候選框中的目標類別的預測分數(shù),同時對候選框進行調整以便于更好地匹配目標形狀。使用隨機梯度下降,對得到的語境信息約束下的實時多目標檢測網(wǎng)絡模型進行微調,初始學習率為10-3,動量為0.9.權重衰減為0.0005.批處理數(shù)據(jù)大小為32。針對每個數(shù)據(jù)集的學習速率衰減策略略有不同,本文使用Caffe框架,實驗環(huán)境硬件平臺配置為CoreX i7-6800k 6核、3.4GHz CPU、2塊NIVDIA GTX10808GB顯卡。整個語境信息約束下的實時多目標檢測網(wǎng)絡訓練過程的損失函數(shù)為:

      其中,x為網(wǎng)絡輸入;c為類別置信度;l和g分別為預測框和真實標簽;Lconf代表置信損失,置信度損失是在多類別置信度上的softmax損失;Lloc代表定位損失,定位損失是預測框與真實框參數(shù)之間的Smooth L1損失,

      3實驗結果與分析

      3.1數(shù)據(jù)集與評價標準

      由于PASCAL VOC 2007數(shù)據(jù)集是一個有著明顯層級結構的多類別、多目標類型的數(shù)據(jù)集,類別、目標之間具有明顯的共生關系。所以本文選擇在PASCAL VOC 2007數(shù)據(jù)集上評估DCN方法。該數(shù)據(jù)集包括20個對象類別,9963張高質量圖片。其中5011張訓練和驗證集圖像,4952張測試圖像,包含24640個已標注的目標,該數(shù)據(jù)集為圖像分割、目標識別和目標檢測提供標準。為了證明DCN方法的檢測精度,本文采用類別平均精準度(Ap.Average Precision)值和平均AP(mean AP)值進行評測。

      其中,N(TruePositives)ci為正確預測的數(shù)量;N(TotalObjects)ci該圖像中給定類別ci的實際目標的數(shù)量;Precisionci為類ci的精度。平均AP值即為所有類別的平均精度求和除以所有類別。

      實驗方法中,如果預測窗口與數(shù)據(jù)集標定的ground-truth窗口面積IoU重疊大于50%(mAP@IoU=0.5),則認為此提議窗口的檢測是正確的,否則是錯誤的,

      3.2實驗結果分析

      本文在PASCAL VOC 2007數(shù)據(jù)集上進行實驗驗證,并與當前先進檢測方法R-CNN、Fast R-CNN、Faster R-CNN、G-CNN、OHEM、SSD進行對比,以驗證語境信息約束下的多目標檢測網(wǎng)絡方法的目標檢測效果。

      表1給出了不同線索下語境信息約束下,多目標檢測網(wǎng)絡在PASCAL VOC 2007數(shù)據(jù)集上得到平均準確率值,以證明不同線索對檢測結果的影響。其中semantic代表語義約束,location代表位置約束。由表1可得,語境信息約束分別作用以及共同作用下的多目標檢測網(wǎng)絡對于檢測精度的提升效果。

      表2給出了語境信息約束下的多目標檢測網(wǎng)絡與對比方法,分別在PASCAL VOC 2007數(shù)據(jù)集上的平均AP值以及20個類別條件下得到平均準確率值。由表2可得,在PASCAL VOC 2007數(shù)據(jù)集下以及20個類別條件下得到的平均準確率,總體優(yōu)于當前先進方法。

      語境信息約束下的多目標檢測網(wǎng)絡能夠在一定程度上處理漏檢(chair、bird)、誤檢(potted plant、sofa)等問題,針對檢測錯誤以及不準確等問題進行修正,提升檢測的精準度,具有更好的檢測效果,如圖2所示。

      圖3給出了PASCAL VOC 2007數(shù)據(jù)集上6個示例類別的平均精準度柱狀圖結果,驗證了利用語境信息約束能夠提升多目標檢測網(wǎng)絡的檢測效果,語義約束和位置約束對于目標檢測有著重要的作用。

      4結束語

      本文介紹了語境信息約束下的多目標檢測網(wǎng)絡,是一種快速的單次多類別目標檢測器,模型的關鍵特性是使用網(wǎng)絡頂部多個特征映射的多尺度卷積邊界框輸出,這種表示能夠高效地建??赡艿倪吔缈蛐螤羁臻g。語境信息約束下的多目標檢測網(wǎng)絡在準確性和速度方面與其對應的最先進的目標檢測器相比毫不遜色。在PASCAL VOC 2007數(shù)據(jù)集上的實驗結果證明了本文方法在公開數(shù)據(jù)集測試中具有顯著的目標檢測性能,提高了檢測精度,優(yōu)于當前先進的方法,在此基礎上仍然存在許多可以深入研究的方向,其中有前景的未來方向是探索其作為系統(tǒng)的一部分,使該模型作為目標檢測組件的大型系統(tǒng)有用的構建模塊,同時檢測和跟蹤視頻中的目標。

      猜你喜歡
      目標檢測卷積神經網(wǎng)絡
      基于卷積神經網(wǎng)絡溫室智能大棚監(jiān)控系統(tǒng)的研究
      視頻中目標檢測算法研究
      基于深度卷積神經網(wǎng)絡的物體識別算法
      行為識別中的人體運動目標檢測方法
      深度學習算法應用于巖石圖像處理的可行性研究
      基于深度卷積網(wǎng)絡的人臉年齡分析算法與實現(xiàn)
      移動機器人圖像目標識別
      基于卷積神經網(wǎng)絡的樹葉識別的算法的研究
      基于背景建模法的運動目標檢測
      基于P3電位的目標檢測研究
      桃江县| 安塞县| 神农架林区| 关岭| 大方县| 潜江市| 南投市| 鸡西市| 永靖县| 沈丘县| 蓬莱市| 河北省| 河源市| 舞钢市| 汉中市| 吉隆县| 额敏县| 饶平县| 大同市| 东源县| 上蔡县| 垣曲县| 灵石县| 阿坝县| 武城县| 墨竹工卡县| 屏山县| 大丰市| 景洪市| 普洱| 任丘市| 酒泉市| 海阳市| 井研县| 罗田县| 凤山市| 滦南县| 澄城县| 衡阳市| 山阳县| 象州县|