• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      結合動態(tài)概率定位模型的道路目標檢測

      2020-04-29 05:30:32左治江鄭文遠梅天燦
      江漢大學學報(自然科學版) 2020年2期
      關鍵詞:候選框池化層卷積

      左治江,胡 軍,鄭文遠,梅天燦*

      (1.江漢大學 機電與建筑工程學院,湖北 武漢 430056;2.武漢大學 電子信息學院,湖北 武漢 430072)

      傳統(tǒng)的車輛檢測框架主要采用顯式模型[1-3]或隱式模型[4-7],其特征表達均屬于基于人工設計的特征表達,很難保證車輛檢測的魯棒性和穩(wěn)定性,而基于神經(jīng)網(wǎng)絡的特征表達則是基于學習的特征表達,在影像分類和檢測中表現(xiàn)出了優(yōu)異的性能[8-10]。針對現(xiàn)有R- CNN 系列[11-13]模型和概率定位模型LocNet[14]的局限,本文提出一種端到端卷積神經(jīng)網(wǎng)絡車輛檢測模型HyperLocNet,通過對候選框生成網(wǎng)絡RPN[14],改進概率定位模型以及目標識別網(wǎng)絡進行聯(lián)合訓練,從而使得各個子任務之間相互協(xié)同,提高目標定位和檢測的精度,有效解決了目標檢測任務中定位信息少、模型不穩(wěn)定和對小目標檢測效果不理想等問題。

      1 HyperLocNet車輛檢測網(wǎng)絡

      目標檢測包含目標定位和目標識別兩個關鍵問題。針對現(xiàn)有回歸定位和概率定位兩種定位方法的局限,HyperLocNet 將定位和識別網(wǎng)絡融合在同一個網(wǎng)絡中共享信息,實現(xiàn)多任務的端到端學習,其模型結構如圖1 所示。待檢測圖像經(jīng)過基礎卷積網(wǎng)絡之后得到激活特征圖,激活特征圖首先進入RPN 網(wǎng)絡產(chǎn)生候選框。RPN 網(wǎng)絡與后續(xù)檢測網(wǎng)絡共享基礎卷積層的權重,包括候選框坐標回歸及前景與背景預分類兩個分支。根據(jù)每個候選框分類得分進行非極大值抑制操作,訓練階段選擇前2 000 個候選框?qū)罄m(xù)的檢測網(wǎng)絡進行訓練,測試階段選擇前300 或者100 個候選框進入檢測網(wǎng)絡。經(jīng)過NMS 篩選得到的候選框被映射至激活特征圖,經(jīng)過ROI 池化層輸出固定尺寸的特征向量,再進入檢測網(wǎng)絡進行精細定位并分類。

      圖1 HyperLocNet 檢測模型圖Fig.1 HyperLocNet detection model

      不同于Faster R- CNN 的檢測網(wǎng)絡和RPN 采用回歸模型進行定位,HyperLocNet 采用的定位模塊提供了關于目標位置的條件概率,使得模型的穩(wěn)定性更好,可以處理多個目標彼此接近的情形。對于小目標的檢測需要更多的細節(jié)語義信息,而深層卷積網(wǎng)絡由于池化層的原因,特征圖尺寸不斷減小,對細節(jié)語義信息響應不明顯,HyperLocNet 改變VGG16 的pool/4 池化層的參數(shù),使得conv4_3 經(jīng)過池化層后尺寸不變,即將步長(stride)由16 變?yōu)?,特征圖尺寸縮小為檢測圖像的1/8,以適應小目標的檢測。

      HyperLocNet 在目標定位模塊中將X和Y兩個分支的任務融合到一個分支中,舍棄了原來模型目標定位模塊中的多個卷積層和池化層。通常在卷積網(wǎng)絡架構中的連續(xù)卷積層之間插入池化層,池化層使用Max Pooling 操作,在保證深度維度不變的前提下,減小了網(wǎng)絡特征向量的尺寸,從而保證了特征的尺度和旋轉不變性。但是目標定位任務對尺度和旋轉非常敏感,尤其是檢測小目標時,幾個像素的移動就會導致最終的定位結果偏差很大。LocNet 模型中ROI 層之后的池化層可能會丟棄用于精確定位的關鍵信息,故HyperLocNet 在ROI 層之后直接通過全連接層提取位置信息,即X 和Y 方向的條件概率,從而保證從激活特征圖傳遞出來的信息的完整性。而基礎卷積層中的池化層已經(jīng)可以保證特征的尺度和旋轉不變性,使得檢測模型的識別模塊具有較強的泛化性和穩(wěn)定性。

      在對目標進行精確定位時,LocNet 要求初始候選框包含目標框,當該條件不滿足時,其定位誤差比回歸模型大。圖2 是概率定位模型與回歸定位模型的比較,其中黑色框為概率模型搜索區(qū)域,黃色框為初始候選框,紅色框為回歸模型定位結果,藍色框為概率模型定位結果,黃色箭頭表示回歸模型將候選框逼近目標框的過程。如圖2(a)所示,當目標在初始候選框之外時概率模型不能準確定位,而回歸定位模型無論初始候選框是否包含目標框,都可以使候選框逼近目標框。如圖2(b)所示,當目標處在搜索區(qū)域中時,概率模型可以更加精確地定位。針對兩種定位模型的特點,HyperLocNet 中RPN 采用回歸模型定位生成距離目標比較近的候選框,后續(xù)檢測網(wǎng)絡采用概率模型對RPN 候選框進行精細定位提高定位精度。邊界概率和邊界內(nèi)外概率的基本形式為表述為在區(qū)域R 內(nèi),任意行或者列是第c類的邊界的概率(或者在第c類的邊界內(nèi)的概率),圖3 是兩種概率定位示意圖,其中青色框為原始候選框,黃色框為將原始候選框放大一定范圍得到的搜索區(qū)域,藍色框為目標實際邊界框。圖3(a)表示邊界內(nèi)外概率,即搜索區(qū)域內(nèi)的行列在目標邊界內(nèi)的條件概率;圖3(b)表示邊界概率,即搜索區(qū)域內(nèi)的行列為目標邊界的概率。通過試驗發(fā)現(xiàn)由于本文檢測目標為小目標,檢測難度大,單獨采用邊界概率定位效果不佳,而采用組合概率時間開銷比較大,定位結果改善不明顯,因此本文僅考慮邊界內(nèi)外概率的作用。

      圖2 概率定位模型與回歸定位模型的比較Fig.2 Comparison between probabilistic location model and regression location model

      2 HyperLocNet網(wǎng)絡損失函數(shù)

      本文提出的檢測網(wǎng)絡以VGG16 為基礎,以ImageNet 上訓練的圖像分類模型為初始權重。在概率定位模型中,對于N個候選框訓練樣本定位損失為

      圖3 概率定位模型示意圖Fig.3 Schematic diagram of probabilistic location model

      HyperLocNet 模型后續(xù)檢測網(wǎng)絡的多任務損失函數(shù)為

      式(2)中Lcls(θ)表示所有類別的分類損失,Lloc(θ)為式(1)表示的定位損失。只有前景才產(chǎn)生定位損失,其中λ設為 1。

      HyperLocNet 中的RPN 的多任務損失為

      P= (Px,Py,Pw,Ph) 表示初始候選框在檢測圖像的中心坐標位置和長、寬。G=(Gx,Gy,Gw,Gh)代表原標記框(ground- truth box)在檢測圖像的中心坐標位置和長、寬。訓練RPN 時,式(3)的λ設置為 3。

      綜合式(3)和式(4),HyperLocNet 訓練過程中總的損失為

      3 試驗與分析

      3.1 試驗數(shù)據(jù)與訓練參數(shù)設置

      為了驗證本文提出的HyperLocNet 檢測模型的效果,制作了自定義的道路車輛目標數(shù)據(jù)集TVOWHU 進行檢測試驗,并將文獻[14- 20]中的幾種方法應用在該數(shù)據(jù)集上,與HyperLocNet檢測結果相比較。

      TVOWHU 數(shù)據(jù)集由分布在車流量較大的十字路口處的監(jiān)控相機采集的視頻流中隨機采樣得到的826 幅平均大小為601× 395 的圖像組成,仿照Pascal VOC 的形式,以JPEG 格式呈現(xiàn)。其中707 個樣本作為訓練數(shù)據(jù),其余119 個樣本作為測試數(shù)據(jù)。訓練HyperLocNet 時,RPN 中檢測框與ground- truth 的交疊率大于0.4 的為正樣本,小于0.3 的為負樣本,后續(xù)檢測網(wǎng)絡中,交疊率大于0.4 的為正樣本,在0.1 ~ 0.4 之間的為負樣本。表1 展示了LocNet 和HyperLocNet 檢測模型的訓練參數(shù)設置。LocNet 檢測模型分別訓練了識別網(wǎng)絡和定位網(wǎng)絡,識別網(wǎng)絡為去掉定位部分的Fast R- CNN 網(wǎng)絡。

      表1 訓練參數(shù)設置Tab.1 Training parameters setting

      3.2 檢測結果比較與分析

      圖4 為不同檢測模型在TVOWHU 數(shù)據(jù)集上的Recall- IoU 曲線,可以看出HyperLocNet 的檢測效果始終優(yōu)于Faster R- CNN。當IoU > 0.5,候選框數(shù)量為300 時,HyperLocNet 的召回率為 71.5% ,F(xiàn)aster R- CNN 的召回率為 62.5% 。與 YOLO- v2 相比,IoU 較低時,HyperLocNet 的檢測效果更好,當 RPN 產(chǎn)生 300 個候選框時,HyperLocNet 在 IoU > 0.5 和 IoU > 0.65 時召回率比YOLO- v2 分別高出15 個和5 個百分點。

      圖4 不同檢測模型在TVOWHU 數(shù)據(jù)集上的Recall-IoU 曲線(Proposals = 300)Fig.4 Recall-IoU curves of different detection models on TVOWHU data (Proposals = 300)

      表2 為TVOWHU 數(shù)據(jù)集的整體檢測結果,表中AP 表示平均檢測精度(average precision)。LocNet 在PASCAL 數(shù)據(jù)集上試驗時,采用多次迭代的方法提高檢測效果,最終確定迭代次數(shù)為4 次。在試驗中發(fā)現(xiàn),對TVOWHU 數(shù)據(jù)集,最多迭代2 ~3 次就可以達到最好的檢測效果。對于Selective Search 產(chǎn)生的質(zhì)量較高的候選框,當數(shù)量較多,為1 k 時,只需迭代1 次即可,數(shù)量較少,為300 時,需迭代2 次;對于Sliding- window 產(chǎn)生的質(zhì)量較低的候選框,當數(shù)量較多,為1 k時,需迭代2 次,當數(shù)量較少,為300 時,需迭代3 次。但即使由Selective Search 產(chǎn)生1 k 候選框,LocNet 的 AP 與 HyperLocNet 相比仍然有較大差距。比如 RPN 產(chǎn)生 50 個候選框,IoU > 0.5 時,HyperLocNet 的 AP 為 57.7% ,而 LocNet 的 AP 僅為 49.5% 。文獻[16,20]采用手工設計特征識別車輛,只考慮了IoU > 0.5 的情況,與之相比HyperLocNet 的AP 整體高出10% ,由此可以看出卷積神經(jīng)網(wǎng)絡的特征表達能力更強。與LocNet 相比,HyperLocNet 檢測效果更好,說明網(wǎng)絡聯(lián)合訓練、共享權重可以使得識別和定位兩個任務相互促進。與R- CNN 系列模型相比,HyperLocNet的優(yōu)勢很明顯,說明概率定位模型應用在目標檢測框架中可以提高檢測性能。雖然IoU > 0.5 時,HyperLocNet 的 AP 略低于 YOLO- v2[9],但值得說明的是,當 0.5 < IoU < 0.7時,HyperLocNet 的AP 始終在 30% ~ 60% 之間,而 YOLO- v2 在 IoU > 0.7 時 AP 已經(jīng)為 23.6% 。這一結果表明在IoU 較低時HyperLocNet模型更為穩(wěn)定,在這種條件下,隨著在IoU 增大時,檢測效果沒有急劇下降。

      表2 TVOWHU 測試結果Tab.2 TVOWHU test results

      表3 為各檢測模型處理一張圖片所用的時間,括號內(nèi)為每秒處理的圖片容量。這里所示的均為所有檢測情況下檢測效果最好結果的運行時間,比如LocNet 模型由Sliding- window 提供1 k個候選框時,迭代2 次效果最好。由表3 可以看出端到端模型的檢測時間最短,HyperLocNet 可以達到13 幀/s,完全具有實時處理的潛質(zhì),今后我們也將繼續(xù)探索,在保證檢測效果的前提下,提高檢測效率。除文獻[15- 16]的檢測模型外,HyperLocNet、LocNet、Fast R- CNN 模型均基于caffe 深度學習框架,YOLO- v2 基于DarkNet 深度學習框架,在GeForce GTX 1080Ti 上運行。

      表3 TVOWHU 測試時間Tab.3 TVOWHU test time

      3.3 檢測結果可視化

      圖5 展示了HyperLocNet 和其他幾種檢測模型在TVOWHU 數(shù)據(jù)集上的檢測結果,其中綠色箭頭所指為漏檢或者定位框誤差較大的情況。即使在車輛分布密集,車身目標小,車輛目標相互之間有重疊的情況下,HyperLocNet 的檢測結果依然比較好。其他幾種檢測模型有不同程度的漏檢,或者有定位框位置不準確等問題。在車輛分布較密集的區(qū)域,HyperLocNet 只有一處出現(xiàn)一個漏檢,其他檢測框架出現(xiàn)漏檢的情況較多,而且Fast R- CNN 的多個定位框的位置誤差較大。

      圖5 檢測結果Fig.5 Test results

      從TVOWHU 數(shù)據(jù)集檢測結果來看,本文提出的HyperLocNet 檢測模型對于小目標的檢測效果比R- CNN 系列模型和YOLO- v2 的檢測效果好。造成這種差距的原因,第一是因為概率定位模型在穩(wěn)定性方面發(fā)揮了優(yōu)勢,對于大目標和小目標,訓練階段和測試階段輸出的條件概率都在0 ~1 之間,保證了模型的穩(wěn)定性,使得對大目標和小目標的檢測效果都很好;第二是因為在HyperLocNet 檢測網(wǎng)絡中,定位和識別都采用了概率模型,這更有利于多任務學習中兩個任務相互促進、相互制約,提高整個模型的穩(wěn)定性和泛化性能;第三是因為在概率定位模型中,搜索區(qū)域R 是以候選框為中心并將其放大的特定區(qū)域,放大候選框,將目標周圍的背景信息融入其中,也是一種特征融合的過程,有利于改善模型性能。

      4 結語

      本文提出一種新的基于視頻流影響的道路車輛目標檢測框架HyperLocNet,實現(xiàn)端到端檢測,并達到13 幀/s 的處理速度。為解決基于CNN 的目標檢測框架中使用回歸模型定位輸出信息較少,定位精度受限的問題,利用改進概率定位模型輸出條件概率,提供更多有用的關于目標位置的信息,使檢測模型更加穩(wěn)定。進一步,本文將目標識別和目標定位融合在一個深度學習網(wǎng)絡中,使得識別和定位任務共享卷積層和兩個完全連接層的計算,降低了計算成本。在這個多任務模型中,識別和定位任務相互促進,使得檢測性能比LocNet 大大提高。在自定義的TVOWHU道路目標數(shù)據(jù)集中,本文提出的模型檢測效果比廣泛使用的Faster R- CNN 和YOLO- v2 等方法有了明顯提高。

      猜你喜歡
      候選框池化層卷積
      重定位非極大值抑制算法
      面向自然場景文本檢測的改進NMS算法
      基于3D-Winograd的快速卷積算法設計及FPGA實現(xiàn)
      卷積神經(jīng)網(wǎng)絡模型研究分析*
      基于Soft-NMS的候選框去冗余加速器設計*
      基于卷積神經(jīng)網(wǎng)絡的紙幣分類與點鈔
      基于深度學習卷積神經(jīng)網(wǎng)絡的人體行為識別研究
      科技傳播(2020年6期)2020-05-25 11:07:46
      從濾波器理解卷積
      電子制作(2019年11期)2019-07-04 00:34:38
      基于全卷積神經(jīng)網(wǎng)絡的SAR圖像目標分類*
      基于傅里葉域卷積表示的目標跟蹤算法
      慈溪市| 衡东县| 临夏市| 论坛| 开封市| 吴川市| 措美县| 苏尼特左旗| 额尔古纳市| 三明市| 永顺县| 濮阳县| 清苑县| 闸北区| 盈江县| 玉环县| 繁峙县| 池州市| 赣榆县| 雷山县| 温州市| 铜陵市| 普宁市| 芒康县| 巩留县| 从江县| 比如县| 吉林省| 佛山市| 钟祥市| 锡林郭勒盟| 苍南县| 从江县| 桑植县| 楚雄市| 浦北县| 安图县| 余干县| 青海省| 远安县| 山阴县|