• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      道路場景中基于視頻的多目標檢測

      2019-01-02 09:01:18李明明,雷菊陽*,趙從健
      軟件 2019年12期

      李明明,雷菊陽*,趙從健

      摘 ?要: 針對復雜道路場景的目標檢測難以實現(xiàn)在移動設備上的實時目標檢測問題,采用了MobileNet-SSD的目標檢測框架,設計了一種用于視頻的多目標檢測組合網(wǎng)絡框架LSTM-SSD。利用視頻連續(xù)幀的信息時序關聯(lián),有效的提高檢測的置信度,減少單一圖像檢測中存在的不穩(wěn)定問題。通過與VGG-SSD\MobileNet-SSD兩種檢測網(wǎng)絡模型的對比,實驗表明,設計的檢測網(wǎng)絡模型在應對多目標、模糊、遮擋等干擾狀況下,均能獲得較好的檢測效果。該模型的設計,可對無人駕駛實現(xiàn)實時目標檢測提供依據(jù)和參考。

      關鍵詞: 視頻多目標檢測;SSD;時間維度特征;道路場景

      中圖分類號: TP391.41 ? ?文獻標識碼: A ? ?DOI:10.3969/j.issn.1003-6970.2019.12.031

      本文著錄格式:李明明,雷菊陽,趙從健. 道路場景中基于視頻的多目標檢測[J]. 軟件,2019,40(12):140145

      Multi-target Detection Under Road Scenes Based on Video

      LI Ming-ming, LEI Ju-yang*, ZHAO Cong-jian

      (College of Mechanical and Automotive Engineering, Shanghai University of Engineering Science, Shanghai 201620, China)

      【Abstract】: Aiming at the problem that it is difficult for mobile devices to realize real-time target detection of complex road scenes. based on MobileNet-SSD target detection framework, an LSTM-SSD combined model algorithm for multi-target detection of video is designed. The algorithm takes advantage of the temporal feature of the video to effectively improve the confidence of detection and reduce the instability problem in image detection. Compared with the two detection network models of VGG-SSD\MobileNet-SSD, the results show that the designed detection network model can obtain better detection results under multi-objective, fuzzy, occlusion and other interference conditions. The construction of the model can provide basis and reference for real-time target detection by driverless vehicles.

      【Key words】: Video multi-target detection; SSD; Temporal feature; Road scenes

      0 ?引言

      無人駕駛是未來發(fā)展的重要方向,基于視覺的道路場景的目標檢測是無人駕駛的主要研究課題[1]。在車輛行駛過程中,如何快速、準確的檢測到車輛前方的行人、車輛、車道線、紅綠燈、提示牌等目標物體,對無人駕駛系統(tǒng)提前制定駕駛方案具有重要的研究意義。

      近幾年來,將深度學習應用到目標檢測方面取得了非常好的檢測效果。各專家學者提出了許多模型來解決視頻目標檢測速度慢、精確度低的問題。Chen X[2]等提出了一種用于實時檢測的時間單發(fā)檢測器,開發(fā)的TSSD-OTA在檢測和跟蹤方面實現(xiàn)了快速和整體競爭性能。Liu[3]等具有時間感知特征映射的移動視頻目標檢測,快速的單圖像目標檢測模型與卷積長短期記憶(LSTM)層相結合,創(chuàng)造了混合的循環(huán)卷積體系結構。華夏[4]等提出了采用自適應感知SSD框架來實現(xiàn)多目標檢測,將單圖像檢測框架與卷積長短時記憶網(wǎng)絡結合起來,實現(xiàn)了網(wǎng)絡幀級間的時序信息關聯(lián),可專用于復雜大交通場景的多目標檢測。Chen K[5]等通過尺度時間格子優(yōu)化視頻目標檢測,提出了一個集成檢測的統(tǒng)一框架,將對象檢測器應用于基于對象運動和比例稀疏且自適應的選擇關鍵幀,依賴于時間和空間連接來生成中間幀的檢測結果。盡管SSD目標檢測算法在圖片的檢測方面取得了高的準確度,也具有較好的實時性,但是在小目標、遮擋、拍攝模糊的場景檢測效果不佳。因此,該檢測算法仍需不斷改進,來滿足道路交通中目標檢測的實時性要求。

      本文主要針對城市道路場景下的車輛、行人檢測的特點,將傳統(tǒng)的SSD算法進行改進:(1)將單框檢測的結果與長短時神經(jīng)網(wǎng)絡(LSTM)預測的結果融合,生成了混合網(wǎng)絡體系結構,實現(xiàn)了視頻幀間的信息時序關聯(lián),提高檢測準確度。(2)SSD基礎網(wǎng)絡特征提取部分采用輕量級網(wǎng)絡模型MobileNet,降低計算量,提高檢測速度。(3)將最終的檢測識別結果反饋到預測網(wǎng)絡模型中,作為下一幀圖像的輸入數(shù)據(jù),提高檢測精度。實驗結果表明,改進后的組合模型在面對多目標、光照變化、模糊、遮擋等不利于檢測的條件下,能夠取得較結果。該模型的設計,可對無人駕駛實現(xiàn)實時目標檢測提供依據(jù)

      和參考。

      1 ?目標檢測模型

      1.1 ?SSD快速目標檢測

      SSD[6](single shot multibox detector)算法是一種端到端的模型,目標的檢測和定位過程由一個網(wǎng)絡解決,直接預測目標類別和邊界框的多目標檢測算法。SSD采用不同尺度的特征圖來預測每個位置上的目標,保證了目標的檢測精度。對低分辨的圖像也能達到較高的檢測識別精度,用淺層分辨率大的特征圖檢測小目標,用深層大感受域的特征圖檢測大目標,保證不同尺度大小的目標都能得到檢測。SSD檢測性能更好,具有實時性好、檢測精度高等優(yōu)點。

      圖1 ?SSD算法框架

      Fig.1 ?SSD algorithm framework

      SSD網(wǎng)絡結構[7]如圖1所示,將VGG16網(wǎng)絡的最后兩個全連接層改成卷積層,去除VGG-16[8]中的dropout 層和分類層,后面添加了4個不同尺度的卷積層來構造網(wǎng)絡結構,每個卷積層首先使用1×1的卷積核降通道,再采用3×3的卷積核來降尺度增通道,方便對圖像進行做多尺度特征提取。檢測所用特征圖的卷積層為 conv4_3、Conv7、Conv8_2、Conv9_2、Conv10_2、Conv11_2;每層的特征圖分別為 (38,38),(19,19),(10,10),(5,5),(3,3),(1,1);每層特征圖中每個單元格的先驗框個數(shù)分別為4、6、6、6、4、4,故SSD一共可預測8732個邊界框。每個先驗框輸出為4個坐標值(x, y, w, h)和每個分類的信息值。

      當SSD模型輸入整張圖片時,其主要過程: ?(a)通過深度神經(jīng)網(wǎng)絡提取整個圖片的深度特征;(b)針對不同的尺度特征設計不同的大小的特征抓

      取盒(這些盒與真實的目標邊框相匹配用來訓練);(c)不同層的特征圖分別用于不同尺度目標的邊框偏移和不同類別得分的預測;(d)通過NMS(非極大值抑制)來篩選最佳預測結果。

      1.2 ?MobileNet-SSD網(wǎng)絡模型

      MobileNet是一種輕量級的卷積網(wǎng)絡[9],采用可分解卷積網(wǎng)絡模型,在滿足一定精準度下,可大幅度減少計算量,加快計算速度,減輕過度擬合引起的訓練問題。MobileNet將傳統(tǒng)的3D卷積分為3×3深度卷積(Depthwise Conv)和1×1逐點卷積(Pointwise Conv),并添加了批量歸一化單元BN和非線性激活單元ReLU。假設將維度為的輸入層轉(zhuǎn)化為維度為,為feature map的長和寬,M為輸入的通道數(shù)(channels),是輸出feature map的長和寬,N是輸出的通道數(shù),設卷積核filter的大小是。傳統(tǒng)的3D卷積計算量為。

      (1)

      MobileNet卷積神經(jīng)網(wǎng)絡的計算量:

      (2)

      通過比較上式可得,MobileNet網(wǎng)絡計算量僅為傳統(tǒng)卷積網(wǎng)絡的倍,計算成本大幅度降低。

      MobileNet-SSD網(wǎng)絡結構如圖2所示。該模型主要由2部分組成,前端是MobileNet網(wǎng)絡,主要用于提取被檢測圖像的初步特征;后端為多尺度特征檢測網(wǎng)絡,主要對前端網(wǎng)絡提取的初步特征再進

      行不同尺度的特征提取。檢測網(wǎng)絡中有6個尺度的信息指向檢測模塊,該結構可以更快的預測目標位置及分類,最后再通過非極大值抑制模塊去掉重復預測的目標。該網(wǎng)絡模型采用卷積分離的操作,對各通道單獨卷積計算,最后統(tǒng)一采用1×1卷積核進行特征融合,再傳輸?shù)较乱粚泳矸e網(wǎng)絡模型,進行特征篩選與輸出特征圖。卷積分離保證了圖像特征提取信息的完整,改善結構參數(shù)冗余,減少參數(shù)規(guī)模,降低計算量,可快速、高效的提取待檢測目標的信息,對變化目標具有較好的魯棒性。

      圖2 ?MobileNet-SSD網(wǎng)絡結構

      Fig.2 ?MobileNet-SSD network structure

      1.3 ?LSTM網(wǎng)絡模型

      在人類觀看目標物體時,會產(chǎn)生視覺暫留現(xiàn)象和重點注意力機制,對目標的檢測具有連貫性。而視頻的目標檢測中含有大量與時間相關的信息,與單個圖像相比,可以通過上下文來提高檢測的精度和速度,由于視頻中相鄰兩幀目標位置變化在時間上具有規(guī)律性,過可以使用較早幀的檢測結果來對當前幀的檢測結果進行預測。通過網(wǎng)絡跨幀間的檢測,可以有效的提高檢測的置信度,減少單一圖像檢測中存在的不穩(wěn)定問題。LSTM[10,11](Long-short term memory)可適用于提取時間序列中的隱含信息特征,能夠長時間的記憶歷史數(shù)據(jù)的狀態(tài)及自動匹配最佳的時間間隔。

      LSTM的基本儲存單元架構如圖3所示。

      注:、分別為輸入序列和輸出序列,,,分別是t時刻的輸入門,輸出門和遺忘門,∫為激活函數(shù)。其整個存儲單元計算過程可以用如下公式表示:

      (3)

      (4)

      (5)

      (6)

      (7)

      式中: ?分別是時刻t的輸入門,輸出門和遺忘門,是t時刻的存儲單元的計算公式,是t時刻LSTM單元的所有輸出。tanh和σ分別代表雙曲線正切函數(shù)和sigmoid函數(shù)。和表示相應的權重系數(shù)矩陣和偏置。

      圖3 ?LSTM儲存單元基本架構

      Fig.3 ?LSTM storage unit basic architecture

      2 ?針對視頻目標檢測改進方法

      復雜的道路交通場景中的遮擋、陰影、光照變化等干擾現(xiàn)象,在目標檢測過程中容易出現(xiàn)目標信息損失,造成檢測目標漏檢,錯檢。智能駕駛中的目標檢測要求具有更加快速的檢測速度和更準確的檢測精度,以便于在當前環(huán)境狀態(tài)下,給駕駛人員或者汽車內(nèi)部系統(tǒng)提供及時有效的外界信息,從而做到準確的判斷。

      現(xiàn)階段,目標檢測算法對于圖像檢測具有很高的檢測精度,也可以應對一定程度的干擾信息,但

      是對于大面積的目標遮擋等強干擾情況,難以準確檢測到目標。另一方面,車載攝像頭拍攝的視頻具有信息高度冗余,包含了上下幀的時序性和檢測場景、目標的相似性,如果充分利用好視頻上下幀之間的信息冗余,可以達到提高檢測精度,計算速度及解決拍攝中運動目標存在運動模糊、失焦、遮擋、變形等問題。本文利用視頻幀間的信息時序關聯(lián),從視頻前面的檢測結果中獲取有用的先驗信息來預測少量的候選區(qū)域,再與當前幀的目標檢測結果相融合,實現(xiàn)了利用視頻中上下文信息,提高檢測精度,降低計算成本。

      圖4 ?算法改進后的整體框架

      Fig.4 ?Improved detection algorithm overall framework

      將采集到的視頻數(shù)據(jù)視為由多幀圖像組成的序列,,檢測結果為 ,式中表示視頻中對應圖像幀的檢測結果,中為檢測到的各個目標的識別置信度和檢測框的位置信息??紤]到視頻檢測在時域上的連續(xù)性,通過構造m層具有時序預測能力的LSTM網(wǎng)絡模型來實現(xiàn)預測檢測功能,得到。即當前對應幀的檢測結果可以由初步檢測結果和預測結果進行融合得到。

      算法流程具體如下:

      (a)將要檢測的視頻輸入網(wǎng)絡模型,對視頻進行單幀分解,每幀圖像輸入到SSD模型進行檢測,得到初步的檢測結果;

      (b)采用LSTM網(wǎng)絡獲得當前幀的預測檢測結果,采用信息融合,將初步的檢測結果和預測結果結合起來,得到最終的檢測識別結果;

      (c)得到的最終測結果產(chǎn)生的特征圖及檢測結果輸入到LSTM網(wǎng)絡,對下一幀的圖像進行預測,再傳入SSD的檢測指導。

      3 ?實驗與分析

      3.1 ?數(shù)據(jù)準備

      文中主要采用實驗室構建的KITTI[12](Karlsruhe Institute of Technology and Toyota Technological Institute)數(shù)據(jù)集,該數(shù)據(jù)集包含從城市,鄉(xiāng)村和高速路等場景采集的真實圖像數(shù)據(jù),并標記,如車輛類型,是否截斷,遮擋,位置和旋轉(zhuǎn)角度等重要信息。本文主要實現(xiàn)道路場景的目標檢測,數(shù)據(jù)集構建方式為從車載攝像頭拍攝采樣的行人檢測標準數(shù)據(jù)集及車輛檢測標準數(shù)據(jù)集中KITTI 挑選主要包含行人以及車輛的圖像樣本,同時采集了部分騎行電動車和交通燈的圖像對樣本進行擴充。將圖像尺寸統(tǒng)一并進行人工標記,數(shù)據(jù)庫包括訓練集中有

      4000張正樣本圖(即包含檢測目標的圖像),2000張負樣本圖(即不包含檢測目標的背景圖像);測試集中有800張正樣本圖像和400張負樣本圖像。絕大部分正樣本圖像中都包括多個檢測目標,而行人目標部分存在遮擋較大的情況,稱為困難樣本。

      由于采集到的視頻背景單一,相鄰幀圖片差異性小,在進行訓練目標檢測模型時,數(shù)據(jù)多樣性較差,存在大量的冗余,需對數(shù)據(jù)進行擴充。數(shù)據(jù)增強使用的手段有水平翻轉(zhuǎn)、隨機縮放、隨機裁剪,及兩者之間互相組合使用。本文對自行采集的圖像數(shù)據(jù)進行水平翻轉(zhuǎn)、縮放以及隨機裁剪來補充數(shù)據(jù)。經(jīng)過數(shù)據(jù)增強后可加大訓練樣本數(shù),提升網(wǎng)絡的訓練性能,增加算法網(wǎng)絡的魯棒性。

      3.2 ?性能評價指標

      在檢測單一目標時,對于目標的判別遵循著兩種結果的四種可能[13-14]。以檢測到汽車為例,檢測到的結果有True Car、True N?car、False Car、False N?car 4 種。(1)True Car:待檢測目標是汽車,且模型正確地檢測為汽車;(2)True N?car:待檢測目標不是汽車,且模型檢測不是汽車;(3)False Car:把不是汽車的目標誤檢為汽車;(4)False N?car:把是汽車的目標沒有檢測為汽車。

      在目標檢測評價中;一般采用精確率P(Pre cision)、召回率R(Recall)、精度均值AP(Average Precision)來評價算法的優(yōu)劣,精確率為模型對檢測目標正樣本的檢測能力,即檢測正確的汽車占檢測出汽車的比例;召回率是衡量模型對檢測目標正樣本的覆蓋能力,即從檢測正確的汽車占驗證集中所有汽車的比例。精度均值AP為模型對正樣本檢測準確程度對正樣本覆蓋能力的權衡能力,即PR曲線的面積,PR曲線橫軸為Recall,縱軸為Precision。計算公式如下所示:

      (8)

      (9)

      (10)

      在多目標檢測中,采用平均精度mAP(mean average precision)來評估目標檢測模型在數(shù)據(jù)集上的所有類別性能好壞,mAP為各個類別AP的平均值,mAP越高,表示模型在全部類別中的綜合檢測性能越高[15]。采用每秒幀檢測數(shù)(frames per second,F(xiàn)PS)來評估檢測效率。

      3.3 ?參數(shù)訓練

      將訓練數(shù)據(jù)集中的4000張圖片導入了MobileNet-SSD檢測網(wǎng)絡模型,實現(xiàn)端對端的訓練,訓練過程為:(1)把訓練數(shù)據(jù)集輸入網(wǎng)絡模型并向前傳播,提取圖像特征;(2)不同層級的特征圖在選取不同大小、不同縱橫比的默認框;(3)計算每個目標默認框的坐標位置偏移量和類別得分;(4)根據(jù)默認框和坐標位置偏移計算最終邊界框,根據(jù)類別得分計算默認框的損失函數(shù),并將兩者結合得到損失函數(shù);(5)損失函數(shù)反向傳播,進而調(diào)整網(wǎng)絡各層權值。對于LSTM網(wǎng)絡模型,采用隨機梯度下降(帶動量項)優(yōu)化方法訓練模型,選擇10幀序列作為網(wǎng)絡的輸入,動量項參數(shù)為0.9,訓練中 batch 大小設置為32,學習率設置為0.003。

      3.4 ?檢測性能對比

      為驗證所設計的LSTM-SSD組合網(wǎng)絡模型的檢測精確度,與VGG-SSD模型和MobileNet-SSD[16]的檢測結果進行了比較,其中FPS代表算法運行的速度,幀率。

      表1 ?不同檢測結果比較

      Tab.1 ?Comparison of different test results

      方法 精度均值AP/% mAP/% FPS/(frame?s–1)

      Car Person Motorcycle Traffic_light

      VGG-SSD 73.42 82.36 70.23 83.34 77.34 15.39

      MobileNet-SSD 68.19 76.23 64.17 75.26 70.96 37.15

      LSTM-SSD 76.28 84.54 75.68 81.65 79.54 21.46

      由表1可知,MobileNet-SSD模型相比于VGG- SSD模型,在檢測速度上有了大幅度提升,單個目標的檢測準確度略有降低。本文模型與其他算法相比,各類目標識別的精度均值AP提高了1%~6%不等,平均精度mAP提高了約2%~8%不等;在目標檢測識別速率比不上MobileNet-SSD檢測算法,但是FPS也能達到21幀/s,基本能夠滿足實時性的要求。因此,本文模型在滿足檢測精度的基礎上,也能達到較快的檢測速度。

      圖5為檢測到的視頻序列部分幀,第一、二行分別表示傳統(tǒng)的檢測方法和本文算法對應幀的部分檢測結果,結合圖5可知,當圖中的檢測目標數(shù)目

      圖5 ?檢測結果示例

      Fig.5 ?Example of model detection results

      較少時,被檢測到的準確率較高; 當檢測目標數(shù)目較多時,較大的目標能夠被檢測出來,較小的檢測出來的準確率稍微低一些; 還有極少部分目標沒被檢測出來,當檢測目標加入時間維度特征,目標可以檢測出來,并且也會提高檢測目標的置信度。第三行表示本文算法檢測的視頻序列,隨著檢測時間的累積,提取到更多時間序列中的隱含信息特征,使得目標檢測結果的置信度在不斷提高,在多目標、小目標、模糊、遮擋等干擾狀況下,也能獲得較好的檢測效果。從實驗結果可以得出,本文采用的LSTM-SSD組合模型的檢測方法,在具有時間序列的數(shù)據(jù)集在目標檢測識別率上要優(yōu)于傳統(tǒng)的檢測方法,具有較好的穩(wěn)定性與精確性。

      4 ?結論

      (1)面對復雜道路場景中難以在移動設備上實現(xiàn)實時目標檢測的問題,采用了MobileNet-SSD檢測框架,設計了一種用于視頻的多目標檢測組合網(wǎng)絡框架LSTM-SSD, 利用視頻連續(xù)幀的信息時序關聯(lián),有效的提高檢測的置信度,減少單一圖像檢測中存在的不穩(wěn)定問題。

      (2)通過不同檢測網(wǎng)絡模型的對比,設計的檢測網(wǎng)絡框架在應對多目標、模糊、遮擋等干擾狀況下,均能獲得較好的檢測效果。該模型的設計,可對無人駕駛實現(xiàn)實時目標檢測提供依據(jù)和參考。

      (3)本文目標檢測算法的處理效率和精度與實際工程需求仍有差距,且對小目標檢測識別效果較差,會出現(xiàn)漏檢現(xiàn)象,后期要繼續(xù)研究如何降低計算機的運算量和檢測實時性,提高對低分辨率和小目標檢測識別效果,進而達到實際工程的要求。

      參考文獻

      [1]王科俊, 趙彥東, 邢向磊. 深度學習在無人駕駛汽車領域應用的研究進展[J]. 智能系統(tǒng)學報, 2018, 13(1): 55-69.

      [2]Chen X, Yu J, Wu Z. Temporally Identity-Aware SSD with Attentional LSTM[J]. IEEE Transactions on Cybernetics, 2018.

      [3]Liu M, Zhu M. Mobile Video Object Detection with Temporally- Aware Feature Maps[J]. 2017.

      [4]華夏, 王新晴, 王東, et al. 基于改進SSD的交通大場景多目標檢測[J]. 光學學報, 2018, 38(12): 221-231.

      [5]Chen K, Wang J, Yang S, et al. Optimizing Video Object Detection via a Scale-Time Lattice[J]. 2018.

      [6]Liu Wei, et al. SSD: single shot multibox detector[C]//Proc of European Conference on Computer Vision. Cham: Springer, 2016: 21-37.

      [7]邢浩強, 杜志岐, 蘇波. 基于改進SSD的行人檢測方法[J]. 計算機工程, 2018, 44(11): 234-239+244.

      [8]Simonyan K, Zisserman A. Very Deep Convolutional Networks for Large-Scale Image Recognition[J]. Computer Science, 2014.

      [9]Howard A G, Zhu M, Chen B, et al. MobileNets: Efficient Convolutional Neural Networks for Mobile Vision Applications[J]. 2017.

      [10]Zhao Z, Chen W, Wu X, et al. LSTM network: a deep learning approach for short-term traffic forecast[J]. Iet Intelligent Transport Systems, 2017, 11(2): 68-75.

      [11]B Liu,J Cheng. A Long Short-term Traffic Flow Prediction Method Optimized by Cluster Computing[J].

      [12]Geiger A, Lenz P, Stiller C, et al. Vision meets robotics: The KITTI dataset[J]. The International Journal of Robotics Research, 2013, 32(11): 1231-1237.

      [13]黎洲, 黃妙華. 基于YOLO_v2模型的車輛實時檢測[J]. 中國機械工程, 2018(1): 1869-1874.

      [14]張明軍, 俞文靜, 袁志, et al. 視頻中目標檢測算法研究[J]. 軟件, 2016, 37(4): 40-45.

      [15]馮小雨, 梅衛(wèi), 胡大帥. 基于改進 Faster R-CNN 的空中目標檢測[J]. 光學學報, 2018, 38(6): 0615004.

      [16]鄭冬, 李向群, 許新征. 基于輕量化SSD的車輛及行人檢測網(wǎng)絡[J]. 南京師大學報(自然科學版), 2019, 42(01): 73-81.

      钟山县| 栾川县| 根河市| 会宁县| 原平市| 钦州市| 和顺县| 化德县| 白玉县| 凤庆县| 江阴市| 杭锦后旗| 新民市| 丰镇市| 昌邑市| 秭归县| 漯河市| 安新县| 巩留县| 出国| 双桥区| 潢川县| 开封市| 兴安县| 安吉县| 樟树市| 灵璧县| 个旧市| 如东县| 高雄县| 德庆县| 上蔡县| 吉安县| 石林| 临武县| 西和县| 临沭县| 临邑县| 轮台县| 秀山| 乐至县|