• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      基于深度學習的行人檢測技術研究

      2021-02-04 06:53:20
      軟件導刊 2021年1期
      關鍵詞:行人卷積神經(jīng)網(wǎng)絡

      (南京理工大學紫金學院計算機學院,江蘇南京 210023)

      0 引言

      行人檢測一直是視頻分析領域的研究熱點和難點。行人檢測技術指計算機對于給定的視頻和圖像,判斷其中是否有行人存在,同時標記出行人位置[1]。行人檢測技術具有很強的應用價值,它可以與行人跟蹤、行人重識別等技術相結合,廣泛應用于自動駕駛、道路監(jiān)控、智慧城市等領域。傳統(tǒng)的行人檢測方法依靠人體自身的外觀屬性進行特征提取和分類。例如,通過顏色、邊緣、紋理、運動等屬性描述行人態(tài)勢,并使用支持向量機(Support Vector Ma?chines,SVM)[2]、自適應提升(Adaptive Boosting,Ada?Boost)[3]等分類器判斷特定區(qū)域是否存在行人目標。該類方法往往受限于特定環(huán)境條件,導致特征表達能力不足,無法滿足實際場景應用要求。

      長期以來,基于外觀屬性進行特征提取一直制約著行人檢測發(fā)展,直到2012 年,Krizhevsky 等[4]應用深度卷積神經(jīng)網(wǎng)絡(Deep Convolutional Neural Networks,DCNN)取得了ILSVRC 比賽冠軍,從此開啟了基于深度學習的行人檢測新篇章;黃同愿等[5]對基于深度學習的行人檢測技術研究進展進行了綜述。研究人員發(fā)現(xiàn)基于深度學習學到的特征具有很強的層次表達能力和很好的魯棒性,可以更好地解決這類視覺問題。隨著深度學習的不斷發(fā)展,F(xiàn)aster-RCNN(Faster Region-based Convolutional Neural Net?works)[6]、FPN(Feature pyramid networks)[7]、SSD(Single Shot Detection)[8]、YOLO(You Only Look Once)[9]等優(yōu)秀 的目標檢測算法相繼被提出,使行人檢測技術得到了空前發(fā)展[10]。本文首先基于深度學習相關技術,分析經(jīng)典的目標檢測網(wǎng)絡;然后,從視頻分析角度,給出行人檢測處理流程,并基于YOLO v3 進行了系統(tǒng)實現(xiàn)與驗證;最后,結合實驗結果,探討了行人檢測技術未來發(fā)展和進一步研究方向。

      1 深度學習

      深度學習是通過構建一個多層神經(jīng)網(wǎng)絡模型,以原始數(shù)據(jù)作為輸入,由算法在該網(wǎng)絡模型上自動學習原始數(shù)據(jù)隱含在內(nèi)部的關系,提取出更高維、更抽象的數(shù)據(jù)特征表示,最后以特征到任務目標的映射作為結束[11]。深度學習已經(jīng)被廣泛應用于語音識別、自然語言處理、圖像分類等領域,并取得了巨大成功。例如,谷歌旗下的DeepMind 公司基于深度學習技術開發(fā)的人工智能圍棋軟件—Alpha?Go,先后擊敗李世石、柯潔等世界圍棋名將[12];百度研發(fā)的無人駕駛汽車,把以深度學習為基礎的計算機視覺、聽覺等識別技術應用到“百度汽車大腦”系統(tǒng)中,能在厘米級精度上實現(xiàn)車輛定位[13]。

      深度學習的核心是深度神經(jīng)網(wǎng)絡(Deep Neural Net?work,DNN)。深度神經(jīng)網(wǎng)絡是一種模仿神經(jīng)網(wǎng)絡進行信息分布式并行處理的數(shù)學模型。根據(jù)網(wǎng)絡結構的不同,深度神經(jīng)網(wǎng)絡主要分為以下幾種類型:

      (1)卷積神經(jīng)網(wǎng)絡(Convolution Neural Network,CNN)。CNN 網(wǎng)絡建立在多層感知機(Multi-layer Perceptions,MLP)的基礎上,將卷積運算和采樣操作引入人工神經(jīng)網(wǎng)絡,使提取出的特征具備一定的空間不變性。卷積神經(jīng)網(wǎng)絡是一種具備高效識別能力的前饋神經(jīng)網(wǎng)絡,一般由多個卷積層、池化層和全連接層組成。卷積操作、稀疏連接、權值共享是卷積神經(jīng)網(wǎng)絡的三大顯著特點。對于卷積神經(jīng)網(wǎng)絡而言,不同深度對應著不同層次的語義特征:淺層網(wǎng)絡分辨率高,學到的更多是細節(jié)特征;深層網(wǎng)絡分辨率低,學到的更多是語義特征。CNN 網(wǎng)絡主要應用于視頻分析、圖像處理等領域。

      (2)循環(huán)神經(jīng)網(wǎng)絡(Recurrent Neural Network,RNN)。RNN 網(wǎng)絡是一類以序列數(shù)據(jù)作為輸入的神經(jīng)網(wǎng)絡,其在序列的演進方向上進行遞歸且所有節(jié)點(循環(huán)單元)按照鏈式連接。循環(huán)神經(jīng)網(wǎng)絡具有固定的權值和內(nèi)部狀態(tài),通常用來描述動態(tài)時間行為序列,是一種能夠處理任意長度序列信息的神經(jīng)網(wǎng)絡。RNN 網(wǎng)絡主要應用于文本分析、自然語言處理等領域。

      (3)生成式對抗網(wǎng)絡(Generative Adversarial Network,GAN)。GAN 網(wǎng)絡由一個生成器(Generator)和一個判別器(Discriminator)組成[14]。生成器輸入一個潛在編碼,其輸出的生成樣本無限逼近真實樣本;判別器的輸入為真實樣本和生成樣本,并能夠識別出真實樣本和生成樣本。兩個網(wǎng)絡以零和博弈的方式交替訓練,訓練生成器時最大化判別誤差,訓練判別器時最小化判別誤差,最終目的是使判別器無法判別出生成樣本和真實樣本,使生成器的輸出與真實樣本分布一致。GAN 網(wǎng)絡在圖像生成、圖像超分辨率、三維建模、圖像風格遷移和視頻預測等領域得到了廣泛應用。

      行人檢測屬于深度學習的典型應用,主要采用卷積神經(jīng)網(wǎng)絡進行。

      2 基于深度神經(jīng)網(wǎng)絡的檢測技術

      2.1 目標檢測及其發(fā)展歷程

      目標檢測是指給定一張圖像,確定其中是否存在多個預定義的類別,如果存在,就返回每個實例的空間位置和覆蓋范圍(比如返回一個邊界框)。行人檢測是特定實例的目標檢測,其檢測的類別是行人,而非其它類別的物體,如車輛、建筑物等。

      2014 年,Girshick 等[15]提出了區(qū)域卷積神經(jīng)網(wǎng)絡(Re?gionswith CNN Features,R-CNN)模型,拉開了深度學習做目標檢測的序幕。在R-CNN 的基礎上,Girshick 等[16]又提出了進階版的Fast R-CNN,實現(xiàn)了端到端的檢測和卷積操作。Ren 等[17]提出了Faster R-CNN 模型,其最大創(chuàng)新在于設計了區(qū)域候選網(wǎng)絡(RegionProposalNetwork,RPN),使用錨框(Aanchor)的思想將提取目標候選框的步驟整合到深度神經(jīng)網(wǎng)絡中。2015 年,研究者[18]提出了僅通過一次傳導的目標檢測模型,稱為YOLO(YouOnlyLookOnce),通過無錨框(Anchor-Free)檢測,第一次實現(xiàn)了實時的物體檢測任務;Liu 等[19]提出的SSD(SingleShotMultiboxDetector)模型吸收了YOLO 快速檢測的思想,改善了多尺寸目標的處理方式,提升了小目標檢測能力;Lin 等[20]提出的FPN(Fea?turePyramidNetworks)模型,使用特征金字塔實現(xiàn)了更為優(yōu)秀的特征提取網(wǎng)絡。

      YOLO 模型經(jīng)過多個版本的發(fā)展,當前已經(jīng)演進到YOLO v5[21-24]。YOLO 模型在原有架構的基礎上,采用CNN 研究最新成果,對數(shù)據(jù)處理、骨干網(wǎng)絡、模型訓練、激活函數(shù)、損失函數(shù)等各方面都有著不同程度的優(yōu)化,大幅提升了目標檢測效率。

      2.2 檢測模型分類

      在目標檢測模型中,基于是否將目標定位和分類作分離處理,可分為兩種類型:兩階段目標檢測模型和單階段目標檢測模型。

      (1)兩階段目標檢測模型(Two-StageObjectDetection)。兩階段檢測模型通常在第一階段專注于找出目標出現(xiàn)的位置,得到建議框(ProposalRegion);然后在第二階段專注于對建議框進行進行分類和邊界框回歸,尋找目標的精確位置。兩階段的典型檢測模型如R-CNN、Faster R-CNN等。

      (2)單階段目標檢測模型(One-StageObjectDetection)。單階段檢測模型將目標定位和分類這兩個過程融合在一起,采用“錨點+分類精修”框架,在一個階段完成尋找目標出現(xiàn)位置和類別預測。單階段典型檢測模型有SSD、YOLO系列等。

      兩階段檢測模型一般精度更高,但速度較慢;單階段檢測模型一般比兩階段檢測模型更快,但精度會有所損失。

      2.3 YOLO 檢測模型

      YOLO 模型由于具有更快的檢測速度,在工業(yè)界的應用最為廣泛。本文使用相對穩(wěn)定的版本YOLO v3[22]進行行人檢測系統(tǒng)實現(xiàn)與評估。相比以往版本,YOLO v3 在整體結構上有較大改動,吸收了當前優(yōu)秀的檢測框架思想,在保持速度優(yōu)勢的情況下,進一步提升了檢測精度,尤其是對多尺度目標的檢測能力。YOLO v3 網(wǎng)絡結構如圖1所示。

      Fig.1 Detection framework of YOLO v3圖1 YOLO v3 網(wǎng)絡結構

      YOLO v3 在YOLO v2 提出的Darknet-19 基礎上引入殘差模塊,進一步加深網(wǎng)絡層次,改進后的網(wǎng)絡有53 個卷積層,命名為Darknet-53[5]。網(wǎng)絡層次的加深使一些當前先進的模型中比較重要和流行的結構能出現(xiàn)在YOLO v3上,包括殘差模塊、多尺度檢測以及上采樣與特征融合過程等。圖1 中各模塊說明如下:

      (1)Input 模塊。輸入模塊默認采用416×416×3 的輸入。

      (2)Conv2D 模塊。代表卷積層、批量歸一化層(Batch?Normalization,BN)、LeakyReLu 激活層等三層的結合,構成了DarkNet 的基礎處理單元。

      (3)ResBlock 模塊。即殘差模塊,通過引入一個深度殘差框架解決梯度消失問題,使得模型更容易收斂。Res后面的數(shù)字表示串聯(lián)的殘差模塊數(shù)目。

      (4)UpSampling2D 模塊。即上采樣模塊,上采樣使用的方式為向上池化操作,通過元素復制方式擴展特征尺寸,沒有學習參數(shù)。

      (5)Concat 模塊。即拼接模塊,上采樣后將深層與淺層的特征圖進行通道的拼接操作,實現(xiàn)特征融合。

      (6)Output 模塊。輸出模塊在圖1 中以灰色方框表示。通過上采樣與Concat 操作,融合了不同層的特征,最終輸出3 種尺寸的特征圖,分別對應深層、中層和淺層特征,用于后續(xù)目標預測。多層特征圖對于多尺度目標則非常有利,深層特征圖尺寸小、感受野大,有利于檢測大尺度物體;淺層特征圖則與之相反,感受野小,有利于檢測小尺度物體。

      3 行人檢測系統(tǒng)實現(xiàn)

      3.1 檢測流程

      行人檢測需要將圖像中的背景和前景分離,進而實現(xiàn)行人的定位和追蹤。行人檢測的基本處理流程如圖2 所示。

      Fig.2 Basic process of pedestrian detection圖2 行人檢測基本處理流程

      (1)視頻解碼。監(jiān)控攝像頭一般采用RTSP(Real-time Streaming Protocol)或RTMP(Real-time Messaging Protocol)協(xié)議傳輸視頻。在邊緣設備收到視頻流后,需要解碼成一系列的視頻幀,然后采用H.264/H.265 等重新編碼,并傳輸?shù)揭曨l分析設備。

      (2)預處理。預處理階段是指各種視頻的前期操作,如圖像增強、降噪、校準等。例如,一臺傾斜的攝像頭在黑夜拍攝到的視頻,需要預先進行光線增強和校正等。

      (3)幀過濾。對于每一個視頻幀,識別是否存在運動目標。如果是背景幀或者前后無變化的視頻幀,則可進行過濾處理,減輕后續(xù)視頻分析負擔。

      (4)特定目標檢測。借助神經(jīng)網(wǎng)絡模型識別感興趣區(qū)域,例如行人、車輛、火焰、煙霧(smoke)等區(qū)域。本系統(tǒng)用于行人檢測,主要從視頻流中檢測行人目標。

      (5)行人識別。在特定目標檢測基礎上,對行人目標進行精確識別。例如,基于面部特征識別行人身份、基于表情特征識別行人心理活動等。

      (6)行人跟蹤。具有基于區(qū)域的跟蹤、基于特征的跟蹤、多目標跟蹤等算法[25]。目前,針對卷積神經(jīng)網(wǎng)絡在目標跟蹤中的應用,主要研究方向有兩種:一種是先進行離線訓練,再進行在線微調(diào);另一種則是構建簡化版的卷積神經(jīng)網(wǎng)絡,力求擺脫離線訓練,達到完全在線運行要求。

      (7)數(shù)據(jù)融合?;诙鄠€視頻源獲取特定目標的信息。例如,行人再識別源于多攝像頭跟蹤,用于判斷非重疊視域中拍攝到的不同圖像中的行人是否為同一個人。

      3.2 軟件實現(xiàn)

      行人檢測系統(tǒng)基于C/S(Client/Server)架構設計,客戶端負責視頻數(shù)據(jù)采集,然后上傳到服務器端進行視頻分析,YOLO v3 模型部署在服務器端。

      編程語言采用Python。Python 是一種面向?qū)ο蟮哪_本語言,相比其他C++、Java 語言,其在深度學習領域應用最為廣泛。

      深度學習框架采用PyTorch。PyTorch 是一個動態(tài)圖框架,擁有自動求導機制,對神經(jīng)網(wǎng)絡有著盡量少的概念抽象。PyTorch 風格與Python 程序類似,這使得使用者很容易理解代碼的框架和邏輯。

      4 系統(tǒng)驗證

      本系統(tǒng)實驗環(huán)境配置如下:

      (1)服務器端操作系統(tǒng)為Ubuntu18.04,處理器為英特爾酷睿i9 9900K(8 核16 線程),內(nèi)存為DDR4 32G 3 000高頻閃存。服務器搭載兩塊英偉達GPU 芯片GeForce RTX 2 080Ti[26],該芯片顯存容量為11GB,CUDA 核心數(shù)為4 352,加速頻率為1 635MHz,具備強大的深度學習處理能力。

      (2)客戶端采用惠普筆記本HP Elite 848 G4[27],處理器為Inteli7-7500U,內(nèi)存為8GB。客戶端操作系統(tǒng)為Win?dows 10。

      本文使用F1 分數(shù)(F1 Score)作為行人檢測評價指標。F1 Score 就是模型的準確率和召回率的調(diào)和平均數(shù)。準確率指正確的預測框和所有檢測出的預測框的比值,是評價準的指標;召回率指正確的預測框與所有標簽框的比值,是評價全的指標。

      針對YOLO v3 模型,在上述實驗環(huán)境下對視頻圖像進行行人檢測,可達到37 FPS 的處理速率。基于YOLO v3的行人檢測效果如圖3 所示。

      圖3 上邊為原始視頻幀,下邊為檢測后的視頻幀??梢钥闯觯谝曨l幀的行人都被完整地檢測了出來。

      Fig.3 Pedestrian detection effect based on YOLO v3圖3 基于YOLO v3 的行人檢測效果

      5 結語

      行人檢測在計算機應用領域有著非常廣泛的應用,近年來受到學術界和產(chǎn)業(yè)界的廣泛關注。本文闡述了基于深度學習的行人檢測技術,并選取廣泛使用的YOLO v3 模型對行人檢測系統(tǒng)進行了實現(xiàn)。實驗結果表明,卷積神經(jīng)網(wǎng)絡可以描述待檢測目標的復雜特征,能夠在準確度和實時性等方面滿足行人檢測要求。

      深度學習雖然為行人檢測帶來了新的契機,但也面臨新的問題。首先,行人兼具剛性和柔性物體的特性,外觀易受穿著、尺度、遮擋、姿態(tài)和視角等影響,由此導致針對復雜場景和特殊環(huán)境的行人檢測仍有待提高;其次,深度學習訓練需要大量數(shù)據(jù)集,目前標準的大型數(shù)據(jù)集都基于國外環(huán)境和場景,這在一定程度上影響了相關研究進展,國內(nèi)數(shù)據(jù)庫在大型行人目標檢測數(shù)據(jù)集構建上還有很多發(fā)展空間;再者,行人檢測當前采用的是通用目標檢測模型,在模型訓練和推理階段需要耗費大量時間,如何建立針對行人的特定檢測模型也是后續(xù)一個重要研究方向??傊腥藱z測在很長時間內(nèi)都將是計算機視覺領域中一個既具有研究價值同時又極具挑戰(zhàn)性的熱門課題。

      猜你喜歡
      行人卷積神經(jīng)網(wǎng)絡
      基于3D-Winograd的快速卷積算法設計及FPGA實現(xiàn)
      毒舌出沒,行人避讓
      意林(2021年5期)2021-04-18 12:21:17
      神經(jīng)網(wǎng)絡抑制無線通信干擾探究
      電子制作(2019年19期)2019-11-23 08:42:00
      從濾波器理解卷積
      電子制作(2019年11期)2019-07-04 00:34:38
      路不為尋找者而設
      揚子江(2019年1期)2019-03-08 02:52:34
      基于傅里葉域卷積表示的目標跟蹤算法
      我是行人
      基于神經(jīng)網(wǎng)絡的拉矯機控制模型建立
      重型機械(2016年1期)2016-03-01 03:42:04
      復數(shù)神經(jīng)網(wǎng)絡在基于WiFi的室內(nèi)LBS應用
      基于支持向量機回歸和RBF神經(jīng)網(wǎng)絡的PID整定
      荣成市| 乌恰县| 岳西县| 苍梧县| 进贤县| 高唐县| 寿阳县| 察隅县| 石阡县| 迁西县| 婺源县| 青川县| 阿克苏市| 庐江县| 三河市| 嫩江县| 株洲市| 淄博市| 利辛县| 屏边| 海兴县| 盱眙县| 泰顺县| 常德市| 肇庆市| 阿巴嘎旗| 曲靖市| 喀什市| 濮阳县| 垫江县| 延安市| 溧水县| 漯河市| 丹凤县| 蒙阴县| 明溪县| 襄汾县| 台前县| 宣化县| 丰县| 安吉县|