• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      優(yōu)化卷積網(wǎng)絡(luò)及低分辨率熱成像的夜間人車檢測與識別

      2020-07-28 06:32:18于龍姣李春庚安居白
      紅外技術(shù) 2020年7期
      關(guān)鍵詞:攝像機卷積特征

      于龍姣,于 博,李春庚,安居白

      (大連海事大學(xué) 信息科學(xué)技術(shù)學(xué)院,遼寧 大連 116026)

      0 引言

      夜間環(huán)境下的人車檢測與識別一直是計算機視覺領(lǐng)域中一項非常重要的研究工作。2018年Uber 無人車發(fā)生撞人事故,當?shù)鼐炀珠LSylvia Moir 透露:“在觀看過車載錄像之后,我們發(fā)現(xiàn)無論處于哪種模式(自動駕駛模式或人工駕駛模式),本次碰撞都難以避免,因為受害人是從暗處突然闖入機動車道的?!闭{(diào)查報告顯示在撞擊發(fā)生的前6s,激光雷達的決策過程發(fā)生了誤判,而可見光攝像機由于處在黑暗環(huán)境中,無法檢測到行人,也沒有發(fā)揮任何警示作用[1]。在現(xiàn)有的夜間安防監(jiān)控中,大部分的紅外攝像機,受光照條件和照射距離的影響,極易產(chǎn)生噪聲及過度曝光的問題,導(dǎo)致不能及時發(fā)現(xiàn)可疑人員和車輛。因此,在夜間環(huán)境中尋找一種有效檢測與識別人車的途徑顯得尤為重要。本文所使用的是紅外熱成像攝像機拍攝的圖像[2],其不同于紅外攝像機。紅外攝像機使用不加裝紅外線過濾片的鏡頭,并利用紅外LED 點陣發(fā)射出的近紅外光源照射來呈現(xiàn)出圖像。紅外熱成像攝像機又稱熱像儀,其原理為通過鏡頭鏡片材質(zhì)選擇過濾掉絕大多數(shù)的光線,只允許較窄取值范圍的遠紅外自發(fā)光照射到攝像機傳感器從而達到成像效果[3]。熱成像攝像機不受外界光照條件影響,只取決于物體本身的熱量大小,因此可在夜間環(huán)境下拍攝到人體、車輛等自身可以散發(fā)出熱量的目標,不會像紅外攝像機那樣將很多細節(jié)呈現(xiàn)出來,這一定程度上減小了初始圖像的噪聲,熱成像攝像機還具有探視距離較遠的優(yōu)點。上述3 種攝像機的參數(shù)已在表1 列出。經(jīng)過綜合考慮,采用熱成像攝像機進行夜間人車的檢測與識別在自動駕駛、安防等領(lǐng)域中具有良好的應(yīng)用前景。

      圖1 的3 幅圖像是用不同相機對同一街景的拍攝效果。在(a)圖像中,使用可見光攝像機拍攝,即使有路燈照射,可我們幾乎看不到遠處有行人出現(xiàn)。在(b)圖像中,使用紅外攝像機拍攝,畫面大致可以看出存在行人與車輛,但是受路燈等其他光照影響,產(chǎn)生了光斑噪聲,這會影響系統(tǒng)的判斷。在(c)圖像中使用熱成像攝像機拍攝,可以觀察到近處的車輛和較遠處的行人,因不受環(huán)境光照等影響,圖像噪聲較少。

      1 檢測與深度學(xué)習(xí)

      近些年來,一些專家學(xué)者們也對夜間黑暗環(huán)境下物體的檢測與識別進行了研究。Urban Meis 使用基于統(tǒng)計分類器的像素點、區(qū)域的分割算法和多項式分類器來檢測和分類熱成像圖像中的對象。第一個分類器找到有潛在對象的感興趣區(qū)域,基于區(qū)域的分割算法用于重新分割這些ROI(Region Of Interest),二次多項式分類器確定對象的類型,重新分類模塊進行最終檢測正確與分類錯誤的改進[4]。Yunyun Cao 提出了一種改進的局部二值模式(Local Binary Pattern)特征提取方法,用于夜間黑暗環(huán)境下的行人檢測,方法是:①利用幅度分量對LBP 碼進行加權(quán);②使用多分辨率降低噪聲的影響;③利用多尺度信息來獲得灰度模式的更多共現(xiàn)信息。該方法可以克服部分夜間黑暗環(huán)境中低對比度、圖像模糊和圖像噪聲的問題[5]。Thou-Ho (Chao-Ho) Chen 利用顏色變化和前燈信息的特征來實現(xiàn)夜間交通場景中的車輛分割。從初始物體掩模中盡可能地減少地面的照明來獲得較好的結(jié)果。使用前燈信息實現(xiàn)車輛流量的統(tǒng)計,而不是使用整個車身。實驗結(jié)果表明,在中等車流量的條件下,駕駛員通常會在黑暗環(huán)境中打開大燈,此時便可以檢測到車輛[6]。

      近幾年隨著人工智能的火熱,深度學(xué)習(xí)越來越多地用于計算機視覺領(lǐng)域,深度學(xué)習(xí)通過組合低層特征形成更加抽象的高層來表示屬性類別或特征,以發(fā)現(xiàn)數(shù)據(jù)的分布式特征表示,繼而學(xué)習(xí)樣本數(shù)據(jù)的內(nèi)在規(guī)律和表示層次。因此采用深度卷積神經(jīng)網(wǎng)絡(luò)來進行圖像的檢測與識別可以取得非常好的效果[7]。經(jīng)過RCNN(Regions with CNN)[8]和Fast RCNN[9]的積淀,Ross B.Girshick 在 2016年提出了新的 Faster RCNN[10]。Faster RCNN 在結(jié)構(gòu)上已經(jīng)將特征抽?。╢eature extraction),建議框的生成(proposalgenerate),邊框回歸( bounding box regression )和分類(classification)都整合在了一個網(wǎng)絡(luò)中,綜合性能有了較大提高,在檢測精度和運行速度上也優(yōu)于前兩種方式,因此很多目標檢測識別算法都紛紛開始針對自己的數(shù)據(jù)集對Faster RCNN 算法進行優(yōu)化改進。吳曉鳳提出基于Faster R-CNN 的手勢識別算法。首先修改Faster R-CNN 框架的關(guān)鍵參數(shù),達到同時檢測和識別手勢的目的,然后提出擾動交疊率算法,避免訓(xùn)練模型的過擬合問題,進一步提高識別準確率[11]。由于本文使用的為熱成像圖像,較普通可見光圖像有其獨特的性質(zhì)與屬性,我們針對這些特性在檢測網(wǎng)絡(luò)上做了更好的優(yōu)化,來提高檢測的精度。首先在基礎(chǔ)的特征提取網(wǎng)絡(luò)層后面加入了多通道的優(yōu)化卷積核技術(shù),來適應(yīng)熱成像圖像的灰度及尺度特性。然后使用全局平均池化層代替了原有的3 個全連接層,這使得網(wǎng)絡(luò)的參數(shù)值大大減少,不僅提升了網(wǎng)絡(luò)的計算性能,而且非常適合本文的少類別分類設(shè)置,同時有效地避免了過擬合的發(fā)生。最后,在特征提取卷積層的激活層前加入了批標準化(Batch Normalization)層,使得每個特征提取層都可以很好的控制數(shù)據(jù)的分布形態(tài),防止反向傳播時可能出現(xiàn)的梯度消失或爆炸,加快了網(wǎng)絡(luò)的收斂速度。經(jīng)過大量實驗的驗證,本文提出的算法與熱成像技術(shù)的組合可有效地檢測到夜間環(huán)境下的人車,在精度和速度上都有較好的表現(xiàn),為計算機視覺領(lǐng)域夜間黑暗環(huán)境中的人車檢測與識別提供了一種全新的參考方法。

      表1 可見光、紅外、熱成像攝像機屬性參數(shù)對照表Table 1 Table of visible, infrared, thermal imaging camera property parameters comparison

      圖1 不同攝像機拍攝圖像對比Fig.1 Comparison of images taken by different cameras

      2 優(yōu)化的卷積網(wǎng)絡(luò)

      本文在Faster RCNN 的基礎(chǔ)上,針對熱成像人車的檢測與識別從如下3 個方面做了優(yōu)化,我們稱之為FIR (Far Infrared) Faster RCNN。

      2.1 多通道的優(yōu)化卷積核模型

      卷積神經(jīng)網(wǎng)絡(luò)大多數(shù)被用于尋找圖像的深度特征[12],F(xiàn)aster RCNN 首先使用卷積網(wǎng)絡(luò)提取圖像的特征圖,該特征圖被共享用于后續(xù)RPN(Region Proposal Network)層和ROI Pooling 層。

      在通常狀況下,卷積運算是對兩個函數(shù)的一種數(shù)學(xué)運算,即:

      式中:x為輸入函數(shù);w稱為核函數(shù);s為輸出函數(shù);t為當前時刻;a為時間段中的某時刻。在涉及到圖片和文本等數(shù)據(jù)時,由于數(shù)據(jù)是離散的,所以時刻t需要取整數(shù)值,即離散形式的卷積運算為:

      對于本文的圖像來說,輸入的是一個二維數(shù)組I,核函數(shù)也是一個二維數(shù)組K,所以卷積公式為:

      由于熱成像圖像在最終處理時已經(jīng)去掉了顏色信息,只使用灰度值的大小來表示圖像中不同的目標,所以輸入圖像在一定程度上損失了空間的顏色信息,且使用的低分辨率圖像在目標的細節(jié)輪廓特征上也有所缺失,繼而卷積過程中的w參數(shù)學(xué)習(xí)也隨之減少。因此我們需要學(xué)習(xí)更多的尺度大小信息來提升識別的準確率[13]。通常我們會再次加深網(wǎng)絡(luò)來尋找更深層次的特征屬性,但更深的模型意味著需要更多的參數(shù),計算資源的消耗開始增加,模型也比較容易出現(xiàn)過擬合,因此盲目的增加模型的深度可能會適得其反。2014年,Google Net 提出了使用Inception 模塊[14],它的目的是設(shè)計一種具有高性能的局部拓撲結(jié)構(gòu)網(wǎng)絡(luò),目的是對輸入圖像并列的執(zhí)行多個卷積運算和池化操作,最終將所有輸出結(jié)果結(jié)合為某一層的特征圖。其使用3 個不同大小的濾波器(1×1、3×3、5×5)對輸入進行卷積,此外還會執(zhí)行最大池化操作。最終各個層的輸出被合并起來,再傳遞至下一個Inception 模塊。在之后的V2 和V3 版本中[15],作者為了減少特征的表征性瓶頸,又將5×5 的卷積分解為兩個3×3 的卷積運算來提高運行速度。一個5×5的卷積核在消耗成本上是一個3×3 卷積的2.78 倍。因此這種改變在性能上會有所提升。此后又提出將n×n的卷積核尺寸分解為1×n和n×1 兩個卷積。例如,一個3×3 的卷積核相當于先執(zhí)行一個1×3 的卷積核,然后再執(zhí)行3×1 的卷積核。同時還發(fā)現(xiàn)這種方法在成本上比使用單個3×3 的卷積核降低了33%。

      本文為了在加深網(wǎng)絡(luò)深度的同時可以獲得更多尺度上的目標屬性,使用了3 種不同的卷積核來對應(yīng)不同的感受野,幫助提升熱成像圖像的檢測精度與效率,我們稱作多尺度模塊(Multi-Scale module,MSM)。1×1 卷積核只有一個參數(shù),對應(yīng)到特征圖上就是對每一個像素點進行遍歷,這樣可以對特征圖的細節(jié)學(xué)習(xí)的更加透徹。1×3 和3×1 卷積核的加入使得網(wǎng)絡(luò)不再僅是一直加深,而且加寬了網(wǎng)絡(luò),讓網(wǎng)絡(luò)對尺度的適應(yīng)性更強。據(jù)此我們在VGG16 網(wǎng)絡(luò)的基礎(chǔ)上修改了它的第四與第五卷積層,分別在這兩個卷積層的3個分卷積層之后增加了1×1,1×3 與3×1。經(jīng)多次試驗驗證,對于本文的熱成像圖像來說,由于尺度的大小是特征提取的重要因素,若使用與Inception 結(jié)構(gòu)相同的卷積塊,特征提取的效果略顯不足,所以我們開創(chuàng)性的使用了7×7 的卷積核,并用1×3 和3×1的卷積核組合成5×5 的卷積核大小,將這幾種卷積核組合為卷積塊,在提取出不同尺度的特征后,合并輸出,最終進行最大池化操作,送入下一個卷積層。相比于VGG16[16]加深了網(wǎng)絡(luò),比VGG19 又加寬了網(wǎng)絡(luò),同時提升了感受野的尺度。這種優(yōu)化使得網(wǎng)絡(luò)需要學(xué)習(xí)的權(quán)重數(shù)量大幅下降,訓(xùn)練時間也有了一定程度的縮短。圖2 為優(yōu)化后網(wǎng)絡(luò)的結(jié)構(gòu)模型。

      圖2 FIR Faster RCNN 示意圖Fig.2 Schematic diagram of the FIR Faster RCNN

      2.2 全局平均池化層的使用

      在現(xiàn)有的很多基于卷積神經(jīng)網(wǎng)絡(luò)的檢測分類網(wǎng)絡(luò)中,都會將最后一個卷積層得到的映射特征矢量化,然后加上全連接層來接入Softmax 層進行邏輯回歸分類。這種設(shè)計很好地將卷積層結(jié)構(gòu)和傳統(tǒng)的神經(jīng)網(wǎng)絡(luò)分類器結(jié)合起來,將卷積神經(jīng)網(wǎng)絡(luò)作為一種特征提取器,然后將得到的特征(x1~xn)使用式(4)(5)(6)的傳統(tǒng)方式對其進行分類:

      式中:w為參數(shù)權(quán)重值;b為偏置項。

      再通過鏈式法則求得loss 對xk的偏導(dǎo)數(shù):

      由于網(wǎng)絡(luò)隱藏層中有許多我們無法解讀的數(shù)據(jù)分布,有時設(shè)計幾個全連接層可以提升卷積神經(jīng)網(wǎng)絡(luò)的分類性能,因此全連接層經(jīng)常會被用在神經(jīng)網(wǎng)絡(luò)的末端,F(xiàn)aster RCNN 算法也不例外。但是上述運算容易發(fā)生過擬合,使得網(wǎng)絡(luò)的泛化能力不足[17],且參數(shù)量過大,每層全連接都有4096 個神經(jīng)單元,特別是與最后ROI Pooling 層相連的全連接層。這大大降低了網(wǎng)絡(luò)的運行效率。在Network In Network 一文中[18],作者提出使用全局平均池化,其做法是針對每一個類別,都從特征提取層的最后一個卷積層中生成一個對應(yīng)的特征圖,然后對特征圖上的所有點求得均值,最后將這些點直接連接到Softmax 分類器上,代替了原來使用卷積層的特征點連接到全連接層后再連接至Softmax 的做法。首先,這種結(jié)構(gòu)使得特征圖和分類器在卷積結(jié)構(gòu)層面有著更強的連接響應(yīng),因此特征圖可以很好地被解釋成為分類置信度圖。其次,由于這種做法不會使用到任何新的參數(shù),因此不需要對參數(shù)進行優(yōu)化,同時避免了過擬合的發(fā)生。此外,全局平均池化層對空間域的特征整合較好,在理解輸入特征的空間特征時具有很好的魯棒性。

      對于本文設(shè)計的多通道網(wǎng)絡(luò)模型來說,特征提取的誤差主要來自兩個方面:①感受野大小的變化造成的估計值方差變大;②卷積層參數(shù)誤差造成估計均值的偏移。因此我們選擇使用全局平均池化層(Global-Average-Pooling,實驗中簡稱GAP)來代替全連接層,來適應(yīng)我們的小樣本低分辨率熱成像圖像。池化的結(jié)果使得最終得到的特征圖被優(yōu)化為一個分類置信度,使用得到的置信度神經(jīng)單元連接到只有3 類(含背景)的Softmax 分類器上。上述操作可以對整個網(wǎng)絡(luò)在結(jié)構(gòu)上做正則化防止過擬合,去掉了無法理解的隱藏神經(jīng)元的信息,直接賦予了每個通道實際的內(nèi)在意義。此外還有效地保持了旋轉(zhuǎn)、平移、伸縮的不變性,同時提高了訓(xùn)練速度。

      2.3 批標準化層的使用

      全連接層被代替后,大部分需要優(yōu)化的權(quán)值參數(shù)都集中在了前半部分的特征提取層部分。由于我們的網(wǎng)絡(luò)在設(shè)計時進行了加深與加寬,而深層神經(jīng)網(wǎng)絡(luò)在進行非線性變換前的激活輸入值x1(a1=ω1x1+b1)隨著網(wǎng)絡(luò)深度的加深,在訓(xùn)練過程中其概率分布逐漸發(fā)生偏移和端化。也就是整體分布逐漸向非線性函數(shù)取值區(qū)間的上下限兩端慢慢逼近(對于Sigmoid 激活函數(shù)來說,意味著激活輸入值x1會向0 或1 值靠近)。因此導(dǎo)致了反向傳播時低層神經(jīng)網(wǎng)絡(luò)的梯度消失或爆炸,從而使深層神經(jīng)網(wǎng)絡(luò)訓(xùn)練時收斂越來越慢。而批標準化層[19](Batch-Normalization layer,實驗中簡稱BNL)就是通過一定的規(guī)范化手段,將每層神經(jīng)網(wǎng)絡(luò)任意神經(jīng)元的權(quán)重值分布強行拉回到均值為0 方差為1 的標準正態(tài)分布上,也就是將權(quán)重從逐漸偏離的數(shù)據(jù)分布強制拉回到比較標準的分布,這樣使得激活輸入值可以落在非線性函數(shù)對輸入比較敏感的區(qū)域。此時參數(shù)上較小的變化,便能在損失函數(shù)上體現(xiàn)出較大的變化。從而使梯度變大,避免梯度消失或爆炸的問題產(chǎn)生,而且梯度變大意味著學(xué)習(xí)收斂速度快,能有效地提升訓(xùn)練速度。具體過程如下:

      先對小批量送入網(wǎng)絡(luò)訓(xùn)練的d維參數(shù)x=(x(1)…x(d))進行單獨標準化,使其具有零均值和單位方差。

      式中:E為求取其均值;Var 為求取其方差。

      然后要確保插入到網(wǎng)絡(luò)中的變換可以表示恒等變換。因此對于每一個激活X(k),都會引入成對的參數(shù)γ(k)和β(k),它們會歸一化和標準化輸入值。即:

      因此首先根據(jù)式(12)求出輸入值的均值,然后根據(jù)式(13)求出輸入值的方差,根據(jù)式(14)將輸入值標準化后,訓(xùn)練參數(shù)γ(k)和β(k)的值,最終使其成為一個批標準化的恒等映射。

      式中:xi為輸入?yún)?shù);μB為其均值;σB2為其方差;ε為偏置項;yi為最終輸出;BN 為批標準化操作。

      在將批標準化層加入我們設(shè)計的網(wǎng)絡(luò)實驗時發(fā)現(xiàn),根據(jù)式(16)~(21)的鏈式法則進行反向傳播計算損失值時,若將其加在特征網(wǎng)絡(luò)基本層的所有卷積層后,網(wǎng)絡(luò)雖能有效地快速收斂,但在測試的準確率上卻沒有突出的表現(xiàn)。經(jīng)研究發(fā)現(xiàn),由于原有基本特征提取層的訓(xùn)練值使用的為預(yù)訓(xùn)練模型的參數(shù)值,在數(shù)據(jù)初始分布上已經(jīng)有了比較好的標準化,再次進行本操作意義不大,且可能對數(shù)據(jù)分布產(chǎn)生噪聲影響。因此我們修改為只在優(yōu)化后加深與加寬的多通道網(wǎng)絡(luò)上使用批標準化功能。此時,訓(xùn)練后的梯度分布便可以較好地反映到需要調(diào)整參數(shù)較多的多通道卷積層中,同時也不會影響到原有預(yù)訓(xùn)練網(wǎng)絡(luò)模型的參數(shù)分布。

      3 實驗準備與結(jié)果分析

      3.1 實驗圖像的采集及預(yù)處理

      本文使用FLIR One Pro3 熱成像攝像機進行圖像的采集,選擇3 種典型的夜間場景:①明亮處,一般在城市中心或者活動廣場,行人與車輛較多,光照效果好。②明暗交替處,大部分公路、街道等區(qū)域都處在這種環(huán)境,有路燈照射,但光照區(qū)域覆蓋不全,此種場景行人與車輛數(shù)量適中。③黑暗處,無光源照射的街道馬路,關(guān)閉的商場商店,鄉(xiāng)村小路以及燈光昏暗的行人步道等,這些場景的行人與車輛一般較少。在這些場景中共采集了6 段視頻,每段視頻半小時,使用平均時間間隔的方法,每5 s 從視頻中截圖一次,抽取了2000 張圖像制作成數(shù)據(jù)集,數(shù)據(jù)集文件夾形式和公共數(shù)據(jù)集VOC 相同[20],使用labelImg 工具進行圖像的標注并自動生成.xml 文件,標注的類別為人與車輛(person,vehicle)。

      由于本文使用的為低分辨率圖像,在場景①下,可能會因為目標出現(xiàn)較多導(dǎo)致目標輪廓不清晰,這對圖像標注的準確度造成影響。考慮到在有光源照射處可見光攝像機還會捕捉到一些圖像信息,本文提出了運用可見光攝像機拍攝到的圖像進行邊緣檢測,然后將熱成像圖像和進行邊緣檢測后的圖像進行融合,在融合圖像上做標記,最后將位置與分類信息存入文件,有效解決了標記困難的問題,從而為低分辨率圖像的訓(xùn)練任務(wù)提供了先行條件。下面詳細介紹一下融合方法中涉及到的圖像處理過程。

      3.1.1 可見光圖像的邊緣檢測

      在處理過程中,若使用可見光圖像直接進行融合,融合后的圖像會有更多的噪聲導(dǎo)致無法標記。所以本文提出對可見光圖像進行邊緣檢測,然后融合到熱成像圖像上的方法,有效地在熱成像圖像上呈現(xiàn)出了清晰的目標輪廓。圖3 列出了常用的3 種邊緣檢測算法在本文圖像上的效果。通過對比,Sobel 對人物及車輛產(chǎn)生較好的邊緣檢測效果,同時,由于其引入了局部平均,使其受噪聲的影響也較小,效果好。Laplace 對噪聲具有無法接受的敏感性,檢測效果不好。Canny 是目前理論上相對最完善的一種邊緣檢測算法,但在檢測人物與車輛細節(jié)上有一些缺失,效果較好,但細節(jié)不如Sobel。綜上所述,我們最后選擇Sobel 邊緣檢測算法來進行圖像融合。

      3.1.2 圖像融合標記

      首先找到肉眼無法分辨輪廓或類別的熱成像圖像,根據(jù)名稱對應(yīng)找到可見光攝像機拍攝的圖像。使用可見光圖像進行Sobel 邊緣檢測得到邊緣檢測圖,因為兩個攝像機在同時拍攝時的物理位置上有一定距離,所以在融合前需要找到一個合適的偏移量,然后根據(jù)此參數(shù)對圖像進行位置偏移。由于熱成像攝像機和可見光攝像機的物理距離是固定的,所以找到此參數(shù)后便可反復(fù)使用。將偏移好的邊緣檢測圖像與成像不清晰的熱成像圖像進行疊加融合,便可得到較清晰的融合圖像。在融合時,使用邊緣檢測圖像進行左右移動來匹配熱成像圖像,成功匹配后進行標記,由于熱成像圖像和融合圖像的大小與人車的相對位置都已對應(yīng),所以可將分類與位置信息直接存入.xml 文件。

      在圖4(a)中,購物廣場的環(huán)境光照較充足,可見光攝像機能捕捉到一些圖像信息,可用來輔助熱成像圖像的標注工作。(b)中因行人較多,在熱成像圖像中會有重疊和模糊現(xiàn)象的存在,導(dǎo)致看不清到底有幾個人。(c)中因為兩個攝像機在安裝時會有物理上的距離,將邊緣檢測后的可見光圖像和熱成像圖像融合后,出現(xiàn)了位置不對應(yīng)的情況,比如圖中圈出人的輪廓與實際位置不對應(yīng)。(d)中經(jīng)過偏移融合后,我們可以清晰地看出圖像中每個目標的輪廓,圈中人的位置也可以正確對應(yīng),大大提高了圖像標注的準確度與效率。

      圖3 常用邊緣檢測算法對比Fig.3 Comparison of common edge detection algorithms

      圖4 不同形式的圖像對比Fig.4 Comparison of different forms of images

      3.2 測試環(huán)境及訓(xùn)練參數(shù)設(shè)置

      本文使用一塊Nvidia GTX1080Ti 11G 顯存的GPU 進行實驗,實驗環(huán)境為Ubuntu16.04+Cuda8.0+Cudnn5.1+TensorFlow1.2.0。數(shù)據(jù)集共有2000 張圖像,采用平均隨機分布的方法從中抽取1400 張圖像作為訓(xùn)練集,從剩下的600張中用相同的方法抽取200張圖像作為測試集,剩余400 張為驗證集。經(jīng)多次實驗,在訓(xùn)練40000 次后loss 值基本穩(wěn)定收斂,故將訓(xùn)練的次數(shù)設(shè)置為40000,學(xué)習(xí)率開始設(shè)置為0.005,隨后每10000 次衰減50%。圖像大小固定尺寸至1440×1080。BN 層的decay 參數(shù)設(shè)置為0.9,將基礎(chǔ)特征網(wǎng)絡(luò)的前兩層is training 設(shè)置為False。

      3.3 結(jié)果分析

      首先驗證熱成像方法的有效性,在測試時,對于可見光圖像使用Faster RCNN 網(wǎng)絡(luò)(VGG16)進行測試,對于熱成像圖像,使用FIR Faster RCNN 網(wǎng)絡(luò)測試,測試圖像均為同一場景下使用不同攝像機拍攝的,且未被訓(xùn)練。根據(jù)圖5 的檢測效果來看,本文提出的網(wǎng)絡(luò)在熱成像圖像中可有效地檢測與識別人車目標,且在類似場景(3)的環(huán)境下,檢測效果顯著優(yōu)于可見光圖像。

      圖5 檢測效果對比圖Fig.5 Comparison of inspection results

      其次驗證優(yōu)化后網(wǎng)絡(luò)的可靠性,圖6 所示的依據(jù)Tensor Board 統(tǒng)計數(shù)值畫出的曲線我們可以得到,在訓(xùn)練的過程中,本文提出的優(yōu)化網(wǎng)絡(luò)最終的總體損失終值為0.11,各個參數(shù)的損失值都可以隨著訓(xùn)練次數(shù)的增加而逐漸收斂到一個穩(wěn)定的數(shù)值。表2 的數(shù)據(jù)說明了本文引入與設(shè)計的各個模塊對于模型最終結(jié)果的影響程度。多通道卷積核有效提升了模型的預(yù)測精度;對于本文的小樣本數(shù)據(jù)集,全局平均池化可顯著優(yōu)化模型的過擬合能力;批標準化的使用使得模型可以快速收斂并得到模型的最優(yōu)結(jié)果。圖5 中,本文方法可較好地檢測出目標,邊框回歸位置也比較精準,特別是在少樣本的車類別檢測與識別中,相對其他兩種網(wǎng)絡(luò)表現(xiàn)較好。

      圖6 網(wǎng)絡(luò)訓(xùn)練總體收斂曲線對比Fig.6 Network training overall convergence curves comparison

      表2 各模塊性能對比Table 2 Performance comparison of each module

      3.4 評價指標

      使用平均精確度(Average Precision)指標來對所有測試集圖像進行分析。針對數(shù)據(jù)集D和學(xué)習(xí)器f而言:

      1)錯誤率:分類錯誤的樣本數(shù)占總樣本的比例,即:

      2)精度:分類正確的樣本數(shù)占總樣本的比例,即:

      對于本文的檢測類別(人)來說,在測試集中的一張圖像里,精確度(Precision)=此圖像識別正確的人的數(shù)量/此圖像標簽中人的總數(shù)。平均精確度=對含有人的圖像精確度求和/含有人的圖像總數(shù)??傮w平均精確度(mean Average Precision)=對人和車的平均精確度求和/2。最后在自制的數(shù)據(jù)集上使用兩種方法分別進行測試。

      表2 和表3 的數(shù)值可以量化分析識別的準確率,驗證網(wǎng)絡(luò)的識別效果。根據(jù)表中數(shù)據(jù)我們可以看出本文方法在平均準確度上高于VGG16 及VGG19。VGG19 雖然在人的識別準確率上較高,但其受小樣本目標分布不均衡的影響較大,在車的分類準確率上表現(xiàn)不佳,不具有泛化能力。最終上述各項指標的結(jié)果證明了本文網(wǎng)絡(luò)設(shè)計方案的可行性及泛化能力。

      從圖5 和表3、4 中可以看出,本文設(shè)計的優(yōu)化網(wǎng)絡(luò)較先前方法可較好地檢測出目標行人,但由于數(shù)據(jù)圖像的分辨率較低,部分與人體溫度接近的背景目標與人體邊界處并不能有效地在圖像中呈現(xiàn),導(dǎo)致目標回歸框的定位仍有偏差。場景①中由于行人目標較小,存在漏檢的情況。針對上述問題,在下一步的研究工作中,考慮設(shè)計一種基于深度學(xué)習(xí)的顯著圖融合模型來增強遠紅外圖像中的行人目標,并嘗試使用超分辨率網(wǎng)絡(luò)來對低分辨率的熱成像數(shù)據(jù)進行分辨率增強,使其盡可能的被銳化,提升對于小目標行人的檢測識別率。同時在我們研究的過程中,其他機構(gòu)也發(fā)布了一些分辨率較高的熱成像圖像,我們會在此基礎(chǔ)上繼續(xù)深入的研究。

      表3 類別AP 值Table 3 Class AP Values

      表4 mAP 值及效率Table 4 mAP values and detection times

      4 結(jié)論與展望

      針對傳統(tǒng)方法在夜間環(huán)境下人車檢測與識別效果不佳的情況,本文提出了使用小樣本低分辨率熱成像圖像和優(yōu)化卷積網(wǎng)絡(luò)組合的方式來提升檢測與識別的精度。分別在明亮,明暗交替和黑暗3 種典型的夜間場景進行了實驗。根據(jù)實驗結(jié)果顯示,優(yōu)化后的網(wǎng)絡(luò)可以較好地檢測到物體并準確分類,實際效果明顯優(yōu)于可見光圖像。在之后的工作中,我們也會繼續(xù)尋找優(yōu)化方法來提升識別準確率,助力熱成像技術(shù)在計算機視覺領(lǐng)域里的普及。綜上所述,使用小樣本低分辨率紅外熱成像圖像和優(yōu)化卷積神經(jīng)網(wǎng)絡(luò)來進行夜間環(huán)境下的人車檢測與識別取得了良好的效果,在自動駕駛和安防等領(lǐng)域具有較高的普適性和實用價值。

      猜你喜歡
      攝像機卷積特征
      基于3D-Winograd的快速卷積算法設(shè)計及FPGA實現(xiàn)
      如何表達“特征”
      從濾波器理解卷積
      電子制作(2019年11期)2019-07-04 00:34:38
      不忠誠的四個特征
      當代陜西(2019年10期)2019-06-03 10:12:04
      基于傅里葉域卷積表示的目標跟蹤算法
      看監(jiān)控攝像機的4K之道
      抓住特征巧觀察
      攝像機低照成像的前世今生
      新安訊士Q6155-E PTZ攝像機
      如何消除和緩解“攝像機恐懼癥”
      新聞前哨(2015年2期)2015-03-11 19:29:25
      承德县| 象州县| 武定县| 称多县| 许昌市| 沅陵县| 灌南县| 栖霞市| 甘孜县| 舞阳县| 从化市| 宁乡县| 昆明市| 西乌珠穆沁旗| 淅川县| 岳西县| 贵德县| 东莞市| 辽阳县| 布尔津县| 南丰县| 镇赉县| 凤山市| 阿克苏市| 乡城县| 宁陵县| 云梦县| 汽车| 阳原县| 饶河县| 调兵山市| 贡觉县| 望江县| 文山县| 晋城| 锡林浩特市| 板桥市| 乌兰浩特市| 资中县| 广南县| 团风县|