邢惠鈞,昌碩
(1.北京師范大學(xué)第二附屬中學(xué),北京 100088;2.北京郵電大學(xué),北京 100876)
基于移動(dòng)小車的行人監(jiān)控系統(tǒng)
邢惠鈞1,昌碩2
(1.北京師范大學(xué)第二附屬中學(xué),北京 100088;2.北京郵電大學(xué),北京 100876)
行人監(jiān)控屬于監(jiān)控系統(tǒng)中比較重要的一個(gè)方面。傳統(tǒng)的行人監(jiān)控手段存在監(jiān)控區(qū)域受限的問題,即監(jiān)控設(shè)備一旦安裝后,只能監(jiān)控固定的區(qū)域,目前仍然需要人工判別監(jiān)控畫面中是否有行人。針對這個(gè)問題,設(shè)計(jì)了基于計(jì)算機(jī)視覺的移動(dòng)行人監(jiān)控系統(tǒng)。通過操控搭載了監(jiān)控?cái)z像頭的移動(dòng)小車,實(shí)現(xiàn)監(jiān)控區(qū)域的自由切換。另外,配合成熟的深度卷積神經(jīng)網(wǎng)絡(luò)算法和相關(guān)濾波器,實(shí)現(xiàn)了監(jiān)控畫面中行人的自主識別、定位。最后對該系統(tǒng)進(jìn)行了實(shí)地測試,驗(yàn)證了行人監(jiān)控系統(tǒng)的可行性。
計(jì)算機(jī)視覺;行人監(jiān)控;移動(dòng)小車;深度卷積神經(jīng)網(wǎng)絡(luò);相關(guān)濾波器
行人監(jiān)控屬于監(jiān)控系統(tǒng)比較重要的一個(gè)方面,行人監(jiān)控的主要目標(biāo)是實(shí)時(shí)地識別、定位監(jiān)控視頻序列中的行人。傳統(tǒng)的基于攝像頭的監(jiān)控系統(tǒng)僅僅提供了被監(jiān)控場景的圖像信息,監(jiān)控系統(tǒng)并不能告知圖像畫面中是否有人以及畫面中行人的實(shí)時(shí)位置信息。Dalal等人[1]提出了HOG(histogram of oriented gradients)檢測方法,并利用SVM(support vector machine,支持向量機(jī))[2]對該特征基于人體進(jìn)行分類。工業(yè)界隨之將這套人體檢測算法用于行人的監(jiān)控,以減輕安防人員的工作負(fù)擔(dān)。但該種行人檢測方式只適用于背景比較干凈,同時(shí)圖像內(nèi)的人體無遮擋的情景。對于復(fù)雜多變的監(jiān)控環(huán)境,該算法的泛化性并不好,行人檢測的準(zhǔn)確率下降明顯,誤檢率、漏檢率都非常高,未能大規(guī)模地普及。
基于深度卷積神經(jīng)網(wǎng)絡(luò)的人體識別算法是近幾年最熱門的研究領(lǐng)域之一[3-5],基于該種方式的識別算法大大地提高了復(fù)雜場景下人體的識別精度。Ouyang等人[6]使用深度學(xué)習(xí)的方法聯(lián)合訓(xùn)練了特征提取、可變?nèi)梭w模型、遮擋模型以及人體分類器這4種以往需要分開考慮的問題。Luo等人[7]提出了SRBM(switchable restricted Boltzmann machine,可切換的受限玻爾茲曼機(jī))去解決復(fù)雜背景下不同姿態(tài)的人體,該算法聯(lián)合學(xué)習(xí)了人體的層級信息和特征圖,將人體分為頭部、軀干、腿3部分分別進(jìn)行識別。Sermanet等人[8]提出了使用離散自編碼器的非監(jiān)督學(xué)習(xí)去預(yù)訓(xùn)練一個(gè)針對行人檢測的CNN(convolutional neural network,卷積神經(jīng)網(wǎng)絡(luò))。Li等人[9]最近提出了具有尺度感知的基于fast R-CNN(region with convolutional neural network)的行人檢測模型,該模型分別針對大尺度行人和小尺度行人構(gòu)建了子神經(jīng)網(wǎng)絡(luò)用于加權(quán)識別,由于針對不同尺度有明確的子模型進(jìn)行識別,提高了小物體的檢測準(zhǔn)確率。針對fast R-CNN檢測過程耗時(shí)這個(gè)缺點(diǎn),Ren等人[10]通過設(shè)計(jì)RPN(region proposal network)來替代 fast R-CNN中選擇性搜索(selective search)過程,有效降低了行人候選區(qū)域的生成時(shí)間,提高了模型的檢測效率。
但是目前開源的faster R-CNN模型,更多的是針對多類目標(biāo)的檢測,其中人體數(shù)據(jù)集只占訓(xùn)練數(shù)據(jù)集的一部分,而模型的檢測效果很大程度上與訓(xùn)練該模型所用的數(shù)據(jù)集規(guī)模有關(guān)。針對此種情況,本文基于faster R-CNN算法,利用 Caltech Pedestrian Detection Benchmark[11]數(shù)據(jù)庫微調(diào)了該模型,使網(wǎng)絡(luò)提取的特征對行人具有更好的表征能力,在測試集上相較于傳統(tǒng)視頻監(jiān)控所采取的HOG+ SVM行人檢測方法,顯著降低了行人的誤識別率。對于本文的監(jiān)控系統(tǒng)來說,完全依賴于該檢測算法是不能滿足監(jiān)控的實(shí)時(shí)性要求的,系統(tǒng)的攝像頭采集幀頻率為 10 f/s(幀每秒),而基于 faster R-CNN的行人檢測模型處理一幀圖片的平均耗時(shí)為0.26 s。為了解決這個(gè)問題,本文在監(jiān)控系統(tǒng)中引入了基于相關(guān)濾波的跟蹤算法 (處理速度大于攝像頭采集幀頻率的兩倍)[12],并將其與檢測算法融合,通過降低檢測算法的檢測頻率,滿足監(jiān)控系統(tǒng)的實(shí)時(shí)性要求。
整個(gè)行人監(jiān)控系統(tǒng)主要由五大部分組成,包括:移動(dòng)小車數(shù)據(jù)采集模塊、無線數(shù)據(jù)傳輸模塊、圖像處理模塊、運(yùn)動(dòng)控制模塊、客戶端顯示模塊。各個(gè)模塊之間的協(xié)作關(guān)系如圖1所示。
2.1 移動(dòng)小車數(shù)據(jù)采集模塊
移動(dòng)小車數(shù)據(jù)采集模塊主要由監(jiān)控?cái)z像頭、攝像頭云臺、云臺控制系統(tǒng)、小車、小車控制系統(tǒng)和供電系統(tǒng)6部分組成。攝像頭的圖像采集幀頻率為10 f/s,采集的圖片大小為640 dpi×360 dpi,圖片的位深為16位。攝像頭云臺由兩個(gè)舵機(jī)和放置監(jiān)控?cái)z像頭的平臺組合而成,舵機(jī)的加入保證了云臺具備左右90°的轉(zhuǎn)向角和上下90°的俯仰角。云臺的作用主要是幫助調(diào)整監(jiān)控?cái)z像頭的拍攝方向,進(jìn)而增大監(jiān)控范圍。小車的驅(qū)動(dòng)方式采用的是直流減速電機(jī),通過控制左右兩組電機(jī)的轉(zhuǎn)動(dòng)方向來實(shí)現(xiàn)小車的前進(jìn)、后退以及左右轉(zhuǎn)向,實(shí)際操作過程中小車會(huì)遠(yuǎn)程接收控制模塊發(fā)出的指令并進(jìn)行移動(dòng)。移動(dòng)小車數(shù)據(jù)采集模塊,通過遠(yuǎn)程遙控可以實(shí)現(xiàn)對監(jiān)控目標(biāo)物的移動(dòng)式監(jiān)控,突破了傳統(tǒng)監(jiān)控手段的位置限制,避免了大量監(jiān)控?cái)z像頭的安裝,提高了硬件資源的利用率,有效地克服了傳統(tǒng)監(jiān)控系統(tǒng)監(jiān)控區(qū)域受限、監(jiān)控不及時(shí)、監(jiān)控資源利用率低3方面的問題。整個(gè)采集模塊的實(shí)物如圖2所示。
圖1 基于計(jì)算機(jī)視覺的小型可移動(dòng)行人監(jiān)控系統(tǒng)組成
圖2 移動(dòng)小車數(shù)據(jù)采集模塊實(shí)物
2.2 無線數(shù)據(jù)傳輸模塊
無線數(shù)據(jù)傳輸模塊采用成熟的Wi-Fi傳輸模塊。它主要承擔(dān)起圖像數(shù)據(jù)傳輸任務(wù),將實(shí)時(shí)的圖像數(shù)據(jù)分別傳輸給圖像處理模塊和客戶端顯示模塊。
2.3 圖像處理模塊
圖像處理模塊為整個(gè)系統(tǒng)的核心部分,在接收無線數(shù)據(jù)傳輸模塊傳過來的圖像數(shù)據(jù)后,按照模塊的設(shè)計(jì)邏輯,交替運(yùn)行檢測算法和跟蹤算法,并最終達(dá)到實(shí)時(shí)監(jiān)控的目的。該圖像處理模塊的運(yùn)行機(jī)制如圖3所示。
圖3 圖像處理模塊運(yùn)行機(jī)制
整個(gè)圖像處理模塊依靠開關(guān)機(jī)制實(shí)現(xiàn)檢測算法和跟蹤算法的相互融合。圖像處理模塊運(yùn)行時(shí),第一步會(huì)通過檢測算法完成整個(gè)模塊的初始化工作:根據(jù)當(dāng)前環(huán)境信息合理配置檢測算法和跟蹤算法的運(yùn)行參數(shù);判斷監(jiān)控畫面內(nèi)是否存在行人;一旦存在行人,便通過檢測算法記錄該行人的位置。第二步檢測算法會(huì)將記錄的行人的位置信息傳遞給跟蹤算法,此時(shí)跟蹤算法工作并確保行人處于跟蹤框內(nèi)。跟蹤算法判斷目標(biāo)物在視頻幀中的位置依賴于搜索區(qū)域經(jīng)過相關(guān)濾波后輸出的response值,當(dāng)這個(gè)值低于設(shè)定的閾值gate之后,說明跟蹤結(jié)果已經(jīng)不可信了,此時(shí)觸發(fā)檢測算法并重新校正跟蹤算法。不停地循環(huán)第二步中的過程,就完成了對行人的實(shí)時(shí)監(jiān)控。
這樣做的原因是基于深度卷積神經(jīng)網(wǎng)絡(luò)的行人檢測模型處理一幀圖片平均需要0.26 s,而追蹤算法每秒處理的幀數(shù)超過了監(jiān)控系統(tǒng)攝像頭采集的幀頻率,達(dá)到64 f/s。檢測算法可以以比較大的概率來確定監(jiān)控畫面中是否存在行人以及行人的位置,而追蹤算法僅僅利用了視頻序列的時(shí)間相關(guān)性來確定行人的位置,存在跟丟的可能。通過這樣一種融合機(jī)制,使兩種算法實(shí)現(xiàn)優(yōu)勢互補(bǔ),最終確保了監(jiān)控的實(shí)時(shí)性和有效性。
2.4 運(yùn)動(dòng)控制模塊與客戶端顯示模塊
客戶端顯示模塊用來呈現(xiàn)最終的監(jiān)控畫面以及圖像處理模塊的計(jì)算結(jié)果。當(dāng)監(jiān)控畫面中存在行人時(shí),圖像處理模塊會(huì)自動(dòng)將這個(gè)行人框出來。依據(jù)客戶端顯示的畫面,操作人員可以遠(yuǎn)程遙控搭載了攝像頭的小車,跟隨被監(jiān)控的行人。而遠(yuǎn)程遙控的實(shí)現(xiàn)是通過運(yùn)動(dòng)控制模塊來完成的,發(fā)出控制指令來指揮小車的運(yùn)動(dòng)。對于傳統(tǒng)的監(jiān)控?cái)z像頭來說,一旦可疑分子離開攝像頭的視野,監(jiān)控便徹底宣告失敗,但基于移動(dòng)小車的行人監(jiān)控系統(tǒng)可以有效地避免這種情況的發(fā)生。
圖像處理模塊中行人檢測算法是通過faster R-CNN[10]來實(shí)現(xiàn)的,整個(gè)框架本文并未進(jìn)行改動(dòng),只是將該模型在行人數(shù)據(jù)集上進(jìn)行了二次訓(xùn)練。整個(gè)模型主要包括3個(gè)部分:特征提取、RPN、R-CNN。圖4給出了該模型的訓(xùn)練過程。下面會(huì)分別講述每層的實(shí)現(xiàn)細(xì)節(jié)以及后續(xù)的模型訓(xùn)練和模型使用過程。
3.1 行人檢測模型設(shè)計(jì)與實(shí)現(xiàn)
3.1.1 特征提取
特征提取采用的是VGGNet[13],本文采用16層的VGGNet模型,在使用過程中,去掉了它的全連接層和softmax層,因?yàn)檫@兩層合起來可以對前面網(wǎng)絡(luò)的輸出進(jìn)行分類,而這主要針對的是分類任務(wù),并不適合于行人檢測任務(wù)。最終只留下了全連接層前面的特征提取層,以下統(tǒng)稱為特征提取網(wǎng)絡(luò)。特征提取網(wǎng)絡(luò)總共包含5個(gè)卷積層、4個(gè)最大池化層。
圖4 行人檢測模型訓(xùn)練過程
(1)卷積層設(shè)計(jì)
傳統(tǒng)的神經(jīng)網(wǎng)絡(luò)各個(gè)層之間采取全連接的方式,權(quán)值參數(shù)相對卷積神經(jīng)網(wǎng)絡(luò)來說數(shù)量非常大。對一張大小為3 dpi×3 dpi的灰度圖片來說,假設(shè)隱藏層神經(jīng)元為9,那么全連接的方式需要的權(quán)值參數(shù)為36=3×3×4個(gè),而對于一個(gè)卷積核為3 dpi×3 dpi的卷積層來說,權(quán)值參數(shù)只需要4= 2×2個(gè)。全連接與卷積過程示意如圖5所示。
圖5 全連接與卷積過程示意
可以看到,卷積操作能有效地降低參數(shù)個(gè)數(shù),同時(shí)卷積操作說明了這樣一種事實(shí),圖像的一部分統(tǒng)計(jì)特性與其他部分是一樣的,這意味著在這一部分學(xué)習(xí)到的特征也能運(yùn)用到圖像的另一部分上。特征提取網(wǎng)絡(luò)的所有卷積核大小設(shè)置為3 dpi×3 dpi,卷積核的移動(dòng)步長設(shè)置為1,另外所有的卷積層對輸入的特征圖做卷積時(shí),會(huì)在前面的特征圖四周填充一位0。對一個(gè)輸入高為n、寬為m的特征圖做卷積時(shí),輸出的特征圖大小依舊是n×m,其計(jì)算式如下。
其中,p為填充的0的位數(shù),stride為卷積模板的滑動(dòng)步長。據(jù)此計(jì)算可得,輸出后的特征圖大小與輸入的特征圖大小一致。
深度卷積神經(jīng)網(wǎng)絡(luò)中所使用的激活函數(shù),本文選擇的是ReLu[14](rectified linear unit)。激活函數(shù)的主要作用就是將卷積操作得到的線性疊加值,映射到非線性空間。而傳統(tǒng)的Sigmoid和Tanh函數(shù),在神經(jīng)網(wǎng)絡(luò)模型比較“深”的時(shí)候,會(huì)出現(xiàn)梯度彌散現(xiàn)象,即在網(wǎng)絡(luò)訓(xùn)練過程中,訓(xùn)練誤差形成的梯度在后向傳播的過程中,值會(huì)變小。導(dǎo)致初始的卷積層參數(shù)不更新,或者更新幅度比較小,無法達(dá)到訓(xùn)練網(wǎng)絡(luò)的目的。而ReLu激活函數(shù)可以解決這個(gè)問題。ReLu的數(shù)學(xué)表達(dá)式如下:
(2)池化層設(shè)計(jì)
為了描述大的圖像,一個(gè)很自然的想法就是對不同位置的特征進(jìn)行聚合統(tǒng)計(jì)。而這些概要統(tǒng)計(jì)特征不僅具有低得多的維度(聚合可以達(dá)到降維的目的),同時(shí)還會(huì)改善結(jié)果(不容易過擬合)。對應(yīng)在本文的模型框架中,即最大池化。其數(shù)學(xué)表達(dá)式如下。
3.1.2 RPN
任何的行人檢測框架都有一個(gè)必須實(shí)現(xiàn)的重要功能,就是選取待檢測的候選區(qū)域,本文所使用的faster R-CNN模型實(shí)現(xiàn)了一個(gè)小型卷積網(wǎng)絡(luò)RPN來提取候選區(qū)域。在實(shí)際應(yīng)用中,這個(gè)小型卷積網(wǎng)絡(luò)會(huì)在特征提取的最后一層特征圖cov5_3上滑動(dòng),在滑動(dòng)的每一個(gè)位置形成k個(gè)潛在的候選區(qū)域,這樣RPN最后的回歸層會(huì)有4k個(gè)輸出,隱含了每一個(gè)候選區(qū)域的4個(gè)坐標(biāo),同時(shí)分類層會(huì)有2k個(gè)輸出,表示候選區(qū)域是物體或者不是物體的概率值。在實(shí)際應(yīng)用中采取3種長寬比、3種面積的候選框,這最終會(huì)形成k=9個(gè)候選區(qū)域。對于一個(gè)大小為W×H的特征圖來說最終會(huì)形成WHk個(gè)候選區(qū)域。前面提到,每個(gè)RPN都有兩類輸出:回歸層的輸出和分類層的輸出,分類層為傳統(tǒng)的 softmax,回歸層主要用于調(diào)整 RPN形成的框,盡量使其與實(shí)際的框相接近。RPN最終優(yōu)化的目標(biāo)方程為:
其中,pi為RPN對于區(qū)域i的類別預(yù)測值,pi*為該區(qū)域?qū)嶋H的類別值,Lcls為預(yù)測類別值與真實(shí)值之間的對數(shù)誤差;ti是RPN預(yù)測區(qū)域i所在的位置,ti*是該區(qū)域?qū)嶋H的位置,Lreg表示預(yù)測位置與真實(shí)位置之間的回歸誤差。最終誤差L為分類誤差與回歸誤差的權(quán)重疊加,相應(yīng)的調(diào)和參數(shù)為Ncls與Nreg。優(yōu)化手段采用SGD[15]算法,即調(diào)整神經(jīng)網(wǎng)絡(luò)的連接參數(shù)極小化RPN的目標(biāo)方程。
3.1.3 R-CNN
R-CNN網(wǎng)絡(luò)通過利用RPN形成的候選框,在每個(gè)候選框內(nèi)依靠ROI池化機(jī)制形成一個(gè)定長的特征向量,然后輸入R-CNN的分類層與框回歸層。注意到R-CNN的分類層輸出的是具體的類別,不再像RPN那樣只區(qū)分候選框所在的區(qū)域是不是物體。需要注意的是,由于每個(gè)候選框的大小不一,所覆蓋的候選區(qū)域也大小不一,這就導(dǎo)致了最終形成的特征向量長度不一,而分類與回歸層要求所有的輸入向量必須是定長的特征向量。此時(shí),前面提到的ROI池化層就派上用場了,它的主要作用就是不管輸入的向量尺寸如何,最終都輸出一個(gè)固定長度的特征向量,方便后續(xù)的操作。反映在圖4的模型訓(xùn)練過程中,即連接cov5_3的ROI池化層。
3.2 行人檢測模型的訓(xùn)練
行人檢測模型的訓(xùn)練,是通過對VGGNet[13]在Caltech數(shù)據(jù)庫上微調(diào)生成的。該模型訓(xùn)練的流程主要包括前期的數(shù)據(jù)預(yù)處理和深度卷積神經(jīng)網(wǎng)絡(luò)模型的4步訓(xùn)練過程。
3.2.1 數(shù)據(jù)預(yù)處理
整個(gè) Caltech Pedestrian Detection Benchmark[16]數(shù)據(jù)集分為10個(gè)視頻集,每個(gè)視頻集包含若干視頻序列。為了進(jìn)行后期的評估,訓(xùn)練數(shù)據(jù)集的形成過程與主流的檢測方法類似,即將前5個(gè)視頻集作為訓(xùn)練數(shù)據(jù)集,按順序依次抽取每一個(gè)視頻集的每一個(gè)視頻序列,隔30幀抽取一張圖片作為訓(xùn)練圖片,最終形成訓(xùn)練數(shù)據(jù)集。測試數(shù)據(jù)集在剩下的5個(gè)視頻集中按抽取訓(xùn)練圖片的方式出去測試圖片,并最終形成測試數(shù)據(jù)集。在實(shí)踐中發(fā)現(xiàn),訓(xùn)練數(shù)據(jù)集越大,并且越豐富,相同的網(wǎng)絡(luò)模型經(jīng)過訓(xùn)練后表現(xiàn)出的性能越優(yōu)異。為了擴(kuò)充原有的訓(xùn)練數(shù)據(jù)集,本文采取數(shù)據(jù)增強(qiáng)技術(shù),每一張訓(xùn)練圖片通過左右對稱,擴(kuò)充為兩張圖片,以此達(dá)到訓(xùn)練數(shù)據(jù)集加倍的目的。
3.2.2 深度模型框架訓(xùn)練
本文在訓(xùn)練模型的過程中為了讓RPN和R-CNN實(shí)現(xiàn)卷積層的權(quán)值共享,在訓(xùn)練faster R-CNN模型的時(shí)候用了4階段[10]的訓(xùn)練方法,具體如下。
步驟1 使用ImageNet[17]上預(yù)訓(xùn)練的模型初始化特征提取網(wǎng)絡(luò)參數(shù),并微調(diào)RPN。
步驟2 使用步驟1中RPN提取region proposal訓(xùn)練R-CNN。
步驟3使用步驟2的R-CNN重新初始化RPN,固定卷積層進(jìn)行微調(diào)。
步驟4固定步驟2 R-CNN卷積層,使用步驟3中RPN提取的region proposal微調(diào)網(wǎng)絡(luò)。
按照上述4個(gè)步驟順序訓(xùn)練,即可得到最終的訓(xùn)練模型。
3.3 模型檢測流程
整個(gè)算法的測試流程如圖6所示,將監(jiān)控序列中的某一幀圖片輸入前面訓(xùn)練好的深度網(wǎng)絡(luò)模型里面,最終該模型會(huì)輸出當(dāng)前圖片是否有行人以及這個(gè)行人目前所處的位置。
整個(gè)測試流程分為3部分,首先該模型會(huì)提取待檢測圖片的卷積特征,根據(jù)提取的卷積特征通過RPN確定可能存在行人的候選區(qū)域,最后將每個(gè)候選區(qū)域過一遍R-CNN最終確定該候選區(qū)域是否存在行人(圖 6中 softmax輸出對應(yīng)的是目標(biāo)物為行人的概率)以及行人的位置(圖6中預(yù)測框輸出對應(yīng)的是行人在圖片中的位置)。
用于圖像追蹤的相關(guān)濾波器[18,19]本質(zhì)是在學(xué)習(xí)一個(gè)判別式分類器,最終通過搜尋濾波器的最大輸出來確定目標(biāo)物的相對位移距離,以實(shí)現(xiàn)追蹤的目的。本文中的具體做法如下,將輸入的圖像轉(zhuǎn)換為灰度圖像,用x表示。x沿著圖像上下、左右循環(huán)移位構(gòu)成了訓(xùn)練樣本。每一個(gè)訓(xùn)練樣本表示為:xm,n∈{0,1,…,M-1}×{0,1,…,N-1},相對應(yīng)的輸入分類器的高斯標(biāo)簽為。相關(guān)濾波器對應(yīng)的參數(shù)w同x的大小一致,且它是通過最小化如下計(jì)算式來獲得的:
其中,λ是正則化參數(shù)。式(6)的閉式解可以通過快速傅里葉變換來獲得。規(guī)定大寫字母代表相應(yīng)的傅里葉域信號,那么最終的參數(shù)w*在傅里葉域的形式為式(7)所示:
最終目標(biāo)物在下一幀的位置相對于當(dāng)前幀目標(biāo)物位置的偏移矢量為r矩陣中值最大的行與列。將計(jì)算出的偏移量與當(dāng)前幀目標(biāo)物的位置相加,便可得到目標(biāo)物在下一幀的位置,循環(huán)迭代整個(gè)過程就可以實(shí)現(xiàn)對目標(biāo)物的追蹤。
本文的主要貢獻(xiàn)在于對faster R-CNN模型進(jìn)行了微調(diào),提高了原有框架的行人檢測準(zhǔn)確率,結(jié)合跟蹤算法將其運(yùn)用在行人的監(jiān)控中,整個(gè)監(jiān)控系統(tǒng)滿足了實(shí)時(shí)性以及有效性,達(dá)到了預(yù)期的設(shè)計(jì)目標(biāo)。下面將給出單獨(dú)的基于深度卷積神經(jīng)網(wǎng)絡(luò)的檢測算法的準(zhǔn)確率變化曲線和監(jiān)控系統(tǒng)的實(shí)際測試效果。
5.1 行人檢測算法試驗(yàn)結(jié)果
圖6 行人檢測算法深度卷積神經(jīng)網(wǎng)絡(luò)測試
本文最終訓(xùn)練得到的行人檢測模型在Caltech測試集上進(jìn)行了測試,測試結(jié)果如圖7所示,平均漏檢率為23%,基本上達(dá)到了比較高的水平。圖7為各個(gè)檢測算法的每張圖片的假正率(false positives per image)與漏檢率變化曲線圖,從圖7中可以看出,相比于傳統(tǒng)的工業(yè)界使用的HOG+SVM模型來說,本文重新訓(xùn)練的行人檢測模型,它的平均漏檢率降低了45%。雖然訓(xùn)練得到的行人檢測模型并沒有達(dá)到最低的漏檢概率,但是通過表1可以發(fā)現(xiàn),相比其他模型來說,本文訓(xùn)練得到的檢測模型單張圖片的測試時(shí)間更低,更有利于實(shí)際的應(yīng)用。由于SAF R-CNN[24]并沒有開源其訓(xùn)練代碼,所以表1的最后兩行數(shù)據(jù)直接引用了參考文獻(xiàn)[24]中的數(shù)據(jù)。
圖7 行人檢測模型表現(xiàn)曲線[20,1,21,22,23,24]
5.2 監(jiān)控算法實(shí)際測試效果
本文所設(shè)計(jì)的基于移動(dòng)小車的行人監(jiān)控系統(tǒng),在實(shí)際測試過程中達(dá)到了預(yù)期的設(shè)計(jì)目標(biāo)。下面是實(shí)際測試過程中的一些示例,如圖8所示。
通過這些圖片序列可以看到,本文提出的算法可以有效地對出現(xiàn)在攝像頭前的行人進(jìn)行監(jiān)控。另外在實(shí)際測試中,本文設(shè)計(jì)的監(jiān)控算法可以達(dá)到10 f/s的處理速度,基本滿足了行人監(jiān)控系統(tǒng)的實(shí)時(shí)性要求。另外在實(shí)際測試中發(fā)現(xiàn),該系統(tǒng)對密集人群的檢測精度不高,并且存在誤識別和漏檢行人的情況。圖9就是一些監(jiān)控失敗的場景示例圖片。
表1 檢測時(shí)間與漏檢率對比
本文基于深度卷積神經(jīng)網(wǎng)絡(luò)算法和相關(guān)濾波,實(shí)現(xiàn)了對目標(biāo)物的實(shí)時(shí)監(jiān)控。通過對faster R-CNN模型在Caltech數(shù)據(jù)集上二次訓(xùn)練,相較于工業(yè)界普遍使用的HOG+SVM模型,該方法顯著降低了行人的漏檢概率。另外為了滿足監(jiān)控系統(tǒng)的實(shí)時(shí)性要求,本文引入了基于相關(guān)濾波跟蹤算法,并通過基于閾值判斷的融合機(jī)制使檢測與跟蹤算法交替進(jìn)行,最終實(shí)現(xiàn)對行人的監(jiān)控,基本滿足了監(jiān)控算法的實(shí)時(shí)性要求。不過整個(gè)監(jiān)控系統(tǒng)并不能很好地適用密集型人群這種場景,同時(shí)也存在著行人漏檢與誤識別的情況,這也是這套系統(tǒng)今后需要改進(jìn)的地方。
圖8 行人監(jiān)控系統(tǒng)實(shí)時(shí)監(jiān)控示例(子圖片下的數(shù)字代表的是相應(yīng)的幀序號)
圖9 監(jiān)控失敗樣例
參考文獻(xiàn):
[1]DALAL N,TRIGGS B.Histograms of oriented gradients for human detection[C]//Computer Vision and Pattern Recognition, June 20-26,2005,San Diego,CA,USA.New Jersey:IEEE Press,2005:886-893.
[2]SUYKENS J A,VANDEWALLE J.Least squares support vector machine classifiers [J].Neural Processing Letters,1999,9(3):293-300.
[3]ZHANG L,LIN L,LIANG X,et al.Is faster R-CNN doing well for pedestrian detection[C]//European Conference on Computer Vision,October 8-16,2016,Amsterdam,Netherlands.Berlin:Springer,2016:443-457.
[4]SOLANKI D K M S.Pedestrian detection using R-CNN[J]. Group,2016(12228):12419.
[5]OLIVEIRA L,NUNES U,PEIXOTO P.On exploration of classifier ensemble synergism in pedestrian detection [J].IEEE Transactions on Intelligent Transportation Systems,2010,11(1):16-27.
[6]QUYANG W,WANG X.Joint deep learning for pedestrian detection [C]//International Conference on Computer Vision, Dec 1-8,2013,Sydney,Australia.New Jersey:IEEE Press, 2013:2056-2063.
[7]LUO P,TIAN Y,WANG X,et al.Switchable deep network for pedestrian detection[C]//Computer Vision and Pattern Recognition, Jun 23-28,2014,OH,USA.New Jersey:IEEE Press,2014:899-906.
[8]SERMANET P,KAVUKCUOGLU K,CHINTALA S,et al. Pedestrian detection with unsupervised multi-stage feature learning[C]//Computer Vision and Pattern Recognition,Jun 23-28, 2013,ORUSA.New Jersey:IEEE Press,2013:3626-3633.
[9]GIRSHICK R.Fast R-CNN[C]//International Conference on Computer Vision,Jun 7-12,2015,MA,USA.New Jersey:IEEE Press,2015:1440-1448.
[10]REN S,HE K,GIRSHICK R,et al.Faster R-CNN:towards real-time object detection with region proposal networks[C]// Advances in Neural Information Processing Systems,December 7-12,2015,Montreal,Canada.New York:Curran Associates, 2015:91-99.
[11]DOLLáR P,WOJEK C,SCHIELE B,etal.Pedestrian detection:a benchmark [C]//Computer Vision and Pattern Recognition,June 20-25,2009,FL,USA.New Jersey:IEEE Press,2009:304-311.
[12]HENRIQUES J.F,CASEIRO R,MARTINS P,et al.High-speed tracking with kernelized correlation filters[J].Pattern Analysis and Machine Intelligence,2015,37(3):583-596.
[13]SIMONYAN K,ZISSERMAN A.Verydeepconvolutional networks for large-scale image recognition[J].Computing Research Repository,2014 abs:1409-1556.
[14]NAIR V,HINTON G.E.Rectified linearunits improve restricted Boltzmann machines[C]//International Conference on Machine Learning,Dec 12-14,2010,Washington,DC,USA. New Jersey:IEEE Press,2010:807-814.
[15]SUTSKEVER I,MARTENS J,DAHL G E,et al.On the importance of initialization and momentum in deep learning[J]. ICML,2013(28):1139-1147.
[16]PITOR D,CHRISTIAN W,BERNT S,etal.Pedestrian detection:an evaluation of the state of the art[J].PAMI,2012, 34(4):743-761.
[17]RUSSAKOVSKY O,DENG J,SU H,et al.Imagenet large scale visual recognition challenge[J].International Journal of Computer Vision,2015,115(3):211-252.
[18]BOLME,DAVID S,et al.Visual object tracking using adaptive correlation filters[C]//Computer Vision and Pattern Recognition, Dec 12-14,2010,Washington,DC,USA.New Jersey:IEEE Press,2010:2544-2550.
[19]HENRIQUES,CASEIRO,etal.Exploiting the circulant structure of tracking-by-detection with kernels [C]//European Conference on Computer Vision,Oct 7,2012,Firenze,Italy. Berlin:Springer,2012:702-715.
[20]VIOLA P,JONES M J.Robust real-time face detection[J]. International Journal of Computer Vision,2004,57(2):137-154.
[21]WALK S,MAJER N,SCHINDLER K,et al.New features and insights for pedestrian detection[C]//2010 IEEE Conference on Computer Vis ion and Pattern Recognition,Dec 12-14,2010, Washington,DC,USA.New Jersey:IEEE Press,2010:1030-1037
[22]NAM W,DOLLAR P,HAN J H.Local decorrelation for improvedpedestriandetection[C]//Advances in Neural Information Processing Systems,Dec 8-13,2014,Montréal,CANADA.New York:Curran Associates,2014:424-432.
[23]HOSANG J,OMRAN M,BENENSON R,et al.Taking a deeper look at pedestrians[C]//2015 Computer Vision and Pattern Recognition,Jun 8-12,2015,Boston,MA,USA.New Jersey:IEEE Press,2015:4073-4082.
[24]LI J,LIANG X,SHEN S M,et al.Scale-aware fast R-CNN for pedestrian detection[J].arXiv preprint arXiv:1510.08160, 2015.
Pedestrian surveillance system based on mobile vehicle
XING Huijun1,CHANG Shuo2
1.The Second High School Attached to Beijing Normal University,Beijing 100088,China 2.Beijing University of Posts and Telecommunications,Beijing 100876,China
Pedestrian surveillance is one of the most important aspects in the surveillance system.Traditional surveillance equipment can only cover the limit area.Namely,once the surveillance equipment is implemented,it can only monitor a specific region.Besides,the surveillance system can’t detect if there is a person in the surveillance picture or not.The professional staffs are needed to determine whether there is a person in the surveillance picture.To solve this problem,a computer vision based on mobile pedestrian surveillance system was designed.By implementing a surveillance camera on a mobile small vehicle and remotely control it,the system could switch the monitoring area.Besides,the system could classify and locate the pedestrian in the picture with the deep convolutional neural network and correlation filters.Finally,the system was tested on the spot,which verified the feasibility of the system.
computer vision,pedestrian surveillance,mobile vehicle,deep convolutional neural network,correlation filter
TP277
A
10.11959/j.issn.1000-0801.2017042
2016-12-26;
2016-01-22