◆盧俊俏 顏思璇
?
基于FAST R-CNN行人檢測(cè)識(shí)別的研究與改進(jìn)
◆盧俊俏 顏思璇
(浙江師范大學(xué)數(shù)學(xué)與計(jì)算機(jī)科學(xué)學(xué)院 浙江 321300)
本文的目的是進(jìn)行視頻中的人行識(shí)別,將視頻逐幀提取,采用Fast R-cnn,它不僅實(shí)現(xiàn)了識(shí)別圖片中單個(gè)行人的骨架,還能通過分類判斷圖片有多少個(gè)需要識(shí)別的行人,并將各個(gè)關(guān)節(jié)點(diǎn)與每一個(gè)行人所相對(duì)應(yīng),與此同時(shí),它也能將各個(gè)關(guān)節(jié)點(diǎn)與行人身上的各個(gè)身體部位相對(duì)應(yīng),從而實(shí)現(xiàn)了識(shí)別圖片中多個(gè)行人骨架的目的。
人體骨架模型;Fast R-CNN;行人識(shí)別
人工智能最基礎(chǔ)的數(shù)據(jù)來自對(duì)音頻和視覺的感知,如何收集處理所接受到視覺信息,是目前人工智能中重要的一項(xiàng)技術(shù)。其中,基于視覺的行人識(shí)別技術(shù)已經(jīng)成了研究熱點(diǎn),具有廣闊的應(yīng)用前景。行人檢測(cè)是一種在給定的圖像和視頻中判斷行人存在的技術(shù),可以應(yīng)用于監(jiān)控查詢拜訪,車輛辨認(rèn),路況識(shí)別,盲人導(dǎo)航等,為這些領(lǐng)域提供了便利。比如先進(jìn)輔助駕駛系統(tǒng)(ADAS)中通過單目攝像頭判斷路況,通過對(duì)前方汽車、行人、障礙物等的識(shí)別,給予司機(jī)主動(dòng)提醒。
在2005年Dalal發(fā)表了基于HOG特征的行人檢測(cè)模型論文。HOG 特性也廣泛應(yīng)用于目標(biāo)檢測(cè)和識(shí)別、圖像檢索和跟蹤等領(lǐng)域。通過HOG梯度直方圖算法以及SVM算法識(shí)別出每張圖片中的行人,但這種模型速度運(yùn)行慢,且由于背景中存在著各種各樣的干擾項(xiàng),背景中的某些部分與人體相似,導(dǎo)致最終識(shí)別出來的結(jié)果存在一些錯(cuò)誤。2006年,Hinton 等人提出了一種基于深度學(xué)習(xí)的算法,并利用深度卷積神經(jīng)網(wǎng)絡(luò)從大量數(shù)據(jù)中學(xué)習(xí)高級(jí)特征。深卷積神經(jīng)網(wǎng)絡(luò)將特征提取、特征選擇和特征分類融合到同一模型中,通過端到端訓(xùn)練優(yōu)化整體功能,進(jìn)一步加強(qiáng)特征分類。
以增強(qiáng)行人識(shí)別的準(zhǔn)確率和效率為目標(biāo),本文借鑒RBG等人在目標(biāo)檢測(cè)領(lǐng)域中的FAST-RCNN模型,通過HOG梯度直方圖算法以及SVM算法對(duì)視頻中行人的大致位置進(jìn)行識(shí)別,再用Fast R-CNN對(duì)圖片中行人的關(guān)節(jié)點(diǎn)進(jìn)行識(shí)別,將各個(gè)關(guān)節(jié)點(diǎn)相連,識(shí)別出視頻中人體骨架的圖片。將此模型與基于HOG特征的行人檢測(cè)方法進(jìn)行效果對(duì)比,目標(biāo)檢測(cè)領(lǐng)域中的FAST-RCNN模型檢測(cè)正確率更好,并且效率更高。
FAST-RCNN依據(jù)RCNN為基礎(chǔ),選擇性搜索(ss)獲得圖像中約2k候選框。利用卷積收集提取圖片特點(diǎn),獲得feature map后按照以前RoI框選擇出對(duì)應(yīng)的區(qū)域等三個(gè)進(jìn)程。
通常對(duì)一張圖像進(jìn)行檢測(cè)會(huì)采用不同的滑窗進(jìn)行窮舉的方式搜索,這種方法計(jì)算量過大且速度慢,于是通過比較一張圖片不同區(qū)域顏色、紋理等方面將相識(shí)度較大的部分劃分為同一個(gè)區(qū)域,這便是選擇性搜索的基本思想。
(1)生成了一個(gè)區(qū)域。
計(jì)算總相似度:
(3)找相似度最高的區(qū)域,并將其合并。
(4)從中移除與和有關(guān)的相識(shí)度。
(5)計(jì)算新集與所有子集的相似度。
(6)重復(fù)上述步驟,直到為空。
圖1 相鄰區(qū)域的相似度
通過上述步驟就可以在需要進(jìn)行行人檢測(cè)的圖像中找到1000-2000個(gè)候選區(qū)域,每個(gè)候選區(qū)域都作為一個(gè)節(jié)點(diǎn),而每一個(gè)節(jié)點(diǎn)就是就是人體的一個(gè)部件,然而現(xiàn)在節(jié)點(diǎn)眾多,而當(dāng)圖片中行人數(shù)目比較多時(shí),各個(gè)節(jié)點(diǎn)之間相互連接,錯(cuò)綜復(fù)雜,接下來就要解決節(jié)點(diǎn)數(shù)模過多問題,以及判斷哪些節(jié)點(diǎn)屬于同一個(gè)人。
在R-CNN中, 卷積神經(jīng)網(wǎng)絡(luò) CNN 用于每個(gè)候選框的特征提取,這需要大量的時(shí)間來改進(jìn),這在快速 R-NNN 中得到了很好的改進(jìn)效果,只對(duì)原始圖像進(jìn)行一次卷積,得到了整個(gè)圖的特征圖,查找每個(gè)候選框架上的映射patch。patch是每個(gè)候選框的卷積特征。
在R-CNN中,您需要統(tǒng)一每個(gè)候選框的大小,然后提取特征值,降低識(shí)別效率;在Fast R-CNN中,它添加了一個(gè)名為ROI池的網(wǎng)絡(luò)圖層,該網(wǎng)絡(luò)層將不同大小的候選框映射到固定比例的特征向量。從每個(gè)區(qū)域提取固定維度的特征來表示,下一步是使用SoftmaxLoss分類器來判斷。
該分類器需要做到使得在一個(gè)候選框特征值的輸入后,能夠判斷出屬于真實(shí)標(biāo)簽的概率是否達(dá)到最高。就比如說,當(dāng)候選框?yàn)槭值哪遣糠謺r(shí),向SoftmaxLoss分類器輸入每一個(gè)候選框的映射之后,使最終的輸出結(jié)果為手的可能性要達(dá)到最高,而腳、肩膀、頭等的可能性較小。
下面為損失的計(jì)算公式:
這是一種CNN全連接層到損失層的計(jì)算,全連接層的輸入即每個(gè)候選框的特征,全連接層的輸出即為損失,若SoftmaxLoss分類器能夠做到預(yù)測(cè)正確,則損失較小,若預(yù)測(cè)錯(cuò)誤,則損失較大,即為分類候選框時(shí)所產(chǎn)生的誤差。
在使用完分類器進(jìn)行候選框分類之后,需要使用SmoothL1Loss回歸器縮小范圍以更精確的框出目標(biāo)物體,在使用SmoothL1Loss回歸器進(jìn)行計(jì)算時(shí)會(huì)產(chǎn)生誤差即損失:
總損失等于各部分損失之和:
當(dāng)預(yù)測(cè)值和目標(biāo)值相差過大時(shí),梯度就容易爆炸,在SmoothL1Loss回歸器中使用-1代替了原來梯度中的-,避免了梯度爆炸問題。
我們?nèi)∮脤W(xué)校馬路上隨機(jī)的幾段視頻,進(jìn)行行人識(shí)別檢測(cè)。并用FAST R-CNN的方法與HOG模型進(jìn)行比較,如圖2。
圖2 FAST R-CNN識(shí)別流程圖
在經(jīng)過分類和回歸之后,就可以識(shí)別出哪個(gè)候選框?qū)儆谛腥耸值膮^(qū)域,哪些候選框是屬于行人腳的區(qū)域,哪些候選框是屬于行人肩膀的區(qū)域,同時(shí)也可以判斷出哪些候選框?qū)儆谕粋€(gè)人,最后將屬于同一個(gè)人的關(guān)節(jié)點(diǎn)連接,就可以得到任何一張所需要進(jìn)行檢測(cè)的圖片中的行人的骨架圖了,如圖3。
圖3 人體部位骨架識(shí)別
在嘗試FAST-CRNN之前,通過使用HOG梯度直方圖算法以及SVM算法識(shí)別出每張圖片的行人,但這種模型速度慢,且由于背景中存在著各種各樣的干擾項(xiàng),背景中的某些部分與人體相似,導(dǎo)致最終識(shí)別出來的結(jié)果存在一些錯(cuò)誤。如圖4。
圖4 HOG模型錯(cuò)誤識(shí)別
而本模型相對(duì)基于HOG的行人識(shí)別對(duì)人體動(dòng)作的識(shí)別準(zhǔn)確性更高,通過對(duì)關(guān)鍵幀和重要節(jié)點(diǎn)的判斷,能夠去除多余的信息,提高識(shí)別的準(zhǔn)確率。相比于HOG模型,在該視頻識(shí)別中,排除了樹等其他的干擾,并且不完整的行人也能準(zhǔn)確識(shí)別,如圖5。
圖5 FAST R_CNN效果圖
(1)在圖片中通過選擇性搜索提取候選框較慢,可以采用RPN產(chǎn)生候選框,即CNN卷積神經(jīng)網(wǎng)絡(luò)直接產(chǎn)生候選框,就可以提高圖片的識(shí)別速度。
(2)除FAST-CRNN這個(gè)方針辨認(rèn)的算法之外,現(xiàn)如今速率更快,精確度加倍的辨認(rèn)方法FASTER-CRNN已被研究出來,方針檢測(cè)的四塊(區(qū)域生成,特征提取,分類,位置精修)終究被統(tǒng)一到一個(gè)深度收集框架以內(nèi)。所有計(jì)算沒有重復(fù),完全在GPU中完成,大大提高了運(yùn)行速度。
(3)除了采用CRNN系列進(jìn)行目標(biāo)識(shí)別,根據(jù)最近提出的使用最新提出的residual net進(jìn)行body part的提取,得到的效果更加準(zhǔn)確,精度更高。使用Image-Conditioned Pairwise Terms的方法,能夠?qū)⒈姸嗪蜻x區(qū)域的節(jié)點(diǎn)壓縮到更少數(shù)量的節(jié)點(diǎn)。實(shí)現(xiàn)效果更好的識(shí)別,這就是提出的DEEPER CUT。
(4)可以采用了LSTM時(shí)間遞歸神經(jīng)網(wǎng)絡(luò)算法,通過行人運(yùn)動(dòng)時(shí)引起的各個(gè)關(guān)節(jié)點(diǎn)的運(yùn)動(dòng),去識(shí)別出行人的動(dòng)作。同時(shí),LSTM網(wǎng)絡(luò)能夠通過自主學(xué)習(xí),獲知一系列動(dòng)作持續(xù)時(shí)間內(nèi)不同幀的重要性,以及不同的關(guān)節(jié)點(diǎn)在不同的動(dòng)作中的重要性,使重要的幀和重要的關(guān)節(jié)點(diǎn)在識(shí)別某張圖的行人的動(dòng)作中起更大的作用,這是更進(jìn)一步的運(yùn)用。
[1]Eldar Insafutdinov,Mykhaylo Andriluka, Leonid Pishch-ulin, Siyu Tang, Evgeny Levinkov, Bjoern Andres, Bernt Sc-hiele ArtTrack: ArticulatedMulti-personTrackingintheWild,Su-bmitted on 20 Nov 2015.
[2]Eldar Insafutdinov1, Leonid Pishchulin1, Bjoern Andr-es1,Mykhaylo Andriluka1,2, and Bernt Schiele1,DeeperCut: A Deeper, Stronger, and Faster Multi-Person Pose EstimationModel,Computer Vision – ECCV:2016.
[3]林原,劉海峰,林鴻飛,許侃.基于損失函數(shù)融合的組排序?qū)W習(xí)方法[J].廣西師范大學(xué)學(xué)報(bào)(自然科學(xué)版),2019,37(01):62-70.
[4]陳恩加,唐向宏,傅博文.Faster R-CNN行人檢測(cè)與再識(shí)別為一體的行人檢索算法[J].計(jì)算機(jī)輔助設(shè)計(jì)與圖形學(xué)學(xué)報(bào),2019,31(02):332-339.
[5]姚品,萬旺根.行人再識(shí)別問題中背景抑制方法的研究[J].電子測(cè)量技術(shù),2019,42(02):73-77.
[6]彭志勇,常發(fā)亮,劉洪彬,別秀德.基于HSV模型和特征點(diǎn)匹配的行人重識(shí)別算法[J].光電子·激光,2015,26(08):1575-1582.
[7]王文豪,高利,吳紹斌,趙亞男.行人檢測(cè)綜述[J].摩托車技術(shù),2019(01):29-32.
[8]王斌,劉洋,唐勝,郭俊波.融合多模型和幀間信息的行人檢測(cè)算法[J].計(jì)算機(jī)輔助設(shè)計(jì)與圖形學(xué)學(xué)報(bào),2017,29(03):444.