譚玉枚 余長(zhǎng)庚
摘? 要: 隨著深度學(xué)習(xí)方法在行人檢測(cè)領(lǐng)域的深入應(yīng)用,基于卷積神經(jīng)網(wǎng)絡(luò)的行人檢測(cè)技術(shù)在特征學(xué)習(xí)、目標(biāo)分類(lèi)、邊框回歸等方面表現(xiàn)出的優(yōu)勢(shì)已愈發(fā)突出。因此,本文從對(duì)傳統(tǒng)的行人檢測(cè)方法和基于卷積神經(jīng)網(wǎng)絡(luò)的行人檢測(cè)技術(shù)進(jìn)行優(yōu)劣比較切入,概述了卷積神經(jīng)網(wǎng)絡(luò)的基礎(chǔ)構(gòu)架,以此引出對(duì)當(dāng)前常用的基于卷積神經(jīng)網(wǎng)絡(luò)的常見(jiàn)行人檢測(cè)技術(shù)及其優(yōu)缺點(diǎn),最后討論了現(xiàn)有基于卷積神經(jīng)網(wǎng)絡(luò)算法實(shí)現(xiàn)行人檢測(cè)存在的不足和指出今后發(fā)展方向。
關(guān)鍵詞: 卷積神經(jīng)網(wǎng)絡(luò);行人檢測(cè);目標(biāo)分類(lèi);邊框回歸
中圖分類(lèi)號(hào): TP391. 41 ???文獻(xiàn)標(biāo)識(shí)碼: A??? DOI:10.3969/j.issn.1003-6970.2020.07.006
本文著錄格式:譚玉枚,余長(zhǎng)庚. 基于卷積神經(jīng)網(wǎng)絡(luò)的行人檢測(cè)技術(shù)的研究綜述[J]. 軟件,2020,41(07):31-36+75
Review of Pedestrian Detection Based on Convolution Neural Network
TAN Yu-mei, YU Chang-geng
(College of Information and Communication Engineering, Hezhou University, hezhou 542899, China)
【Abstract】: With the in-depth application of deep learning in pedestrian detection, the advantages of pedestrian detection based on convolutional neural network have become more pronounced in the fields of feature learning, object classification, border regression and others. An overview of basic structure of convolutional neural network is done by comparing the advantages and disadvantages of the pedestrian detection based on the traditional method and convolutional neural network. On this basis, the paper introduces the common pedestrian detection technologies based on convolutional neural network and its advantages and disadvantages. At last, the present deficiencies existing in pedestrian detection based on CNN are briefly discussed and the future directions are pointed out.
【Key words】: Convolution neural network; Pedestrian detection; Target classification; Border regression
0? 引言
目前,在無(wú)人駕駛、智能視頻監(jiān)控和機(jī)器人視覺(jué)感知[1]等應(yīng)用背景下,計(jì)量機(jī)視覺(jué)研究領(lǐng)域中的行人檢測(cè)技術(shù)受到國(guó)內(nèi)外學(xué)術(shù)界的廣泛關(guān)注和深入研究。傳統(tǒng)的行人檢測(cè)方法側(cè)重于在特征提取和分類(lèi)方面提升檢測(cè)準(zhǔn)確率。其中,具有代表性的方法有:HOG(histogram of oriented gradient)+SVM(support vector machine)[2]、Harr+Adaboost[3]、基于多特征融合的粒子濾波多目標(biāo)跟蹤方法[4]等。該類(lèi)方法把特征提取和分類(lèi)訓(xùn)練分離為兩個(gè)獨(dú)立過(guò)程,往往受限于特定環(huán)境條件(如小尺度變換處理等[5])、設(shè)定低階特征(如紋理特征等),并且不同的特征與分類(lèi)器適用程度各異,導(dǎo)致特征表達(dá)能力不足、可分性較差、可移植性差。
為更好提升行人檢測(cè)技術(shù)的泛化性和魯棒性,Hinton在2006年提出了自下向上方式自動(dòng)逐層學(xué)習(xí)數(shù)據(jù)高階特征的深度學(xué)習(xí)方法[6],引起了機(jī)器學(xué)習(xí)領(lǐng)域?qū)W者的廣泛關(guān)注。相對(duì)傳統(tǒng)行人檢測(cè)方法,該類(lèi)方法避免了復(fù)雜的特征提取和數(shù)據(jù)分類(lèi)重建過(guò)程,學(xué)習(xí)到的高階特征表達(dá)能力更強(qiáng)、更豐富。其中,卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural network,CNN)[7]作為常見(jiàn)深度學(xué)習(xí)模型,因其精度高和速度快的優(yōu)勢(shì)相比深度信念網(wǎng)絡(luò)結(jié)構(gòu)(Deep Belief Network,DBN),堆疊自動(dòng)編碼器(Stacked Belief? Network,SBN)使用更為廣泛[8],已成為當(dāng)前計(jì)算機(jī)視覺(jué)領(lǐng)域研究熱點(diǎn)。該方法整合了特征提取、特征選擇、特征分類(lèi)處理過(guò)程,并通過(guò)端對(duì)端訓(xùn)練和?? 權(quán)值共享結(jié)構(gòu)模擬生物神經(jīng)網(wǎng)絡(luò),自動(dòng)提取圖像? 的紋理、顏色等復(fù)雜特征,較好的提升了目標(biāo)識(shí)別精度。
1 ?卷積神經(jīng)網(wǎng)絡(luò)的基礎(chǔ)構(gòu)架
卷積神經(jīng)網(wǎng)絡(luò)建立在認(rèn)知機(jī)(Neocognitron)[9]基礎(chǔ)上,把卷積運(yùn)算和采樣操作引入到人工神經(jīng)網(wǎng)絡(luò),使提取出的特征具備一定的空間不變性,并最
早作為分類(lèi)器應(yīng)用于手寫(xiě)字符、小圖片識(shí)別中,取得了不錯(cuò)成效[10-12]。因此,卷積神經(jīng)網(wǎng)絡(luò)逐漸成為當(dāng)前圖像識(shí)別領(lǐng)域的研究熱點(diǎn)之一[13]。
如圖1所示,典型的卷積神經(jīng)網(wǎng)絡(luò)主要由輸入層、卷積層、池化層、全連接層和輸出層組成。首先,輸入層主要用于接收輸入圖像,并可進(jìn)行簡(jiǎn)單預(yù)處理。其次,由多個(gè)卷積層和池化層構(gòu)成特征提取器,完成對(duì)圖像高層特征的提取。最后,由全連接層和輸出層構(gòu)成特征分類(lèi)器,完成對(duì)圖像高層特征分類(lèi),并輸出用于表達(dá)當(dāng)前圖像的一維特征向量。
(1)輸入層即圖像輸入層,其大小與輸入圖像一致,可視為只有1張?zhí)卣鲌D的層。
(2)卷積層主要作用是提取圖像的低層特征,通過(guò)對(duì)輸入數(shù)據(jù)進(jìn)行卷積操作和組合運(yùn)算,并利用非線性激活函數(shù)獲取輸入數(shù)據(jù)的非線性特征圖,層數(shù)越多,特征表達(dá)能力越強(qiáng)。如圖2所示,對(duì)于卷積層任一神經(jīng)元所提取的是前一層不同特征圖中相同區(qū)域的局部特征[12]。
基于回歸模型時(shí)候,以概率統(tǒng)計(jì)的方式預(yù)測(cè)目標(biāo)在待檢測(cè)圖像中的具體位置信息。這兩種方法將在下一節(jié)進(jìn)行詳細(xì)介紹。
2 ?基于卷積神經(jīng)網(wǎng)絡(luò)的常見(jiàn)行人檢測(cè)技術(shù)
1994年,Vaillant等人首次將卷積神經(jīng)網(wǎng)絡(luò)成功應(yīng)用于人臉檢測(cè),并取得了較好的檢測(cè)效果[14]。但是,由于受到計(jì)算機(jī)硬件性能低、過(guò)擬合等問(wèn)題的局限,基于卷積神經(jīng)網(wǎng)絡(luò)的目標(biāo)檢測(cè)技術(shù)在較長(zhǎng)一段時(shí)間沒(méi)有得到研究者的關(guān)注。直至2012年,Krizhevsky等人提出了AlexNet,運(yùn)用ReLU激活函數(shù)和Dropout策略降低了收斂速度和過(guò)擬合問(wèn)題帶來(lái)的影響,提升了訓(xùn)練速度、檢測(cè)準(zhǔn)確性和泛化性[15]。自此,基于卷積神經(jīng)網(wǎng)絡(luò)的目標(biāo)檢測(cè)技術(shù)逐漸成為研究熱點(diǎn),并成為目標(biāo)檢測(cè)領(lǐng)域的主流方法之一。
本文將對(duì)卷積神經(jīng)網(wǎng)絡(luò)在行人檢測(cè)領(lǐng)域的研究應(yīng)用進(jìn)行介紹,主要可分為:基于分類(lèi)的卷積神經(jīng)網(wǎng)絡(luò)行人檢測(cè)技術(shù)和基于回歸模型的卷積神經(jīng)網(wǎng)絡(luò)行人檢測(cè)技術(shù)。
2.1 ?基于分類(lèi)的卷積神經(jīng)網(wǎng)絡(luò)行人檢測(cè)技術(shù)
相對(duì)傳統(tǒng)的行人檢測(cè)方法,基于分類(lèi)的卷積神經(jīng)網(wǎng)絡(luò)行人檢測(cè)技術(shù)通過(guò)使用候選區(qū)域提取的方法,直接應(yīng)用卷積神經(jīng)網(wǎng)絡(luò)對(duì)原始圖像或特征圖中每個(gè)滑動(dòng)窗口生成的候選區(qū)域框進(jìn)行二分類(lèi)檢測(cè),以實(shí)現(xiàn)行人檢測(cè)。根據(jù)輸出圖像特征圖與卷積層的不同關(guān)聯(lián)關(guān)系,可分為單尺度特征檢測(cè)模型和多尺度特征檢測(cè)模型。
2.1.1 ?單尺度特征檢測(cè)模型
單尺度特征檢測(cè)模型選擇最后一層卷積層輸出作為圖像特征圖。典型代表模型有:RCNN(Regions with CNN features)[16]、Fast-RCNN[17]、Faster- RCCN[18]等。
RCNN是最早應(yīng)用于目標(biāo)檢測(cè)的卷積神經(jīng)網(wǎng)絡(luò)模型,如圖4所示,通過(guò)Selective Search方法取代窗口滑動(dòng)獲取候選區(qū)域,使用卷積神經(jīng)網(wǎng)絡(luò)對(duì)縮放至統(tǒng)一尺寸后的候選區(qū)進(jìn)行特征提取,并運(yùn)用SVM進(jìn)行分類(lèi),實(shí)現(xiàn)行人檢測(cè)。[19]該方法利用卷積層實(shí)現(xiàn)了對(duì)圖像特征的直接提取,避免了傳統(tǒng)的行人檢測(cè)中手工提取的繁瑣,提升了識(shí)別效率。
Fast-RCNN的提出,進(jìn)一步緩解了RCNN因提取大量候選區(qū)域特征帶來(lái)的運(yùn)算壓力,利用對(duì)候選區(qū)域下采樣和SVD分解全連接層的方法,輸出特征分類(lèi)和邊框回歸的結(jié)果,提升目標(biāo)檢測(cè)效率和檢測(cè)精度。如圖5所示,通過(guò)Selective Search方法獲取候選區(qū)域后,該方法直接對(duì)整張待檢圖像提取特征,將候選區(qū)域?qū)?yīng)的特征圖通過(guò)下采樣輸出固定長(zhǎng)度的特征向量,并經(jīng)過(guò)全連接層完成分類(lèi)和回歸邊框位置信息進(jìn)行修正,一定程度上提升了運(yùn)算速度。
Faster-RCNN模型的提出,進(jìn)一步優(yōu)化了提取候選區(qū)域的方式和速度。該模型主要由用于提取候選區(qū)域的區(qū)域生成網(wǎng)絡(luò)RPN(Region Proposal Network)和用于目標(biāo)檢測(cè)的Fast-RCNN,將獲取目標(biāo)候選區(qū)域、提取特征、目標(biāo)分類(lèi)和回歸邊框位置等過(guò)程融合到同一個(gè)深度神經(jīng)網(wǎng)絡(luò)之中。如圖6所示,RPN代替Selective Search方法提取檢測(cè)區(qū)域,并與Fast-RCNN共享卷積特征,輸出概率最大的候選區(qū),再由Fast-RCNN對(duì)所有候選區(qū)進(jìn)行識(shí)別分類(lèi),并回歸邊框位置信息加以修正,大大提升了運(yùn)算速度。
上述的單尺度特征檢測(cè)模型以最后一個(gè)卷積層輸出的高層特征作為候選區(qū)域特征,忽略了底層特征圖中的一些局部細(xì)節(jié)特征信息,不利于對(duì)小尺度的目標(biāo)檢測(cè)。
2.1.2 ?多尺度特征檢測(cè)模型
為解決單尺度特征檢測(cè)模型對(duì)小目標(biāo)檢測(cè)中表現(xiàn)出的不足,研究學(xué)者們提出了基于多層特征融合的多尺度特征檢測(cè)模型。典型代表模型有:ION(Inside-Outside Net)[20]、FPN(Feature Pyramid Networks )[21]、Mask R-CNN[22][23]等。
ION是較早提出在目標(biāo)檢測(cè)中應(yīng)用多尺度特征融合的深度學(xué)習(xí)方法之一。如圖7所示,該方法主要融合了感興趣區(qū)域(Region Of Interest,ROI)內(nèi)外的特征信息來(lái)進(jìn)行目標(biāo)檢測(cè),其中,Outside Net通過(guò)IRNN[24]從最后一個(gè)卷積層輸出的特征圖中提取ROI外的上下文特征信息以更好適應(yīng)目標(biāo)遮擋情況,Inside Net利用Skip-Pooling獲取ROI映射到第3-5卷積層輸出的多尺度特征信息以提升對(duì)小目標(biāo)的檢測(cè)能力,并融合這兩個(gè)特征信息來(lái)進(jìn)行目標(biāo)檢測(cè),有效提升了目標(biāo)檢測(cè)精度。
FPN的提出,是為了更好的利用Faster R-CNN模型實(shí)現(xiàn)不同尺度的候選區(qū)域映射出不同層不同尺度的特征圖。如圖8所示,該方法為實(shí)現(xiàn)全尺度高層語(yǔ)義特征圖傳遞,構(gòu)建了一個(gè)自頂向下且可橫向連接的框架,并基于Faster R-CNN模型,從自底向上、自頂向下以及橫向連接等三個(gè)維度獲取多尺度融合特征,更有利于小目標(biāo)檢測(cè)。
Mask R-CNN可視為一個(gè)可實(shí)現(xiàn)精確分割的目標(biāo)檢測(cè)和語(yǔ)義分割的Faster R-CNN擴(kuò)展模型。如圖9所示,該方法基于Faster R-CNN模型,利用全卷積神經(jīng)網(wǎng)絡(luò)(Fully Convolutional Network,F(xiàn)CN)[25]增加了語(yǔ)義分割分支用于分割任務(wù)。在Faster R-CNN
模型中引入FPN完成目標(biāo)特征分類(lèi)和邊框回歸任務(wù)的同時(shí),使用FCN對(duì)每個(gè)ROI進(jìn)行目標(biāo)分割,并用RoIAlign代替Faster R-CNN中RoIpooling,利用插值算法確保被提名的ROI與特征圖按像素點(diǎn)一一對(duì)齊(pixel-to-pixel alignment),以此實(shí)現(xiàn)高精度的實(shí)例分割和目標(biāo)檢測(cè)。
2.2 ?基于回歸模型的卷積神經(jīng)網(wǎng)絡(luò)行人檢測(cè)技術(shù)
由于基于分類(lèi)的卷積神經(jīng)網(wǎng)絡(luò)行人檢測(cè)技術(shù)的檢測(cè)精度很大程度受到選取候選區(qū)域的準(zhǔn)確性影響,并且整體模型運(yùn)算量較大,導(dǎo)致難以滿(mǎn)足實(shí)時(shí)檢測(cè)要求。對(duì)此,部分研究方向逐漸轉(zhuǎn)向用目標(biāo)位置信息回歸(邊框回歸)代替目標(biāo)檢測(cè),即直接將整幅圖像作為候選區(qū)輸入卷積神經(jīng)網(wǎng)絡(luò),以預(yù)測(cè)目標(biāo)的位置信息。典型代表模型有:YOLO(You Only Look Once)[26-27]、SSD(Single Shot MultiBox Detector[28]等。
YOLO的提出,在提升行人檢測(cè)實(shí)時(shí)性的同時(shí),較Faster R-CNN大幅度降低了對(duì)圖像背景的誤檢率。如圖10所示,該方法直接將目標(biāo)檢測(cè)轉(zhuǎn)換為預(yù)測(cè)回歸問(wèn)題,對(duì)縮放至統(tǒng)一尺寸(一般為)的輸入圖像進(jìn)行
網(wǎng)格劃分后,使用單個(gè)卷積神經(jīng)網(wǎng)絡(luò)對(duì)每一個(gè)網(wǎng)格預(yù)測(cè)目標(biāo)邊框置信度及其分類(lèi)概率,并合并相同類(lèi)別且相交的目標(biāo)邊界框,以此快速預(yù)測(cè)目標(biāo)位置。雖然該模型的端對(duì)端檢測(cè)在一定程度上提高了檢測(cè)效率,但在小目標(biāo)行人以及間距較小的多目標(biāo)行人的檢測(cè)上效果不佳,且難以應(yīng)對(duì)行人目標(biāo)形變的情況,其泛化能力有待提高。后續(xù)研究者對(duì)YOLO模型進(jìn)行了改進(jìn),提出了YOLO v2和YOLO v3模型,進(jìn)一步提升算法的魯棒性。
SSD提供了一種可快速實(shí)現(xiàn)不同尺度目標(biāo)檢測(cè)的一步檢測(cè)法。相對(duì)于YOLO,SSD增加了額外的多個(gè)卷積層用于回歸每個(gè)網(wǎng)格中的預(yù)測(cè)目標(biāo)邊框及分類(lèi)的置信度,并在回歸過(guò)程中,充分利用每個(gè)網(wǎng)格不同尺度的特征圖。因此,其對(duì)小目標(biāo)的檢測(cè)效果優(yōu)于YOLO。如圖11所示,該方法直接對(duì)輸入圖像進(jìn)行卷積特征提取,只需引入較小的卷積核即可進(jìn)行檢測(cè)。其中,大尺度的特征圖(卷積層靠前的特征圖)用于檢測(cè)小目標(biāo)[29],小尺度的特征圖(卷積層靠后的特征圖)用于檢測(cè)大目標(biāo),以此實(shí)現(xiàn)對(duì)不同目標(biāo)的檢測(cè)。但該模型在實(shí)際檢測(cè)過(guò)程中,同一行人目標(biāo)容易混入不同目標(biāo)檢測(cè)框中。
2.3 ?實(shí)驗(yàn)數(shù)據(jù)分析
如圖12和表1所示,基于卷積神經(jīng)網(wǎng)絡(luò)的行人檢測(cè)技術(shù)一定程度上優(yōu)化了對(duì)目標(biāo)特征提取和目標(biāo)分類(lèi)方式。因此,在特征表達(dá)的上表現(xiàn)了較強(qiáng)的魯棒性和泛化性,實(shí)現(xiàn)了較好的檢測(cè)效果。
雖然兩類(lèi)方法在行人大小、姿勢(shì)相對(duì)一致的場(chǎng)景中都能較好的檢測(cè)到目標(biāo),但在不同環(huán)境下,兩類(lèi)方法表現(xiàn)出的泛化性仍有差異。如表1所示,采用數(shù)據(jù)集Pascal VOC(Pascal Visual Object Classification)的VOC2007、VOC2012進(jìn)行訓(xùn)練,基于
分類(lèi)的卷積神經(jīng)網(wǎng)絡(luò)行人檢測(cè)技術(shù)Faster R-CNN因獲取候選區(qū)域耗時(shí)影響,檢測(cè)精度和速度不如基于回歸模型的卷積神經(jīng)網(wǎng)絡(luò)行人檢測(cè)技術(shù)YOLO和SSD。其中,YOLO的檢測(cè)效果要優(yōu)于Faster R-CNN和SSD。
3? 基于卷積神經(jīng)網(wǎng)絡(luò)的行人檢測(cè)算法存在的問(wèn)題及發(fā)展方向
隨著深度學(xué)習(xí)方法在目標(biāo)檢測(cè)領(lǐng)域的廣泛應(yīng)用,基于卷積神經(jīng)網(wǎng)絡(luò)的行人檢測(cè)技術(shù)已成為計(jì)算機(jī)視覺(jué)領(lǐng)域研究熱點(diǎn),行人目標(biāo)識(shí)別檢測(cè)方面取得了不錯(cuò)的效果,但還有待改善的空間:一是對(duì)于尺寸較小的行人目標(biāo)以及行人目標(biāo)交叉遮擋嚴(yán)重情況下進(jìn)行檢測(cè),其檢測(cè)精度仍需有待提高;二是CNN網(wǎng)絡(luò)模型越深,其計(jì)算復(fù)雜度和開(kāi)銷(xiāo)越大,精度與速度無(wú)法完全平衡,算法無(wú)法遷移應(yīng)用到移動(dòng)設(shè)備中,且對(duì)于自動(dòng)駕駛等應(yīng)用場(chǎng)景,其實(shí)時(shí)性和有效性難以滿(mǎn)足;三是CNN網(wǎng)絡(luò)的參數(shù)設(shè)置如學(xué)習(xí)率,步長(zhǎng)等依賴(lài)于實(shí)踐經(jīng)驗(yàn),訓(xùn)練可靠性不穩(wěn)定;四是行人檢測(cè)數(shù)據(jù)集的多樣性不足,人工采集樣本且手動(dòng)標(biāo)注樣本耗時(shí)耗力;五是模型的訓(xùn)練計(jì)算量巨大,訓(xùn)練時(shí)間長(zhǎng),對(duì)計(jì)算機(jī)性能要求非常高。
針對(duì)上述卷積神經(jīng)網(wǎng)絡(luò)的行人檢測(cè)算法存在的問(wèn)題以及最近研究趨勢(shì),本文對(duì)今后基于深度學(xué)習(xí)的行人檢測(cè)算法進(jìn)行分析:(1)構(gòu)建魯棒性更強(qiáng)的網(wǎng)絡(luò)的架構(gòu)。比如結(jié)合傳統(tǒng)的檢測(cè)方法,利用上下文信息以及時(shí)空特性,提升對(duì)視頻序列中小目標(biāo)行人檢測(cè)的魯棒性。(2)研究輕量級(jí)網(wǎng)絡(luò)模型,利用深度分組卷積替代傳統(tǒng)卷積算法,減少計(jì)算量且提升檢測(cè)速度,將算法應(yīng)用于小型移動(dòng)設(shè)備中,推動(dòng)人工智能的發(fā)展。(3)構(gòu)建弱監(jiān)督/無(wú)監(jiān)督的行人檢測(cè)的模型,提升其檢測(cè)性能。
4 ?結(jié)語(yǔ)
本文概述了卷積神經(jīng)網(wǎng)絡(luò)的基礎(chǔ)框架,并對(duì)典型的基于卷積神經(jīng)網(wǎng)絡(luò)的行人檢測(cè)技術(shù)進(jìn)行了綜述和實(shí)驗(yàn)分析,以及分析當(dāng)前的算法存在的不足和指明今后發(fā)展的方向。
總體來(lái)看,隨著計(jì)算機(jī)硬件性能和軟件的不斷優(yōu)化升級(jí),基于深度學(xué)習(xí)的行人檢測(cè)算法已經(jīng)成為主流研究方向,并且隨著訓(xùn)練數(shù)據(jù)的不斷擴(kuò)充,以及輕量級(jí)網(wǎng)絡(luò)模型的研究應(yīng)用,該類(lèi)算法具有更廣泛的實(shí)際應(yīng)用價(jià)值,在目標(biāo)檢測(cè)與分類(lèi)等人工智能的應(yīng)用中,會(huì)有更大的突破。
參考文獻(xiàn)
Biswas S K, Milanfar P. Linear support tensor machine with LSK channels: pedestrian detection in thermal infrared images[J]. IEEE Transactions on Image Processing, 2017, PP(99): 1-1.
Tan Y M, Luo X S, Xia H Y. Real-time and reliable human detection in clutter scene[C]//Eighth International Symposium on Multispectral Image Processing and Pattern Recognition, Wuhan, Hubei, China, 2013, PP(8919): 14-18.
Viola P, Michael J, Daniel S. Detecting pedestrians using patterns of motion and appearance[C]//2003 IEEE International conference on Computer Vision(ICCV) IEEE, 2003, 63(2): 153-161.
楊龍文, 黃植功. 基于多特征融合的粒子濾波多目標(biāo)跟蹤算法研究[J]. 計(jì)算機(jī)應(yīng)用與軟件, 2015, 32(04): 225-229.
張利軍, 劉勍. 圖像弱小目標(biāo)檢測(cè)方法及其進(jìn)展[J]. 自動(dòng)化與儀器儀表, 2015(04): 189-190+193.
Hinton G E, Osindero S, Teh Y W. A fast learning Algorithm for deep belief nets[J]. Neural Computation, 2006, 18(7): 1527-1554.
Lecun Y, Bottou L, Bengio Y, et al. Gradient-based learning applied to document recognition[J]. Proceedings of the IEEE, 1998, 86(11): 2278-2324.
CuestaInfante A, García, Francisco J, Pantrigo J J, et al. Pedestrian detection with LeNet-like convolutional networks[J]. Neural Computing and Applications, 2017.
Fukushima K. Neocognitron: a hierarchical neural network capable of visual pattern recognition[J]. Neural Networks, 1(2): 119-130.
Li P X, Wang D, Wang L J, Lu H C. Deep visual tracking: Review and experimental comparison[J]. Pattern Recognition. 2018.
11.徐喆, 王玉輝. 基于候選區(qū)域和并行卷積神經(jīng)網(wǎng)絡(luò)的行人檢測(cè)[J]. 計(jì)算機(jī)工程與應(yīng)用, 2019, 55(22): 91-98+162.
12.張思宇, 張軼. 基于多尺度特征融合的小目標(biāo)行人檢測(cè)[J]. 計(jì)算機(jī)工程與科學(xué), 2019, 41(09): 1627-1634.
13.Pérez H, Siham T, Alberto L, Roberto O, Hamido F, Francisco H. Object detection binary classifiers methodology based on deep learning to identify small objects handled similarly: Application in video surveillance[J]. Knowledge-Based Systems, 2020.
Vaillant R, Monrocq C, Lecun Y. Original approach for the localisa-tion of objects in images[J]. Vision, Image and Signal Processing, 1994, 141(4): 245-250.
Krizhevsky A, Sutskever I, Hinton G. Imagenet classification with deep convolutional neural networks[J]. Advances in neural information processing systems, 2012, 25(2).
Girshick R, Donahue J, Darrell T, Malik J. Rich feature hierarchies for accurate object detection and semantic segmentation[C]//Proc of IEEE Conference on Computer Vision and Pattern Recognition. 2014: 580-587.
Ross Girshick. Fast R-CNN[C]//2015 IEEE International Conference on Computer Vision (ICCV). IEEE, 2016.
Ren S Q, He K M, Girshick R, et al. Faster R-CNN: towards real-time object detection with region proposal networks[J]. IEEE Transactions on Pattern Analysis & Machine Intelligence, 2015, 39(6): 1137-1149.
張明軍, 俞文靜, 袁志, 等. 視頻中目標(biāo)檢測(cè)算法研究[J].軟件, 2016, 37(4): 40-45.
Bell S, Zitnick C L, Bala K, et al. Inside-Outside Net: detecting objects in context with skip pooling and recurrent neural networks[J]. 2015.
Lin T Y, Dollár, Piotr, Girshick R, et al. Feature Pyramid Networks for Object Detection[J]. 2016.
He Kaiming, Georgia Gkioxari, Piotr Dollar, et al. Mask R-CNN[C]//2017 IEEE International Conference on Computer Vision (ICCV). IEEE, 2017.
朱繁, 王洪元, 張繼. 基于改進(jìn)的Mask R-CNN的行人細(xì)粒度檢測(cè)算法[J]. 計(jì)算機(jī)應(yīng)用, 2019, 39(11): 3210-3215.
Le, Quoc V, Jaitly, Navdeep, Hinton, Geoffrey E. A simple way to initialize recurrent networks of rectified lnear Units[J]. computer science, 2015.
Long J, Shelhamer E, Darrell T. Fully Convolutional networks for semantic segmentation[J]. IEEE Transactions on Pattern Analysis & Machine Intelligence, 2014, 39(4): 640- 651.
基于YOLO網(wǎng)絡(luò)的行人檢測(cè)方法[J]. 高宗, 李少波, 陳濟(jì)楠, 李政杰. 計(jì)算機(jī)工程. 2018(05).
Redmon J, Divvala S, Girshick R, et al. You only look Once: unified, Real-Time Object Detection[J]. 2015.
Liu W, Anguelov D, Erhan D, et al. SSD: single shot multibox detector[C]//European conference on computer vision. Springer, Cham, 2016: 21-37.
吳亞熙, 岑峰. 基于卷積神經(jīng)網(wǎng)絡(luò)的多層級(jí)目標(biāo)檢測(cè)方法[J]. 軟件, 2018, 39(4): 164-169.