基于改進(jìn)的Mask RCNN的行人細(xì)粒度檢測算法

2019-12-23 07:19:04朱繁王洪元張繼

計算機應(yīng)用 2019年11期

朱繁王洪元張繼

摘要：針對復(fù)雜場景下行人檢測效果差的問題，采用基于深度學(xué)習(xí)的目標(biāo)檢測中領(lǐng)先的研究成果，提出了一種基于改進(jìn)Mask RCNN框架的行人檢測算法。首先，采用Kmeans算法對行人數(shù)據(jù)集的目標(biāo)框進(jìn)行聚類得到合適的長寬比，通過增加一組長寬比（2 ∶5）使12種anchors適應(yīng)圖像中行人的尺寸;然后，結(jié)合細(xì)粒度圖像識別技術(shù)，實現(xiàn)行人的高定位精度;其次，采用全卷積網(wǎng)絡(luò)（FCN）分割前景對象，并進(jìn)行像素預(yù)測獲得行人的局部掩碼（上半身、下半身），實現(xiàn)對行人的細(xì)粒度檢測; 最后，通過學(xué)習(xí)行人的局部特征獲得行人的整體掩碼。為了驗證改進(jìn)算法的有效性，將其與當(dāng)前具有代表性的目標(biāo)檢測方法（如更快速的區(qū)域卷積神經(jīng)網(wǎng)絡(luò)（Faster RCNN）、YOLOv2、RFCN）在同數(shù)據(jù)集上進(jìn)行對比。實驗結(jié)果表明，改進(jìn)的算法提高了行人檢測的速度和精度，并且降低了誤檢率。

關(guān)鍵詞：Mask RCNN;行人檢測;Kmeans算法;細(xì)粒度;全卷積網(wǎng)絡(luò)

中圖分類號：TP391.41

文獻(xiàn)標(biāo)志碼：A

Finegrained pedestrian detection algorithm based on improved Mask RCNN

ZHU Fan， WANG Hongyuan*， ZHANG Ji

College of Information Science and Engineering， Changzhou University， Changzhou Jiangsu 213164， China

Abstract：

Aiming at the problem of poor pedestrian detection effect in complex scenes， a pedestrian detection algorithm based on improved Mask RCNNframework was proposed with the use of the leading research results in deep learningbased object detection. Firstly，Kmeans algorithm was used to cluster the object frames of the pedestrian datasets to obtain the appropriate aspect ratio. By adding the set of aspect ratio （2∶5）， 12 anchors were able to be adapted to the size of the pedestrian in the image. Secondly， combined with the technology of finegrained image recognition， the high accuracy of pedestrian positioning was realized. Thirdly， the foreground object was segmented by the Full Convolutional Network （FCN）， and pixel prediction was performed to obtain the local mask （upper body， lower body） of the pedestrian， so as to achieve the finegrained detection of pedestrians. Finally， the overall mask of the pedestrian was obtained by learning the local features of the pedestrian. In order to verify the effectiveness of the improved algorithm， the proposed algorithm was compared with the current representative object detection methods （such as Faster Regionbased Convolutional Neural Network （Faster RCNN）， YOLOv2 and RFCN （Regionbased Fully Convolutional Network）） on the same dataset. The experimental results show that the improved algorithm increases the speed and accuracy of pedestrian detection and reduces the false positive rate.

Key words：

Mask RCNN （Region with Convolutional Neural Network）; pedestrian detection;Kmeans algorithm; finegrained; Fully Convolutional Network （FCN）

0?引言

行人檢測技術(shù)由于應(yīng)用的廣泛性使其在計算機視覺領(lǐng)域成為一個重要的分支，對視頻監(jiān)控、車輛輔助駕駛、智能機器人等多個領(lǐng)域提供了重要的技術(shù)支持。它與行人重識別、目標(biāo)跟蹤等領(lǐng)域的聯(lián)系密切相關(guān)，被認(rèn)為是一個圖像檢索的子問題。

傳統(tǒng)的行人檢測方法大多以圖像識別為基礎(chǔ)，并基于人工設(shè)計的特征提取器進(jìn)行特征的提取。首先，在圖片上使用窮舉法選出所有物體可能出現(xiàn)的目標(biāo)區(qū)域框; 然后，對這些區(qū)域框提取Haar[1]、方向梯度直方圖（Histogram of Oriented Gradient，HOG）[2]、局部二值模式（Local Binary Pattern， LBP）[3]等特征，并使用圖像識別方法分類得到所有分類成功的區(qū)域;最后，通過非極大值抑制將結(jié)果輸出。但這種方法不僅復(fù)雜度高、魯棒性差，而且產(chǎn)生了大量的候選區(qū)冗余區(qū)域。

2014年，Girshick等[4]設(shè)計了基于區(qū)域的卷積神經(jīng)網(wǎng)絡(luò)（Region with Convolutional Neural Network， RCNN），使用候選區(qū)域（Region Proposal）和分類卷積神經(jīng)網(wǎng)絡(luò)訓(xùn)練模型用于檢測。這使得目標(biāo)檢測與識別技術(shù)取得了巨大突破，并掀起了基于深度學(xué)習(xí)的目標(biāo)檢測與識別的熱潮。RCNN算法遵循了傳統(tǒng)目標(biāo)檢測的思路，同樣采用提取框、對每個框提取特征、圖像分類、非極大值抑制4個步驟進(jìn)行目標(biāo)檢測，只不過在提取特征這一步，將傳統(tǒng)的特征（如尺度不變特征變換（ScaleInvariant Feature Transform， SIFT）[5-6]、HOG特征[7-9]等）換成了深度卷積網(wǎng)絡(luò)提取的特征?？焖賲^(qū)域卷積神經(jīng)網(wǎng)絡(luò)（Fast Regionbased Convolutional Neural Network， Fast RCNN）[10]、更快速的區(qū)域卷積神經(jīng)網(wǎng)絡(luò)（Faster Regionbased Convolutional Neural Network， Faster RCNN）[11]、Mask RCNN[12]等深度網(wǎng)絡(luò)框架都是建立在RCNN的基礎(chǔ)之上，以及單階段檢測器算法YOLO（You Only Look Once）[13-15]、SSD（Single Shot MultiBoxDetector）[16]，均獲得了更多研究者的追捧[17-22]。

隨著深度網(wǎng)絡(luò)框架的逐步成熟，對于行人檢測技術(shù)的要求也進(jìn)一步地提升。而對于在復(fù)雜場景下或者目標(biāo)較遠(yuǎn)的行人圖像，行人檢測的檢測問題依舊存在，并且對于檢測精度和檢測速度有著更高的要求。因此考慮到使用細(xì)粒度圖像的技術(shù)，細(xì)粒度圖像識別被認(rèn)為是一個具有挑戰(zhàn)性的計算機視覺問題，由于高度相似的從屬類別引起的小的類間變化，以及姿勢、尺度和旋轉(zhuǎn)的大的類內(nèi)變化。細(xì)粒度識別任務(wù)，如識別鳥類[23]、花[24]和汽車[25]等，在計算機視覺和模式識別的應(yīng)用中很受歡迎。細(xì)粒度識別更有利于學(xué)習(xí)目標(biāo)的關(guān)鍵部分，這有助于區(qū)分不同子類的對象并匹配相同子類的對象[26-30]，可以更加準(zhǔn)確地學(xué)習(xí)行人的特征。

因此，本文采用基于深度學(xué)習(xí)的目標(biāo)檢測中領(lǐng)先的研究成果，提出將Mask RCNN結(jié)構(gòu)用于行人檢測，主要工作包含以下幾個部分：

1）數(shù)據(jù)集選取與制作階段，在已標(biāo)注好的數(shù)據(jù)集上，采用水平翻轉(zhuǎn)及加噪的方式對數(shù)據(jù)集進(jìn)行擴充，實現(xiàn)數(shù)據(jù)增強。

2）數(shù)據(jù)訓(xùn)練階段，采用Kmeans算法對數(shù)據(jù)進(jìn)行聚類獲得合適的anchors的長寬比，并采用全卷積網(wǎng)絡(luò)（Fully Convolutional Network， FCN）構(gòu)建部位分割模型，分別提取行人的上半身、下半身和整體的特征，將這些特征信息融合完成行人的檢測。

3）模型評估階段，從檢測精度、檢測速度和誤檢率3個指標(biāo)對本文的模型進(jìn)行評估，并與當(dāng)前主流的目標(biāo)檢測算法進(jìn)行實驗對比，驗證本文算法的可行性和有效性。

1?網(wǎng)絡(luò)框架

1.1?Mask RCNN算法

本文采用Mask RCNN算法實現(xiàn)對圖像中行人的檢測，網(wǎng)絡(luò)結(jié)構(gòu)如圖1所示。首先對輸入（input）任意尺寸大小的行人圖像進(jìn)行卷積特征提取構(gòu)成特征圖（feature map），之后在區(qū)域生成網(wǎng)絡(luò)（Region Proposal Network， RPN）中，使得區(qū)域生成（proposals）、分類（category）、回歸（bbox regression）共用卷積層，加快計算速度。與之并行的特征金字塔網(wǎng)絡(luò)（Feature Pyramid Network， FPN）在實現(xiàn)行人檢測的同時把行人目標(biāo)的像素分割出來，并給出行人在圖片中的位置坐標(biāo)（coordinates）。

Mask RCNN算法采用兩階段檢測方法。第一階段是生成目標(biāo)候選區(qū)域，提出候選對象邊界框（與Faster RCNN算法相同）;在第二階段， Mask RCNN為每個感興趣區(qū)域（Region of Interest， RoI）輸出二進(jìn)制掩碼，與預(yù)測類和邊界框偏移并行，其中分類取決于掩碼預(yù)測（例如文獻(xiàn)[31-32]）。在訓(xùn)練期間，Mask RCNN算法為每個采樣的RoI上的多任務(wù)損失函數(shù)定義為：

L=Lcls+Lbox+Lmask（1）

其中：Lcls表示分類損失，Lbox表示邊界框損失，Lmask表示分割損失。

Mask RCNN算法提出了一個RoIAlign層，采用雙線性內(nèi)插的方法獲得坐標(biāo)為浮點數(shù)的像素點上的圖像數(shù)值，避免對RoI邊界或區(qū)間進(jìn)行任何量化（例如，使用x/16而不是[x/16]），從而將整個特征聚集過程轉(zhuǎn)化為一個連續(xù)的操作。在具體的算法操作上，RoIAlign并不是簡單地補充出候選區(qū)域邊界上的坐標(biāo)點進(jìn)行池化，而是通過：1）遍歷每一個候選區(qū)域，保持浮點數(shù)邊界不做量化;2）將候選區(qū)域分割成K×K個單元，每個單元的邊界也不做量化;3）在每個單元中計算固定四個坐標(biāo)位置，用雙線性內(nèi)插的方法計算出這四個位置的值，然后進(jìn)行最大池化操作。RoIAlign是在Mask RCNN中區(qū)域特征聚集方式，可以很好地解決RoI池化操作中兩次量化造成的區(qū)域不匹配（misalignment）的問題，進(jìn)而提升檢測模型的準(zhǔn)確性。

1.2?改進(jìn)的Mask RCNN算法

本文在原有Mask RCNN檢測框架的基礎(chǔ)上，做了一些改進(jìn)，網(wǎng)絡(luò)框架如圖2所示。同樣為兩個部分：第一部分是生成候選區(qū)域;第二部分是學(xué)習(xí)全局和局部圖像塊的特征，主要是借助FCN學(xué)習(xí)部位分割模型（partbased segmentation model），具體見1.2.3節(jié)內(nèi)容。

1.2.1?區(qū)域生成網(wǎng)絡(luò)

RPN是在最后一層特征圖上進(jìn)行特征提取，采用滑動窗口的方式掃描整張圖像，尋找存在的目標(biāo)區(qū)域（anchor）。對于圖像上的每一個位置考慮9個可能的候選窗口：3種尺度（1282，2562，5122）和3種長寬比（1∶1，1∶2，2∶1）。在不同的尺寸大小和長寬比下，在該圖像上會產(chǎn)生將近20-000個目標(biāo)區(qū)域，并且這些區(qū)域相互重疊，盡可能地覆蓋在整張圖像上。RPN為每個anchor生成兩個輸出，即anchor類別和邊框調(diào)整。對于互相重疊的多個anchor，采用非極大值抑制給出目標(biāo)的粗略結(jié)果，保留擁有最高前景分?jǐn)?shù)的anchor，因此，使用RPN預(yù)測可以選出最好的包含目標(biāo)的anchor，并應(yīng)用邊框進(jìn)行精調(diào)。

1.2.2?特征金字塔網(wǎng)絡(luò)

由于RPN是在得到的最后一層特征圖上進(jìn)行特征提取，在頂層的特征中不能完整地反映目標(biāo)的信息。因此，結(jié)合多層級的特征可以大幅提高多尺度檢測的準(zhǔn)確性。FPN主要解決目標(biāo)檢測的多尺度問題，通過簡單的網(wǎng)絡(luò)連接改變，在基本不增加原有模型計算量的情況下，可以大幅度提升目標(biāo)的檢測性能。

1.2.3?圖像分割

本文使用FCN用于圖像的分割，F(xiàn)CN可以采用任何分辨率的輸入圖像，并產(chǎn)生相同大小的輸出。FCN不僅在細(xì)粒度圖像中定位目標(biāo)，而且還將分割預(yù)測視為目標(biāo)掩碼。對于有效的訓(xùn)練，所有訓(xùn)練和測試細(xì)粒度圖像保持其原始圖像的分辨率。

FCN掩碼學(xué)習(xí)過程如圖3所示。首先將原始圖片通過FCN進(jìn)行像素預(yù)測，獲得目標(biāo)的局部掩碼，如果像素預(yù)測為目標(biāo)的局部位置（上半身、下半身），則保留掩碼的實際值，即對行人進(jìn)行細(xì)粒度檢測;否則，如果像素指示區(qū)域是背景，則掩碼中這些背景區(qū)域的值被重置為零值。對于圖像中的每一個行人，均會學(xué)習(xí)到每個人的全局和局部特征，學(xué)習(xí)的FCN模型也能夠返回更準(zhǔn)確的目標(biāo)掩碼。同時，這些目標(biāo)掩碼還可以通過找到它們的包圍矩形來定位目標(biāo)位置。本文實驗中，采用FCN-8[33]來學(xué)習(xí)和預(yù)測目標(biāo)掩碼。

特征學(xué)習(xí)如圖4所示。

圖4中三個流分別對應(yīng)行人的整體、上半身和下半身圖像塊，通過卷積、激活、池化、判別器選擇等一系列操作，分別學(xué)習(xí)這三個圖像塊的特征。為提高圖像中行人的檢測精度，讓不同細(xì)粒度的特征參與行人檢測，因此，本文結(jié)合不同細(xì)粒度圖像特征，可以增強行人檢測的魯棒性。

2?網(wǎng)絡(luò)訓(xùn)練

本文采用改進(jìn)的Mask RCNN結(jié)構(gòu)為模型，訓(xùn)練行人檢測器。為加快訓(xùn)練速度并防止過擬合，在訓(xùn)練期間需設(shè)置合理的參數(shù)，具體參數(shù)設(shè)置如表1所示。

2.1?數(shù)據(jù)集選取與制作

基于深度學(xué)習(xí)的行人檢測方法需要大量的數(shù)據(jù)集，因此，本文從最具典型的COCO2014數(shù)據(jù)集中選取具有代表性的圖像，主要包括復(fù)雜場景下、行人密集、光照變化明顯等難檢測的行人圖像1-500張，以及2018年江蘇省研究生計算機視覺創(chuàng)新實踐大賽官方給出的205張行人圖像。使用labelme軟件完成數(shù)據(jù)集的標(biāo)注工作，主要標(biāo)注行人上半身、下半身和全身的標(biāo)簽信息。其中訓(xùn)練集包含正樣本圖像1-455張，行人數(shù)目為4-368個;測試集包含正樣本圖像250張，行人數(shù)目為756個。

針對不同的數(shù)據(jù)集及不同大小的目標(biāo)，修改anchor的大小和數(shù)量，可以加快收斂速度，提高檢測精度?？紤]到2018年江蘇省研究生計算機視覺創(chuàng)新實踐大賽官方給出的數(shù)據(jù)集中行人姿勢、動作的特點，采用1.2.1節(jié)中的3種尺度和3種長寬比并不合理，因此本文增加1組長寬比，此時anchor對應(yīng)長寬比為（1∶1，1∶2，2∶1，2∶5），尺度不變。

2.2?預(yù)訓(xùn)練

為減少訓(xùn)練時間，采用MSCOCO預(yù)訓(xùn)練模型進(jìn)行訓(xùn)練。在COCO2014數(shù)據(jù)集上訓(xùn)練20個循環(huán)（epoch）后得預(yù)訓(xùn)練參數(shù)。選擇了ResNet50網(wǎng)絡(luò)作為特征提取網(wǎng)絡(luò)，需要檢測的物體只有行人，再加上背景則一共有兩類。

2.3?聚類選取初始候選框

在網(wǎng)絡(luò)訓(xùn)練階段，隨著迭代次數(shù)的不斷增加，網(wǎng)絡(luò)學(xué)習(xí)到行人的全局特征，預(yù)測框的參數(shù)不斷調(diào)整，最終接近真實框。為了加快收斂速度，提高行人檢測的位置精度，本文通過分析圖像中行人寬高的特點，采用Kmeans算法進(jìn)行聚類，本文的Kmeans聚類算法采用歐氏距離來衡量數(shù)據(jù)對象間的距離，其中Kmeans聚類算法通過給定bounding boxes的anchors數(shù)量的中心位置，計算兩者之間的歐氏距離，選取距離真實框最近的一個anchor。重復(fù)這樣的操作，直至滿足所給定的anchors數(shù)量。最終確定anchor的長寬比為（1∶1，1∶2，2∶1，2∶5）。

預(yù)測框和真實框的交并比（Intersection Over Union，IOU）是反映預(yù)測框與真實框差異的重要指標(biāo)，IOU值越大，則（1-IOU）的值就越小，這表明兩者差異越小，“距離”越近。聚類的目標(biāo)函數(shù)為：

min∑N∑M（1-IOU（Box[N]，Truth[M]））（2）

其中：N表示聚類的類別，M表示聚類的樣本集，Box[N]表示聚類得到預(yù)測框的寬高，Truth[M]表示真實框的寬高。

3?實驗結(jié)果與分析

本文實驗環(huán)境為：ubuntu18.04，64位操作系統(tǒng)，深度學(xué)習(xí)框架為TensorFlow，1個GPU，代碼運行環(huán)境為Python3.6.3。對于行人圖像目標(biāo)檢測，本文采用檢測精度（Average Precision，AP）、誤檢率（False Positive Rate，F(xiàn)RP）、檢測速度（Detection Rate，DR）3個指標(biāo)，其中DR表示每張圖片的檢測時間，單位：秒。

3.1?實驗可視化結(jié)果

本文實驗的可視化結(jié)果如圖5所示。從數(shù)據(jù)集中選取了2張典型的圖像，包括光照變化明顯、行人密集、姿勢復(fù)雜的圖像，用矩形框正確標(biāo)記出圖像中的行人，并利用實例分割將每個行人作為一個實例顯現(xiàn)地標(biāo)記出來。

3.2?數(shù)據(jù)增強對比實驗

由于深度學(xué)習(xí)需要大量的數(shù)據(jù)量，為了增加訓(xùn)練集的數(shù)據(jù)量，本文對現(xiàn)有的數(shù)據(jù)集采用水平翻轉(zhuǎn)、加噪等方式對數(shù)據(jù)進(jìn)行擴充，如圖6所示。

根據(jù)表2的實驗可知，當(dāng)訓(xùn)練集從1-455張行人圖像擴充至5-820張行人圖像后，目標(biāo)的檢測精度提高了9.58%，誤檢率降低了2.64%。因此，對數(shù)據(jù)集進(jìn)行合理的擴充，有利于網(wǎng)絡(luò)充分學(xué)習(xí)行人圖像的特征，提高目標(biāo)的檢測性能。接下來的實驗均是在數(shù)據(jù)集擴充的基礎(chǔ)上進(jìn)行。

3.3?采用不同策略訓(xùn)練網(wǎng)絡(luò)的檢測結(jié)果對比

為了驗證本文所提出方法的有效性，分別采用不同策略對網(wǎng)絡(luò)進(jìn)行訓(xùn)練與測試，具體檢測結(jié)果如表3所示。原始Mask RCNN算法中anchors的個數(shù)為9，即3種長寬比（1∶1，1∶2，2∶1）和3種尺度（1282，2562，5122）。本文根據(jù)行人數(shù)據(jù)集的特點采用Kmeans聚類的方法獲得適合本實驗數(shù)據(jù)的長寬比為（1∶1，1∶2，2∶1，2∶5），最終將anchor數(shù)量從9增加至12。如表3所示，對比兩種策略實驗結(jié)果可發(fā)現(xiàn)：選用合適的anchors的尺度和長寬比，可使平均檢測精度提升6.53個百分點，誤檢率降低2.15個百分點。

3.4?消融實驗

為了分析目標(biāo)的每個部分對于模型的貢獻(xiàn)度，本文對數(shù)據(jù)集進(jìn)行了消融實驗。將在原始整體特征學(xué)習(xí)的模型的基礎(chǔ)上只加入上半身特征學(xué)習(xí)的模型表示為part-1，只加入下半身特征學(xué)習(xí)的模型表示為part-2。實驗結(jié)果如表4所示，根據(jù)表4可知，本文只加入上半身特征學(xué)習(xí)后檢測精度提高了2.27個百分點，只加入下半身特征學(xué)習(xí)后檢測精度提高了0.76 個百分點。二者特征學(xué)習(xí)均加入之后的檢測精度整體上提高了3.24個百分點。

3.5?不同目標(biāo)檢測算法結(jié)果對比

本文將改進(jìn)后的算法（即本文算法）同具有代表性的目標(biāo)檢測算法進(jìn)行比較，包括單階段檢測器（回歸系列算法）中的YOLOv2算法、YOLOv3算法和SSD算法;兩階段檢測器（區(qū)域建議系列算法）中的RFCN算法、Faster RCNN算法和Mask RCNN算法。其中單階段檢測器將目標(biāo)檢測視作單個回歸問題，網(wǎng)絡(luò)結(jié)構(gòu)簡單，直接給出最終的檢測結(jié)果，其檢測速度較快，但準(zhǔn)確率較低;兩階段檢測器首先生成可能包含物體的候選區(qū)域，之后對候選區(qū)域作進(jìn)一步的分類和校準(zhǔn)，得到最終的檢測結(jié)果，其準(zhǔn)確率較高，但檢測速度較慢。

實驗對比結(jié)果如表5所示，對比幾種目標(biāo)檢測算法的實驗結(jié)果可發(fā)現(xiàn)：本文在Mask RCNN基礎(chǔ)上考慮細(xì)粒度圖像的特點，增加anchors的個數(shù)，在提高檢測精度的同時提高了檢測速度。本文算法較回歸算法中YOLOv2算法的檢測精度提高了9.06個百分點，誤檢率降低了1.09個百分點;較區(qū)域建議系列算法中Faster RCNN算法的檢測精度提高了1.90個百分點，誤檢率降低了0.49個百分點;較Mask RCNN算法的檢測精度提高了3.24個百分點，且誤檢率降低了0.55個百分點，而檢測速度略低于單階段檢測器算法，約0.1個百分點;但相較區(qū)域建議系列算法有了明顯的提高。

3.6?不同數(shù)據(jù)集實驗結(jié)果

為了驗證本文算法的普適性，將訓(xùn)練出來的模型分別在INRIA數(shù)據(jù)集、COCO2017數(shù)據(jù)集上進(jìn)行測試。

3.6.1?INRIA數(shù)據(jù)集實驗結(jié)果

數(shù)據(jù)集INRIA的測試集有288張正樣本（包含2-416個行人），453張負(fù)樣本（包含1-126個行人）。在INRIA上的實驗結(jié)果如表6所示，可以發(fā)現(xiàn)：本文算法相較于其他的檢測算法在檢測精度仍占有一定的優(yōu)勢，檢測精度比YOLOv3算法和Mask RCNN算法分別提高了9.56個百分點、2.18個百分點;檢測速度相較于Mask RCNN算法仍提高了0.411個百分點，略低于單階段檢測器YOLOv2和YOLOv3算法的檢測速度。

3.6.2?COCO2017數(shù)據(jù)集實驗結(jié)果

COCO2017數(shù)據(jù)集的測試集包含40-670張圖像，從中隨機挑選200張圖像進(jìn)行測試。在挑選出來的200張圖像上的實驗結(jié)果如表7所示?？梢园l(fā)現(xiàn)：本文算法的檢測精度較YOLOv2算法、YOLOv3算法、Mask RCNN算法分別提高了11.54個百分點、7.61個百分點、5.48個百分點;檢測速度與其他算法十分接近。

4?結(jié)語

本文針對復(fù)雜場景下的行人圖像進(jìn)行深入研究，在初始Mask RCNN框架的基礎(chǔ)上，采用數(shù)據(jù)增強的方式對數(shù)據(jù)集進(jìn)行擴充，針對數(shù)據(jù)集的特點采用Kmeans算法調(diào)整anchor數(shù)量和大小，結(jié)合ResNet50、FPN、FCN等架構(gòu)來提升行人的檢測能力，并結(jié)合了行人細(xì)粒度屬性，有效地提高了行人的檢測精度。由于行人檢測與行人重識別、行人跟蹤等領(lǐng)域密切相關(guān)，因此行人檢測技術(shù)的提升有利于行人重識別、行人跟蹤技術(shù)的提升。但本文對于行人的檢測速度仍低于單階段檢測器的檢測速度，因此，接下來對于檢測速度的提升還有待研究。并且近年來，很多研究者致力于提取更多信息輔助檢測（如光流信息、運動信息和環(huán)境信息等），提高特征表達(dá)能力，未來將對其進(jìn)行更深一步的探討。

參考文獻(xiàn) （References）

[1]PAPAGEORGIOU C P， OREN M， POGGIO T. A general framework for object detection [C]// Proceedings of the 6th IEEE International Conference on Computer Vision. Piscatway： IEEE， 1998：555-562.

[2]DALAL N， TRIGGS B. Histograms of oriented gradients for human detection [C]// Proceedings of the 2005 IEEE Computer Society Conference on Computer Vision and Pattern Recognition. Piscataway： IEEE， 2005： 886-893.

[3]WANG X Y， HAN T， YAN S C. An HOGLBP human detector with partial occlusion handling [C]// Proceedings of the 2009 IEEE 12th International Conference on Computer Vision. Piscataway： IEEE， 2009： 32-39.

[4]GIRSHICK R， DONAHUE J， DARRELL T， et al. Regionbased convolutional networks for accurate object detection and segmentation [J]. IEEE Transactions on Pattern Analysis and Machine Intelligence， 2016， 38（1）： 142-158.

[5]LOWE D G. Object recognition from local scaleinvariant features [C]// Proceedings of the 1999 International Conference on Computer Vision. Piscataway： IEEE， 1999：1150-1157.

[6]LOWE D G. Distinctive image features from scaleinvariant keypoints [J]. International Journal of Computer Vision， 2004， 60（2）： 91-110.

[7]WANG S F， YAN J H， WANG Z G. Improved moving object detection algorithm based on local united feature [J]. Chinese Journal of Scientific Instrument， 2015， 36（10）： 2241-2248.

[8]VIOLA P A， JONES M J. Rapid object detection using a boosted cascade of simple features [C]// Proceedings of the 2001 IEEE Computer Society Conference on Computer Vision and Pattern Recognition. Piscataway： IEEE， 2001：511-518.

[9]DALAL N， TRIGGS B. Histograms of oriented gradients for human detection [C]// Proceedings of the 2005 IEEE Computer Society Conference on Computer Vision and Pattern Recognition. Piscataway： IEEE， 2005：886-893.

[10]GIRSHICK R. Fast RCNN [C]// Proceedings of the 2015 IEEE International Conference on Computer Vision. Piscataway： IEEE， 2015： 1440-1448.

[11]REN S Q， HE K M， GIRSHICK R， et al. Faster RCNN： towards realtime object detection with region proposal networks [J]. IEEE Transactions on Pattern Analysis and Machine Intelligence， 2017， 39（6）：1137-1149.

[12]HE K M， GKIOXARI G， GIRSHICK R， et al. Mask RCNN [C]// Proceedings of the 2017 IEEE International Conference on Computer Vision. Piscataway： IEEE， 2017： 2980-2988.

[13]REDMON J， DIVVALA S K， GIRSHICK R， et al. You only look once： unified， realtime object detection [C]// Proceedings of the 29th IEEE Computer Vision and Pattern Recognition. Piscataway： IEEE， 2016：779-788.

[14]REDMON J， FARHADI A. YOLO9000： better， faster， stronger [C]// Proceedings of the 2017 IEEE Conference on Computer Vision and Pattern Recognition. Piscataway： IEEE， 2017： 6517-6525.

[15]REDMON J， FARHADI A. YOLOv3： an incremental improvement [EB/OL]. [2019-03-26]. https：//arxiv.org/pdf/1804.02767.pdf.

[16]LIU W， ANGUELOV D， ERHAN D， et al. SSD： single shot multibox detector [C]// Proceedings of the 14th European Conference on Computer Vision. Berlin： Springer， 2016： 21-37.

[17]張中寶，王洪元，楊薇. 基于FasterRCNN的遙感圖像飛機檢測算法[J]. 南京師大學(xué)報（自然科學(xué)版）， 2018， 41（4）： 79-86.（ZHANG Z B， WANG H Y， YANG W. Remote sensing image aircraft detection algorithm based on Faster RCNN [J]. Journal of Nanjing Normal University （Natural Science Edition）， 2018， 41（4）： 79-86.）

[18]YANG W， ZHANG J， ZHANG Z B， et al. Research on realtime vehicle detection algorithm based on deep learning [C]// Proceedings of the 2018 Chinese Conference on Pattern Recognition and Computer Vision. Berlin： Springer， 2018： 126-127.

[19]YANG W， ZHANG J， WANG H Y， et al. A vehicle realtime detection algorithm based on YOLOv2 framework [C]// Proceedings of the 2018 RealTime Image and Video Processing. Bellingham， WA： SPIE， 2018： 106700N.

[20]PHAM M T， LEFEVRE S. Buried object detection from BScan ground penetrating radar data using FasterRCNN [C]// Proceedings of the 2018 IEEE International Geoscience and Remote Sensing Symposium. Piscataway： IEEE， 2018： 6804-6807.

[21]KIM J， BATCHULUUN G， PARK K. Pedestrian detection based on Faster RCNN in nighttime by fusing deep convolutional features of successive images [J]. Expert Systems with Applications， 2018， 114： 15-33.

[22]SCHWEITZER D， AGRAWAL R. Multiclass object detection from aerial images using Mask RCNN [C]// Proceedings of the 2018 IEEE International Conference on Big Data. Piscataway： IEEE， 2018： 3470-3477.

[23]WEI X， XIE C， WU J. MaskCNN： localizing parts and selecting descriptors for finegrained bird species categorization [J]. Pattern Recognition， 2018， 76： 704-714.

[24]ANGELOVA A， ZHU S H， LIN Y Q. Image segmentation for largescale subcategory flower recognition [C]// Proceedings of the 2013 IEEE Workshop on Applications of Computer Vision. Piscataway： IEEE， 2013： 39-45.

[25]KRAUSE J， STARK M， DENG J， et al. 3D object representations for finegrained categorization [C]// Proceedings of the 2013 IEEE International Conference on Computer Vision Workshops. Washington， DC： IEEE Computer Society， 2013：554-561.

[26]HUANG S， XU Z， TAO D， et al. Partstacked CNN for finegrained visual categorization [C]// Proceedings of the 29th IEEE Computer Vision and Pattern Recognition. Piscataway： IEEE， 2016： 1173-1182.

[27]LIN D， SHEN Y， LU C， et al. Deep LAC： deep localization， alignment and classification for finegrained recognition [C]// Proceedings of the 2015 IEEE Conference on Computer Vision and Pattern Recognition. Piscataway： IEEE， 2015： 1666-1674.

[28]ZHANG Y， WEI X， WU J， et al. Weakly supervised finegrained categorization with partbased image representation [J]. IEEE Transactions on Image Processing， 2016， 25（4）： 1713-1725.

[29]XIE G， ZHANG X， YANG W， et al. LGCNN： from local parts to global discrimination for finegrained recognition [J]. Pattern Recognition， 2017， 71： 118-131.

[30]LEE S， CHAN C， MAYO S J， et al. How deep learning extracts and learns leaf features for plant classification [J]. Pattern Recognition， 2017， 71： 1-13.

[31]DAI J， HE K， SUN J. Instanceaware semantic segmentation via multitask network cascades [C]// Proceedings of the 29th IEEE Computer Vision and Pattern Recognition. Piscataway： IEEE， 2016： 3150-3158.

[32]LI Y， QI H Z， DAI J， et al. Fully convolutional instanceaware semantic segmentation [C]// Proceedings of the 2017 IEEE Conference on Computer Vision and Pattern Recognition. Piscataway： IEEE， 2017： 4438-4446.

[33]LONG J， SHELHAMER E， DARRELL T. Fully convolutional networks for semantic segmentation [C]// Proceedings of the 2015 IEEE Conference on Computer Vision and Pattern Recognition. Piscataway： IEEE， 2015： 3431-3440.

This work is partially supported by the National Natural Science Foundation of China （61572085）.

ZHU Fan， born in 1994， M. S. candidate. Her research interests include computer vision.

WANG Hongyuan， born in 1960， Ph. D.， professor. His research interests include computer vision.

ZHANG Ji， born in 1981， M. S.， lecturer. His research interests include computer vision.

99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

基于改進(jìn)的Mask RCNN的行人細(xì)粒度檢測算法