張潔 陳莉 李錚 王森 陳昃
摘要:針對(duì)復(fù)雜環(huán)境中由于行人間相互遮擋導(dǎo)致檢測(cè)準(zhǔn)確率低的問(wèn)題,考慮到行人頭部與行人是一一對(duì)應(yīng)關(guān)系,且頭部在行人運(yùn)動(dòng)過(guò)程中不易被遮擋,提出了一種基于聚類與Faster RCNN的行人頭部檢測(cè)算法。設(shè)計(jì)一種新的距離度量方法,并結(jié)合k-means++算法對(duì)已標(biāo)注人頭檢測(cè)框進(jìn)行聚類,以確定anchor大小與長(zhǎng)寬比;優(yōu)化NMS算法懲罰函數(shù)剔除無(wú)效人頭預(yù)測(cè)框,改善行人之間由于遮擋導(dǎo)致的召回率低的問(wèn)題。仿真實(shí)驗(yàn)表明,該算法相比其他方法可有效提升行人頭部檢測(cè)精度,在Brainwash和SCUT-HEAD兩個(gè)人頭檢測(cè)數(shù)據(jù)集上的最高AP值分別為90.2%和87.7%。
關(guān)鍵詞:行人檢測(cè);聚類;Faster RCNN;非極大值抑制
中圖分類號(hào):TP391
DOI:10.16152/j.cnki.xdxbzr.2020-06-013
Pedestrian head detection algorithm basedon clustering and Faster RCNN
ZHANG Jie, CHEN Li, LI Zheng, WANG Sen, CHEN Ze
(School of Information Science and Technology, Northwest University, Xi′an 710127, China)
Abstract: Aiming at the problem that the pedestrian detection accuracy is low due to the pedestrian occlusion in a complex environment, considering that there is a one-to-one correspondence between the head and the person, and the head is not easily occluded during pedestrian movement,? a pedestrian head detection algorithm based on clustering and Faster RCNN is proposed. The k-means++algorithm used the newly designed distance measurement method to cluster all labeled head detection boxes and determine the anchor size and aspect ratio. The penalty function of the NMS algorithm is optimized to remove invalid head prediction boxes, which can alleviate the problem of low recall due to pedestrian occlusion. The experiments show that compared with other methods, the proposed algorithm effectively improves the detection accuracy of pedestrian head. The highest AP on Brainwash and SCUT-HEAD datasets reached 90.2% and 87.7% respectively.
Key words: pedestrian detection; clustering; Faster RCNN; non-maximum suppression
行人檢測(cè)是計(jì)算機(jī)視覺(jué)處理領(lǐng)域的一個(gè)重要研究分支,可應(yīng)用于智能視頻監(jiān)控、人體行為分析、汽車無(wú)人駕駛和智能交通等領(lǐng)域,因而,對(duì)行人檢測(cè)問(wèn)題的研究具有重要的理論意義和廣闊的應(yīng)用前景。由于人體姿態(tài)復(fù)雜,易變形,且有附著物和遮擋等問(wèn)題,在不同場(chǎng)景下能否準(zhǔn)確檢測(cè)到行人的理論和技術(shù)研究仍具有很大挑戰(zhàn)。
行人檢測(cè)可分為傳統(tǒng)的行人檢測(cè)方法和基于深度學(xué)習(xí)技術(shù)的檢測(cè)方法兩大類。傳統(tǒng)的行人檢測(cè)方法重點(diǎn)是將特征提取算法和特征分類器結(jié)合以完成檢測(cè),目前通過(guò)提取圖像特征的方法來(lái)衡量?jī)煞鶊D片相似性的算法均取得了不錯(cuò)的效果[1-2],代表性的特征提取算法有尺度不變特征變換(scale invariant feature transform, SIFT)[3]、哈爾特征(Haar-like features, Haar)[4]、方向梯度直方圖(histogram of oriented gradient, HOG)[5]等;代表性的分類器有自適應(yīng)級(jí)聯(lián)分類器(adaptive boosting, AdaBoost)[6]、支持向量機(jī)(support vector machine, SVM)[7]、可變型部件模型(deformable parts model, DPM)[8]等。但傳統(tǒng)的行人檢測(cè)方法使用人工設(shè)計(jì)的底層特征實(shí)現(xiàn)對(duì)行人的表達(dá),易造成分類錯(cuò)誤率高,行人檢測(cè)效果不佳的問(wèn)題。
自2006年深度學(xué)習(xí)被Hinton等人[9]提出以來(lái),使用卷積神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)目標(biāo)特征的方法便成為學(xué)術(shù)界的研究熱點(diǎn)。Girshick等人提出兩階段的RCNN[10]是基于深度學(xué)習(xí)目標(biāo)檢測(cè)算法的開山之作,該算法用卷積神經(jīng)網(wǎng)絡(luò)提取圖像特征,并采用選擇性搜索(selective search)[11]方法進(jìn)行候選區(qū)域提取,取得了不錯(cuò)的檢測(cè)效果,但RCNN網(wǎng)絡(luò)整體設(shè)計(jì)復(fù)雜,圖片處理速度慢;Redmon等人提出一階段的YOLO算法[12],從輸入圖像中直接回歸目標(biāo)所在位置,檢測(cè)速度可達(dá)45 f/s,大幅提高了目標(biāo)檢測(cè)速度,但檢測(cè)精度不理想。針對(duì)以上兩類算法的不足,相繼涌現(xiàn)出一系列改進(jìn)算法,如兩階段的改進(jìn)算法SPP-Net[13]、Fast RCNN[14]、Faster RCNN[15]等和一階段的改進(jìn)算法YOLO9000[16]、SSD[17]等。文獻(xiàn)[18-19]都是基于以上兩類目標(biāo)檢測(cè)框架實(shí)現(xiàn)的行人檢測(cè)算法。Mao等人以Faster RCNN為主體框架,對(duì)其進(jìn)行改進(jìn)并提出一個(gè)新的網(wǎng)絡(luò)框架HyperLearner,通過(guò)學(xué)習(xí)額外特征來(lái)提升行人檢測(cè)性能,然而該算法在行人被遮擋時(shí)容易出現(xiàn)漏檢[20];García J等人[21]將行人檢測(cè)轉(zhuǎn)換成對(duì)行人頭部的檢測(cè)以改善行人遮擋導(dǎo)致的檢測(cè)精度低問(wèn)題,但使用手工設(shè)計(jì)的特征對(duì)人頭進(jìn)行檢測(cè)時(shí)特征的表達(dá)能力不足,檢測(cè)效果不佳,易造成漏檢問(wèn)題;文獻(xiàn)[22-23]利用卷積神經(jīng)網(wǎng)絡(luò)提取行人頭部特征,有效提升了行人頭部檢測(cè)精度,然而在行人遮擋時(shí)仍然會(huì)出現(xiàn)漏檢問(wèn)題。
雖然現(xiàn)有的行人頭部檢測(cè)算法已取得了可觀的檢測(cè)結(jié)果,但由于行人姿態(tài)復(fù)雜、遮擋等造成的檢測(cè)效果不佳問(wèn)題仍然存在。針對(duì)此類問(wèn)題,本文以Faster RCNN網(wǎng)絡(luò)為檢測(cè)基準(zhǔn),提出一種基于聚類與Faster RCNN的行人頭部檢測(cè)算法(簡(jiǎn)記為CFR-PHD)。CFR-PHD算法主要有兩個(gè)方面的改進(jìn):①設(shè)計(jì)一種新的距離度量方法,同時(shí)將聚類算法引入到Faster RCNN網(wǎng)絡(luò)中以自適應(yīng)設(shè)置anchor參數(shù),使模型訓(xùn)練過(guò)程更容易學(xué)習(xí);②在檢測(cè)階段,對(duì)傳統(tǒng)NMS算法的懲罰函數(shù)進(jìn)行優(yōu)化,避免由于行人頭部被遮擋導(dǎo)致的有效預(yù)測(cè)框被誤刪,提升人頭檢測(cè)算法召回率。在Brainwash[22]和SCUT-HEAD[23]兩個(gè)大型人頭數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果表明,CFR-PHD算法體現(xiàn)了更優(yōu)的人頭檢測(cè)性能。
1 相關(guān)知識(shí)
1.1 Faster RCNN算法
Faster RCNN是在RCNN和Fast RCNN等算法基礎(chǔ)上的一個(gè)改進(jìn),其網(wǎng)絡(luò)結(jié)構(gòu)如圖1所示。Faster RCNN主要?jiǎng)?chuàng)新點(diǎn)有兩個(gè):①提出RPN(region proposal networks)網(wǎng)絡(luò),用來(lái)提取候選區(qū)域;② RPN網(wǎng)絡(luò)與ROI Pooling層共享卷積層參數(shù),使網(wǎng)絡(luò)訓(xùn)練更高效。在Faster RCNN之前的RCNN算法系列中,均通過(guò)Selective Search算法抽取候選區(qū)域,而候選區(qū)域的提取包含大量計(jì)算,實(shí)驗(yàn)結(jié)果表明,通過(guò)Selective Search算法獲取一張圖片的候選區(qū)域平均需要2 s,而Faster RCNN中使用RPN網(wǎng)絡(luò)提取候選區(qū)域平均僅需10 ms,大幅提升了檢測(cè)速度。
1.2 Anchor機(jī)制
在RPN中anchor機(jī)制是核心。RPN網(wǎng)絡(luò)的本質(zhì)是通過(guò)滑動(dòng)窗口的方式生成候選區(qū)域,但它不是直接在輸入的原始圖像上進(jìn)行操作,而是與卷積神經(jīng)網(wǎng)絡(luò)的最后一個(gè)卷積層共享卷積特征,即把卷積層提取的特征作為RPN網(wǎng)絡(luò)的輸入,采用滑動(dòng)窗口的方式直接生成候選區(qū)域。
具體做法為:把Faster RCNN網(wǎng)絡(luò)卷積層最后一層產(chǎn)生的特征圖作為RPN網(wǎng)絡(luò)的輸入,用窗口大小為3*3,步長(zhǎng)(padding)為1的卷積核在特征圖上執(zhí)行卷積操作。當(dāng)3*3的卷積核滑動(dòng)到特征圖的每一個(gè)位置時(shí),當(dāng)前滑動(dòng)窗口中心在原圖中的映射點(diǎn)稱為錨點(diǎn),以錨點(diǎn)為中心生成不同大小和長(zhǎng)寬比的anchor,在Faster RCNN中,為了滿足目標(biāo)的多尺度特性,使用3種大?。?282,2562,5122)和3種長(zhǎng)寬比(1∶1,1∶2,2∶1),則RPN進(jìn)行卷積操作時(shí)每滑動(dòng)一次就對(duì)應(yīng)于原圖上3*3=9個(gè)anchor,如圖2所示。假設(shè)特征圖的通道數(shù)是256,則RPN每進(jìn)行一次3*3卷積操作后產(chǎn)生1*256的特征被9個(gè)anchor共同使用,進(jìn)行位置回歸和類別判斷,對(duì)所有的輸出框進(jìn)行類別置信度排序后,選擇top-N個(gè)輸出框作為候選框。
1.3 非極大值抑制
非極大值抑制(non-maximum suppression,NMS)是目標(biāo)檢測(cè)后處理中的一個(gè)經(jīng)典算法,最早由Neubeck A提出[24],用來(lái)對(duì)兩階段目標(biāo)檢測(cè)算法的重復(fù)預(yù)測(cè)框進(jìn)行去重并保存最佳預(yù)測(cè)框。NMS算法首先過(guò)濾置信度小于閾值St的預(yù)測(cè)框,然后不斷以擁有最大分類置信度的預(yù)測(cè)框與其他預(yù)測(cè)框做交并比(intersection over union, IOU)操作,并過(guò)濾IOU值大于預(yù)設(shè)交并比閾值的預(yù)測(cè)框,通過(guò)迭代的形式尋找局部最優(yōu)預(yù)測(cè)框。
2 基于聚類與Faster RCNN的行人頭部檢測(cè)算法
為了改善行人檢測(cè)中由于行人遮擋導(dǎo)致的檢測(cè)效果不佳的問(wèn)題,本文擬從行人頭部檢測(cè)角度出發(fā),將聚類算法引入到Faster RCNN中,并對(duì)傳統(tǒng)NMS算法的懲罰函數(shù)進(jìn)行優(yōu)化,以獲得更高的檢測(cè)準(zhǔn)確率。
2.1 聚類算法自適應(yīng)生成anchor
不同檢測(cè)數(shù)據(jù)集中所標(biāo)注的檢測(cè)框大小和長(zhǎng)寬比差異較大,若依然使用Faster RCNN模型中設(shè)置的9種大小和長(zhǎng)寬比的anchor,不僅會(huì)增加網(wǎng)絡(luò)訓(xùn)練時(shí)間,甚至難以得到較好的檢測(cè)效果。若能根據(jù)不同的數(shù)據(jù)集自適應(yīng)選擇合適的anchor大小和長(zhǎng)寬比,則有望提高目標(biāo)檢測(cè)的性能?;谶@一思路,本文將k-means++聚類算法和Faster RCNN算法結(jié)合,以自適應(yīng)設(shè)置anchor參數(shù)。傳統(tǒng)的k-means算法通常隨機(jī)選取k個(gè)樣本點(diǎn)作為初始的聚類中心,若聚類中心選擇不當(dāng),噪聲點(diǎn)和孤立點(diǎn)將使算法迭代次數(shù)增多,時(shí)間復(fù)雜度增大。k-means++算法中為了避免隨機(jī)選擇初始聚類中心點(diǎn)導(dǎo)致的不足,使用下述方法選擇初始聚類中心點(diǎn):假設(shè)已經(jīng)選取了n個(gè)初始聚類中心點(diǎn)(1≤n 在聚類算法中,選取合適的距離度量方法是確定合適anchor的關(guān)鍵。本文融合k-means++聚類算法的目的是確保每個(gè)anchor與其鄰近的真實(shí)檢測(cè)框有較大的IOU值。anchor大小的確定與標(biāo)注框的長(zhǎng)和寬尺寸沒(méi)有直接關(guān)系,而歐氏距離度量方法對(duì)標(biāo)注框的長(zhǎng)和寬的取值敏感,尺寸較大的邊界框容易出錯(cuò),聚類結(jié)果更加偏向尺寸較小的標(biāo)注框,對(duì)此,本節(jié)設(shè)計(jì)一種新的距離度量公式,如式(1)。 d12=e-α·IOU-C(b,clusteri),α>0(1) 其中,b和clusteri分別為標(biāo)注框和第i個(gè)聚類中心,IOU-C(b,clusteri)實(shí)質(zhì)是b和clusteri的交并比值,但與傳統(tǒng)交并比計(jì)算不同的是需要將b和clusteri兩個(gè)邊界框中心點(diǎn)重合之后再計(jì)算交并比;α是可調(diào)因子,實(shí)驗(yàn)中α取2;由式(1)可知,本文設(shè)計(jì)的距離度量公式可以保證距離越小,標(biāo)注框與聚類中心的面積越接近,IOU值越大,改善了歐氏距離度量方法對(duì)標(biāo)注框長(zhǎng)和寬尺寸敏感的現(xiàn)象。 2.2 改進(jìn)的NMS算法 經(jīng)典的非極大值抑制算法雖然可以有效地剔除重復(fù)的預(yù)測(cè)框,挑選出某一目標(biāo)的最佳預(yù)測(cè)框,但對(duì)于圖3所示的目標(biāo),由于目標(biāo)之間存在遮擋,兩個(gè)目標(biāo)的預(yù)測(cè)框IOU大于交并比閾值Nt時(shí),僅僅保留置信度高的預(yù)測(cè)框,而擁有較低置信度的預(yù)測(cè)框會(huì)被抑制,降低了算法的召回率。 對(duì)于預(yù)測(cè)框bi與分類置信度最高的預(yù)測(cè)框M,NMS算法對(duì)bi的懲罰函數(shù)如式(2)。 si=si,iou(M,bi) 0,iou(M,bi)≥Nt(2) 由式(2)可知,NMS算法的不足在于將IOU值大于Nt的預(yù)測(cè)框bi分類置信度置零,這樣雖可有效剔除無(wú)效預(yù)測(cè)框,但遇到目標(biāo)遮擋時(shí)容易誤刪有效預(yù)測(cè)框。針對(duì)NMS算法的不足,本節(jié)將NMS算法中的懲罰函數(shù)進(jìn)行優(yōu)化,優(yōu)化后的懲罰函數(shù)見式(3)。 si=si,iou(M,bi) sif(iou(M,bi)),iou(M,bi)≥Nt (3) 其中,f(iou(M,bi))=e-iou(M,bi)。(4) 通常預(yù)測(cè)框bi與局部最優(yōu)框M的交并比越大,表明兩個(gè)預(yù)測(cè)框越接近,預(yù)測(cè)框bi是假正例的可能性越大,對(duì)其的抑制理應(yīng)也越大。從式(3)可看出優(yōu)化后的懲罰函數(shù)對(duì)距離最優(yōu)框M越近的預(yù)測(cè)框bi懲罰越嚴(yán)重,si降低地越小;距離最優(yōu)框M越遠(yuǎn)的預(yù)測(cè)框bi基本不受懲罰。 懲罰函數(shù)優(yōu)化后的NMS算法對(duì)于IOU值大于閾值Nt的預(yù)測(cè)框bi,不再像NMS算法一樣直接刪除,而是將其置信度降低,可一定程度避免目標(biāo)遮擋時(shí)擁有較低置信度的預(yù)測(cè)框被誤刪,導(dǎo)致檢測(cè)召回率降低。 2.3 CFR-PHD算法描述 綜合以上分析,CFR-PHD算法結(jié)合式(1)設(shè)計(jì)的距離度量公式,利用k-means++算法對(duì)所用數(shù)據(jù)集中已標(biāo)注的邊界框進(jìn)行聚類,自適應(yīng)設(shè)置anchor大小和長(zhǎng)寬比,使模型訓(xùn)練過(guò)程更容易學(xué)習(xí);在模型檢測(cè)時(shí),利用式(3)對(duì)傳統(tǒng)NMS算法的懲罰函數(shù)進(jìn)行優(yōu)化,將檢測(cè)出的所有候選框進(jìn)行去重操作之后作為最終的預(yù)測(cè)框。算法具體實(shí)現(xiàn)步驟如下: 算法:基于聚類與Faster RCNN的行人頭部檢測(cè)算法 輸入:訓(xùn)練數(shù)據(jù)集 輸出:用于行人頭部檢測(cè)的神經(jīng)網(wǎng)絡(luò) step 1 結(jié)合式(1)利用k-means++算法對(duì)不同數(shù)據(jù)集自適應(yīng)生成anchor大小和長(zhǎng)寬比,確定anchor的個(gè)數(shù)k配置Faster RCNN; step 2 將訓(xùn)練集輸入到Faster RCNN網(wǎng)絡(luò),由VGG16中的卷積層提取每張圖片特征得到大小為(W/16)*(H/16)的Feature Map; step 3 將Feature Map中的每一個(gè)點(diǎn)映射到原圖上的一個(gè)區(qū)域,并以該區(qū)域中心在原圖生成k個(gè)anchor,總共生成k*(W/16)*(H/16)個(gè)anchor; step 4 RPN網(wǎng)絡(luò)對(duì)第3步生成的anchor進(jìn)行分類,并對(duì)存在人頭目標(biāo)的anchor進(jìn)行位置回歸,選擇top-N作為候選框; step 5 RoI pooling層將每個(gè)候選框在Feature Map上映射的特征轉(zhuǎn)換為固定尺寸的特征向量; step 6 全連接層利用轉(zhuǎn)換成的固定尺寸特征向量判別候選框有無(wú)人頭,并進(jìn)行位置回歸生成最終預(yù)測(cè)框; step 7 結(jié)合式(3)用改進(jìn)的NMS算法對(duì)上一步預(yù)測(cè)框執(zhí)行去重操作,保證每一個(gè)目標(biāo)最終只輸出一個(gè)置信度最大的邊界框。 3 實(shí)驗(yàn)結(jié)果及分析 本文算法實(shí)驗(yàn)環(huán)境見表1。 3.1 實(shí)驗(yàn)數(shù)據(jù)集 實(shí)驗(yàn)中使用的兩個(gè)數(shù)據(jù)集為Brainwash和SCUT-HEAD。 Brainwash數(shù)據(jù)集數(shù)據(jù)標(biāo)注信息保存在一個(gè)txt文檔中,需先將標(biāo)注方式轉(zhuǎn)換成標(biāo)準(zhǔn)Pascal VOC格式。該數(shù)據(jù)集圖片均來(lái)自一個(gè)咖啡館的監(jiān)控視頻,其標(biāo)注情況為:訓(xùn)練集10 769張圖像,共標(biāo)注81 975個(gè)人頭; 驗(yàn)證集500張圖像, 共標(biāo)注3 318個(gè)人頭; 測(cè)試集500張圖像, 共標(biāo)注5 007個(gè)人頭。 SCUT-HEAD數(shù)據(jù)集是華南理工大學(xué)2018年發(fā)布的一個(gè)大規(guī)模人頭檢測(cè)數(shù)據(jù)集, 總共有4 405張圖片,標(biāo)注了111 251個(gè)人頭坐標(biāo),數(shù)據(jù)集標(biāo)注遵循Pascal VOC標(biāo)準(zhǔn)。該數(shù)據(jù)集由partA和partB兩部分組成,partA中圖片均從教室監(jiān)控中采集,共2 000張,其中67 321個(gè)人頭被標(biāo)注,訓(xùn)練集1 500張,測(cè)試集500張。partB中圖片均從互聯(lián)網(wǎng)中爬取,共2 405張,其中43 930個(gè)人頭被標(biāo)注,訓(xùn)練集1 905張,測(cè)試集500張。 3.2 評(píng)估指標(biāo) 目標(biāo)檢測(cè)主要度量方法包括準(zhǔn)確率(precision)、召回率(recall)和平均精度(mean average precision,mAP)。 Precision指檢測(cè)器檢測(cè)正確的目標(biāo)占檢測(cè)的目標(biāo)的比例,其計(jì)算公式如下: precision=TP/(TP+FP)。(4) recall指測(cè)試集中的目標(biāo)被正確檢測(cè)出的比例,其計(jì)算公式如下: recall=TP(TP+FN)。(5) 其中: TP表示與真實(shí)標(biāo)注框的IOU大于所設(shè)閾值的檢測(cè)框; FP表示與真實(shí)標(biāo)注框的IOU小于所設(shè)閾值檢測(cè)框; FN表示沒(méi)有被檢測(cè)出的真實(shí)標(biāo)注框。 平均精度(average precision,AP)指某一類別目標(biāo)precision-recall曲線下的面積,AP值越高,表明檢測(cè)器對(duì)該類別的檢測(cè)性能越好;而mAP是對(duì)多個(gè)類別的AP再求平均值,mAP值越大,表明檢測(cè)器整體檢測(cè)性能越好,mAP指標(biāo)是目標(biāo)檢測(cè)算法中最重要的一個(gè)。 3.3 對(duì)比算法及參數(shù)設(shè)置 為了驗(yàn)證本文算法(CFR-PHD)的有效性,將本文算法與端對(duì)端的行人檢測(cè)算法(ReInspect)[22]和基于特征細(xì)化網(wǎng)絡(luò)與級(jí)聯(lián)多尺度結(jié)構(gòu)的頭部檢測(cè)算法(FRN-CMA)[23]進(jìn)行對(duì)比,所有算法均采取同樣的評(píng)估指標(biāo)。 本文實(shí)驗(yàn)所用兩個(gè)數(shù)據(jù)集的anchor參數(shù)設(shè)置由k-means++聚類算法產(chǎn)生, 考慮到設(shè)置過(guò)多數(shù)量的anchor會(huì)使模型時(shí)間復(fù)雜度增高, 所以聚類中心的個(gè)數(shù)k僅取2和3兩個(gè)值。 Faster RCNN網(wǎng)絡(luò)中用來(lái)進(jìn)行特征提取的網(wǎng)絡(luò)選用VGG16,訓(xùn)練過(guò)程中其他關(guān)鍵參數(shù)設(shè)置如表2。 表2中迭代次數(shù)的設(shè)置很大程度影響模型的性能,設(shè)置過(guò)小,會(huì)出現(xiàn)欠擬合問(wèn)題;設(shè)置過(guò)大,又容易出現(xiàn)過(guò)擬合問(wèn)題,在進(jìn)行大量實(shí)驗(yàn)的基礎(chǔ)上,本文實(shí)驗(yàn)的迭代次數(shù)最終選擇60 000。 3.4 結(jié)果分析 對(duì)Brainwash和SCUT-HEAD兩個(gè)大型人頭數(shù)據(jù)集聚類中心個(gè)數(shù)取k=2和k=3時(shí),生成的anchor大小和長(zhǎng)寬比如表3。 從表3可以看出,不管k取何值,對(duì)于兩個(gè)數(shù)據(jù)集而言,其長(zhǎng)寬比均接近于1,所以后續(xù)實(shí)驗(yàn)中長(zhǎng)寬比統(tǒng)一按1處理。為了便于網(wǎng)絡(luò)后續(xù)訓(xùn)練,將自適應(yīng)得到的anchor大小都調(diào)整至2的整數(shù)次冪,對(duì)于Brainwash數(shù)據(jù)集k=2和3時(shí),其大小均可以調(diào)整成(162, 322);SCUT-HEAD數(shù)據(jù)集k=2時(shí),大小調(diào)整為(162, 322),k=3時(shí),大小調(diào)整為(162, 322, 642)。 分別用聚類算法為兩個(gè)數(shù)據(jù)集自適應(yīng)產(chǎn)生的anchor配置Faster RCNN網(wǎng)絡(luò)的anchor參數(shù)值,其中,anchor的長(zhǎng)寬比均為1,并根據(jù)式(3)提出的優(yōu)化懲罰函數(shù)對(duì)傳統(tǒng)NMS后處理算法改進(jìn)(記為Better-NMS)之后,在兩個(gè)數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果如表4和表5所示。 表4中的第1行以及表5中的第1和第4行的anchor大小通過(guò)聚類算法自適應(yīng)產(chǎn)生,其他anchor大小為手工設(shè)計(jì)。從兩個(gè)數(shù)據(jù)集的實(shí)驗(yàn)結(jié)果可看出通過(guò)聚類算法生成的自適應(yīng)anchor大小對(duì)應(yīng)的AP值均高于其他anchor對(duì)應(yīng)的AP值。若再用Brtter-NMS進(jìn)行后處理,SCUT-HEAD數(shù)據(jù)集上AP值會(huì)進(jìn)一步大幅提升,而Brainwash數(shù)據(jù)集上的AP值提升較小,原因之一為Brainwash數(shù)據(jù)集中頭部之間的遮擋較少。以上實(shí)驗(yàn)結(jié)果表明利用聚類算法自適應(yīng)的anchor參數(shù),并結(jié)合Brtter-NMS后處理算法可一定程度上緩解由于行人遮擋導(dǎo)致的召回率低問(wèn)題,提高檢測(cè)精度,充分體現(xiàn)了CFR-PHD算法的可行性。 為了進(jìn)一步驗(yàn)證CFR-PHD算法的性能,在Brainwash和SCUT-HEAD數(shù)據(jù)集上與ReInspect和FRN-CMA兩個(gè)算法進(jìn)行對(duì)比。 Brainwash數(shù)據(jù)集對(duì)比實(shí)驗(yàn)中,anchor大小為(16*16,32*32),長(zhǎng)寬比為1,其對(duì)比實(shí)驗(yàn)結(jié)果如圖4和表6所示。 SCUT-HEAD數(shù)據(jù)集中,anchor大小為(16*16,32*32,64*64),長(zhǎng)寬比為1,其對(duì)比實(shí)驗(yàn)結(jié)果如圖5和表7所示。 Brainwash和SCUT-HEAD數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果表明,本文所提CFR-PHD算法相比于其他兩個(gè)對(duì)比算法,檢測(cè)性能均有所提升。在Brainwash數(shù)據(jù)集上CFR-PHD算法的檢測(cè)結(jié)果相對(duì)于ReInspect和FRN-CMA算法AP值分別提升了12.1%和2.1%;在SCUT-HEAD數(shù)據(jù)集上CFR-PHD算法的檢測(cè)結(jié)果相對(duì)于ReInspect和FRN-CMA算法AP值分別提升了10.2%和1.4%。兩個(gè)數(shù)據(jù)集上AP值的提升進(jìn)一步驗(yàn)證了CFR-PHD算法的有效性。 4 結(jié)語(yǔ) 針對(duì)行人運(yùn)動(dòng)過(guò)程中姿態(tài)復(fù)雜、遮擋等導(dǎo)致的檢測(cè)精度低的問(wèn)題,本文提出一種結(jié)合聚類與Faster RCNN的行人頭部檢測(cè)CFR-PHD算法。通過(guò)為聚類算法設(shè)計(jì)一種新的距離度量方法以自適應(yīng)設(shè)置anchor大小和長(zhǎng)寬比,使模型訓(xùn)練過(guò)程更容易學(xué)習(xí);同時(shí),改進(jìn)傳統(tǒng)NMS算法的懲罰函數(shù)以改善目標(biāo)之間由于遮擋導(dǎo)致的召回率低的問(wèn)題。在SCUT-HEAD和Brainwash數(shù)據(jù)集的實(shí)驗(yàn)結(jié)果表明本文所提CFR-PHD算法可以有效提升人頭檢測(cè)的AP值??紤]到Faster RCNN網(wǎng)絡(luò)復(fù)雜,檢測(cè)時(shí)間復(fù)雜度較大,如何在保證檢測(cè)精度的同時(shí)提高檢測(cè)速度是后續(xù)研究的主要方向。 參考文獻(xiàn): [1] 李鳴,張鴻.基于深度特征分析的雙線性圖像相似度匹配算法[J].計(jì)算機(jī)應(yīng)用,2016,36(10):2822-2825,2831. LI M,ZHANG H.Bilinear image similarity matching algorithm based on deep feature analysis[J]. Journal of Computer Applications, 2016,36(10):2822-2825,2831. [2] 鄒承明,薛棟,郭雙雙,等.一種改進(jìn)的圖像相似度算法[J].計(jì)算機(jī)科學(xué),2016,43(6):72-76. ZOU C M,XUE D,GUO S S,et al.Improved image similarity algorithm[J].Computer Science,2016,43(6):72-76. [3] LOWE D G. Distinctive image features from scale-invariant keypoints[J]. International Journal of Computer Vision, 2004, 60(2): 91-110. [4] VIOLA P A, JONES M. Rapid object detection using a boosted cascade of simple features [C]∥IEEE Conference on Computer Vision and Pattern Recognition. IEEE, 2001. [5] DALAL N, TRIGGGS B. Histograms of oriented gradients for human detection [C]∥IEEE Computer Society Conference on Computer Vision and Pattern Recognition.IEEE, 2005. [6] FERREIRA A J, FIGUEIREDO M A T. Boosting algorithms: A review of methods, theory, and applications[M]∥Ensemble Machine Learning. Boston, MA: Springer, 2012: 35-85. [7] VAPNIK V N. The Nature of Statistical Learning Theory[M].New York:Springer Science and Business Media, 2000. [8] FELZENSZWALB P F, GIRSHICK R B, MCALLESTER D, et al. Object detection with discriminatively trained part-based models[J]. IEEE Trans actions on Pattern Analysis and Machine Intelligence, 2010, 32(9): 1627-1645. [9] HINTON G E, SALAKHUTDINOV R R. Reducing the dimensionality of data with neural networks[J].Science,2006,313(5786):504-507. [10]GIRSHICK R, DONAHUE J, DARRELL T, et al. Rich feature hierarchies for accurate object detection and semantic segmentation [C]∥IEEE Conference on Computer Vision and Pattern Recognition.IEEE, 2014. [11]VAN DE SANDE K E A, UIJLINGS J R R, GEVERS T, et al. Segmentation as selective search for object recognition [C]∥IEEE International Conference on Computer Vision.IEEE, 2011. [12]REDMON J, DIVVALA S, GIRSHICK R, et al. You only look once: Unified, real-time object detection[EB/OL].2015: arXiv:1506.02640[cs.CV]. https:∥arxiv.org/abs/1506.02640 . [13]HE K M, ZHANG X Y, REN S Q, et al. Spatial pyramid pooling in deep convolutional networks for visual recognition[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2015, 37(9): 1904-1916. [14]GIRSHICK R. Fast R-CNN [C]∥2015 International Conference on Computer Vision.ICCV, 2015: 1440-1448. [15]REN S Q, HE K M, GIRSHICK R, et al. Faster R-CNN: Towards real-time object detection with region proposal networks[EB/OL].2015: arXiv:1506.01497[cs.CV]. https:∥arxiv.org/abs/1506.01497. [16]REDMON J, FARHADI A. YOLO9000: Better, faster, stronger [C]∥IEEE Conference on Computer Vision and Pattern Recognition.IEEE, 2017. [17]LIU W, ANGUELOV D, ERHAN D, et al. SSD:Single Shot MultiBox Detector [M]∥Comuter Vision-ECCV 2016. Cham:Springer International Publishing, 2016:21-37. [18]李偉山,衛(wèi)晨,王琳.改進(jìn)的Faster RCNN煤礦井下行人檢測(cè)算法[J].計(jì)算機(jī)工程與應(yīng)用,2019,55(4):200-207. LI W S,WEI C,WANG L.Improved Faster RCNN approach for pedestrian detection in underground coal mine[J].Computer Engineering and Applications,2019,55(4):200-207. [19]高宗,李少波,陳濟(jì)楠,等.基于YOLO網(wǎng)絡(luò)的行人檢測(cè)方法[J].計(jì)算機(jī)工程,2018,44(5):215-219,226. GAO Z,LI S B,CHEN J N,et al.Pedestrian detection method based on YOLO network[J]. Computer Engineering, 2018,44(5):215-219,226. [20]MAO J Y, XIAO T, JIANG Y N, et al. What can help pedestrian detection? [C]∥IEEE Conference on Computer Vision and Pattern Recognition.IEEE, 2017. [21]GARCA J, GARDEL A, BRAVO I, et al. Directional people counter based on head tracking[J]. IEEE Transactions on Industrial Electronics, 2013, 60(9): 3991-4000. [22]STEWART R, ANDRILUKA M, NG A Y, et al. End-to-end people detection in crowded scenes [C]∥IEEE Conference on Computer Vision and Pattern Recognition.IEEE,2016. [23]PENG D Z, SUN Z K, CHEN Z R, et al. Detecting heads using feature refine net and cascaded multi-scale architecture[EB/OL].2018: arXiv:1803.09256[cs.CV]. https:∥arxiv.org/abs/1803.09256. [24]NEUBECK A, VAN G L. Efficient non-maximum suppression [C]∥The 18th International Conference on Pattern Recognition.IEEE, 2006. (編 輯 李 靜)