• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      基于深度學(xué)習(xí)的行人檢測(cè)技術(shù)研究進(jìn)展

      2019-05-23 11:38:48黃同愿向國(guó)徽楊雪姣
      關(guān)鍵詞:行人框架特征

      黃同愿,向國(guó)徽,楊雪姣

      (重慶理工大學(xué) 計(jì)算機(jī)科學(xué)與工程學(xué)院, 重慶 400054)

      目標(biāo)檢測(cè)是計(jì)算機(jī)視覺領(lǐng)域的重要研究?jī)?nèi)容之一,它從給定圖像中檢測(cè)出特定類物體實(shí)例(例如“汽車”“飛機(jī)”等)[1],近年來引起了學(xué)術(shù)界和工業(yè)界的廣泛關(guān)注。行人檢測(cè)作為目標(biāo)檢測(cè)的典型任務(wù),其發(fā)展歷程與目標(biāo)檢測(cè)一致,在大數(shù)據(jù)驅(qū)動(dòng)發(fā)展的今天,機(jī)遇與挑戰(zhàn)并存[2-58]。行人檢測(cè)的目標(biāo)是在一張給定圖片或視頻幀中,精確定位出每一個(gè)在檢測(cè)范圍內(nèi)的行人。如果存在行人,給出該行人的空間范圍信息。行人檢測(cè)可以與行人跟蹤相結(jié)合應(yīng)用于輔助駕駛系統(tǒng)的視覺場(chǎng)景感知,并進(jìn)一步對(duì)行人目標(biāo)進(jìn)行測(cè)距和測(cè)速,計(jì)算碰撞時(shí)間TTC(Time to Collsion)。此外,行人檢測(cè)結(jié)合行人重識(shí)別后能廣泛應(yīng)用于智能視頻監(jiān)控和智能安保等領(lǐng)域。

      作為無人駕駛的基礎(chǔ)任務(wù),無論是從數(shù)據(jù)集的發(fā)布、公開挑戰(zhàn)賽的舉辦,還是從各大頂會(huì)(CVPRICCVECCVIJCV等)和學(xué)術(shù)期刊的關(guān)鍵詞分布來看,行人檢測(cè)無疑都是重頭戲。目前,對(duì)行人檢測(cè)領(lǐng)域的綜述研究較少。例如,文獻(xiàn)[2,12-13]主要調(diào)研行人檢測(cè)的傳統(tǒng)算法,未涉及目前焦點(diǎn)的深度學(xué)習(xí)技術(shù);文獻(xiàn)[4,11]等因時(shí)間節(jié)點(diǎn)關(guān)系,并未談及近一兩年來的研究進(jìn)展。在近兩年以深度學(xué)習(xí)技術(shù)為主導(dǎo)的目標(biāo)檢測(cè)領(lǐng)域快速發(fā)展背景下,行人檢測(cè)未再被作為單獨(dú)的方向綜合研究。然而,行人作為現(xiàn)實(shí)世界中形態(tài)和姿態(tài)最變化多端的特殊目標(biāo),是目標(biāo)檢測(cè)中最具挑戰(zhàn)的檢測(cè)任務(wù)。本文主要針對(duì)行人檢測(cè)在近兩年與深度學(xué)習(xí)技術(shù)結(jié)合的研究進(jìn)展進(jìn)行綜合討論,為該領(lǐng)域前沿綜合研究提供參考和依據(jù)。

      1 背景

      社交媒體網(wǎng)絡(luò)和移動(dòng)/可穿戴設(shè)備的普及導(dǎo)致了對(duì)分析可視化數(shù)據(jù)的需求越來越大。然而,移動(dòng)/可穿戴設(shè)備極大地限制了計(jì)算能力、存儲(chǔ)空間,因此高效的對(duì)象檢測(cè)器至關(guān)重要。受成像條件、個(gè)體差異和外界干擾以及實(shí)驗(yàn)誤差等因素的影響,行人檢測(cè)的速度和精度很難做到雙高,只能達(dá)到某種平衡。行人檢測(cè)面對(duì)的主要挑戰(zhàn)總結(jié)見圖1。

      圖1 行人檢測(cè)的挑戰(zhàn)總結(jié)

      理想的行人檢測(cè)模型應(yīng)滿足高精度和高效率要求。其中,精度包括定位精度和分類精度,效率可分為時(shí)間效率、存儲(chǔ)效率以及內(nèi)存效率。一般情況下,行人檢測(cè)的研究可以分為學(xué)術(shù)類研究和工程研究,不同的團(tuán)體可能的側(cè)重點(diǎn)也不同。學(xué)術(shù)研究多注重檢測(cè)器的性能(即精度),而工程研究則把效率放在第一位,但不能犧牲太多的精度。

      一般而言,視覺圖像中的行人會(huì)受到來自外界(如光照、天氣、環(huán)境等)和行人本身(姿態(tài)、大小、遮擋等)的影響,行人之間也會(huì)造成嚴(yán)重的干擾。例如,密集行人的區(qū)分和同一行人的整合(受遮擋物的影響,行人整體被切割成不相連通的塊)。在現(xiàn)實(shí)生活中,海報(bào)、模具等具有高干擾性的對(duì)象區(qū)分極具挑戰(zhàn)性,加之噪聲等的干擾則進(jìn)一步提升了區(qū)分難度。為了應(yīng)對(duì)這些復(fù)合式的疊加干擾,行人檢測(cè)的模型必須具有高度的魯棒性和泛化能力,這種能力通常來自海量的可訓(xùn)練參數(shù),這就對(duì)行人檢測(cè)的效率提出了極高的要求。

      2 相關(guān)研究

      在過去的幾十年中,對(duì)于行人檢測(cè)的相關(guān)研究成果較多,本文主要關(guān)注基于計(jì)算機(jī)視覺的算法和模型,一些典型的研究總結(jié)見表1。

      表1 行人檢測(cè)相關(guān)經(jīng)典文章列表

      早期的研究主要基于模板匹配和身體部件的思想[48]。在20世紀(jì)90年代以前,通用檢測(cè)器主要使用對(duì)象的幾何信息并設(shè)計(jì)先驗(yàn)?zāi)P?;之后,機(jī)器學(xué)習(xí)的浪潮使得基于表現(xiàn)特征的幾何分類器成為研究的熱點(diǎn),例如神經(jīng)網(wǎng)絡(luò)(neural network,NN)、支持向量機(jī)(support vector machine,SVM)和AdaBoost。1999年,具有尺度不變性的SIFT[49]特征的提出開啟了特征描述器的研究。特征檢測(cè)也從全局特征向局部特征演化,例如形狀上下文(shape context)[50]、方向梯度直方圖 (histogram of gradients,HOG)[51]、局部二值模式(local binary patterns,LBP)[52]等,使得分類器能更好地應(yīng)對(duì)行人這類尺度和形態(tài)多樣的對(duì)象。

      特征表達(dá)的相關(guān)研究極大地促進(jìn)了行人檢測(cè)的發(fā)展,幾何特征[14-16]、形狀特征[19-21]、動(dòng)作特征[22-23]以及多種特征的融合[24]是研究的主流。在特征提取發(fā)展的同時(shí),學(xué)習(xí)框架的研究也有不少成果。Tuzel 等[25]利用協(xié)方差矩陣計(jì)算局部特征作為對(duì)象描述符, Boost框架被修改后可用于黎曼流形,從而提高了性能。Maji等[51]提出了一種與直方圖交叉內(nèi)核近似的方法SVMs,允許大幅度加速,從而使非線性SVM能夠用于基于滑動(dòng)窗口的檢測(cè)。

      2008年,F(xiàn)elzenszwalb 等[52]描述了一種差異訓(xùn)練、多尺度、可變形的目標(biāo)檢測(cè)模型DPM。該模型在VOC挑戰(zhàn)賽中取得了2006年的最佳性能,并在2007年的20個(gè)項(xiàng)目中有10個(gè)超越最佳性能,Pedro Felzenszwalb也因此被VOC授予“終身成就獎(jiǎng)”。DPM可以看做是HOG(histogrrams of oriented gradients)的擴(kuò)展,它先計(jì)算梯度方向直方圖,然后用SVM訓(xùn)練得到物體的梯度模型。

      多年來,手工提取的特征一直制約著行人檢測(cè)的發(fā)展。直到2012年,Krizhevsky等[18]應(yīng)用深度卷積神經(jīng)網(wǎng)絡(luò)(deep convolutional neural networks,DCNN)模型取得了ILSVRC的冠軍,從此開啟了基于深度學(xué)習(xí)的行人檢測(cè)新篇章。

      深度卷積神經(jīng)網(wǎng)絡(luò)作為一種能自動(dòng)直接從原始數(shù)據(jù)中提取抽象特征的特征提取器[3],在計(jì)算機(jī)視覺任務(wù)中取得了不少成果[4-10]。這類體系結(jié)構(gòu)能夠應(yīng)用在通用目標(biāo)分類、通用目標(biāo)檢測(cè)、特征匹配、立體匹配、場(chǎng)景識(shí)別、姿態(tài)估計(jì)、動(dòng)作識(shí)別[11]等多項(xiàng)任務(wù)中,行人檢測(cè)也受益于DNN技術(shù)的發(fā)展。以DNN為基礎(chǔ)的深度學(xué)習(xí)技術(shù)擅長(zhǎng)發(fā)現(xiàn)高維數(shù)據(jù)中錯(cuò)綜復(fù)雜的結(jié)構(gòu),不需要太多的專業(yè)領(lǐng)域知識(shí),從而降低了研究者的入門門檻。

      隨著檢測(cè)技術(shù)的不斷進(jìn)步和應(yīng)用場(chǎng)景的不斷拓展,行人檢測(cè)結(jié)果的表示方式也呈現(xiàn)多樣化,如基于更精準(zhǔn)像素級(jí)分類的實(shí)例分割形式。實(shí)例分割與語義分割的區(qū)別在于前者要區(qū)分類內(nèi)差異,即同種類別的不同個(gè)體用不同的掩碼標(biāo)識(shí),而后者不需要區(qū)分,具體示例如圖2所示??梢钥闯觯盒腥藢?shí)例分割不僅可以識(shí)別出每個(gè)行人,還能區(qū)分不同的個(gè)體,其相對(duì)于行人檢測(cè)的邊界框表示結(jié)果來說更精細(xì)?;谶吔缈蛐腥藱z測(cè)可以包含非行人(背景、其他個(gè)體等)部分,而行人實(shí)例分割則完全貼合行人真實(shí)邊緣。

      圖2 行人識(shí)別、行人檢測(cè)、行人語義分割和行人實(shí)例分割示例圖

      Benenson 等[52]提出了一種新的行人檢測(cè)器,速度和質(zhì)量都優(yōu)于最先進(jìn)的檢測(cè)器,能有效處理不同的尺度,提高了檢測(cè)速度。Sermanet 等[35]采用多級(jí)特征、跨層連接等方法,將全局形狀信息與局部特征信息融合在一起,并應(yīng)用基于卷積稀疏編碼的無監(jiān)督方法在每個(gè)階段對(duì)過濾器進(jìn)行預(yù)訓(xùn)練。P.Doll’ar等[54]通過對(duì)自然圖像的統(tǒng)計(jì)分析,證明了跨尺度預(yù)測(cè)的可靠性。R-CNN系列、SSD、Mask-RCNN以及YOLO系列[55-63]等通用對(duì)象檢測(cè)器的研究也促使了行人檢測(cè)的發(fā)展。Zhang等在文獻(xiàn)[44]中通過改進(jìn)Faster R-CNN,并在共享的高分辨率的卷積特征圖上使用改進(jìn)的隨機(jī)森林算法驗(yàn)證了通用目標(biāo)檢測(cè)器應(yīng)用于行人檢測(cè)的可能性。目前,在著名行人檢測(cè)數(shù)據(jù)集Caltech上性能最好的是Wang等[70]應(yīng)用邊界框回歸損失的方法,其在FPPI值為9時(shí)可達(dá)4.0%的對(duì)數(shù)平均誤檢率。在更加復(fù)雜的數(shù)據(jù)集KITTI上,行人Easy、Moderate和Hard的最好結(jié)果(AP)分別是87.81% 、78.29% 和74.46%。

      3 數(shù)據(jù)集介紹

      在深度學(xué)習(xí)的背景下,完善而標(biāo)準(zhǔn)的數(shù)據(jù)集在行人檢測(cè)的研究中至關(guān)重要。數(shù)據(jù)集不僅可以用來訓(xùn)練模型的參數(shù),評(píng)價(jià)模型的優(yōu)劣,通常還作為一種挑戰(zhàn)賽的形式促進(jìn)領(lǐng)域研究的發(fā)展。本文調(diào)查和統(tǒng)計(jì)的能用于行人檢測(cè)的常見數(shù)據(jù)集見表2。

      數(shù)據(jù)集分為兩類:第一類是諸如Caltech這種專用于行人檢測(cè)的數(shù)據(jù)集,其他非行人類不進(jìn)行標(biāo)注;另一類是類似COCO和BDD這樣的數(shù)據(jù)集,標(biāo)注文件中不僅對(duì)行人進(jìn)行標(biāo)注,其他類如車、飛機(jī)等也包括在內(nèi)。兩類數(shù)據(jù)集的共同點(diǎn)是:?jiǎn)晤愋腥说臉?biāo)注樣本較多,可以將行人樣本提取出來用于行人檢測(cè)的訓(xùn)練。

      在此,特別說明EuroCity數(shù)據(jù)集。該數(shù)據(jù)集拍攝于歐洲的31個(gè)城市,標(biāo)注類別為行人,同時(shí)對(duì)自行車、手推車、摩托車、滑板車、三輪車和輪椅上的行人進(jìn)行了區(qū)別標(biāo)注,在47 300張圖像中手動(dòng)標(biāo)記了238 200個(gè)行人實(shí)例,平均每張圖片包含5.04個(gè)行人。特別地,區(qū)分了海報(bào)、廣告和商店櫥窗的模特等,額外信息如鏡頭光暈、運(yùn)動(dòng)模糊、雨滴或在相機(jī)前面的雨刷等也作為圖片標(biāo)注。更多詳細(xì)的信息參考文獻(xiàn)[64]。

      表2 能用于行人檢測(cè)的常見數(shù)據(jù)集

      4 評(píng)價(jià)標(biāo)準(zhǔn)

      評(píng)價(jià)檢測(cè)器性能的指標(biāo)通常有對(duì)數(shù)平均漏檢率(log average miss-rate,LAMR)、幀率(frame per second,F(xiàn)PS)、查準(zhǔn)率(average precision,AP)和查全率(recall)。幀率表征模型的效率、查準(zhǔn)率、對(duì)數(shù)平均漏檢率和查全率反映模型的精度。對(duì)于行人檢測(cè)而言,給定一張測(cè)試圖片模型的輸出為{bi,ci,pi}i。bi為檢測(cè)框(bounding box,BBOX)的信息,通常由矩形框的中心點(diǎn)坐標(biāo)(x,y)和寬、高w,h組成,也可以由矩形框的left、top、right、bottom表示。ci是類別信息,pi表示該矩形框的對(duì)象屬于ci的條件概率。對(duì)于一個(gè)檢測(cè)框,當(dāng)它滿足下列條件時(shí),可以視為一個(gè)真正例(true positive,TP):

      1) 預(yù)測(cè)的類別信息c與標(biāo)簽的類別相同。

      2) 預(yù)測(cè)框與某個(gè)真實(shí)框之間的IOU(intersection over union)大于一定的閾值ε,

      (1)

      其中:bp為預(yù)測(cè)框,bg為真實(shí)框,area(bp∩bg)表示預(yù)測(cè)框與真實(shí)框相交部分的面積,area(bp∪bg)表示相并的面積。當(dāng)2個(gè)框完全重疊且大小一致時(shí),IOU值為1;當(dāng)2個(gè)框無交叉部分時(shí),IOU=0,說明位置預(yù)測(cè)完全錯(cuò)誤,所以IOU的取值范圍是0~1。閾值ε為超參數(shù),通常設(shè)置其值為0.5。不是真正例的框,都當(dāng)作假正例(false positive,F(xiàn)P)。假正例的個(gè)數(shù)越多說明誤檢率越大。類別概率p通常也和超參數(shù)β進(jìn)行比較,大于閾值則認(rèn)為屬于該類,否則屬于其他類,β的取值通常為0.5。

      一般情況下可通過繪制相對(duì)每張圖像誤檢數(shù)(false positive per image,F(xiàn)PPI)的漏檢率(miss rate,MS) 曲線或者P-R曲線來動(dòng)態(tài)評(píng)估模型性能。

      (2)

      (3)

      其中,給定閾值c,F(xiàn)N(c)表示假反例(false negative,F(xiàn)N)的個(gè)數(shù),TP(c)表示真正例的個(gè)數(shù),則可以定義對(duì)數(shù)平均漏檢率為:

      fppi(c)≤f

      (4)

      9 FPPI是參考[10-2,100]區(qū)間的等間隔分布,對(duì)于每一個(gè)FPPI,統(tǒng)計(jì)其對(duì)應(yīng)的MR。例如,常見模型在EuroCity數(shù)據(jù)集的MR-FPPI圖如圖3所示。

      圖3 常見模型EuroCity的MR-FPPI性能表現(xiàn)

      同樣地,計(jì)算AP:

      (5)

      其中,給定閾值c,召回率re(c)為:

      (6)

      查準(zhǔn)率AP為

      (7)

      選取不同的re,計(jì)算其對(duì)應(yīng)的AP則可得到P-R曲線。

      5 子問題研究

      結(jié)合之前分析的行人檢測(cè)中的主要問題和挑戰(zhàn),對(duì)影響行人檢測(cè)的子問題展開分析。例如檢測(cè)框架、特征表達(dá)、損失函數(shù)、上下文信息和訓(xùn)練策略等。

      5.1 檢測(cè)框架

      目前基于深度學(xué)習(xí)的檢測(cè)框架可以分為兩類:

      1) 兩階段檢測(cè)框架:包括生成候選區(qū)域和區(qū)域分類兩個(gè)階段。

      2) 一階段檢測(cè)框架:分類和檢測(cè)一步到位,不需要預(yù)先生成候選區(qū)域。

      一般而言,一階段的檢測(cè)框架相對(duì)于兩階段的檢測(cè)框架在模型檢測(cè)速度上較有優(yōu)勢(shì),但精度不足。典型的YOLO V3網(wǎng)絡(luò)在COCO數(shù)據(jù)集上mAP達(dá)到57.9%的同時(shí),速度能保持20FPS,是經(jīng)典的通用對(duì)象檢測(cè)框架,許多變體網(wǎng)絡(luò)也應(yīng)用在了行人檢測(cè)中[42-43,65-66]。

      基于行人檢測(cè)框架通常由通用目標(biāo)檢測(cè)框架改進(jìn)而來。典型的兩階段和一階段檢測(cè)框架情況見表3和表4。

      表3 典型2階段檢測(cè)框架列表

      表4 典型1階段檢測(cè)框架列表

      5.2 特征表達(dá)

      基于深度學(xué)習(xí)的檢測(cè)框架通常使用VGG,AlexNet、GooleNet、ResNet50、RestNet101、DarkNet、MobileNet[18,26-31]等作為骨干網(wǎng)絡(luò)提取特征?;诨瑒?dòng)窗口的策略需要對(duì)每個(gè)像素均勻處理,在多個(gè)尺度的不同寬高比上窮舉搜索進(jìn)一步增加搜索空間。為了解決不同尺度的問題,通常的做法是采用圖像金字塔的方法,例如檢測(cè)器[32]。但這種方案的測(cè)試時(shí)間和存儲(chǔ)開銷都極大??紤]到CNN提取的特征具有如下特性:

      1) 低層的特征具有較小的感受野,對(duì)于小尺度的目標(biāo)有更敏感的位置和細(xì)節(jié)信息,但是缺少語義信息。

      2) 高層的特征感受野較大,語義信息更豐富,對(duì)光照、形變等的魯棒性更高,但由于幾何信息的丟失,導(dǎo)致對(duì)小目標(biāo)檢測(cè)的效果較差。

      在行人檢測(cè)的具體應(yīng)用中,大部分行人目標(biāo)為小目標(biāo),因此融合低層的具有較小感受野的特征更有利于行人目標(biāo)檢測(cè),尤其是針對(duì)距離較遠(yuǎn)的行人效果更好。這種層次性的特征正好內(nèi)在地形成了特征金字塔的分布,加之不同尺度對(duì)象的檢測(cè)需求,利用DNN多中間層特征的檢測(cè)器成為目前行人檢測(cè)的主流方法。對(duì)于這種多層次的特征使用方式一般有3種:

      1) 使用多個(gè)DNN的層次特征組合進(jìn)行檢測(cè),典型的網(wǎng)絡(luò)如HyperNet和ION等[33-34]。

      2) 在DNN的多層進(jìn)行檢測(cè)。如SSD、MSCNN、RBFNet和DSOD[36-39]等網(wǎng)絡(luò)利用不同層次的特征來檢測(cè)不同大小的目標(biāo)。

      3) 混合上述兩種方法,如SharpMask、DSSD、FPN,YOLO V3[40-43]等,以YOLO V3為例,其網(wǎng)絡(luò)結(jié)構(gòu)如圖4所示。

      參照?qǐng)D4,YOLO V3采用416×416的三通道彩色原圖作為輸入,首先經(jīng)過一系列卷積塊和殘差塊進(jìn)行32倍下采樣,得到13×13的特征圖,在此特征圖上預(yù)測(cè)輸出第1批檢測(cè)結(jié)果。此時(shí)對(duì)應(yīng)大尺度的anchor,能夠檢測(cè)大目標(biāo),接著將此特征圖反卷積上采樣至26×26,與前面下采樣后同等大小的特征圖進(jìn)行跨通道融合,在此基礎(chǔ)上預(yù)測(cè)輸出第2批結(jié)果。第3次上采樣至52×52后進(jìn)行預(yù)測(cè),對(duì)應(yīng)小尺度anchor能夠較好地檢測(cè)小目標(biāo)。類似YOLO V3這種綜合多個(gè)層次特征檢測(cè)的方法是現(xiàn)階段檢測(cè)框架的主流,對(duì)于其他網(wǎng)絡(luò)的設(shè)計(jì)有很強(qiáng)的借鑒意義。針對(duì)行人檢測(cè)還可以更改anchor的分配機(jī)制,分配更多的anchor給低層特征,同時(shí)鑒于行人大部分0.41的寬高比,可以微調(diào)anchor值以進(jìn)一步提升效果。

      5.3 上下文信息

      在DNN檢測(cè)框架的設(shè)計(jì)中,目前越來越注重如何有效地利用上下文信息。上下文信息可以分為語義上下文、空間上下文和尺度上下文3類。從應(yīng)用范圍又可以歸納為全局上下文和局部上下文信息。語義上下文描述了一個(gè)對(duì)象處在某個(gè)特定場(chǎng)景的可能性,例如:坦克不可能在天上跑,魚只能在水中游等;空間上下文限定了目標(biāo)只能出現(xiàn)在特定的位置,例如:基于零部件的檢測(cè)限定,頭只能出現(xiàn)在脖子的上面;尺度上下文檢查檢測(cè)對(duì)象與它周圍物體的大小關(guān)系是否正常,例如:一個(gè)正常的行人是不會(huì)比緊挨著他的汽車大的。

      Chen等[67]設(shè)計(jì)了多階上下文產(chǎn)生器(multi-order contextualco-occurrence,MOCO)明確地模擬上下文。Zeng等[68]提出一種新的DNN模型,該模型能夠通過反向傳播的幾個(gè)階段聯(lián)合訓(xùn)練多階段分類器,通過訓(xùn)練策略的特定設(shè)計(jì),可以將其作用在上下文信息以支持下一階段訓(xùn)練的決策。為了處理遮擋和復(fù)雜背景的干擾,Wang等[66]提出了部分和上下文網(wǎng)絡(luò)(part and context network,PCN),采用局部競(jìng)爭(zhēng)機(jī)制進(jìn)行自適應(yīng)的上下文規(guī)模選擇。Yu等[69]提出IOU損失,使真實(shí)框與預(yù)測(cè)框之間的重疊最大化。

      5.4 損失函數(shù)

      損失函數(shù)的設(shè)計(jì)和選擇也影響著行人檢測(cè)的研究。在預(yù)測(cè)行人的定位信息時(shí),通常會(huì)把它當(dāng)作一個(gè)回歸問題。在RCNN中針對(duì)候選區(qū)域坐標(biāo)的歐氏距離訓(xùn)練了線性回歸模型。在Fast RCNN中,提出了SmoothL1損失替換了歐式距離。在Faster RCNN中,RPN的提出使邊界回歸使用了2次。為了解決遮擋和密集的行人檢測(cè),Wang等[70]基于目標(biāo)的吸引力和周圍目標(biāo)的排斥力假設(shè)提出了排斥損失(repulsion loss)。對(duì)于樣本類別不均衡帶來的問題,Lin等通過重新設(shè)計(jì)標(biāo)準(zhǔn)的交叉熵?fù)p失來解決,從而降低分配給分類良好的樣本的損失。FocalLoss的使用在現(xiàn)有檢測(cè)器的基礎(chǔ)上提升了一定的檢測(cè)精度。

      5.5 訓(xùn)練策略

      訓(xùn)練DNN的首要條件是要有大量的標(biāo)注樣本。標(biāo)注的質(zhì)量要盡可能地高,訓(xùn)練樣本的多樣性和分布也同樣重要。行人檢測(cè)或目標(biāo)檢測(cè)不同于圖像分類任務(wù),標(biāo)注的復(fù)雜度要高很多?,F(xiàn)階段,如ImageNet和 Places數(shù)據(jù)集等是擁有大量分類任務(wù)的數(shù)據(jù)集,因此,通常的訓(xùn)練策略是在ImageNet或Places上預(yù)訓(xùn)練骨干網(wǎng)絡(luò),以此作為檢測(cè)網(wǎng)絡(luò)的特征提取器,然后再在特定檢測(cè)任務(wù)如行人檢測(cè)數(shù)據(jù)集上進(jìn)行微調(diào),訓(xùn)練其定位功能。這是遷移學(xué)習(xí)的典型應(yīng)用,類似的成果有很多,如RPB+BF[70]、SA-Fast RCNN[71]、SDS-RCNN[17]等。

      5.6 其他子問題

      為了得到更豐富的特征表達(dá),數(shù)據(jù)增強(qiáng)通常也作為訓(xùn)練行人檢測(cè)模型中必不可少的手段。數(shù)據(jù)增強(qiáng)一般包括裁剪、旋轉(zhuǎn)、翻轉(zhuǎn)、縮放、調(diào)整寬高比、更改曝光、色調(diào)和對(duì)比度等手段。更復(fù)雜的做法還涉及背景切換、環(huán)境遷移、虛擬目標(biāo)等,如原始圖像加霧、雨天效果等。

      對(duì)于候選區(qū)域生成算法的研究也有不少代表。Chavali等在文獻(xiàn) [47]中全面評(píng)估了已有各種算法,并發(fā)布工具箱集成了主流的算法實(shí)現(xiàn)。Hosang等提出一種新的度量標(biāo)準(zhǔn)——平均召回率AR,用以更好地選擇各種區(qū)域推薦算法[48]。其他一些研究則涉及了對(duì)非極大值抑制(nonmaximum suppression,NMS)算法的改進(jìn)[53,45-48]。

      6 結(jié)束語

      行人檢測(cè)是通用對(duì)象檢測(cè)中一個(gè)典型且最具挑戰(zhàn)性的問題,受到了社會(huì)各界的廣泛關(guān)注。雖然深度學(xué)習(xí)的發(fā)展極大地促進(jìn)了行人檢測(cè)的進(jìn)步,但針對(duì)復(fù)雜場(chǎng)景和特殊環(huán)境的行人檢測(cè)仍有待提高。目前亟需解決的問題是需要更加豐富的數(shù)據(jù)集和更加高效的特征提取器。對(duì)于數(shù)據(jù)集來說,目前標(biāo)準(zhǔn)的大型數(shù)據(jù)集都基于國(guó)外的環(huán)境和場(chǎng)景,這在一定程度上影響了相關(guān)研究的進(jìn)展。國(guó)內(nèi)數(shù)據(jù)庫在大型行人目標(biāo)檢測(cè)數(shù)據(jù)集的構(gòu)建上還有很多發(fā)展空間。輕量化模型有利于設(shè)計(jì)高效的特征提取器,但精度的損失如何彌補(bǔ)也是未來研究的重點(diǎn)。綜上,行人檢測(cè)仍是一個(gè)機(jī)遇與挑戰(zhàn)并存的課題。

      猜你喜歡
      行人框架特征
      框架
      毒舌出沒,行人避讓
      意林(2021年5期)2021-04-18 12:21:17
      廣義框架的不相交性
      如何表達(dá)“特征”
      不忠誠(chéng)的四個(gè)特征
      路不為尋找者而設(shè)
      抓住特征巧觀察
      我是行人
      WTO框架下
      法大研究生(2017年1期)2017-04-10 08:55:06
      一種基于OpenStack的云應(yīng)用開發(fā)框架
      香港| 济阳县| 咸宁市| 麻阳| 安西县| 铁岭县| 寻甸| 丽江市| 镇江市| 南岸区| 广州市| 陆丰市| 威远县| 清苑县| 江永县| 信阳市| 南开区| 西和县| 红安县| 茌平县| 上饶市| 唐海县| 定陶县| 九江县| 东台市| 嘉兴市| 肥西县| 江山市| 江北区| 上犹县| 巴彦淖尔市| 鄯善县| 临澧县| 宁化县| 桓仁| 嘉鱼县| 宁陵县| 苏尼特左旗| 额尔古纳市| 吴堡县| 綦江县|