鄭琛媛,程遠(yuǎn)增,付 強(qiáng)
(陸軍工程大學(xué)石家莊校區(qū),石家莊 050003)
目標(biāo)檢測(cè)是計(jì)算機(jī)視覺(jué)中基礎(chǔ)的任務(wù)之一,其研究的主要目的是從復(fù)雜的背景中檢測(cè)并定位所設(shè)定種類的目標(biāo)物體[1]。近年來(lái),目標(biāo)檢測(cè)在醫(yī)學(xué)、軍事、智能交通、視覺(jué)導(dǎo)航等多個(gè)領(lǐng)域發(fā)揮著越來(lái)越重要的作用,有著廣泛的應(yīng)用前景和潛在的經(jīng)濟(jì)價(jià)值。
傳統(tǒng)目標(biāo)檢測(cè)算法利用滑動(dòng)搜索窗,通過(guò)改變其位置、大小和長(zhǎng)寬比遍歷整幅圖片,得到一系列的候選框,然后利用提取的特征和分類器對(duì)候選框進(jìn)行處理,從而檢測(cè)出要求的目標(biāo)[2]。對(duì)于這種檢測(cè)算法,如果要求檢測(cè)結(jié)果的準(zhǔn)確性高,就需要對(duì)圖像的遍歷過(guò)程更加精細(xì),但是這樣會(huì)引起計(jì)算量的增加,影響檢測(cè)的速度;如果想加快檢測(cè)速度,那么對(duì)圖像的遍歷過(guò)程就會(huì)相對(duì)粗糙,造成檢測(cè)結(jié)果的準(zhǔn)確性降低[3]。如何更加快速準(zhǔn)確地檢測(cè)出目標(biāo)也已經(jīng)成為當(dāng)今學(xué)者們普遍關(guān)注和研究的一個(gè)重要課題[4]。近些年來(lái),為了更好地調(diào)節(jié)檢測(cè)的準(zhǔn)確性和快速性之間的矛盾,人們對(duì)得到的候選框進(jìn)行研究,著眼于提高候選框的質(zhì)量、減少候選框的數(shù)量,進(jìn)而提出了“目標(biāo)提議(proposal)”的概念。目標(biāo)提議認(rèn)為在一張圖像中并不是每個(gè)子窗口都包含有目標(biāo),僅有少量的候選窗口對(duì)目標(biāo)的檢測(cè)是有意義的[5],利用一些方法將這些對(duì)目標(biāo)檢測(cè)有意義的窗口提取出來(lái),就是目標(biāo)提議的過(guò)程。兩種檢測(cè)算法的流程圖如圖1所示。
根據(jù)候選區(qū)域生成過(guò)程的不同,proposal算法大致可分為兩類[5]:一類是先將圖片分割,然后再聚合的方法,即聚合法,其中比較經(jīng)典的算法有Selective search[6]、CPMC[7]、MCG[8];另一類則是生成大量的候選窗并根據(jù)一些低層次的特征快候選窗進(jìn)行評(píng)分,然后過(guò)濾掉低分的方法,即候選窗評(píng)分法,其中比較經(jīng)典的算法有 Edge boxes[9]、Bing[10]。利用這些方法對(duì)圖像進(jìn)行處理可得到幾千個(gè)甚至幾百個(gè)包含目標(biāo)的可能性較高的候選框,這不僅提高了檢測(cè)的確性,而且降低了后續(xù)操作的時(shí)間復(fù)雜度,提高了檢測(cè)的速度[5]。
現(xiàn)有的提議算法都是針對(duì)常規(guī)物體,當(dāng)僅需要針對(duì)某種特定目標(biāo)進(jìn)行檢測(cè)時(shí),如監(jiān)控場(chǎng)景中只檢測(cè)人或車(chē)輛、軍事應(yīng)用中僅關(guān)心敵方飛機(jī)或?qū)椀那闆r,可以利用已有的先驗(yàn)知識(shí)改進(jìn)現(xiàn)有提議算法,提高其性能。Edge boxes是一種不需要進(jìn)行學(xué)習(xí)的快速[9]提議生成算法,處理一幀圖像平均需要0.27 s,因此,本文在edge boxes基礎(chǔ)上進(jìn)行研究。目標(biāo)的邊緣圖像可看作是由許多的輪廓(線段)組成,如果組成某一輪廓的所有像素點(diǎn)都位于候選框中,那么則認(rèn)為該輪廓就是一條被候選框完全封閉包圍的輪廓。Edge boxes將被候選框完全封閉包圍的邊緣輪廓的數(shù)量作為候選框評(píng)分的依據(jù)。但是,當(dāng)一候選框包含特定目標(biāo)及其周?chē)尘爸形矬w時(shí),利用edge boxes的評(píng)分依據(jù)進(jìn)行評(píng)分,通常情況下比恰好包含目標(biāo)的候選框的評(píng)分要高,這會(huì)影響對(duì)某一特定目標(biāo)檢測(cè)的結(jié)果。為了得到針對(duì)某一特定目標(biāo)的候選框,本文在Edge boxes算法的基礎(chǔ)上進(jìn)行改進(jìn),提取被候選框完全封閉包圍的輪廓在候選框不同區(qū)域的邊緣像素點(diǎn),以這些邊緣像素點(diǎn)幅值的均值組成特征向量,將各個(gè)候選框與目標(biāo)的特征向量的差值、被候選框完全封閉包圍的輪廓數(shù)量聯(lián)合起來(lái)作為評(píng)分的依據(jù)。實(shí)驗(yàn)結(jié)果證明,該方法能夠提高針對(duì)特定目標(biāo)的候選框的準(zhǔn)確性。
輸入一幅圖像Edge boxes包括兩個(gè)步驟:1)計(jì)算邊緣圖像;2)對(duì)候選框進(jìn)行評(píng)分。
對(duì)邊緣圖像的計(jì)算主要包括兩個(gè)步驟:1)得到初始的邊緣圖像;2)對(duì)原始邊緣圖像進(jìn)行稀疏化處理。首先,根據(jù)文獻(xiàn)[11]中所提出的結(jié)構(gòu)化邊緣檢測(cè)算法得到原始的邊緣圖像,然而,此邊緣圖像中包含細(xì)節(jié)的邊緣較多,影響檢測(cè)速度。為此對(duì)邊緣像素點(diǎn)進(jìn)行處理,要求只有當(dāng)邊緣像素點(diǎn)的幅值mp>0.1時(shí),將其作為邊緣像素點(diǎn),這樣就得到了稀疏化的邊緣圖像。如圖2所示,其中(a)圖表示原始圖像,黃色矩形框表示目標(biāo)位置;(b)圖表示稀疏化的邊緣圖像,藍(lán)色矩形框表示對(duì)應(yīng)目標(biāo)的邊緣圖像的位置。記稀疏化的邊緣圖像中任一像素點(diǎn)p,其對(duì)應(yīng)的幅值和方向角分別記為mp、θp。后續(xù)過(guò)程均在稀疏化的邊緣圖像上進(jìn)行。
Edge boxes將被候選框完全封閉包圍的輪廓的數(shù)量作為評(píng)分標(biāo)準(zhǔn),而輪廓可以看作是由許多相似性很高的像素群組成,通過(guò)計(jì)算像素群間的相似性,可以快速區(qū)分出被候選框完全封閉包圍的輪廓以及與候選框有重疊的輪廓。對(duì)于任意候選框b,具體評(píng)分計(jì)算過(guò)程如下[9]:
首先,計(jì)算像素群。對(duì)于任意p∈b,利用貪婪搜索的方法不斷尋找像素點(diǎn)8-連通范圍內(nèi)與其相似性最高的像素點(diǎn),直到這些像素點(diǎn)方向的差值和超過(guò)(π/2),這些像素點(diǎn)就組成了一個(gè)小的像素群。
其次,計(jì)算像素群間的相似度。如果相鄰的兩個(gè)像素群的方向角與平均位置夾角相同,那么這兩個(gè)像素群間具有很高的相似性。因此,對(duì)于一個(gè)像素群集合S中任意兩條相鄰的像素群si和sj,記si和sj的平均位置分別為xi和xj,平均方向角為θi和θj,其相似度a(si,sj)計(jì)算公式為:
其中,θij為 xi和 xj的夾角。為了簡(jiǎn)化計(jì)算,如果 a(si,sj)<0.05或兩個(gè)像素群間隔兩個(gè)或兩個(gè)以上像素點(diǎn),則將兩個(gè)像素群間的相似度記為a(si,sj)=0。
然后,計(jì)算像素群的權(quán)值wb(si)。對(duì)于像素群集合S中任一像素群si中所包含的像素點(diǎn) p的幅值mp的和記為mi,用Sb代表與候選框b有重疊的像素群的集合,如果si∈Sb,wb(si)=0,那么si與候選框b的關(guān)系wb(si)計(jì)算公式如下:
其中,T是指從候選框的邊緣開(kāi)始到達(dá)si的像素群序列集合也即路徑。通過(guò)尋找與候選框的邊緣有重疊的像素群與任一si間的相似度最高的路徑,得到與候選框有重疊的輪廓。
最后,計(jì)算候選框評(píng)分hnin由于在候選框的中心處的邊緣對(duì)檢測(cè)結(jié)果影響很小,因此,可以減去候選框b中心處框bin中的所有邊緣像素點(diǎn)幅值的和,候選框評(píng)分計(jì)算公式為:
其中,bw和bh分為為候選框的寬和高,bin的寬和高分別為bw/2和bh/2。
利用edge boxes算法處理圖像,如果候選框包含目標(biāo)和其周?chē)糠直尘?,或者圖像背景中部分區(qū)域的邊緣輪廓比目標(biāo)區(qū)域邊緣輪廓多,那么此時(shí)得到的候選框的評(píng)分通常比恰好包含目標(biāo)的候選框的評(píng)分要高。因此,針對(duì)特定目標(biāo),僅靠候選框中完全封閉包圍的輪廓數(shù)量不足以實(shí)現(xiàn)對(duì)特定目標(biāo)的候選框的優(yōu)選。鑒于此,本文在edgeboxes算法評(píng)分依據(jù)中加入了特定目標(biāo)。
對(duì)于一候選框,記其中完全封閉包圍的輪廓為Sf。如果候選框越接近剛好能將目標(biāo)包圍的情況,那么該框中完全封閉包圍的輪廓越接近目標(biāo)的輪廓,也即構(gòu)成Sf的像素點(diǎn)與構(gòu)成目標(biāo)輪廓的像素點(diǎn)的差別越小,那么構(gòu)成候選框中Sf的像素點(diǎn)與目標(biāo)的像素點(diǎn)在不同區(qū)域的幅值均值越接近?;诖耍疚倪x取了10個(gè)不同區(qū)域[12](如圖3所示)并得到各個(gè)區(qū)域中構(gòu)成Sf的像素點(diǎn)的幅值均值,利用這些幅值均值構(gòu)成的特征向量表征候選框中對(duì)應(yīng)每個(gè)區(qū)域中的輪廓信息。特征向量表示如下:
其中,gi表在第i個(gè)區(qū)域邊緣像素點(diǎn)幅值的均值。那么對(duì)應(yīng)的目標(biāo)在10個(gè)區(qū)域的像素點(diǎn)的幅值均值構(gòu)成的特征向量記為GT。
對(duì)于任一候選框,其提取的特征向量與目標(biāo)特征向量的總差值可通過(guò)wbg來(lái)表示,其計(jì)算公式如下:
如果候選框的大小、形狀和位置越接近標(biāo)準(zhǔn)框,那么其與目標(biāo)的邊緣輪廓的差異就越小,即wbg值就越??;相反,如果候選框的大小、位置和形狀與標(biāo)準(zhǔn)框差別越大,該框與目標(biāo)的邊緣輪廓的差異就越大,那么wbg值就越大。候選框b的評(píng)分hbs計(jì)算公式如下:
hbs越大表明候選框包含目標(biāo)的可能性越大。
針對(duì)特定目標(biāo),本文利用候選框中邊緣輪廓整體信息和局部信息相結(jié)合的方式,評(píng)價(jià)候選框包含特定目標(biāo)的可能性。即利用被候選框完全封閉包圍的輪廓的數(shù)量,候選框與目標(biāo)特征向量的差異來(lái)評(píng)價(jià)該框包含目標(biāo)的可能性的,因此,候選框的評(píng)分計(jì)算公式如下:
這里,sb值越大表明候選框包含目標(biāo)的可能性越大。
Edge boxes提議算法流程如下頁(yè)圖4所示。
CVPR2013[13]測(cè)評(píng)集中包含50個(gè)完整標(biāo)注的視頻序列,涵蓋了目標(biāo)檢測(cè)跟蹤面臨的主要挑戰(zhàn)性場(chǎng)景,近年來(lái)許多檢測(cè)跟蹤算法都以該測(cè)評(píng)集為基準(zhǔn)進(jìn)行實(shí)驗(yàn)和測(cè)評(píng)。本文在CVPR2013測(cè)評(píng)集中選取了 couple、David3、singer1視頻序列中的部分圖像,利用這些序列圖像對(duì)改進(jìn)算法與Edge boxes算法的性能進(jìn)行評(píng)估,實(shí)驗(yàn)設(shè)置參照Edge boxes[9]方法進(jìn)行。本文的實(shí)驗(yàn)平臺(tái)為配置3.2 GHz i5處理器、8 GB內(nèi)存、4核的普通電腦,仿真環(huán)境為MATLAB2013b。
將兩個(gè)框相交部分的面積與相并得到的面積相除得到的數(shù)值記為IoU,實(shí)驗(yàn)過(guò)程中設(shè)定一閾值,當(dāng)某一候選框與標(biāo)準(zhǔn)框的IoU大于該閾值,將該框的位置存儲(chǔ)起來(lái)。首先,得到得分最高的1 000個(gè)候選框,然后在每個(gè)候選框的周?chē)ㄟ^(guò)改變滑動(dòng)搜索窗的大小和長(zhǎng)寬比得到得分最高的候選框即為提議算法在該位置提取的候選區(qū)域。以couple視頻序列中的某幅圖像為例,分別利用Edge boxes與改進(jìn)算法得到的部分評(píng)分較高的候選框,如圖5所示(黃色矩形框代表目標(biāo)位置,紅色矩形框代表候選框)。
本文利用精度來(lái)反映算法的性能:選取一定數(shù)量的候選框,那么與目標(biāo)真實(shí)位置的IoU在閾值范圍內(nèi)候選框數(shù)量與所選取候選框的數(shù)量的比值就代表了算法的精度。實(shí)驗(yàn)選取了couple視頻序列中140幅圖像、David3視頻序列中50幅圖像、singer1視頻序列中79幅圖像,在選取的視頻序列圖像中分別利用edgeboxes和改進(jìn)算法分別對(duì)這些圖像提取候選框,IoU設(shè)定為0.7時(shí),實(shí)驗(yàn)結(jié)果如表1所示。
實(shí)驗(yàn)發(fā)現(xiàn),IoU設(shè)定為0.7時(shí),同一視頻序列,精度至少提升了10.71%。對(duì)于Couple視頻序列,分別改變提取候選框數(shù)量和IoU取值得到的精度曲線分別如圖6所示:圖6(a)表示IoU為0.7時(shí)提取1 000個(gè)候選框的精度變化曲線,圖6(b)表示IoU從0.5變化到1的精度變化曲線。從圖中可以看出IoU一定,改變提取候選模板的數(shù)量;或者提取候選模板數(shù)量一定,改變IoU取值時(shí),利用改進(jìn)算法比利用edgeboxes算法得到的精度都要高。尤其是提取模板數(shù)量一定,IoU在0.6~0.75這一范圍內(nèi)取值時(shí)。
表1 edge boxes與改進(jìn)算法針對(duì)各中目標(biāo)實(shí)驗(yàn)結(jié)果
從提議算法中可以看出,hbin和hbs的計(jì)算過(guò)程是相互獨(dú)立的,可以采用并行的方式實(shí)現(xiàn),提議算法處理一幅圖像需要1.04 s。
本文從特定目標(biāo)的檢測(cè)問(wèn)題出發(fā)對(duì)Edge boxes算法進(jìn)行了研究,提出了一種改進(jìn)的Edge boxes提議算法。在評(píng)分過(guò)程中,選取目標(biāo)的10個(gè)不同區(qū)域,計(jì)算組成被候選框完全封閉包圍的輪廓的像素點(diǎn)在各個(gè)區(qū)域的幅值均值,從而提出了特定目標(biāo)的特征向量,將候選框與目標(biāo)特征向量的差異、被候選框完全封閉包圍的輪廓的數(shù)量結(jié)合起來(lái)作為評(píng)價(jià)各個(gè)候選框包含目標(biāo)可能性大小的依據(jù)。提議算法在測(cè)試集上進(jìn)行了評(píng)測(cè),精度提升了10.71%左右,表明該算法具有良好的目標(biāo)-背景判別能力,魯棒性能良好。
參考文獻(xiàn):
[1]郭明瑋,趙宇宙,項(xiàng)俊平,等.基于支持向量機(jī)的目標(biāo)檢測(cè)算法綜述[J].控制與決策,2014,29(2):193-200.
[2]胡正平,董淑麗,趙淑歡.多尺度局部區(qū)域響應(yīng)累積的非滑窗快速目標(biāo)檢測(cè)算法 [J]. 信號(hào)處理,2016,32(1):37-45.
[3]劉濤,吳澤民,姜青竹,等.基于候選區(qū)域的視覺(jué)目標(biāo)識(shí)別算法[J].軍事通信技術(shù),2015,36(4):16-20.
[4]張建軍,黃山,張洪斌,等.基于視頻的運(yùn)動(dòng)目標(biāo)檢測(cè)與識(shí)別[J].現(xiàn)代電子技術(shù),2009,39(8):87-91.
[5]HOSANG J,BENENSON R,DOLLAR P,et al.What makes for effective detection proposals [J].Pattern Analysis and Machine Intelligence,2016,38(4):814-830.
[6]UIJLINGS J R R,VAN DE SANDE K E,GEVERS T,et al.Selective search for object recognition[J].International Journal of Computer Vision,2013,104(2):154-171.
[7]CARREIRA J,SMINCHISESCU C.Cmpc:automatic object segmentation using constrained parametric min-cuts[J].Pattern Analysisand MachineIntelligence,2012,34 (7):1312-1328.
[8]ARBELAEZ P,TUSET J P ,BARRON J,et al.Multiscale combinational grouping[C]//Conference on Computer Vision and Pattern Recognition,2014:328-335.
[9]ZITNICK C L,DOLLAR P.Edge boxes:locating object proposals form edges[J].European Conference on Computer Vision,2014:391-405.
[10]CHENG M M,ZHANG Z M,LIN W Y,et al.BING:binarized normed gradients for objectness estimation at 300fps[C]//Conference on Computer Vision and Pattern Recognition,2014:3289-3293.
[11]DOLLAR P,ZITNICK C L.Structured forests for fast edge detection[C]//International Conference on Computer Vision,2013:1841-1848.
[12]ZHU G,PORIKLI F,LI H D.Beyond local search:tracking objects everywhere with instance-specific proposals[C]//Conference on Computer Vision and Pattern Recognition,2016:943-951.
[13]WU Y,LIM J,YANG M H.Online object tracking:a benchmark[C]//IEEE Conference on Computer Vision and Pattern Recognition,Portland,USA,2013:1354-1362.