章 新,王 年,唐 俊,胡永兵
(安徽大學(xué) 電子信息工程學(xué)院,安徽 合肥 230601)
目標(biāo)檢測(cè)是計(jì)算機(jī)視覺研究中的一個(gè)重要領(lǐng)域.目標(biāo)快速檢測(cè)與目標(biāo)準(zhǔn)確定位是目標(biāo)檢測(cè)領(lǐng)域中兩個(gè)重要的研究方向,其在醫(yī)學(xué)工業(yè)、行人檢測(cè)、遙感圖像分析、車牌定位識(shí)別中有著重要的應(yīng)用前景.目標(biāo)檢測(cè)方法有多種,近年來基于滑動(dòng)窗口檢測(cè)方法的應(yīng)用非常廣泛,并得到很多學(xué)者的關(guān)注[1-5 ].
通過分析文獻(xiàn)[10]算法的檢測(cè)結(jié)果,發(fā)現(xiàn)背景窗口的數(shù)量達(dá)到整個(gè)候選區(qū)域數(shù)量的一半以上時(shí),后續(xù)的檢測(cè)、識(shí)別處理會(huì)受到直接影響.如果能識(shí)別出背景區(qū)域或直接跳過背景區(qū)域檢測(cè),就可以提高檢測(cè)效率.基于此想法,論文使用Prewitt算子提取圖像特征,采用二值化標(biāo)準(zhǔn)梯度特征方法來訓(xùn)練兩個(gè)級(jí)聯(lián)的二值化線性分類器,在使用非最大值估計(jì)候選區(qū)域后利用輪廓信息篩選候選區(qū)域.由PASCAL VOC 2007數(shù)據(jù)庫上對(duì)論文方法的廣義評(píng)價(jià)結(jié)果可知,平均每幅圖像產(chǎn)生780個(gè)目標(biāo)候選區(qū)域,獲得召回率為0.936.
Lab顏色空間能夠非常好地描述一切光源色與物體的顏色[11].Lab顏色空間描述的是顏色的顯示方式,是一種與設(shè)備無關(guān)的顏色模型,也是一種基于生理特征的顏色系統(tǒng).它是用數(shù)字化的方法來描述人的視覺感應(yīng),彌補(bǔ)了RGB模式依賴設(shè)備色彩特性的不足.Lab顏色空間用虛構(gòu)的均勻顏色分布替換了原有的色彩分布,彌補(bǔ)了RGB色彩模型中色彩分布不均的缺點(diǎn).因此,論文將采用Lab顏色空間對(duì)物體的顏色進(jìn)行描述.
目標(biāo)與背景的很大區(qū)別之一是目標(biāo)具有良好的閉合邊界.Prewitt算子是利用目標(biāo)區(qū)域中像素點(diǎn)左右、上下鄰點(diǎn)灰度差值是否達(dá)到極值來檢測(cè)邊緣.它對(duì)噪聲具有平滑的作用,錯(cuò)檢率低.論文先按照不同比例將目標(biāo)圖像縮放成36種不同尺寸大小的窗口,再使用Prewitt算子代替梯度幅值來計(jì)算物體的特征值,經(jīng)過觀察得知使用Prewitt算子計(jì)算的特征會(huì)使目標(biāo)之間顯示出更強(qiáng)的相關(guān)性.如圖1所示,使用Prewitt算子得到的模板邊緣處的特征值比中間的特征值亮度要高一些,即模板中間目標(biāo)區(qū)域的特征值較邊緣處的特征值亮度要低,而使用梯度幅值計(jì)算特征得到的模板表現(xiàn)的特性比較雜亂.
圖1 訓(xùn)練模板
Prewitt算子[12]是一種利用周圍8個(gè)鄰域像素的值來確定這個(gè)像素梯度的算子.它的4個(gè)模板由4個(gè)卷積核形成,如圖2所示.在處理時(shí),圖像中的每個(gè)點(diǎn)都使用這4個(gè)模板進(jìn)行卷積.
圖2 Prewitt算子模板
在計(jì)算圖像中每個(gè)點(diǎn)的特征值時(shí),先分別使用x方向、y方向、45°方向和135°方向的模板計(jì)算水平方向的特征S1、垂直方向特征S2、斜邊方向的特征S3和S4.用Prewitt算子求特征值的表達(dá)式為
(1)
(2)
(3)
(4)
然后將x方向的特征S1與y方向的特征S2融合成一個(gè)方向特征gradl_x,45°方向的特征S3和135°方向的特征S4融合成斜方向特征gradl_y.最后采用min(|gradl_x|+|gradl_y|,255)融合成該點(diǎn)的特征值,并將其存入一個(gè)byte中.
從文獻(xiàn)[13]可知將模板二值化有很多的優(yōu)點(diǎn),因此論文使用二值化標(biāo)準(zhǔn)梯度特征方法來二值化Prewitt算子提取后的特征.由于候選目標(biāo)窗口的位置不同,Prewitt特征會(huì)有不同的權(quán)值,所以使用等式(5)來近似計(jì)算候選區(qū)域內(nèi)存在目標(biāo)的可能性得分,從而快速獲得目標(biāo)候選區(qū)域
OL≈vi·sl+ti,
(5)
其中:vi,ti∈R分別代表學(xué)習(xí)獲得的尺寸i對(duì)于模板W的系數(shù)和偏移量;sl≈〈WC,gl〉是濾波器得分,gl是標(biāo)準(zhǔn)化Prewitt特征,l是位置,i是尺寸.
非最大值約束是用來對(duì)候選目標(biāo)窗口進(jìn)行預(yù)測(cè)的方法,先將待檢測(cè)的圖像重構(gòu)成訓(xùn)練所獲得的目標(biāo)尺寸大小,若是候選目標(biāo)尺寸越多,則檢測(cè)的范圍就會(huì)越廣;然后再對(duì)重構(gòu)后的圖像進(jìn)行Prewitt特征的計(jì)算,依據(jù)這些特征使用非最大值約束提取候選目標(biāo)窗口的基點(diǎn);最后將這些基點(diǎn)結(jié)合訓(xùn)練目標(biāo)尺寸構(gòu)建出目標(biāo)候選區(qū)域.
目標(biāo)檢測(cè)耗時(shí)的關(guān)鍵因素之一是目標(biāo)候選區(qū)域的數(shù)量.在保證檢測(cè)精度情況下,為了減少候選區(qū)域的數(shù)量,論文利用物體的輪廓和訓(xùn)練模板獲得目標(biāo)尺寸進(jìn)行候選區(qū)域的選擇與構(gòu)建,結(jié)果顯示提取的候選區(qū)域數(shù)量只有文獻(xiàn)[10]中產(chǎn)生窗口數(shù)的一半,且召回率較高.
基于輪廓信息預(yù)測(cè)候選區(qū)域是在基于非最大值約束方法構(gòu)建出候選區(qū)域的基礎(chǔ)上對(duì)候選區(qū)域進(jìn)行選擇、提取,從而確定最終的候選目標(biāo)窗口.如圖3所示,物體的輪廓信息是比較完整的,且其中描述物體的輪廓數(shù)也是較多的,而背景的輪廓信息是松散的.雖然其圍成的輪廓數(shù)目很多,但是其輪廓圍成的面積卻是相對(duì)較小的.
圖3 輪廓信息圖
基于此種特點(diǎn),使用輪廓信息對(duì)候選區(qū)域進(jìn)行二次篩選,即在使用非最大值約束的方法構(gòu)建出候選區(qū)域之后,再利用輪廓信息,確定候選區(qū)域中的完整輪廓的數(shù)目和有效輪廓數(shù)目,以數(shù)目多少來表示一個(gè)候選區(qū)域是有效的可能性,并基于此對(duì)候選區(qū)域進(jìn)行評(píng)分,再進(jìn)一步根據(jù)閾值確定候選目標(biāo)窗口的信息.為了減少篩選候選區(qū)域的時(shí)間,將候選區(qū)域重置成32×32大小后,再利用輪廓信息進(jìn)行篩選.
為了有效地減少候選目標(biāo)窗口的數(shù)量,論文在文獻(xiàn)[10]算法的基礎(chǔ)上進(jìn)行了改進(jìn).圖4給出了改進(jìn)后的算法流程.首先進(jìn)行參數(shù)訓(xùn)練,得到相應(yīng)參數(shù)與模板;然后再輸入測(cè)試圖像產(chǎn)生的一系列不同大小Prewitt特征,用非最大值進(jìn)行預(yù)測(cè),再使用輪廓信息進(jìn)行二次篩選;最后用訓(xùn)練圖像注釋來核實(shí)標(biāo)記.
圖4 算法框架
論文算法的運(yùn)行環(huán)境為Intel(R) Core(TM) i7CPU的PC和Windows 7操作系統(tǒng),算法實(shí)現(xiàn)平臺(tái)是Visual Studio2012,在PASCAL 2007數(shù)據(jù)庫上進(jìn)行了驗(yàn)證.算法的評(píng)價(jià)指標(biāo)為召回率.在對(duì)算法進(jìn)行評(píng)價(jià)時(shí),將評(píng)估結(jié)果與文獻(xiàn)[9-10]的結(jié)果進(jìn)行對(duì)比,采用的均是作者提供的源碼.召回率計(jì)算式為
(6)
圖5 召回率結(jié)果
圖5給出了3種方法的候選區(qū)域數(shù)量與召回率之間的關(guān)系曲線圖.從圖中可以看出論文方法的召回率比文獻(xiàn)[9]方法的召回率高,且候選區(qū)域數(shù)量比文獻(xiàn)[10]方法的候選區(qū)域數(shù)量少.表1給出了論文方法與另外兩種方法在PASCAL 2007數(shù)據(jù)庫上平均每幅圖像產(chǎn)生候選區(qū)域數(shù)量的差異以及平均處理時(shí)間.論文算法處理每幅圖像的時(shí)間不是很長(zhǎng),但是相較于文獻(xiàn)[10]的方法,計(jì)算效率還有待提高,這也是下一步研究需要改進(jìn)的方面.
表1 候選區(qū)域預(yù)測(cè)與目標(biāo)檢測(cè)時(shí)間
圖6為兩種方法提取的候選目標(biāo)區(qū)域.
圖6 兩種方法提取的候選目標(biāo)區(qū)域
結(jié)合表1和圖6來看,采用論文方法產(chǎn)生的候選區(qū)域主要集中在有物體區(qū)域,且平均每幅圖像產(chǎn)生的候選區(qū)域數(shù)較文獻(xiàn)[10]方法少了近一半,有效減少了后續(xù)檢測(cè)、識(shí)別的處理時(shí)間,這歸結(jié)于論文采用了輪廓信息進(jìn)行了二次篩選.論文方法是在文獻(xiàn)[10]方法的基礎(chǔ)上加入了輪廓信息進(jìn)行二次篩選的改進(jìn)算法,在篩選時(shí)可能存在著誤差,因而召回率相較于文獻(xiàn)[10]方法略微有所降低.文獻(xiàn)[9]方法的實(shí)現(xiàn)平臺(tái)是Matlab,運(yùn)行時(shí)間相對(duì)較長(zhǎng).
論文提出了一種基于非最大值約束的基礎(chǔ)上進(jìn)行二次提取目標(biāo)候選區(qū)域的算法.以Lab顏色空間對(duì)物體的顏色進(jìn)行描述,利用Prewitt算子提取特征,采用二值化標(biāo)準(zhǔn)梯度特征方法訓(xùn)練出具有出色檢測(cè)能力的二值化模型,以非最大值來構(gòu)建出初始候選區(qū)域,最后使用輪廓信息進(jìn)行二次篩選.評(píng)估結(jié)果表明:論文算法在保證了較高目標(biāo)召回率的同時(shí),候選區(qū)域數(shù)量也較文獻(xiàn)[10]方法少了近一半;同時(shí),在一些背景簡(jiǎn)單或單一的目標(biāo)檢測(cè)中,論文算法產(chǎn)生的目標(biāo)候選框數(shù)量低于70,這對(duì)背景簡(jiǎn)單或單一的目標(biāo)檢測(cè)具有積極意義,有效減少了后續(xù)檢測(cè)、識(shí)別的處理時(shí)間.雖然論文算法處理每幅圖像的時(shí)間不是很長(zhǎng),但是相較于文獻(xiàn)[10]的方法,計(jì)算效率還有待提高,這將是作者后續(xù)研究需要改進(jìn)的地方.