劉德建
摘 要:圖像前景分割作為目標(biāo)檢測(cè)、圖像融合的關(guān)鍵步驟,是當(dāng)前圖像處理與計(jì)算機(jī)視覺領(lǐng)域的研究熱點(diǎn)。特別是在普通相機(jī)拍攝的夜景人像中,由于閃光的原因?qū)е氯讼衽c背景的可視效果欠佳,分割算法存在極大挑戰(zhàn)。為此,該文面向同步獲取的閃光與非閃光圖像,提出了一種基于人像檢測(cè)和多源信息融合的人像分割方法。該算法首先采用梯度直方圖特征(Histogram of Gradient, HOG)作為表觀描述,通過支撐向量機(jī)(Support Vector Machine, SVM)實(shí)現(xiàn)夜景行人檢測(cè)。在此基礎(chǔ)上,根據(jù)兩類圖像的變化統(tǒng)計(jì)特征設(shè)計(jì)了代價(jià)函數(shù),具體包括閃光圖像變化分布、顏色信息,以及匹配變換估計(jì)信息等。最后利用圖割方法(Graph Cut, GC)實(shí)現(xiàn)代價(jià)函數(shù)最優(yōu)求解,并以此為依據(jù)提取夜景人像。針對(duì)多組夜景人像的分割實(shí)驗(yàn)結(jié)果表明,該文方法減少了傳統(tǒng)人像分割算法的交互過程,可以實(shí)現(xiàn)對(duì)夜景人像區(qū)域的自動(dòng)提取。
關(guān)鍵詞:圖像分割 夜景圖像 圖割
中圖分類號(hào):TP37 文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):1674-098X(2015)08(a)-0096-05
圖像分割與融合是計(jì)算機(jī)視覺與圖像處理領(lǐng)域的研究熱點(diǎn),特別是面向人像的前景分割,在目標(biāo)檢測(cè)、目標(biāo)識(shí)別、圖像融合等相關(guān)技術(shù)中有十分廣泛的應(yīng)用。其關(guān)鍵技術(shù)涉及到人體的定位,以及前景和背景的分離等。由于人體圖像具有尺度差異大、紋理復(fù)雜、姿態(tài)變化多等特點(diǎn),要從復(fù)雜背景中分離出人像信息是十分挑戰(zhàn)的課題。特別利用家用低成本相機(jī)拍攝的夜景圖像,因背景光源復(fù)雜,且在閃光拍攝的圖像中前景邊緣與背景信息容易交互干擾,使得現(xiàn)有的算法難以從這里圖像中有效地分割人像區(qū)域。
目前人像分割方法大致可以分為人工交互分割與全自動(dòng)分割等兩類,其中人工交互分割一般是基于圖割(Graph cut, GC)算法[1],通過手工標(biāo)記的方式,在人像周圍指定背景與前景信息,進(jìn)而通過構(gòu)建能量圖及邊切割,實(shí)現(xiàn)背景與前景的分離。基于Grab cut方法[2]則是在選定前景框內(nèi),通過分析背景區(qū)域與前景框內(nèi)的分布信息,實(shí)現(xiàn)前景目標(biāo)的分割。實(shí)驗(yàn)結(jié)果表明,基于圖割的算法運(yùn)算速度較快,分割效率較好,特別對(duì)復(fù)雜的背景邊緣有較好的適用性,得到了廣泛的關(guān)注,目前市場(chǎng)上已有相關(guān)的產(chǎn)品[3]。盡管如此,這類方法在分割過程中需要人工干預(yù),而且在夜景人像邊緣模糊的情況下分割效果不佳。
前景的自動(dòng)分割主要包括基于立體視覺[4]、運(yùn)動(dòng)信息[5]和背景建模[6-7]的方法。其中基于立體視覺的方法通過分析視差來判別前景區(qū)域。這類方法往往對(duì)分割目標(biāo)的視差范圍有一定限制,視差太小前景和背景難以分離,視差過大則場(chǎng)景中存在大量遮擋和零匹配現(xiàn)象,導(dǎo)致分割可靠性不足;基于背景建模的目標(biāo)分割方法需要利用先驗(yàn)信息對(duì)背景進(jìn)行建模,通常是在視頻或序列圖像的基礎(chǔ)上,分析場(chǎng)景的變化信息,以構(gòu)建背景模型。此外,在圖像前景自動(dòng)分割中,Sun提出了以閃光/非閃光圖像為數(shù)據(jù)源的摳圖方法[8-9]。前提是對(duì)場(chǎng)景分別進(jìn)行閃光/非閃光兩次拍攝,在閃光燈開啟時(shí),由于前景物體較為靠前因此受閃光影響較大,對(duì)應(yīng)圖像更加明亮(強(qiáng)度更高);而沒有閃光燈時(shí),前背景的亮度區(qū)別較小,從而可以通過亮度對(duì)比信息提取前景區(qū)域。在相關(guān)后續(xù)工作[10]中,Sun將該方法拓展為Flash cut算法,實(shí)現(xiàn)了前景和背景的協(xié)同分割。其基本思路是根據(jù)閃光與非閃光圖像的差異,分析前景與背景的統(tǒng)計(jì)模型,最后通過圖割方法實(shí)現(xiàn)前景信息的分割。Flash cut提出后,得到了廣泛的關(guān)注,其中文[11]將閃光-非閃光圖構(gòu)建的前景信息推廣到圖像的顯著分析,取得良好的檢測(cè)效果。
在簡(jiǎn)單背景下,現(xiàn)有的分割算法對(duì)人像交互分割與融合方面已經(jīng)取得了較好的效果。然而,針對(duì)夜景的人像提取效果仍效果不佳,特別是當(dāng)背景光源信息復(fù)雜,以及前景邊緣和背景混合的時(shí)候,分割算法基本失效。為此,該文在閃光、非閃光圖像的基礎(chǔ)上,采用了檢測(cè)+分割的思路,首先根據(jù)梯度直方圖特征在非閃光夜景圖像中檢測(cè)人像方位;進(jìn)而根據(jù)同步獲取的閃光、非閃光圖像差異分布,在人像候選區(qū)域統(tǒng)計(jì)差分直方圖,并通過構(gòu)建代價(jià)函數(shù)、分割能量圖實(shí)現(xiàn)人像的分割。
該文余下內(nèi)容安排如下:第二章介紹梯度直方圖的計(jì)算方法,以及在夜景人像檢測(cè)中的應(yīng)用;第三章詳細(xì)闡述基于閃光、非閃光圖像的夜景人像分割算法流程;第四章通過實(shí)驗(yàn)分析本文算法的可靠性;第五章為論文總結(jié)。
1 基于梯度直方圖的夜景人像檢測(cè)
夜景人像檢測(cè)的目的是確定分割的候選區(qū)域,避免背景復(fù)雜光源,以及背景運(yùn)動(dòng)目標(biāo)等因素對(duì)分割效果的影響。針對(duì)夜景人像的特點(diǎn),本文采用了基于梯度直方圖(Histogram of Oriented Gradient,HOG)[12]與支撐向量機(jī)相結(jié)合的檢測(cè)方法,以實(shí)現(xiàn)夜景人像的檢測(cè)。HOG是目前最為廣泛使用的行人特征表示方法之一,其主要思想是通過圖像局部區(qū)域的梯度特征統(tǒng)計(jì)來增強(qiáng)判別性能。HOG特征的具體計(jì)算過程如算法1所示,其中行人圖片大小為64×128,塊(Block)大小為16×16,格子(cell)大小為8×8,每個(gè)塊內(nèi)包含4個(gè)格子,格子是計(jì)算HOG的最基本單元(如表1所示)。
根據(jù)文[12]實(shí)驗(yàn)設(shè)置的推薦,以及夜景圖像特點(diǎn),本文采用以下的設(shè)置以提高HOG的判別性能:(1)梯度計(jì)算時(shí)采用的掩膜為[-1 0 1]和[-1 0 1]T;(2)投票的時(shí)候方向角和空間位置進(jìn)行線性插值,即三線性插值;(3)塊內(nèi)的每個(gè)象素在投票的時(shí)候進(jìn)行高斯加權(quán);(4)對(duì)塊的特征向量進(jìn)行歸一化處理。
梯度直方圖特征具有高維特點(diǎn),需采用高效的分類器以實(shí)現(xiàn)特征的判別。由于支撐向量機(jī)(Support Vector Machine,SVM) 是建立在統(tǒng)計(jì)學(xué)習(xí)的VC 維理論和結(jié)構(gòu)風(fēng)險(xiǎn)最小原理基礎(chǔ)上的,它在解決小樣本、非線性及高維模式識(shí)別中獨(dú)具優(yōu)勢(shì)。為此,本文采用SVM作為夜景人像判別分類器。
2 基于閃光圖像的夜景人像分割
在人像區(qū)域檢測(cè)基礎(chǔ)上,可利用閃光與非閃光圖像的對(duì)比統(tǒng)計(jì)信息,以提高人像分割的效果。為此,本文首先根據(jù)二值分類定義了前景分割的能量函數(shù),并針對(duì)能量函數(shù)中的數(shù)據(jù)項(xiàng)與平滑項(xiàng)展開分析。特別是數(shù)據(jù)項(xiàng)的設(shè)計(jì),融入了閃光變化特點(diǎn)、顏色信息,以及匹配變換估計(jì)信息等。以下將分別介紹能量函數(shù)的構(gòu)造以及數(shù)據(jù)項(xiàng)的具體計(jì)算流程。
2.1 總體代價(jià)函數(shù)
為實(shí)現(xiàn)前景與背景的分類,本文定義代價(jià)函數(shù)如公式1所示:
(1)
其中xp表示像素p的背景標(biāo)簽,即當(dāng)且僅當(dāng)p為背景時(shí),xp=1,否則xp=0;Ed為數(shù)據(jù)項(xiàng),表示像素p分類為xp的代價(jià);Es為平滑項(xiàng),主要用于懲罰相鄰像素p,q的分類xp與xq不一致,目的減少噪聲干擾,保證分割結(jié)果的平滑性;α是權(quán)衡數(shù)據(jù)項(xiàng)與平滑項(xiàng)的權(quán)重。當(dāng)公式1達(dá)到最小值時(shí),對(duì)應(yīng)的前景信息為人像分類結(jié)果。
為了減少相鄰像素的分類差異,定義平滑項(xiàng)Es如下:
(2)
其中用于調(diào)節(jié)相鄰點(diǎn)灰度差對(duì)分類的影響。
根據(jù)夜景人像特點(diǎn),設(shè)計(jì)數(shù)據(jù)項(xiàng)如下:
(3)
其中分別用于衡量前景分類代價(jià)、閃光與非閃光圖像之間的運(yùn)動(dòng)差異,以及顏色信息差異,其計(jì)算方法將分別在2.2~2.4中闡述;為的權(quán)重。
2.2 基于直方圖對(duì)比的前景分類代價(jià)
在公式3中,用于衡量閃光與非閃光圖像中,像素直方圖的變化情況。主要思路是通過對(duì)比分析閃光圖像與無閃光圖像的直方圖信息來進(jìn)行建模。如果是離攝像頭比較遠(yuǎn)的物體,則受閃光的影響比較??;如果是離攝像頭比較近的前景物體,則受閃光的影響比較大。因此通過分析閃光前后,直方圖的變化情況,對(duì)象素點(diǎn)與前景之間的隸屬度進(jìn)行賦值。假設(shè)和分別表示閃光圖像和無閃光圖像的顏色直方圖。若,則說明閃光之后,第k個(gè)直方圖區(qū)間的象數(shù)點(diǎn)數(shù)目變少,也就是第k個(gè)直方圖區(qū)間的部分象數(shù)點(diǎn)被分配到了的其他區(qū)間(具體是哪個(gè)區(qū)間不知道);若,則說明閃光之后,第k個(gè)直方圖區(qū)間的象數(shù)點(diǎn)數(shù)目變多,說明的其他區(qū)間(具體是哪個(gè)區(qū)間不知道)上的象數(shù)點(diǎn)部分被分配到了直方圖的第k個(gè)區(qū)間。綜上,可定義代價(jià)項(xiàng)如下:
(4)
其中閃光和非閃光圖像的rp分別取值為和。
2.3 變換補(bǔ)償
公式3中的Et(xp)用于衡量閃光與非閃光圖像中,對(duì)應(yīng)同名點(diǎn)之間的像素差異。假設(shè)已經(jīng)知道了閃光前和閃光后兩張圖像之間的位移信息m(p)。那么對(duì)于閃光前的圖像而言,如果象數(shù)點(diǎn)的亮度信息變大了,那么是前景的概率應(yīng)該相應(yīng)增加。閃光前后的亮度信息差異可以用如下公式表示:
(5)
一般認(rèn)為,背景的像素點(diǎn)亮度變化較小。因此,可以用一個(gè)高斯分布來表述亮度差異信息,即,。像素點(diǎn)p屬于背景的概率可以用如下公式刻畫,
(6)
可以看出,當(dāng)時(shí),。綜上,能量項(xiàng)Et(xp)的可定義如下:
(7)
上式中未知的參數(shù)是。首先,可通過稀疏特征匹配來計(jì)算特征點(diǎn)的亮度差異信息,以差異直方圖均值作為μ的初值。則可以在直方圖中截取亮度差異小于某個(gè)閾值T的所有點(diǎn)統(tǒng)計(jì)得到,其中T取值為大于μ的首個(gè)局部極小點(diǎn)。由于同步采集的兩幅圖像之間尺度、角度基本一致,為提高分割效率,本文采用FAST算子[14]進(jìn)行特征提取,利用ORB描述子[15]實(shí)現(xiàn)稀疏特征匹配,并采用RANSAC算法[16]去除錯(cuò)誤匹配特征。
偏移量m的初值可以根據(jù)RANSAC獲取的變換結(jié)構(gòu),計(jì)算像素稠密匹配來得到。由于兩幅圖像同步獲取,且人像前景景深差異小,因此本文采用透視變換來作為像素位移初值的計(jì)算依據(jù)。在此基礎(chǔ)上,利用光流中改進(jìn)的Lucas-Kanade算法[17]來迭代計(jì)算稠密的像素變換補(bǔ)償參數(shù),具體如公式8所示:
(8)
2.4 基于混合高斯模型的前景分類代價(jià)
在公式3中,用于衡量前景信息的概率。在上述求解到的前景和背景概率的基礎(chǔ)上,挑選出所有背景概率小于0.4的點(diǎn),用于構(gòu)造前景混合高斯分布[13]。具體計(jì)算方法如公式9所示:
(9)
其中K是混合高斯模型的模型數(shù)量;wk是各個(gè)模型的權(quán)重;uk,∑k分別表示第k個(gè)模型的均值與協(xié)方差。同理,計(jì)算背景混合高斯分布可以挑選所有背景概率超過0.6的像素,通過文[13]的方法統(tǒng)計(jì)得到。在此基礎(chǔ)上,前景分類代價(jià)可以表示為:
(10)
2.5 算法流程
根據(jù)2.1~2.3的計(jì)算規(guī)則,本文總體算法流程如算法2所示(如表2所示)。
3 實(shí)驗(yàn)結(jié)果與分析
實(shí)驗(yàn)的目的是測(cè)試本文方法對(duì)夜景人像分割的效果。為此,本文根據(jù)實(shí)驗(yàn)需求采集了序列夜景圖像集,其中包含背景運(yùn)動(dòng)干擾、背景復(fù)雜光源(夜景工程)、前景紋理變化(衣著差異)等多個(gè)不同類別,部分?jǐn)?shù)據(jù)如圖1所示。以下將詳細(xì)描述實(shí)驗(yàn)的設(shè)置,以及結(jié)果分析。
3.1 實(shí)驗(yàn)設(shè)置
在夜景人像檢測(cè)模塊,HOG特征為3780維,梯度計(jì)算時(shí)采用的掩膜為[-1 0 1]和[-1 0 1]T;投票采用三線性插值。在代價(jià)函數(shù)模塊,公式1中的權(quán)重α取值為30;考慮到夜景圖像的閃光與非閃光圖像中,像素變化十分強(qiáng)烈,導(dǎo)致部分背景隸屬于前景概率也相應(yīng)提升,因此應(yīng)適當(dāng)降低了直方圖前景分布代價(jià)的權(quán)重,公式3中的數(shù)據(jù)項(xiàng)權(quán)重分別為5,15;公式4中的ζ=0.2;在顏色項(xiàng)中,混合高斯模型的數(shù)量取值為10。
3.2 結(jié)果與分析
第一組實(shí)驗(yàn)主要評(píng)價(jià)夜景圖像的人像檢測(cè)效果。由于本文的目標(biāo)是自動(dòng)分割出閃光圖像的人像,因此只需在閃光圖像中檢測(cè)行人區(qū)域。圖2中的背景包括復(fù)雜光源、運(yùn)動(dòng)目標(biāo)、前景邊緣與背景強(qiáng)度差異小等干擾因素。由于夜景人像往往背景強(qiáng)度相對(duì)較弱,相比之下,前景的強(qiáng)度、紋理特征豐富。從實(shí)驗(yàn)結(jié)果可以看出,采用HOG特征可以充分描述人像的表觀模型,因此SVM分類器能有效提取圖像中的行人區(qū)域。
第二組實(shí)驗(yàn)主要評(píng)價(jià)本文的圖割算法對(duì)于夜景人像的分割效果。針對(duì)背景運(yùn)動(dòng)、局部遮擋、復(fù)雜背景等因素對(duì)分割效果的影響,我們分別選取了圖3-圖6用于分析分割效果。如圖3(a)(b)(c)分別為閃光圖像、非閃光圖像、人像分割結(jié)果。從圖3(a)和圖3(b)中可以看出,背景存在運(yùn)動(dòng)目標(biāo)。由于背景中的人像強(qiáng)度信息(光線)較弱,紋理受噪聲干擾明顯,因此行人檢測(cè)器沒有響應(yīng)背景人像。而本文的算法只針對(duì)人像區(qū)域分析,因此可以有效過濾背景運(yùn)動(dòng)對(duì)分割效果的影響。在圖4中,前景包含了部分背景信息(手臂下方),由于本文通過像素分布設(shè)置了背景概率統(tǒng)計(jì)信息。因此,在前景背景混合的情況下,構(gòu)建的能量圖能給定前景和背景不同的權(quán)重,從而利用圖割算法可以有效地分割出人像區(qū)域,具體如圖4(c)所示。
圖5和圖6用于評(píng)價(jià)復(fù)雜背景對(duì)于人像分割的影響。從圖5(a)可以看出,人像上半部分的背景強(qiáng)度信息與人像信息接近,因此該區(qū)域的前景概率容易混淆。從實(shí)驗(yàn)結(jié)果也可以看出,人像下半身的背景區(qū)域紋理簡(jiǎn)單,有較好的分割效果,但是上半部分特別是肩膀附近,存在一定的錯(cuò)分割現(xiàn)象。圖6的結(jié)果也印證了上述結(jié)論,即前景邊緣與背景差異很小的時(shí)候,構(gòu)造出的能量圖相應(yīng)的邊權(quán)值也相應(yīng)較小,導(dǎo)致分割后的邊緣存在鋸齒現(xiàn)象。
4 結(jié)語
目前的夜景人像分割大多是采用交互的方式提取人像外輪廓,在背景光源復(fù)雜的情況下需要大量的人工干涉。本文針對(duì)夜景人像的自動(dòng)分割問題,利用同步獲取的閃光和非閃光圖像之間的差異,分析前景的概率分布信息?;玖鞒贪ɡ弥狈綀D特征實(shí)現(xiàn)人像區(qū)域檢測(cè)、基于閃光圖像變化分布和變換補(bǔ)償?shù)拇鷥r(jià)函數(shù)構(gòu)造,以及利用圖割實(shí)現(xiàn)人像提取等。實(shí)驗(yàn)結(jié)果表明本文的方法有效增強(qiáng)了分割的自動(dòng)化程度,特別是增加了人像檢測(cè)后,在背景光源復(fù)雜以及背景變化的情況下有較好的分割效果。預(yù)計(jì)相關(guān)成果在夜景圖像融合中有一定的推廣價(jià)值。
參考文獻(xiàn)
[1]Boykov Y Y, Jolly M P. Interactive graph cuts for optimal boundary & region segmentation of objects in ND images[C]//Computer Vision,2001.ICCV 2001.Proceedings.Eighth IEEE International Conference on.IEEE, 2001:105-112.
[2]Rother C,Kolmogorov V, Blake A. Grabcut:Interactive foreground extraction using iterated graph cuts[J].ACM Transactions on Graphics(TOG),2004,23(3):309-314.
[3]沈洋,林曉,謝志峰,等.交互式前景摳圖技術(shù)綜述[J].計(jì)算機(jī)輔助設(shè)計(jì)與圖形學(xué)學(xué)報(bào),2014,26(4):511-519.
[4]Torr P H S,Szeliski R, Anandan P.An integrated Bayesian approach to layer extraction from image sequences[J].Pattern Analysis and Machine Intelligence,IEEE Transactions on,2001,23(3):297-303.
[5]Sun J,Zhang W,Tang X,et al. Background cut[C]//Computer Vision–ECCV 2006.Springer Berlin Heidelberg,2006:628-641.
[6]Mittal A,Paragios N.Motion-based background subtraction using adaptive kernel density estimation[C]//Computer Vision and Pattern Recognition, 2004.CVPR 2004.Proceedings of the 2004 IEEE Computer Society Conference on.IEEE,2004:II-302-II-309 Vol.2.
[7]Monnet A,Mittal A, Paragios N,et al.Background modeling and subtraction of dynamic scenes[C]//Computer Vision,2003.Proceedings.Ninth IEEE International Conference on. IEEE,2003:1305-1312.
[8]J.Sun,Y.Li,S.B.Kang,et al .Flash matting[M].In Proceedings of SIGGRAPH,2006:361-366.
[9]Sun J,Li Y,Kang S B,et al. Flash matting[J].ACM Transactions on Graphics(TOG),2006,25(3):772-778.
[10]Sun J,Kang S B,Xu Z B,et al.Flash cut:Foreground extraction with flash and no-flash image pairs[C]//Computer Vision and Pattern Recognition,2007.CVPR07.IEEE Conference on.IEEE,2007:1-8.
[11]He S,Lau R W H.Saliency Detection with Flash and No-flash Image Pairs[C]//Computer Vision–ECCV 2014.Springer International Publishing,2014:110-124.
[12]Dalal N,Triggs B.Histograms of oriented gradients for human detection[C]//Computer Vision and Pattern Recognition,2005.CVPR 2005.IEEE Computer Society Conference on.IEEE,2005:886-893.
[13]Blake A,Rother C,Brown M,et al.Interactive image segmentation using an adaptive GMMRF model[C]//Computer Vision ECCV 2004.Springer Berlin Heidelberg,2004:428-441.
[14]Rosten E,Drummond T.Machine learning for high-speed corner detection[C]//Computer Vision–ECCV 2006.Springer Berlin Heidelberg,2006:430-443.
[15]Rublee E,Rabaud V,Konolige K,et al.ORB:an efficient alternative to sift or surf[C]//Computer Vision(ICCV),2011 IEEE International Conference on.IEEE,2011:2564-2571.
[16]Fischler M A,Bolles R C.Random sample consensus:a paradigm for model fitting with applications to image analysis and automated cartography[J].Communications of the ACM,1981,24(6):381-395.
[17]Bruhn A,Weickert J,Schn?rr C.Lucas/Kanade meets Horn/Schunck:Combining local and global optic flow methods[J].International Journal of Computer Vision,2005,61(3):211-231.