華 漫,李燕玲,林瑞春
(中國民航飛行學院 計算機學院,四川 廣漢 618307)
?
基于雙目立體視覺的場景分割方法
華漫,李燕玲,林瑞春
(中國民航飛行學院 計算機學院,四川廣漢618307)
摘要:提出一種基于雙目立體視覺的場景分割方法:首先根據(jù)雙目立體視覺系統(tǒng)提供的左右視圖進行三維場景重構(gòu),得到場景的幾何深度圖,同時利用左視圖進行RGB顏色空間到CIELab均勻顏色空間的轉(zhuǎn)換以得到顏色信息;然后將顏色與幾何信息構(gòu)造生成六維向量;最后再將六維向量給到聚類算法中進行分割并對分割的偽影進行消除,得到最終的分割結(jié)果。對Middlebury數(shù)據(jù)集樣本場景baby 2實驗了6種立體視覺算法和3種聚類技術(shù)的不同組合進行的場景分割,從實驗結(jié)果來看,不同的組合應(yīng)用所提方法都比傳統(tǒng)方法具有更好的分割效果。
關(guān)鍵詞:場景分割;立體視覺;聚類;深度圖
1場景分割
場景分割是著名的圖像區(qū)域識別方法。除了應(yīng)用于圖像識別外,分割作為最基本的步驟,在許多其他計算機視覺任務(wù),如物體識別或立體視覺中也是急需解決的問題。比如,在電視和電影行業(yè)中,分割是從視頻中將前景與背景分離的重要方法,而在視頻中,存在類型多樣性和結(jié)構(gòu)復(fù)雜性等特點,目前尚沒有一種通用而且有效的場景分割方法。但是近十幾年來,隨著因特網(wǎng)的快速發(fā)展,視頻的應(yīng)用越來越廣泛,對場景分割方法的研究也逐漸成為了熱點。
經(jīng)典的分割技術(shù)有許多不同的方法,但它們大都只是利用單一的從圖像場景幀中提取的信息來進行分割[1]。因此,盡管經(jīng)過大量的努力,但對圖像進行場景分割仍然缺乏強大的解決方案。經(jīng)典方法的局限性在于:圖像中包含的顏色信息并不足以去完全代表場景信息的組成。如圖1b所示。本文的目標是將嬰兒從圖像中分割出來,但是當嬰兒的膚色和世界地圖顏色相似的時候,采用經(jīng)典的基于顏色的分割方法無法將它們進行分割,如圖中嬰兒手臂下面部分。此時,利用基于幾何的深度信息可以將此問題克服,如圖1c所示。但與此同時,又出現(xiàn)了另外的問題:當深度相同而顏色不同的時候又無法分割,如圖中書籍和嬰兒的腳被關(guān)聯(lián)到相同的部分,由于其具有相似的深度,被分割在一起。因此,采用單一的基于顏色或者幾何的方法在很多時候是無法正確分割對象的,如圖1b和圖1c所示。由此,同時考慮顏色和幾何線索,就可以避免上述問題。以圖1為例,圖1c利用顏色和幾何形狀,雖然嬰兒的腳和圖書的幾何深度相同,但由于它們有相同的嬰兒的皮膚顏色,因此知道嬰兒的腳屬于“嬰兒”這個整體;圖1b中盡管嬰兒手臂下面地圖區(qū)域與嬰兒的膚色相同,但是它和嬰兒的幾何深度不同,就不屬于“嬰兒”這個整體。
立體視覺是計算機視覺領(lǐng)域的一個重要課題[2],特別是模擬人眼的雙目立體視覺技術(shù),近年來已經(jīng)做了相當多的研究,技術(shù)比較成熟,能夠同時給出顏色和幾何深度信息,正好滿足前述圖像分割的需求。
當前,立體視覺算法主要包括:以Fixed Window(FW)算法為基礎(chǔ)的局部算法[3]、以Adaptive Weights(AW)算法[4]為基礎(chǔ)的局部算法、對AW進行改進的Segment Support(SS)算法[5]、結(jié)合AW和FW算法的Fast Bilateral Stereo(FBS)算法[6]、Semi Global Matching(SGM)算法[7]、全局立體視覺Graph Cut(GC)算法[8]。
最近的場景分割技術(shù)是基于圖論、聚類技術(shù)和許多其他技術(shù)(如區(qū)域合并,水平集,分水嶺變換等)[9]。其中聚類技術(shù)應(yīng)用最為廣泛,本文將考慮采用3種聚類方法:K-means聚類[10]、Mean-shift 算法[11]、Spectral 聚類[12]。
采用雙目立體視覺技術(shù)獲得顏色和幾何信息后,利用該技術(shù)來進行場景分割就變得更為有效。本文的組織如下:首先介紹本文分割方法的實施方案以及詳細步驟,再利用不同組合的立體視覺重建和分割算法,給出各種組合的實驗結(jié)果,最后得出結(jié)論。
2本文方法實施方案及詳細步驟
2.1實施方案
如引言中的介紹,本文場景分割的目標是通過利用雙目立體視覺系統(tǒng)提供的三維幾何和彩色信息來進行場景分割。分割方法可分為4個主要步驟,從一個標準的雙目立體視覺系統(tǒng)所獲得的相同場景的兩個視圖(左視圖和右視圖)開始,每一步的詳細描述如下:
1)生成深度圖,進行三維場景幾何重構(gòu);
2)構(gòu)建包含幾何和顏色信息的新場景,即構(gòu)建六維向量;
3)應(yīng)用基于顏色和幾何信息的聚類算法;
4)最后的細化階段,以消除由于噪聲或幾何提取中的錯誤產(chǎn)生的偽影。
圖2給出了詳細的實施方案。該方案是一個總體框架,其中可以使用不同的立體視覺和分割算法。通過雙目視覺系統(tǒng),由左視圖提供顏色信息,左視圖加上右視圖進行視覺三維幾何重建,從而得到幾何信息,再將顏色和幾何信息組成六維向量給到聚類算法中進行分割并對分割的偽影進行消除,得到最終的分割結(jié)果。
2.2詳細步驟
2.2.1三維幾何重構(gòu)
(1)
式中:Ks為整流后的雙目立體視覺系統(tǒng)的攝像機內(nèi)部參數(shù)矩陣(這里為左攝像機內(nèi)部參數(shù))。
如圖2所示,雙目立體視覺系統(tǒng)所獲得的成對圖像輸入到立體視覺算法中,得到幀場景點的深度信息。這里可以使用前言中提到的立體視覺算法中的任何一種。對于相同的圖像輸入,不同的立體視覺算法產(chǎn)生不同的深度圖,所產(chǎn)生的分割結(jié)果也可能就完全不同。圖3給出了不同立體視覺算法生成的深度圖之間的對比。
2.2.2六維特征向量構(gòu)造
上一步中得到的場景的幾何信息再結(jié)合顏色信息進行分割比使用單一的幾何或顏色信息進行分割的效果要好。要想將兩種信息結(jié)合以便同時利用它們,首先必須建立一個統(tǒng)一的包括顏色和三維幾何信息的表示方法。對于給定的場景S, 在使用立體視覺算法得到三維幾何信息后,這時不管是左視圖還是右視圖,它們所有的沒有被遮擋的幀場景點pi都能夠同時獲得顏色和幾何信息(pi∈S,i=1,z,…,n)。因此,這些點就可以被描述為包含顏色和幾何信息的六維向量,如式(2)所示
Vi=[L(pi),α(pi),b(pi),x(pi),y(pi),z(pi)]T
(2)
其中,前三個分量的代表顏色信息,后三個分量代表幾何信息。其中顏色分量的建立方法如下:將RGB顏色空間轉(zhuǎn)換到CIELab均勻顏色空間。均勻顏色空間的好處在于能夠確保點之間的歐氏距離接近不同顏色之間的感知差異,并允許在3個顏色通道進行距離對比。
現(xiàn)在特征向量Vi還沒有被聚類,因為它們是由不同性質(zhì)(顏色和幾何)和大小的數(shù)據(jù)構(gòu)成,而分割方法需要均勻的特征向量,而且向量分量必須屬于同一個域。此外,為了更好地操作,大多數(shù)的方法需要特征值在[0,1]范圍內(nèi)。綜上因素,每個場景點pi被其三維坐標x(pi),y(pi),z(pi)以及顏色值L(pi),a(pi),b(pi)表示之后,本文方法需要對這些特征向量進行歸一化處理。具體做法是:三維坐標信息由z軸標準偏差σZ進行歸一化,顏色信息由顏色空間L分量標準偏差σL進行歸一化。顏色信息和幾何深度信息之間的權(quán)衡比由λ因子控制。最終,每個可見的場景點pi由六維向量Vi,i=1,…,N表示,如式(3)所定義
(3)
很明顯,從式(3)可以看出,高的λ值更著重于幾何信息,而較低的值則偏向于顏色信息.
2.2.3場景分割
如上節(jié)所述,在綜合考慮顏色和幾何信息后,本文用六維歸一化向量Vi,i=1,…,N來描述場景S。假設(shè)場景S由不同部分s(K),k = 1,…,K,組成,比如不同的物體或感興趣區(qū)域,分割就是尋找不同群體的點代表不同的對象。本文所提的分割方案可以歸結(jié)為:將各個場景點pi聚類到向量Vi,i=1,…,N以代表不同的對象,即通過使用引言中描述的任何聚類技術(shù),圖像各個部分就被關(guān)聯(lián)到某個具體的聚類。顯然,由于立體視覺算法的局限性,得到的深度圖可能含有偽影。采用不同的立體視覺算法和聚類技術(shù)的組合,將導致不同的分割結(jié)果,將在實驗中給出分析。
場景分割的最后細化階段主要是為了減少分割偽影的產(chǎn)生。在細化階段中,常用的方法是尋找相關(guān)的分量并刪除大小低于某個預(yù)先定義閾值的分量。這就可以刪除由于圖像噪聲產(chǎn)生的偽影。
3實驗和結(jié)果分析
為了驗證本文方法的可行性性,采用立體視覺算法和聚類技術(shù)的不同組合對樣本場景進行了實驗。樣本場景來自于Middlebury數(shù)據(jù)集[13],該數(shù)據(jù)集提供Ground-truth視差圖以供使用。算法包括前言里提到的6中立體視覺算法及3種聚類技術(shù)。其中,由MATLAB實現(xiàn)聚類技術(shù)的執(zhí)行,用C語言編程實現(xiàn)部分立體視覺算法(FW,AW,SS,F(xiàn)BS),其余兩種GC和SGM算法的實現(xiàn)參考OpenCV網(wǎng)站實現(xiàn)方法[14]。
圖3展示了采用不同的立體視覺算法對包含Ground-truth視差圖的Baby2場景左右視圖進行計算所得到的視差圖(深度圖),不同算法得到的結(jié)果有所不同。由圖3可以看出,所有的遮擋點都可以被立體視覺算法識別出來并用黑色表示,所以在后續(xù)聚類算法中可以不予考慮。每個聚類都有一種顏色表示,所以沒有被遮擋的點都用不同于黑色的聚類顏色來表示。
圖4顯示了Baby2圖像的最終分割結(jié)果。不同的行對應(yīng)于不同的分割算法,而列則對應(yīng)于立體視覺算法。從圖可以看出所用到的立體視覺和聚類算法在該場景都有很好的效果,比起圖1中采用單一的基于顏色或者幾何信息的算法都有明顯的改善(例如,對嬰兒腳的識別)。當然,也可以從圖4看出,F(xiàn)W和GC算法會產(chǎn)生一些偽影(比如靠近手臂的地方)。顯然,不同算法產(chǎn)生的錯誤幾何信息點的數(shù)量也有所不同,其中FW和AW算法有較大的區(qū)域丟失。在這個場景中表現(xiàn)最好的算法是SGM,但是差別不是很大。
實驗的目的是評估最有效的立體視覺和聚類算法組合。本文采用像素誤分類百分比來進行評估,該百分比是和Middlebury數(shù)據(jù)集提供的groundtruth視差圖對比得到。如前所述,在計算過程中無須考慮遮擋像素。所有立體視覺算法和聚類方法的18種組合產(chǎn)生的誤分類像素點百分比報告見表1。
由圖4可以看出,幾乎所有的場景分割,獲得的場景魯棒性和有效性遠遠好于單一基于顏色或幾何信息的場景分割(比如,使用k-means聚類進行的場景分割)。根據(jù)分割效果的對比,得出結(jié)論:最有效的組合是SS和Spectral的組合,該組合得到的誤分類百分比最低。在速度方面,均值漂移聚類的速度比其他兩個算法要快些。在所有的聚類算法的MATLAB實現(xiàn)中,所需要的時間都不到7s,應(yīng)用于實時性不高的場合沒有問題。
表1分割效果對比表(單位:誤分類像素百分比)
最后,λ參數(shù)的設(shè)置也很重要。圖5描述了SS算法使用不同λ得到的分割結(jié)果。過高或者過低的λ值將導致圖1b和圖1c這樣的效果。
4結(jié)論
經(jīng)典的分割方法,即單獨采用顏色或幾何信息進行分割效率不高。為此,本文介紹了一種融合幾何和顏色信息以獲得高質(zhì)量的場景分割的方法,該方法從雙目立體視覺系統(tǒng)獲得幾何形狀及顏色信息。依據(jù)本文方法,實驗了6種立體視覺算法和3種聚類技術(shù)的不同組合進行的場景分割。結(jié)果表明在各種組合中,SS的立體視覺算法結(jié)合Spectral聚類提供了最佳的性能。但這種配置比較耗時,在實時性要求高的場景可以將其中SS算法用更快的FSD(FastSegmentation-Driven)算法[15]代替。本文場景分割方法所需要的采集系統(tǒng)是一個雙目立體視覺系統(tǒng),隨著越來越廣泛的使用及成本的降低,未來該系統(tǒng)必將更加便宜和流行。從實驗結(jié)果來看,本文所提方法具有良好的分割效果。為了進一步提高分割效果,下一步將致力于立體視覺算法的優(yōu)化研究。
參考文獻:
[1]張辭, 馬麗. 基于改進的GSA彩色圖像分割方法研究[J]. 電視技術(shù), 2014, 38(13):39-42.
[2]李桂苓, 潘榕, 許樹檀. 立體視覺與立體成像[J]. 電視技術(shù), 2012, 36(2):15-18.
[3]MCDONALDM.Box-filteringtechniques[J].Computergraphicsandimageprocessing, 1981, 17(1): 65-70.
[4]YOONKJ.Adaptivesupport-weightapproachforcorrespondencesearch[J].IEEEtransactionsonpatternanalysis&machineintelligence, 2006, 28(4):650-656.
[5]TOMBARIF,MATTOCCIAS,STEFANOLD.Segmentation-basedadaptivesupportforaccuratestereocorrespondence[M].BerlinHeidelberg:AdvancesinImageandVideoTechnology, 2007.
[6]MATTOCCIAS,GIARDINOS,GAMBINIA.AccurateandefficientcostaggregationstrategyforstereocorrespondencebasedonapproximatedJointbilateralfiltering[J].Lecturenotesincomputerscience, 2010(9):23-27.
[7]HIRSCHMULLERH.Stereovisioninstructuredenvironmentsbyconsistentsemi-globalmatching[C]//Proc.IEEEConferenceonComputerVisionandPatternRecognition.Washington:IEEEComputerSociety, 2006: 2386-2393.
[8]BOYKOVY,KOLMOGOROVV.Anexperimentalcomparisonofmincut/maxowalgorithmsforenergyminimizationinvision[J].IEEEtransactionsonpatternanalysis&machineintelligence, 2004, 26(9):1124-1137.
[9]SZELISKER.Computervision:algorithmsandapplications[J].Computervision, 2010:247-258.
[10]JAINAK,MURTYMN,F(xiàn)LYNNPJ.Dataclustering:areview[J].ACMcomputingsurveys, 1999, 31(2):S324-S325.
[11]COMANICIUD,MEERP.Meanshift:arobustapproachtowardfeaturespaceanalysis[J].IEEEtransactionsonpatternanalysis&machineintelligence, 2002, 24(5):603-619.
[12]FOWLKESC.SpectralgroupingusingtheNystrommethod[J].IEEEtransactionsonpatternanalysis&machineontelligence, 2004, 26(2):214-225.
[13]Middleburystereovisionwebsite[EB/OL].[2015-05-21].http://vision.middlebury.edu/stereo/.
[14]Opencv[EB/OL].[2015-05-21].http://opencv.willowgarage.com/wiki/.
[15]MATTOCCIAS,DE-MAEZTUL.Afastsegmentation-drivenalgorithmforaccuratestereocorrespondence[C]//InternationalConferenceon3DImaging(IC3D).Belgium:IEEEComputerSociety, 2011:1-6.
華漫(1976— ),副教授,主要研究方向為計算機視覺、圖像處理;
李燕玲(1982— ),女,碩士,主要研究方向為微分方程、優(yōu)化算法;
林瑞春(1980— ),碩士,主要研究方向為計算機視覺、圖像處理、機器人。
責任編輯:時雯
Scene segmentation approach based on binocular stereo vision
HUA Man,LI Yanling,LIN Ruichun
(SchoolofComputerScience,CivilAviationFlightUniversityofChina,SichuanGuanghan618307,China)
Key words:scene segmentation; stereo vision; clustering; depth map
Abstract:A scene segmentation approach based on binocular stereo vision is proposed. Firstly, an 3D scene is reconstructed based on the left and right view of binocular stereo vision system, and then the scene geometry depth maps were obtained. Meanwhile, RGB color space of the image from left view is converted to CIELAB uniform color space to obtain color information. After that, a 6D vector is constructed by both color and geometry information. Finally, the 6D vector is given to clustering algorithm to segment the scene and remove the artifacts, and at last the final segmentation results are obtained. The Middlebury data set sample scene baby 2 have been segmented with different combinations of stereo vision and clustering techniques.Experimental results show that the proposed method can obtain a better segmentation than the methods based on just color or just geometry.
基金項目:國家自然科學基金民航聯(lián)合基金項目(U1433130);民航局科技項目(20150215)
中圖分類號:TN911
文獻標志碼:B
DOI:10.16280/j.videoe.2016.01.006
作者簡介:
收稿日期:2015-07-15
文獻引用格式:華漫,李燕玲,林瑞春.基于雙目立體視覺的場景分割方法[J].電視技術(shù),2016,40(1):31-35.
HUA M,LI Y L,LIN R C. Scene segmentation approach based on binocular stereo vision [J].Video engineering,2016,40(1):31-35.