牛連丁 孫華東 陳銘
摘 要:隨著立體圖像在社會各個領(lǐng)域的發(fā)展與普及,三維資源的需求逐步提升,而將二維圖像轉(zhuǎn)換為三維圖像是解決三維資源稀缺的重要手段。二維圖象三維化技術(shù)的關(guān)鍵在于深度信息的獲取。分析了兩種重要的深度提取線索,運動線索和散焦模糊線索。為了彌補這兩個線索在深度提取的局限性,提出了兩種線索的深度融合策略。實驗結(jié)果表明,這兩種線索采用分段線性融合的方法能提高生成深度圖的質(zhì)量。
關(guān)鍵詞:深度提?。贿\動線索;散焦線索;深度融合策略
中圖分類號:TP391 文獻標識號:A 文章編號:2095-2163(2015)02-
Depth Extraction based on Motion and Defocusing Cue
NIU Lianding1, SUN Huadong2, CHEN Ming 2
(1 Network?and?Educational?Technology?Center, Harbin University of Commerce, Harbin 150028, China;2 Department of Computer and Information Engineering, Harbin University of Commerce, Harbin 150028, China)
Abstract: With the development and popularity of stereo image in field of society, the demand of stereo resource gradually upgrades. 2D to 3D image conversion is an important methods to solve the problem of stereo resource scarcity. As a new interactive way, 3D visualization technology eliminates the disadvantages of plane communication interface. Depth extraction is the key for three dimensional visualization technique. The two important cues, motion cue and defocusing cue are analyzed. In order to compensate for the limitations of the two cues, the fusion strategy of the two cues is presented here. Experimental results show that piecewise linear combination of the two cues can improve the quality of depth map.
Keywords: Depth Extraction; Motion Cue; Defocusing Cue; Depth Fusion Strategy
0 引 言
由于三維影像具有更逼真的效果、更具臨場感,使其備受推崇。隨著顯示設(shè)備迅速普及,市場對相應(yīng)的顯示內(nèi)容也有著大量的需求。然而,傳統(tǒng)的三維影像的制作卻存在制作成本高、技術(shù)難度大、周期長等問題,并不能滿足市場需求。通過獲取二維影像的深度信息,并利用該信息將現(xiàn)有二維影像三維化處理獲得三維影像,成為解決三維顯示內(nèi)容不足的一個重要手段。該方案不但可以降低制作成本,縮短制作周期,還能夠充分利用現(xiàn)有的影像資源避免資源浪費。二維影像三維化技術(shù)的關(guān)鍵在于深度提取[1]。目前,已有多種線索用于二維視頻的深度提取,總體上可分為幀間線索和幀內(nèi)線索。
運動線索是重要的幀間線索之一。其原理是利用相鄰幀的運動矢量獲得深度圖,離鏡頭較遠的物體運動矢量小,較近的物體運動矢量大。利用相鄰幀獲得運動矢量的方法主要有塊匹配法和光流法。徐楓等提出了一種基于光流法的三維轉(zhuǎn)換方案[2],該方法使用改進的光流法提取每一幀像素級的運動,較基于塊匹配的方法得到了更多細節(jié)結(jié)果,但光流法計算復(fù)雜度很高,不適合于實時情況下計算高分辨率的視頻。
聚散焦線索是重要的幀內(nèi)線索之一,其實現(xiàn)依據(jù)了越是遠離聚焦平面的物體成像越模糊的原理獲得場景中物體的深度。2003年,S.A.Valenecia等用聚散焦線索提取圖像的深度信息,相繼提出了基于多分辨率小波分析的局部頻域測量和顯著邊緣的Lipschitz估計的深度估計方法[3];2007年,Malik A.S等利用具有帶通特性的光學傳遞函數(shù)來估計模糊程度,所提出的聚焦測量方法相比其他方法在噪聲處理方面有很大的改善[4]。
當然,單獨利用這兩種線索提取深度有各自的缺陷。單獨采用運動線索提取圖像深度信息,對圖像中存在的靜止物體深度估計效果較差,對圖像中存在的很明顯的光照變化情況,其深度估計效果也不是很理想。同時深度不是產(chǎn)生模糊的唯一因素,模糊不僅可以由散焦產(chǎn)生,也可以由其他因素產(chǎn)生,例如相機的運動,大氣干擾,模糊的物體;因此,利用模糊線索提取深度要求圖像中要有豐富的紋理。由上可知,單獨采用某種線索提取圖像的深度信息的局限性很大,場景限制較多,為此考慮將運動線索和聚散焦線索結(jié)合起來,提高視頻的深度提取效果。
1運動線索提取深度
運動線索是利用幀間信息提取深度信息的重要線索。對輸入二維視頻序列做運動估計,獲得運動矢量;進而利用該運動矢量生成初始深度圖;最后濾波去噪獲得最終的深度圖。
塊匹配運動估計算法是目前應(yīng)用最為普遍的運動估計算法,具有原理簡單、計算復(fù)雜度低等優(yōu)點。如圖1所示,首先按照預(yù)先定義的尺寸將預(yù)測幀分成若干宏塊,宏塊是塊匹配中的基本操作單元;然后選定坐標為的宏塊,在參考幀中的搜索范圍內(nèi)按照匹配準則尋找其最優(yōu)匹配宏塊,假設(shè)坐標為。該宏塊的運動矢量即為。
圖1 塊匹配運動估計示意圖
Fig.1 Schematic diagram of block matching motion estimation
運動估計中的匹配準則有很多種,本文采用平均絕對值差(MAE),在公式(1)中給出[5]. 其中M、N為預(yù)先設(shè)定的宏塊尺寸;x、y為預(yù)測宏塊左上角像素的橫縱坐標;為參考幀中坐標為的像素值;為預(yù)測幀中坐標為的像素值。在搜索范圍內(nèi),可以使MSE最小的就是預(yù)測宏塊對應(yīng)的運動矢量。
(1)
另外,宏塊的尺寸也將影響到深度圖的質(zhì)量以及計算復(fù)雜度。如采用的尺寸較大,可以有較快的計算速度,但會在景物邊緣產(chǎn)生較大的鋸齒效應(yīng);反之,選擇較小尺寸則在降低鋸齒效應(yīng)的同時提高了計算復(fù)雜度,不利于實時處理。為了提高深度圖質(zhì)量和降低計算復(fù)雜度,采用變宏塊匹配技術(shù)進行運動估計。宏塊尺寸由最小拉格朗日代價函數(shù)決定[6],如公式(2)所示。其中Scur表示當前宏塊,Sref表示參考宏塊。
(2)
變宏塊技術(shù)可以生成包括16×16,16×8,8×16,8×8,8×4,4×8,4×4七種不同尺寸,使得前景對象的深度圖內(nèi)部行對平緩,邊緣相對精細,可以獲得邊緣較為清晰的深度圖。
獲得運動矢量后,利用公式(3)生成初始深度圖[7],式中,是運動矢量的模。是深度調(diào)整系數(shù)。通過調(diào)節(jié)來調(diào)節(jié)整個深度幀的深度大小。為了獲得視差效果更好的三維視頻,取,其中為提取運動矢量場中運動矢量的最大值。深度圖是范圍為8bit的灰度圖,而255為深度圖的最大值。
(3)
以上過程中每一個宏塊內(nèi)部的所有像素的深度值是共用同一個運動矢量生成的,這必然會導(dǎo)致生成的深度圖邊緣部分會出現(xiàn)宏塊鋸齒效應(yīng);前景中物體面積較大的平坦區(qū)域會因為運動估計錯誤,使得深度圖中產(chǎn)生孔洞現(xiàn)象。為了獲得質(zhì)量更好的深度圖,采用形態(tài)學濾波方法,通過膨脹腐蝕操作平滑鋸齒邊緣、填補孔洞,將以上得到的原始深度圖進一步處理,以提高深度圖質(zhì)量。
2 聚散焦線索提取深度
聚散焦線索是從圖像提取深度信息的重要線索。在拍攝圖像時,處于非聚焦平面上的物體將獲得模糊的圖像,即散焦模糊現(xiàn)象。而且物體偏離聚焦平面越遠,其模糊程度越嚴重??梢?,景物深度與其模糊程度具有一定的關(guān)聯(lián)性。通常,物體成像的模糊程度可由相同位置上點光源在像平面上所成光斑的直徑來衡量。以下利用相機的光學成像模型分析景物深度與其模糊程度之間的關(guān)系。
假設(shè)場景中清晰的景物處于圖像前景、模糊的景物處于圖像背景,即散焦物體處于聚焦平面外。此時,相機的光學成像模型如圖2所示。
圖2 相機的光學成像模型
Fig.2 Optical imaging model of camera
這里為透鏡孔徑,為透鏡焦距,為場景聚焦平面與透鏡的物距,為成像平面與透鏡的距離,為物體的物距(等價于深度),為物體的像距。假設(shè)處于的點光源可以在成像平面聚焦為一點,則在處的點光源將會在成像平面產(chǎn)生一個直徑為的模糊光斑。由透鏡光學成像原理和幾何關(guān)系,可得如下關(guān)系式:
將以上等式聯(lián)立,整理得公式(4)。
(4)
顯然,隨著深度的增大,模糊光圈的直徑也變大。當照片未標定時,此時參數(shù),,均為未知,盡管無法得到場景的真實深度,但可以得到場景中各個目標的相對深度。
當圖像中的物體是散焦的,那么其高頻分量會大量丟失;當場景中的物體是聚焦的,其高頻分量會保留,因此,圖像中的細節(jié)部分,對應(yīng)在頻域,聚焦和散焦情況差異很大。這就說明了如果一幅圖像的模糊是由散焦引起的,那么圖像的頻域信息就能夠直接測量出圖像的模糊程度,進而得到圖像的深度。
信號經(jīng)小波變換后,得到高頻信息和低頻信息??衫脠D像小波變換后得到的小波系數(shù)來確定圖像的高低頻信息,換而言之,如果一幅圖像有豐富的高頻分量(聚焦情況),那么經(jīng)變換后,會得到大量的非零小波系數(shù);相反若圖像中的高頻分量較少(散焦情況),經(jīng)過變換后則會得到很少的非零小波系數(shù)。
為了確定圖像中各個部分的高頻信息和低頻信息,首先遍歷圖像中各個像素,以該像素為中心選取宏塊,宏塊大小為16*16。每一個宏塊執(zhí)行小波變換后會得到256個小波系數(shù),若是宏塊中高頻信息較多(散焦情況),非零小波系數(shù)的個數(shù)應(yīng)較多,若是宏塊中高頻信息較少(散焦情況),非零小波系數(shù)的個數(shù)應(yīng)較少。通過計算每個宏塊非零小波系數(shù)的個數(shù),就可以對應(yīng)得到該像素的深度層次。在實際情況中,由于噪聲的存在,可以放寬小波系數(shù)門限閾值,即統(tǒng)計宏塊中大于1的小波系數(shù)個數(shù)作為該像素的深度值。
3 運動線索和聚散焦線索結(jié)合
單獨利用這兩種線索提取深度有各自的缺陷。為了彌補各自的不足,需要將二者融合。記為運動線索獲取的深度,為散焦模糊線索獲取的深度,采用線性融合策略,則融合深度表達式為:
(5)
其中為線性融合策略中,運動線索所占比例,為模糊線索所占比例。一般情況,可取二者等比例融合,即。特別地,當時,相當于僅僅考慮運動線索;當時,相當于僅僅考慮模糊線索。
當然,這種線性融合策略的比例系數(shù)是全局的,實際中的情況更傾向于是圖片的不同區(qū)域,兩種線索對深度貢獻的比例不同,因此,本文提出了如下的分段線性融合策略。
這里以運動線索深度作為評判依據(jù),當圖片中某些區(qū)域的值大于閾值時,此時認為圖片中運動線索占據(jù)主導(dǎo),所以采取的比例系數(shù)要大于0.5(實驗中取0.7);當圖片中某些區(qū)域的值小于閾值時,此時認為圖片中運動線索是次要的,模糊線索占據(jù)主導(dǎo),所以采取的比例系數(shù)要小于0.5(實驗中取0.3);而介于和之間時,認為兩種線索對深度的貢獻相等,此時比例系數(shù)等于0.5。即
(6)
4 實驗結(jié)果與分析
在Windows XP SP3系統(tǒng)環(huán)境下,利用Matlab7.0軟件進行如圖3所示的實驗。
(a)原始視頻幀
(a) Original video frames
(c)散焦線索的深度估計結(jié)果
(c) Estimation results of?defocusing cue
(b)運動線索的深度估計結(jié)果
(b) Estimation results of?motion cues
(d)分段線性融合的結(jié)果
(d) Piecewise linear fusion result
圖3 實驗結(jié)果
Fig.3 Experimental results
選取如圖3(a)所示的某一序列的圖片幀作為測試。圖3(b)是利用當前圖片幀和下一幀之間的運動矢量得到的深度圖。從圖中可以看出,具有較大運動矢量的人物,其深度估計良好,但靜止的背景部分,深度估計較差。圖3(c)是利用散焦模糊線索得到的深度圖。從中可以看出,紋理多的部分深度估計良好,但紋理少的部分,估計效果變差。圖3(d)是采用本文的分段線性融合策略的結(jié)果,這里,。從圖中可以看出,對比單獨利用兩種線索,融合后的深度圖要更為準確,無論是前景的人物,還是背景的走廊和房屋,都具有很好的深度層次。因此,這種融合策略能夠很好地彌補這兩種線索的不足,提高深度圖的生成質(zhì)量。
參考文獻
[1] 袁紅星,吳少群,朱仁祥,等.融合對象性和視覺顯著度的單目圖像2D轉(zhuǎn)3D[J].中國圖象圖形學報.2013,(11):100-107.
[2] FENG X, GUIHUA E, XUDONG X. 2D-to-3D conversion based on motion and color mergence [C]//3DTV Conference: The True Vision - Capture, Transmission and Display of 3D Video 2008, Istanbul:3DTV-CON ,2008:205-208.
[3] VALENECIA S A, RODRIGUEZ-DAGNINO R M. Synthesizing stereo 3D views from focus cues in monoscopic 2D images [J]. Proceedings of SPIE-IS&T Electronic Imaging, 2003,5006: 377-388.
[4] MALIK A S, SHIM S-O, CHOI T-S. Depth map estimation using a robust focus measure [C]// //2007?IEEE?International Conference?on?Image?Processing, San Antoni: ICIP,?2007: 564-567.
[5] Jinshun Xu,Zhuxing Yang. Hierarchical SDD Metric and Multi-resolution Motion Estimation[Z].
Taiwan: Internet Technology Lab. National Sun Yat-Sen University, 1994:46-52.
[6] WIEN M. Variable block-size transforms for H.264/AVC[J]. IEEE Transactions on Circuits and
SystemsforVideoTechnology.2003.13(7):60-613.
[7] IDESES, YAROSLAVSKY L P, FISHBAIN B, et al. 3D from Compressed 2D Video[C] //Proc. SPIE, [S.l.]:SPIE, 2007,649:64901C-1.
基金項目:黑龍江省自然科學基金(F201114);哈爾濱市科技創(chuàng)新人才研究專項資金項目(2012RFQXG090)。
作者簡介:牛連?。?976-),男,山東平陰人,碩士,工程師,主要研究方向:圖像處理與多媒體技術(shù);
孫華東(1980-),男,黑龍江寧安人,博士,講師,主要研究方向: 數(shù)字圖像處理;
陳 銘(1985-),男,黑龍江哈爾濱人,碩士,助理工程師,主要研究方向: 圖像處理與多媒體技術(shù)。