葛 川,劉 琚,2,元 輝,,肖依凡,李鳳榮
(1.山東大學(xué)信息科學(xué)與工程學(xué)院,山東濟南 250101;2.山東大學(xué)蘇州研究院,江蘇蘇州 215123; 3.中國科學(xué)院上海微系統(tǒng)與信息技術(shù)研究所無線傳感網(wǎng)與通信重點實驗室,上海 200050)
一種深度圖的時域下采樣編碼及重建方法
葛 川1,劉 琚1,2,元 輝1,3,肖依凡1,李鳳榮3
(1.山東大學(xué)信息科學(xué)與工程學(xué)院,山東濟南 250101;2.山東大學(xué)蘇州研究院,江蘇蘇州 215123; 3.中國科學(xué)院上海微系統(tǒng)與信息技術(shù)研究所無線傳感網(wǎng)與通信重點實驗室,上海 200050)
為提高三維視頻系統(tǒng)的編碼效率,提出了一種針對中間視點的深度時域下采樣編碼方法.首先確定深度圖像的丟棄方式;然后利用基于時間一致性和視點間的相關(guān)性,恢復(fù)出丟棄的深度圖像,并對恢復(fù)出的結(jié)果進行維納濾波,進一步提高恢復(fù)的深度圖的質(zhì)量.該方法需要向編碼端發(fā)送維納濾波器系數(shù)和重建深度選擇標(biāo)識符.實驗結(jié)果表明,在保證同等碼率的前提下,解碼端重建的虛擬視圖的峰值信噪比最大能提升0.229 dB,平均提升0.130 dB,編碼性能得到改善.
視頻編碼;立體圖像處理;深度圖時域下采樣;時間一致性;視點間相關(guān)性
隨著數(shù)字多媒體處理技術(shù)以及顯示技術(shù)的發(fā)展,人們對真實視覺體驗的需求日益增強,三維視頻(3-Dimensional Video,3DV)已成為新的研究熱點.相對于傳統(tǒng)視頻,三維視頻可以給觀眾帶來真實三維場景的視覺體驗,并廣泛應(yīng)用于各個領(lǐng)域,極大地豐富了現(xiàn)有的媒體內(nèi)容[1].
在現(xiàn)今的研究和應(yīng)用中,三維視頻的數(shù)據(jù)格式主要分為多視點視頻(Multi-view Video,MV)格式和多視點視頻+深度(Multi-view Video+Depth,MVD)格式兩種.前者只能提供有限數(shù)量視點的三維體驗[2],而后者可用于基于深度圖像的生成技術(shù)[3]合成中間任意視點的虛擬視頻,因而MVD數(shù)據(jù)格式被選作制定三維視頻編碼標(biāo)準(zhǔn)的數(shù)據(jù)格式,并被廣泛應(yīng)用.
在三維視頻應(yīng)用中,深度信息有其特定的特點和應(yīng)用.首先,深度圖是單色圖且只包含有平滑的紋理區(qū)域以及尖銳的邊緣區(qū)域;然后,與多視點紋理視頻相比,深度圖對合成的虛擬視圖的質(zhì)量影響較小;接著,與深度圖的平滑區(qū)域相比,深度圖的邊緣對于合成虛擬視圖的質(zhì)量的影響較大;最后,深度圖的編碼目標(biāo)是為了保證繪制高質(zhì)量的虛擬視點,而非用于用戶的視覺體驗[4].因此,利用MVD表征一個立體場景并利用傳統(tǒng)的多視點編碼標(biāo)準(zhǔn)來進行編碼,雖然已經(jīng)減少了相當(dāng)大的數(shù)據(jù)量,但是這并不能為多視點內(nèi)容提供具有成本效益的壓縮率,故研究適應(yīng)深度圖自身特點的編碼技術(shù)顯得至關(guān)重要.為了提高深度圖編碼效率,文獻[5-6]中提出了基于虛擬視圖質(zhì)量的率失真優(yōu)化算法;文獻[7]中提出了一種深度圖編碼解析算法,它不僅可以對簡單而平滑的紋理區(qū)域進行有效編碼,同時能夠有效地保護深度圖的尖銳的邊緣區(qū)域.此外,研究人員在文獻[8-9]中提出了深度圖的下采樣編碼方法.文獻[8]中利用一種空間重建濾波器以及空間的下采樣及上采樣方法來提高深度圖的編碼效率;文獻[9]中則是提出了一種深度時域下采樣的MVD編碼方法.
由于深度圖與紋理視頻對虛擬視點的不同影響,筆者提出對中間視點的深度進行時域下采樣編碼的方法.該方法考慮到視點內(nèi)的時間一致性以及視點間的相關(guān)性信息,首先分析確定深度時域下采樣方式,然后提出一種基于深度信息傳播的深度圖時域上采樣恢復(fù)方法.
以高性能視頻編碼(High Efficiency Video Coding,HEVC)標(biāo)準(zhǔn)的多視點視頻編碼平臺(3D-HEVC)為例,MVD數(shù)據(jù)包括左視點、中間視點和右視點3個紋理視頻以及相應(yīng)的深度圖,如圖1所示.左視點作為參考視點(可獨立編解碼),其他視點則依賴于參考視點進行編碼.所有的紋理視頻和深度圖都是通過分等級B幀的時間預(yù)測結(jié)構(gòu)進行預(yù)測的.
圖1 具有4個時域增強層的可分層B幀編碼結(jié)構(gòu),時域?qū)訌母叩降鸵来螢門L0,TL1,TL2和TL3
在同一視點內(nèi)部幀間預(yù)測時,采用運動補償預(yù)測(Motion-Compensated Prediction,MCP);在視點間預(yù)測時,采用視差補償預(yù)測(Disparity-Compensated Prediction,DCP).在分等級B幀結(jié)構(gòu)中,每8幀作為一個圖像組(Group Of Pictures,GOP),圖像組的第1幀圖像稱為關(guān)鍵幀.具體的預(yù)測方式如下:關(guān)鍵幀處于最高時間層(記為TL0,對應(yīng)于0層),需要利用最高保真度進行編碼.對于一個需要進行運動補償預(yù)測的時域?qū)拥膸?假設(shè)時域?qū)訛門L2),只有更高的時域?qū)拥膸?時域?qū)訛門L0或TL1)或者是相同時域?qū)拥膸?時域?qū)訛門L2)才可以被用于作為參考幀.這時,所有的關(guān)鍵幀(時域?qū)訛門L0的幀所構(gòu)成的序列)就是所支持的最低時域分辨率.
首先對編碼結(jié)構(gòu)進行分析從而決定以何種方式對深度圖下采樣,進而降低深度圖編碼比特率.接著,被丟棄的深度圖將會通過深度信息傳播的內(nèi)插法,并加以維納濾波后處理進行重建.
2.1深度時域下采樣結(jié)構(gòu)
圖1中,TL0層的所有幀進行時域獨立編碼,因而這些幀的保真度通常比其他時域增強層(TL1,TL2和TL3)要高,同時,根據(jù)編碼順序可以得出,編碼失真是由TL0向TL3逐層傳遞的.層數(shù)越高,此層繼承的編碼失真越大.基于此,筆者提出的深度時域下采樣方法通過舍棄這些中間視點的最低時域?qū)拥纳疃葓D來實現(xiàn).即圖1中,中間視點的時域增強層TL3的所有深度圖均被丟棄,但是其左視點以及右視點的深度圖則按原有時間分辨率進行編碼.
2.2丟棄的深度圖的重建
丟棄的深度圖是通過3種不同的深度圖預(yù)測值非線性融合重建的.3種不同的深度圖預(yù)測值分別為前向時間一致性深度圖預(yù)測值,后向時間一致性深度圖預(yù)測,視點間相關(guān)性深度圖預(yù)測值.3種深度圖預(yù)測值進行非線性融合,得到高質(zhì)量的預(yù)測結(jié)果.
2.2.1前向及后向時間一致性的深度圖估計
為了高質(zhì)量地重建丟棄的深度圖像,對于中間視點,時域上順次兩兩相鄰的深度幀之間,應(yīng)當(dāng)首先獲得基于像素的前向運動矢量場(Forward Motion Vector Field,FMVF).文中的運動矢量場是基于編碼端和解碼端解碼重建的紋理視頻,采用一個改進的光流算法來計算得到的[10].
圖2 解碼重建圖像與標(biāo)記不可靠區(qū)域的二值圖像對比
(1)初始像素深度值分配.對于中間視點丟棄的深度圖的像素值,首先利用未被丟棄的深度圖的像素值以及前項運動矢量場進行初始化分配.在被丟棄的深度圖中,由于遮擋或者一些不可靠的前向運動矢量影響而形成的沒有深度值分配的像素位置,共同構(gòu)成了深度不可靠區(qū)域.筆者將這些不可靠區(qū)域在二值圖中用黑色像素點進行標(biāo)記.解碼后的圖像與二值圖像的對比如圖2所示.
(2)針對深度不可靠區(qū)域的外推.筆者采用外推法獲得不可靠區(qū)域像素點的深度值.為了便于描述,將深度可靠點與深度不可靠點構(gòu)成的區(qū)域分別記作θD和φD.對于不可靠區(qū)域φD中某一個的深度不可靠點φD,它在中間視點的解碼重建的紋理圖中對應(yīng)于點φT.對φDest的深度值估計可通過對其局部窗口內(nèi)可測點進行加權(quán)平均得到,計算方法如下:
其中,ωi是加權(quán)因子,N是以φD為中心的局部窗口(大小為W×W,記作ΩD)內(nèi)的可靠點數(shù),i∈{1,…, N}的數(shù)量.同時,可以在中間視點解碼重建的紋理圖中找到對應(yīng)的像素點及對應(yīng)的局部窗口ΩT.加權(quán)系數(shù)ωi可以通過相對應(yīng)的解碼重建的紋理圖的亮度信息獲得,計算方法如下:
為了獲得被舍棄的深度幀的后向時間一致性深度預(yù)測算子,必須得到中間視點的連續(xù)時間深度圖的后向運動矢量場(Backward Motion Vector Field,BMVF).與前向方法類似,可以根據(jù)獲得的后向運動矢量場產(chǎn)生后向的時空一致性深度預(yù)測.
2.2.2基于多視點對應(yīng)性的深度值預(yù)測
中間視點的多視點對應(yīng)性深度圖預(yù)測值是左視點以及右視點對應(yīng)時刻的深度圖通過三維變換而產(chǎn)生的[4].這種視點間三維變換的本質(zhì)是坐標(biāo)變換,即某一視點中的一個像素點可以投影到不同視點圖像中坐標(biāo)中的另一點.
在一個雙視點系統(tǒng)(左/右相鄰視點與中間視點兩個視點)中,一個任意的三維世界坐標(biāo)系中的點M(坐標(biāo)值為(X,Y,Z)T),它在相鄰視點的投影點為m(其非齊次坐標(biāo)值為(x,y)T),它在中間視點的投影點為m′(其非齊次坐標(biāo)值為(x′,y′)T).在假設(shè)三維世界坐標(biāo)系統(tǒng)等同于相鄰視點的攝影坐標(biāo)系統(tǒng)的坐標(biāo)系時,m可投影到M,關(guān)系如下:
其中,Zm為m的深度值,矩陣A是相鄰視點攝像機的3×3內(nèi)參系數(shù)矩陣.M被投影到中間視點中的m′,如下所示:
其中,Zm′為m′的深度值,矩陣A′是相鄰視點攝像機的3×3內(nèi)參系數(shù)矩陣,R′是中間視點攝像機的3×3內(nèi)參系數(shù)矩陣,t′為中間視點攝像機的3×1的平移向量(tx′,ty′,tz′)T.由式(3)和式(4)推導(dǎo)可得
對于一個經(jīng)過校準(zhǔn)的雙視點攝像系統(tǒng),A′與A相同,R′與單位矩陣I相同.同時,由于中間視點攝像機和相鄰視點攝像機通常是水平排列的,則Zm與Zm′相等且ty′,tz′分量均為零.內(nèi)參矩陣A的第1行第1列元素A1,1存儲的是攝像機矩陣焦距f,tx′為兩個攝像機的基線距離l,則
因此,考慮到不同視點間m和m′之間的關(guān)系,筆者利用編碼系統(tǒng)中傳輸?shù)臄z像機參數(shù)及相應(yīng)的深度圖,通過式(6)完成坐標(biāo)變換,從而形成中間視點的多視點對應(yīng)性深度圖預(yù)測值.
2.2.3深度預(yù)測值的融合及后處理
前向及后向時間一致性深度圖預(yù)測值是通過時域一致性產(chǎn)生的,它在重建尖銳的深度過渡區(qū)域效果很好,但是它可能在某些深度平滑區(qū)域以及物體運動形成的空洞區(qū)域表現(xiàn)較差.基于視點間相關(guān)性的深度圖預(yù)測值是通過三維變換得到的,極易受到強遮擋區(qū)域以及圖像邊界的影響,但是它預(yù)測平滑的深度區(qū)域表現(xiàn)出眾.筆者最終對合成的深度圖中的每一個16×16的塊都在這3種深度預(yù)測值中進行選擇.為了得到質(zhì)量更好的中間視點質(zhì)量,采用原始的中間視點的深度圖作為參考,進行選擇.因此,需要對每一個16×16的塊用2 bit做標(biāo)識(等于0、1或2),指明采用哪種預(yù)測值進行預(yù)測,此標(biāo)識需傳輸至解碼端用作重構(gòu)解碼.
為了進一步提高合成虛擬視圖的質(zhì)量,在深度圖的重建過程中采用維納濾波器[11]來提高重建深度圖的質(zhì)量.首先在編碼端通過比較重構(gòu)深度圖與原始深度圖來計算維納濾波器系數(shù);然后將濾波系數(shù)傳送至三維視頻系統(tǒng)解碼端,如圖3所示.
圖3 筆者提出的三維視頻系統(tǒng)框圖
實驗采用了6個標(biāo)準(zhǔn)視頻序列:Book Arrival(1 024×768,16.67,49,6-8-10),Newspaper(1 024×768, 30,49,2-4-6),Kendo(1 024×768,30,49,1-3-5),Balloons(1 024×768,30,49,1-3-5),Lovebird1(1 024× 768,30,49,4-6-8)和Ghost TownFly(1 920×1 080,25,49,1-5-9),括號內(nèi)分別為分辨率、碼率、編碼幀數(shù)、采用視點.在基于高性能視頻編碼標(biāo)準(zhǔn)的三維視頻C編碼平臺8.0版本(3D-HTM 8.0)中進行結(jié)果驗證[12].每個測試序列采用固定的紋理量化參數(shù)(Quantization Parameter,QP)進行編碼.本實驗采用了4對量化參數(shù)值對,分別為(32,18),(32,24),(32,30)和(32,36),與3D-HTM 8.0以及采用相同下采樣的文獻[9]中的方法相比較,來驗證筆者所提算法的性能.
表1 實驗結(jié)果
視點A表示左視點與中間視點合成得到的虛擬視點,視點B表示由中間視點和右視點合成得到的虛擬視點.采用圖4所示比特率-質(zhì)量曲線來評價所提方法的性能,其中縱坐標(biāo)表示視點A及視點B的平均峰值信噪比(Peak Signal to Noise Ratio,PSNR),橫坐標(biāo)表示總的編碼比特率.從圖4可以看出,與3D-HTM 8.0、文獻[9]中的方法相比,筆者提出的方法效果最好.
圖4 三維視頻系統(tǒng)框圖
表1給出了具體的數(shù)值比較結(jié)果.其中Bjontegaard峰值信噪比(BD-PSNR)[13]表示在同樣編碼碼率條件下,測試算法與參考算法(3D-HTM8.0)之間的峰值信噪比增益.雖然編碼標(biāo)識位的碼率很低,但是筆者將其也算入了碼率結(jié)果中.從表1可以看出,筆者提出的方法優(yōu)于文獻[9]中的方法;對于Balloons序列,筆者提出方法的BD-PSNR可達(dá)0.299 dB;對所有序列而言,BD-PSNR的平均值為0.130 dB.
筆者提出了一種針對中間視點的深度時域下采樣編碼方法.首先通過分析三維視頻編碼平臺,確定深度圖像的丟棄方式,然后提出利用時間一致性和空間一致性方法恢復(fù)出丟棄的深度圖像,最后采用了維納濾波的方法以提高恢復(fù)的深度圖質(zhì)量.在恢復(fù)深度圖過程中,首先利用時間一致性得出前向、后向時間一致性深度圖預(yù)測,利用多視點對應(yīng)性得出基于多視點對應(yīng)性的深度預(yù)測值,基于原始深度圖對3個深度預(yù)測值進行融合.筆者提出的方法需要向編碼端發(fā)送維納濾波器系數(shù)和重建深度選擇標(biāo)識符.實驗結(jié)果表明,在保證同等碼率的前提下,解碼端重建的虛擬視圖的質(zhì)量(峰值信噪比)能夠得到有效的提升.
[1]GE C,LIU J,YUAN H.Optimizing Rate Allocation between Multiview Videos and Associated Depth Maps with Quantization-based Virtual View Distortion Model and Genetic Algorithm[J].Journal of Electronic Imaging,2014,23 (6):063016.
[2]馬祥,霍俊彥,任光亮,等.利用視頻和深度圖相關(guān)性的深度圖幀內(nèi)編碼[J].西安電子科技大學(xué)學(xué)報,2015,42(3): 1-7. MA Xiang,HUO Junyan,REN Guangliang,et al.Depth Map Intra Coding Based on Correlation Between Video and Depth Maps[J].Journal of Xidian University,2015,42(3):1-7.
[3]FEHN C.Depth-image-based Rendering(DIBR),Compression,and Transmission for a New Approach on 3D-TV [C]//Proceedings of SPIE:5291.Bellingham:SPIE,2004:93-104.
[4]YUAN H,KWONG S,GE C,et al.Interview Rate Distortion Analysis-Based Coarse to Fine Bit Allocation Algorithm for 3-D Video Coding[J].IEEE Transactions on Broadcasting,2014,60(4):614-625.
[5]YUAN H,KWONG S,LIU J,et al.A Novel Distortion Model and Lagrangian Multiplier for Depth Maps Coding[J]. IEEE Transactions on Circuits and Systems for Video Technology,2014,24(3):443-451.
[6]YUAN H,LIU J,LI Z,et al.Virtual View Oriented Distortion Criterion for Depth Maps Coding[J].Electronics Letters,2012,48(1):23-25.
[7]GRAZIOSI D B,RODRIGUES N M M,PAGLIARI C L,et al.Compressing Depth Maps using Multiscale Recurrent Pattern Image Coding[J].Electronics Letters,2010,46(5):340-341.
[8]OH K,YEA S,VETRO A,et al.Depth Reconstruction Filter and Down/Up Sampling for Depth Coding in 3-D Video [J].IEEE Signal Processing Letters,2009,16(9):747-750.
[9]EKMEKCIOGLU E,WORRALL S T,KONDOZ A M.A Temporal Subsampling Approach for Multiview Depth Map Compression[J].IEEE Transactions on Circuits and Systems for Video Technology,2009,19(8):1209-1213.
[10]LIU C.Beyond Pixels:Exploring New Representations and Applications for Motion Analysis[D].Cambridge: Massachusetts Institute of Technology,2009.
[11]YUAN H,LIU J,XU H,et al.Coding Distortion Elimination of Virtual View Synthesis for 3D Video System: Theoretical Analyses and Implementation[J].IEEE Transactions on Broadcasting,2012,58(4):558-568.
[12]JOINT COLLABORATIVE TEAM FOR 3DV.3D-HTM Software Platform[EB/OL].[2015-06-13].https://hevc. hhifraunhofer.de/svn/svn_3DVCSoftware/tags/.
[13]BJONTEGAARD G.Calculation of Average PSNR Differences between RD-curves[C]//Processings of 13th Meeting of the ITU-T Video Coding Experts Group.Austin:ACEG,2001:1-4.
(編輯:郭 華)
Temporal subsampling based depth maps coding and the reconstruction method
GE Chuan1,LIU Ju1,2,YUAN Hui1,3,XIAO Yifan1,LI Fengrong3
(1.School of Information Science and Engineering,Shandong Univ.,Jinan 250101,China;2.Suzhou Research Institute of Shandong Univ.,Suzhou 215123,China;3.Key Lab.of Wireless Sensor Network&Communication,Shanghai Institute of Microsystem and Information Technology,Chinese Academy of Sciences,Shanghai 200050,China)
In order to improve the coding efficiency of a three-dimensional video system,a depth temporal subsampling based coding method for the intermediate view is proposed.In this paper,the manner of how to discard depth frames is firstly determined.Then,those discarded depths are reconstructed utilizing temporal consistency and multiview correspondences.Finally,in order to further improve the quality of the reconstructed depth,the wiener filter is implemented on the reconstructed results.Filter coefficients and indicators for selecting the depth predictor should be transmitted to the decoder.Experimental results demonstrate that a maximum 0.229 dB and average 0.130 dB peak signal-to noise ratio(PSNR)gain could be achieved for the virtual view reconstructed by the decoder while maintaining the same coding bit rate,and that the coding efficiency can be improved.
video coding;stereo image processing;depth temporal subsampling;temporal consistency; multiview correspondences
TN919.8
A
1001-2400(2016)04-0160-06
10.3969/j.issn.1001-2400.2016.04.028
2015-06-29 網(wǎng)絡(luò)出版時間:2015-10-21
國家自然科學(xué)基金資助項目(61201211,61571274);教育部博士點基金資助項目(20120131120032,20130131110029);山東省優(yōu)秀中青年科學(xué)家獎勵基金資助項目(BS2012DX021);中國科學(xué)院無線傳感網(wǎng)與通信重點實驗室開放課題資助項目(2013002);山東大學(xué)青年學(xué)者未來計劃資助項目(2015WLJH39);蘇州市科技計劃資助項目(SYG201443)
葛 川(1985-),男,山東大學(xué)博士研究生,E-mail:gavinkeh.chuan@gmail.com.
劉 琚(1965-),男,教授,博士,E-mail:juliu@sdu.edu.cn.
網(wǎng)絡(luò)出版地址:http://www.cnkinet/kcms/detail/61.1076.TN.20151021.1046.056.html