劉杰平 何越盛
(華南理工大學(xué) 電子與信息學(xué)院,廣東 廣州 510640)
分布式視頻編碼(DVC)是建立在Slepian 等[1-2]提出的分布式信源編碼理論基礎(chǔ)上的一種新型的視頻編碼框架.與傳統(tǒng)的視頻編碼標準(MPEG-x,H.26x 等)相比,DVC 將利用幀間統(tǒng)計相關(guān)性進行的運動估計和運動補償轉(zhuǎn)移到解碼端,具有編碼簡單、解碼較復(fù)雜的特點,這一特點使得它特別適合應(yīng)用于計算能力和內(nèi)存容量都受限的無線視頻終端,如無線視頻監(jiān)控、無線PC 相機、移動視頻電話等,為滿足新的視頻應(yīng)用提供了很好的解決方案[3-4].在DVC 系統(tǒng)中,由于WZ(WZ Wyner-Ziv)幀編碼后傳輸?shù)浇獯a端的只是部分效驗比特,因此為了提高WZ 幀的重構(gòu)質(zhì)量,通常需要利用邊信息進行輔助重構(gòu),重構(gòu)算法的好壞直接影響解碼重構(gòu)WZ 幀的圖像質(zhì)量[5-10].Aaron 等[11]提出一種直接重構(gòu)算法,利用Slepian-Wolf 解碼輸出和邊信息重構(gòu)WZ 幀,該算法沒有利用原始信息與邊信息之間的相關(guān)性,算法比較簡單.Kubasov 等[12]提出一種最小均方誤差重構(gòu)算法(MMSE),是均方誤差準則下的一種最佳重構(gòu)算法,利用邊信息與原始像素之間的相關(guān)模型計算像素的期望值并將其作為重構(gòu)值,還提出一種多邊信息的MMSE 重構(gòu)方法,多邊信息的生成在一定程度上增加了解碼端的復(fù)雜度.文獻[13]中指出視頻圖像的像素值是離散的,提出一種新的考慮了離散像素值的重構(gòu)方法.實驗結(jié)果表明,該方法效果比直接重建好,但稍差于MMSE 重建,并且增加了復(fù)雜度.張曉斐等[14]從用于插值邊信息的前后幀中提取的特征預(yù)測重構(gòu)幀的下一個比特,并進一步基于該預(yù)測比特對重構(gòu)時的概率密度函數(shù)(PDF)進行修改,實現(xiàn)了在傳輸較少比特平面時獲得較高的重構(gòu)WZ 幀的質(zhì)量.楊春玲等[15]考慮了視頻中幀內(nèi)和幀間的相關(guān)性,結(jié)合量化區(qū)間中的雙向運動補償,提出一種像素域分布式視頻編碼雙向運動補償重建算法.文獻[12-14]中都是用Laplacian 分布做為相關(guān)噪聲模型的重構(gòu)方案.然而,Laplacian 分布并不是最佳的相關(guān)噪聲模型[16],文中將廣義高斯分布(GGD)用于WZ 幀重構(gòu)模塊,在基本不增加解碼復(fù)雜度的情況下,有效改善了重構(gòu)WZ 幀圖像的質(zhì)量,提高了率失真性能.
典型的像素域Wyner-Ziv 編碼的分布式視頻編碼方案如圖1 所示[11],文中將文獻[11]中Slepian-Wolf 編解碼器的Turbo 編解碼器換為LDPCA(Low-Density Parity-Check Accumulate)編解碼器.通常,將輸入的視頻序列x1,x2,…,xN(N 為序列的長度)劃分為WZ 幀x2i(i=1,2,…)和關(guān)鍵幀(K 幀)x2i-1(i=1,2,…),對K 幀采用傳統(tǒng)的JPEG 或H.264/AVC 等幀內(nèi)編碼,對WZ 幀首先進行均勻量化,量化之后進行位平面抽取,然后由Slepian-Wolf 編碼器對上述位平面的比特流進行編碼,得到的效驗比特傳輸?shù)浇獯a端.解碼端通過對已解碼的K 幀進行運動估計、內(nèi)插等得到邊信息(SI),聯(lián)合傳輸?shù)浇獯a端的效驗比特由LDPCA 解碼器解碼,之后輸入到重構(gòu)模塊,重構(gòu)出WZ 幀.
圖1 分布式視頻編碼框架Fig.1 Framework of distributed video coding
如圖1 所示,重構(gòu)模塊的輸入是LDPCA 解碼器輸出的量化值q,因為Wyner-Ziv 編碼器傳輸?shù)膬H僅是部分校驗比特,解碼時需要利用SI 進行聯(lián)合解碼,如果LDPCA 解碼失敗,解碼端向編碼端請求更多的效驗比特,直到解碼成功,從而保證解碼恢復(fù)的視頻質(zhì)量;相關(guān)噪聲模型的精確程度一方面直接影響碼率,另一方面通過解碼輸出q'逼近q 的程度間接影響峰值信噪比(PSNR).當相關(guān)噪聲模型和SI足夠精確時,q'=q,這時,如果不改善重構(gòu)模塊,已經(jīng)無法提高解碼WZ 幀的圖像質(zhì)量,重構(gòu)算法的好壞將直接決定解碼WZ 幀的圖像質(zhì)量.
LDPCA 解碼輸出為q 時,文獻[11]的直接重構(gòu)算法如下:
為了進一步提高重構(gòu)WZ 幀的質(zhì)量,文獻[12]中的MMSE 算法對直接重構(gòu)算法進行了改進,MMSE 算法考慮了SI 與原始WZ 幀的相關(guān)性,認為該相關(guān)模型滿足式(2)的Laplacian 分布
式中,x 表示原始WZ 幀,p(·)表示概率密度函數(shù),α為Laplacian 參數(shù),,σ2為對前后K 幀的運動補償?shù)臍埐顜M行估計得到的方差.
MMSE 重構(gòu)算法使重構(gòu)值的均方誤差最小,其計算公式為
推導(dǎo)出重構(gòu)算法的閉式表達式為
式中,Δ=zq+1-zq,γ=y-zq,δ=zq+1-y.
MMSE 重構(gòu)算法的效果取決于Laplacian 分布擬合相關(guān)噪聲的性能.實際上,Laplacian 分布不是擬合相關(guān)噪聲的最佳模型[16],因此該重構(gòu)結(jié)果不是最佳.
通常稱SI 與原始WZ 幀間的殘差為相關(guān)噪聲,MMSE 重構(gòu)算法認為該相關(guān)噪聲模型滿足Laplacian分布.然而,Laplacian 分布并不是擬合相關(guān)噪聲最好的一種分布,文中將GGD 作為相關(guān)噪聲模型,進行WZ 的重構(gòu),獲得更好的重構(gòu)效果.
均值為0 的GGD 為
圖2 概率密度函數(shù)擬合相關(guān)噪聲Fig.2 Probability density function fitting correlation noise
基于GGD 的WZ 幀重構(gòu)的Wyner-Ziv 解碼器如圖3 所示,圖3 中的“相關(guān)噪聲模型1”采用Laplacian 分布,相關(guān)噪聲模型參數(shù)估計的準確性將直接影響碼率.圖3 中的重構(gòu)模塊由“相關(guān)噪聲模型2”和“重建”兩部分組成,“相關(guān)噪聲模型2”采用GGD,重建部分是均方誤差最小準則下的重構(gòu)算法,即采用式(3)實現(xiàn)重建,其中的滿足GGD,為了不過多地增加計算的復(fù)雜度,將GGD 的形狀參數(shù)固定為0.5,則式(5)變?yōu)?/p>
將式(6)代入式(3),LDPCA 解碼輸出為q 時,可以推導(dǎo)出基于GGD 的WZ 幀重構(gòu)算法如下:
圖3 Wyner-Ziv 解碼器Fig.3 Wyner-Ziv decoder
為驗證文中提出的基于GGD 的WZ 幀重構(gòu)算法的性能,在圖1 所示的Wyner-Ziv 解碼器中,分別采用文獻[11]的直接重構(gòu)、文獻[12]的MMSE 重構(gòu)算法與文中提出的WZ 幀重構(gòu)算法進行對比實驗,檢驗文中提出的重構(gòu)算法的率失真性能和解碼WZ幀圖像的質(zhì)量,實驗中GGD 的形狀參數(shù)固定為0.5,即用式(7)進行WZ 幀重建.實驗中,選用QCIF 格式的“Foreman”、“Hall”和“Soccer”視頻序列,視頻序列長度都是100 幀,其中奇數(shù)幀為K 幀、偶數(shù)幀為WZ 幀、幀率為30 Hz;實驗針對視頻序列的亮度分量進行,且只計算WZ 幀的平均碼率(rate)和平均峰值信噪比(PSNR);并假設(shè)在解碼端K 幀可以無失真重建.
圖4(a)、(b)、(c)分別是“Foreman”、“Hall”和“Soccer”視頻序列不同算法重構(gòu)WZ 幀的率失真性能的比較結(jié)果,對于每個視頻序列而言,圖4 中的4 個率失真點分別對應(yīng)WZ 幀編碼的最高位平面數(shù)M{1,2,3,4},即對應(yīng)著重構(gòu)位平面數(shù)從少到多的情況.從圖4 可見,在相同碼率情況下,與文獻[11]直接重構(gòu)和文獻[12]MMSE 重構(gòu)算法相比,對于不同的視頻序列,文中提出的基于GGD 的WZ 幀重構(gòu)算法均有效提高了率失真性能,且隨著碼率的增加,文中算法的改善效果更明顯.表1 給出了重構(gòu)位平面數(shù)為4 時,不同算法重構(gòu)WZ 幀的客觀質(zhì)量比較,從表1 可見,對“Foreman”、“Hall”和“Soccer”3 個視頻序列,文中算法重構(gòu)WZ 幀的PSNR 比文獻[12]算法分別提高0.32、0.46 和1.01 dB,3 個序列的質(zhì)量總體平均提高約0.6 dB,3 個視頻序列改善效果不同的原因是:“Foreman”、“Hall”和“Soccer”3 個視頻序列的運動復(fù)雜度不同,它們的運動復(fù)雜度依次遞增,GGD 對運動復(fù)雜度較高的序列相關(guān)噪聲的擬合更好,“Soccer”序列運動復(fù)雜度最高,因此改善的效果最好.
圖4 不同重構(gòu)算法的率失真性能Fig.4 RD(rate-distortion)performance using different reconstruction algorithms
表1 不同算法重構(gòu)WZ 幀的PSNR1)Table 1 PSNR using different reconstruction algorithms
圖5 示出“Foreman”、“Hall”和“Soccer”視頻序列各幀的重建質(zhì)量(解碼4 個位平面,M=4),由圖5 可以看出,文中提出的基于GGD 的重構(gòu)WZ 幀算法均比文獻[11]中直接重構(gòu)和文獻[12]中MMSE的算法要好;對比文獻[12]中的MMSE 算法,對于解碼質(zhì)量較差的幀,文中算法的重構(gòu)質(zhì)量有明顯提高,而對于那些解碼質(zhì)量較好的幀,基于GGD 重構(gòu)算法的重構(gòu)質(zhì)量與文獻[12]中的MMSE 算法相當;對于不同的視頻序列,圖5 中顯示文中提出的算法均有效提高了重構(gòu)WZ 幀的圖像質(zhì)量,尤其,對于運動相對劇烈的“Soccer”序列,文中算法重構(gòu)幀的質(zhì)量均比文獻[12]中的MMSE 算法要好.這是因為GGD 擬合相關(guān)噪聲的效果比Laplacian 好.總之,GGD 對相關(guān)噪聲具有更好的擬合性,采用GGD 分布進行WZ 幀重構(gòu)取得了較好的效果,尤其重構(gòu)的位平面數(shù)越多,相關(guān)信息在重構(gòu)中的作用越明顯,文中提出的基于GGD 的重構(gòu)WZ 幀算法有效提高了重構(gòu)WZ 幀的圖像質(zhì)量,并改善了率失真性能.
圖5 不同算法重構(gòu)WZ 幀圖像客觀質(zhì)量Fig.5 Decoded WZ image quality using different reconstruction algorithms
在計算復(fù)雜度方面,從圖3 可以看出DVC 解碼端的復(fù)雜度由LDPCA 迭代譯碼和重構(gòu)兩部分組成,相對于復(fù)雜的LDPCA 迭代譯碼,重構(gòu)部分的復(fù)雜度是微不足道的,文中算法在對量化值進行重構(gòu)時引入了GGD 作為相關(guān)噪聲模型,即圖3 中的“相關(guān)噪聲模型2”,因此對重構(gòu)部分增加了一定的計算量,表2 中給出了不同序列在采用文獻[12]中的MMSE重構(gòu)算法和采用文中基于GGD 重構(gòu)算法的情況下平均每幀的重構(gòu)時間,從實驗結(jié)果可以看出,文中算法每幀的平均重構(gòu)時間有所增加,這是因為GGD 參數(shù)估計比Laplacian 參數(shù)估計復(fù)雜.需要指出的是,文中算法增加的計算復(fù)雜度僅僅是解碼端的復(fù)雜度,對編碼端沒有影響,DVC 中更加關(guān)注的是編碼端的復(fù)雜度.目前,DVC 的瓶頸是解碼性能,文中提出的算法恰恰是提高了解碼性能,且對運動相對劇烈的視頻序列解碼性能提高的效果更明顯,因此對于文中算法在改進性能的同時,平均每幀重構(gòu)時間增加1.6~3.5 ms,這對于DVC 來說是可以接受的.
表2 采用不同重構(gòu)算法的重構(gòu)時間Table 2 Reconstructing time using different reconstruction algorithms
基于DVC 系統(tǒng)WZ 幀重構(gòu)的特點,文中對已有WZ 幀重構(gòu)算法的性能進行了分析比較,研究了Laplacian 分布和GGD 對相關(guān)噪聲的擬合,對形狀參數(shù)固定為0.5 的GGD 相關(guān)噪聲擬合實驗表明,GGD比Laplacian 能更好地擬合相關(guān)噪聲.文中充分考慮了邊信息與原始WZ 幀之間的相關(guān)性,用GGD 作為該相關(guān)模型,計算邊信息已知情況下WZ 的條件期望作為WZ 重構(gòu)值;提出了基于GGD 的WZ 幀重構(gòu)算法,推導(dǎo)出形狀參數(shù)為0.5 的GGD 為相關(guān)模型的重構(gòu)WZ 幀的閉式表達式.實驗結(jié)果顯示,文中的重構(gòu)算法與直接重構(gòu)和MMSE 重構(gòu)算法相比,能更有效地提高重構(gòu)WZ 幀的圖像質(zhì)量,并且能有效改善率失真性能.
[1]Slepian D J,Wolf K J.Noiseless coding of correlated information sources[J].IEEE Transactions on Information Theory,1973,19(4):471-480.
[2]Wyner A D,Ziv J.The rate-distortion function for source coding with side information at the decoder [J].IEEE Transactions on Information Theory,1976,22(1):1-10.
[3]Girod B,Aaron A,Rane S.Distributed video coding[J].Proceedings of the IEEE,2005,93(1):71-83.
[4]Puri R,Majumdar A,Ishwar P.Distributed video coding in wireless sensor networks [J].IEEE Signal Processing Magazine,2006,23(4):94-106.
[5]Weerakkody W,F(xiàn)ernando W A C,Kondoz A M.An enhanced reconstruction algorithm for unidirectional distributed video coding[C]∥Proceedings of the 12th IEEE International Symposium on Consumer Electronics (ISCE’08).Algarve:Portugal,2008:1-4.
[6]Roca A,PradesNebot J,Delp E J.Adaptive reconstruction for Wyner-Ziv video coders[C]∥Proceedings of Visual Communications and Image Processing.San Jose,CA,SPIE,2009:1-9.
[7]Ralph H?nsel,Erika Müller.Improved reconstruction for distributed video coding[C]∥Ultra Modern Telecommunications & Workshops.Russia:St Petersburg,2009:1-5.
[8]Shim S Y,Han J K,Bac J.Adaptive reconstruction scheme using neighbour pixels in PDWZ coding[J].Electronics Letters,2010,46(9):626-628.
[9]Zhang Y S,Xiong H K,He Z H,et al.Reconstruction for distributed video coding:a context-adaptive markov random field approach[J].IEEE Transactions on Circuits and Systems for Video Technology,2011,21(8):1100-1114.
[10]Micallef J J,F(xiàn)arrugia R A,Debono C J.Selective reconstruction of low motion regions in distributed video coding[C]∥EuroCon.Zagreb:IEEE,2013:87-92.
[11]Aaron A,Zhang R,Girod B.Wyner-Ziv coding of motion video[C]∥Proceedings of the 36th Asilomar Conference on Signals,Systems and Computers.Pacific Grove,USA:IEEE,2002:240-244.
[12]Kubasov D,Nayak J,Guillemot C.Optimal reconstruction in Wyner-Ziv video coding with multiple side information[C]∥Proceedings of the 9th International Workshop on Multimedia Signal Processing 2007.Grete,IEEE,2007:183-186.
[13]Du B,Shen H.A novel reconstruction approach for pixeldomain distributed video coding[C]∥International Conference on Future Computer and Communication (ICFCC’2010).Wuhan:IEEE,2010:614-618.
[14]張曉斐,熊紅凱,張永生.基于比特平面預(yù)測的分布式視頻WZ 幀重構(gòu)方法[J].中國圖象圖形學(xué)報,2009,14(10):2172-2176.Zhang Xiao-fei,Xiong Hong-kai,Zhang Yong-sheng.Bit plane prediction based WZ frame reconstruction in DVC[J].Journal of Image and Graphics,2009,14(10):2172-2176.
[15]楊春玲,蘇桌涵.像素域分布式視頻編碼雙向運動補償重建算法[J].華南理工大學(xué)學(xué)報:自然科學(xué)版,2011,39(12):7-12.Yang Chun-ling,Su Zhuo-han.Bi-directional motioncompensated algorithm for pixel-domain video coding[J].Journal of South China University of Technology:Natural Science Edition,2011,39(12):7-12.
[16]Maugey T,Gauthier J.Pesquet-Popescu B.Using an exponential power model for Wyner-Ziv video coding[C]∥Proc IEEE ICASSP.Dallax Texas:IEEE,2010:2338-2341.