王苫社 趙德斌 高文
摘 要:基于HEVC (High Efficiency Video Coding) 新的編碼結(jié)構(gòu),本文提出了一種基于視覺特性的率失真優(yōu)化方法。首先基于分歧歸一化與量化之間的關(guān)系,提出了一種適合HEVC編碼結(jié)構(gòu)的視覺因子的計(jì)算方法,并提出使用非線性模型對視覺因子進(jìn)行縮放,進(jìn)而用于對量化參數(shù)的調(diào)整。其次,基于視覺因子和HEVC的四叉樹結(jié)構(gòu),提出一種基于視覺特性的率失真代價(jià)模型用于模式?jīng)Q策,以提升視頻編碼的主觀性能。實(shí)驗(yàn)結(jié)果表明,本文算法可以有效提升重構(gòu)視頻的主觀質(zhì)量,在RA和LDP配置下,平均主觀性能提升為7.21%和11.46%。
關(guān)鍵詞:HEVC;率失真;視覺優(yōu)化
中圖分類號:TP391.41 文獻(xiàn)標(biāo)識號:A 文章編號:2095-2163(2014)05-
A Perceptual Characteristic Based Optimization Scheme for High Efficiency Video Coding
WANG Shanshe1 ,ZHAO Debin1 ,GAO Wen2
(1 School of Computer Science and Technology, Harbin Institute of Technology, Harbin, 150001, China;
2 Institute of Digital Media, Peking University, Beijing 100871, China)
Abstract:Based on the new coding structure of (High Efficiency Video Coding) HEVC, this paper proposed a perceptual rate distortion optimization scheme. Firstly, based on the correlation between the divisive normalization and quantization, a non-linear zooming scheme for the perceptual factor is proposed for the adjustment of the quantization parameter. Secondly, based on the perceptual factor and quad tree coding structure, a perceptual calculation scheme of rate distortion cost is proposed for the mode decision in order to improve the subjective performance. The experimental results show that the proposed scheme can improve the subjective performance efficiently. The performance gain can be up to 7.21% and 11.46% on average for RA and LDP respectively.
Key Words: High Efficiency Video Coding(HEVC);Rate Distortion;Perceptual Optimization
0 引言
2013年,新一代視頻編碼標(biāo)準(zhǔn)High efficiency video coding (HEVC)[1] 正式發(fā)布。和前一代視頻編碼標(biāo)準(zhǔn)H.264/AVC[2]相比,新標(biāo)準(zhǔn)的視頻編碼性能在主觀和客觀兩個(gè)方面都取得了較大幅度的提升[3]。由于視頻的最終接受者為人眼,因此對于視頻編碼進(jìn)行主觀優(yōu)化,進(jìn)一步提升視頻編碼的主觀性能,以更加符合人眼的視覺特性,即具有重要的研究價(jià)值和現(xiàn)實(shí)意義。
目前,盡管人們對人眼視覺特性的認(rèn)知還無法使用具體的數(shù)學(xué)模型進(jìn)行精確的描述,但在圖像處理、質(zhì)量評價(jià)等領(lǐng)域中,研究者通過對人眼視覺系統(tǒng)的一些簡單特性實(shí)現(xiàn)了模型化并進(jìn)一步應(yīng)用于視頻編碼優(yōu)化,則有效提升了視頻編碼的主觀性能。早期的視頻編碼標(biāo)準(zhǔn)中,已然可見視覺模型[4]在編碼的率失真優(yōu)化中的多次應(yīng)用,而且也取得了不錯(cuò)的視覺效果。
近年來,基于視覺特性的率失真優(yōu)化更加傾向于使用能夠體現(xiàn)視覺特性的失真模型來進(jìn)行視覺率失真優(yōu)化?;贖VS系統(tǒng)的時(shí)空特征,Wang[5]等人提出了一個(gè)用于衡量壓縮視頻序列的主觀失真度量模型——結(jié)構(gòu)相似性(Structure Similarity, SSIM),已由研究界認(rèn)定是一種較為準(zhǔn)確的主觀失真的衡量方法,并廣泛用于對視頻編碼質(zhì)量的主觀評價(jià)[6-7]。而基于SSIM,Li等[8]在假定殘差系數(shù)服從拉普拉斯分布的情況下,更進(jìn)一步地提出了基于SSIM的視覺率失真優(yōu)化模型;隨之Wang[9]更對文獻(xiàn)[8]中的方法實(shí)行了優(yōu)化改進(jìn)。尤其是,文獻(xiàn)[10]基于分歧歸一化理論,研究了基于視覺的量化矩陣的設(shè)計(jì)方法。方法中,通過基于預(yù)測信息的方法對DC系數(shù)和AC系數(shù)分別計(jì)算了歸一化因子,又根據(jù)變換域各頻帶的系數(shù)服從拉普拉斯分布的假設(shè),利用拉普拉斯分布的參數(shù)調(diào)整了AC系數(shù)的量化權(quán)值以體現(xiàn)不同系數(shù)對于主觀質(zhì)量的貢獻(xiàn),由此在H.264/AVC中,視頻編碼的主觀質(zhì)量即得到了較大提升。
1 分歧歸一化的基本理論與視覺優(yōu)化
分歧歸一化(Divisive Normalization)的理論本質(zhì)是對矩陣的某種變換,主要目的是使得矩陣中的數(shù)據(jù)可以反映某種特性并適合于特定的應(yīng)用,其基本思想可以用來解釋神經(jīng)系統(tǒng)的某些行為,因而能夠在一定程度上反映人眼視覺系統(tǒng)的某些特性[11]。在時(shí)下的圖像處理領(lǐng)域中,分歧歸一化方法的應(yīng)用已經(jīng)相當(dāng)廣泛[12]。但在不同的應(yīng)用中,分歧歸一化因子(Divisive Normalization Factor, DNF)的計(jì)算方法卻有所不同,例如基于數(shù)據(jù)局部特征的計(jì)算方法[13],基于數(shù)據(jù)分布模型的計(jì)算方法[11]等。
基于視覺特性的分歧歸一化可以理解為定義一個(gè)DNF對變換的殘差系數(shù)通過歸一化處理,并實(shí)現(xiàn)相應(yīng)的量化,從而可以反映出圖像的主觀特性,即視覺優(yōu)化因子(Perceptual Optimization Factor, POF)。編碼實(shí)現(xiàn)中,該過程可以等價(jià)地注釋為根據(jù)POF對量化參數(shù)進(jìn)行調(diào)整,即:
(1)
其中, 表示調(diào)整后的量化步長。因此,基于視覺的率失真優(yōu)化的核心關(guān)鍵即在于給出能夠反映主觀視覺POF的合理定力,并使用該因子對視頻編碼進(jìn)行率失真優(yōu)化。
依據(jù)DCT域的SSIM定義,在文獻(xiàn)[14]中,基于分歧歸一化的基本理論,則給出了POF的一種計(jì)算方法,具體計(jì)算如公式(2)和(3)所示,可分別用于實(shí)現(xiàn)DC系數(shù)和AC系數(shù)的歸一化。
(2)
(3)
其中,E表示數(shù)學(xué)期望,fac和fdc分別表示AC系數(shù)和DC系數(shù)的POF。
實(shí)際計(jì)算過程中,文獻(xiàn)[14]通過預(yù)測值和補(bǔ)償因子解決了編碼中的“蛋雞”問題,同時(shí)也完成了POF的精確計(jì)算。
2 改進(jìn)的視覺因子計(jì)算與非線性縮放
文獻(xiàn)[14]中,POF計(jì)算方法的不足之處在于,首先會帶來解碼端復(fù)雜度的增加,其次計(jì)算得到的POF波動(dòng)較大,綜合作用下就可能造成相鄰編碼單元的主觀質(zhì)量差異較大。為此,針對解決解碼端的復(fù)雜度提升問題,本文則基于對不同頻帶變換系數(shù)有關(guān)分布的深入分析,提出使用一個(gè)POF表示AC和DC系數(shù)的視覺特性,從而避免對解碼端帶來額外解碼開銷。圖1即給出了對8x8的編碼單元進(jìn)行DCT變換后所得變換系數(shù)在每個(gè)頻帶的分布情況。從中可以看出,不同頻帶的系數(shù)分布均服從一種均值近似為零的拉普拉斯分布。具體地,對于DC系數(shù),分布較為平滑;而對于AC系數(shù),分布就較為集中,并且大部分AC系數(shù)均位于“死區(qū)”內(nèi)。
圖1 8x8 DCT變換系數(shù)分布
Fig. 1 Distribution of 8x8 transformed coefficients
在此,設(shè)某個(gè)頻帶的概率密度函數(shù)為:
(4)
其中,λ為模型參數(shù),取值和函數(shù)的形狀相關(guān),取值越小,其分布越平滑。對于給定的量化參數(shù),“死區(qū)”的量化失真可以表示為:
(5)
結(jié)合(4)式,能夠得到:
(6)
從公式(6)中可以看出,對于相同的量化參數(shù),失真的大小和λ的取值正相關(guān),因此對于AC系數(shù)使用DC系數(shù)的視覺因子,AC系數(shù)的失真增大,而AC系數(shù)又包含了較多的細(xì)節(jié)信息,對主觀質(zhì)量影響也相應(yīng)較大?;谝陨戏治觯疚牡腜OF擬定使用AC系數(shù)進(jìn)行計(jì)算。即:
對于文獻(xiàn)[14]中POF的取值范圍波動(dòng)較大,本文將從兩個(gè)方面解決。首先使用高斯低通濾波方法對編碼單元進(jìn)行濾波,如(7)式,而后再計(jì)算相應(yīng)的視覺因子POF。
(7)
高斯濾波之后,視覺因子的具體計(jì)算就可以表示為:
(8)
其中, 表示高斯濾波之后的系數(shù)。
為了進(jìn)一步平滑視覺因子,同時(shí)基于視覺特性的考慮,本文提出使用非線性的Sigmoid函數(shù)對高斯濾波后計(jì)算得到的POF進(jìn)行非線性收縮,具體則如(9)式。
(9)
經(jīng)過縮放之后的POF取值范圍在[0.5, 1.5]。此后,POF將用于對量化步長的調(diào)整,其實(shí)現(xiàn)可如式(10):
(10)
3 基于視覺特性的率失真代價(jià)模型
率失真優(yōu)化的基本原理是通過計(jì)算每種模式的率失真代價(jià),從而對編碼模式進(jìn)行決策,傳統(tǒng)的率失真代價(jià)的計(jì)算方法為:
(11)
其中,J表示率失真代價(jià),λ表示拉格朗日乘數(shù),D表示編碼的客觀失真,通常的表現(xiàn)形式為SSE或MSE,R則表示編碼所需的碼率。該方法的不足之處即在于不能表示視覺失真特性??紤]視覺特性的率失真代價(jià)的計(jì)算則需要考慮基于視覺的失真,因此可將其表示為:
(12)
其中,Dp表示視覺失真。
利用POF進(jìn)行歸一化后,產(chǎn)生的視覺失真即可表述為:
(13)
因此,基于視覺的率失真代價(jià)的計(jì)算則可如式(14)所示:
(14)
HEVC中,對于Rate-GOP中不同深度的各幀,拉格朗日乘子亦有不同,因此單純對失真進(jìn)行調(diào)整將會造成模式?jīng)Q策的失誤。對公式(14)進(jìn)行等價(jià)變形,可得:
(15)
研究可知,由于對于同一個(gè)編碼單元,f不會發(fā)生改變,因此模式?jīng)Q策只需要比較右側(cè)的取值大小即可。而在右側(cè)的表達(dá)式中,則可等價(jià)理解為對拉格朗日常數(shù)的調(diào)整,使得R-D曲線能夠趨向于表達(dá)主觀特性。最終本文提出,對于一個(gè)編碼單元,率失真代價(jià)的計(jì)算模型為:
(16)
上述率失真代價(jià)計(jì)算可以理解為對于POF較小的區(qū)域,分配更多的比特,以實(shí)現(xiàn)主觀質(zhì)量的提升。由于本文提出的視覺率失真代價(jià)以CU為單位,考慮到HEVC采用了基于四叉樹劃分的結(jié)構(gòu),這就使得對于每個(gè)CU相應(yīng)的四個(gè)Sub-CU,計(jì)算得到的拉格朗日常數(shù)可能并不相同,因此本文算法在比較相鄰深度的率失真代價(jià)時(shí),就需采用上層的拉格朗日乘數(shù)重新計(jì)算當(dāng)前深度下的率失真代價(jià),從而對是否進(jìn)行四叉樹劃分做出最終有效決策。
4 實(shí)驗(yàn)結(jié)果與分析
為了驗(yàn)證本文算法的有效性,將本文算法在HEVC的參考軟件HM10.0上進(jìn)行相關(guān)實(shí)驗(yàn),測試條件為通用的兩種測試條件RA和LDP,主觀性能使用SSIM值進(jìn)行衡量。表1和表2分別給出了在兩種不同配置下的實(shí)驗(yàn)結(jié)果,并和相關(guān)文獻(xiàn)的結(jié)果進(jìn)行了對比。在RA和LDP下本文算法的平均主觀性能提升分別為7.21%和11.46%。同時(shí),本文也將實(shí)驗(yàn)結(jié)果和文獻(xiàn)[15][16]中的算法相比,如表1和表2所示,從中可以看出本文算法能夠有效地提高視頻編碼的主觀性能,而且又保持了較小的客觀性能損失。
5 結(jié)束語
基于HEVC新的編碼特性,本文提出了一種基于視覺特性的優(yōu)化算法。該算法引入了一種非線性收縮方式用于計(jì)算視覺因子,進(jìn)而基于視覺因子提出了一種基于視覺特性的率失真代價(jià)計(jì)算方法用于模式?jīng)Q策,從而實(shí)現(xiàn)基于視覺特性的率失真優(yōu)化。實(shí)驗(yàn)結(jié)果表明,本文算法的主觀性能得到了較大幅度的提升。
參考文獻(xiàn):
[1] SULLIVAN G J, OHM J R, HAN W J, et al. Overview of the High Efficiency Video Coding (HEVC) Standard[J].IEEE Trans. on Circuits and Systems for Video Technology, 2012, 22(12):1649-1668.
[2] WIEGAND T, SULLIVAN G J, BJONTEGAARD G, et al. Overview of the H.264/AVC video coding standard[J].IEEE Trans. on Circuits Syst. Video Technol., 2003, 13(7):560-576.
[3] OHM J R, SULLIVAN G J, SCHWARZ H, et al. Comparison of the coding efficiency of video coding standards–including high efficiency Video Coding (HEVC) [J].IEEE Transactions on Circuits and Systems for Video Technology , 2012,22(12):1669-1684.
[4] WEBSTER A A, JONES C T, PINSON M H, et al. An objective video quality assessment system based on human perception[C]//Proc. SPIE VInt. Soc. Opt. Eng., 1993,1913:15–26.
[5] WANG Z, BOVIK A C, SHEIKH H R, et al. Image quality assessment: From error visibility to structural similarity[J].IEEE Trans.on Image Processing, 2004,13(4):600–612.
[6] YANG C, WANG H, PO L. Improved inter prediction based on structural similarity in H.264[C]//IEEE International Conference on Signal Processing and Communications, 2007,2:340–343.
[7] HUANG Y H, OU T S, SU P Y, et al. Perceptual rate-distortion optimization using structural similarity index as quality metric[J].IEEE Trans. on Circuits and Systems for Video Technology, 2010,20: 1614–1624.
[8] LI X, OERTEL N, HUTTER A, et al. Laplace distribution based Lagrangian rate distortion optimization for hybrid video coding[J]. IEEE Trans. Circuits Syst. Video Technol., 2009,19(2):193-205.
[9] WANG S, REHMAN A, WANG Z, et al. SSIM-motivated rate-distortion optimization for video coding[J]. IEEE Trans. on Circuits and Systems for Video Technology, 2012, 22(4):516-529.
[10] WANG S, MA S, GAO W. SSIM based perceptual distortion rate optimization coding[C]//Proc. SPIE: Vis. Commun. Image Process.,2010,77(44):1–10.
[11] HEEGER D J. Normalization of cell responses in cat striate cortex[J]. Visual Neuroscience, 1992,9(2):181-197.
[12] LYU S, SIMONCELLI E P. Statistically and perceptually motivated nonlinear image representation[C]//Proc. SPIE Conf. Human Vision Electron. Imaging XII, 2007,6492:1-15.
[13] WAINWRIGHT M J, SIMONCELLI E P. Scale mixtures of gaussians and the statistics of natural images[J]. Adv. Neural Inf. Process. Syst., 2000,12:855–861.
[14] WANG S, REHMAN A, WANG Z, et al. Perceptual video coding based on SSIM-inspired divisive normalization[J].IEEE Transactions on Image Processing, 2013,22(4):1418-1429.
[15] YEO C, TAN H, TAN Y. SSIM-based adaptive quantization in HEVC[C]//IEEE International Conference on Speech and Signal Processing (ICASSP), 2013:1690-1694.
[16] 王詩淇.基于視覺特性的視頻編碼技術(shù)研究[D].北京:北京大學(xué),2014.