祁偉,殷海兵,王鴻奎,黃曉峰,牛偉宏
基于統(tǒng)計建模的VVC快速碼率估計算法
祁偉,殷海兵,王鴻奎,黃曉峰,牛偉宏
(杭州電子科技大學(xué)通信工程學(xué)院,浙江 杭州 310018)
為降低新一代通用視頻編碼(versatile video coding,VVC)標(biāo)準(zhǔn)率失真優(yōu)化過程的編碼復(fù)雜度,提出一種基于統(tǒng)計建模的快速碼率估計算法。首先,算法充分考慮依賴性量化(dependent quantization,DQ)的量化行為和熵編碼中的上下文依賴,提出可以準(zhǔn)確刻畫編碼過程中上下文狀態(tài)遷移的碼率特征,初步預(yù)估變換單元(transform unit,TU)中部分語法元素的碼率;其次,基于系數(shù)分布特性,定義系數(shù)混亂度特征和稀疏度特征來區(qū)分系數(shù)分布差異帶來的碼率影響,并構(gòu)建TU級碼率模型;最后,算法根據(jù)碼率構(gòu)成特性將大尺寸TU和小尺寸TU分開建模實現(xiàn)更精準(zhǔn)的碼率預(yù)估。通過統(tǒng)計方式對大量樣本進(jìn)行回歸訓(xùn)練,得到最終的線性碼率模型,并應(yīng)用于VVC的模式?jīng)Q策中。實驗結(jié)果表明,所提出算法在隨機(jī)訪問(random access,RA)配置下,可以實現(xiàn)16.289%的復(fù)雜度降低,而碼率變化率(Bjontegaard delta bit rate,BD-BR)僅增加1.567%。
碼率預(yù)估;通用視頻編碼;率失真優(yōu)化;回歸訓(xùn)練
為滿足不斷增長的視頻壓縮需求,JVET(Joint Video Exploration Team)提出新一代通用視頻編碼[1],其中采用諸多新的編碼技術(shù),如多種劃分模式、多變換核選擇、改進(jìn)的熵編碼[2]和依賴性量化[3]等。相比上一代高效視頻編碼(high efficiency video coding,HEVC)[4],VVC以復(fù)雜度增加為代價,提高約50%的視頻編碼效率。
在VVC中模式?jīng)Q策過程基于率失真優(yōu)化(rate distortion optimization,RDO)[5]技術(shù)實現(xiàn)。盡管豐富的多模式預(yù)測和自適應(yīng)DQ技術(shù)的使用極大提升了編碼性能,但是大量的候選模式通過預(yù)測、變換、量化和熵編碼過程獲取碼率代價,這加劇了率失真優(yōu)化過程的計算復(fù)雜度和串行依賴,為視頻編碼標(biāo)準(zhǔn)的實際應(yīng)用帶來困難。
因此一些學(xué)者針對率失真優(yōu)化過程中的碼率計算復(fù)雜度問題展開研究。在H.264/AVC[6]中,Sarwer等[7]基于上下文自適應(yīng)變長編碼(context adaptive variable length coding,CAVLC)特性,使用變換塊系數(shù)絕對值之和、高頻區(qū)域非零系數(shù)位置和非零系數(shù)數(shù)量來預(yù)估對應(yīng)殘差塊碼率;Zhao等[8]基于零均值廣義高斯分布模型,使用量化系數(shù)加權(quán)和來預(yù)測變換塊碼率;Tu等[9]簡化RDO流程,使用變換域中非零系數(shù)數(shù)量與變換系數(shù)和來預(yù)估變換塊碼率。在H.265/HEVC中,一些學(xué)者[10-12]從信息熵角度出發(fā),統(tǒng)計各語法元素的二元結(jié)果,計算0和1符號的信息熵,以此來預(yù)估系數(shù)碼率;Hu等[13]和Huang等[14]從硬件友好的角度出發(fā),使用變換系數(shù)和位置信息進(jìn)行快速的系數(shù)碼率預(yù)估;Sheng等[15]基于上下文自適應(yīng)二進(jìn)制算術(shù)編碼(context-based adaptive binary arithmetic coding,CABAC)特性,使用量化系數(shù)幅度和位置特征來預(yù)估系數(shù)塊碼率;Liu等[16]根據(jù)上下文分類特性對系數(shù)組(coefficient group,CG)進(jìn)行二元分類,并使用6個系數(shù)分布特征預(yù)估部分語法元素碼率;Sun等[17]在變換域建立閾值區(qū)分變換系數(shù)是否量化為0,并使用變換系數(shù)幅值和位置信息預(yù)估碼率;孟翔等[18]對不同位置的量化系數(shù)進(jìn)行自適應(yīng)加權(quán),并結(jié)合位置特征,實現(xiàn)較為準(zhǔn)確的變換塊碼率預(yù)估。然而已有算法均是在H.264和H.265平臺上實現(xiàn)的,而VVC使用多種劃分方式和改進(jìn)的熵編碼等,導(dǎo)致現(xiàn)有算法很難深入描述VVC中上下文更新時影響碼率變化的根本因素,因此進(jìn)行系統(tǒng)精確的碼率建模仍面臨挑戰(zhàn)。
針對以上問題,本文提出一種基于統(tǒng)計建模的VVC快速碼率估計算法減少模式?jīng)Q策復(fù)雜度。首先,本文基于DQ量化行為和熵編碼特性提出可以準(zhǔn)確刻畫編碼過程中上下文狀態(tài)遷移的碼率特征,初步估計部分語法元素碼率;其次,本文從系數(shù)分布特性出發(fā),提出系數(shù)混亂度特征和稀疏度特征來減小預(yù)測誤差,并構(gòu)建整個變換單元(transform unit,TU)級碼率模型;最后,根據(jù)碼率構(gòu)成特性,將TU分為大尺寸和小尺寸建模處理,可以更準(zhǔn)確地預(yù)估碼率。
在模式?jīng)Q策過程中,VVC通過拉格朗日公式進(jìn)行率失真代價的計算:
第1次系數(shù)掃描編碼時,有效系數(shù)標(biāo)志(significant coefficient flag,SCF)表示當(dāng)前系數(shù)是否非零,系數(shù)大于1標(biāo)志(greater than 1,GT1)表示系數(shù)絕對值是否大于1,奇偶校驗標(biāo)志(parity,PAR)表示系數(shù)絕對值減去2后的奇偶性,系數(shù)大于3(greater than 3,GT3)標(biāo)志表示當(dāng)前系數(shù)絕對值是否大于3。第2次系數(shù)掃描時,剩余(remaining,REM)系數(shù)標(biāo)志表示系數(shù)絕對值減去4的剩余部分。VVC對第1次掃描中已經(jīng)編碼的上下文比特數(shù)量有所限制[2],如果在掃描位置開始時,變換塊中SCF、GT1、PAR和GT3編碼的比特總數(shù)超過一定值,則在此處終止第1次和第2次系數(shù)掃描,剩余掃描位置的系數(shù)絕對值||在第3次掃描過程中進(jìn)行旁路編碼,由語法元素剩余系數(shù)絕對值標(biāo)志(dec-abs-level,DEC)表示。在第4次系數(shù)掃描時,系數(shù)符號標(biāo)志(coefficient sign flag,CSF)表示當(dāng)前系數(shù)是否為正。VVC語法元素掃描編碼圖如圖1所示,其中閃電標(biāo)志表示在此處終止第1次和第2次系數(shù)掃描。
圖1 VVC語法元素掃描編碼圖
在DQ選擇最優(yōu)量化索引的率失真優(yōu)化過程和熵編碼過程中,會對語法元素進(jìn)行復(fù)雜的上下文建模和概率狀態(tài)更新,這會帶來極大的上下文依賴。此外DQ量化技術(shù)基于維特比搜索算法進(jìn)行最優(yōu)量化路徑的選擇,這樣可以實現(xiàn)更好的比特節(jié)省,但是其計算復(fù)雜度更高且不利于硬件并行化處理。因此如何避免復(fù)雜的DQ量化和上下文更新進(jìn)行系統(tǒng)準(zhǔn)確的碼率建模對于快速的碼率估計算法是非常關(guān)鍵的。
首先本文使用相對簡單的硬決策量化(hard decision quantization,HDQ)[19]代替復(fù)雜度較高的DQ量化方式。其次,為了準(zhǔn)確預(yù)估量化系數(shù)比特,本文基于DQ量化行為和熵編碼中的語法元素上下文分類原則開發(fā)整體碼率特征,并驗證和使用能夠表示系數(shù)分布特性的混亂度和稀疏度特征,共同開發(fā)了TU級碼率模型。最后在建模過程中發(fā)現(xiàn)VVC中存在小于16個系數(shù)[2]的TU,即2×2、2×4、4×2尺寸的TU,這些小尺寸TU和大尺寸TU的碼率構(gòu)成相差很大,因此本文將它們分開進(jìn)行碼率建模。
在現(xiàn)有碼率估計算法中,Liu等[16]根據(jù)上下文分類原則對系數(shù)組進(jìn)行二元分類,并使用6個系數(shù)分布特征預(yù)估CG內(nèi)語法元素SCF、GT1和GT3的碼率。該算法在H.265平臺上可以較為準(zhǔn)確地預(yù)估系數(shù)塊碼率,但是VVC中上下文轉(zhuǎn)換原則發(fā)生改變[2],使得其碼率特征很難深入刻畫上下文狀態(tài)轉(zhuǎn)換時碼率變化的根本因素。VVC局部鄰域模板圖和頻區(qū)分布圖如圖2所示。圖2(a)為VVC從當(dāng)前量化系數(shù)與鄰近系數(shù)之間的依賴關(guān)系出發(fā)提出的局部鄰域模板,其中黑色方塊表示待編碼系數(shù),灰色方塊表示其局部鄰域系數(shù)。根據(jù)局部統(tǒng)計特性[20],語法元素SCF、PAR、GT1和GT2的上下文概率模型受多種因素影響,包括有當(dāng)前系數(shù)位置、局部鄰域系數(shù)的部分重建值之和、局部鄰域中非零系數(shù)數(shù)量和DQ狀態(tài)。局部鄰域系數(shù)部分重建值之和表示如下。
圖3 TU級別R1與真實碼率之間的關(guān)系
圖4 不同TU尺寸和不同QP下語法元素的碼率占比結(jié)果
其中,表示變換單元的尺寸。當(dāng)QP為37時,系數(shù)分布特征與真實碼率之間的關(guān)系如圖5所示。
經(jīng)過上述分析,大尺寸TU最終碼率模型如下。
圖5 系數(shù)分布特征與真實碼率之間的關(guān)系
由于小尺寸TU系數(shù)較少,處于不同掃描位置的系數(shù)對碼率代價造成的影響區(qū)別較大,因此本文使用加權(quán)量化系數(shù)[18]的方法來描述位置信息對碼率代價的不均勻貢獻(xiàn),并使用全局混亂度特征減小預(yù)估碼率與真實碼率間的誤差。最終模型如下。
圖6 大尺寸TU預(yù)估碼率與真實碼率之間的關(guān)系
圖7 小尺寸TU預(yù)估碼率與真實碼率之間的關(guān)系
首先為評估第2節(jié)提出的碼率模型精度,本文對不同情況下預(yù)估碼率和真實碼率的誤差進(jìn)行統(tǒng)計,并對不同區(qū)間誤差的概率進(jìn)行歸一化處理,碼率誤差的歸一化概率如圖8所示。其中,方形符號、三角符號和圓點(diǎn)分別表示文獻(xiàn)[17]、文獻(xiàn)[18]和本文提出的碼率預(yù)估算法的誤差歸一化概率圖,需要說明的是,編碼塊預(yù)估碼率會在真實碼率附近浮動,當(dāng)預(yù)估碼率小于真實碼率時,對應(yīng)預(yù)測誤差為負(fù)值。測試序列為紋理細(xì)節(jié)較多的BasketballDrillText??梢钥闯?,Sun等[17]提出的算法由于特征相對較少,對碼率變化的深層原因描述不夠精準(zhǔn),導(dǎo)致模型精度不夠穩(wěn)定,誤差相對較大。而孟翔等[18]提出的模型由于VVC中上下文分類原則轉(zhuǎn)變導(dǎo)致其算法適用性不強(qiáng),模型精度相對較低。因此本文提出的碼率預(yù)估算法相對更加準(zhǔn)確,預(yù)估誤差也更小。
圖8 碼率誤差的歸一化概率
在Sun等[17]的算法中,將TU中變換系數(shù)幅度,非零系數(shù)位置和最后一位非零系數(shù)位置作為特征進(jìn)行碼率建模。由于算法碼率特征較少,很難深入描述上下文更新時碼率變化的根本因素,在VVC中造成較大的性能損失。具體地說,對于一些高分辨率視頻序列,如Tango2、Campfire和ParkRunning3,Sun等[17]的算法BD-BR分別上升1.83%、1.92%、1.65%,而本文算法在這些序列的BD-BR分別上升1.52%、1.75%、1.25%。同時對于一些低分辨率視頻序列,如BasketballPass、RaceHorses和BasketballDrillText,Sun等[17]的性能損失分別為2.06%、2.46%、2.59%,本文算法在這些序列的性能損失分別為1.10%、1.44%、1.57%。這說明對于不同分辨率的視頻序列,本文算法皆比Sun等[17]的算法實現(xiàn)更好的編碼效率。而在時間復(fù)雜度方面,對于高分辨率視頻序列,如Tango2和Campfire,時間節(jié)省分別為20.34%和17.65%,最大值和最小值相差2.69%,而本文在高分辨率對應(yīng)視頻序列時間節(jié)省分別為21.36%和19.86%,最大值和最小值相差僅1.5%。同時對于低分辨率視頻序列如BasketballDrillText和SlideShow,時間節(jié)省分別為12.32%和8.14%,兩者相差4.18%,而本文算法中對應(yīng)低分辨率視頻序列時間節(jié)省分別為11.03%和8.67%,兩者相差僅2.46%。這說明對于不同分辨率的視頻序列,而本文算法相比Sun等[17]的算法時間節(jié)省更加均勻,算法適用性更好。
表1 在Random Access下模型性能
在孟翔等[18]所提算法中,對位于不同位置的量化系數(shù)進(jìn)行自適應(yīng)加權(quán),并根據(jù)上下文分類依據(jù)對CG進(jìn)行分組,在HEVC中可以實現(xiàn)相對準(zhǔn)確的碼率預(yù)估。但是VVC中劃分模式的增加和上下文選取原則的改變[2]使得文獻(xiàn)[15]的算法在VVC中的效果并不突出。具體地說,對于一些紋理細(xì)節(jié)較多的視頻序列,如FoodMarket4、BQSquare和BasketballDrillText,其BD-BR分別上升2.03%、2.15%、1.68%,而在本文的算法中其性能分別提升0.09%、0.13%、0.11%。對于背景較為均勻的視頻序列,如RitualDance、BlowingBubbles和SlideEditing,其BD-BR分別上升1.12%、1.22%、1.19%,在本文的算法中其性能分別提升0.01%、0.25%、0.24%。因此對于紋理細(xì)節(jié)不同的視頻序列來說,本文從上下文選取原則角度出發(fā)建立的TU級碼率模型相較于孟翔等[18]的算法可以實現(xiàn)更加準(zhǔn)確的碼率預(yù)估,性能損失更小。而在時間復(fù)雜度方面,孟翔等[18]的算法碼率模型參數(shù)較多,因此RDO節(jié)省時間較少。具體地說,對于紋理細(xì)節(jié)較多的視頻序列,如FoodMarket4和BasketballDrillText,時間節(jié)省分別為19.93%和10.26%,而本文算法對應(yīng)時間節(jié)省為20.91%和11.03%。而對于背景較為均勻的視頻序列,如RitualDance和BlowingBubbles,時間節(jié)省分別為18.2%和14.84%,而本文對應(yīng)時間節(jié)省為19.47%和15.24%??梢钥闯鰺o論是在紋理細(xì)節(jié)較多還是背景相對均勻的視頻序列中,本文算法相比于孟翔等[18]所提算法可以實現(xiàn)更大的時間節(jié)省。
本文針對VVC率失真優(yōu)化過程中復(fù)雜的碼率計算問題,提出一種基于統(tǒng)計建模的快速碼率估計算法。算法首先充分考慮依賴性量化的量化行為和熵編碼中的上下文依賴,提出一種準(zhǔn)確預(yù)估部分語法元素碼率的初步模型;然后提出混亂度和稀疏度特征描述系數(shù)整體分布對碼率的影響,并進(jìn)一步形成TU級碼率模型;最后根據(jù)碼率構(gòu)成特性,算法將大尺寸TU和小尺寸TU分開建模實現(xiàn)更精準(zhǔn)的碼率預(yù)估。實驗結(jié)果表明,在RA配置下,提出方案在性能基本不變的情況下節(jié)省16.289%的率失真優(yōu)化時間。
[1] BROSS B, WANG Y K, YE Y, et al. Overview of the versatile video coding (VVC) standard and its applications[J]. IEEE Transactions on Circuits and Systems for Video Technology, 2021, 31(10): 3736-3764.
[2] SCHWARZ H, COBAN M, KARCZEWICZ M, et al. Quantization and entropy coding in the versatile video coding (VVC) standard[J]. IEEE Transactions on Circuits and Systems for Video Technology, 2021, 31(10): 3891-3906.
[3] SCHWARZ H, NGUYEN T, MARPE D, et al. Hybrid video coding with trellis-coded quantization[C]//Proceedings of 2019 Data Compression Conference (DCC). Piscataway: IEEE Press, 2019: 182-191.
[4] SULLIVAN G J, OHM J R, HAN W J, et al. Overview of the high efficiency video coding (HEVC) standard[J]. IEEE Transactions on Circuits and Systems for Video Technology, 2012, 22(12): 1649-1668.
[5] SULLIVAN G J, WIEGAND T. Rate-distortion optimization for video compression[J]. IEEE Signal Processing Magazine, 1998, 15(6): 74-90.
[6] WIEGAND T, SULLIVAN G J, BJONTEGAARD G, et al. Overview of the H.264/AVC video coding standard[J]. IEEE Transactions on Circuits and Systems for Video Technology, 2003, 13(7):560-576.
[7] SARWER M G, PO L M. Fast bit rate estimation for mode decision of H.264/AVC[J]. IEEE Transactions on Circuits and Systems for Video Technology, 2007, 17(10): 1402-1407.
[8] ZHAO X, SUN J, MA S W, et al. Novel statistical modeling, analysis and implementation of rate-distortion estimation for H.264/AVC coders[J]. IEEE Transactions on Circuits and Systems for Video Technology, 2010, 20(5): 647-660.
[9] TU Y K, YANG J F, SUN M T. Efficient rate-distortion estimation for H.264/AVC coders[J]. IEEE Transactions on Circuits and Systems for Video Technology, 2006, 16(5):600-611.
[10] CHEN W G, WANG X. Fast entropy-based CABAC rate estimation for mode decision in HEVC[J]. SpringerPlus, 2016, 5(1): 1-10.
[11] CHEN H C, CHANG T S. Fast rate distortion optimization with adaptive context group modeling for HEVC[C]//Proceedings of 2017 IEEE International Symposium on Circuits and Systems. Piscataway: IEEE Press, 2017: 1-4.
[12] SHARABAYKO M P, PONOMAREV O G. Fast rate estimation for RDO mode decision in HEVC[J]. Entropy, 2014, 16(12): 6667-6685.
[13] HU L D, SUN H M, ZHOU D J, et al. Hardware-oriented rate-distortion optimization algorithm for HEVC intra-frame encoder[C]//Proceedings of 2015 IEEE International Conference on Multimedia & Expo Workshops. Piscataway: IEEE Press, 2015: 1-6.
[14] HUANG X F, JIA H Z, CAI B B, et al. Fast algorithms and VLSI architecture design for HEVC intra-mode decision[J]. Journal of Real-Time Image Processing, 2016, 12(2): 285-302.
[15] SHENG Z, ZHOU D, SUN H, et al. Low-complexity rate-distortion optimization algorithms for HEVC intra prediction[C]//Proceedings of International Conference on Multimedia Modeling. Cham: Springer, 2014: 541-552.
[16] LIU Z Y, GUO S C, WANG D S. Binary classification based linear rate estimation model for HEVC RDO[C]//Proceedings of 2014 IEEE International Conference on Image Processing. Piscataway: IEEE Press, 2014: 3676-3680.
[17] SUN H M, ZHOU D J, HU L D, et al. Fast algorithm and VLSI architecture of rate distortion optimization in H.265/HEVC[J]. IEEE Transactions on Multimedia, 2017, 19(11): 2375-2390.
[18] 孟翔, 殷海兵, 黃曉峰. 基于統(tǒng)計建模的HEVC快速率失真估計算法[J]. 電信科學(xué), 2021, 37(1): 58-68.
MENG X, YIN H B, HUANG X F. Statistical modeling based fast rate distortion estimation algorithm for HEVC[J]. Telecommunications Science, 2021, 37(1): 58-68.
[19] SCHWARZ H, NGUYEN T, MARPE D, et al. Hybrid video coding with trellis-coded quantization[C]//Proceedings of 2019 Data Compression Conference (DCC). Piscataway: IEEE Press, 2019: 182-191.
[20] SCHWARZ H, NGUYEN T, MARPE D, et al. Improved quantization and transform coefficient coding for the emerging versatile video coding (VVC) standard[C]//Proceedings of 2019 IEEE International Conference on Image Processing. Piscataway: IEEE Press, 2019: 1183-1187.
[21] BOSSEN F, BOYCE J, LI X, et al. JVET common test conditions and software reference configurations for SDR video[EB]. 2019.
[22] BJONTEGAARD G. Calculation of average PSNR differences between RD-curves [EB]. 2001.
Statistical modeling based fast rate estimation algorithm for VVC
QI Wei, YIN Haibing, WANG Hongkui, HUANG Xiaofeng, NIU Weihong
College of Communication Engineering, Hangzhou Dianzi University, Hangzhou 310018, China
To reduce the coding complexity of the rate-distortion optimization process of the latest video coding standard versatile video coding (VVC), a fast rate estimation model based on statistical modeling was proposed. Firstly, the quantization behavior in dependent quantization (DQ) and the context dependency in entropy coding were fully considered. Features that could describe context state transition in the coding process were proposed to estimate rate of some synatax elements in a TU preliminarily. Secondly, coefficient chaos and sparsity features were proposed to distinguish the influence of coefficient distribution difference on the rate cost based on the coefficient distribution characteristics which built a TU level rate model. Finally, large-size transform unit (TU) and small-size TU was modeling respectively according to the rate composition character to achieve more accurate rate estimation. A large number of parameters were trained by regression model through statistical methods, and the final linear rate model was obtained which was applied to the mode decision. Experimental results show that the proposed algorithm can achieve 16.289% complexity reduction with 1.567% BD-BR increase for RA configuration.
rate estimation, VVC, RDO, regression training
TN919.81
A
10.11959/j.issn.1000–0801.2022279
2022–05–13;
2022–10–20
殷海兵,yhb@hdu.edu.cn
國家自然科學(xué)基金資助項目(No.61972123,No.62031009);浙江省尖兵研發(fā)攻關(guān)計劃項目(No.2022C01068)
祁偉(1995– ),男,杭州電子科技大學(xué)碩士生,主要研究方向為視頻編解碼。
殷海兵(1974– ),男,博士,杭州電子科技大學(xué)教授,主要研究方向為數(shù)字視頻編解碼。
王鴻奎(1990– ),男,博士,杭州電子科技大學(xué)講師,主要研究方向為感知視頻編碼。
黃曉峰(1988– ),男,博士,杭州電子科技大學(xué)教授,主要研究方向為感知視頻編碼。
牛偉宏(1998– ),男,杭州電子科技大學(xué)碩士生,主要研究方向為視頻編解碼。
s: The National Natural Science Foundation of China (No.61972123, No.62031009), Zhejiang Provincial Pioneer Research and Development Project (No.2022C01068)