張愛華,李冬紅,陳曉雷,王紹珍
(蘭州理工大學(xué)電氣工程與信息工程學(xué)院,蘭州730050)
基于量化步長的視頻編碼能量率失真模型
張愛華,李冬紅,陳曉雷,王紹珍
(蘭州理工大學(xué)電氣工程與信息工程學(xué)院,蘭州730050)
針對(duì)移動(dòng)手語視頻通信中存在的功率和碼率約束問題,提出一種能量感知的視頻編碼能量率失真(P-RD)模型。在H.264視頻編碼軟件平臺(tái)JM8.6上進(jìn)行模型參數(shù)選擇,確定以量化步長作為模型參數(shù)。根據(jù)移動(dòng)設(shè)備的電池剩余能量劃分3個(gè)能量狀態(tài),在不同狀態(tài)下分別建立相應(yīng)的功耗、碼率及失真模型。實(shí)驗(yàn)結(jié)果表明,對(duì)于典型的手語視頻,P-R-D模型能夠準(zhǔn)確反映視頻編碼功耗、碼率和質(zhì)量之間的關(guān)系,其中功耗模型和碼率模型精確度較高,最大預(yù)測(cè)誤差僅為-1.179 5%和-7.926 8%。
手語視頻通信;H.264視頻編碼;JM8.6軟件;電池能量狀態(tài);量化步長;能量-率-失真模型
手語是由手形、手臂運(yùn)動(dòng)并輔之以表情、唇動(dòng)以及其他體勢(shì)表達(dá)思想的視覺語言,是聾啞人進(jìn)行交流的最自然方式。與頭肩視頻不同,手語視頻由于增加了手形、手臂運(yùn)動(dòng),并且存在手臉遮擋現(xiàn)象,因此更為復(fù)雜,對(duì)其進(jìn)行研究難度更大。與手語視頻識(shí)別[1]與合成研究相比[2],目前針對(duì)手語視頻的編碼研究還較少[3],且主要基于率失真(Rate-distortion,RD)理論,以給定編碼比特率為約束,研究編碼比特率和失真之間的關(guān)系,使重建手語視頻的失真最小。但是,隨著無線網(wǎng)絡(luò)帶寬的快速增加和新一代視頻編碼標(biāo)準(zhǔn)H.264的廣泛應(yīng)用,編碼比特率的約束性已經(jīng)越來越弱,而無線視頻終端在功耗上所受的制約卻越來越強(qiáng)[4]。因此,如何在無線視頻終端能量有限的約束條件下,使手語視頻經(jīng)編碼后的失真最小,減小能耗、延長電池的更新周期已成為一個(gè)迫切需要解決的問題。
功率、碼率和失真之間存在著相互依賴和相互制約的關(guān)系。一方面,在視頻傳輸前,必須要對(duì)視頻數(shù)據(jù)進(jìn)行高效的壓縮,以降低用于傳輸?shù)谋忍財(cái)?shù),即降低碼率。另一方面,視頻壓縮計(jì)算量大,從而導(dǎo)致較大的計(jì)算功耗,這對(duì)在移動(dòng)設(shè)備上設(shè)計(jì)高效的手語視頻通信系統(tǒng)提出了挑戰(zhàn)[5]。這相互矛盾的兩方面意味著在實(shí)際系統(tǒng)設(shè)計(jì)中存在功耗、帶寬和視頻質(zhì)量的平衡問題。因此,有必要將功率因素引入傳統(tǒng)的率失真模型,研究功率約束、碼率約束及編碼失真的內(nèi)在聯(lián)系。建立相應(yīng)的能量率失真(Powerrate-distortion,P-R-D)模型。
基于此,本文在感興趣區(qū)域劃分[6]、資源計(jì)算及比特資源聯(lián)合優(yōu)化分配[7]工作的基礎(chǔ)上,首先對(duì)影響手語視頻編碼性能的參數(shù)進(jìn)行分析,并根據(jù)移動(dòng)設(shè)備的能量狀態(tài),將其劃分為3個(gè)等級(jí)。之后在進(jìn)行大量實(shí)驗(yàn)的基礎(chǔ)上,將量化參數(shù)選為模型參數(shù),分別建立相應(yīng)能量級(jí)別下的功耗、碼率以及失真模型。最后在上述模型的基礎(chǔ)上,分別得到3種能量級(jí)別下的手語視頻編碼的功率率失真模型。
根據(jù)移動(dòng)設(shè)備的能量狀態(tài),將其劃分為3個(gè)等級(jí)。當(dāng)電池能量高于66%時(shí)設(shè)為狀態(tài)1;當(dāng)電池能量處于33%到66%之間時(shí)設(shè)為狀態(tài)2;當(dāng)電池能量低于33%時(shí)設(shè)為狀態(tài)3。表1給出了在不同能量級(jí)別下的H.264編碼參數(shù)配置,表中幀間預(yù)測(cè)模式1~模式7分別代表Inter16×16,Inter16×8,Inter8×16, Inter8×8,Inter8×4,Inter 4×8,Inter4×4。以量化參數(shù)QP作為模型參數(shù),分別在不同的能量狀態(tài)下建立功耗、碼率以及失真模型。
表1 不同能量級(jí)別下的相關(guān)參數(shù)配置
2.1 視頻編碼功耗模型
為了動(dòng)態(tài)地控制移動(dòng)設(shè)備微處理器的能量消耗,一種稱為動(dòng)態(tài)電壓可伸縮(Dynamic Voltage Scalable,DVS)技術(shù)的CMOS電路設(shè)計(jì)技術(shù)最近得到了發(fā)展。在CMOS電路中功率消耗P可表示為:
其中,V,fclk和CEFF分別表示供給電壓,時(shí)鐘頻率和電路的有效切換電容[8]。
研究發(fā)現(xiàn),fclk與V滿足近似正比關(guān)系。這就意味著降低微處理器的運(yùn)算復(fù)雜度,將可以減小它的功率消耗。因此對(duì)于含有DVS的微處理器,能耗P和計(jì)算復(fù)雜度C之間存在一種映射關(guān)系,用Φ(·)表示,即P=Φ(C)或C=Φ-1(P)。利用這種映射關(guān)系,建立復(fù)雜度碼率-率-失真(Complexity-ratedistortion,C-R-D)模型后,可以轉(zhuǎn)換為P-R-D模型。本文用編碼時(shí)間T來衡量編碼復(fù)雜度,即編碼時(shí)間越長,則復(fù)雜度越高;反之,編碼時(shí)間越短,復(fù)雜度越低。
量化參數(shù)對(duì)于編碼復(fù)雜度的影響可以解釋如下:量化參數(shù)越大,DCT變換系數(shù)經(jīng)過量化之后的非零系數(shù)越少,需要編碼的信息也隨之減少,因而后續(xù)的編碼過程復(fù)雜度降低。并且在復(fù)雜度降低的情況下,可以保持相同的視頻質(zhì)量和編碼碼率。由于量化過程是一種非線性的編碼過程,因此量化系數(shù)對(duì)編碼復(fù)雜度的影響也是非線性的。
大量實(shí)驗(yàn)表明,量化系數(shù)QP與編碼能耗可表示為二次曲線的函數(shù)形式。圖1為3種能量級(jí)別下的實(shí)驗(yàn)結(jié)果,實(shí)驗(yàn)環(huán)境如下:H.264參考軟件JM8.6,YUV格式的Irene手語視頻序列100幀,QP={10,12,…,42,44},其余編碼參數(shù)配置如表1所示。
由圖1可見,在3種能量級(jí)別下,量化參數(shù)-編碼能耗(P-q)曲線都呈現(xiàn)二次曲線的形態(tài)。但由于在3種能量級(jí)別下的其他編碼參數(shù)的不同,3條曲線的位置有所差異。因此可以認(rèn)為p(QP)具有如下的形式(以下將QP記為q):
其中,p2,p1,p0為模型待定參數(shù),它們和視頻內(nèi)容有關(guān),可以通過參數(shù)擬合的方法得到。
2.2 視頻編碼碼率模型
量化參數(shù)和輸出碼率有著密切的聯(lián)系,即一般采用碼率-量化函數(shù)R(q)描述輸出碼率與量化參數(shù)的關(guān)系。本文基于已有的研究結(jié)果[9],從建立碼率-量化函數(shù)關(guān)系入手來建立能量-率-失真模型。由于大多數(shù)視頻信源的統(tǒng)計(jì)特性基本符合拉普拉斯分布,可以得到一種通用的二階率失真理論模型,如式(3)所示:
量化參數(shù)對(duì)于編碼碼率的影響是非常明顯的,量化系數(shù)越大,經(jīng)過量化之后的數(shù)據(jù)中零系數(shù)越多,則輸出的碼率越小;反之,量化系數(shù)越小,對(duì)視頻圖像的描述就越精細(xì),量化后非零系數(shù)就越多,因而輸出的碼率越大。
圖2為輸出碼率和量化參數(shù)之間的關(guān)系曲線,實(shí)驗(yàn)環(huán)境為:H.264參考軟件JM8.6,YUV格式的Irene手語視頻序列100幀,QP={10,12,14,…,42, 44},其余編碼參數(shù)配置如表1所示。
圖2 量化參數(shù)與編碼比特率的關(guān)系曲線
由圖2可見,在不同能量級(jí)別下,編碼碼率與量化參數(shù)呈現(xiàn)二次曲線的形式。式(3)基本能夠反映輸出碼率R和量化參數(shù)q之間的關(guān)系。但由于每條二次曲線的開口向上,因此,將式(3)修改為如下形式:
為了能夠得到更為精確的二次碼率-量化參數(shù)模型,本文對(duì)參數(shù)進(jìn)行動(dòng)態(tài)更新修正。引入運(yùn)動(dòng)預(yù)測(cè)后原始圖像與預(yù)測(cè)圖像之間信號(hào)的均方誤差(Mean Square Error,MSE)作為圖像內(nèi)容復(fù)雜度的度量(用MMSE表示),來實(shí)現(xiàn)參數(shù)的動(dòng)態(tài)更替,因此可以將式(4)最后修正為如下形式:
其中,r2,r1,r0為模型待定參數(shù),它們和視頻內(nèi)容有關(guān),可以通過參數(shù)擬合的方法得到。
2.3 視頻編碼失真模型
文獻(xiàn)[10]指出,編碼失真和量化參數(shù)之間服從線性關(guān)系,如式(6)所示:
其中,m是模型參數(shù),和視頻內(nèi)容有關(guān)。針對(duì)某一視頻序列而言,可通過曲線擬合的方法求取。
圖3為編碼失真和量化參數(shù)q之間的線性關(guān)系曲線,實(shí)驗(yàn)環(huán)境為:H.264參考軟件JM8.6,YUV格式的Irene序列100幀,QP={10,12,14,…,42, 44},其余編碼參數(shù)配置如表1所示。
圖3 量化參數(shù)與編碼失真的關(guān)系曲線
由圖3的局部放大圖(圖4)可見,在不同量化級(jí)別下,編碼失真-量化參數(shù)(D-q)曲線雖然其位置有所差異,但3條曲線都呈現(xiàn)近似線性的關(guān)系。因此可以建立編碼失真和量化參數(shù)q的模型,如式(7)所示:
其中,d1,d0為模型參數(shù),可以通過曲線擬合的方法獲得。
圖4 量化參數(shù)與編碼失真的局部關(guān)系曲線
2.4 P-R-D模型
通過以上對(duì)視頻編碼特性的分析,分別建立3種能量級(jí)別下基于量化參數(shù)的視頻編碼功耗、碼率以及失真模型。如式(2)、式(5)、式(7)所示。由此即可得視頻編碼的P-R-D三維模型,如式(8)所示。
由式(8)可見,視頻編碼的功耗、碼率及失真三者之間存在著相互依賴和制約的關(guān)系。因此,通過建立視頻編碼的P-R-D模型,能夠在功耗和帶寬受限的條件下達(dá)到視頻編碼質(zhì)量、編碼能耗以及比特率三者之間的動(dòng)態(tài)最優(yōu)。
本文實(shí)驗(yàn)的測(cè)試環(huán)境如下:實(shí)驗(yàn)平臺(tái)為H.264參考軟件JM8.6,采用2個(gè)標(biāo)準(zhǔn)手語視頻序列的前100幀進(jìn)行測(cè)試,圖像為YUV格式,3種能量級(jí)別下的參數(shù)配置如表1所示。編碼選項(xiàng)設(shè)置為:RDO優(yōu)化開啟,GOP類型采用IPPPPP…,熵編碼CAVLC,幀率30幀/s,從0幀開始進(jìn)行100幀的編碼實(shí)驗(yàn)。取量化參數(shù)QP={10,12,14,…,42,44}。
驗(yàn)證式(8)的方法如下:取QP={10,16,20,24, 28,36}求取模型參數(shù),然后比較模型在其他QP點(diǎn)上的模型計(jì)算值和實(shí)測(cè)值。
3.1 功耗模型實(shí)驗(yàn)結(jié)果
以Irene序列能量級(jí)別1,2,3和Silent序列能量級(jí)別1,2,3為例,經(jīng)過擬合,求得其功耗模型參數(shù)如表2所示。
表2 擬合得到的模型參數(shù)值1
表3列出了Irene序列能量級(jí)別1,2,3和Silent序列能量級(jí)別1,2,3下,QP={12,18,22,26,30,34, 38}時(shí)相應(yīng)的模型預(yù)測(cè)誤差σp,σp的定義如下:
其中,P,PT分別為模擬計(jì)算結(jié)果和實(shí)測(cè)結(jié)果。
表3 功耗模型預(yù)測(cè)誤差1 %
由表3可見,相對(duì)預(yù)測(cè)誤差多數(shù)都小于2%,最大為-1.179 5%。這就表明式(8)中的功耗模型具有較高的準(zhǔn)確性,能夠用來反映視頻編碼的能量消耗狀況。
3.2 碼率模型實(shí)驗(yàn)結(jié)果
以Irene序列能量級(jí)別1,2,3以及Silent序列能量級(jí)別1,2,3為例,經(jīng)過擬合求得模型參數(shù)如表4所示。
表4 擬合得到的模型參數(shù)值2
從式(8)中的碼率模型可以看出,在本文所建立的模型中,通過引入復(fù)雜度MSE,提高了碼率模型的精確性。在不同的量化參數(shù)QP下,運(yùn)動(dòng)預(yù)測(cè)后原始圖像與預(yù)測(cè)圖像之間信號(hào)的均方誤差是不同的,因此,可以更為準(zhǔn)確地描述出量化參數(shù)和編碼碼率之間的關(guān)系。
表5列出了Irene序列能量級(jí)別1,2,3和Silent序列能量級(jí)別1,2,3下,QP={12,18,22,26,30, 34}時(shí)相應(yīng)的模型預(yù)測(cè)誤差σR,σR的定義如下:
其中,R,RT分別為模擬計(jì)算結(jié)果和實(shí)測(cè)結(jié)果。由表5可見,通過此方法建立的碼率模型具有很高的準(zhǔn)確性。
表5 碼率模型預(yù)測(cè)誤差2 %
3.3 失真模型實(shí)驗(yàn)結(jié)果
以Irene序列能量級(jí)別1,2,3以及Silent序列能量級(jí)別1,2,3為例,經(jīng)過擬合求得模型參數(shù)如表6所示。相應(yīng)的模型預(yù)測(cè)誤差σD,σD定義為:
其中,D,DT分別為模擬計(jì)算和實(shí)測(cè)結(jié)果。
表6 擬合得到的模型參數(shù)值3
由表7可見,式(8)中的失真模型較精確。無論是對(duì)于Irene視頻序列還是Silent視頻序列的不同能量級(jí)別,最大的失真誤差為-7.926 8%。本文的失真模型假設(shè)信源為高斯分布,雖然實(shí)際上來說,很多信源并不一定服從高斯分布,但作為建模的一般方法,本文建立的模型仍具有一定的理論指導(dǎo)意義。
表7 失真模型預(yù)測(cè)誤差結(jié)果3 %
3.4 P-R-D模型實(shí)驗(yàn)結(jié)果
從本文3.1節(jié)~3.3節(jié)的結(jié)果可以得出基于量化參數(shù)的P-R-D模型。由圖5可見,在編碼碼率一定的條件下,隨著編碼所耗能量的增加,峰值信噪比(Peak Signal to Noise Ratio,PSNR)也隨之增加,即PSNR隨著能耗的增加而增加。也就是說,在信道環(huán)境一定的情況下,可以通過增加功耗來提高編碼性能;換言之,在能量提供一定的條件下,PSNR隨著編碼比特率的增加也會(huì)提高。因此,式(8)表明編碼能耗、編碼碼率以及編碼失真之間是可以相互轉(zhuǎn)換的。
圖5 P-R-D模擬擬合結(jié)果
本文面向移動(dòng)手語視頻通信建立了一種基于H.264編碼器的P-R-D模型。該模型選取量化步長作為建模參數(shù),分別建立了基于量化步長的功耗、碼率以及失真模型,最后建立了視頻編碼的功率-率-失真模型。根據(jù)手語視頻通信中電池能量狀況調(diào)整模型參數(shù)和編碼參數(shù)集合,在保證手語視頻編碼質(zhì)量的同時(shí),可以降低編碼器的計(jì)算復(fù)雜度,減少電池能量消耗,從而延長移動(dòng)設(shè)備的工作時(shí)間。同時(shí),該模型揭示了視頻編碼質(zhì)量、能量消耗及編碼碼率三者之間的內(nèi)在聯(lián)系,為實(shí)現(xiàn)功耗、碼率及失真之間的動(dòng)態(tài)平衡提供了理論依據(jù),也為進(jìn)一步研究能量感知H.264移動(dòng)手語視頻編碼及通信奠定了基礎(chǔ)。
[1] Wang Ru,Wang Lichun,Kong Dehui,et al.Information Expression Oriented Toward the Hearing-impaired Based on Sign Language Video Synthesis[J].China Communications,2011,1:139-144.
[2] Fang Gaolin,Gao Wen,Zhao Debin.Large Vocabulary Sign Language Recognition Based on Fuzzy Decision Trees[J].IEEE Transactions on System Man and Cybernetics,2004,34(3):305-314.
[3] Ciaramello F M,HemamiS S.A Computational Intelligibility Model for Assessment and Compression of American Sign Language Video[J].IEEE Transactions on Image Processing,2011,20(11):3014-3028.
[4] Tao Ma,Hempel M,Peng Dongming,et al.A Survey of Energy-efficient Compression and Communication TechniquesforMultimedia in Resource Constrained Systems[J].IEEE Communications Surveys&Tutorials, 2013,15(3):963-972.
[5] Cheng Wenye,Chen Xi,He Zhihai.Doubling of the Operational Lifetime of Portable Video Communication Devices Using Power-rate-distortion Analysis and Control [C]//Proc.of the IEEE International Conference on Image Processing.Atlanta,USA:IEEE Press,2006:2473-2476.
[6] 陳曉雷,張愛華,陳莉莉,等.多優(yōu)先級(jí)感興趣區(qū)H.264計(jì)算資源分配方法[J].計(jì)算機(jī)工程,2013,39(4):283-286.
[7] 張愛華,陳莉莉,陳曉雷,等.H.264計(jì)算資源和比特資源聯(lián)合優(yōu)化分配方法[J].計(jì)算機(jī)應(yīng)用與軟件, 2014,31(7):141-144,181.
[8] He Zhihai,Liang Yongfang,Chen Lulin,et al.Powerrate-distortion Analysis for Wireless Video Communication Under Energy Constraints[J].IEEE Transactionson Circuits and Systems for Video Technology,2005,15(5):645-658.
[9] 萬 帥,常義林,楊付正,等.一種新的視頻編碼二次率失真模型及其性能分析[J].電子與信息學(xué)報(bào), 2007,29(5):1136-1139.
[10] 韋 耿.視頻編碼功率率失真模型及低復(fù)雜度算法研究[D].武漢:華中科技大學(xué),2007.
編輯 金胡考
Power-rate-distortion Video Coding Model Based on Quantization Step Size
ZHANG Ai-hua,LI Dong-hong,CHEN Xiao-lei,WANG Shao-zhen
(School of Electrical and Information Engineering,Lanzhou University of Technology,Lanzhou 730050,China)
For power and rate constraints problem that exists in mobile sign language video communication,this paper proposes a Power-rate-distortion(P-R-D)model.It chooses the quantization step size as the model parameter by the experiments on the software platform JM8.6 of H.264 video coding,then defines three energy states according to the remaining amount of battery energy of mobile devices.With quantization step size as the model parameter,it establishes the power consumption model,coding rate model and distortion model under the three different energy levels. Experimental results show that the established P-R-D model for sign language video coding can accurately reflect the relationship among power consumption.The maximum prediction error of power consumption model and coding rate model respectively are-1.179 5%and-7.926 8%.
sign language video communication;H.264 video coding;JM8.6 software;battery energy state;quantization step size;Power-rate-distortion(P-R-D)model
1000-3428(2014)10-0001-05
A
TP391.9
10.3969/j.issn.1000-3428.2014.10.001
國家自然科學(xué)基金資助項(xiàng)目(81360229,61302116)。
張愛華(1964-),女,教授、博士,主研方向:信號(hào)檢測(cè)與處理;李冬紅,碩士研究生;陳曉雷,講師、博士研究生;王紹珍,碩士研究生。
2013-09-13
2013-11-11E-mail:lutzhangah@163.com
中文引用格式:張愛華,李冬紅,陳曉雷,等.基于量化步長的視頻編碼能量率失真模型[J].計(jì)算機(jī)工程,2014,40(10): 1-5.
英文引用格式:Zhang Aihua,Li Donghong,Chen Xiaolei,et al.Power-rate-distortion Model Based on Quantization Step Size[J].Computer Engineering,2014,40(10):1-5.