張淑娥 靳曉鵬
[摘要]介紹AVS視頻編碼標準的幀間預測技術(shù)特點,對幀間預測算法進行分析和研究,為視頻幀間編碼提供理論依據(jù)。
[關(guān)鍵詞]AVS 幀間編碼 幀間預測算法
中圖分類號:TP3 文獻標識碼:A 文章編號:1671-7597(2009)0110031-01
2002年,國家信息產(chǎn)業(yè)部科學技術(shù)司批準成立數(shù)字音視頻編解碼技術(shù)標準工作組,制定具有自主知識產(chǎn)權(quán)的AVS系列信源編碼標準,AVS標準為《信息技術(shù)先進音視頻編碼》系列標準的簡稱,它包括了系統(tǒng)、視頻、音頻、版權(quán)管理、文件格式、網(wǎng)絡傳輸?shù)葟囊曨l壓縮技術(shù)到系統(tǒng)規(guī)范的一整套標準,AVS標準的制定和推廣對減輕國內(nèi)的音視頻相關(guān)產(chǎn)業(yè)的專利費負擔以及提升核心競爭力具有極其重要的意義。
與MPEG-4 AVC/H.264的baseline profile相比,AVS視頻增加了B幀interlace等技術(shù),因此其壓縮效率明顯提高,而與MPEG-4 AVC/H.264的main profile相比,又減少了CABAC等實現(xiàn)難度大的技術(shù),從而增強了可實現(xiàn)性?;贏VS標準的上述優(yōu)點,本文選擇對該標準進行研究。
AVS視頻當中具有特征性的核心技術(shù)包括:8×8整數(shù)變換、量化、幀內(nèi)預測、四分之一精度像素插值、特殊的幀間預測運動補償、以及熵編碼、去塊效應環(huán)內(nèi)濾波等。
一、幀間預測算法研究
AVS標準采用了16×16、16×8、8×16和8×8的塊模式進行運動補償,較少的塊模式(相比于MPEG-4 AVC/H.264),能降低運動矢量和塊模式編碼傳輸?shù)拈_銷,從而提高壓縮效率、降低編解碼實現(xiàn)的復雜度。而AVS采用不同的4抽頭濾波器進行半像素插值和四分之一像素插值,在不降低性能的情況下減少了插值所需要的參考像素點,降低了數(shù)據(jù)存取帶寬需求。AVS中的P幀預測可以利用至多2幀的前向參考幀,而B幀采用前后各1個參考幀,P幀與B幀(包括后向參考幀)的參考幀數(shù)相同,其參考幀存儲空間與數(shù)據(jù)存取的開銷均不多于傳統(tǒng)視頻編碼。另外,AVS中B幀的雙向預測的多種模式的設定,也有效的節(jié)省了運動矢量的編碼開銷。
視覺特性表明,人眼對活動圖像中的靜止部分和運動部分有著不同的分辨率要求,即對靜止部分有較高的空間分辨力和較低的時間分辨力,而對運動部分有著較低的空間分辨力和較高的時間分辨力。因此可以將圖像分割成靜止部分和運動部分分別進行處理。對于靜止部分可以重復上一幀的數(shù)據(jù),對于運動部分則需設法測定其位移量,以位移量來預測其運動,并將運動信息發(fā)送給接收端,以壓縮運動部分的數(shù)據(jù)量,構(gòu)成完整的圖像,稱為圖像幀間編碼中的運動補償預測。
運動補償?shù)姆椒ㄊ歉櫘嬅鎯?nèi)的運動情況對其加以預測以后再加以補償。這項技術(shù)的關(guān)鍵是運動矢量計算。通常的方法是采用塊匹配法。運動估計和補償是活動圖像編碼和計算機視覺領(lǐng)域的一項關(guān)鍵技術(shù)。
能夠?qū)σ曨l序列進行幀間編碼主要有兩個方面的依據(jù):首先,從信源的角度看,自然景物大多處于相對不變或緩變狀態(tài),且其運動狀態(tài)必然是連續(xù)的,這是幀間相關(guān)性存在的前提條件。其次,在用攝像機攝取圖像時,根據(jù)不同場合的需要有不同的取景方式,這樣幀間相關(guān)性表現(xiàn)的形式也不相同。目前視頻編碼中考慮的主要是一些簡單形式。
幀間預測考慮的典型情況是頭肩序列,例如可視電話圖像,圖像的內(nèi)容通常是在一個細節(jié)不十分復雜的背景前,一個活動量不大的單人圖像。假定人的位置在第K幀與第K-1幀相比有一定的位移,可以將畫面分成3個各具特點的區(qū)域:
1.背景區(qū):這部分圖像一般是靜止的,前后兩幀的絕大部分數(shù)據(jù)相同,有著極強的相關(guān)性,且只是對人物起陪襯作用。
2.運動物體區(qū):如將物體看作簡單的平面位移,則第K幀和第K-1幀的該部分數(shù)據(jù)也是幾乎相同的,只是位置發(fā)生了改變,相關(guān)性還是極強的。這部分數(shù)據(jù)需要運動估計和運動補償。
3.暴露區(qū):這是指運動后所暴露出來的原來被物體蓋住的區(qū)域。如果有存儲器將這些暴露區(qū)的數(shù)據(jù)暫時存儲,則再次經(jīng)遮蓋再暴露出來的數(shù)據(jù)與原來存儲的數(shù)據(jù)也是相同的,還是有強相關(guān)性。
雖然以上三類區(qū)域的相關(guān)性是比較理想的劃分結(jié)果,實際中并無如此嚴格的劃分,但是它們?yōu)閹g編碼算法提供了重要依據(jù)。如果存在場景切換則談不上幀間相關(guān)性。
二、結(jié)論
研究表明,人類視覺對圖像中的靜止部分有較高的分辨率,必須給予充分的空間(spatial)分辨率,即在傳輸靜止圖像或序列圖像的靜止部分時,要保證較高的水平和垂直分辨率;但與此同時,卻可以減少傳輸幀數(shù),在接收端,依靠幀存儲器把未傳輸?shù)膸a充出來,而按照一定周期傳輸?shù)臄?shù)據(jù)對幀存儲器刷新。因此對傳輸序列圖像而言,可恰當降低時間(temporal)分辨率。另一方面,人的視覺對于序列圖像中的運動物體的空間分辨率將隨著物體的運動速度的增加而顯著降低,攝像器材的靈敏度也會造成運動部分的靈敏度下降。此外,電視監(jiān)視器的顯示器件也有一定的積分模糊效應。這樣在傳輸序列圖像中的運動物體時,可以降低這部分圖像的清晰度,且這部分圖像的運動速度愈高,就可以用更低的圖像清晰度進行傳輸。
綜上所述,根據(jù)圖像的內(nèi)容在清晰度和活動性(幀頻)之間進行調(diào)整,可使重建圖像在視覺上保持一致主觀效果,這種方法就叫做空間分辨率和時間分辨率的交換。
以上兩點的分析為視頻幀間編碼提供了理論依據(jù),幀間編碼作為視頻壓縮的有效技術(shù),被各種視頻壓縮標準所采用。
參考文獻:
[1]IA-32 Intel Architecture Software Developer's Manual Volume 1:Basic Architecture,Order Number:245470-012.
[2]IA-32 Intel Architecture Software Developer's Manual Volume 1:Instruction Set Reference,Order Number:245471-012.
[3]丁嶸、蘇光大、林行剛,特征臉和彈性匹配人臉識別算法的比較,計算機工程與應用,Vol.38,2002.7,1-2,19.
[4]蘇光大,圖像并行處理技術(shù),北京:清華大學出版社,2002.
[5]黎洪松,數(shù)字視頻技術(shù)及其應用,北京:清華大學出版社,1997.
[6]謝深泉、朱珍民、葉施仁,多媒體基礎與應用,北京:北京大學出版社,1997.
[7]馬華東,多媒體計算機技術(shù)原理,北京:清華大學出版社,1999.
[8]吳樂南,數(shù)據(jù)壓縮,北京:東南大學出版社,2000.
[9]朱秀昌、劉峰、胡棟,數(shù)字圖像處理與圖像通信,北京:北京郵電大學出版社,2002.
作者簡介:
張淑娥,女,華北電力大學電子與通信工程系,副教授;靳曉鵬,男,華北電力大學電子與通信工程系,通信與信息系統(tǒng)碩士。