◎北京大學黃鐵軍
AVS2標準及未來展望
◎北京大學黃鐵軍
概要介紹了AVS2國家標準《信息技術 高效多媒體編碼》系統(tǒng)、視頻、音頻三個部分,分析了AVS2與AVS1以及AVC/H.264和HEVC/H.265在編碼效率上的對比,具體闡釋了幀結構、塊結構、幀內預測、幀間預測、變換、熵編碼、環(huán)路濾波等為AVS2帶來的編碼增益。介紹了AVS2的特色功能——場景視頻編碼的概念、思路及優(yōu)勢。最后展望了AVS3云媒體編碼標準。
AVS2;AVS3;視頻編碼;場景視頻
AVS2國家標準《信息技術高效多媒體編碼》是AVS1之后新一代的標準(見圖1),第二代AVS國標包括三個部分,即視頻、音頻以及系統(tǒng)。本文詳細介紹視頻部分。
圖1 AVS發(fā)展過程
1.AVS2標準三個部分的進展
AVS2-P1(系統(tǒng)部分)在2014年9月立項,國標計劃號為20141192-T-469,中心任務是制定面向互聯(lián)網(例如OTT)的流媒體標準,預計2015年上半年完成。
AVS2-P2(視頻部分)在2011年國標立項,國標計劃號為20110149-T-469,2014年7月編輯會完成征求意見稿,隨后向全體成員單位和全社會開放征求意見,公開了標準文本和參考軟件。
AVS2-P3(音頻部分)在2013年7月立項,國標計劃號為 20130368-T-469。其中,無損音頻編碼已經在2012年制定完成,2013年8月和AVS1音頻一起頒布為IEEE 1857.2—2013標準。高保真音頻編碼標準尚在制訂中,初步測試表明192 kbit/s的5.1環(huán)繞聲超過4.5分,處于國際領先水平。
2.AVS2標準視頻部分
1)AVS2標準視頻部分介紹
國際上從1994年的MPEG-2到2003年的AVC/H.264再到近兩年的HEVC/H.265,總的發(fā)展趨勢是每10年編碼效率提高1倍,如圖2所示。
AVS2視頻的目標(引自AVS-N1924)為:在主流技術可實現的前提下,當重建視頻主觀質量相同時,至少在高清或更高分辨率下編碼效率比AVS1的最好性能提高1倍以上。在主流配置下,編碼效率優(yōu)于最新的國際標準。AVS現在主要有三個標準化渠道:IEEE、廣電行業(yè)標準以及國家標準。
AVS2對于常規(guī)視頻的編碼效率與最新國際標準HEVC/H.265相當,比上一代國家標準AVS1以及國際標準AVC/H.264的效率提高1倍;對于監(jiān)控視頻等場景類視頻,AVS2壓縮效率又翻了一番,達到AVC/H.264的4倍。考慮到監(jiān)控視頻已經成為全球數據中規(guī)模最大的一部分,因此AVS2在壓縮這類視頻中具有重大產業(yè)價值,這項技術標準如果在視頻監(jiān)控領域有效推廣,僅在我國就能夠節(jié)省數千億元的存儲成本。
分析過去三代視頻編碼標準,采用方法總體上可分為三大類:變換編碼、預測編碼和熵編碼。變換編碼和熵編碼的變化不是太大,對壓縮效率提升的貢獻不是很明顯,貢獻最大的是預測編碼。圖3顯示了三代標準中預測編碼越來越精細復雜,這是效率提升最大的來源。
圖2 三代標準預測編碼的變化
圖3 H.264,H.256與AVS的比較
2)各部分增益比較
AVS2比AVS+編碼效率翻了一番,具體增益來源請見表1和圖4。幀結構降低碼率5%~10%,塊結構降低3%~20%,幀內預測降低6%~10%,幀間預測降低10%,新的變換降低3%,熵編碼降低3%~5%,將上述增益加在一起,碼率降低超過50%,即編碼效率提高了一倍,主要的增益體現在幀內預測方面。
AVS2劃分的最大塊結構是64× 64,在超高清畫面中,這個區(qū)域并不是很大,當然也可以劃分到4×4的小塊,這樣劃分塊的目的主要就是適應視頻畫面里不同區(qū)域信息的復雜程度不一樣,復雜地方就用小塊,平坦地方就用大塊,這些塊的尺寸除了正方形的塊之外還有豎條、長條以適應視頻畫面的變化。
表1 不同技術對性能增益的貢獻
上文提到預測增益主要來自于兩個技術,一是幀內預測,根據一個畫面內部的相似性進行塊間預測參考,提高效率。在預測模式方面,新一代的標準AVS2有33種預測模式,1/32精度的子像素插值,從而提高編碼效率。另一個是幀間預測,包括對稱預測、非對稱預測、直接模式、跳過模式。雙向預測包括前向、后向、對稱、雙向預測模式,一般化雙向預測(F幀)是指兩個幀間預測塊來自同一時域方向,預測精度進一步提高,還有方向性多假設預測。
3)AVS2編碼效果
關于AVS2的編碼效果,本文分別對電視視頻以及電影視頻進行測試。
圖4 新一代高效視頻編碼框架AVS2
對于電視視頻,使用AVS2RD8.0.1與HEVC的HM13進行比較,在逐行方面,HEVC高出AVS2約1.7%;隔行方面(即 1 080i),AVS2高出HEVC約4.2%。對于電影視頻,AVS2領先0.2%。
AVS2具有一個新的模式——場景模式(見圖5),這是HEVC所沒有的。對于這一類視頻,如監(jiān)控視頻,若打開場景模式就意味著利用建模背景可以把碼率再降50%,所以AVS2雖然對于電影電視視頻和HEVC相當,但是在場景視頻方面,明顯高于HEVC。另外,AVS2參考軟件的優(yōu)化還有不少潛力空間,從今年8月份開始,已經開始集中精力進行優(yōu)化,優(yōu)化之后的效率還將有所提高。
圖5 AVS2場景模式編碼比較
場景視頻編碼作為AVS2的特色,在2009年研究之初便被提出,并在HEVC制定時也建議過,但并沒有得到充分重視。當時普遍的思路是視頻編碼主要面向電視電影,較少關注監(jiān)控視頻。不過當時筆者就認為監(jiān)控比電視電影的數量要多,2012年IDC的大數據報告也驗證了這一判斷。
監(jiān)控攝像頭的快速增長已經成為一個全球現象,我國安裝的攝像頭數量已經達到3 000萬,這些攝像頭產生了海量的視頻數據。根據IDC 2012年底發(fā)布的大數據報告(見圖6),全球數據總量每兩年翻一番,2010年全球大數據50%是監(jiān)控視頻,2015年將增長到65%。相比之下,從1993年到2013年,視頻編碼標準更新了兩代,每代編碼效率提升1倍,也就是10年才翻一番,進步速度已遠遠落后于IT行業(yè)摩爾定律的節(jié)奏,全球數據量每兩年翻一番就是摩爾定律的外在表現之一。照此測算,我國監(jiān)控視頻的存儲規(guī)模達到60 Ebyte,成本數千億元。如果壓縮效率提高1倍,則存儲成本節(jié)省一半。AVS方面在2007年就注意到這個問題并開展了相關研究,申請了973課題《面向智能監(jiān)控的視頻編碼方法》并獲得支持(圖7)。
監(jiān)控攝像頭和電視不一樣,它是長期“觀看”一個場景,那么能不能利用場景信息來增加壓縮率?這實際上是AVS2提高這類視頻編碼效率的基本出發(fā)點,即在編碼過程中引入場景模型,因為場景模型是相對固定不變的,通過分析哪里是背景,哪里是前景,用這個方法把編碼和分析結合在一起,開展基于場景模型的編碼(圖8)。
具體來說,基于在圖像分析方面的工作基礎,AVS2采用基于背景建模的監(jiān)控視頻編碼方法。監(jiān)控視頻通常是在固定場景拍攝的,可以采用背景建模的方法構造出高質量的背景,這樣就可以把視頻分成背景和前景兩個部分。一旦有了背景和前景,預測編碼的空間就拓寬了。編碼理論的核心是率失真優(yōu)化。預測編碼本質上通過尋找相似度高或者失真度低的圖像塊來進行率失真優(yōu)化。傳統(tǒng)預測編碼是在前背景混合的圖像幀之間進行的。新方法相當于增加了一個預測維度:編碼塊分為前景快、背景塊和混合塊三類,背景塊可能在構造的背景幀中進行預測,混合塊可以在差分幀中進行預測,這樣,預測性能明顯提高。圖9是前景背景分離條件下的新編碼標準方案。
圖6 IDC對于大數據中視頻的統(tǒng)計
圖7 面向智能監(jiān)控的視頻編碼方法
圖8 基于場景模型的編碼
把基于背景建模的新方法加入現有視頻編碼標準方法,整體壓縮效率提高了1倍。這里有個概念需要澄清,AVS2并不是只對監(jiān)控視頻有效,其他場景類視頻壓縮效果也很好。場景視頻包括監(jiān)控視頻、法庭審判視頻、課堂教學視頻等,這些視頻的共性特點是場景相對固定,可以通過場景建模提高編碼效率。電視媒體也在從傳統(tǒng)的頻道欄向全天候網絡直播擴展,電視采編將成特例,場景視頻將成為未來媒體的最大的組成部分,因此AVS2已經把支持場景視頻作為基本功能之一,打開場景模式,電視視頻壓縮效率也可以得到有效提高。
圖9 基于背景建模的監(jiān)控視頻編碼方法
鑒于場景視頻越發(fā)廣泛地被使用,新一輪973的科研方向也更加重視這個方向。除了服務于廣播電視,也在研究能否采用場景模式進一步降低碼率,例如在常規(guī)互聯(lián)網帶寬條件下把超高清的節(jié)目傳遞給用戶。
云計算時代編碼模型會發(fā)生變化,上文提及互聯(lián)網帶來的影響,但云計算會給編碼帶來更大的影響。AVS3計劃根據云計算時代的需要,利用云計算的能力,實現更高效率的編碼。圖10是今年已經啟動的AVS3云編碼項目。
簡單來說,比如在天安門拍一張照片需要上傳,在云計算的時候如果發(fā)現照片與原有資源完全一樣,那么直接發(fā)一個鏈接就好了,沒必要再發(fā)一張一兩兆的照片。如果云中有類似圖像,則云中圖像可以用于預測編碼,從而提高編碼效率。
具體來說,擬從大量數據里提取共性的對象,形成大家共享的視覺詞典,個人只上傳與詞典有差異的內容即可。殘差部分利用稀疏編碼+傳統(tǒng)方法來解決。AVS云媒體編碼標準的基本思路見圖11。
AVS3云媒體編碼的功能如下:
1)基本功能——新一代有損編碼標準。通過視覺詞典提高預測效率,實現壓縮效率翻倍乃至更高。
2)全新功能——減少編碼損失的近保真解碼。允許解碼器開放地從云中獲得更多信息源,在不改變圖像既有結構的情況下補充更多細節(jié)。
3)超清晰功能。根據顯示能力,允許解碼器利用云媒體資源最大限度地提高視覺質量;編碼端和解碼端都盡力而為,一勞永逸。
總體來說,視頻編碼的需求和存儲帶寬之間的矛盾長期存在著,視頻編碼效率10年翻一番,這是全球技術領域的進展,但遠遠趕不上需求的發(fā)展,因此還有大量研究工作要開展。AVS2標準總體上編碼效率比AVS1提升了1倍,與國際標準的編碼效率相當,在場景視頻里編碼方法比同期國際標準效率高1倍,占了一些先機,希望產業(yè)界抓住這個機會。
在新媒體時代,筆者正在研究更高效率的圖象視頻編碼標準AVS3,思路在國際上領先,有望取得新突破。
黃鐵軍,北京大學信息科學技術學院教授、博士生導師,北京大學信息科學技術學院數字媒體研究所所長、數字視頻編解碼技術國家工程實驗室副主任,國家數字音視頻編解碼技術標準工作組(AVS)和AVS產業(yè)技術創(chuàng)新戰(zhàn)略聯(lián)盟秘書長,主要研究領域為數字媒體技術,包括視頻編碼、圖像理解、媒體安全以及數字版權管理、數字圖書館等。
圖10 云環(huán)境下的圖像視頻群體協(xié)同表達與處理
圖11 AVS云媒體編碼標準
TN911.73
A
【本文獻信息】黃鐵軍.AVS2標準及未來展望[J].電視技術,2014,38(22).