黃鐵軍 張賢國等
摘要:我國技術專家為主研究制定的數(shù)字視頻編解碼技術標準AVS-2013年6月4日被國際電子電氣工程師協(xié)會(IEEE)標準化委員會頒布為IEEE 1857標準。該標準獨具特色的一個部分是針對視頻監(jiān)控的監(jiān)控檔次AVS-S2,編碼壓縮性能達到目前視頻監(jiān)控業(yè)界主流使用的H.264(又稱MPEG-4AVC)標準的兩倍,而且在碼流層支持感興趣區(qū)域的自動提取與表達。本文介紹了AVS-S2的制定過程、關鍵技術及其與其它標準的壓縮效率對比情況。本文網(wǎng)絡版地址:http://www.eepw.com.cn/article/146816.htm
關鍵詞:視頻監(jiān)控;視頻編碼;視頻分析;AVS標準;AVS-S2
引言
視頻監(jiān)控是繼數(shù)字電視、視頻會議之后的又一個重大視頻應用,而且日益成為“體量”最大的一個視頻系統(tǒng):千千萬萬個攝像頭通過寬帶網(wǎng)絡聯(lián)系在一起,形成了一張覆蓋全球的“視聽感知網(wǎng)”,從此人類社會的運行狀態(tài)都被海量的攝像頭采集下來。對大量攝像頭采集的海量監(jiān)控視頻有效傳輸、存儲、分析和識別是信息技術面臨的重大挑戰(zhàn)。
根據(jù)EMC委托IDC做的研究報告,2012年全球各種數(shù)據(jù)的總量為2.84ZB。到2020年,這個數(shù)字將上升到40ZB,IDC稱之為“數(shù)字宇宙(Digital Universe)”?!皵?shù)字宇宙”中有分析利用價值的部分才是目前熱議的“大數(shù)據(jù)(Big Data)”,IDC估計2012年的數(shù)據(jù)中“大數(shù)據(jù)”占23%,2020年這個比例將增長到33%。據(jù)lDC測算,2010年“大數(shù)據(jù)”的一半是監(jiān)控視頻。2015年.監(jiān)控視頻所占比例會增長到65%。2020年仍將處于絕對領先地位,占44%(其次是25%的交易數(shù)據(jù)、20%的醫(yī)療數(shù)據(jù)、10%的娛樂和社交媒體)。
按照IDC的上述測算,2020年將有5.8ZB的監(jiān)控視頻需要進行存儲、傳輸和分析。其中,中國所占比例將達到21%。也就是說,2020年在我國將有1.2ZB(12LTB)的監(jiān)控視頻需要處理。這是一個什么樣的規(guī)模呢?據(jù)測算,人類歷史上說過的所有的話都數(shù)字化也就是5EB,1.2ZB是其240倍!
面對如此海量的監(jiān)控視頻.需要對視頻編碼和分析技術進行基礎性研究并實現(xiàn)重大突破。以北京為例,2008年奧運會前全市監(jiān)控攝像頭數(shù)量就超過了五十萬個,每小時產(chǎn)生的視頻時長就相當于中央電視臺建臺以來的所有庫存視頻。如果要在全市范圍內(nèi)調(diào)度、使用這些視頻,即使全部采用當前的國家標準AVS或國際標準AVC/H.264,也需要S00000(攝像頭)×10M(比特/秒/攝像頭)=5000Gbps的網(wǎng)絡帶寬,這是目前的網(wǎng)絡傳輸條件不可能支持的。這些監(jiān)控視頻往往要存儲數(shù)周乃至數(shù)月,盡管是分散在各個單位和部門,但整個北京為存儲監(jiān)控視頻付出的存儲成本十分龐大。仍然按當前的視頻標準壓縮效率計算,每個小時產(chǎn)生的視頻總量仍達到500000(攝像頭)×3600(秒/小時)×10M(比特/秒/攝像頭)=18000(Tb/小時)=2.25(PB/小時)。按照IDC對2012年存儲價格保守估計,北京市每小時存儲監(jiān)控視頻的成本需要2800萬元,一個月的成本就是200億。為了降低存儲代價,往往只能以損失視頻質(zhì)量為代價,但這是和監(jiān)控視頻需要滿足識別需要這個根本目的相抵觸的。因此,從傳輸和存儲成本考慮,都需要研究更高壓縮效率的視頻編碼技術和標準。
2002年以前,我國的視頻壓縮一直直接采用國際視頻編碼標準。2002年后,為了支持國內(nèi)音視頻產(chǎn)業(yè)的健康發(fā)展,規(guī)避國際標準背后高額專利費當時已經(jīng)不斷出現(xiàn)的糾紛,工業(yè)和信息化部(原信息產(chǎn)業(yè)部)組織成立了數(shù)字音視頻編解碼技術標準工作組(簡稱AVS工作組)。此后,AVS工作組開始起草自主知識產(chǎn)權的國家標準《信息技術先進音視頻編碼》,并于2006年頒布為國家標準GB/T20090.2-2006。AVS的編碼效率與同期國際標準MPEG-4 AVC/H.264相當,在圖像質(zhì)量基本不損失的前提下對高清視頻的壓縮效率能達到150:1(以下談到壓縮效率時同此條件)。當然,有些視頻監(jiān)控應用中用戶將壓縮效率參數(shù)設為600:1甚至更高,但圖像質(zhì)量損失嚴重,對后續(xù)的使用會帶來負面影響,例如圖像中對象識別率下降等。
從2007年開始,AVSI作組開始面向行業(yè)應用對GB/T 20090.2進行了定向擴展,開始制定面向視頻監(jiān)控應用的伸展檔次(簡稱AVS-S),2009年起草完成。這個標準新增了面向視頻監(jiān)控的一些技術特性,但在編碼效率這個核心指標方面并無明顯提高,總體上處在與H.264相當?shù)乃健UJ識到只有大幅度超越國際標準H.264,才能大幅度降低監(jiān)控系統(tǒng)成本,AVSI作組從2010年3月開始啟動了第二代視頻監(jiān)控標準(AVS-S2)的制定工作。2013年6月,包括AVS-S2在內(nèi)的AVS視頻編碼標準由IEEE頒布為編號1857的標準。
AVS-S2的編碼效率有了大幅度提升,主要是因為采用了背景建模技術,對監(jiān)控視頻的編碼效率比H.264/AVC、以及2006年發(fā)布的AVS標準性能提高了一倍,編碼效率達到300:1左右,達到當前最新國際標準H.265/HEVC同等的水平。
AVS-S2新增背景建模技術和感興趣區(qū)域提取等兩項技術,是國外任何其他編碼標準所沒有使用的。其中,背景建模技術同樣可以用于增強其他國際標準的編碼壓縮性能,例如H.265/HEVC。實驗表明.在H.265/HEVC參考軟件中加入AVS-S2背景建模技術后,針對監(jiān)控視頻可以將其壓縮效率再提高一倍,達到600:1左右。目前,AVS工作組正在將這套方法應用到正在制定AVS2標準中(稱為AVS2-S),預計在監(jiān)控視頻編碼方面將比H.265/HEVC高一倍,這將是國際范圍內(nèi)監(jiān)控視頻編碼壓縮效率的最高水平。
監(jiān)控視頻編碼標準發(fā)展歷程
視頻編碼研究的目標是通過各種技術手段大幅度降低視頻碼率,否則即使是單路數(shù)字視頻都難以正常傳輸。以高清晰度視頻為例,每秒鐘的數(shù)據(jù)量為1920×1080×24比特×30幀每秒=1492992000比特每秒,約1.5Gbps,即使以今天的帶寬條件,傳輸這樣的一路視頻都耗資巨大,當時的通信條件便更加難以企及。因此.從1952年貝爾實驗室Cutler等人進行DPCM fDifferential Pulse Code Modulation)技術研究以來,視頻編碼技術一直得到高度重視和持續(xù)研究。
上世紀80年代,為了數(shù)字電視和視頻通信的需要,國際標準組織開始綜合已有技術成果來制定視頻編碼標準,形成了以塊為單元的預測加變換的混合編碼框架(block-based hybrid coding framework),并相繼出臺了ITU-T H.261/H.262/H.263/H.264視頻編碼建議和ISO/IEC MPEG-1/MPEG-2/MPEG-4視頻編碼標準。其中,國際標準化組織(ISO)和國際電工技術委員會(IEC)在1994年出臺的MPEG-2標準在數(shù)字電視領域得到了廣泛采用,壓縮效率可以達到75:1,可以把原來一路1.5Gbps的高清視頻流編碼壓縮到20Mbps左右。國際電信聯(lián)盟1995年出臺的H.263標準也是同一時代的技術,在視頻會議領域得到廣泛應用。第一代數(shù)字視頻監(jiān)控系統(tǒng)主要采用MPEG-2或H.263標準,某些系統(tǒng)出于實現(xiàn)成本考慮還對標準進行了一定的簡化。
2003年第二代視頻編碼技術國際標準發(fā)布。國際標準為ITU-T H.264和ISO/IEC MPEG-4 AVC,系同一套技術標準文本由兩個渠道出版。因為前面提到的原因,我國在國際標準約一年之后制定出了自主知識產(chǎn)權的國家標準,并經(jīng)過芯片實現(xiàn)等產(chǎn)業(yè)化驗證后,于2006年2月頒布為《信息技術先進音視頻編碼第二部分視頻》國家標準(國標號GB/T20090.2-2006,通常簡稱為AVS視頻編碼標準)。4個月后,微軟主導的VC-1視頻編碼標準由美國電影電視工程師協(xié)會SMPTE頒布為行業(yè)標準。這三個標準通常被稱為第二代視頻編碼標準的三個代表,其編碼效率均比第一代提高了一倍,編碼壓縮效率達到150:1左右,即可以把一路高清視頻壓縮到10Mbps左右。第二代標準在數(shù)字電視和視頻通信領域得到應用后,也很快被視頻監(jiān)控系統(tǒng)所采用。目前基于IP的網(wǎng)絡視頻監(jiān)控系統(tǒng),主要采用H.264標準。但廠商為了降低成本,往往會把標準中較為復雜的編碼工具剪裁掉,而不同廠商剪裁的方式又各不相同,因此雖然都號稱基于H.264標準,但不同廠商的產(chǎn)品間之間是難以互聯(lián)互通,需要使用軟件或者硬件轉(zhuǎn)碼器進行轉(zhuǎn)換。
2013年上半年,第三代視頻編碼國際標準(ITU-T H.265,ISO/IECHEVC)即將頒布,其視頻編碼效率比H.264提高一倍,也被監(jiān)控行業(yè)寄予厚望。但是,視頻編碼標準的更新?lián)Q代和壓縮效率的提高,都是以更高的計算復雜性換來的,壓縮效率提高一倍,計算復雜度往往要提高五倍甚至更多,從而導致編碼器/編碼芯片價格居高不下。據(jù)分析,HEVC解碼器/解碼芯片復雜度與比H.264增加一倍左右,但是編碼器復雜度是H.264的四倍以上,因此HEVC實時編碼器/編碼芯片的開發(fā)還需要一段時間。對于電視廣播來說,每個頻道一臺編碼器就可以服務億萬用戶,因此編碼器復雜度高、價格高不是大問題。但是,視頻監(jiān)控與數(shù)字電視恰恰相反,解碼器需求不多(很多視頻可能從未解碼查看過),但每個攝像頭都需要一顆編碼器,這就要求在提高壓縮效率的同時,編碼算法復雜度應該保持較低的水平。
在面向數(shù)字電視的視頻編碼國家標準于2006年頒布后,我國AVS工作組開始著手面向行業(yè)應用對已頒布國標進行了定向擴展。從2007年開始,在2006年國標的基準檔次(面向數(shù)字電視)基礎上,相繼擴展出加強檔次(面向高清電影等應用)、伸展檔次(面向視頻監(jiān)控等應用)和移動檔次(面向手機流媒體等應用)三個部分。其中伸展檔次(簡稱AVS-S)是全球第一個針對視頻監(jiān)控應用制定的視頻編碼標準。
AVS-S制定工作起始于2007年開始,需求分析是在國家有關部門和視頻監(jiān)控行業(yè)多家企業(yè)共同參與下完成的。經(jīng)過兩年的努力.通過在基準檔次的基礎上增加適合監(jiān)控視頻特點的專用工具,于2009年完成了“伸展檔次”(簡稱AVS-S)。該標準針對視頻監(jiān)控全天候工作的特點,以監(jiān)控現(xiàn)場的視頻序列為測試基準,通過競爭方式選擇、評估合適的視頻編碼技術制定而成。AVS-S不僅能夠提高典型監(jiān)控場景的編碼效率,支持單色、彩色、紅外序列編碼,而且具有更強的抗誤碼特性和網(wǎng)絡適應性,具有時域可伸縮性,能夠滿足視頻監(jiān)控網(wǎng)絡傳輸條件復雜的要求。更進一步,該標準還提供了基于靈活條帶和條帶集的感興趣區(qū)域編碼方法,能夠支持圖像區(qū)域標記、區(qū)域事件標記、攝像機標記等監(jiān)控要求,并為感興趣區(qū)域檢測、對象分割、對象跟蹤等智能應用和標準擴展預留了空間。
我國數(shù)字電視產(chǎn)業(yè)廣泛使用AVS的重要原因是國外組織對采用國際標準的企業(yè)和運營商征收高額專利費,這個問題在視頻監(jiān)控行業(yè)并不明顯,因此監(jiān)控產(chǎn)業(yè)界轉(zhuǎn)換到這樣一個效率相當?shù)男聵藴实膭恿Σ蛔?。通過與視頻監(jiān)控行業(yè)的企業(yè)和應用單位的交流和調(diào)研,AVS工作組判斷,只有編碼效率大幅度超越H.264,才能大幅度直接降低監(jiān)控系統(tǒng)成本,新標準才有得到應用的可能?;谶@個原因,2010年3月,AVS工作組啟動了第二代視頻監(jiān)控標準(AVS-S2)的制定工作。AVS-S2針對監(jiān)控場景固定的特點,在傳統(tǒng)基于塊劃分的混合編碼框架的基礎上,添加了基于背景幀的預測編碼技術,形成了新的編碼框架。與傳統(tǒng)基于塊劃分的混合編碼框架相區(qū)別.AVS-S2的編碼框架中包含新加入的背景建模單元、更新的基于背景幀的幀間運動補償預測單元、背景幀緩存以及與背景建模和背景幀預測相關的控制邏輯,并在2011年底完成了標準起草工作。2012年,面向立體電視和高清電視的AVS+標準制定完成,并被國家廣電總局頒布為行業(yè)標準,AVS+新增的一個重要工具是高級熵編碼,這個工具也同樣可以用于AVS-S2。包含所有這些工具的新版AVS標準于2012年10月通過了IEEE標準委員會設定的會員投票程序.于2013年3月獲得IEEE標準委員會會議的審核通過,2013年6月上旬印刷頒布為IEEE1857標準。
AVS-S2監(jiān)控視頻編碼背景建模技術
AVS標準的一個重要技術特色是針對應用需要制定簡潔高效的標準方案和算法組合,2006年頒布的AVS國家標準是針對數(shù)字電視需要而設計的,在變換、量化、熵編碼、幀內(nèi)預測、幀間預測、環(huán)路濾波等方面提出了一系列的新技術,在解碼復雜度只有H.264的70%、編碼復雜度只有H.264的30%的情況下,獲得了與H.264相當?shù)木幋a效率。
與H.265再次提高編碼復雜度的做法不同,AVS-S2大幅度提高編碼效率的主要“秘訣”是針對監(jiān)控視頻場景長期不變的特點,通過背景建模的方式去除7大量存在的“場景冗余”。監(jiān)控視頻與傳統(tǒng)影視視頻最大的不同在于其拍攝范圍限定在一定場景中,“場景”冗余是傳統(tǒng)視頻編碼方法沒有深挖的“大金礦”。AVS-S2通過對監(jiān)控背景和前景進行建模,大幅度提高了編碼效率。對于固定攝像機拍攝的監(jiān)控視頻,通過背景建模和前景學習能夠?qū)⒕幋a效率提高一倍左右,這是編碼領域的一個重要創(chuàng)新,下面具體介紹AVS-S2增加的背景建模技術。
首先,AVS-S2在傳統(tǒng)基于塊劃分的混合編碼框架的基礎上,添加了純背景幀預測編碼技術,形成了新的編碼框架。與傳統(tǒng)基于塊劃分的混合編碼框架相區(qū)別,AVS-S2的編碼框架中包含新加入的背景建模單元(其目的是構造一個不含前景對象的純背景,從而為后續(xù)圖像的編碼提供更好的參考)、更新的基于背景幀的幀間運動補償預測單元、背景幀緩存以及與背景建模和背景幀預測相關的控制邏輯(藍色標記),如圖1所示。
其次.AVS-S2繼承并改進了AVS-S中的背景預測技術。AVS-S2使用背景幀(G幀)來編碼表示場景信息的背景圖像,并擴展語法元素定義以保證該背景圖像不顯示輸出。同時,AVS-S2沿用了AVS-S中可以零矢量參考G幀的背景預測幀(S幀)。
第三,更進一步地,在AVS-S2中,每一個P幀在圖像層語法元素中,既可以選擇以最近兩幀為參考圖像,也可以選擇以最近參考幀和G幀為參考圖像進行編碼。G,S,P幀參考方式可以如圖2所示。
第四,AVS-S2采納了可選差分編碼技術,該方法下的編解碼流程如圖3所示。
對于每一個P幀的宏塊,除使用現(xiàn)有編碼方法外,可以選擇性的使用“最近參考幀與背景圖像的差分結(jié)果”來對“當前宏塊與其對應背景差分結(jié)果”進行預測編碼,這種預測編碼方式我們定義為差分編碼方式。當前宏塊編碼為差分方式時,三處選擇開關如圖4所示:否則,將三處開關切換至另一端即為現(xiàn)有混合編碼框架中的編碼方式。
第五,在使用不顯示輸出的背景幀做參考圖像時,為了保證運動矢量預測值的計算過程不發(fā)生除零錯誤并且提高預測值的準確性,AVS-S2改進了亮度運動矢量導出算法,對直接或間接參考不顯示輸出的背景幀時的運動矢量預測過程進行了特殊處理。
第六,為了保證在編碼不顯示輸出的背景幀時不產(chǎn)生解碼緩沖區(qū)溢出和播放停頓,AVS-S2改進了緩沖區(qū)檢測機制,將不顯示輸出背景幀跟其后一幀綁定移出緩沖區(qū)。
第七,AVS-S2中沿用了AVS.s的提高抗誤碼性的技術如靈活條帶集、核心圖像、受限D(zhuǎn)c模式、支持各類監(jiān)控標記的語法元素、非參考P幀以及改進型的運動矢量縮放、自適應加權量化等技術改進。
集成背景建模和可選差分技術的監(jiān)控視頻編碼框架如圖5。這一方案的重要貢獻是實現(xiàn)了模型編碼(背景建模和前景編碼)與現(xiàn)行標準的有機結(jié)合,為在現(xiàn)行視頻編碼標準中納入模型編碼方法開辟了一個有效途徑。
集成上述所有技術的AVS監(jiān)控視頻編碼標準已經(jīng)作為AVS視頻標準獨具特色的一個檔次,于2013年頒布為IEEE 1857國際標準。IEEE AVS標準中的監(jiān)控檔次(即AVS-S2)是AVS既有技術的集大成者,是全球第一個面向視頻監(jiān)控的國際標準。
以十個典型監(jiān)控視頻作為測試序列,將AVS-S2和國際標準H.264的高級檔(High Profile)、AVS國家標準基準檔(GB/T 20090.2-2006)和2012年發(fā)布的AVS廣播檔(AVS+)進行對比,對比軟件均采用這些標準最新版本的參考軟件。表1是AVS監(jiān)控檔次相對于其它三個標準的碼率節(jié)省情況。從表中可以看出,在壓縮這些監(jiān)控視頻序列時,AVS-S2與其它三個標準檔次相比,平均碼率節(jié)省都超過了50%,即編碼效率是它們的兩倍。
基于背景建模的編碼方法實質(zhì)上是消除常規(guī)標準沒能消除的“場景冗余”,因此同樣用于提高其它視頻編碼標準的效率。我們將這套方法增強即將頒布的國際標準HEVC(H.265),同樣用上述十個監(jiān)控視頻序列和HEVC參考軟件進行對比,實驗表明能將HEVC的碼率平均再降低44.78%,而且復雜度降低46.53%,即用約一半的復雜度實現(xiàn)了編碼效率的翻番,壓縮效率達到現(xiàn)行國際標準H.264的近四倍。我們正在將這套方法用到正在制定AVS2標準中(稱為AVS2-S),預計在監(jiān)控視頻編碼方面比HEVC高一倍,這是國際范圍內(nèi)監(jiān)控視頻編碼效率的最高水平。
結(jié)束語
從1996年我國專家第一次參加視頻編碼國際標準ISO/[EC MPEG會議算起,我國在追趕和超越視頻編碼國際標準方面已經(jīng)走過17年的歷程。2002年AVS標準工作組的成立是我國在這一領域走向自主發(fā)展的標志性事件。如果說2006年GB/T 20090.2視頻編碼國家標準的頒布是我國打了一個漂亮的翻身仗的話,2013年IEE批準AVS則是AVS全面走向國際的新里程碑。
IEEE AVS中獨具特色的一個部分是針對視頻監(jiān)控應用的檔次AVS-S2。AVS-S2的編碼效率是H.264/AVC的兩倍,而且編碼復雜度只有后者的二分之一。這套消除監(jiān)控視頻“場景冗余”的背景建模技術還能將H.265/HEVC國際標準的效率提高約一倍,在監(jiān)控視頻編碼領域遙遙領先,標志著我國的視頻編碼技術和標準在視頻監(jiān)控領域已經(jīng)實現(xiàn)跨越。
在AVS-S2碼流中,已經(jīng)可以基本判斷出各個編碼宏塊的類別(前景塊、背景塊、邊緣塊),基于這個信息進行前景對象檢測跟蹤,能夠在提高分析速度的同時降低誤識率。以行人檢測為例,目前行人檢測算法普遍存在的問題是易受背景的干擾,另外面向單張圖片的行人檢測算法因為性能問題而無法有效地擴展到視頻序列中。利用AVS-S2編碼提供的背景圖像,對原始視頻提取前景,得到每個前景區(qū)域中的外接矩形,然后再利用變形部件模型做行人檢測。實驗結(jié)果顯示,在檢測精度為90%時,召回率比基于單張圖片的行人檢測算法提高了6個百分點,同時速度提高了70%。
監(jiān)控視頻已占據(jù)全球“大數(shù)據(jù)”的半壁江山,AVS-S2標準的出臺為大幅度降低監(jiān)控視頻的傳輸和存儲成本創(chuàng)造了巨大的技術和產(chǎn)業(yè)機遇,希望我國視頻監(jiān)控產(chǎn)業(yè)行業(yè)能夠在國家相關部門大力支持下,抓住這個機遇,同樣實現(xiàn)跨越發(fā)展。