劉慧念,孫振文,崔冠峰,周 紅,季安全
(公安部物證鑒定中心,北京 100038)
安全防范監(jiān)控數(shù)字視音頻編解碼技術標準的特點與應用
劉慧念,孫振文,崔冠峰,周 紅,季安全*
(公安部物證鑒定中心,北京 100038)
國家標準《安全防范監(jiān)控數(shù)字視音頻編解碼技術要求》(GB/T 25724-2010)創(chuàng)新性地提出了多項視音頻編解碼技術,而法庭科學應用中的特定需求是視頻圖像必須最大限度地“忠實于現(xiàn)場”,本文分析了采用該標準的安全防范監(jiān)控數(shù)字視音頻編解碼技術的特點,例如精度可以擴充視頻數(shù)據(jù)的編碼技術、選定區(qū)域的高質量編碼技術、視頻分層編碼以及內嵌絕對時間等安防監(jiān)控專用信息、支持數(shù)據(jù)安全保護、聲音識別特征參數(shù)編碼等,討論了標準中提出的視音頻編解碼技術在法庭科學領域中的應用方向。
視頻圖像分析;視音頻編解碼技術;視頻偵查;感興趣區(qū)域;SVAC標準
2011年5月1日,國家標準《安全防范監(jiān)控數(shù)字視音頻編解碼技術要求》(GB/T 25724-2010),英文名稱為Technical specification of surveillance video and audio coding(以下簡稱:SVAC標準)正式頒布實施。該標準由工業(yè)和信息化部和公安部聯(lián)合制定,正式頒布實施以來,在安全防范行業(yè)引起強烈反響,SVAC標準系列產品的研發(fā)、應用、推廣工作正在火熱開展中。本文從SVAC標準的目的意義、法庭科學應用中的需求、采用SVAC標準的安全防范監(jiān)控數(shù)字視音頻編解碼技術的特點及SVAC標準在法庭科學領域中的應用等方面對SVAC標準進行了分析。
我國公共安全領域技術標準體系正在逐步建立完善,但SVAC標準頒布之前,關鍵基礎性的標準如信源編碼標準仍主要采用國外制定的標準如H.264、MPEG等,我國每年在安防監(jiān)控領域應用中支出高昂的專利費,一定程度上阻礙了應用的發(fā)展,該標準針對我國社會公共安全領域視音頻監(jiān)控編碼缺少自有知識產權標準這一現(xiàn)實問題,歷經(jīng)多年持續(xù)研發(fā),并充分考慮技術的未來發(fā)展趨勢,提出了多項針對安防監(jiān)控應用特殊要求的視音頻編解碼技術創(chuàng)新,包括:(1)精度可擴充的視頻數(shù)據(jù)編碼;(2)選定區(qū)域的高質量編碼技術;(3)上下文自適應二進制算術編碼;(4)分層視頻編碼;(5)內嵌絕對時間等安防監(jiān)控專用信息;(6)支持數(shù)據(jù)安全保護與數(shù)據(jù)認證;(7)攜帶聲音識別特征參數(shù)信息;(8)支持面向聲音異常事件的高質量語音編碼。
采用上述技術創(chuàng)新的SVAC標準契合了法庭科學應用中對視頻圖像“忠實于現(xiàn)場”的特定需求,為安全防范監(jiān)控視音頻聯(lián)網(wǎng)應用奠定了重要基礎,能很好地滿足當前我國各行業(yè)、各領域視頻監(jiān)控建設的迫切需要[1]。SVAC標準是我國第一個具有自主知識產權且適用于國家安全領域的關鍵基礎信息技術標準[2],該標準充分擴展了視頻編碼相關應用領域,通過發(fā)布實施和推廣標準相關技術、產品和系統(tǒng),能夠有效保障國家重要場所視音頻信息安全,顯著提升我國安防視音頻監(jiān)控行業(yè)的技術水平,有力提高公安機關預防和打擊違法犯罪活動能力水平,可在公共安全、數(shù)字城市、智能交通、商業(yè)金融、衛(wèi)生醫(yī)療等多領域得到應用。
法庭科學廣義的概念,是指運用一切醫(yī)學、自然科學的理論與技術,研究并解決刑事偵查、審判以及民事糾紛中有關專門性問題的一門自然科學,是為偵查和審判工作提供線索及證據(jù)的專門技術手段[3]。無論是從為偵查工作提供線索還是為審判工作提供證據(jù)的角度,視音頻數(shù)據(jù)在法庭科學應用中始終都以“忠實于現(xiàn)場”為核心,法庭科學應用中對視音頻編解碼的主要技術需求包括:(1)安全可信。監(jiān)控視音頻數(shù)據(jù)應用于還原案事件現(xiàn)場場景,必然要求實時傳輸和存儲錄像的視音頻數(shù)據(jù)具有較高的安全性和可信度,具有不可否定性。(2)實時性。應用于偵查和審判的視頻圖像,要求視音頻編碼時內嵌絕對時間,以確保視頻圖像記錄時間與案發(fā)時間的一致性。(3)智能性。視頻圖像應用于偵查,如何在海量視頻數(shù)據(jù)中快速發(fā)現(xiàn)線索是急需解決的現(xiàn)實問題,因此在進行視頻實時編碼時應能同步實現(xiàn)移動偵測、目標跟蹤等智能處理以便提取到運動目標的基本信息。另外在進行實時音頻編碼前即提取出聲紋特征信息,避免經(jīng)編碼、傳輸、解碼后再提取聲紋特征信息的信號損失,為智能視音頻分析應用系統(tǒng)提供更準確的原始特征信息參數(shù),從而奠定有效利用視音頻信息資源進行語音識別、人車識別、視頻快速檢索等的技術基礎。(4)關注區(qū)域高質量編碼。在視頻圖像查看、檢索或作為證據(jù)呈現(xiàn)時,要求能區(qū)分前景背景,在同等傳輸、存儲系統(tǒng)資源消耗的情況下,能進行動態(tài)碼率調整,對運動目標、人臉、車牌、禁區(qū)、可疑目標等警用關注區(qū)域進行高質量編碼,以保證關注目標圖像的清晰。(5)忠實于場景。由于案事件發(fā)生時間、地點的不確定性,要求視頻監(jiān)控系統(tǒng)在較惡劣現(xiàn)場環(huán)境中拍攝的視頻圖像能最大限度地還原案事件現(xiàn)場場景。
前面提到SVAC標準在充分借鑒國內外信息技術領域最新研究成果的基礎上針對安全防范監(jiān)控中最基礎、最關鍵的信源信息提出了面向公共安全的實際需求、以忠實于場景為核心的八大技術創(chuàng)新,該標準在實現(xiàn)通用視音頻編解碼功能的基礎上精心設計技術內容,并根據(jù)安防監(jiān)控和公安破案的特定需求建立了相應特點的整體技術框架。針對法庭科學應用中的視頻編解碼技術需求,SVAC標準面向法庭科學應用的技術特點及創(chuàng)新主要有:
3.1 擴充了視頻數(shù)據(jù)編碼精度
法庭科學應用中要求既能從視頻圖像中獲取更豐富的局部細節(jié),同時又能適應從“最暗”至“最亮”的高動態(tài)范圍。提高視頻數(shù)據(jù)精度(位寬)可以提高圖像對比度、增強圖像細節(jié)和增加圖像層次感,目前的編解碼器大部分都只支持8bit數(shù)據(jù),不能擴展到更高比特數(shù),但視頻前端的采集設備和后端的視頻顯示設備普遍可以支持10bit數(shù)據(jù),一些特殊的設備甚至可以支持更高精度,如果只采用8bit數(shù)據(jù)編碼,在編解碼環(huán)節(jié)就損失了2bit的數(shù)據(jù)信息,在整個系統(tǒng)中編解碼環(huán)節(jié)成為短板,無形中降低了系統(tǒng)的整體性能。SVAC標準中目前支持8~10bit的高精度視頻數(shù)據(jù),可擴充到12~16bit編碼,使得系統(tǒng)中采集、編碼、解碼、顯示都可采用相同的精度。SVAC標準對編碼精度的擴充,一方面可減少在編解碼環(huán)節(jié)的圖像信息損失,另一方面可提高圖像對比度并增強圖像細節(jié),使編碼后的視頻數(shù)據(jù)盡可能真實、完整地保留拍攝場景的圖像細節(jié)。
3.2 圖像質量更好與編碼效率更高
SVAC標準力圖在圖像質量和編碼效率之間取得最佳效果,在保障好的圖像質量的前提下采用了較高效率的編碼方案。例如采用了上下文自適應二進制算術編碼(Context Adaptive Variable-Length Coding,CABAC)和自適應幀-場編碼(AdaptiveFrame-Field,AFF)等技術,研究結果表明,CABAC比基于上下文的自適應變長編碼(Context-Adaptive Varialbe-Length Coding, CAVLC)有更高的編碼效率,另外SVAC編碼在采用8×8預測和變換的基礎上,增加了幀內Intra 4×4預測和變換,采用Intra4×4可以有效降低局部噪聲(如細節(jié)豐富、邊緣銳利的區(qū)域附近)。
3.3 關注區(qū)域采用高質量編碼
在視頻偵查工作中,場景中的某些關注區(qū)域(即感興趣區(qū)域,Region of interest, ROI)往往是偵查人員重點查看的內容。SVAC標準支持對ROI部分采用更高碼率編碼以保證圖像質量、對非ROI部分采用低碼率編碼或跳幀編碼,在保證ROI圖像質量的同時節(jié)省非ROI的碼流,從而降低網(wǎng)絡帶寬或存儲空間。SVAC標準支持設置多個ROI,且可對每個ROI的圖像質量分別控制,可以有效提高監(jiān)控系統(tǒng)的整體性能。圖1視頻截圖中,紅色方框內區(qū)域為ROI,采用SVAC標準的ROI圖像質量控制方案,由于給ROI部分分配了更多的碼流,在總碼率同樣的情況下,ROI的圖像質量更好,車牌顯示清晰。
圖1 ROI變質量編碼視頻截圖Fig.1 Variable bitrate coding for the “region of interest”
3.4 支持視頻分層編碼
在視頻監(jiān)控應用中,經(jīng)常存在雙碼流或多碼流的應用場景,即對同一場景既要查看低分辨率視頻又要查看高分辨率視頻,例如在窄帶傳輸網(wǎng)絡(如無線網(wǎng)絡傳輸)環(huán)境下只傳輸?shù)头直媛实拇a流,對于寬帶網(wǎng)絡或存儲時則采用較高分辨率的碼流。目前大多數(shù)廠商采用的雙碼流或多碼流方案是由編碼器分別輸出不同分辨率的視頻流,即對高分辨率圖像進行編碼后又對抽樣后的低分辨率圖像再進行編碼,傳統(tǒng)的多碼流方案中編碼系統(tǒng)開銷大,從低分辨率碼流中無法解碼得到高分辨圖像,應用上受到一定的局限性。視頻分層(Scalable video coding, SVC)技術將視頻數(shù)據(jù)分為基本層和增強層,并分別編碼,編碼系統(tǒng)共用一個編碼器或編碼模塊;基本層主要由低分辨率編碼圖像構成,對基本層和增強層聯(lián)合解碼可以獲得高分辨率的視頻序列,對基本層單獨解碼可以獲得低分辨率的視頻序列。采用SVC技術,減少了碼流的傳輸和存儲,比簡單的雙碼流和多碼流具有更好的編碼效率,將分層碼流聯(lián)合解碼得到的高分辨率的視頻序列,更有利于真實展示犯罪現(xiàn)場的場景。
3.5 內嵌監(jiān)控專用信息
SVAC標準針對視頻偵查實際需求,支持在視頻數(shù)據(jù)中內嵌監(jiān)控專用信息(如絕對時間、超速等特殊監(jiān)控事件)。監(jiān)控專用信息通過專門語法內嵌于視音頻壓縮編碼碼流中,并作為碼流的一部分一起傳輸和存儲,系統(tǒng)檢索查詢時通過內嵌的專用信息可快速找到關聯(lián)的視頻圖像,另外絕對時間的嵌入有利于視音頻同步和多路視頻同步。SVAC標準的這一技術特點對于從海量視頻數(shù)據(jù)中快速發(fā)現(xiàn)關注目標,以及準確還原案事件的發(fā)生時間方面都起到非常重要的作用(圖2)。SVAC標準完善的安全機制,對于提高視頻數(shù)據(jù)的證據(jù)力、保障國家重要信息安全,保護公共安全行業(yè)的敏感信息具有重要意義。
圖2 嵌入監(jiān)控專用信息到視頻流中的示意圖Fig.2 Embedding the special information into video stream
3.6 支持數(shù)據(jù)安全保護
視音頻數(shù)據(jù)在網(wǎng)絡中的傳輸會帶來非授權訪問、非法監(jiān)聽等問題,同時數(shù)字視頻數(shù)據(jù)易于被篡改且難以察覺。在法庭科學應用中,監(jiān)控數(shù)據(jù)的機密性、完整性和非否認性至關重要。加密可以有效保護數(shù)據(jù)的機密性,防止非授權訪問和非法監(jiān)聽。認證可以識別視音頻的產生源以及所對應的視音頻數(shù)據(jù)是否完整或被篡改。SVAC標準保護了數(shù)據(jù)的安全,規(guī)范了加密和認證接口,明確了接口的數(shù)據(jù)格式,以統(tǒng)一的語法格式支持多種加密和認證算法,提高了數(shù)據(jù)的機密性、完整性和非否認性。如圖3所示。
圖3 嵌入加密與認證信息到視頻流中示意圖Fig.3 Embedding the encrypted and authenticated information into video stream
3.7 支持音頻雙核編碼
考慮到監(jiān)控中的音頻內容主要是語音信號以及環(huán)境(背景)聲音信號,SVAC標準采用了代數(shù)碼書激勵線性預測(Algebraic Code Excited Linear Prediction,ACELP)和變換音頻編碼(Transform Audio Coding,TAC)切換的雙核音頻編碼方案以適應不同的場景。對語音信號采用以ACELP為核心的編碼技術可以獲得較好的編碼效果;對于環(huán)境(背景)聲音信號,其種類復雜,要獲得對環(huán)境或背景聲音的較好編碼效果則不宜采用ACELP核的編碼技術,而采用TAC技術則更加適合對環(huán)境或背景聲音。另外,監(jiān)控聲音信號中,與低頻相比,高頻信號所含的信息量的比例較少,采用帶寬擴展(Bandwidth Expansion,BWE)編碼可以節(jié)省碼率。SVAC音頻標準以上技術特點保證了在低碼率下背景聲音較好的編碼質量。音頻雙核編碼的技術實現(xiàn)如圖4所示。
圖4 雙核音頻編碼示意圖Fig.4 Methods for dual-core audio coding
3.8 支持聲音識別特征參數(shù)編碼
從解碼重建的語音信號中提取聲音識別特征參數(shù)同從編碼前的原始語音信號中提取聲音識別參數(shù)相比,顯然前者由于編解碼引起了信號失真,語音識別和聲紋識別的準確性受到一定影響。因此SVAC標準采用了在音頻編碼之前從原始語音信號中提取聲音識別參數(shù)的技術方案,避免了編解碼過程中的信號失真引起的對語音和聲紋識別的影響。聲音識別特征參數(shù)編碼技術實現(xiàn)如圖5所示。
圖5 聲音識別特征參數(shù)編碼示意圖Fig.5 Coding parameter for recognition of the sound feature
圖5的上半部分,SVAC標準在音頻編碼時,直接從原始信號中將識別特征參數(shù)(mel-frequency cepstralcoeffi cients,MFCC)先提取出來,然后與編碼后的聲音信號一起打包,在解碼時直接可以得到MFCC,而不是從解碼的聲音信號中再提取MFCC;這樣避免了編解碼對MFCC造成的損失。MFCC系數(shù)利用了倒譜的解相關特性,模擬人的聽覺特性,具有很好的識別性能和抗噪能力,常作為語音/聲紋識別的主要特征參數(shù),適合于在聲紋鑒定中應用。
以審判為中心的訴訟制度改革,對法庭科學領域中的視頻偵查工作也提出了更嚴標準和更高要求。SVAC標準順應技術發(fā)展趨勢并契合訴訟制度改革要求,從標準的規(guī)劃和制定開始,就緊緊圍繞公共安全的實際需要,特別是法庭科學應用中對視頻圖像“忠實于現(xiàn)場”的特定需求。從視頻偵查的業(yè)務需求出發(fā),SVAC標準的技術特點至少可以在以下方面發(fā)揮重要作用:
(1)應用SVAC標準的監(jiān)控專用信息,實現(xiàn)海量視頻數(shù)據(jù)的快速檢索查詢,從而快速發(fā)現(xiàn)關注目標。
(2)應用SVAC標準的聲音識別特征參數(shù)編碼技術,將影像識別信息與聲紋鑒定信息融合,實現(xiàn)基于多元信息的個體識別。
(3)應用SVAC標準的數(shù)據(jù)安全保護機制,防止視音頻數(shù)據(jù)被非法篡改,保證視音頻數(shù)據(jù)的完整性,提高視音頻數(shù)據(jù)的證據(jù)力。
目前SVAC標準相關產品、產業(yè)和系統(tǒng)已經(jīng)進入規(guī)?;瘧秒A段,在不遠的將來,法庭科學領域將大量處理采用SVAC編碼標準的視音頻數(shù)據(jù),視頻偵查和相關領域的技術人員應盡快熟悉SVAC標準及其技術特點,以充分發(fā)揮SVAC標準在打擊和預防犯罪中的作用。
[1] 全國安全防范報警系統(tǒng)標準化技術委員會.安全防范監(jiān)控數(shù)字視音頻編解碼技術要求:GB/T 25724—2010[S]. 北京:中國標準出版社,2010.
[2] 陳朝武,郅晨,張躍. SVAC標準技術創(chuàng)新及其在視頻監(jiān)控聯(lián)網(wǎng)系統(tǒng)中的作用[J]. 警察技術,2011(4):62-65.
[3] 邱愛民. 論法庭科學的內涵和外延[J]. 中國政法大學學報,2010(6):124-125.
Analysis of Technical Specification about Surveillance of Video and Audio Coding (SVAC)
LIU Huinian, SUN Zhenwen, CUI Guanfeng, ZHOU Hong, JI Anquan*
(Institute of Forensic Science, Ministry of Public Security, Beijing 100038, China)
The national standard GB/T 25724-2010 - Technical Specification of Surveillance Video and Audio Coding (SVAC) innovatively puts forward a lot of new technologies about video and audio coding and decoding. This article mainly analyzes the technical features of SVAC, for example, the high-precision and extensible coding methods, variable qualitycoding on“region-of-interest”, scalable video coding(SVC), the special information embedded in video/audio streams, security protection of data, coding of voiceprint-feature parameters and the others important. Emphasis targets at the special requirement of “video and image must be faithful to the criminal scene” in application of forensic science. Discussions deal with the possible application of SVAC in forensic practice.
video image analysis; video audio coding and decoding; video investigation; region-of-interest; surveillance coding of video andaudio
DF793.2
A
1008-3650(2016)04-0322-04
2016-02-14
格式:劉慧念,孫振文,崔冠峰,等.安全防范監(jiān)控數(shù)字視音頻編解碼技術標準的特點與應用[J]. 刑事技術,2016,41(4):322-325.
10.16467/j.1008-3650.2016.04.016
中國工程院咨詢研究項目(No.2014-ZD-02-05)
劉慧念(1976—),男,廣東饒平人,副研究員,碩士,研究方向為視頻圖像分析。E-mail:liuhuinian@cifs.gov.cn
* 通訊作者:季安全(1965—),男,山東營南人,主任法醫(yī)師,碩士,研究方向為法庭科學科技創(chuàng)新、法醫(yī)遺傳學。E-mail:aqjdna@163.com