劉勝楠,汪恭焰,李京,李鑫磊,方明
(長春理工大學(xué)計(jì)算機(jī)科學(xué)技術(shù)學(xué)院,長春 130022)
嵌入式視頻摘要及智能視頻監(jiān)控系統(tǒng)設(shè)計(jì)
劉勝楠,汪恭焰,李京,李鑫磊,方明
(長春理工大學(xué)計(jì)算機(jī)科學(xué)技術(shù)學(xué)院,長春 130022)
利用基于ARM嵌入式的圖像處理系統(tǒng)和傳統(tǒng)的PC系統(tǒng)相比具有體積小、功耗低、成本低、易于部署等優(yōu)點(diǎn),基于友善之臂的Tiny4412開發(fā)板設(shè)計(jì)并實(shí)現(xiàn)了視頻摘要及智能視頻監(jiān)控算法。該算法通過Vibe算法提取前景事件,并區(qū)分起點(diǎn)關(guān)鍵幀和終點(diǎn)關(guān)鍵幀以形成有效事件幀,再連接有效事件幀形成摘要視頻。摘要視頻和原始視頻相比,由于只包含有效事件幀,解決了海量視頻冗余度過大的問題,有利于節(jié)省存儲空間,并且有助于用戶事后快速瀏覽。同時,系統(tǒng)將關(guān)鍵幀通過郵件發(fā)送給指定用戶,達(dá)到了實(shí)時智能監(jiān)控的目的。結(jié)果表明,該系統(tǒng)能有效的實(shí)現(xiàn)智能監(jiān)控,是市場化的開端。
視頻摘要;視頻監(jiān)控;ARM;嵌入式系統(tǒng)
在安防系統(tǒng)中,視頻監(jiān)控因其直觀、方便、信息量大等優(yōu)點(diǎn)被廣泛用于城市交通、民用安防,特別是重要的安全部門以及各類重大事件中。視頻監(jiān)控可以用指定的視頻接受器觀看實(shí)時的監(jiān)控畫面,還能錄取視頻以便事后查看。該技術(shù)經(jīng)歷了模擬監(jiān)控系統(tǒng),數(shù)字視頻監(jiān)控系統(tǒng),網(wǎng)絡(luò)視頻監(jiān)控系統(tǒng)三大階段[1]。
視頻摘要(Video Abstraction)是原始視頻的一個子集,該子集集中了原始視頻中只出現(xiàn)人們感興趣的視頻幀,從而幫助人們快速瀏覽和檢索有意義的內(nèi)容[2]。視頻摘要分為靜態(tài)摘要(Video Summary)和動態(tài)摘要(Video Skimming)。靜態(tài)摘要是獲取關(guān)鍵幀組裝成視頻,而動態(tài)摘要則以視頻序列為基礎(chǔ)形成結(jié)果視頻,相比于靜態(tài)摘要有流暢的優(yōu)點(diǎn),同時消耗的空間比關(guān)鍵幀多。視頻摘要技術(shù)通常用于生成電影、體育視頻等的摘要,提供給用戶一種預(yù)覽方式,使用戶能夠在短時間內(nèi)掌握這些視頻的基本內(nèi)容。
視頻監(jiān)控系統(tǒng)有GPU、嵌入式系統(tǒng)、DSP三種實(shí)現(xiàn)方式[4]。相比于GPU和DSP,嵌入式系統(tǒng)具有功耗低、穩(wěn)定性高等優(yōu)點(diǎn),而且體系結(jié)構(gòu)靈活易變,已逐漸成為各種業(yè)務(wù)解決方案的優(yōu)先選擇。以此為出發(fā)點(diǎn),在ARM體系的Linux系統(tǒng)中利用軟件實(shí)現(xiàn)視頻數(shù)據(jù)的編解碼和傳輸,添加視頻摘要算法,同時借助已有的互聯(lián)網(wǎng)進(jìn)行通信,給用戶發(fā)送事件消息和關(guān)鍵幀,提高了對監(jiān)控的易操作性和智能性,同時有效的利用存儲空間,為后期功能和服務(wù)的擴(kuò)展提供了很好的支持。
1.1 相關(guān)定義
給定視頻流v,對于固定位置的像素點(diǎn),如果該點(diǎn)隨著時間其值保持不變,則該點(diǎn)標(biāo)記為背景像素點(diǎn),否則為前景像素點(diǎn),也稱為活動點(diǎn)。對于v中的一幀F(xiàn)的每個像素點(diǎn)x,其標(biāo)記函數(shù)為:
幀F(xiàn)中的移動目標(biāo),或者對象,是連通的活動像素點(diǎn)的集合。出現(xiàn)一個對象或者多個對象的幀稱為關(guān)鍵幀。一個事件由一系列關(guān)鍵幀組成,其起點(diǎn)關(guān)鍵幀是該幀的前一幀為非關(guān)鍵幀,終點(diǎn)關(guān)鍵幀是該幀的后一幀為非關(guān)鍵幀。原始視頻流v由事件和非事件組成,經(jīng)過本文的視頻摘要算法處理后的摘要視頻只由事件組成,事件的組合方式一般是基于時間的順序。
1.2 前景提取
前景的檢測是該算法的核心,該領(lǐng)域目前已經(jīng)提出了諸多算法,文獻(xiàn)[5]對這些算法做出了總結(jié)和比較。經(jīng)過對29種算法的比較,其中混合高斯模型和基于Vibe[6]的PBAS[7]很出色,國內(nèi)對Vibe算法也有改進(jìn)[8]??紤]到實(shí)時性和有效性,本文采用了Vibe算法。我們使用中值濾波進(jìn)行了圖像的預(yù)處理操作。文獻(xiàn)[6]中詳細(xì)闡述了Vibe算法,該算法主要思想描述如下:
基本背景模型:前背景分割問題可視為一個分類問題,通過和之前的樣本觀測值和當(dāng)前值進(jìn)行比較來給當(dāng)前值歸類,即前景類和背景類。記v(x)是特征值,對于RGB空間的圖像,該值為對應(yīng)位置x的像素值,記vi為索引i為的背景特征值。每個位于x的背景像素用之前的序列幀選取N個背景樣本建立模型:
背景初始化:初始化背景的過程也是選取v(x)的過程,Vibe算法從第一幀位于x的8鄰域NG(x)中隨機(jī)選取一個值填充20個樣本對應(yīng)x的像素值用于初始化背景模型:
背景更新策略:無記憶更新策略,用來保證背景樣本模型銜接自然;隨機(jī)時間子采樣,隨機(jī)選取背景模型中的某一幀更新;對于某一點(diǎn)像素,隨機(jī)選取對應(yīng)該像素點(diǎn)的領(lǐng)域點(diǎn)替代,保證空間的連續(xù)性。具體來說,如果像素p(x)是背景像素,先隨機(jī)地從M(x)中選取一幀,再從該幀對應(yīng)x位置的像素點(diǎn)的8鄰域隨機(jī)選取一個值替代p(x)。
檢測前景:為了對新的像素特征值v(x)分類,需要將v(x)和基本模型M(x)中的所有值進(jìn)行比較。Vibe算法采用2-D空間中的歐式距離對像素進(jìn)行分類,記SR(v(x))表示以v(x)為中心,半徑為R的2-D歐式空間,若SR(v(x))與M(x)的交集滿足一定的基數(shù)(不小于2),則認(rèn)為v(x)是背景像素,否則為前景像素。
1.3 記錄事件
通過上述算法獲取了前景掩碼,為了使本文的算法更具備針對性,我們只檢測人的闖入事件。人作為目標(biāo)的基本特征包括寬高比和面積,我們根據(jù)這兩個基本特征對前景掩碼中的目標(biāo)進(jìn)行篩選。首先通過檢測連通區(qū)域獲取目標(biāo)的外接矩形,當(dāng)滿足基本特征時記錄其面積,依次迭代直到所有目標(biāo)處理完畢。累加所有目標(biāo)的面積得到和SUM,計(jì)算SUM占幀總面積的百分比A,如果A大于指定閾值T,則視該幀為人闖入事件幀。對于每一個事件幀,按照起點(diǎn)事件幀和終點(diǎn)事件幀的定義決定事件的起點(diǎn)和終點(diǎn),從而決定一個事件。
1.4 視頻摘要的生成
視頻摘要是事件的集合,在得到事件后,我們按照時間的順序?qū)@些事件排序,之后對排序的事件進(jìn)行視頻的合成操作??紤]到監(jiān)控視頻的無終止性,我們以12個小時為單位構(gòu)建摘要視頻。這樣,每過12個小時就會有一個新的摘要視頻產(chǎn)生。如果一個事件在兩個12小時的交接處,我們并沒有分割該事件,而是等待該事件結(jié)束,之后的事件才會用于生成新的摘要視頻。
2.1 硬件系統(tǒng)構(gòu)成
系統(tǒng)硬件平臺如圖1所示,處理單元采用友善之臂公司的Tiny4412開發(fā)板其由核心板Tiny4412和底板Tiny4412SDK組成??紤]到實(shí)用性和兼容性,本文所選擇的視頻采集設(shè)備為基于ZC511芯片的VR506USB攝像頭,該攝像頭為CMOS即插即用攝像頭,支持最大幀數(shù)為30幀/秒,最大分辨率為800x600,色彩位數(shù)為24位。該核心板有4個核心,可同時啟動多個線程用于圖像處理過程。
圖1 硬件系統(tǒng)平臺
2.2 視頻監(jiān)控軟件框架
視頻監(jiān)控軟件框架如圖2所示,其中,平臺使用V4L2框架采集視頻圖像。V4L2(video for Linux two)標(biāo)準(zhǔn)用于開發(fā)多種不同接口的設(shè)備驅(qū)動,對采用USB接口的UVC驅(qū)動具有良好的支持,V4L2分為兩層:下層為音頻視頻驅(qū)動程序;上層為Linux內(nèi)核提供給用戶空間的API。對于USB攝像頭,驅(qū)動程序中有一個struct file_operation結(jié)構(gòu),它描述了在設(shè)備上能進(jìn)行的操作,如基本的I/O操作接口函open(),close(),read(),write()和對I/O通道控制接口函數(shù)ioctl()。完成攝像頭對視頻圖像的采集主要步驟是:打開設(shè)備;更改設(shè)備屬性;協(xié)定數(shù)據(jù)格式;協(xié)定輸入輸出方法;關(guān)閉設(shè)備。
從視頻摘要算法獲取到的事件幀可以通過網(wǎng)絡(luò)給用戶發(fā)送郵件,同時也不會影響摘要視頻的生成。對于同一個事件,我們只發(fā)送的是事件的起點(diǎn)幀及時間給用戶。
網(wǎng)絡(luò)中發(fā)送郵件使用的是郵件傳輸協(xié)議(SMTP)。SMTP要經(jīng)過建立連接、傳送郵件和釋放連接3個階段。在Linux系統(tǒng)中具體實(shí)現(xiàn)時使用Socket通信模擬通信過程,我們采用了163郵件服務(wù)器發(fā)送郵件。發(fā)送注冊名和密碼時,使用了base64加密,防止郵箱被竊取。
圖2 視頻軟件框架
3.1 闖入關(guān)鍵幀測試
我們首先進(jìn)行了闖入關(guān)鍵幀測試的實(shí)驗(yàn),主要用于測試事件關(guān)鍵幀檢測的準(zhǔn)確性。場景是室內(nèi)門口。圖3是在闖入的測試結(jié)果。首先等待背景建模,當(dāng)掩碼視頻全部變成黑色時表示初始化背景成功,此時進(jìn)行闖入的測試可以捕捉到前景(掩碼圖像中的白色),并畫出了前景的外接矩形。
3.2 視頻摘要生成測試
我們在同樣的場景下做了連續(xù)72個小時的監(jiān)控,生成了10分鐘的摘要視頻。圖4顯示了摘要視頻連續(xù)幾幀。
摘要視頻中,通過人工查看確定關(guān)鍵幀和非關(guān)鍵幀的統(tǒng)計(jì)結(jié)果如表1。
以上結(jié)果表明本文算法能夠很好地生成有效事件的摘要視頻。而10%左右的非關(guān)鍵幀是由于光照變化太大(燈的開關(guān))和背景被改變(門的開關(guān))產(chǎn)生的,但是相對于原始視頻已經(jīng)很大程度上減少了存儲視頻的信息冗余度。
另外,圖5顯示,事件的報警信息能夠及時地通過網(wǎng)絡(luò)發(fā)送給注冊用戶,用戶通過該信息可以知道事件發(fā)生時間,并能夠及時查看關(guān)鍵幀事件。
圖3 闖入測試結(jié)果
圖4 摘要視頻的連續(xù)幾幀
表1 關(guān)鍵幀統(tǒng)計(jì)結(jié)果
圖5 事件報警信息的發(fā)送
本文的主要工作是在ARM體系中實(shí)現(xiàn)了基于事件的視頻摘要算法,相比于傳統(tǒng)的視頻監(jiān)控,無需人實(shí)時監(jiān)控,及時收到報警信息和關(guān)鍵幀,事后可以通過生成的摘要視頻快速瀏覽查看,極大程度上緩解了觀看海量視頻的壓力。
[1]陳炳煌,楊冰冰.車載無線視頻監(jiān)控系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[J].長春理工大學(xué)學(xué)報:自然科學(xué)版,2011,34(2):128-130.
[2]Truong B T,Venkatesh S.Video abstraction:A systematic review and classification[J].ACM Transactions on Multimedia Computing,Communications,and Applications(TOMM),2007,3(1):3.
[3]Rav-Acha A,Pritch Y,Peleg S.Making a long videoshort:Dynamicvideosynopsis[C].Computer Vision and Pattern Recognition,2006 IEEE Computer Society Conference on.IEEE,2006(1):435-441.
[4]BouwmansT,PorikliF,VacavantA.Background Modeling and Foreground Detection for Video Surveillance[M].CRC Press,2014.
[5]Sobral A,Vacavant A.A comprehensive review of backgroundsubtractionalgorithmsevaluatedwith synthetic and real videos[J].Computer Vision and Image Understanding,2014,122:4-21.
[6]Barnich O,Van Droogenbroeck M.ViBe:a powerful random technique to estimate the background in videosequences[C].Acoustics,SpeechandSignal Processing,2009.ICASSP 2009.IEEE International Conference on.IEEE,2009:945-948.
[7]Hofmann M,Tiefenbacher P,Rigoll G.Background segmentation with feedback:The pixel-based adaptivesegmenter[C].ComputerVisionandPattern RecognitionWorkshops(CVPRW),2012IEEE Computer Society Conference on.IEEE,2012:38-43.
[8]余燁,曹明偉.EVibe:一種改進(jìn)的Vibe運(yùn)動目標(biāo)檢測算法[J].儀器儀表學(xué)報,2014,35(4):924-931.
Embedded Video Abstraction and
Design of Intelligent Video Surveillance System
LIU Shengnan,WANG Gongyan,LI Jing,LI Xinlei,F(xiàn)ANG Ming
(School of Computer Science and Technology,Changchun University of Science and Technology,Changchun 130022)
Compared with traditional PC-based image processing system,ARM-based embedded image processing system has the advantages of small size,low power consumption and low cost,this paper has implemented a video abstraction algorithm based on the Tiny4412 friendly demo board.The algorithm extracts foreground of image by Vibe algorithm and creates an event by distinguishing start and end key frames,then connects the created events to construct video abstraction.Compared with original video,the abstracted video only contains valid events,solving the problem of massive video redundancy,which saves storage space and helps users to browse quickly afterwards.Meanwhile,the key frames are transmitted to the user via e-mail,achieving an alarm-in-time function.The result shows this system can realize the intelligent monitoring effectively,which is the beginning of marketization.
video abstraction;video surveillance;ARM;embedded system
TP391
A
1672-9870(2017)01-0119-04
2016-05-05
吉林省大學(xué)生創(chuàng)新創(chuàng)業(yè)訓(xùn)練計(jì)劃項(xiàng)目;吉林省科技發(fā)展計(jì)劃項(xiàng)目(20140204047GX)
劉勝楠(1996-),女,本科,E-mail:1046506255@qq.com
方明(1977-),男,博士,副教授,E-mail:fangming@cust.edu.cn