姚 彬,史 萍,葛 菲,謝志揚(yáng)
(中國傳媒大學(xué) 信息工程學(xué)院,北京 100024)
數(shù)字視頻監(jiān)控系統(tǒng)是以數(shù)字視頻處理技術(shù)為核心,綜合利用光電傳感器、計(jì)算機(jī)網(wǎng)絡(luò)、自動(dòng)控制和人工智能等技術(shù)的一種新型監(jiān)控系統(tǒng)。數(shù)字視頻監(jiān)控具有傳統(tǒng)模擬監(jiān)控?zé)o法比擬的優(yōu)點(diǎn)。由數(shù)字視頻監(jiān)控系統(tǒng)生成監(jiān)控視頻多數(shù)是以原始的、未經(jīng)編輯的形式存放在硬盤中,信息量非常大,用戶對(duì)視頻的查找和瀏覽極為不便。
視頻摘要技術(shù)所解決的問題是如何使視頻數(shù)據(jù)能夠被有效表示和快速訪問,利用對(duì)視頻內(nèi)容的分析來減小視頻存儲(chǔ)、分類和索引的代價(jià),提高視頻的使用效率、可用性和可訪問性。因而,如何有效提取監(jiān)控視頻的視頻摘要,縮短視頻長度,節(jié)省用戶的查找和瀏覽時(shí)間,是當(dāng)今需要迫切解決的問題。
監(jiān)控視頻一般是用監(jiān)控設(shè)備所拍攝的,由于拍攝者、拍攝工具、拍攝內(nèi)容和拍攝手段的限制,形成了不同于其他視頻資料的一些顯著特點(diǎn):
1)監(jiān)控視頻沒有明顯的結(jié)構(gòu)特征。監(jiān)控視頻主要記錄了某個(gè)特定空間內(nèi)人物的活動(dòng)情況等,沒有人為設(shè)計(jì)的故事情節(jié)或是特定的結(jié)構(gòu)特征。
2)監(jiān)控視頻一般無鏡頭切換或鏡頭切換不頻繁。監(jiān)控視頻中經(jīng)常發(fā)生的情況是對(duì)于某一個(gè)固定的地方做長時(shí)間的攝錄,鏡頭切換往往發(fā)生在人物的位置變化的時(shí)候。
3)監(jiān)控視頻中含有大量冗余內(nèi)容。監(jiān)視視頻包含了大量沒有經(jīng)過編輯的、原始的視頻信息,可能會(huì)出現(xiàn)一長段時(shí)間內(nèi)都是同一靜止畫面的無用內(nèi)容。
4)監(jiān)控視頻的觀眾是一個(gè)固定的群體。監(jiān)視視頻的觀眾一般僅限于監(jiān)控視頻的管理者,他們對(duì)于視頻摘要的要求更多的是對(duì)某一段時(shí)間內(nèi)監(jiān)視情況的回顧或者是對(duì)某個(gè)特征人物或物體的查找[1]。
根據(jù)監(jiān)控視頻的這些特點(diǎn),筆者將監(jiān)控視頻分為運(yùn)動(dòng)片段和靜止片段。運(yùn)動(dòng)片段包含了人物的活動(dòng)情況,為有用的視頻信息,靜止片段中長段時(shí)間內(nèi)都是同一靜止背景畫面,為無用的視頻信息。本文中監(jiān)控視頻的視頻摘要提取的主要目的是去除視頻中的靜止片段,縮短視頻長度。
對(duì)于視頻內(nèi)容的分析有像素域和壓縮域兩種思路。目前的視頻摘要算法多針對(duì)像素域,如模板匹配法、基于塊的比較、直方圖比較等。在壓縮域?qū)σ曨l進(jìn)行分析可以大大降低計(jì)算復(fù)雜度和處理時(shí)間,提高效率[2]。由于監(jiān)控視頻的數(shù)據(jù)量非常大,處理時(shí)間為主要考慮因素,因而對(duì)視頻的分析在壓縮域進(jìn)行。摘要提取算法如圖1所示。
圖1 監(jiān)控視頻摘要的提取過程
為了將監(jiān)控視頻自動(dòng)地分割為運(yùn)動(dòng)片段和靜止片段,首先需要了解視頻運(yùn)動(dòng)活動(dòng)性的概念。視頻的運(yùn)動(dòng)活動(dòng)性是指視頻序列給用戶視覺上的感知運(yùn)動(dòng)強(qiáng)弱程度。很顯然,監(jiān)控視頻中運(yùn)動(dòng)片段的運(yùn)動(dòng)活動(dòng)性比靜止片段要大很多。文獻(xiàn)[3]以MPEG碼流中宏塊的運(yùn)動(dòng)矢量為基礎(chǔ),檢測每個(gè)P幀中具有較強(qiáng)運(yùn)動(dòng)的塊連接而成的區(qū)域大小,形成不同面積的活動(dòng)區(qū)域的直方圖,以此描述視頻鏡頭的活動(dòng)性。文獻(xiàn)[4]用計(jì)算相鄰兩幀之間塊運(yùn)動(dòng)矢量模的均值和相繼三幀對(duì)應(yīng)塊之間的運(yùn)動(dòng)差矢量模的均值作為活動(dòng)性描述。文獻(xiàn)[5]提出一種基于局部活動(dòng)性直方圖(LAH)描述視頻運(yùn)動(dòng)活動(dòng)性的方法。該方法首先對(duì)視頻進(jìn)行運(yùn)動(dòng)分析得到二維運(yùn)動(dòng)矢量場,然后在此基礎(chǔ)之上形成強(qiáng)度標(biāo)記圖 (STI),并用一個(gè)空間模板掃描STI,得到局部活動(dòng)性直方圖來描述運(yùn)動(dòng)矢量的空間分布,最后結(jié)合運(yùn)動(dòng)矢量的強(qiáng)度信息和LAH形成視頻運(yùn)動(dòng)活動(dòng)性描述子。
筆者引入幀運(yùn)動(dòng)量的概念來描述視頻中一幀圖像的運(yùn)動(dòng)活動(dòng)性。幀運(yùn)動(dòng)量由以下3個(gè)參數(shù)來表征:
塊運(yùn)動(dòng)矢量??偤蜑?/p>
式中:m和n分別為當(dāng)前幀中水平方向和垂直方向塊的個(gè)數(shù),0≤i≤m,0≤j≤n,vi,j(x)為當(dāng)前塊的運(yùn)動(dòng)矢量在水平方向的值,vi,j(y)為當(dāng)前塊的運(yùn)動(dòng)矢量在垂直方向的值,N為運(yùn)動(dòng)矢量模不為0的塊個(gè)數(shù)。
當(dāng)運(yùn)動(dòng)對(duì)象在圖像中占據(jù)的面積較大時(shí),塊運(yùn)動(dòng)矢量??偤偷闹禃?huì)特別大。當(dāng)運(yùn)動(dòng)對(duì)象較小時(shí),塊運(yùn)動(dòng)矢量??偤偷闹挡粫?huì)特別大,但塊運(yùn)動(dòng)矢量模均值仍會(huì)比較大。當(dāng)這兩者的值都不大,但最大塊運(yùn)動(dòng)矢量模較大時(shí),仍可判定該幀的運(yùn)動(dòng)量較大。通過這3個(gè)參數(shù)綜合衡量一幀的運(yùn)動(dòng)活動(dòng)性,可將所有視頻幀分為運(yùn)動(dòng)幀(運(yùn)動(dòng)活動(dòng)性較大的幀)和靜止幀(運(yùn)動(dòng)活動(dòng)性較小的幀)。
由于對(duì)實(shí)時(shí)性的要求,監(jiān)控視頻的編碼一般不采用B幀。運(yùn)動(dòng)片段和靜止片段的分割采用圖2所示的算法。
圖2 監(jiān)控視頻片段分割流程
在目前的視頻監(jiān)控系統(tǒng)中,主流的壓縮格式是MPEG-4,主流分辨力是CIF。本文實(shí)驗(yàn)選取MPEG-4,352×288的視頻格式。實(shí)驗(yàn)結(jié)果如表1和表2所示。表1為原始視頻與摘要視頻的參數(shù)比較,可以看出無論在視頻長度還是在視頻大小上,摘要視頻都比原始視頻小很多,達(dá)到了前文所提到的縮短視頻長度的目的。表2為人工在原始視頻上劃分的運(yùn)動(dòng)片段與視頻摘要中系統(tǒng)自動(dòng)劃分的運(yùn)動(dòng)片段的比較。 00:00:05—00:00:07沒有運(yùn)動(dòng)人物出現(xiàn),但是畫面中存在大量運(yùn)動(dòng)的陰影,因而也被作為運(yùn)動(dòng)片段分割出來;00:09:26—00:09:29,00:09:31—00:09:34兩段運(yùn)動(dòng)片段之間的間隔較短,因而被分割到同一運(yùn)動(dòng)片段;00:16:58—00:17:11,00:19:40—00:20:02運(yùn)動(dòng)人物進(jìn)入鏡頭后交替進(jìn)行運(yùn)動(dòng)和停止兩種狀態(tài),因而被分割為不同的運(yùn)動(dòng)片段;00:14:24—00:14:29,00:24:18—00:24:21,00:25:35—00:25:37,00:28:11—00:28:15,00:28:24—00:28:28,00:29:40—00:29:43 運(yùn)動(dòng)人物在圖像背景中比較靠后的樓梯中出現(xiàn),占整個(gè)畫面比例太小,因而沒有被檢測出來。其他運(yùn)動(dòng)片段均被正確分割出來,起始點(diǎn)都較為精確,由于系統(tǒng)的算法和運(yùn)動(dòng)陰影的影響,結(jié)束點(diǎn)一般比人工劃分的結(jié)束點(diǎn)延后幾秒。
表1 原始視頻與摘要的視頻參數(shù)比較
表2 摘要提取結(jié)果
整體來看,生成的摘要視頻去除了原始視頻中大量靜止的無用信息,保留了主要的運(yùn)動(dòng)信息,滿足了監(jiān)控視頻的摘要需求。
本文采用基于幀運(yùn)動(dòng)量計(jì)算和運(yùn)動(dòng)片段分割的方法來提取監(jiān)控視頻的摘要。實(shí)驗(yàn)結(jié)果表明,該方法具有快速、準(zhǔn)確的特點(diǎn),可應(yīng)用于監(jiān)控視頻的內(nèi)容分析及檢索系統(tǒng)。進(jìn)一步的改進(jìn)工作包括自適應(yīng)選取閾值、優(yōu)化算法提高運(yùn)動(dòng)片段分割的精度,以達(dá)到更好的實(shí)用效果。
[1]張振領(lǐng).基于內(nèi)容的監(jiān)視視頻摘要技術(shù)研究[J].電腦知識(shí)與技術(shù),2008(10):154-156.
[2]張嫘,黃焱.一種壓縮域原始視頻資料的摘要方法[J].廣播電視與技術(shù),2008(1):55-58.
[3]DIVAKARAN A,PEKER K,SUN Huifang.A region based descriptor for spatial distribution of motion activity for compressed video[C]//Proceeding of2000 IEEE InternationalConference ofImage Processing.[S.l.]:IEEE Press,2000:287-290.
[4]許先斌,汪長城,陳勇華.一種基于運(yùn)動(dòng)特征的快速鏡頭邊界檢測方法[J].計(jì)算機(jī)應(yīng)用,2004(12):4-6.
[5]曾煒,高文,袁祿君.一種新的視頻運(yùn)動(dòng)活動(dòng)性的描述與檢索方法[EB/OL].[2009-09-20].http∶//www.jdl.ac.cn/doc/2002/%E4%B8%80%E7%A7%8D%E6%96%B0%E7%9A%84%E8%A7%86%E9%A2%91%E6%B4%BB%E5%8A%A8%E6%80%A7%E6%8F%8F%E8%BF%B0%E4%B8%8E%E6%A3%80%E7%B4%A2%E6%96%B9%E6%B3%95.pdf.