[楊建仁 馬曉亮]
近年來(lái),我國(guó)整體經(jīng)濟(jì)實(shí)力顯著增強(qiáng),但社會(huì)治安狀況也日趨復(fù)雜,公共安全問(wèn)題不斷凸現(xiàn),巨大的需求促進(jìn)了安防行業(yè)的迅猛發(fā)展,目前視頻監(jiān)控已廣泛應(yīng)用于公安、金融、交通等各個(gè)行業(yè)和領(lǐng)域中。當(dāng)前監(jiān)控視頻技術(shù)不斷升級(jí),視頻碼率的大幅增加,如何傳輸和存儲(chǔ)高清視頻成為一個(gè)重要技術(shù)難題。
感興趣區(qū)域(Region Of Interest,ROI)編碼是解決這種挑戰(zhàn)的最早嘗試。在帶寬受限的視頻通信領(lǐng)域中,ROI 編碼將有限的比特?cái)?shù)資源優(yōu)先分配給用戶感興趣的目標(biāo)區(qū)域,從而可以改善解碼圖像的主觀視覺(jué)質(zhì)量,如毋立芳等人[1]結(jié)合整型小波變換(Integar Wavelet Transform,IWT)和嵌入式零樹(shù)編碼實(shí)現(xiàn)了無(wú)損ROI 的圖像近無(wú)損壓縮,與此同時(shí),又設(shè)計(jì)了一種小波變換域形狀編碼算法——樹(shù)映射形狀編碼,實(shí)現(xiàn)對(duì)ROI 形狀的高效描述,該形狀編碼方法的編碼效率取決于ROI 的大小以及對(duì)非ROI 區(qū)域的質(zhì)量要求。相對(duì)于單幀的靜止圖像,視頻序列由一系列圖像幀構(gòu)成,需要處理的數(shù)據(jù)量更大,所以需要算法具有更低的復(fù)雜度,以滿足實(shí)時(shí)性要求,Mei-Juan Chen 等[2]提出通過(guò)提取視頻幀中的顏色信息,將具有膚色的區(qū)域作為ROI,然后運(yùn)用低通濾波處理圖像背景區(qū)域,減少背景區(qū)域待編碼數(shù)據(jù)量,在編碼過(guò)程中,通過(guò)調(diào)節(jié)宏塊層碼率控制中的失真權(quán)重參數(shù)調(diào)整不同區(qū)域的圖像質(zhì)量??紤]到視頻圖像內(nèi)容的豐富多彩、變化多端,對(duì)感興趣區(qū)域的實(shí)時(shí)準(zhǔn)確分割在目前的技術(shù)條件下仍然是一項(xiàng)艱巨的任務(wù),阻礙了該感興趣區(qū)域編碼的深入發(fā)展和廣泛應(yīng)用。
在監(jiān)控應(yīng)用中的視頻存在一些特點(diǎn):第一、視頻背景不變,通過(guò)目前成熟的目標(biāo)檢測(cè)和分割方法可以準(zhǔn)確提取出前景和背景;第二,監(jiān)控應(yīng)用的攝像機(jī)一般質(zhì)量較差,再加上監(jiān)控場(chǎng)景環(huán)境的變化,視頻圖像中噪聲較大,這些噪聲嚴(yán)重影響了編碼效率。因此,本文提出了一種面向監(jiān)控應(yīng)用的低復(fù)雜度高效視頻編碼方法,針對(duì)監(jiān)控應(yīng)用中視頻背景內(nèi)容固定的特點(diǎn),采用背景檢測(cè)模塊,提取出視頻圖像的前景和背景區(qū)域,分別對(duì)前景區(qū)域和背景區(qū)域采用不同的量化參數(shù),完成差異性編碼。試驗(yàn)結(jié)果表明,該編碼方法針對(duì)監(jiān)控視頻,在保證目標(biāo)圖像區(qū)域質(zhì)量的前提下,能夠節(jié)省碼率達(dá)到30%以上。
目前已經(jīng)廣泛應(yīng)用的運(yùn)動(dòng)目標(biāo)檢測(cè)與分割方法主要有:背景差分法,幀間差分法,基于統(tǒng)計(jì)模型的方法,光流法[3]。幀間差分法對(duì)場(chǎng)景光線的變化不敏感,當(dāng)目標(biāo)物表面大塊區(qū)域灰度均勻時(shí)將會(huì)出現(xiàn)“孔洞”而使目標(biāo)分割成多個(gè)區(qū)域;背景差分法是將當(dāng)前視頻幀與背景圖像的差分來(lái)檢測(cè)運(yùn)動(dòng)區(qū)域的算法,它能夠提供最完整的運(yùn)動(dòng)目標(biāo)信息,而且速度快,算法簡(jiǎn)單,檢測(cè)準(zhǔn)確。能滿足系統(tǒng)實(shí)時(shí)性要求。但是對(duì)動(dòng)態(tài)場(chǎng)景如光線、噪聲等的變化卻比較敏感,因此需要對(duì)背景做不斷地更新?;诮y(tǒng)計(jì)模型的方法,雖然能夠較好的提取出幀序列中的背景并分割出運(yùn)動(dòng)物體,但是這種方法需要人們事先假定背景特征密度場(chǎng)分布。光流法采用了運(yùn)動(dòng)目標(biāo)隨時(shí)間變化的光流場(chǎng)物理特性,從而有效地提取出運(yùn)動(dòng)目標(biāo)。其優(yōu)點(diǎn)是在攝像機(jī)運(yùn)動(dòng)的條件下也能有效地分割出獨(dú)立的運(yùn)動(dòng)目標(biāo)。其缺點(diǎn)是計(jì)算特別復(fù)雜,計(jì)算量大而難以滿足實(shí)時(shí)性要求。
本文提出的視頻編碼方法有四大步驟,分為背景檢測(cè)、圖像掩膜處理、宏塊級(jí)掩膜生成、差異性編碼,流程如圖1 所示。
圖1 本文所提出的編碼方法流程圖
在本實(shí)施方式中采用基于統(tǒng)計(jì)模型的方法進(jìn)行背景檢測(cè)。背景模型的思想是對(duì)圖像中每個(gè)像素的顏色值(灰度或彩色)進(jìn)行建模。如果當(dāng)前圖像坐標(biāo)(x,y)上的像素顏色值與背景模型中(x,y)上的像素顏色值有較大差異時(shí),當(dāng)前像素被認(rèn)為是前景,否則為背景。高斯混合模型(Gaussian Mixture Model)通過(guò)多個(gè)高斯概率密度函數(shù)的加權(quán)平均來(lái)平滑地近似任意形狀的密度分布函數(shù),用該模型對(duì)背景進(jìn)行建模時(shí),對(duì)圖像中每一個(gè)像素位置分別建立高斯混合模型。以坐標(biāo)為(x,y)的像素位置的混合高斯模型為例,令I(lǐng)(x,y,t)表示像素點(diǎn)(x,y)在t時(shí)刻的像素值,則該像素值的概率P(I(x,y,t))為:
其中,K為高斯混合背景模型中高斯分布的個(gè)數(shù),為t時(shí)刻第i個(gè)高斯分量的加權(quán)系數(shù),也即權(quán)重。ni為第i個(gè)高斯分量的高斯函數(shù),分別表示第i個(gè)高斯分量在t時(shí)刻的均值和方差。
對(duì)于一個(gè)像素的K個(gè)高斯分量,根據(jù)的值對(duì)它們從大到小進(jìn)行排列,對(duì)于滿足下式的前B個(gè)高斯分布被當(dāng)作是背景模型:
其中,T是背景模型占有高斯分布的最小比例,通常為0.7,如果T太小退化為單高斯,T較大則可以描述復(fù)雜的動(dòng)態(tài)背景。
對(duì)于當(dāng)前像素(x,y,t),如果它的值I(x,y,t)與它的背景模型中第k(k<=B)個(gè)高斯分布匹配,即I(x,y,t)在范圍之內(nèi),λ 設(shè)置為2.5,那么該像素被認(rèn)為是背景,否則是前景。令輸出圖像為output,公式如下:
在檢測(cè)完前景之后,若該像素被認(rèn)為是前景,即前B個(gè)高斯分布中沒(méi)有一個(gè)與之匹配,則用一個(gè)新的高斯分布取代權(quán)重最小的那個(gè)高斯分布。新的分布的期望值即為當(dāng)前的像素值,同時(shí)為它分配一個(gè)較大的初始偏差和較小的初始權(quán)重值。
若該像素被認(rèn)為是背景,則對(duì)該像素的各個(gè)高斯分布的權(quán)重做如下調(diào)整:
其中,α 為學(xué)習(xí)率,值在0~1 之間。如果第i個(gè)高斯分布與當(dāng)前像素匹配,則,否則對(duì)于與當(dāng)前像素匹配的高斯分布,更新它們的期望值和偏差值:
對(duì)背景檢測(cè)模塊所提取出來(lái)的圖像掩膜處理操作包括圖像腐蝕和圖像膨脹兩部分。圖像腐蝕使用一個(gè)全為1的3x3 矩陣掃描圖像掩膜中的每一個(gè)像素,即矩陣的中心元素與當(dāng)前圖像像素位置對(duì)應(yīng)(如圖2 所示),用該矩陣中的每一個(gè)像素與其覆蓋的圖像像素做邏輯“與”操作,如果運(yùn)算結(jié)果都為1,則該像素為1,否則為0;圖像膨脹使用一個(gè)全為1 的3x3 矩陣掃描圖像掩膜中的每一個(gè)像素,即矩陣的中心元素與當(dāng)前圖像像素位置對(duì)應(yīng)(如圖2所示),用該矩陣中的每一個(gè)像素與其覆蓋的圖像像素做邏輯“與”操作,如果運(yùn)算結(jié)果都為0,則該像素為0,否則為1。
圖2 圖像腐蝕矩陣示意圖感興趣區(qū)域宏塊級(jí)掩膜生成
假設(shè)經(jīng)過(guò)圖像腐蝕和圖像膨脹操作后的圖像掩膜結(jié)果為二進(jìn)制掩膜output(x,y),其中(x,y)為像素坐標(biāo),如果output(x,y)為1,則表示像素坐標(biāo)為(x,y)的像素為感興趣區(qū)域,否則,則為背景區(qū)域(即非感興趣區(qū)域)??紤]到視頻編碼均是以宏塊(16x16)為基本單位,采用如下方式生成宏塊級(jí)的圖像掩膜:
對(duì)于坐標(biāo)位置為(i,j)的宏塊級(jí)圖像掩膜的值通過(guò)以下步驟確定:
第一,從圖像掩膜output中提取上角坐標(biāo)為(16*i,16*j),右下角坐標(biāo)為(16*(i+1)-1,16*(j+1)-1)的圖像區(qū)域Mb;
第二,統(tǒng)計(jì)Mb 中像素值為1 的像素個(gè)數(shù)Num;
第三,確定坐標(biāo)位置為(i,j)的宏塊級(jí)圖像掩膜的值。如果Num大于3,則宏塊級(jí)掩膜位置為(i,j)的元素值mask(i,j)為1,否則,為0。其中,mask標(biāo)識(shí)宏塊級(jí)的圖像掩膜。
如果當(dāng)前幀為I 幀,則不進(jìn)行感興趣區(qū)域與背景區(qū)域的差異性編碼;如果當(dāng)前幀不是I 幀,則進(jìn)行感興趣區(qū)域與背景區(qū)域差異性編碼。假設(shè)當(dāng)前幀為的量化參數(shù)為,則坐標(biāo)位置為(i,j)的宏塊的量化參數(shù)為:
如圖3,對(duì)如圖3(a)所示的原始視頻圖像分別進(jìn)行H.264 編碼和使用本文所描述的編碼方法進(jìn)行編碼,視頻的量化參數(shù)為30,編碼幀數(shù)為300幀,沒(méi)有B幀,使用H.264編碼后的碼流碼率為419.99 kb/s,如圖3(c)所示,而是用本文進(jìn)行編碼后的碼流碼率為197.66 kb/s,如圖3(d)所示。除此之外,本文編碼后的碼流依然還是標(biāo)準(zhǔn)碼流,不會(huì)造成碼流結(jié)構(gòu)的破壞。
圖3 本文提出的編碼方法與其它編碼方法比較
本文提出這種面向監(jiān)控應(yīng)用的低復(fù)雜度高效視頻編碼方法,針對(duì)監(jiān)控應(yīng)用中視頻背景內(nèi)容固定的特點(diǎn),采用背景檢測(cè)模塊,提取出視頻圖像的前景和背景區(qū)域,分別對(duì)前景區(qū)域和背景區(qū)域采用不同的量化參數(shù),完成差異性編碼。
試驗(yàn)結(jié)果表明,該編碼方法針對(duì)監(jiān)控視頻,在保證目標(biāo)圖像區(qū)域質(zhì)量的前提下,能夠節(jié)省碼率達(dá)到30%以上。