賈宇為,王漢軍
1(中國科學院大學,北京 100049)
2(中國科學院 沈陽計算技術研究所,沈陽 110168)
隨著電力信息化的快速發(fā)展,視頻監(jiān)控系統(tǒng)也在飛速發(fā)展.視頻監(jiān)控系統(tǒng)在實際應用中具有信息量大、實時性強、工作方式被動、易與其他技術相結合的特點,因此視頻監(jiān)控系統(tǒng)被廣泛的應用于安防領域,是安防中不可或缺的一部分.而且隨著視頻監(jiān)控系統(tǒng)的不斷發(fā)展,視頻監(jiān)控系統(tǒng)在人們的生活中也越來越普及,被廣泛的應用到生活中的各個方面.早期,視頻監(jiān)控系統(tǒng)主要用于安防問題,可以有效的對對監(jiān)控場所設施保護,保護公眾的財產(chǎn)安全.近幾年,由于在電力生產(chǎn)過程中,由于人為操作不當或者是客觀存在的因素,總是有可能發(fā)生各種潛在的危險.因此,通過智能視頻監(jiān)控系統(tǒng)監(jiān)測工作人員是否安全操作設備對于工作人員的安全以及國家的財產(chǎn)安全保護就變得日益迫切和重要[1].
目前對于視頻處理的方法中常用的有3 種方法,分別是幀間差分法、光流法和背景差分法.幀間差分法是通過相連幀圖像之間的一些不同來對視頻進行分析從而將運動目標提取出來,對動態(tài)變化的情形有一定的能力可以相適合,但是需要通過不斷的調(diào)整找到合理的選擇,否則會對最終的檢測效果造成影響.光流法一種通過對比圖像中運動目標的亮度的不同,從而得出結果的一種檢測方法,該方法在監(jiān)控攝像頭移動的情況下也可以對運動目標進行監(jiān)測,而且它在不知道監(jiān)控場景的一些相關情況的基礎上也可以進行監(jiān)測,但是該算法的實時能力還有待提高,而且計算量比較大,在一些要求實時監(jiān)控的場景下光流法有一定的局限性[2,3].背景差分法是先找到圖像中的背景圖像,然后用各幀圖像與背景圖像做對比,找到各幀圖像于背景圖像之間的不同,從而可以突出圖像中的運動目標,它具有實現(xiàn)簡單且處理速率高的優(yōu)點,但是視頻中太陽光照以及一些環(huán)境的變化因素對于結果會有一些影響,比如說在視頻中有些對目標遮住的物體以及由于時間的不同引起光線的變化對最終監(jiān)測的結果有一定的影響[4,5].特別是在視頻背景不斷變化的情況下即攝像頭是在移動的情況下,背景差分法監(jiān)測的結果可能會出現(xiàn)不準確甚至會有一些假的運動目標出現(xiàn).
本文針對電網(wǎng)視頻監(jiān)控,在攝像機靜止情況下,對監(jiān)控畫面中工作人員的行為進行檢測研究,提出了一種幀間差分法與混合高斯模型相結合的運動目標檢測方法,該方法對于降低幀間差分法算法中的“雙影”現(xiàn)象有一定的效果,實現(xiàn)了運動目標檢測的及時性、可靠性以及有效性.
對于視頻中人物的行為監(jiān)測,要求精度較高,我在實驗中選擇的方法是幀間差分法,其基本原理圖如圖1.它是利用當前幀和上一幀之間的差異和相關性,對視頻中的相鄰幀做差分運算,再將差分運算得到的結果做二值化處理,最終提取出運動目標區(qū)域,具體流程如下[6].
圖1 幀間差分法基本原理圖
在視頻圖像序列中用Fm(x,y)表示視頻中的第m幀圖像,用Fm?1(x,y)表示視頻中的第m?1 幀圖像,Dm(x,y)是兩幀圖像經(jīng)過差分運算得到的差分圖像,公式如下:
Bm(x,y)是Dm(x,y)進行闕值化后的二值化圖像,闕值大小為T.當差分圖像Dm(x,y)中的像素點的灰度值大于闕值T時,就認為該像素點是運動目標,相反,如果灰度值小于闕值T,則認為該像素點是背景圖像,具體公式如下:
幀間差分法的算法是比較簡單的,它不需要對背景的更新進行考慮,而且?guī)g差分法在對目標進行監(jiān)測的時候可以做到實時監(jiān)測,但是幀間差分法中闕值化后的闕值大小是一個比較重要的值,它受到各種因素的影響,比如運動目標的移動速度等.往往在運動區(qū)域內(nèi)存在大范圍的空洞或在運動區(qū)域內(nèi)有部分背景被包含的情況,從而在最終結果中出現(xiàn)預期效果于檢測的效果不符或者有較大的差異.因此,在實驗過程中對幀間差分法做了適當?shù)母倪M,在實驗過程中將幀間差分法與改進的混合高斯模型相結合,從而提高算法的準確性,對算法進行改進[7].
混合高斯模型與單高斯模型不同,混合高斯模型是通過用k個高斯模型來將圖像表現(xiàn)成一種線性的組合,并且通過這種線性的組合來表現(xiàn)出圖像中的每個像素點的特征,而且單個的像素也是不斷變化的,它通過權值來反映出它在在整體變化中的表現(xiàn).在取得新的圖像幀后,利用混合高斯模型對這幀圖像進行更新,并用新的圖像中的像素值與混合高斯模型進行匹配,如果成功匹配的話則將其判定為背景點,否則就將其判定為前景點[8].
采用k個高斯分布對圖像中的某個像素點建模.在t時刻內(nèi),坐標(x,y)的灰度值取值集合見式(3).
其中,Xi(x,y)表示i在1~t時刻中第i幀的圖像上該坐標點的灰度值.那么在該時刻點就可以用k個高斯分布來描述(x,y)的概率密度函數(shù).
將k個高斯分布線性加成組成一個高斯混合模型ρ,如圖2所示.
圖2 混合高斯模型結構示意圖
其中,
在式(4)和式(5)中,k表示混合高斯模型是由k個高斯分布所組成的,通常取3~5,并且=1;X表示當前幀像素的灰度值,φi,t表示第i個高斯分布在t時刻時候的權重,ρi(X,μi,t,Σi,t)為混合高斯模型中的第i個模型在t時刻的概率密度函數(shù),表達式見式(4).μi,t是第i個高斯分布在t時刻的均值向量,Σi,t是第i個高斯分布在t時刻的協(xié)方差矩陣[9].|Σi,t|是Σi,t協(xié)方差矩陣的行列式,并且有:Σi,t=E{(X?μi,t)(X?μi,t)T}.
對于每一個新的像素Xi,都會根據(jù)現(xiàn)有的k個高斯模型對新的像素進行檢查,直到找到匹配的高斯模型.當像素點在高斯分布的2.5 個標準差范圍內(nèi),那么就說明該高斯模型是像素點的匹配模型,并確定該像素點為背景點;否者說明高斯模型于該像素點不匹配,那么該像素點像就被定為前景點.若匹配,則按式(6)對高斯分布函數(shù)的參數(shù) α,β進行更新;若不匹配,則只更新權值φi[10].
在式(6)中,α表示的是學習率,一般取0.001、0.001、0.01 等,取值不能過大,也不能過小;當模型匹配時R=1,否則R=0;是參數(shù)學習率.由第一個公式可以看出 α取值的大小對 β有著影響,α取值越大,β值就會越小,最終結果的魯棒性就會越差;反之,α取值越小,β值就會越大,最終結果的魯棒性就會越好,但是噪聲也就增多.將k個高斯分布按照 φi,tσi,t值進行降序排序,背景模型用前δ 個分布進行表示:
其中,T是由背景復雜度確定的闕值.
在傳統(tǒng)的混合高斯模型中,我們是對整張圖像進行分析,判斷視頻幀中區(qū)域哪塊屬于背景區(qū)域,哪塊屬于前景區(qū)域,在本文的改進方法中,首先對視頻幀中內(nèi)容進行區(qū)域劃分,對于已經(jīng)確定是背景區(qū)域的部分,將其背景區(qū)域的概率設置為1,也就是說該區(qū)域完全屬于背景;同理對于確定為前景區(qū)域的部分,將其前景區(qū)域的概率設置為1,對于部分屬于背景,部分屬于前景的區(qū)域,則建立混合高斯模型對其進行分析,對區(qū)域內(nèi)的像素點進行判斷.如圖3所示.
如圖3所示,我們可以看到,部分像素點屬于背景,部分像素點屬于前景,計算出每個像素點前景、背景的概率,在根據(jù)混合高斯模型對其進行判斷屬于前景模型,還是背景模型.
在傳統(tǒng)的混合高斯模型中,由于視頻圖像背景是在不斷變化的,這時,高斯模型的學習率 α對于對于背景的更新有較大的影響,因此,α如果始終是恒定的值,那么對于實驗結果最終的準確性會有較大的影響,本文中對 α的取值采用不同的取值方法[11].通過設置一個幀數(shù)闕值T0,對前T0幀的圖像采用較高的學習率,而對于T0幀以后的幀數(shù)采用學習率較低的方法進行更新:
可以由式(8)可見:其中T0表示的幀數(shù)闕值,f表示當前視頻的幀數(shù),在圖像幀開始的時候即在前T0幀采用的學習率是比較大的,隨著幀數(shù)的增加,α的值逐漸減小,最后趨于穩(wěn)定,這樣就使得模型對于背景的適應能力較強,抗干擾性也提高了,同時對于環(huán)境噪聲也由一定的適應能力和抗干擾能力.
圖3 背景前景判斷圖
對于T0的選擇,在本文中采用神經(jīng)網(wǎng)絡前中前向傳播的方法進行確定的,如圖4所示,其中X1~Xk為混合高斯模型的k個高斯函數(shù),經(jīng)過實驗發(fā)現(xiàn)神經(jīng)網(wǎng)絡的層數(shù)為3 時由較高的準確度,而且處理速度較塊,整個模型為從左向右傳播,對高斯函數(shù)進行迭代,迭代次數(shù)為3,根據(jù)式(9)最終確定T0的值[12].
本文的算法如圖5所示,首先將傳輸?shù)倪\動視頻采用幀間差分法將視頻幀內(nèi)的背景區(qū)域和前景區(qū)域區(qū)分開,然后對背景區(qū)域和前景區(qū)域采用不同的學習率進行處理,及采用較大的學習率的混合高斯模型處理前景區(qū)域,采用較小學習率的混合高斯模型處理背景模型.最后將運動目標區(qū)域提取出來.
圖4 改進方法圖
圖5 整體算法流程圖
本文視頻數(shù)據(jù)來自東北電力公司的監(jiān)控視頻.根據(jù)將幀間差分法和改進的混合高斯模型結合的檢測算法,本文中選擇了具有代表性的連續(xù)多幀圖像來進行研究和實驗.在對視頻幀處理的時候,本文選擇了視頻的第255 幀圖像進行處理.模型訓練過程中,學習率不是不變的,隨著時間的推移學習率 α不斷減小,最終 α穩(wěn)定在0.001.如圖6和圖7.
如圖6所示工作人員在室內(nèi)對設備進行檢測,圖7分別是采用混合高斯模型和改進過的混合高斯模型進行處理的結果圖如圖可以看到兩種方法都檢測出了前景目標,但是采用改進的混合高斯模型處理運動目標的得到的結果更加清晰而且在圖7中采用改進的混合高斯模型處理后,可以明顯的看出對運動目標的輪廓等各方面都有了明顯的提高.
圖6 室內(nèi)檢測運動目標原圖
圖7 室內(nèi)運動目標檢測圖
如圖8和圖9所示,其中圖8是用幀間差分法處理視頻幀后得到的目標結果,圖9是使用幀間差分法和混合高斯模型相結合的方法處理后得到的目標結果.可以發(fā)現(xiàn),由于目標人物在視頻中運動范圍比較小,而且目標與別的人物會有重疊的現(xiàn)象,因此在圖8中人物模型不夠完整,目標輪廓出現(xiàn)了“空洞”的現(xiàn)象,而圖9中的人物目標相對比較完整,在本文的算法中,通過對目標進行混合高斯模型訓練后,可以極大的降低目標與背景人物重疊的影響,提高算法的準確度.
圖8 改進前算法檢測結果
圖9 改進后算法檢測結
兩種算法的實驗結果對比如表1.
表1 各類算法測試結果對比
本文視頻數(shù)據(jù)來自東北電力公司的監(jiān)控視頻.根據(jù)將幀間差分法和改進的混合高斯模型結合的檢測算法,本文中選擇了具有代表性的連續(xù)多幀圖像來進行研究和實驗.
實驗結果如圖8和圖9所示.其中,圖8為幀間差分法得到的目標結果;圖9為在幀間差分法基礎上采用本文提出的改進高斯混合模型進行背景更新后的結果.可以看出由幀間差分法的到目標結果會有“空洞”現(xiàn)象,這是由于目標物體在兩幀之間運動幅度較小,而且由較大的重疊區(qū)域,而用本文提出的改進混合高斯模型對背景進行更新后,目標被較為完整的檢測出,而且“空洞”現(xiàn)象明顯降低.相比于之前的算法有更好的準確性和實用性.
本文提出了一種幀間差分法和改進的混合高斯模型相結合的檢測方法,改進單一使用其中一種算法的不足,而且相比于傳統(tǒng)的混合高斯模型,在檢測結果上也有一定的提高,提高了對目標檢測的準確性.
然而,本文算法還存在一定局限性,當在干擾過多的情況下,比如在惡劣的環(huán)境或者是當背景比較復雜時,不能較好地提取運動目標,下一步將對此加以改進優(yōu)化,在后續(xù)研究中對背景更新需要不斷改進,建立高度準確的背景模型,可以更加完整的檢測出運動目標.在后續(xù)的研究中還需要在算法中加入自適應學習的過程,從而滿足實際應用的需求.