黃 晨,王建軍,高 昕,丁 晟
(1.北京跟蹤與通信技術(shù)研究所,北京100094;2.裝甲兵工程學(xué)院控制工程系,北京100072)
穩(wěn)像技術(shù)指隔離外界對成像系統(tǒng)的擾動,保證圖像信息采集、輸出的完整性、流暢性,其主要分為機(jī)械穩(wěn)像、光學(xué)穩(wěn)像、電子穩(wěn)像。電子穩(wěn)像[1](electronic image stabilization,EIS)技術(shù)利用數(shù)字圖像處理方法確定圖像序列的偏移并進(jìn)行補(bǔ)償。與傳統(tǒng)的穩(wěn)像方法相比,具有高精度、小體積、易操作等優(yōu)點(diǎn),目前廣泛應(yīng)用于機(jī)器人遙控系統(tǒng)、無人車輛導(dǎo)航系統(tǒng)、視頻偵察系統(tǒng)等。隨著電子信息技術(shù)的發(fā)展,利用電子穩(wěn)像技術(shù)實(shí)現(xiàn)視頻圖像序列的穩(wěn)定成為現(xiàn)代穩(wěn)像技術(shù)的主要發(fā)展方向。
電子穩(wěn)像系統(tǒng)一般包括三個主要過程,即運(yùn)動估計(jì)、運(yùn)動濾波和運(yùn)動補(bǔ)償,對應(yīng)的關(guān)鍵技術(shù)為全局運(yùn)動估計(jì)、運(yùn)動矢量濾波、運(yùn)動補(bǔ)償校正,系統(tǒng)框圖如圖1所示。
圖1 電子穩(wěn)像系統(tǒng)框圖
電子穩(wěn)像算法的目的是消除視頻中圖像全局運(yùn)動的隨即抖動,并同時保留攝像機(jī)的有意運(yùn)動,如水平、垂直方向的掃動。對于經(jīng)過電子穩(wěn)像處理后輸出的穩(wěn)定視頻序列的評價(jià),即對穩(wěn)像算法效果的評價(jià)是一個重要的環(huán)節(jié),客觀統(tǒng)一標(biāo)準(zhǔn)的穩(wěn)像質(zhì)量評價(jià)將有利于穩(wěn)像算法的改進(jìn),促進(jìn)該項(xiàng)技術(shù)的發(fā)展。但是由于視頻不同的運(yùn)動場景、運(yùn)動方式及視頻圖像特征和其他客觀環(huán)境因素的影響,使得目前穩(wěn)像圖像序列的評價(jià)無法有一個統(tǒng)一的標(biāo)準(zhǔn)。對現(xiàn)有的穩(wěn)像圖像質(zhì)量評價(jià)方法進(jìn)行介紹與分析,對靜態(tài)背景和具有掃描運(yùn)動或含有運(yùn)動物體的圖像序列的場景使用不同的評價(jià)方法。電子穩(wěn)像是一個視覺尋優(yōu)的過程,對抖動圖像進(jìn)行穩(wěn)像處理,目的是為了保證視頻序列的穩(wěn)定性和人眼觀察的流暢性,穩(wěn)像質(zhì)量的評價(jià)應(yīng)考慮客觀對抖動的濾除和人眼主觀觀測的特點(diǎn)。所列舉的方法亦對數(shù)字圖像質(zhì)量評價(jià)有所參考。
主觀評價(jià)是最為直接的穩(wěn)像評價(jià)方法。以個人作為觀察者對某一抖動的視頻序列,對其穩(wěn)像前和穩(wěn)像后的效果及圖像序列品質(zhì)進(jìn)行評定。選取的觀察者人數(shù)越多,統(tǒng)計(jì)樣本越多,其統(tǒng)計(jì)結(jié)果就越能反映穩(wěn)像效果。但此方法存在的不足在于評價(jià)過程繁瑣,耗時長,人力成本高。個體觀察者在進(jìn)行評價(jià)時,由于受到周圍環(huán)境、文化背景、個體差異等影響,人眼對同一圖像序列中的不同區(qū)域有不同的興趣程度,即人眼視覺特性中的視覺注意特性,使得個體的評價(jià)往往帶有較強(qiáng)的主觀性。
均方差(MSE)是兩幀圖像間相對應(yīng)像素灰度的偏差值。它反映了圖像序列變化的快慢和變化量的大小,其定義如下:
式中,n,m分別表示參考圖像幀和當(dāng)前幀的像素;I1(i,j)和I0(i,j)分別表示圖像序列補(bǔ)償后的當(dāng)前幀和參考幀在(i,j)點(diǎn)處像素的灰度值。對于進(jìn)行穩(wěn)像后的相鄰兩幅圖像,MSE(I1,I0)值越小,說明兩幅圖像重合度越高。MSE(I1,I0)=0時,則表明兩幅圖像完全重合,但在實(shí)際應(yīng)用中由于噪聲、運(yùn)動估計(jì)誤差、光照變化影響等原因,MSE值為0的情況不會出現(xiàn)。
基于均方差的原理,提出差分圖方法,指利用相鄰兩幀的灰度圖像進(jìn)行差分相減,得到差分圖。對于背景靜止的抖動視頻,若相鄰幀的抖動被完全補(bǔ)償時,差分圖的灰度值為0。同峰值信噪比一樣,在穩(wěn)像過程總存在其他影響因素,使得差分圖的灰度值不為0。穩(wěn)像后的相鄰幀進(jìn)行差分處理,差分圖上殘留的灰度值越小則表明穩(wěn)像補(bǔ)償越完全,穩(wěn)像效果越好?;诓罘謭D的原理,文獻(xiàn)[3]提出一種方法:對待處理的視頻進(jìn)行穩(wěn)定處理之后得到的視頻稱為回答視頻,觀察回答視頻每一幀和正解視頻中相應(yīng)幀的差別,用正解幀以幀單位對回答幀進(jìn)行合格與否的判定,求出矯正率,如果這一視頻的矯正率達(dá)到90%,則這一待處理視頻被此穩(wěn)定算法成功的穩(wěn)定。矯正率的計(jì)算方法為:
矯正率=評價(jià)的視頻序列的合格幀數(shù)/評價(jià)的視頻序列的全幀數(shù)。
合格幀(OK):在正解幀和回答幀的差分圖像中沒有出現(xiàn)邊緣寬度超過3像素的對象。
不合格幀(NG):有上述邊緣對象的幀。
OK數(shù)+NG數(shù)=評價(jià)的動畫的全幀數(shù)。其中,以正解幀和回答幀的同一像素位置對等的亮度和兩個色度值Y,Cb,Cr歐幾里得距離差為32以上的像素為邊緣。邊緣寬度在3像素以下為合格。該評價(jià)方法只適合于靜態(tài)背景下穩(wěn)像效果評價(jià)。
峰值 信 噪 比[4](peak signal to noise ratio,PSNR),反映的是參考圖像和當(dāng)前圖像之間的峰值信噪比,目前廣泛應(yīng)用在衡量圖像質(zhì)量。此方法本質(zhì)上與均方差(MSE)方法相同,其定義為:
根據(jù)公式,對于灰度圖像其灰度最大值為255,幀間的PSNR值越大代表圖像的灰度差別越小,穩(wěn)像的效果也越好。PSNR對于靜態(tài)背景有很好的效果評價(jià),但對于具有掃描運(yùn)動或含有運(yùn)動物體的圖像序列,即使完全補(bǔ)償圖像的晃動量,穩(wěn)像后圖像仍不能重合,因此無法采用PSNR方法進(jìn)行評價(jià)。此外PSNR方法未考慮到人眼的視覺特性,因?yàn)槿搜鄣囊曈X對于誤差的敏感度并不是絕對的,其感知結(jié)果會受到許多因素的影響而產(chǎn)生變化,如人眼對空間頻率較低的對比差異敏感度比較高,對亮度對比差異的敏感度較高等。這些人眼視覺特性使得采用PSRN的評價(jià)無法和人眼看到、感知的視覺品質(zhì)完全一致,可能出現(xiàn)在評價(jià)時PSNR較高的穩(wěn)像圖像較PSNR較低的視覺感受差。
幀間變換保真度(inter-frame transformation fi-delity,ITF)是基于峰值信噪比PSNR計(jì)算獲得的,其定義如下式:
文獻(xiàn)[5]根據(jù)ITF對穩(wěn)像結(jié)構(gòu)進(jìn)行客觀評估,實(shí)驗(yàn)結(jié)果表明適合于靜態(tài)背景下的穩(wěn)像評價(jià)。
針對背景運(yùn)動的情況下,考慮連續(xù)幀間變化的差異來衡量穩(wěn)像的結(jié)果,基于幀間變換保真度(ITF)原理,文獻(xiàn)[5]提出使用幀間變換保真度差異(difference of inter-frame transformation fidelity,DITF)來對背景運(yùn)動下穩(wěn)像結(jié)果進(jìn)行評估,其定義如下:
其中,It為參考幀;It-1,It+1分別為 It前一幀和后一幀。根據(jù)式(4),若視頻中攝像機(jī)運(yùn)動越平滑,連續(xù)的幀間變化越小,DITF值應(yīng)該越小,由此考察穩(wěn)像算法對攝像機(jī)運(yùn)動中所含抖動量的濾除和平滑效果,但對于含有變焦、目標(biāo)尺度變化的場景并不適用。
Wang[6]等人認(rèn)為人眼視覺系統(tǒng)的主要功能是提取視場中的結(jié)構(gòu)信息,而基于結(jié)構(gòu)失真的視頻質(zhì)量評價(jià)法-結(jié)構(gòu)相似(SSIM)法,該方法對兩幅圖像的亮度、對比度和相似度進(jìn)行比較,其公式定義為:
式中,i,j分別代表原始圖像和失真圖像;μ是圖像的均值;σ 是標(biāo)準(zhǔn)差;C1,C2,C3是常數(shù),SSIM 使得測量結(jié)構(gòu)信息的改變與感知圖像質(zhì)量的變化非常接近,與主觀評價(jià)有較好的相關(guān)性。此后,很多學(xué)者對其進(jìn)行不同的改進(jìn),以適應(yīng)不同的領(lǐng)域。文獻(xiàn)[7]提出了基于灰度投影結(jié)構(gòu)相似性(GPASSIM)的電子穩(wěn)像質(zhì)量評價(jià)方法。GPASSIM評價(jià)的具體計(jì)算步驟如下:
(1)將參考幀與當(dāng)前幀的圖像分成不重疊的若干子塊,計(jì)算每個子塊的行、列灰度投影值,a和b分別表示參考幀和當(dāng)前幀中對應(yīng)的子塊。計(jì)算得到參考幀和當(dāng)前幀子塊的行、列灰度投影的均值μa1,μb1,μa2,μb2和標(biāo)準(zhǔn)方差 σa1,σb1,σa2,σb2;同時計(jì)算出參考幀和當(dāng)前幀子塊的灰度投影協(xié)方差σab1,σab2。
(2)根據(jù)公式(9)~式(11),分別計(jì)算子塊內(nèi)行、列兩個方向的亮度、對比度和結(jié)構(gòu)的比較函數(shù),其比較函數(shù)可表示為:亮度比較函數(shù):
對比度比較函數(shù):
結(jié)構(gòu)比較函數(shù):
(3)計(jì)算參考幀與當(dāng)前幀的每個對應(yīng)子塊的行、列結(jié)構(gòu)相似度,同理可得算的到參考幀和當(dāng)前幀兩幀圖像之間的行、列結(jié)構(gòu)相似度。最后,參考幀與當(dāng)前幀圖像的結(jié)構(gòu)相似度可定義為:
實(shí)驗(yàn)表明,GPASSIM評價(jià)方法較PSNR具有更好的靈敏度,有效提高了穩(wěn)像視頻質(zhì)量評價(jià)的主客觀性。
文獻(xiàn)[8]提出了利用標(biāo)準(zhǔn)差的穩(wěn)像算法效果評價(jià)的方法,其原理是通過計(jì)算穩(wěn)像補(bǔ)償后圖像場景運(yùn)動的標(biāo)準(zhǔn)差,以此作為穩(wěn)像精度標(biāo)準(zhǔn),反映電子穩(wěn)像算法的精確程度。
標(biāo)準(zhǔn)差在概率統(tǒng)計(jì)中作為統(tǒng)計(jì)分布程度(Statistical Dispersion)上的測量,定義為方差的算術(shù)平方根,表示反映組內(nèi)個體間的離散程度。標(biāo)準(zhǔn)差越高,表示實(shí)驗(yàn)數(shù)據(jù)越離散,穩(wěn)像效果越不理想。反之,標(biāo)準(zhǔn)差越低,代表穩(wěn)像補(bǔ)償越精確,穩(wěn)像效果越好,其定義如下:
式(13)表示抖動差值數(shù)據(jù)的均值x,式(14)表示抖動差值數(shù)據(jù)的標(biāo)準(zhǔn)差σ。實(shí)驗(yàn)結(jié)果表明該方法能夠解決了電子穩(wěn)像中在某些特殊情況下(如相機(jī)掃描運(yùn)動或目標(biāo)含運(yùn)動小物體),利用均方差方法、峰值信噪比及差分圖法等客觀方法無法準(zhǔn)確對穩(wěn)像效果進(jìn)行評價(jià)的問題。
文獻(xiàn)[9]認(rèn)為攝像機(jī)隨機(jī)抖動所引起的圖像全局運(yùn)動屬于一種無規(guī)律的、隨機(jī)性的變化,這和連續(xù)、平滑的攝像機(jī)有意掃描運(yùn)動所引起的視頻全局運(yùn)動有著明顯的區(qū)別。因此,所拍攝視頻的全局運(yùn)動形式體現(xiàn)了攝像機(jī)運(yùn)動的形式和程度,即視頻全局運(yùn)動的隨機(jī)程度越強(qiáng),則攝像機(jī)抖動越強(qiáng),視頻的穩(wěn)定性越差,反之則攝像機(jī)抖動越小,視頻的穩(wěn)定性越好。基于此,提出根據(jù)穩(wěn)定后視頻全局運(yùn)動的隨機(jī)程度(隨機(jī)性)來評價(jià)視頻的穩(wěn)定程度。由于現(xiàn)有的隨機(jī)性檢測對象是二進(jìn)制序列,對于穩(wěn)像圖像評價(jià)需要將視頻的全局運(yùn)動轉(zhuǎn)化為二進(jìn)制序列,并且根據(jù)評價(jià)目標(biāo)選擇合適的檢測指標(biāo)來衡量視頻中隨機(jī)抖動的程度。為此需進(jìn)行全局運(yùn)動編碼,其關(guān)鍵在于將編碼所得到的二進(jìn)制序列依然能反映出全局運(yùn)動變化的隨機(jī)程度。視頻相鄰圖像的全局運(yùn)動向量包含三個分量:旋轉(zhuǎn)分量、水平平移分量、垂直平移分量,對全局運(yùn)動向量的三個分量分別編碼。具體的編碼規(guī)則如下列所示:
(1)視頻第一幀圖像全局運(yùn)動矢量的分量編碼為0;
(2)如果全局運(yùn)動矢量的分量為正,則相應(yīng)分量的編碼為1;
(3)如果全局運(yùn)動矢量的分量為負(fù),則相應(yīng)分量的編碼為0;
(4)如果全局運(yùn)動矢量的分量為0,則相應(yīng)分量的編碼和前一幀圖像同一分量的編碼相同。
根據(jù)全局運(yùn)動向量任一分量的符號對全局運(yùn)動進(jìn)行編碼,反映了視頻全局運(yùn)動的隨機(jī)變化。穩(wěn)像后的視頻越趨于穩(wěn)定,則圖像全局運(yùn)動矢量的變化應(yīng)該呈現(xiàn)一致、連續(xù)的狀態(tài),即全局運(yùn)動中各分量的符號應(yīng)該趨近一致,反之則呈現(xiàn)隨機(jī)變化的狀態(tài)。
文獻(xiàn)[10]認(rèn)為對于不同場景不同形式的抖動視頻,其穩(wěn)像后圖像的散度(divergence)和抖動(jitter)之間存在平衡。結(jié)合人眼視覺特性,根據(jù)符合人眼視覺特性的抖動截止頻率確定期望誤差值,將1 Hz作為適合于人眼的截止頻率。通過高通/低通濾波和截止頻率c,將不需要的抖動運(yùn)動分解為散度和抖動。低頻部分是圖像序列i的期望誤差值,其平方代表了散度:
散度(divergence)是低頻部分的平方,其平方根表示期望的偏移量:
同樣的,高頻部分的平方表示抖動量:
偏移量e表示了在x,y軸、旋轉(zhuǎn)角、縮放上理想位置參數(shù)與實(shí)際位置參數(shù)的差別。如,式(14)和式(16)可同時用光譜能量強(qiáng)度(PSD)函數(shù)計(jì)算。
衰減系數(shù)J表示殘留的抖動與原始抖動的關(guān)系,提供一個更不受原有運(yùn)動約束的參考值來表述穩(wěn)像后視頻圖像的穩(wěn)定程度。
分析了現(xiàn)有的穩(wěn)像圖像評價(jià)方法,考慮不同場景各種方法的使用范圍:對于靜態(tài)背景的穩(wěn)像圖像評價(jià),均方差(MSE)、峰值信噪比(PSNR)、幀間變換保真度(ITF)、差分圖、灰度投影結(jié)構(gòu)相似性(GPASSIM)有較好的客觀評價(jià)效果;對于具有掃描運(yùn)動或含有運(yùn)動物體的圖像序列,幀間變換保真度差異(DITF)、標(biāo)準(zhǔn)差方法、隨機(jī)性檢驗(yàn)方法可以反映出動態(tài)場景穩(wěn)像圖像的質(zhì)量。進(jìn)一步的提出結(jié)合人眼視覺特性,根據(jù)符合人眼視覺特性的抖動截止頻率確定期望誤差值,定義穩(wěn)像前后的抖動量之比定義為抖動衰減系數(shù)來衡量穩(wěn)像圖像質(zhì)量。綜上所述,考慮到穩(wěn)像圖像序列輸出最終經(jīng)過接收者和觀察者的人眼系統(tǒng),未來研究方向應(yīng)進(jìn)一步分析考慮人眼視覺特性,包括前庭系統(tǒng)機(jī)理、視覺暫留機(jī)制、人眼視覺注意機(jī)制(人眼視覺興趣)、人眼視覺采樣機(jī)制等對穩(wěn)像圖像序列的影響,改善現(xiàn)有的評價(jià)機(jī)制,提高穩(wěn)像圖像質(zhì)量評價(jià)的準(zhǔn)確性及適用性。
[1] Du Dengchong,Jiang Xiaoyu,Yao Jun.Electronic image stabilization algorithm based on phase correlation[J].Laser& Infrared,2009,39(1):64 -66.(in Chinese)杜登崇,蔣曉瑜,姚軍.基于相位相關(guān)的電子穩(wěn)像算法研究[J].激光與紅外,2009,39(1):64 -66.
[2] Zhang Yongxiang.Study on electronic image stabilization technology for the image sequences of the ship-borne camera system based on the Gyro[D].Beijing:Chinese Academy of Science,2005.(in Chinese)張永祥.基于陀螺儀的船載電子穩(wěn)像技術(shù)研究[D].北京:中國科學(xué)院研究生院,2005.
[3] Meng Long.Video stabilizing for digital camera[D].Beijing:Tsinghua University,2004.(in Chinese)孟龍.?dāng)?shù)碼相機(jī)拍攝視頻的穩(wěn)定處理[D].北京:清華大學(xué),2004.
[4] Morinoto C,Chellappa R.Evaluation of image stabilization algorithms[J].IEEE,1998,0 -7803 -4428 -6/98.
[5] Wu Si.Research on techniques for videomotion information analysis[D].Beijing:Chinese Academy of Science,2005.(in Chinese)吳思.視頻運(yùn)動信息分析技術(shù)研究[D].北京:中國科學(xué)院研究生院,2005.
[6] Wang Zhou,Lu Ligang,Bovik A C.Video quality assessment based on structural distortion measurement[J].Signal Processing:Image Communication,2004,19(2):121-132.
[7] Yang Guang,Wang Rui,Cui Yuzhu.Electronic image stabilization and video quality assessment in 2-dimension-array[J].Infrared and Laser Engineering,2011,40(7):1365 -1369.(in Chinese)楊光,王睿,崔玉柱.二維面陣的電子穩(wěn)像與評價(jià)方法[J].紅外與激光工程,2011,40(7):1365 -1369.
[8] Lü Gaojie,Zhang Guohua,Che Hong.A method for evaluating the accuracy of electronic image stabilization system and algorithm[J].Electronics Optics & Control,2011,18(3):77 -79.(in Chinese)呂高杰,張國華,車宏.電子穩(wěn)像算法精度評價(jià)方法研究[J].電光與控制,2011,18(3):77-79.
[9] Zhang Yuefei.Research on digital image stabilization for in-car video camera[D].Chengdu:University of Electronic Science and Technology of China,2011.(in Chinese)張躍飛.車載攝像機(jī)數(shù)字穩(wěn)像技術(shù)研究[D].成都:電子科技大學(xué),2011.
[10] Matti Niskanen,Olli Silven,Marius Tico.Video stabilization performance assessment[J].IEEE,2006,1 - 4244 -0367-7/06.