明 巍,鹿秀麗(.湖北師范學(xué)院數(shù)學(xué)與統(tǒng)計(jì)學(xué)院;.黃石市中心醫(yī)院信息部,湖北 黃石 43500)
基于動(dòng)態(tài)滑動(dòng)窗口和折半查找的鏡頭檢測(cè)算法
明 巍1,鹿秀麗2
(1.湖北師范學(xué)院數(shù)學(xué)與統(tǒng)計(jì)學(xué)院;2.黃石市中心醫(yī)院信息部,湖北 黃石 435002)
摘 要:針對(duì)視頻數(shù)據(jù)處理的數(shù)據(jù)量比較大的問題,提出了一種基于動(dòng)動(dòng)窗口和折半查找的鏡頭檢測(cè)算法,實(shí)驗(yàn)結(jié)果表明,相對(duì)傳統(tǒng)的計(jì)算相鄰兩幀差值的鏡頭檢測(cè)算法,算法的檢測(cè)效果很好,算法復(fù)雜度低,易于實(shí)現(xiàn)。
關(guān)鍵詞:滑動(dòng)窗口;折半查找;鏡頭檢測(cè);HSV顏色直方圖
鏡頭(shot)是視頻的基本物理單元,它由一個(gè)攝像機(jī)拍攝得到的連續(xù)若干幀組成[1]。鏡頭檢測(cè)是基于內(nèi)容的視頻檢索的重要內(nèi)容和關(guān)鍵步驟,直接關(guān)系到視頻檢索的效率。
鏡頭的轉(zhuǎn)換方式主要有兩大類[1]:切變(突變)和漸變。鏡頭切變檢測(cè)的方法主要有[1-3]:像素對(duì)比較方法、模板比較方法、似然比較方法、直方圖比較方法、滑動(dòng)窗口法等。鏡頭漸變的特點(diǎn)是兩個(gè)鏡頭之間的切換過程是逐漸完成的,從一個(gè)鏡頭變化到另一個(gè)鏡頭經(jīng)常延續(xù)十幾或者幾十幀。目前鏡頭漸變檢測(cè)的方法主要有[4]:雙閾值方法、基于模型的方法等。
傳統(tǒng)計(jì)算相鄰兩幀之間的差值進(jìn)行鏡頭檢測(cè)的算法將耗費(fèi)大量的時(shí)間在每一幀信息的提取和計(jì)算相鄰兩幀之間的差值上。通過對(duì)視頻特征數(shù)據(jù)的分析,同一鏡頭中兩幀之間的差值相差較小,不同鏡頭中兩幀的差值相差較大,而且同一鏡頭中的幀數(shù)比較多。根據(jù)視頻的這一特點(diǎn),提出了動(dòng)態(tài)滑動(dòng)窗口和折半查找對(duì)鏡頭檢測(cè)的算法。
兩幀差值的計(jì)算需要利用視頻HSV顏色直方圖的特征來計(jì)算視頻中任意兩幀之間的差值。設(shè)視頻幀序列集合為, HSV顏色分割采用HSV(12×5×5)制,即H分量等分為12塊,S、V分量各自等分為5塊,HSV顏色空間的直方圖定義為式(1):表示視頻幀序列集合中的第m幀,Hi、Si、Vi分別表示第i像素點(diǎn)的H、S、V值,其中Hj、Sj、Vj表示第j像素點(diǎn)的H、S、V值,L為每一幀圖像像素點(diǎn)的個(gè)數(shù),
對(duì)于任一視頻數(shù)據(jù),任意選取連續(xù)的k幀作相鄰兩幀之間的幀間差值,可以得到一個(gè)由k-1個(gè)差值所構(gòu)成的集合。通過幀間差值的分析,得到集合中明顯比兩邊差值大很多的特征差值。在這些特征差值中得到最大差值maxdistance和最小差值mindistance,定義鏡頭檢測(cè)閾值:
由以上的公式(1)和公式(2)可知,提取每一幀的HSV顏色直方圖信息和計(jì)算兩幀之間的差值所需要的時(shí)間在整個(gè)鏡頭檢測(cè)算法中所占的時(shí)間的比例是比較大的。傳統(tǒng)計(jì)算相鄰兩幀之間的差值進(jìn)行鏡頭檢測(cè)的算法將耗費(fèi)大量的時(shí)間在每一幀信息的提取和計(jì)算相鄰兩幀之間的差值上。根據(jù)視頻同一鏡頭中兩幀之間的相似性,可以推斷同一鏡頭中兩幀的差值和不同鏡頭中兩幀的差值有顯著的差異。又根據(jù)視頻同一鏡頭中包含的幀數(shù)一般比較大的特點(diǎn),提出了動(dòng)態(tài)滑動(dòng)窗口和折半查找對(duì)鏡頭檢測(cè)的算法。
對(duì)鏡頭邊界檢測(cè)結(jié)果的評(píng)價(jià)方法一般使用查全率和查準(zhǔn)率這兩個(gè)參數(shù),它們的定義如下:
查全率和查準(zhǔn)率越高,說明算法的效果越好。本文在采用查全率和查準(zhǔn)率作為視頻鏡頭檢測(cè)算法的衡量標(biāo)準(zhǔn)的基礎(chǔ)上,從算法的時(shí)間復(fù)雜度方面將本文的算法與傳統(tǒng)計(jì)算相鄰兩幀之間的差值進(jìn)行鏡頭檢測(cè)的算法進(jìn)行比較。
本實(shí)驗(yàn)在Visual C++6.0環(huán)境中進(jìn)行,建立包括體育,電影,廣告,紀(jì)錄片在內(nèi)的實(shí)驗(yàn)視頻庫(kù),總幀數(shù)是5867幀,幀速率為25幀/秒,視頻被轉(zhuǎn)化為320×240標(biāo)準(zhǔn)尺寸。
本文算法的結(jié)果與文獻(xiàn)中的算法進(jìn)行對(duì)比,查準(zhǔn)率相差不大。本文算法的誤檢主要原因在于對(duì)于鏡頭切換較快的視頻,誤檢會(huì)增多,查準(zhǔn)率會(huì)下降。但是從算法效率來看,本文的算法不需要計(jì)算每相鄰兩幀的差值,算法效率大大提高。
參考文獻(xiàn):
[1]章毓晉.基于內(nèi)容的視覺信息檢索[M].北京:科學(xué)出版社,2003.
[2]錢剛,曾貴華.典型視頻鏡頭分割方法的比較[J].計(jì)算機(jī)工程與應(yīng)用,2004(32):5l-55.
[3]肖治民,林坤輝,周昌樂.基于HSV顏色空間的視頻鏡頭檢測(cè)[J].廈門大學(xué)學(xué)報(bào)(自然科學(xué)版),2008,47(05):665-668
[4]原野,宋擒豹,沈鈞毅.一個(gè)自動(dòng)閾值選擇的鏡頭檢測(cè)算法[J].小型微型計(jì)算機(jī)系統(tǒng).2004,25(07):1337-1340.