朱耀麟,李 倩
(西安工程大學(xué)電子信息學(xué)院,陜西西安 710048)
由于視頻數(shù)據(jù)是由一系列連續(xù)拍攝的鏡頭組成,直接進(jìn)行管理和檢索會(huì)很復(fù)雜,所以采用鏡頭分割的方式,按照一定的算法規(guī)則,把視頻數(shù)據(jù)劃分成單獨(dú)的不同鏡頭,然后在每個(gè)鏡頭中提取關(guān)鍵幀,這樣就把視頻檢索的問(wèn)題轉(zhuǎn)化為圖像檢索問(wèn)題。鏡頭分割是基于內(nèi)容的視頻檢索的第一步,分割的準(zhǔn)確性會(huì)直接影響后續(xù)的檢索過(guò)程,因此,關(guān)于鏡頭分割方法的研究得到廣泛的重視,而且取得了豐富的研究成果。
鏡頭之間的轉(zhuǎn)換主要有兩類,即突變和漸變,在此情況下需要鏡頭分割主要是對(duì)鏡頭的邊界進(jìn)行準(zhǔn)確劃分。根據(jù)現(xiàn)在的研究結(jié)果,對(duì)鏡頭邊界的檢測(cè)算法主要分成兩個(gè)方向,分別是基于壓縮域的算法和基于非壓縮域的算法。從前一類方法來(lái)看,可以直接從壓縮視頻中進(jìn)行分析和獲取關(guān)鍵幀,省略了解壓的過(guò)程,從而降低了計(jì)算的復(fù)雜度;而后一類方法,由于多年的研究和改進(jìn),在視頻檢索中也是比較重要的算法。本文對(duì)當(dāng)前視頻檢索常用的鏡頭分割方法進(jìn)行簡(jiǎn)單的概述比較,得出各方法的優(yōu)缺點(diǎn),為實(shí)際應(yīng)用提供一些參考。
1.1.1 模板匹配法
模板匹配法也可以稱為像素比較法,這種方法比較簡(jiǎn)單,但是對(duì)物體運(yùn)動(dòng)、噪聲等因素非常敏感,相機(jī)的微小移動(dòng)都會(huì)使差值明顯增大,造成鏡頭邊緣的誤檢。
1.1.2 直方圖法
直方圖法是在像素比較法的基礎(chǔ)上發(fā)展起來(lái)的,是使用最普遍的鏡頭分割方法,并且能夠取得較好的效果。其中比較常用的是顏色直方圖法,該方法包括灰度直方圖和彩色直方圖。這種方法是利用兩幀圖像的直方圖差值與設(shè)定好的閾值進(jìn)行比較來(lái)判斷是否發(fā)生鏡頭轉(zhuǎn)變。因?yàn)槲矬w一般運(yùn)動(dòng)時(shí)幾乎不影響直方圖,所以常用的顏色直方圖法克服了模板匹配法的局限性。但是當(dāng)物體快速移動(dòng)時(shí),會(huì)使幀圖像的顏色、灰度等發(fā)生較大改變,易出現(xiàn)誤檢情況;當(dāng)2幀圖像直方圖相似時(shí),內(nèi)容有可能完全不同,也易造成誤檢。對(duì)該問(wèn)題的解決方法,可以參考文獻(xiàn)[1],采用直方圖幀差法、χ2檢驗(yàn)直方圖差法、直方圖最小幀差法、平均彩色法等進(jìn)行方法改進(jìn);也可以參考文獻(xiàn)[2]提出的基于直方圖法的切變鏡頭自動(dòng)檢測(cè)算法,利用鏡頭內(nèi)直方圖幀間差值的相似性,通過(guò)尋找窗口內(nèi)的突變點(diǎn)來(lái)尋找鏡頭的切變幀。
1.1.3 基于邊緣法
基于邊緣法可稱為基于輪廓的方法,是利用連續(xù)鏡頭的邊緣變化程度來(lái)確定鏡頭是否發(fā)生轉(zhuǎn)變。判斷過(guò)程大致為:首先對(duì)2個(gè)連續(xù)幀圖像進(jìn)行總體的運(yùn)動(dòng)補(bǔ)償,再提取2幀的邊緣(輪廓),計(jì)算出變化了的輪廓比率(即新的邊緣在舊的邊緣基礎(chǔ)上增加或者減少的像素比例),若該值大于事先設(shè)定的閾值,則可認(rèn)定發(fā)生了鏡頭轉(zhuǎn)變。
這種方法先進(jìn)行配準(zhǔn),再實(shí)行邊緣比較,所以能夠判斷運(yùn)動(dòng)物體的鏡頭,并且對(duì)鏡頭的突變和漸變都有很好的檢測(cè)效果。但是該方法計(jì)算量比較大,并且當(dāng)幀圖像很復(fù)雜,主體或者背景中出現(xiàn)較多輪廓時(shí),可造成對(duì)鏡頭邊界的判斷失誤;當(dāng)亮度不強(qiáng)時(shí),還有可能出現(xiàn)漏檢輪廓的情況。
1.1.4 塊匹配法
塊匹配法也可以改善模板匹配法的缺點(diǎn),通過(guò)利用局部的特點(diǎn)來(lái)減弱整體對(duì)運(yùn)動(dòng)的敏感特性。塊匹配法首先需要進(jìn)行幀圖像的n×n子塊劃分,然后,對(duì)連續(xù)幀的相同位置的子塊進(jìn)行相似比較,比較依據(jù)可以是子塊的灰度差,也可以是直方圖,比較的結(jié)果可用相似比?表示。同樣,需要事先設(shè)定好一個(gè)閾值,該閾值要與?比較,統(tǒng)計(jì)n×n個(gè)子塊的?中有多少個(gè)是大于閾值的,當(dāng)有足夠多的?大于閾值時(shí),可判斷鏡頭發(fā)生轉(zhuǎn)變。從判定過(guò)程可看出,塊匹配法是計(jì)算量非常復(fù)雜的方法,并且只有子塊劃分得足夠小,才能提高判定的準(zhǔn)確性。
1.1.5 基于模型法
這種方法適用于專業(yè)領(lǐng)域,需要對(duì)各種鏡頭轉(zhuǎn)變建立恰當(dāng)?shù)臄?shù)學(xué)模型,利用建好的模型實(shí)現(xiàn)對(duì)鏡頭邊緣的檢測(cè),實(shí)現(xiàn)鏡頭分割。該方法的關(guān)鍵點(diǎn)在于數(shù)學(xué)模型的建立,只有在準(zhǔn)確建模的基礎(chǔ)上才能確保鏡頭分割的精準(zhǔn)性。
1.1.6 自適應(yīng)閾值法
有文獻(xiàn)提出的思路是,將鏡頭的幀差平均值乘上一個(gè)擴(kuò)大系數(shù)a作為判定鏡頭轉(zhuǎn)換的閾值,達(dá)到閾值的自適應(yīng)選擇。一般情況下,同一鏡頭內(nèi)的幀差值是與幀差平均值相差不多的,只有鏡頭轉(zhuǎn)變處的幀差才會(huì)顯著大于該幀差平均值,所以根據(jù)只要比幀差平均值大很多的幀差就是鏡頭轉(zhuǎn)變邊界的思路,研究出了自適應(yīng)閾值法。關(guān)于自適應(yīng)閾值法的算法還有很多,文獻(xiàn)[3]提出了綜合利用像素差值的統(tǒng)計(jì)方差、直方圖差異等多種方法,根據(jù)差值的分布自動(dòng)計(jì)算閾值的算法。
1.1.7 基于聚類法
K-means聚類算法根據(jù)相鄰幀的顏色直方圖自動(dòng)將幀差值分為場(chǎng)景有明顯變化和沒(méi)明顯變化兩類進(jìn)行鏡頭分割,其中,單獨(dú)出現(xiàn)的場(chǎng)景變化處判定為鏡頭突變,連續(xù)出現(xiàn)的場(chǎng)景變化處判定為鏡頭漸變。該方法的最突出優(yōu)點(diǎn)就是不用進(jìn)行閾值比較,并且對(duì)各段視頻序列有自適應(yīng)的能力,但是該方法對(duì)噪聲的干擾比較敏感,同時(shí)由于鏡頭漸變時(shí)其變化不大,很容易把漸變歸入到無(wú)場(chǎng)景變化中,造成誤檢。
1.1.8 雙重比較法
由于鏡頭轉(zhuǎn)換分為突變和漸變,當(dāng)發(fā)生突變時(shí),幀間差在突變處會(huì)有明顯峰值,使用閾值能夠較準(zhǔn)確檢測(cè)出突變;但是發(fā)生漸變時(shí),幀間差沒(méi)有很明顯的峰值,所以,上述用到判定鏡頭轉(zhuǎn)換的閾值的方法都會(huì)有局限性。有文獻(xiàn)提出了雙重比較法,可以采用2個(gè)閾值T1和T2(T1<T2),當(dāng)連續(xù)2幀的幀差大于T1、小于T2時(shí),可判定潛在漸變開(kāi)始,接著將差值進(jìn)行累加,當(dāng)差值大于T2時(shí)判定發(fā)生漸變,差值小于T1時(shí)判定漸變結(jié)束。這種方法主要用于漸變的檢測(cè),但是當(dāng)鏡頭運(yùn)動(dòng)速度緩慢時(shí),基本也符合上述特點(diǎn),容易出現(xiàn)誤檢情況。
1.2.1 基于DCT變換法
目前國(guó)際上常用的視頻壓縮標(biāo)準(zhǔn)都可以實(shí)現(xiàn)DCT變換。所謂DCT變換,就是將二維空間像素值轉(zhuǎn)變成二維頻域系數(shù)值,這樣就導(dǎo)致頻域的變換系數(shù)與像素域有了直接聯(lián)系,頻域能夠順利表達(dá)圖像幀。該方法主要是計(jì)算連續(xù)幀間的DCT系數(shù)的差值,與設(shè)定好的閾值進(jìn)行比較,進(jìn)而判斷出是否發(fā)生鏡頭轉(zhuǎn)換。
此方法還是有缺陷的,例如MPEG壓縮視頻,只對(duì)I幀進(jìn)行DCT變化,P幀和B幀只能通過(guò)預(yù)測(cè)來(lái)編碼,所以采用DCT變化法來(lái)判定鏡頭轉(zhuǎn)換,在精度上會(huì)有所限制。
1.2.2 基于DC系數(shù)的方法
基于DC直流分量的方法是在DCT方法的基礎(chǔ)上發(fā)展改善的。DC方法使用的是DCT系數(shù)的直流分量,DC系數(shù)代表了塊內(nèi)圖像的平均亮度,并且DC圖像是原圖像8×8的平均,它包含了原圖像的基本全局信息。首先對(duì)視頻序列中的每幀圖像進(jìn)行運(yùn)動(dòng)補(bǔ)償,進(jìn)行DCT變化,將其DC直流分量取出,然后采用模板匹配法,設(shè)DC圖像之間的差值作2幀之間的相似性度量,當(dāng)差值(亮度變化)明顯偏大時(shí),表明亮度改變,可認(rèn)為鏡頭發(fā)生轉(zhuǎn)換。這種方法的優(yōu)點(diǎn)是速度比較快,但是也有缺點(diǎn),當(dāng)2幀的像素值相似而密度函數(shù)不同時(shí),容易造成誤檢。
1.2.3 基于運(yùn)動(dòng)矢量的方法
該方法的思路是,從視頻序列中估計(jì)出來(lái)的運(yùn)動(dòng)矢量在同一個(gè)鏡頭中肯定是相對(duì)連續(xù)的,只有不同鏡頭間的運(yùn)動(dòng)才會(huì)出現(xiàn)不連續(xù)性。以MPEG壓縮視頻為例,鏡頭轉(zhuǎn)變前B幀常有大量前向運(yùn)動(dòng)補(bǔ)償,鏡頭轉(zhuǎn)變后B幀常有大量后向運(yùn)動(dòng)補(bǔ)償,具體應(yīng)用此方法,關(guān)系到P幀和B幀,還需要進(jìn)行2次判斷。首先要檢測(cè)P幀中的幀內(nèi)編碼宏塊的數(shù)量,較大時(shí)說(shuō)明可能出現(xiàn)鏡頭轉(zhuǎn)換,然后檢測(cè)統(tǒng)計(jì)B幀中前后向宏塊的數(shù)量,以此判定鏡頭轉(zhuǎn)換的具體位置。
由于該方法充分利用各種幀中運(yùn)動(dòng)補(bǔ)償信息,導(dǎo)致計(jì)算復(fù)雜,容易出錯(cuò)。
1.2.4 基于宏塊編碼類型的方法
1.2.5 模糊查找法
該方法主要是根據(jù)H.264壓縮編碼視頻所研究出的鏡頭分割方法,Sungmin等人[4]提出通過(guò)比較2個(gè)連續(xù)I幀的宏塊分割模式來(lái)判斷鏡頭邊界的方法,該方法運(yùn)算速度非常快,精度也較高,但是只能將鏡頭邊界確定在2個(gè)I幀之間,所以也可稱為模糊查找法。在此方法基礎(chǔ)上可進(jìn)行改進(jìn),首先是找出差異大的相鄰2個(gè)I幀作為可能發(fā)生鏡頭轉(zhuǎn)換的位置,然后利用2個(gè)I幀間的P幀和B幀確定準(zhǔn)確位置。這種方法的精度也很高,但是對(duì)漸變檢測(cè)效果一般。
關(guān)于鏡頭分割的常用方法,大致是按壓縮域和非壓縮域進(jìn)行劃分,也可以認(rèn)為是分成基于像素域和基于壓縮域兩大類。對(duì)本文提到的常用方法進(jìn)行分類和歸納[5-14],如表1 所示。
表1 常用方法的分類和歸納
由于鏡頭分割存在兩種情況,分別是突變和漸變,導(dǎo)致分割方法需要在兩種情況下都要有良好的檢測(cè)效果,才能使該方法成為廣泛使用的分割方法。但是從目前的研究成果來(lái)看,因?yàn)殓R頭突變的立即性等特點(diǎn),研究出多種分割方法,并且實(shí)測(cè)效果良好,可是關(guān)于鏡頭漸變的分割方法還沒(méi)有到達(dá)突變的檢測(cè)效果。同時(shí),關(guān)于鏡頭分割方法,大部分還需要事先按照經(jīng)驗(yàn)或者實(shí)驗(yàn)數(shù)據(jù)設(shè)定一定的閾值,這種情況會(huì)導(dǎo)致檢測(cè)結(jié)果的不精準(zhǔn)。
從現(xiàn)階段的研究發(fā)展來(lái)看,鏡頭分割的研究主要有以下幾點(diǎn):1)閾值的設(shè)定??梢钥紤]自適應(yīng)閾值的算法和不使用閾值的分割方法的研究;2)漸變檢測(cè)方法的研究,使對(duì)突變檢測(cè)效果較好的方法適用于漸變檢測(cè),并且效果也較好;3)改善現(xiàn)有的突變算法,提高邊界識(shí)別率;4)壓縮域分割方法的研究。直接對(duì)壓縮視頻進(jìn)行鏡頭分割,能夠縮短檢測(cè)時(shí)間,是近年來(lái)研究重點(diǎn),并且現(xiàn)在大部分是對(duì)MPEG壓縮格式的研究,隨著越來(lái)越多的壓縮格式的產(chǎn)生,比如H.264,壓縮域的鏡頭分割算法也應(yīng)該擴(kuò)大適用性。
基于內(nèi)容的視頻檢索的鏡頭分割方法是多年來(lái)研究的熱點(diǎn)問(wèn)題,有著豐碩的科研成果。本文對(duì)鏡頭分割主要方法進(jìn)行概述,并簡(jiǎn)單歸納出這些方法的優(yōu)缺點(diǎn),最后根據(jù)研究現(xiàn)狀提出一些想法,為實(shí)際應(yīng)用提供一定的參考。
:
[1]劉政凱,湯曉鷗.視頻檢索中鏡頭分割方法綜述[J].計(jì)算機(jī)工程與應(yīng)用,2002(23):84-87.
[2]劉典,劉文萍.一種基于直方圖的切變鏡頭自動(dòng)檢測(cè)算法[J].北方工業(yè)大學(xué)學(xué)報(bào),2007,19(3):16-20.
[3]成勇,須德.一種自動(dòng)選取閾值的視頻鏡頭邊界檢測(cè)算法[J].電子學(xué)報(bào),2004(3):508-511.
[4]KIM S,BYUN J,WON C.A scene change detection in H.264/AVC[J].LNCS3786,2005:1072-1082
[5]ZABHI R,MILLER J,MAI K.A feature-based algorithm for detecting and classifying scene breaks[EB/OL].[2013-03-10].http://wenku.baidu.com/view/90972b126c175f0e7cd13718.html.
[6]孫利濤,楊雷.視頻鏡頭分割技術(shù)綜述[J].山東輕工業(yè)學(xué)院學(xué)報(bào),2007(3):36-39.
[7]錢剛,曾貴華.典型視頻鏡頭分割方法的比較[J].計(jì)算機(jī)工程與應(yīng)用,2004(32):51-55.
[8]周祥東,李國(guó)輝,涂丹,等.一種新的視頻鏡頭分割算法[J].計(jì)算機(jī)工程與科學(xué),2003(25):5-8.
[9]ZHANG H J,KANKANHALL A K,WMOLIAR S W.Automatic partitioning of full-motion video[J].Multimedia Systems,1993,1(1):10-28.
[10]朱曦,林行剛.視頻鏡頭時(shí)域分割方法的研究[J].計(jì)算機(jī)學(xué)報(bào),2004(8):1027-1035.
[11]呂曉宇.視頻鏡頭分割方法[J].辦公自動(dòng)化雜志,2011(7):33-34.
[12]劉佳兵.視頻檢索中的視頻鏡頭分割技術(shù)[J].福建電腦,2007(1):66-67.
[13]洪夏俊,夏殿松.基于H.264/AVC壓縮域的實(shí)時(shí)視頻鏡頭分割算法[J].電腦知識(shí)與技術(shù),2009(4):944-946.
[14]李向偉,李戰(zhàn)明,張明新,等.基于內(nèi)容的視頻鏡頭檢測(cè)技術(shù)[J].電視技術(shù),2008,32(3):19-21.