王新舸,羅志強(qiáng)
(1.石家莊陸軍指揮學(xué)院,河北 石家莊 050084;2.第二炮兵指揮學(xué)院,湖北 武漢 430012)
關(guān)鍵幀提取技術(shù)是實現(xiàn)視頻檢索的一項重要技術(shù),目前視頻關(guān)鍵幀的提取技術(shù)已較為成熟,但無論哪一種技術(shù)都很少考慮視頻制作者的意圖,筆者在傳統(tǒng)關(guān)鍵幀概念的基礎(chǔ)上,針對作者意圖提出了一種新的關(guān)鍵幀類型。
關(guān)鍵幀是反映一組鏡頭中主要信息內(nèi)容的一幀或若干幀圖像。目前提取關(guān)鍵幀的技術(shù)大致可分為5類:基于鏡頭邊界的方法、基于視覺內(nèi)容的方法、基于運(yùn)動分析的方法、基于鏡頭運(yùn)動的方法和基于聚類的方法。這些算法主要目的是將視頻分割成獨(dú)立的鏡頭,但如何從鏡頭中選擇出最能代表制作者意圖的幀,或者制作者最想展示給觀眾的幀,卻很少考慮。
僅僅將關(guān)鍵幀理解為鏡頭的分割點[1],實際上縮小了關(guān)鍵幀的范圍。關(guān)鍵幀應(yīng)能反映鏡頭中的主要內(nèi)容信息,而鏡頭分割點處的幀雖然代表鏡頭的初始內(nèi)容,對反映鏡頭內(nèi)容有重要的作用,但卻未必是鏡頭中最有代表性的幀。關(guān)鍵幀可分成兩種:一種是鏡頭的起始幀和結(jié)束幀,稱為定位幀;另外一種則是在鏡頭中最能反映制作者意圖,能夠代表鏡頭主要內(nèi)容的若干幀,稱為代表幀。
代表幀在需要對視頻進(jìn)行快速瀏覽時具有非常重要的意義,通過觀看鏡頭的定位幀和代表幀可快速判斷出視頻的主要內(nèi)容,在從大量視頻中快速查找鏡頭時非常有用。目前也在一些實際運(yùn)用中使用了代表幀,如電視節(jié)目視頻編目,通常是取每個鏡頭最接近時間中點的幀作為代表幀,但這一做法并不能很好地滿足實際需要。
要想從一個鏡頭中選取出最能反映制作者意圖的幀,首先要分析制作者的制作方法,制作者通常在最想展現(xiàn)的內(nèi)容出現(xiàn)時,留給觀眾接受的時間,在這段時間內(nèi),鏡頭通常會保持相對的穩(wěn)定,圖像的變化較其他幀要小。例如,制作者要反映一個小船上的船夫會選擇從水面的遠(yuǎn)景,逐漸轉(zhuǎn)移到小船,再轉(zhuǎn)移到船夫,然后鏡頭在船夫的身上停留一段時間,再轉(zhuǎn)移到其他位置。在這個過程中,鏡頭從水面到小船和從小船到船夫的移動過程都是比較快的,而一旦轉(zhuǎn)移到船夫身上時,移動過程會明顯減慢甚至停止一段時間,除非制作者不想著重表現(xiàn)船夫。再比如要表現(xiàn)一個人物的臉部時,可能會先從人物的側(cè)面開始,逐漸旋轉(zhuǎn)到人臉的正面,然后停留一段時間。
利用制作者的這一處理方法,不難發(fā)現(xiàn)代表幀的判斷方法[2-3]:首先利用傳統(tǒng)的方法找出定位幀,將視頻分割成鏡頭,再利用同一鏡頭內(nèi)部相鄰幀間的某種特征差值,找到相鄰幀間特征值變化最小的若干幀,即這些差值的谷值點,作為代表幀。
代表幀的提取是基于定位幀獲取算法的[4-7],首先給出一種定位幀的提取算法。
定位幀提取原理比較簡單,當(dāng)視頻中有鏡頭切換時,在切換前后的相鄰兩幀每一個對應(yīng)的像素點上,會產(chǎn)生很大的顏色變化,利用這一特征可以設(shè)計如下算法來提取定位幀。
兩幀每一個對應(yīng)像素點的平均顏色差(以下簡稱幀差)的計算公式為
式中,Dc(x,y)表示兩幀中坐標(biāo)為(x,y)的 2 個像素的顏色差。顏色差始終保持為正值,可使用灰度值進(jìn)行計算,也可以使用RGB三色空間的色距表示。考慮到連續(xù)幀中的局部區(qū)域也會出現(xiàn)顏色較大變化,因此對顏色差進(jìn)行一次開方處理,以減少局部區(qū)域變化對幀差的影響。
圖1是一段視頻中每一幀與其相鄰前一幀的幀差曲線,其中橫坐標(biāo)是時間,縱坐標(biāo)是幀差。
從圖1中可以明顯看出,在場景切換時,會在圖上留下一條特別明顯的高脈沖線(如9.0 s,11.0 s,12.6 s等位置),利用這一特征可提取出視頻中的定位幀:設(shè)置一個高閾值A(chǔ),一旦某一幀與其前一幀幀差超過A值,即可判定當(dāng)前幀是定位幀,為防止非定位幀被誤判,A值也不能過小,圖1中A值應(yīng)該在6~7之間。
圖中還有一部分幀(如 0.8 s,2.0 s,6.5 s等位置)有鏡頭切換,也出現(xiàn)了較高脈沖,但幀差值比有些無鏡頭轉(zhuǎn)換的幀(如9~10 s之間)的幀差還小一些。這部分定位幀不能僅使用高閾值A(chǔ)來判斷,從圖1可觀察到這些幀的幀差仍比其前面一段幀的幀差明顯大一些。
可以設(shè)計如下算法對這部分定位幀進(jìn)行提?。涸O(shè)置一個低閾值B和一個變化閾值C,當(dāng)幀差值在A值和B值之間時,進(jìn)一步判斷該幀差與平均幀差之比是否大于變化閾值B,大于則可判定為定位幀,否則不是定位幀。
平均幀差可使用加權(quán)法計算,公式為
式中:fn代表新的平均幀差,f代表當(dāng)前幀差,f0代表舊的平均幀差,K代表加權(quán)系數(shù)。K的取值范圍是0~1,K值越大,表示當(dāng)前幀差對平均幀差的影響越大,平均幀差變化越快。
圖2是提取定位幀的流程圖。
提取了定位幀,就可以將視頻劃分成很多鏡頭,在定位幀的基礎(chǔ)上,進(jìn)一步對鏡頭的內(nèi)容進(jìn)行分析,提取出鏡頭的代表幀[8-10]。
提取代表幀需要先確定幀差曲線的谷值位置,即必須要對視頻進(jìn)行2次分析,第1次繪制出幀差曲線,找到谷點,第2次提取谷點位置的幀數(shù)據(jù),這種方法雖然能準(zhǔn)確找到代表幀的位置,但效率較低,如果需要在視頻采集的過程中同步提取代表幀,就不能使用這種算法。
如何能在第1次分析時,既找到谷點又能在相應(yīng)位置提取出關(guān)鍵幀呢?采用谷值預(yù)測技術(shù)能有效解決只進(jìn)行一次分析提取代表幀的問題。圖3和圖4是使用谷值預(yù)測技術(shù)提取代表幀的流程圖,圖4是圖3中“產(chǎn)生新代表幀”的流程圖。
在鏡頭的第1幀,先預(yù)設(shè)一個參考幀差F,只有幀差低于這一值時才有可能被判定為代表幀。然后依次分析每一幀,一旦遇到幀差比參考值低,就判斷當(dāng)前處于曲線的下降通道,此時嚴(yán)格的講,每當(dāng)幀差下降一次,就有可能已經(jīng)達(dá)到曲線的谷點,應(yīng)臨時保存該幀的數(shù)據(jù)為新的代表幀,但這樣會在曲線的下降過程中臨時保存大量的幀數(shù)據(jù),降低程序運(yùn)行效率。
為解決這一問題,可增加一個參數(shù)D,在曲線下降時,并不立即將當(dāng)前幀作為代表幀,只有當(dāng)幀差與參考幀差F之比低于參數(shù)D時,才將當(dāng)前幀設(shè)置為預(yù)測代表幀,同時將當(dāng)前幀差設(shè)置為參考值。預(yù)測代表幀并不一定是真正的代表幀,若幀差繼續(xù)下降,與參考幀差F之比再次低于參數(shù)D時,就將該點設(shè)置為新的預(yù)測代表幀,同時刪除舊的預(yù)測代表幀。若幀差開始進(jìn)入上升通道或當(dāng)前鏡頭結(jié)束(遇到了定位幀),則將最后一次提取的預(yù)測代表幀設(shè)置為代表幀。若幀差從上升通道轉(zhuǎn)到下降通道,就以峰值為參考值,繼續(xù)進(jìn)行新的代表幀判斷。
嚴(yán)格地講,在現(xiàn)有人工智能發(fā)展?fàn)顩r下,代表幀的提取要完全依賴計算機(jī)智能提取是不現(xiàn)實的。但任何一種技術(shù)的發(fā)展都離不開大量的嘗試和經(jīng)驗的積累,希望本文能夠為視頻內(nèi)容智能識別帶來新的思路。
[1]陳曉藝,姜秀華.MPEG視頻的鏡頭分割技術(shù)[J].中國傳媒大學(xué)學(xué)報:自然科學(xué)版,2004,11(1):26-29.
[2]除忠強(qiáng).電視新聞節(jié)目基于內(nèi)容的視頻檢索技術(shù)及其實現(xiàn)[J].電視技術(shù),2008,32(10):72-74.
[3]陳靜.基于代表幀的視頻摘要算法[J].現(xiàn)代計算機(jī),2006(6):82-84.
[4]王彥?,馬駟良.基于關(guān)鍵幀提取的視頻分割算法[J].吉林大學(xué)學(xué)報:理學(xué)版,2004,42(4):570-571.
[5]胡雙演,李釗.基于內(nèi)容的視頻分析技術(shù)研究[J].綜合電子信息技術(shù),2006,32(5):42-44.
[6]蔡肯,梁曉瑩.基于內(nèi)容的視頻檢索技術(shù)[J].現(xiàn)代計算機(jī),2007(12):59-61.
[7]葉軍,周卉,李建良.基于視頻分割的關(guān)鍵幀提取[J].計算機(jī)工程與設(shè)計,2008,29(1):109-111.
[8]劉佳兵.視頻檢索中的關(guān)鍵幀提取技術(shù)[J].福建電腦,2007(12):55.
[9]周政,劉俊義,馬林華,等.視頻內(nèi)容分析技術(shù)[J].計算機(jī)工程與設(shè)計,2008,29(7):1766-1769.
[10]佟超,吳文怡.基于顏色的關(guān)鍵幀圖像檢索技術(shù)研究[J].電視技術(shù),2008,32(10):17-18.