游運(yùn)喜,張恩迪,茍志堅(jiān)
湖南大學(xué)物理與微電子科學(xué)學(xué)院,長(zhǎng)沙 410082
H.264壓縮域中利用Biased-SVM檢測(cè)鏡頭邊界
游運(yùn)喜,張恩迪,茍志堅(jiān)
湖南大學(xué)物理與微電子科學(xué)學(xué)院,長(zhǎng)沙 410082
為了從海量數(shù)字視頻中快速獲取感興趣的信息,產(chǎn)生了基于內(nèi)容的視頻檢索技術(shù)。鏡頭邊界檢測(cè)是視頻檢索技術(shù)的基礎(chǔ),鏡頭是攝像頭一次連續(xù)拍攝的視頻幀序列,代表時(shí)間或空間上連續(xù)的一組動(dòng)作。前后鏡頭的切換產(chǎn)生了鏡頭邊界,對(duì)于觀察者來說,邊界是由于視頻內(nèi)容發(fā)生了變化產(chǎn)生的[1]。按照鏡頭切換方式不同,鏡頭邊界可分為突變和漸變兩類,突變是指鏡頭切換在兩個(gè)視頻幀間完成,中間沒有過渡;漸變是指鏡頭切換有一個(gè)平緩的過渡,完成切換常常需要十幾或幾十幀[2]。鏡頭邊界檢測(cè)方法可分為基于像素域的和基于壓縮域的兩類?;谙袼赜虻姆椒刹捎玫奶卣餍畔⑷?,所以檢測(cè)精度較高;基于壓縮域的方法可以直接使用壓縮域的特征,不需要完全解碼,所以速度較快,但是對(duì)于不同壓縮編碼標(biāo)準(zhǔn)需要采用不同的算法。
H.264/AVC視頻編碼標(biāo)準(zhǔn)具有突出的壓縮性能和良好的網(wǎng)絡(luò)親和性,越來越多的視頻采用H.264編碼標(biāo)準(zhǔn)[3]。H.264編碼標(biāo)準(zhǔn)引入了許多新特性,如其采用了幀內(nèi)預(yù)測(cè),DC系數(shù)不再代表平均能量,使得原MPEG壓縮域DC圖方法不能直接適用于H.264壓縮域[4]。關(guān)于如何在H.264壓縮域檢測(cè)鏡頭邊界,近幾年一些學(xué)者提出了許多方法。文獻(xiàn)[5]用I幀中幀內(nèi)宏塊預(yù)測(cè)模式信息來檢測(cè)發(fā)生在I幀的邊界,利用幀內(nèi)編碼宏塊數(shù)信息來檢測(cè)發(fā)生在P幀和B幀的邊界。文獻(xiàn)[6]根據(jù)幀內(nèi)宏塊比率檢測(cè)出候選邊界幀,再定義了幀內(nèi)預(yù)測(cè)模式8個(gè)方向的直方圖來確定邊界幀,對(duì)于防止閃光燈的干擾有好的效果。文獻(xiàn)[3]統(tǒng)計(jì)相鄰幀對(duì)應(yīng)宏塊的幀內(nèi)預(yù)測(cè)模式差異或幀間預(yù)測(cè)模式差異來檢測(cè)邊界,并與文獻(xiàn)[7]相比獲得了更好的性能。上面三種方法都未涉及到漸變鏡頭的檢測(cè)。文獻(xiàn)[8]提出了利用運(yùn)動(dòng)矢量和預(yù)測(cè)殘差的DC系數(shù)來檢測(cè)邊界的方法,表明了比沒有采用運(yùn)動(dòng)矢量和DC系數(shù)的方法有更好的性能,但其中較多的閾值選擇對(duì)于檢測(cè)性能影響很大。還有,文獻(xiàn)[4]對(duì)于GOP級(jí)的場(chǎng)景切換檢測(cè)進(jìn)行了研究,文獻(xiàn)[9]對(duì)QCIF視頻的場(chǎng)景切換檢測(cè)進(jìn)行了研究。近幾年來,基于機(jī)器學(xué)習(xí)的方法也應(yīng)用到了壓縮域的鏡頭邊界檢測(cè)上,如文獻(xiàn)[2]將SVM應(yīng)用到了MPEG壓縮域的鏡頭邊界檢測(cè)上,避免了閾值選擇的問題,并取得了不錯(cuò)的性能。
基于以上研究基礎(chǔ),本文提出融合H.264壓縮域多特征和采用Biased-SVM分類方法的鏡頭邊界檢測(cè)方法。先根據(jù)幀類型、幀內(nèi)預(yù)測(cè)模式圖差異、宏塊類型等特征,利用Biased-SVM將視頻幀分為突變幀和非突變幀;再根據(jù)P幀的幀內(nèi)宏塊比率和運(yùn)動(dòng)混亂度[10]等特征,將非突變幀分為漸變幀和非鏡頭邊界幀;最后根據(jù)漸變幀一般延續(xù)十幾幀以上的特點(diǎn),對(duì)漸變幀進(jìn)行修正。
2.1 突變邊界特征
H.264視頻中一個(gè)編碼圖像由若干宏塊組成,宏塊可分為幀內(nèi)預(yù)測(cè)編碼宏塊和幀間預(yù)測(cè)編碼宏塊兩種。幀內(nèi)宏塊利用圖像空間上的相似性進(jìn)行預(yù)測(cè)編碼,幀間宏塊利用相鄰幀之間的相似性進(jìn)行預(yù)測(cè)編碼。根據(jù)預(yù)測(cè)方向的不同,幀間宏塊可分為前向預(yù)測(cè)宏塊、后向預(yù)測(cè)宏塊、雙向預(yù)測(cè)宏塊。I幀只有幀內(nèi)預(yù)測(cè)宏塊,P幀有幀內(nèi)預(yù)測(cè)宏塊和前向預(yù)測(cè)宏塊,B幀有幀內(nèi)預(yù)測(cè)宏塊、前向預(yù)測(cè)宏塊、后向預(yù)測(cè)宏塊、雙向預(yù)測(cè)宏塊。
當(dāng)出現(xiàn)突變鏡頭邊界時(shí),新鏡頭的第一幀,也即突變幀,與其前面幀的相似性很小,所以突變幀會(huì)主要采用幀內(nèi)預(yù)測(cè)宏塊或者后向預(yù)測(cè)宏塊。同理,前一鏡頭的最后一幀會(huì)主要采用前向預(yù)測(cè)宏塊或幀內(nèi)宏塊。
設(shè)itrar,frontr,backr,bidr分別為幀內(nèi)預(yù)測(cè)宏塊,前向預(yù)測(cè)宏塊,后向預(yù)測(cè)宏塊,雙向預(yù)測(cè)宏塊在一幀內(nèi)所占比例。圖1和圖2所示為突變邊界出現(xiàn)在視頻幀序列中不同位置的情況。先看圖1所示的三種情況,虛線箭頭表示相應(yīng)方向上的預(yù)測(cè)宏塊比例減少:
(1)如圖1(a),突變出現(xiàn)在I幀或P幀和B幀之間,此時(shí)B1幀的frontr會(huì)大幅減少,itrar和backr增加。
(2)如圖1(b),突變出現(xiàn)在兩個(gè)B幀之間,此時(shí)B2幀的backr大幅減少,而itrar和frontr增加;B3幀的frontr大幅減少,itrar和backr很大。
(3)如圖1(c),突變發(fā)生在B幀和P幀或I幀之間,這樣B4幀的backr少,itrar和frontr大,P幀的frontr也很少。
圖1 突變出現(xiàn)在可以用宏塊類型檢測(cè)的位置
圖2 突變出現(xiàn)在不能用宏塊類型檢測(cè)的位置
所以可以用itrar,frontr,backr和bidr特征,來檢測(cè)出上面三種突變邊界。
再看如圖2所示的情況,如圖2(a)所示,突變出現(xiàn)在P幀之后和I幀之前時(shí),不能根據(jù)frontr和backr的減少來檢測(cè)邊界,因?yàn)镻幀沒有后向預(yù)測(cè)宏塊,I幀只有幀內(nèi)宏塊;圖2(b)所示,突變邊界出現(xiàn)在IDR幀之前時(shí),IDR幀(立即刷新幀)的出現(xiàn)打破了預(yù)測(cè)鏈,IDR幀和I幀同屬于幀內(nèi)編碼幀,可以將其看成是特殊的I幀,不同的是,IDR幀之后的幀不會(huì)參考它之前的幀預(yù)測(cè)編碼,反之,IDR幀之前的幀也不會(huì)參考它之后的幀預(yù)測(cè)編碼,所以不能根據(jù)B5幀的后向預(yù)測(cè)宏塊減少來檢測(cè)突變邊界。
H.264中幀內(nèi)宏塊有4×4子塊和16×16塊兩種分割尺寸,第一種分割模式適合于多細(xì)節(jié)的圖像區(qū)域,而后一種模式適合編碼平坦的區(qū)域。所以I幀的宏塊尺寸分割信息代表了其內(nèi)容的細(xì)節(jié)。比較兩個(gè)I幀的宏塊分割模式分布情況,它們之間的內(nèi)容變化可以被檢測(cè)到,所以針對(duì)突變幀出現(xiàn)在I幀的情況,較多的文獻(xiàn)采用直接比較兩個(gè)I幀的分割模式差異[3-4,6]來檢測(cè)邊界。這種方法不可靠,因?yàn)閮蓚€(gè)I幀之間還有許多P幀和B幀,內(nèi)容可能已經(jīng)發(fā)生了很大的變化。文獻(xiàn)[7]和文獻(xiàn)[11]定義了幀內(nèi)分割模式圖(intra partitioning map),圖從第一個(gè)I幀開始記錄每幀的幀內(nèi)宏塊分割模式,后續(xù)幀中遇到幀內(nèi)宏塊,就將圖內(nèi)對(duì)應(yīng)宏塊的分割模式更新。然后將I幀的幀內(nèi)分割情況與前一幀的幀內(nèi)分割圖的情況比較,將差異和閾值比較來判斷是否發(fā)生了突變。采用這種方式的不足是,物體或攝像頭的運(yùn)動(dòng)或?qū)е抡`檢測(cè)。
I幀中4×4亮度塊有9種預(yù)測(cè)模式,16×16亮度塊有4種預(yù)測(cè)模式,共有13種預(yù)測(cè)模式。不同的預(yù)測(cè)模式描述了不同的紋理結(jié)構(gòu),例如垂直預(yù)測(cè)模式適合編碼具有垂直邊緣的宏塊。本文定義幀內(nèi)預(yù)測(cè)模式圖,根據(jù)I幀和其前一幀的幀內(nèi)預(yù)測(cè)模式圖的差異,來檢測(cè)發(fā)生在I幀的突變邊界。幀內(nèi)預(yù)測(cè)模式圖用矩陣M記錄每幀的等效幀內(nèi)預(yù)測(cè)模式:式(1)中amn為圖像中4×4宏塊的預(yù)測(cè)模式,16×16宏塊可看成16個(gè)預(yù)測(cè)模式相同的4×4宏塊。M從第一個(gè)I幀開始記錄幀內(nèi)預(yù)測(cè)模式,后續(xù)幀中遇到幀內(nèi)宏塊,就將M中對(duì)應(yīng)宏塊的預(yù)測(cè)模式更新。
用變量m(k=0,1,…,12,對(duì)應(yīng)13種預(yù)測(cè)模式)表示
這樣,可以根據(jù)I幀和其前一幀的Ω來檢測(cè)發(fā)生在圖2所示位置的突變邊界。
綜上所述,提取的突變邊界的特征有:itrar,frontr,backr,bidr,Ω和幀類型ftype。
本文構(gòu)造的特征Ω,利用矩陣M記錄對(duì)應(yīng)幀的等效幀內(nèi)預(yù)測(cè)模式圖,避免了要直接比較兩個(gè)跨度大的I幀的缺點(diǎn),同時(shí)采用比較兩個(gè)相鄰幀M的預(yù)測(cè)模式直方圖的方式,而不是對(duì)應(yīng)宏塊進(jìn)行比較,抗干擾性能提高。將Ω和其他幾個(gè)特征融合在一起,也更有利于檢測(cè)發(fā)生在P幀和B幀的突變。第i幀M中預(yù)測(cè)模式為k的4×4宏塊數(shù)。計(jì)算前后幀M的預(yù)測(cè)模式直方圖差異如式(2)。
2.2 漸變邊界特征
漸變鏡頭邊界會(huì)延續(xù)十幾幀至上百幀,而P幀的間隔一般在5幀以內(nèi),典型的編碼序列為IBBPBBP…,P幀間隔為2幀,所以選擇先在P幀層檢測(cè)漸變邊界。當(dāng)出現(xiàn)漸變邊界時(shí),連續(xù)多個(gè)P幀的幀內(nèi)預(yù)測(cè)宏塊比例itrar較大。如圖3所示為anni005視頻中第1 010號(hào)到1 130號(hào)P幀中itrar的變化情況,當(dāng)漸變鏡頭邊界出現(xiàn)時(shí),連續(xù)P幀的itrar會(huì)呈現(xiàn)一個(gè)峰值區(qū)域。設(shè)置一個(gè)長(zhǎng)度為N幀的滑動(dòng)窗口,選取N=7,當(dāng)前幀處于窗口的中心,可以根據(jù)這個(gè)窗口內(nèi)P幀的itrar特征,來判定當(dāng)前幀是否屬于漸變幀。
圖3 漸變過程中幀內(nèi)宏塊比例的變化
只根據(jù)幀內(nèi)宏塊比例一個(gè)特征來判斷漸變,還不夠準(zhǔn)確,因?yàn)楫?dāng)視頻內(nèi)容中有物體運(yùn)動(dòng)或攝像頭運(yùn)動(dòng)時(shí)也會(huì)造成幀內(nèi)宏塊數(shù)上升。文獻(xiàn)[7]提出了將圖像分割為前景和后景,再根據(jù)前景和后景的運(yùn)動(dòng)活性度來排除運(yùn)動(dòng)干擾的方法,但前后景分割的計(jì)算量大。漸變主要有淡入/淡出,慢轉(zhuǎn)換和掃轉(zhuǎn)換幾類。淡入/淡出和慢轉(zhuǎn)換的運(yùn)動(dòng)很小,全局一致性運(yùn)動(dòng)為零,掃轉(zhuǎn)換整體向一個(gè)方向運(yùn)動(dòng),具有運(yùn)動(dòng)的一致性[10]。文獻(xiàn)[10]根據(jù)漸變運(yùn)動(dòng)的一致性特點(diǎn),定義了運(yùn)動(dòng)混亂度來排除運(yùn)動(dòng)的干擾。用mchaosi表示第i幀的運(yùn)動(dòng)混亂度,mchaosi的計(jì)算如下:
其中MN為一幀中4×4子宏塊數(shù),mvxj和mvyj表示第j個(gè)4×4子宏塊對(duì)應(yīng)的運(yùn)動(dòng)矢量。
如圖4所示為anni005視頻中第1 550號(hào)到1 630號(hào)P幀中itrar和mchaos的變化情況,當(dāng)mchaos很大時(shí),即使出現(xiàn)了itrar峰值區(qū)域也不是漸變邊界。
圖4 漸變過程中運(yùn)動(dòng)混亂度的特征
所以要提取的漸變特征有連續(xù)N個(gè)P幀的itrar,mchaos。
本文選用前后連續(xù)N個(gè)P幀的itrar,mchaos作為漸變特征,避免了只采用連續(xù)幾個(gè)P幀的幀內(nèi)宏塊比例作為特征的缺點(diǎn)。在避免物體或攝像頭運(yùn)動(dòng)干擾的方法上,與文獻(xiàn)[7]的方法比,mchaos的提取,比分割前后景和計(jì)算運(yùn)動(dòng)活性度的復(fù)雜度低很多。與文獻(xiàn)[10]的差異在于,文獻(xiàn)[10]將I幀的DC系數(shù)和mchaos結(jié)合來檢測(cè)漸變,而DC系數(shù)提取的復(fù)雜度接近完全解碼。
3.1 Biased-SVM
SVM(支持向量機(jī))是根據(jù)統(tǒng)計(jì)學(xué)習(xí)理論中的結(jié)構(gòu)風(fēng)險(xiǎn)最小化原理提出的機(jī)器學(xué)習(xí)方法,通過調(diào)節(jié)分類決策函數(shù),構(gòu)造最佳分類超平面,對(duì)有限樣本分類問題具有獨(dú)特優(yōu)勢(shì),且具有較好的泛化能力。不平衡數(shù)據(jù)集是指數(shù)據(jù)集中某一類數(shù)據(jù)遠(yuǎn)小于其他類數(shù)據(jù),如視頻幀序列中屬于鏡頭邊界的幀數(shù)遠(yuǎn)少于不屬于邊界的幀數(shù)。在處理不平衡數(shù)據(jù)分類時(shí),SVM方法遇到的主要問題是分類面會(huì)靠近少數(shù)類,從而容易錯(cuò)分少數(shù)類[12]。Biased-SVM模型[13]對(duì)于正負(fù)類樣本數(shù)據(jù)采用不同的懲罰因子,來解決處理不平衡數(shù)據(jù)的分類問題。給定正類樣本數(shù)據(jù)的懲罰因子為C+,負(fù)類樣本數(shù)據(jù)的懲罰因子為C-,負(fù)類為多數(shù)樣本數(shù)據(jù),正類為少數(shù)樣本數(shù)據(jù)。這樣,SVM的目標(biāo)函數(shù)變?yōu)槭剑?)[13]。
為求解式(6)的二次規(guī)劃問題,可得到它的等價(jià)對(duì)偶問題如式(7)。當(dāng)給定的多數(shù)類的懲罰因子小于少數(shù)類懲罰因子時(shí),分類面就會(huì)靠近多類數(shù)據(jù)[12]。
關(guān)于參數(shù)C+和C-的設(shè)定,文獻(xiàn)[14]提出了多數(shù)類與少數(shù)類懲罰因子的比例等于少數(shù)類與多數(shù)類樣本的比例的方法。文獻(xiàn)[13]對(duì)于懲罰因子C-和C+的選取進(jìn)行了研究,提出了使用樣例平均密度選取參數(shù)的方法。本文采用文獻(xiàn)[14]的思想先確定C-和C+值的范圍,再通過交叉驗(yàn)證對(duì)C-和C+進(jìn)行遍歷式的參數(shù)調(diào)優(yōu),直到正負(fù)類樣例都取得最佳準(zhǔn)確率。正負(fù)類準(zhǔn)確率都取得最佳的評(píng)價(jià)標(biāo)準(zhǔn)的計(jì)算如式(8),這也是不平衡數(shù)據(jù)集研究中廣泛采用的評(píng)價(jià)標(biāo)準(zhǔn)[13]。
式(8)中acc+和acc-分別為正類樣本和負(fù)類樣本的分類正確率。
3.2 鏡頭邊界檢測(cè)
首先構(gòu)造特征矢量。根據(jù)上面描述的突變邊界特征,從H.264視頻幀中提取的突變邊界的特征矢量為xcut=(itrar,frontr,backr,bidr,Ω,ftype),考慮到每幀是否為鏡頭邊界幀與其前后幀聯(lián)系緊密,選用連續(xù)5幀的滑動(dòng)窗口,窗口中心為當(dāng)前幀,這樣對(duì)于當(dāng)前幀可以構(gòu)造一個(gè)30維的突變特征矢量,如式(9),i為第i幀。根據(jù)漸變邊界特征,提取的特征矢量為xgra=(itrar,mchaos),同樣建立長(zhǎng)度為7幀的窗口,窗口中心為當(dāng)前幀,對(duì)于當(dāng)前幀構(gòu)造一個(gè)14維的漸變特征矢量,式(10)為漸變邊界的特征矢量。
然后,訓(xùn)練突變邊界分類器SVM1和漸變邊界分類器SVM2。選用典型的H.264視頻段構(gòu)成訓(xùn)練視頻集,從這些訓(xùn)練視頻的H.264碼流中,提取出(,)構(gòu)成樣本集,來訓(xùn)練SVM得到分類突變幀的SVM1模型,=+1為突變邊界幀,也即為正類樣本,=-1為非突變邊界幀,也即為負(fù)類樣本,i=0,1,…,l,l為訓(xùn)練樣本個(gè)數(shù)即幀數(shù);提取出樣本集(,),訓(xùn)練SVM得到分類漸變幀的SVM2模型,=+1為漸變邊界幀,=-1為非邊界幀。具體訓(xùn)練SVM的樣本選取及參數(shù)的設(shè)定在第4章給出。
最后用SVM1和SVM2分類出突變幀和漸變幀。圖5所示為利用SVM檢測(cè)鏡頭邊界的過程。先從H.264視頻幀提取突變邊界特征,利用SVM1模型將視頻幀分為突變幀或非突變幀;如果非突變幀為P幀,則提取漸變邊界特征,利用SVM2將非突變幀分為漸變幀或非邊界幀。
圖5 利用SVM檢測(cè)邊界幀的過程
3.3 鏡頭邊界修正
利用SVM模型分類得到的邊界幀,需要修正以減少誤撿和漏檢,還有漸變邊界幀是在P幀層檢測(cè)的,得到的漸變幀不連續(xù)。修正步驟如下:
(1)在P幀層,如果前后兩個(gè)漸變幀的間隔小于等于2幀,則將它們中間的間隔幀改為漸變幀,若中間的幀為突變幀則保持不變。
(2)在P幀層,在步驟(1)后,如果連續(xù)的漸變幀數(shù)小于等于2,則將這1或2幀漸變幀改為非邊界幀。
(3)上面兩步之后,將兩個(gè)漸變幀之間的非P幀改為漸變幀,其中若有突變幀則保持不變。
(4)最后,若連續(xù)的漸變幀中間有突變幀,則保留突變幀,將這些連續(xù)的漸變幀改為非邊界幀。
實(shí)驗(yàn)平臺(tái)及數(shù)據(jù)介紹:實(shí)驗(yàn)的PC機(jī)配置為Pentium?雙核,2.7 GHz,2.00 GB內(nèi)存。SVM的實(shí)現(xiàn)是基于LIBSVM的C-SVM,核函數(shù)選擇RBF核函數(shù)。為了測(cè)試所提算法的性能及方便與其他算法比較,選擇了TRECVID-2001視頻集中的部分視頻進(jìn)行實(shí)驗(yàn)。這個(gè)視頻集中的視頻是MPEG壓縮格式的,進(jìn)行實(shí)驗(yàn)前,先將選取的視頻重新編碼成H.264格式的。編碼參數(shù)為:main profile,30 frame/s,I幀周期為60,幀序列結(jié)構(gòu)為IBBPBBP…。
4.1 樣本選取及參數(shù)設(shè)定
SVM訓(xùn)練的樣本選取和參數(shù)設(shè)定:選取bor08,nad53,senses111三個(gè)視頻段用做訓(xùn)練SVM模型用的視頻集,其中bor08共有50 569幀,含有375個(gè)突變和153個(gè)漸變;nad53共有25 783幀,含有81個(gè)突變和77個(gè)漸變;senses111共有86 789幀,含有292個(gè)突變和16個(gè)漸變。
訓(xùn)練SVM1模型:選取RBF核函數(shù)參數(shù)g=1/d,d為特征維數(shù),得g1=0.033。從三個(gè)視頻段中提取得到三個(gè)樣本集,每次選擇一個(gè)樣本集作為測(cè)試集,剩下的作為訓(xùn)練集,用K交叉驗(yàn)證法和網(wǎng)格法,尋找取得最佳a(bǔ)_mean時(shí)的懲罰因子用確定的最優(yōu)參數(shù)g1,和,在三個(gè)樣本集一起構(gòu)成的訓(xùn)練集上訓(xùn)練SVM得到最終的SVM1模型。
4.2 算法檢測(cè)性能
算法性能測(cè)試:為了與文獻(xiàn)[15-16]進(jìn)行比較,選取了視頻集中的anni005,anni009,bor03三個(gè)視頻作為測(cè)試視頻,來測(cè)試所提算法的性能。常用查全率、準(zhǔn)確率兩個(gè)標(biāo)準(zhǔn)來評(píng)價(jià)鏡頭檢測(cè)算法的性能。為了綜合評(píng)價(jià)檢測(cè)性能,還采用了式(13)定義的指標(biāo)F。的問題。在圖6中,與其他方法的綜合指標(biāo)F進(jìn)行了對(duì)比,總體上有更好的性能。
表2 與其他算法性能的對(duì)比(%)
圖6 與其他算法的綜合指標(biāo)F對(duì)比
其中,Nc為正確檢測(cè)到的邊界數(shù);Nm為漏檢的邊界數(shù);Nf為錯(cuò)誤檢測(cè)的邊界數(shù)。
表1列出了測(cè)試視頻的鏡頭邊界信息和所提算法的檢測(cè)性能信息??傮w上突變邊界的檢測(cè)性能比漸變邊界的性能高很多,anni009視頻中含有較多的漸變鏡頭邊界,其中部分漸變幀,尤其是具有明顯光照變化的漸變邊界幀被誤檢為突變幀,影響了突變邊界的檢測(cè)性能。bor03視頻中漸變鏡頭所占比例很少,少數(shù)的誤檢在式(12)中也會(huì)得到較低的準(zhǔn)確率,所以出現(xiàn)了一個(gè)很低的準(zhǔn)確率。
表1 測(cè)試視頻特征及本文算法檢測(cè)性能
表2是與其他同類算法的檢測(cè)性能對(duì)比表。表2中的查全率和準(zhǔn)確率,是將突變和漸變放在一起計(jì)算得到的。文獻(xiàn)[3]算法的數(shù)據(jù)是通過重復(fù)其算法計(jì)算得出的,文獻(xiàn)[15]和文獻(xiàn)[16]算法的數(shù)據(jù)是通過讀取文獻(xiàn)[15]中的結(jié)果圖得到的。文獻(xiàn)[3]算法的查全率高,但檢測(cè)準(zhǔn)確率低。與文獻(xiàn)[15]和文獻(xiàn)[16]算法對(duì)比,在含有較多漸變邊界的視頻anni005和anni009上比較,本文算法有更高的準(zhǔn)確率,但由于鏡頭邊界修正的第(4)步將一些漸變邊界誤判為突變邊界,使得anni009上的查全率較低。文獻(xiàn)[15]和文獻(xiàn)[16]算法可以調(diào)節(jié)閾值的參數(shù),所以適合檢測(cè)突變邊界較多的視頻bor03,本文算法在bor03視頻上的準(zhǔn)確率低些。從上面的比較可以看出,本文算法在檢測(cè)漸變邊界方面有更好的性能,突變邊界方面也有不錯(cuò)的性能,同時(shí)沒有閾值選擇
4.3 計(jì)算復(fù)雜度
所提算法的復(fù)雜度,包括特征矢量的提取和邊界分類兩個(gè)過程。itrar,frontr backr,bidr,ftype,mchaos的提取主要是判斷語句和一些簡(jiǎn)單的統(tǒng)計(jì)運(yùn)算,Ω的提取雖然用到了矩陣,但沒有矩陣的乘除等復(fù)雜運(yùn)算。所以特征提取過程的時(shí)間復(fù)雜度為O(l),l為要處理的視頻幀數(shù),空間復(fù)雜度為O(1)。SVM分類的時(shí)間復(fù)雜度為O(l·nsv),空間復(fù)雜度為O(nsv),nsv為支持向量個(gè)數(shù),SVM模型訓(xùn)練好之后,nsv是個(gè)常數(shù)。所以本文算法時(shí)間和空間復(fù)雜度分別為O(l·nsv)+O(l),O(nsv)+O(1)。在特征提取階段,其他H.264壓縮域的檢測(cè)算法復(fù)雜度與本文區(qū)別不大,因?yàn)樘崛『陦K類型,預(yù)測(cè)模式,運(yùn)動(dòng)矢量等信息的過程一樣,只是由這些信息構(gòu)成特征時(shí)不同算法有所不同。復(fù)雜度的區(qū)別在于,本文采用了SVM分類,而其他文獻(xiàn)采用閾值或動(dòng)態(tài)閾值來分類。文獻(xiàn)[3],文獻(xiàn)[15]和文獻(xiàn)[16]算法的時(shí)間和空間復(fù)雜度分別為O(l)+O(l),O(1)+O(1)。本文的復(fù)雜度高些。
由于特征的提取是在H.264/AVC的參考軟件JM8.6的ldecod上實(shí)現(xiàn)的,ldecod的后續(xù)解碼會(huì)影響本文算法的時(shí)間消耗統(tǒng)計(jì),所以不能給出完整算法的時(shí)間消耗情況。這里給出SVM分類階段的時(shí)間消耗情況:在anni005視頻上實(shí)驗(yàn),SVM分類時(shí)間消耗為9.51 s,在anni009上為7.78 s。而用JM8.6完全解碼這兩個(gè)視頻消耗的時(shí)間分別為1 516.34 s和1 582.34 s。在特征提取階段不需要進(jìn)行運(yùn)動(dòng)補(bǔ)償,反余弦變換等一些在解碼過程中非常耗時(shí)的運(yùn)算,所以耗時(shí)很小。可以得出的結(jié)論是,本文算法的時(shí)間消耗遠(yuǎn)小于完全解碼的時(shí)間消耗。
本文將Biased-SVM應(yīng)用到H.264壓縮域檢測(cè)鏡頭邊界上,避免了閾值選擇的問題,融合了幀類型、宏塊類型、運(yùn)動(dòng)矢量、幀內(nèi)預(yù)測(cè)模式和幀內(nèi)宏塊比率等多個(gè)特征,提高了檢測(cè)性能。在TRECVID視頻集上實(shí)驗(yàn),與其他3個(gè)H.264壓縮域的算法比較,所提算法的漸變邊界檢測(cè)性能明顯較好,綜合性能也更好。但是SVM模型的訓(xùn)練對(duì)于檢測(cè)性能和泛化能力影響很大,所以需要進(jìn)一步研究SVM模型的訓(xùn)練,參數(shù)的選擇,以及更多類型漸變邊界的檢測(cè)。
[1]陳萍,李秀強(qiáng),肖國強(qiáng),等.基于視覺注意特征和SVM的鏡頭邊界檢測(cè)算法[J].計(jì)算機(jī)工程與應(yīng)用,2010,46(7):184-186.
[2]曹建榮,蔡安妮.壓縮域中基于支持向量機(jī)的鏡頭邊界檢測(cè)算法[J].電子學(xué)報(bào),2008,36(1):203-208.
[3]夏定元,謝慧琳.一種在H.264/AVC壓縮域中檢測(cè)鏡頭邊界的方法[J].中國圖象圖形學(xué)報(bào),2009,14(12):2595-2598.
[4]高宇,卓力,王素玉,等.一種基于H.264/AVC壓縮域的GOP級(jí)視頻場(chǎng)景轉(zhuǎn)換檢測(cè)算法[J].電子學(xué)報(bào),2010,38(2):382-386.
[5]Zeng W,Cao W.Shot change detection on H.264/AVC compressed video[C]//IEEE International Symposium Oil Circuits and Systems,2005:3459-3462.
[6]Hong B,Eom M.Scene change detection using edge direction based on intra prediction mode in H.264/AVC compression domain[C]//2006 IEEE Region 10 Conference,TENCON 2006,2006:1-4.
[7]Bruyne S D,Deursen D V,Cock J D,et al.A compresseddomain approach for shot boundary detection on H.264/AVC bit streams[J].Signal Processing:Image Communication,2008, 23(7):473-489.
[8]Yu Z Y,Lin Z P.Scene change detection using motion vectors and DC components of prediction residual in H.264 compressed videos[C]//7th IEEE Conference on Industrial Electronics and Applications,2012:990-995.
[9]南哲萬,阮秋琦.一種新的H.264視頻場(chǎng)景切換檢測(cè)算法[J].計(jì)算機(jī)工程與應(yīng)用,2011,47(8):1-3.
[10]龔聲蓉,范益進(jìn),周翔.一種基于H.264/AVC碼流的鏡頭邊界檢測(cè)方法[J].小型微型計(jì)算機(jī)系統(tǒng),2007,28(4):688-691.
[11]Bruyne S D,Cock J D,Poppe C,et al.Compressed-domain shot boundary detection for H.264/AVC using intra partitioning maps[C]//17th International Multimedia Modeling Conference,2011:29-39.
[12]王和勇,樊泓坤,姚正安.SMOTE和Biased-SVM相結(jié)合的不平衡數(shù)據(jù)分類方法[J].計(jì)算機(jī)科學(xué),2008,35(5):174-176.
[13]金鑫,李玉鑑.不平衡支持向量機(jī)的懲罰因子選擇方法[J].計(jì)算機(jī)工程與應(yīng)用,2011,47(33):129-133.
[14]Akbani R,Kwek S,Japkowicz N.Applying support vector machines to imbalanced datasets[C]//15th European Conference on Machine Learning,2004:214-220.
[15]Feng J,Huang A A,Chen Y W.A novel scene change detection algorithm for H.264/AVC bitstreams[C]//Pacific-Asia Workshop on Computational Intelligence and Industrial Application,2008:712-716.
[16]Kim S M,Byun J W,Won C S.A scene change detection in H.264/AVC compression domain[C]//6th Pacific Rim Conference on Multimedia,2005:1072-1082.
YOU Yunxi,ZHANG Endi,GOU Zhijian
School of Physics and Microelectronics Science,Hunan University,Changsha 410082,China
In order to detect shot boundaries in H.264 bit streams,a shot boundary detection method using compressed domain features of H.264 and Biased-SVM(Biased Support Vector Machine)is proposed.The features about the abrupt shot changes and gradual shot changes are obtained by analyzing the information of frame type,macroblock type,motion vector,intra-prediction mode,etc.As the number of shot boundary frames is far fewer than the total number of video frames,proposed method chooses Biased-SVM to classify the frames into three classes,namely,the frames of abrupt change,gradual change and non-change.Experimental results on TRECVID video dataset indicate that the presented approach has better performance on shot boundary detection, compared with other method in H.264 compressed domain.
shot boundary detection;H.264 compressed domain;biased Support Vector Machine(SVM)
為了直接從H.264碼流中檢測(cè)鏡頭邊界,提出了利用H.264壓縮域多特征和Biased-SVM(不平衡支持向量機(jī))分類算法的檢測(cè)方法。分析幀類型、宏塊類型、運(yùn)動(dòng)矢量、幀內(nèi)預(yù)測(cè)模式等信息,以獲得發(fā)生鏡頭突變和漸變的特征。針對(duì)鏡頭邊界幀的數(shù)量遠(yuǎn)少于視頻幀總數(shù)的特點(diǎn),用Biased-SVM分類方法將視頻幀分為突變幀、漸變幀和非鏡頭邊界幀。在TRECVID視頻集上的實(shí)驗(yàn)結(jié)果表明,與其他H.264壓縮域的算法相比,該算法有更好的性能。
鏡頭邊界檢測(cè);H.264壓縮域;不平衡支持向量機(jī)
A
TP391.41
10.3778/j.issn.1002-8331.1307-0192
YOU Yunxi,ZHANG Endi,GOU Zhijian.Shot boundary detection using Biased-SVM in H.264 compressed domain. Computer Engineering and Applications,2013,49(24):138-143.
國家科技支撐計(jì)劃資助項(xiàng)目(No.2012BAD35B06)。
游運(yùn)喜(1988—),男,碩士研究生,研究領(lǐng)域?yàn)閿?shù)字圖像處理;張恩迪(1964—),男,高級(jí)工程師,研究領(lǐng)域?yàn)樾盘?hào)處理;茍志堅(jiān)(1986—),男,碩士研究生,研究領(lǐng)域?yàn)閿?shù)字圖像處理。E-mail:youyunxi@qq.com
2013-07-15
2013-08-29
1002-8331(2013)24-0138-06
CNKI出版日期:2013-10-11http://www.cnki.net/kcms/detail/11.2127.TP.20131011.1653.003.html