■文/岳占峰
融合音視頻上下文時序特征的視頻片段檢測
■文/岳占峰
視頻片段的自動檢測是智能廣告管理系統(tǒng)的重要組成部分。相比于之前的廣告視頻檢測方法只使用音視頻特征,我們提出了一種利用SVM-DP融合音視頻全局時序特征來自動檢測疑似廣告視頻片段的方法。首先,視頻被分割為以鏡頭為單元的視頻序列,然后在以鏡頭起始點為中心的多維特征窗中提取具有上下文信息的音視頻特征,結(jié)合支持向量機進(jìn)行融合,獲取當(dāng)前鏡頭分別作為廣告和節(jié)目的概率值。將這些概率值作為觀察值構(gòu)建一條以鏡頭為單元、以廣告和節(jié)目為兩個狀態(tài)的馬爾科夫鏈。最后分別根據(jù)最小持續(xù)時長和最大分割數(shù)目約束作為搜索的約束條件,利用動態(tài)規(guī)劃算法進(jìn)行最優(yōu)路徑的選擇。以我國電視節(jié)目的真實視頻數(shù)據(jù)進(jìn)行實驗,證明了這種方法的有效性。
融合音視頻;山下文時序;視頻片段
當(dāng)前,大量的電視廣告視頻對我們的日常生活產(chǎn)生了很大影響。從電視節(jié)目中檢測廣告視頻片段,可以幫助觀眾跳過廣告片段,也可以從廣告視頻中獲取更多的信息。作為智能廣告管理系統(tǒng)的重要組成部分,廣告視頻片段檢測方法近幾年吸引了越來越多的注意力。
有些研究人員從定義規(guī)則的角度,采用諸如黑幀,電視臺標(biāo)的隱藏,或者幾種特征融合的方法來檢測廣告片段,但是這類方法非常依賴于這些特殊的規(guī)則,不具有通用性。后來有些學(xué)者提出基于重復(fù)視頻片段檢測的方法,這類方法利用視頻中的圖像幀指紋、聲音指紋以及高效的索引結(jié)構(gòu),取得了較好的效果。但是這類方法的缺陷是在檢測的范圍內(nèi)廣告視頻片段未必重復(fù)。
為了解決上述問題,研究人員嘗試采用基于學(xué)習(xí)的方法和各式各樣的語義信息等來區(qū)分廣告片段和正常節(jié)目片段。Hua利用基于支持向量機的分類器和多種音視頻特征將每個鏡頭分為廣告鏡頭和節(jié)目鏡頭。Liu利用一個交互的全局學(xué)習(xí)方法Tri-AdaBoost進(jìn)行視頻、音頻、紋理的語義融合。但是,據(jù)我們所知,很少有人在利用全局時序特征方面做過深入的研究,而全局時序特征對于提升基于鏡頭的視頻檢測是非常重要的。
在本文中,我們提出了一種新的SVM-DP方法,該方法綜合利用包含上下文信息的音視頻全局時序特征來檢測廣告片段,并通過最小持續(xù)時長約束(MDC)和最大分割數(shù)目約束(MSC)來描述全局時序特征。該方法首先利用音視頻特征和SVM分類器分別將每個鏡頭作為廣告和節(jié)目的概率值獲取,然后這些概率值被作為一個關(guān)于廣告片段和正常節(jié)目兩個狀態(tài)的馬爾科夫鏈的觀察值,最后分別把MDC和MSC作為約束條件利用動態(tài)規(guī)劃算法進(jìn)行最優(yōu)路徑選擇,獲取最優(yōu)的檢測結(jié)果。
1.1廣告音視頻特征選擇
廣告片段是一類特殊的電視視頻,其播放時間較短,但希望引起觀眾的注意,并向觀眾傳遞商品信息。因此廣告視頻的視覺特征在空間和時序變化都較正常節(jié)目更加劇烈,可從中提取邊緣變化率的均值和方差(2維)、幀間差異度的均值和方差(2維)和鏡頭頻率(1維)等特征。此外廣告片段中的音頻通常也具有區(qū)別正常節(jié)目的信息,比如持續(xù)吸引力的旋律。為此可從中提取音頻場景直方圖(靜音、說話、音樂、帶背景音樂的說話聲和環(huán)境音)(5維)。
FMPI (Image Frames Marked with Product Information,標(biāo)記產(chǎn)品信息的圖像幀)常被用來分割、識別和檢索廣告視頻。廣告視頻片段通常由許多廣告鏡頭組成,因此包含廣告標(biāo)題圖像(FMPI)的廣告鏡頭會經(jīng)常在廣告片段中出現(xiàn),而在非廣告片段中卻很少出現(xiàn)。為此,F(xiàn)MPI圖像的比率(1維)可被用來預(yù)測廣告片段是否出現(xiàn)。FMPI圖像的比率被定義為RFMPI=NFMPI/tfw,其中NFMPI表示特征窗口中FMPI圖像的個數(shù),tfw表示特征窗口的長度。
1.2斐波那契序列特征窗口
眾所周知,當(dāng)區(qū)分廣告和正常視頻時,當(dāng)前視頻鏡頭的上下文(neighborhoods)是非常重要的信息。為了獲取包含上下文信息的特征,音視頻特征都是從當(dāng)前鏡頭以及它周圍的一個多重滑動特征窗中提取。特征窗從當(dāng)前鏡頭的起始時間為中心分別向兩邊擴展。特征窗的長度為F(i)*ts,i=2,...,n ,其中F(i)是斐波那契序列,ts表示時間步。因此,我們可以得到2*(n-1)+1個特征窗口。實驗中我們設(shè)置ts=5秒,n=6,從而可得到一個121維的特征向量。
1.3基于SVM的分類器
通過訓(xùn)練SVM分類器來融合上述音視頻特征到廣告片段和正常節(jié)目片段的后驗概率中。SVM分類器的有效性高度受限于模型參數(shù)的選擇,由于我們使用的是RBF核,所以必須優(yōu)化兩個參數(shù),C(軟間隔SVM分類器中的代價參數(shù))和γ(RBF核函數(shù)的寬度)。通過對電視視頻的分析,我們發(fā)現(xiàn)其中廣告鏡頭的數(shù)目和正常節(jié)目鏡頭的數(shù)目是非常失衡的,因此我們需要考慮三個模型參數(shù):Ccm(廣告鏡頭中的代價參數(shù)),Cgp(正常電視鏡頭的代價參數(shù))和γ。實驗中設(shè)定Ccm=Ncm×C(Ncm+Ngp),Cgp=Ngp×C(Ncm+Ngp),其中Ncm和Ngp分別是訓(xùn)練集中廣告鏡頭數(shù)目和正常節(jié)目鏡頭的數(shù)目。此外,我們運用了開源工具LIBSVM,最優(yōu)模型參數(shù)是通過交叉驗證的方式獲取的。
在理想情況下,每一個鏡頭都可以被SVM分類器進(jìn)行正確的區(qū)分,這樣廣告片段就可以很容易地被標(biāo)記出來。但是,在實際過程中,由于音視頻的特征不能很好地適配模型,如果僅僅通過選擇具有最大似然值的模型結(jié)果,經(jīng)常會出現(xiàn)一些較短的誤判,從而產(chǎn)生一個有噪聲的分類結(jié)果,但是通過加入全局的時序特征,這種誤判的結(jié)果可以被消除,因為錯誤匹配結(jié)果持續(xù)的時間很短。由于SVM分類器產(chǎn)生的概率值被認(rèn)為是一個兩狀態(tài)(廣告片段和正常節(jié)目片段)的馬爾科夫鏈的觀察值,所以依賴于不同約束條件的動態(tài)規(guī)劃算法可被引入解決上述問題,其中一個約束條件是廣告片段和正常節(jié)目片段的最小持續(xù)時長,另一個是在給定時間點上的最大分割數(shù)目。
2.1最小持續(xù)時長(MDC)
眾所周知,電視視頻中廣告播出在持續(xù)時長和時間間隔上遵循一定的全局時序性,即廣告片段和正常節(jié)目交替出現(xiàn),并持續(xù)一小段時間。我們可利用最小持續(xù)時長約束進(jìn)行搜索,并嘗試動態(tài)規(guī)劃算法來選擇最優(yōu)的狀態(tài)轉(zhuǎn)移路徑,即在每一個鏡頭單元d最大化累計概率值Li(d)=maxk{Lk(d-1)+Tp(k,i )}+Pi(d),其中Li(d)是在鏡頭單元d,最優(yōu)狀態(tài)i的情況下的累積概率值。Tp(k,i)是從狀態(tài)k轉(zhuǎn)移到狀態(tài)i的轉(zhuǎn)移概率矩陣,Pi(d)是在鏡頭單元d狀態(tài)為i時候的概率值,i=1,2分別為廣告狀態(tài)和正常節(jié)目狀態(tài)。
同時為了完善算法,我們定義新的變量:Bi(d)是狀態(tài)回溯點,記錄在單元點d處,狀態(tài)為i時,在單元點d-1處的最優(yōu)狀態(tài),C*(d)是在單元d處的狀態(tài)標(biāo)號,D是總共候選點的個數(shù),Hi(d)記錄了狀態(tài)轉(zhuǎn)移點的位置,即當(dāng)前狀態(tài)的第一個起始點的位置。搜索算法如下:
初始化:
遞推:
終止:
路徑回溯:
理想情況下,搜索算法中的狀態(tài)轉(zhuǎn)移矩陣Tp(k,i)是從狀態(tài)k轉(zhuǎn)移到狀態(tài)i的轉(zhuǎn)移概率矩陣。準(zhǔn)確的轉(zhuǎn)移概率值應(yīng)由大量實際數(shù)據(jù)模擬獲得,但是這種數(shù)據(jù)很難直接得到。在我們的實驗中,我們采用最小持續(xù)時長約束進(jìn)行近似模擬,主要由廣告片段最小時長 TCM和正常節(jié)目最小時長 TGP來確定。如果tde-tHbi(d)<TCM,其中tde表示在鏡頭單元點d處的結(jié)束時間,tHbi(d)表示在鏡頭單元點Hi(d)處的開始時間,那么從廣告狀態(tài)轉(zhuǎn)移到廣告狀態(tài)的概率設(shè)為0.65,從廣告狀態(tài)轉(zhuǎn)移到正常節(jié)目狀態(tài)的概率設(shè)為0.35,反之我們就將從廣告狀態(tài)到廣告狀態(tài)和從廣告狀態(tài)到正常節(jié)目狀態(tài)的轉(zhuǎn)移概率分別設(shè)為0.55、0.45。
2.2最大分割數(shù)目約束
在一段給定的視頻片段中,廣告片段和正常節(jié)目片段的總數(shù)總會存在一個最大值,因此在這種情況下,最優(yōu)的分類路徑可以通過最大化累積概率值來獲取,通過一個對分割總數(shù)目的約束條件下的動態(tài)規(guī)劃算法實現(xiàn)。在這個算法中,對于任意兩個鏡頭單元,起始點 db和結(jié)束點de構(gòu)成的單元點區(qū)間,它作為一個狀態(tài)序列最大的累積概率值設(shè)為,用來記錄在這個狀態(tài)下最優(yōu)的狀態(tài)索引:
其中Pi(d)是當(dāng)前鏡頭單元點d的觀察值。對于在區(qū)間(db,de)擁有n個分割片段的最優(yōu)路徑也就是當(dāng)結(jié)束點在db-1時擁有n-1個分割片段的情況。因此,在給定所有的任意兩個鏡頭單元點的最優(yōu)質(zhì)獲取的情況下,并且允許最大分割片段數(shù)據(jù)(Nmax)的情況下,整體的結(jié)束點為 de時分割數(shù)目為n時的累計概率,因此搜索算法如下:
初始化:
遞推:
終止條件:
路徑回溯:
其中D是所有候選點的總數(shù)目,N*是最優(yōu)的分割數(shù)目,L*是累積概率最大值,B(de)(n)記錄了當(dāng)結(jié)束點為 de,分割數(shù)目為n的情況下的最優(yōu)起始點 db通過回溯B(de)(n)和可以獲得最優(yōu)的類別轉(zhuǎn)移點。
我們的實驗數(shù)據(jù)由47小時的視頻數(shù)據(jù)組成,來自國內(nèi)5個電視臺,其中包括12.8小時的廣告視頻數(shù)據(jù)和34.2小時的正常節(jié)目(包含新聞、體育、電視劇和娛樂節(jié)目4種節(jié)目類型)視頻數(shù)據(jù)。所有的視頻數(shù)據(jù)都被分割成5分鐘一段,數(shù)據(jù)中的邊界都通過人工手工標(biāo)注。數(shù)據(jù)一半用來訓(xùn)練,另外一半用來測試。實驗設(shè)置廣告的持續(xù)時長最小設(shè)為20秒,節(jié)目片段的最小時長設(shè)為60秒,五分鐘視頻中廣告片段和節(jié)目片段的最大數(shù)目設(shè)為3。準(zhǔn)確率、召回率和F1值被用來評估實驗結(jié)果。
使用兩段各五分鐘的視頻數(shù)據(jù)作為樣例進(jìn)行實驗,把使用音視頻特征的基于SVM分類器通過最大似然(max likelihood,ML)方法的結(jié)果作為基準(zhǔn),評估兩種約束方法MDC和MSC,測試結(jié)果如圖1所示??梢园l(fā)現(xiàn),MDC和MSC這兩種方法都可以提升分類的結(jié)果,其中MDC可以糾正許多短時的錯誤判斷,MSC則可以消除許多的噪聲片斷。在其他的廣告片段和正常節(jié)目片段的組合形式的視頻中也得到了類似的結(jié)果。
圖1 檢測結(jié)果圖示
由于正常電視節(jié)目種類有多種多樣,為此我們構(gòu)建實驗來驗證在不同類型的視頻數(shù)據(jù)中該方法的有效性。從表1的結(jié)果中可以看出,該方法在所有類型的視頻數(shù)據(jù)中都能取得理想的結(jié)果,比較來說,在運動和娛樂類視頻數(shù)據(jù)中的結(jié)果不太完美,這大概是由于運動和娛樂類的節(jié)目視頻與廣告視頻相比有很多相似的音視頻特征,因為這些類型的視頻都有一些劇烈的相機移動和一些標(biāo)語的使用。從表中可進(jìn)一步看出使用MDC和MSC約束的動態(tài)規(guī)劃算法可以修訂這種短的誤判結(jié)果。
表1 不同類型的正常節(jié)目視頻上的F1值
更進(jìn)一步地,該方法與廣告檢測的共享軟件Comskip[10]進(jìn)行對比,結(jié)果如表2所示。實驗結(jié)果驗證了我們提出的方法使用全局時序特征的有效性。另外,MSC優(yōu)于MDC的表現(xiàn)是因為MDC不能消除一些長的誤分類結(jié)果。
表2 與COMSKIP的性能對比
本文提出了一個兩階段廣告視頻片段檢測方法,該方法首先將電視視頻節(jié)目分割成以鏡頭為單元的視頻鏡頭序列,在以鏡頭起始點為中心的多維特征窗中提取具有上下文信息的音視頻特征,結(jié)合支持向量機進(jìn)行融合,預(yù)測當(dāng)前鏡頭分別作為廣告和節(jié)目的概率值;然后將這些概率值作為觀察值構(gòu)建一條以鏡頭為單元、以廣告和節(jié)目為兩個狀態(tài)的馬爾科夫鏈,這個馬爾科夫鏈可以合并鏡頭為一個片段;最后分別根據(jù)最小持續(xù)時長和最大分割數(shù)目約束作為搜索的約束條件,利用動態(tài)規(guī)劃算法進(jìn)行最優(yōu)路徑的選擇。在真實數(shù)據(jù)集上進(jìn)行的實驗表明我們的方法對多種類型的視頻都是準(zhǔn)確而有效的。在后續(xù)的工作中,我們將會嘗試把MDC和MSC融合到一個統(tǒng)一的搜索過程中。
[1] R. Lienhart, C. Kuhmunch and W. Effelsberg, On the Detection and Recognition of Television Commercials,Proc of IEEE Conf. on Multimedia Computing and Systems,1997.
[2] A.Albiol, M.J.Ch, F.A.Albiol and L.Torres, Detection of TV commercials, Proc. of ICASSP, 2004.
[3] X.S. Hua, L. Lu and H.J. Zhang, Robust Learning-based TV Commercial Detection, Proc. of ICME, 2005.
[4] M. Mizutani, S. Ebadollahi and S.F. Chang, Commercial Detection in Heterogeneous Video Streams Using Fused Multi-Modal and Temporal Features, Pro. ICASSP, 2005.
[5] L.Y. Duan, J.Q. Wang, Y. Zheng, J.S. Jin, H.Q. Lu, and C.S. Xu, Segmentation, categorization, and identification of commercials from tv streams using multimodal analysis, Proc. ACM MM06, pages 202-210, 2006.
[6] J.M.Gauch and A.Shivadas, Finding and identifying unknown commercials using repeated video sequence detection, Computer Vision and Image Understanding,103(1):80C88, July 2006.
[7] J.Q. Wang, L.Y. Duan, Q.S. Liu, H.Q. Lu and J.S. Jin, Robust Commercial Retrieval in Video Streams, Proc. ICME, 2007.
[8] H.Duxans, D.Conejero and X.Anguera, Audiobased automatic management of TV commercials, Proc. ICASSP, 2009.
[9] N. Liu, Y. Zhao, Z.F. Zhu, and H.Q. Lu, Exploiting Visual-Audio-Textual Characteristics for Automatic TV Commercial Block Detection and Segmentation, IEEE Transactions on Multimedia, 13(5):961C973,October 2011.
[10] Comskip Online: http://www.kaashoek.com/comskip.
(作者單位:北京版銀科技有限責(zé)任公司)
TN941.2
A
1671-0134(2016)10-025-04
10.19483/j.cnki.11-4653/n.2016.10.006
本文由國家科技支撐計劃支持,課題名稱“數(shù)字版權(quán)資源管理系統(tǒng)研發(fā)與應(yīng)用”,課題編號2014BAH19F01