張赟
(浙江傳媒學(xué)院浙江廣播電視技術(shù)研究所,浙江杭州310018)
新聞視頻單元高效切分方法的研究與實(shí)現(xiàn)
張赟
(浙江傳媒學(xué)院浙江廣播電視技術(shù)研究所,浙江杭州310018)
提出了一個(gè)基于口播檢測(cè)的高效新聞視頻單元切分方法。該方法首先檢測(cè)出新聞視頻的鏡頭邊界;然后從每個(gè)鏡頭中提取出關(guān)鍵幀,并計(jì)算出關(guān)鍵幀的直方圖和SIFT特征;最后通過(guò)關(guān)鍵幀聚類(lèi)獲取新聞視頻中的所有口播鏡頭,并以此為依據(jù)將新聞視頻分割成多個(gè)語(yǔ)義單元。基于以上方法,開(kāi)發(fā)了用于新聞視頻單元切分的軟件系統(tǒng)。該系統(tǒng)能夠準(zhǔn)確、高效地實(shí)現(xiàn)新聞單元的自動(dòng)切分,有效地減輕視頻切分時(shí)的工作強(qiáng)度,滿(mǎn)足新媒體時(shí)代節(jié)目快速制作的要求。
新聞單元切分;口播檢測(cè);直方圖;聚類(lèi)
在傳統(tǒng)媒體時(shí)代,人們大多通過(guò)電視收看視頻節(jié)目,此時(shí)用戶(hù)只能被動(dòng)地接收視頻信息,無(wú)法自主選擇感興趣的節(jié)目。隨著新媒體時(shí)代的到來(lái),用戶(hù)獲取信息的渠道更加廣泛,能夠通過(guò)智能數(shù)字電視、IPTV等方式自主點(diǎn)播喜愛(ài)的電視節(jié)目。此外,智能手機(jī)、平板電腦等移動(dòng)設(shè)備的發(fā)展和普及讓用戶(hù)能夠隨時(shí)隨地觀看感興趣的視頻。在新媒體時(shí)代,每時(shí)每刻都會(huì)產(chǎn)生大量的新視頻,此時(shí)需要快速處理這些視頻并及時(shí)發(fā)布到網(wǎng)絡(luò)平臺(tái)上。如今,不斷擴(kuò)展的應(yīng)用如視頻檢索、瀏覽、標(biāo)注等要求新的技術(shù)和工具對(duì)視頻進(jìn)行高效處理,以上視頻應(yīng)用大多要求根據(jù)語(yǔ)義將視頻切分成多個(gè)片段,然而當(dāng)前視頻切分主要依靠人工勞動(dòng),該方式費(fèi)時(shí)、成本高且易產(chǎn)生錯(cuò)誤,無(wú)法滿(mǎn)足節(jié)目快速制作和發(fā)布的要求。對(duì)計(jì)算機(jī)而言,視頻的結(jié)構(gòu)復(fù)雜,且數(shù)據(jù)量大(尤其是高清視頻),很難自動(dòng)將視頻切分成有語(yǔ)義的片段。一般說(shuō)來(lái),計(jì)算機(jī)更易處理內(nèi)容有規(guī)律的視頻,例如新聞節(jié)目,因?yàn)槠浣Y(jié)構(gòu)性較強(qiáng),且內(nèi)容具有規(guī)律性。新聞大多是“口播鏡頭+新聞故事鏡頭”的結(jié)構(gòu),即每個(gè)新聞單元總是以主持人口播鏡頭為開(kāi)始標(biāo)志,并以下次主持人口播鏡頭的出現(xiàn)為結(jié)束標(biāo)志。基于以上分析,新聞視頻的自動(dòng)切分具有技術(shù)可行性,因此,本文將研究基于主持人口播鏡頭檢測(cè)的新聞視頻單元自動(dòng)切分技術(shù),并將其應(yīng)用于實(shí)際的視頻節(jié)目制作。
1.1 算法總體設(shè)計(jì)
本文提出的新聞單元切分算法分為以下4個(gè)步驟:
1)鏡頭檢測(cè)。采用基于投影函數(shù)的方法[1]快速檢測(cè)出新聞中的鏡頭邊界,并將視頻幀聚類(lèi)成鏡頭。
2)鏡頭聚類(lèi)。利用鏡頭檢測(cè)的結(jié)果,首先從每個(gè)鏡頭中挑選出最能代表鏡頭特征的關(guān)鍵幀,并提取出其中的直方圖和SIFT特征,然后對(duì)所有鏡頭的關(guān)鍵幀進(jìn)行聚類(lèi)。
3)口播鏡頭檢測(cè)。根據(jù)口播鏡頭的統(tǒng)計(jì)特征,分析鏡頭聚類(lèi)的結(jié)果,檢測(cè)出所有口播鏡頭。
4)新聞單元切分。根據(jù)檢測(cè)出的口播鏡頭,確定新聞單元的邊界,實(shí)現(xiàn)新聞單元的自動(dòng)切分。
新聞視頻的基本結(jié)構(gòu)圖如圖1所示。
圖1 新聞視頻的基本結(jié)構(gòu)圖
1.2 鏡頭聚類(lèi)
本文采用基于投影函數(shù)的方法[1]高效、準(zhǔn)確地生成新聞視頻的鏡頭,然后通過(guò)鏡頭聚類(lèi)自動(dòng)識(shí)別出主持人口播鏡頭。本節(jié)首先對(duì)鏡頭聚類(lèi)的方法進(jìn)行分析。如圖2所示,第一行是4張不同時(shí)段主持人口播鏡頭中的圖像幀,第二行是4張不同新聞故事鏡頭中的圖像幀。此時(shí)可以發(fā)現(xiàn):盡管主持人鏡頭中會(huì)發(fā)生不同主持人的切換,但是其背景圖像的特征基本相似,而對(duì)于不同的新聞故事鏡頭,其圖像內(nèi)容的變化非常大。因此,基于以上分析可以預(yù)測(cè)鏡頭聚類(lèi)能夠?qū)⒍啻吻医惶娉霈F(xiàn)的主持人口播鏡頭聚類(lèi)到一起(如圖3所示),而其余新聞故事鏡頭由于相互之間的差別較大,一般不太可能聚類(lèi)到一起。
圖2 新聞單元切分各步驟的示意圖
圖3 不同時(shí)段主持人口播鏡頭和新聞故事鏡頭中的圖像幀(截圖)
下面給出鏡頭聚類(lèi)的算法描述。首先采用基于解壓的鏡頭獲?。?]所提出的方法從鏡頭中提取出關(guān)鍵幀。為了更好的魯棒性和準(zhǔn)確性,本文采用基于顏色量化的直方圖[3]以及改進(jìn)的SIFT特征點(diǎn)[4]來(lái)表示關(guān)鍵幀的特征,此時(shí)的鏡頭聚類(lèi)就是其對(duì)應(yīng)關(guān)鍵幀的聚類(lèi)。然后定義鏡頭間的距離,如式(1)所示,不同鏡頭間的距離是其對(duì)應(yīng)關(guān)鍵幀的直方圖距離和SIFT特征匹配度的加權(quán)和。
式中:Dhist(i,j)表示鏡頭i和j對(duì)應(yīng)關(guān)鍵幀的直方圖距離,表示鏡頭i和j之間SIFT特征的匹配度,mi,j表示鏡頭i和j對(duì)應(yīng)關(guān)鍵幀上匹配的SIFT特征點(diǎn)的個(gè)數(shù),λ用于表示直方圖距離與SIFT特征匹配在鏡頭相似性度量中所占的比重(本文在所有實(shí)驗(yàn)中設(shè)為0.2)。
根據(jù)式(1),計(jì)算出每對(duì)鏡頭之間的距離D(i,j),再由式(2)計(jì)算出每對(duì)鏡頭間的相似度S(i,j),其中σ是閾值。當(dāng)距離小于等于σ時(shí),鏡頭間的相似度定義為鏡頭間距離的倒數(shù);當(dāng)距離大于σ時(shí),其相似度為負(fù)無(wú)窮,此時(shí)表示鏡頭i和j完全不相似。
計(jì)算出相似性矩陣Sn×n(n表示鏡頭總數(shù))后,本文采用基于相似性傳播(Affinity Propagation,AP)[5]的方法進(jìn)行鏡頭聚類(lèi)。與其他聚類(lèi)方法相比,如K-均值聚類(lèi)[6]等,AP聚類(lèi)更具靈活性,無(wú)需預(yù)先指定初始的聚類(lèi)數(shù)目。通過(guò)大量實(shí)驗(yàn)發(fā)現(xiàn),經(jīng)過(guò)AP聚類(lèi),所有主持人鏡頭所對(duì)應(yīng)的標(biāo)簽都一致,從而能夠聚集到一起,而其他鏡頭通常很難聚類(lèi)到一起。在計(jì)算過(guò)程中,由于視頻鏡頭的數(shù)量與視頻幀相比大大減少,因此能夠高效地計(jì)算出相似性矩陣Sn×n和AP聚類(lèi)的結(jié)果。
主持人口播鏡頭聚類(lèi)的算法描述為:
輸入為相似性矩陣Sn×n。
輸出為所有鏡頭的標(biāo)簽Ln。
初始化an×n=0,rn×n=0。
重復(fù):
直到收斂或達(dá)到最大迭代次數(shù):
Li=argmaxk{r(i,k)+a(i,k)}。
一般說(shuō)來(lái),本文提出的新聞單元自動(dòng)切分算法適用于主持人口播鏡頭的前、背景圖像相對(duì)穩(wěn)定、變化不大的新聞視頻。然而,當(dāng)前的新聞演播室通常包含大屏幕、電視墻等設(shè)備,此時(shí)主持人背后的場(chǎng)景通常不是靜止的,而是動(dòng)態(tài)變化的。如圖4所示,主持人背景右側(cè)是一個(gè)不斷變化的大屏幕,此時(shí)容易發(fā)生鏡頭聚類(lèi)的錯(cuò)誤,例如遺漏部分主持人鏡頭。針對(duì)以上問(wèn)題,本文提出了基于重要性區(qū)域檢測(cè)的特征匹配方法。首先將主持人鏡頭中畫(huà)面變化不大的部分用半透明矩形框進(jìn)行標(biāo)記,然后在鏡頭聚類(lèi)時(shí)只在該區(qū)域進(jìn)行特征匹配。大量實(shí)驗(yàn)結(jié)果表明,本文提出的方法能夠處理口播鏡頭中部分背景動(dòng)態(tài)變化的新聞視頻,有效提高了新聞單元切分的穩(wěn)定性和準(zhǔn)確性。
圖4 基于重要性區(qū)域檢測(cè)的鏡頭聚類(lèi)(截圖)
1.3 口播鏡頭檢測(cè)
由新聞視頻結(jié)構(gòu)的分析可知,主持人鏡頭通常是多次且交替出現(xiàn),因此,本文根據(jù)聚類(lèi)結(jié)果中所包含的鏡頭數(shù)目和鏡頭之間的距離來(lái)判定屬于主持人口播鏡頭的聚類(lèi)??诓ョR頭的判定函數(shù)為
式中:Num(i)表示第i個(gè)聚類(lèi)中包含的鏡頭數(shù)目;Sum_ of_Dist(i)表示第i個(gè)聚類(lèi)中所有相鄰鏡頭間的距離之和(例如,第1、2個(gè)鏡頭之間隔了2個(gè)鏡頭,第2、3個(gè)鏡頭之間隔了3個(gè)鏡頭,則這3個(gè)鏡頭間距離之和為5)。當(dāng)N(i)取最大值時(shí),可以判定第i個(gè)聚類(lèi)中的所有鏡頭均為主持人口播鏡頭。
一般說(shuō)來(lái),視頻切分系統(tǒng)通常需要批處理大量數(shù)據(jù),如某一頻道幾個(gè)月以來(lái)固定時(shí)段的新聞視頻。由大量實(shí)驗(yàn)可知,同一頻道在一段時(shí)期內(nèi)的新聞節(jié)目編排方式基本類(lèi)似,例如一般總是在一段固定時(shí)長(zhǎng)的片頭過(guò)后首次出現(xiàn)主持人,然后開(kāi)始新聞播報(bào)。針對(duì)這一特征,本文的算法可以進(jìn)一步改進(jìn)。在鏡頭檢測(cè)的基礎(chǔ)上,首先根據(jù)口播鏡頭固定出現(xiàn)時(shí)間直接定位第一個(gè)主持人鏡頭,然后以該鏡頭特征為模板計(jì)算出該鏡頭與所有其他鏡頭之間的距離D(i,i0)(i0是第一個(gè)主持人鏡頭對(duì)應(yīng)的序號(hào))。如式(4)所示,當(dāng)距離小于等于閾值Δ時(shí),鏡頭i的標(biāo)簽Li為1,則表示該鏡頭為主持人口播;當(dāng)距離大于閾值Δ,則表示該鏡頭不屬于主持人口播。
1.4 新聞單元切分
由于新聞視頻具有“口播鏡頭+新聞故事鏡頭”的結(jié)構(gòu)特征,檢測(cè)出口播鏡頭后,本文將一次口播鏡頭的開(kāi)始到下一次口播鏡頭開(kāi)始之間的片段作為一個(gè)新聞單元。如圖2所示,圖中的矩形塊表示口播鏡頭,此時(shí)新聞視頻被自動(dòng)切分成4個(gè)單元?;谝陨纤惴?,本文開(kāi)發(fā)了軟件系統(tǒng),實(shí)現(xiàn)準(zhǔn)確、高效的視頻單元切分。用戶(hù)首先從數(shù)據(jù)庫(kù)中載入待切分的新聞視頻,然后直接點(diǎn)擊切分圖標(biāo)就能快速得到新聞單元切分的結(jié)果。圖5是新聞單元切分軟件的系統(tǒng)界面,原圖為彩色圖片,其中第一幅圖表示從數(shù)據(jù)庫(kù)讀入的當(dāng)前待切分的視頻列表。第二幅圖是軟件主界面,其左側(cè)是視頻內(nèi)容的瀏覽窗口,右側(cè)是切分后各新聞單元的關(guān)鍵幀圖標(biāo),當(dāng)用戶(hù)點(diǎn)擊右側(cè)圖標(biāo)時(shí),能夠點(diǎn)播對(duì)應(yīng)單元的新聞內(nèi)容。主界面下方以彩條方式直觀地展示了新聞單元切分的結(jié)果,從左到右按時(shí)間順序進(jìn)行排列,其中綠色部分是主持人口播鏡頭,可以明顯看出口播鏡頭是交替且多次出現(xiàn)的。本文設(shè)計(jì)的基于彩條的圖形交互工具,讓用戶(hù)能夠方便、直觀地觀察到視頻切分的結(jié)果,并且能夠在彩條上以拖動(dòng)鼠標(biāo)的方式方便、快速地瀏覽感興趣的新聞內(nèi)容。
圖5 新聞單元切分軟件的系統(tǒng)界面(截圖)
圖6給出了更多新聞視頻單元切分的結(jié)果??梢钥闯?,本文提出的方法能夠準(zhǔn)確切分中央、省、市、縣等多級(jí)電視臺(tái)的新聞節(jié)目,如新聞聯(lián)播、杭州新聞、明珠新聞、桐鄉(xiāng)新聞等。
本文的實(shí)驗(yàn)環(huán)境如下:Intel i5-3470 3.4 GHz、16 Gbyte RAM、NVIDIA Geforce GTX 650。對(duì)于一個(gè)長(zhǎng)度為30 min、大小為600×480、碼率為1 Mbit/s的視頻,本文提出的方法僅需32 s就能準(zhǔn)確計(jì)算出切分結(jié)果。表1給出了4種不同新聞視頻自動(dòng)切分的算法性能,可以看出,本文的方法具有高效性和準(zhǔn)確性(切分的誤差主要來(lái)自于鏡頭的漸變)。此外,本文的方法能夠?qū)崿F(xiàn)新聞視頻的批量切分。用戶(hù)只需簡(jiǎn)單交互就能快速地實(shí)現(xiàn)大量視頻的自動(dòng)切分,且切分結(jié)果比人工方式具有更高的精度。
圖6 更多新聞單元切分的結(jié)果(截圖)
表1 新聞單元切分的算法性能
本文提出了一個(gè)基于主持人口播檢測(cè)的高效方法實(shí)現(xiàn)新聞單元自動(dòng)切分。首先采用基于投影函數(shù)的方法檢測(cè)出新聞視頻的鏡頭邊界;然后利用基于相似性傳播的方法進(jìn)行鏡頭聚類(lèi),并通過(guò)分析聚類(lèi)結(jié)果的統(tǒng)計(jì)特征提取出所有的主持人口播鏡頭;最后根據(jù)檢測(cè)出的口播鏡頭實(shí)現(xiàn)新聞單元自動(dòng)切分?;谝陨戏椒?,本文開(kāi)發(fā)了軟件系統(tǒng)實(shí)現(xiàn)新聞視頻自動(dòng)切分,該系統(tǒng)極大地提高了新聞視頻切分的效率和質(zhì)量,大大減輕了人工勞動(dòng)強(qiáng)度。本文開(kāi)發(fā)的軟件系統(tǒng)已經(jīng)在浙江廣電集團(tuán)、杭州電視臺(tái)等單位進(jìn)行了實(shí)際應(yīng)用,具有廣泛的應(yīng)用前景。
今后,筆者將繼續(xù)深入研究新聞視頻單元切分,考慮新聞中的廣告檢測(cè)。此外,進(jìn)一步研究適用于其他類(lèi)型視頻的高效切分方法,如體育視頻、紀(jì)錄片、綜藝節(jié)目等,此時(shí)將有更多難題有待研究,如視頻特征表示、關(guān)鍵幀提取、相似性度量等。
[1]凌堅(jiān),練益群.新聞單元的自動(dòng)快速分割方法[J].電視技術(shù),2009,33(7):59-63.
[2]謝毓湘,欒悉道,吳玲達(dá),等.一種基于解壓的鏡頭探測(cè)方法[J].系統(tǒng)工程與電子技術(shù),2003,25(8):1028-1031.
[3]CHENG M M,ZHANG G X,MITRA N J,et al.Global contrast based salient region detection[C]//Proc.IEEE International Conference on Computer Vision and Pattern Recognition.[S.l.]:IEEE Press,2011: 409-416.
[4]唐紅梅,張恒,高金雍,等.一種改進(jìn)的基于SIFT特征的快速匹配算法[J].電視技術(shù),2013,37(15):25-32.
[5] FREY B J,DUECK D.Clustering by passing messages between data points[J].Science,2007,315(5814):972-976.
[6]惠鵬飛,苗鳳娟,陶佰睿,等.基于K-均值聚類(lèi)和分水嶺算法的PCB彩色圖像分割[J].電視技術(shù),2013,37(13):32-34.
Research and Imp lementation of Efficient Segmentation for News Videos
ZHANG Yun
(Zhejiang Institute of Radio and TV Technology,Zhejiang University of Media and Communications,Hangzhou 310018,China)
An efficientmethod is proposed to segmentnews videos based on anchorperson detection.Firstly,the shotboundary ofa news video is detected.Then,the keyframe ofeach shot is extracted,and their histogram and SIFT features are calculated.Finally,all anchorperson shots by clustering the keyframes are retrieved,and the news video is segmented into several semantic fragments.Based on themethod above,a software system is developed,which can automatically segmentnews videos accurately and efficiently.This system can greatly reduce users'labor in news video segmentation,and meet the requirement of fast production in new media times.
segment news videos;anchorperson detection;histogram;clustering
TP391
A
??健男
2014-04-07
【本文獻(xiàn)信息】張赟.新聞視頻單元高效切分方法的研究與實(shí)現(xiàn)[J].電視技術(shù),2014,38(23).
浙江省自然科學(xué)基金項(xiàng)目(LY14F020050)