• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      基于顏色和邊緣特征的新聞視頻標(biāo)題條檢測(cè)

      2012-08-10 07:48:06哲,史
      電視技術(shù) 2012年19期
      關(guān)鍵詞:字幕算子邊緣

      楊 哲,史 萍

      (中國(guó)傳媒大學(xué)信息工程學(xué)院,北京100024)

      責(zé)任編輯:任健男

      新聞視頻是一類(lèi)特殊的視頻類(lèi)型,具有形象直觀、信息量大的特點(diǎn),在信息傳播中起著非常重要的作用,隨著多媒體技術(shù)和網(wǎng)絡(luò)技術(shù)的發(fā)展,新聞視頻的應(yīng)用越來(lái)越廣泛,新聞視頻分析及處理技術(shù)也成為了一個(gè)新的研究熱點(diǎn)。

      作為新聞視頻的一個(gè)重要特征之一,標(biāo)題條在新聞視頻研究中占有重要地位。首先,在新聞視頻中,標(biāo)題條往往與其出現(xiàn)的新聞故事條目具有一一對(duì)應(yīng)性,因此在新聞視頻分析中可以將標(biāo)題條視為拆分新聞條目的重要依據(jù)之一。其次,標(biāo)題條中的文字內(nèi)容能簡(jiǎn)練且準(zhǔn)確地代表當(dāng)前新聞故事條目的主要內(nèi)容,可以作為新聞條目的內(nèi)容索引。因此,對(duì)標(biāo)題條的檢測(cè)和標(biāo)題文字識(shí)別已經(jīng)成為新聞視頻分析中一個(gè)不容忽視的方面。

      目前,國(guó)內(nèi)外許多學(xué)者對(duì)這個(gè)問(wèn)題進(jìn)行了大量研究和探索[1-6]。文獻(xiàn)[1]利用視頻幀文字區(qū)域存在大量有序角點(diǎn)(Corner Points)的特點(diǎn)來(lái)篩選出存在文字的視頻幀,然后利用形態(tài)學(xué)將檢測(cè)到的角點(diǎn)進(jìn)行融合,最終定位出標(biāo)題文字區(qū)域。文獻(xiàn)[2]每隔15幀抽取1個(gè)樣本幀,利用一種稱(chēng)為MIL(Multiple-Instance Learning)的模式學(xué)習(xí)機(jī)制來(lái)篩選含有標(biāo)題文字的視頻幀。文獻(xiàn)[3]利用視頻幀序列的時(shí)間冗余信息大大加快了計(jì)算速度。文獻(xiàn)[4]提供了一種基于空間和時(shí)間特征的標(biāo)題條檢測(cè)算法,首先檢測(cè)鏡頭邊界,然后在鏡頭邊界序列中定位出標(biāo)題區(qū)域。文獻(xiàn)[5]利用梯度特征和一個(gè)多層前饋網(wǎng)絡(luò)作為過(guò)濾器來(lái)檢測(cè)標(biāo)題區(qū)域。文獻(xiàn)[6]通過(guò)離散余弦變換(DCT)在頻域中檢測(cè)標(biāo)題條候選區(qū)域,然后通過(guò)支持向量機(jī)(SVM)過(guò)濾器最終決定候選區(qū)域中的文字部分。

      本文在對(duì)各類(lèi)的電視新聞節(jié)目進(jìn)行大量觀察、統(tǒng)計(jì)的基礎(chǔ)上,提出了一種適應(yīng)性較強(qiáng)的標(biāo)題條檢測(cè)算法,即基于顏色和邊緣特征的標(biāo)題條檢測(cè)法。算法利用顏色和邊緣特征檢測(cè)出新聞視頻中含有標(biāo)題條的視頻幀,并由先驗(yàn)知識(shí)得出標(biāo)題條幀中的字幕區(qū)域,對(duì)字幕區(qū)域進(jìn)行預(yù)處理和光學(xué)字符識(shí)別(OCR)后得到文字內(nèi)容。本文以中央電視臺(tái)《新聞聯(lián)播》為實(shí)驗(yàn)樣本,對(duì)所提出的算法進(jìn)行了實(shí)驗(yàn),實(shí)驗(yàn)結(jié)果令人滿意。

      1 基于顏色和邊緣特征的新聞視頻標(biāo)題條檢測(cè)

      1.1 新聞視頻標(biāo)題條特征分析

      通過(guò)反復(fù)觀察不同電視臺(tái)的大量的新聞視頻,發(fā)現(xiàn)大多數(shù)新聞視頻存在以下重要特征[7]:1)同一個(gè)新聞節(jié)目中,標(biāo)題條在屏幕上的位置相對(duì)固定,一般在屏幕下方約1/3范圍內(nèi);2)標(biāo)題條中字幕文字與背景顏色相差明顯,多為紅、藍(lán)、黃等醒目顏色,而背景多為不透明或者半透明純色;3)一般來(lái)說(shuō),在同一個(gè)新聞節(jié)目中,標(biāo)題條內(nèi)的文字大小是相同的,字體多為宋體或黑體;4)標(biāo)題條都為矩形;5)每個(gè)標(biāo)題條出現(xiàn)的時(shí)間最短也要持續(xù)幾秒,因此檢測(cè)標(biāo)題條時(shí),不必逐幀查詢,每隔一段時(shí)間提取一幀即可,這樣可在很大程度上減少計(jì)算量;6)標(biāo)題條的文字內(nèi)容通常是本段新聞內(nèi)容的高度概括。

      1.2 標(biāo)題條特征檢測(cè)算法

      基于上一節(jié)對(duì)新聞視頻中標(biāo)題條特征的分析,本文提出一種基于顏色和邊緣特征的標(biāo)題條檢測(cè)算法。首先利用特征2即標(biāo)題條背景與文字顏色相差明顯的顏色特征進(jìn)行檢測(cè),通過(guò)計(jì)算與字幕顏色相似的像素占目標(biāo)區(qū)域的比例來(lái)初步檢測(cè)出含有標(biāo)題條的新聞視頻幀。然后利用特征5即標(biāo)題條都為矩形的特征對(duì)上述候選幀進(jìn)行邊緣直線的再次檢測(cè),最終檢測(cè)出標(biāo)題條幀。具體流程如圖1所示。

      圖1 標(biāo)題條特征檢測(cè)算法流程圖

      1.2.1 顏色特征檢測(cè)

      顏色是一種使用廣泛的視覺(jué)特征[8],在所有的視覺(jué)特征中,顏色或許是最基本、直觀,同時(shí)也是最富有表達(dá)力的特征。相對(duì)邊緣特征而言,顏色具有一定的穩(wěn)定性,對(duì)于圖像本身的平移、旋轉(zhuǎn)、尺度變化,甚至對(duì)各種形變都不敏感,表現(xiàn)出相當(dāng)強(qiáng)的穩(wěn)健性。在很多情況下,顏色特征是描述一幅圖像最簡(jiǎn)單有效的方法。

      目前常用的顏色空間有YUV,RGB和HSV。YUV顏色空間廣泛應(yīng)用于電視系統(tǒng)中,其中Y指亮度,也就是圖像的灰度值,而U和V則是指色調(diào)。RGB顏色空間廣泛應(yīng)用于圖像顯示領(lǐng)域,其中R,G,B分別表示紅、綠、藍(lán)三原色。HSV顏色空間是基于知覺(jué)的顏色系統(tǒng),其中H表示占主導(dǎo)的頻譜顏色的色調(diào),S表示顏色飽和度,V表示亮度。

      由于本文提出的算法是直接對(duì)像素的紅綠藍(lán)三原色進(jìn)行處理,故選用RGB顏色空間進(jìn)行顏色特征檢測(cè)。

      由第1.1節(jié)新聞視頻標(biāo)題條特征分析中的特征2可知,字幕文字顏色多選取紅、藍(lán)、黃等醒目顏色,且與背景顏色相差明顯??紤]到特征1,設(shè)置視頻幀高度的下方1/3處,寬度為原視頻幀寬度作為目標(biāo)區(qū)域Q(x,y),通過(guò)在RGB顏色空間中檢測(cè)目標(biāo)區(qū)域中與字幕文字顏色相似的像素占整個(gè)目標(biāo)區(qū)域的比例來(lái)初步檢測(cè)標(biāo)題條幀。算法具體過(guò)程如下:

      1)自下而上、自左而右對(duì)目標(biāo)區(qū)域Q(x,y)進(jìn)行掃描,得到每個(gè)像素的RGB值;

      2)利用像素的RGB值分別計(jì)算每個(gè)像素與字幕文字顏色的相似度,字幕文字顏色由先驗(yàn)知識(shí)得到。當(dāng)相似度大于某個(gè)閾值時(shí),標(biāo)記該像素為目標(biāo)像素。同時(shí)統(tǒng)計(jì)目標(biāo)像素的個(gè)數(shù)mCount;

      3)完成目標(biāo)區(qū)域Q(x,y)所有像素的掃描之后,若mCount值與目標(biāo)區(qū)域總像素?cái)?shù)的比值在預(yù)先設(shè)定的閾值范圍內(nèi),則認(rèn)為該幀為候選標(biāo)題條幀。

      圖2是經(jīng)顏色特征檢測(cè)出的候選幀示例。其中圖2a是正確檢測(cè)出的標(biāo)題條幀,圖2b是誤檢出的標(biāo)題條幀。經(jīng)過(guò)分析可知右圖目標(biāo)區(qū)域Q(x,y)中有一部分背景為藍(lán)色,與要檢測(cè)的字體顏色相似,從而造成顏色比例與標(biāo)題條類(lèi)似,導(dǎo)致誤檢。這種誤檢幀可以通過(guò)下文介紹的邊緣特征檢測(cè)來(lái)剔除。

      圖2 經(jīng)過(guò)顏色特征檢測(cè)的候選幀示例

      1.2.2 邊緣特征檢測(cè)

      邊緣特征是圖像的另一個(gè)基本特征。所謂邊緣是指周?chē)袼鼗叶扔须A躍變化或屋頂變化的那些像素的集合[9]。常用的邊緣檢測(cè)算子有Roberts,Sobel和 Prewitt算子等。

      Roberts算子是一種微分算子,它通過(guò)計(jì)算相鄰對(duì)角像素之差來(lái)近似梯度幅值檢測(cè)邊緣,相比斜向和其他方向的邊緣,檢測(cè)水平和垂直邊緣的效果比較好,定位精度高,美中不足的是對(duì)噪聲敏感[10]。Sobel算子是一種離散差分算子,它根據(jù)像素點(diǎn)上下左右鄰點(diǎn)灰度加權(quán)差在邊緣處達(dá)到極值來(lái)檢測(cè)邊緣,在檢測(cè)邊緣點(diǎn)的同時(shí)具有抑制噪聲的能力,缺點(diǎn)是定位精度不夠高[11]。Prewitt算子也是利用像素點(diǎn)上下左右鄰點(diǎn)灰度差在邊緣處達(dá)到極值檢測(cè)邊緣。與Sobel算子相比,Prewitt算子對(duì)像素位置的影響沒(méi)有做加權(quán),因此效果不如Sobel算子。

      圖3是上述3種算子的比較圖。由于相比其他2個(gè)算子,Roberts算子檢測(cè)的邊緣比較清晰明了,雖然丟失了一些細(xì)小的邊緣信息,但對(duì)后文需要檢測(cè)的長(zhǎng)線邊緣信息(即圖中的2條邊緣直線)則保留得較好。因此本文采用Roberts算子進(jìn)行邊緣檢測(cè)。

      圖3 Roberts算子、Prewitt算子和Sobel算子的效果圖

      由圖2可以看出,經(jīng)過(guò)顏色特征檢測(cè)的候選幀中除了正確檢測(cè)到的標(biāo)題幀外,還有顏色比例與標(biāo)題條類(lèi)似的誤檢幀??紤]到第1.1節(jié)中的特征4,以及圖3中的邊緣檢測(cè)結(jié)果,可將水平邊緣直線作為在上述候選幀中剔除誤檢幀的依據(jù)。具體步驟如下:

      1)將候選幀轉(zhuǎn)化為灰度圖像,選擇亮度公式進(jìn)行轉(zhuǎn)化,公式為

      式中:Y(x,y)為像素點(diǎn) (x,y)的灰度值,R(x,y),G(x,y),B(x,y)為像素點(diǎn) (x,y)的紅、綠、藍(lán)分量。

      2)得到灰度圖后,采用Roberts算子對(duì)圖像進(jìn)行邊緣檢測(cè)處理。

      3)在具體檢測(cè)過(guò)程中,若檢測(cè)到某一水平位置連通像素個(gè)數(shù)大于某一預(yù)先設(shè)置的閾值,則說(shuō)明該水平位置存在一條直線。

      實(shí)驗(yàn)表明,經(jīng)過(guò)邊緣特征檢測(cè)后,候選幀中的大多數(shù)誤檢幀都被剔除了。

      1.3 字幕文字識(shí)別

      在檢測(cè)出標(biāo)題條幀后可通過(guò)先驗(yàn)知識(shí)取出字幕區(qū)域,下一步便是對(duì)字幕文字進(jìn)行識(shí)別。為提高文字識(shí)別的準(zhǔn)確率,需要先對(duì)字幕區(qū)域進(jìn)行預(yù)處理。預(yù)處理包括灰度化、插值放大、平滑濾波和二值化等處理。本文采用立方插值對(duì)字幕文字進(jìn)行放大,采用高斯卷積進(jìn)行平滑濾波,采用最大方差法進(jìn)行二值化處理。圖4給出了預(yù)處理前后的字幕區(qū)域圖,其中圖4a為處理之前的字幕區(qū)域圖,圖4b為處理之后得到的二值化圖。由圖可見(jiàn),經(jīng)過(guò)預(yù)處理后,字幕區(qū)域文字清晰,背景干凈。得到二值化圖后即可進(jìn)行文字識(shí)別。本文利用微軟公司在Office2003中推出的鑲嵌在Microsoft Office Document Imaging工具中的OCR模塊進(jìn)行文字識(shí)別。

      圖4 預(yù)處理前后的字幕區(qū)域圖

      2 結(jié)果分析

      本文在實(shí)驗(yàn)中采用查準(zhǔn)率(Precision)和查全率(Recall)來(lái)檢驗(yàn)算法的優(yōu)劣。查準(zhǔn)率指返回的結(jié)果集中正確標(biāo)題條幀的比率,用于測(cè)量系統(tǒng)排除無(wú)關(guān)圖像幀的能力。查全率指返回的結(jié)果中正確的標(biāo)題條幀數(shù)占實(shí)際標(biāo)題條幀數(shù)的比率,用于測(cè)量系統(tǒng)檢測(cè)相關(guān)圖像幀的能力。查全率和查準(zhǔn)率越高,說(shuō)明該檢測(cè)算法的效果越好。查準(zhǔn)率P和查全率R可按下面的公式計(jì)算

      式中:RA表示正確檢測(cè)出的標(biāo)題條幀數(shù),RB表示檢測(cè)出的非標(biāo)題條幀數(shù),RC表示漏檢的標(biāo)題條幀數(shù)。

      本文選擇2011年12月1日的30 min完整的中央電視臺(tái)新聞聯(lián)播節(jié)目對(duì)算法進(jìn)行了測(cè)試,實(shí)驗(yàn)結(jié)果如圖5所示。其中,用橫坐標(biāo)表示該段視頻中出現(xiàn)不同內(nèi)容的標(biāo)題條共計(jì)38次,縱坐標(biāo)為視頻幀數(shù)。實(shí)驗(yàn)中,共提取標(biāo)題條幀893幀(圖5中的實(shí)際幀數(shù)之和),檢測(cè)出標(biāo)題條幀共852幀(圖5中的檢出幀數(shù)之和),在檢出的852幀中,正確檢出標(biāo)題條幀795幀(圖5中的正確幀數(shù)之和),檢測(cè)出的非標(biāo)題條幀57幀(圖5中的“錯(cuò)檢幀數(shù)”之和)。漏檢的標(biāo)題條幀98幀(圖5中的“漏檢幀數(shù)”之和)。查準(zhǔn)率為93.3%,查全率為89.0%。

      另外,統(tǒng)計(jì)可知該段視頻中出現(xiàn)字幕文字共計(jì)592個(gè)字符,OCR正確識(shí)別的字符數(shù)為563個(gè),正確識(shí)別率可達(dá)95.1%。

      3 結(jié)論

      圖5 新聞聯(lián)播標(biāo)題條幀檢測(cè)結(jié)果

      通過(guò)觀察新聞節(jié)目發(fā)現(xiàn),標(biāo)題條幀中存在一些普遍的規(guī)律。本文在此基礎(chǔ)上提出了一種基于顏色和邊緣的自動(dòng)檢測(cè)算法。算法首先通過(guò)計(jì)算與字幕文字顏色相似的像素占目標(biāo)區(qū)域的比例來(lái)確定候選標(biāo)題條幀,然后利用標(biāo)題條區(qū)域的邊緣特征剔除候選幀中的誤檢幀,最終得到標(biāo)題條幀。由于本算法將顏色特征和邊緣特征結(jié)合起來(lái)進(jìn)行標(biāo)題條幀檢測(cè)檢測(cè),因而大大提高了算法的查準(zhǔn)率。通過(guò)預(yù)處理和OCR識(shí)別的字幕文字由于具有對(duì)該段新聞內(nèi)容的高度概括性,可用于新聞視頻分析中對(duì)新聞單元添加摘要和索引,這對(duì)于進(jìn)一步進(jìn)行新聞視頻檢索具有重要意義。

      [1] ZHAO X,LIN K H,F(xiàn)U Y.Text from corners:a novel approach to detect text and caption in videos[J].IEEE Signal Processing Society,2011,20(3):790-799.

      [2] LIU H B,ZHOU C J,SHEN J,et al.Video caption detection algorithm based on multiple instance learning[C]//Proc.2010 Fifth International Conference on Internet Computing for Science and Engineering.Harbin,China:[s.n.],2010:20-24.

      [3] LYU M R,SONG J,CAI M.A comprehensive method for multilingual video text detection,localization,and extraction[J].IEEE Trans.Circuits and Systems for Video Technology,2005,15(2):243-255.

      [4] TANG X,GAO X,LIU J,et al.A spatial-temporal approach for video caption detection and recognition[J].IEEE Trans.Neural Networks,2012,13(4):961-971.

      [5] LIENHART R,WERNICKE A.Localizing and segmenting text in images and videos[J].IEEE Trans.Circuits and Systems for Video Technology,2002,12(2):256-268.

      [6] LEE C C,CHIANG Y C,SHIH C Y,et al.Caption localization and detection for news videos using frequency analysis and wavelet features[C]//Proc.19th IEEE International Conference on Tools with Artificial Intelligence.Patras,Greece:[s.n.],2007:539-542.

      [7]李默,李弼程,蘇大偉.新聞視頻中標(biāo)題條檢測(cè)及文字內(nèi)容提取算法[J]. 電視技術(shù),2005,29(S1):147-149.

      [8]樊瑞強(qiáng).鏡頭切變檢測(cè)技術(shù)的研究[J].中國(guó)科技博覽,2009(18):3.

      [9]何俊峰.基于視覺(jué)原理的圖像邊緣檢測(cè)算子研究[D].武漢:華中科技大學(xué),2006.

      [10]康牧,許慶功,王寶樹(shù).一種Roberts自適應(yīng)邊緣檢測(cè)方法[J].西安交通大學(xué)學(xué)報(bào),2008,42(10):1240-1244.

      [11]袁春蘭,熊宗龍,周雪花,等.基于Sobel算子的圖像邊緣檢測(cè)研究[J]. 激光與紅外,2009,39(1):85-87.

      猜你喜歡
      字幕算子邊緣
      Word和Excel聯(lián)手字幕添加更高效
      擬微分算子在Hp(ω)上的有界性
      各向異性次Laplace算子和擬p-次Laplace算子的Picone恒等式及其應(yīng)用
      一類(lèi)Markov模算子半群與相應(yīng)的算子值Dirichlet型刻畫(huà)
      一張圖看懂邊緣計(jì)算
      Roper-Suffridge延拓算子與Loewner鏈
      整合適應(yīng)選擇度下的動(dòng)畫(huà)電影字幕翻譯——以《冰河世紀(jì)》的字幕漢譯為例
      論紀(jì)錄片的字幕翻譯策略
      人間(2015年22期)2016-01-04 12:47:26
      如何顯示雙字幕? 等
      在邊緣尋找自我
      雕塑(1999年2期)1999-06-28 05:01:42
      宝清县| 尼木县| 雷波县| 青州市| 平山县| 临邑县| 建平县| 灯塔市| 沂南县| 武隆县| 城口县| 都江堰市| 临猗县| 芮城县| 冕宁县| 望奎县| 察哈| 福安市| 江山市| 馆陶县| 大连市| 佛坪县| 北流市| 开化县| 林芝县| 黎川县| 乌鲁木齐县| 和龙市| 日喀则市| 确山县| 无极县| 洛川县| 遂川县| 高雄县| 康马县| 陇西县| 确山县| 彰武县| 乐陵市| 奇台县| 吴江市|