文丨顏 開
(湖南株洲市廣播電視臺,湖南株洲 412000)
電視節(jié)目是人們獲取信息的重要途徑之一,而視頻中的標題字幕往往囊括了該視頻的主要內(nèi)容。如果能把字幕提取出來,那么對于將視頻分類整理、快速搜索,都有很大的好處。國內(nèi)外有大量這方面的研究論文,很多學者都已經(jīng)搭建了視頻文字處理系統(tǒng),雖然處理方法上有所不同,但基本都分為視頻片段切割成幀、文字區(qū)域檢測、文字跟蹤和增強、文字區(qū)域的灰度化和二值化、文字識別五個部分。其中最重要的部分是文字區(qū)域檢測。當前字幕檢測方法大致有連通區(qū)域分析法、紋理分析法、邊緣檢測法、時空分布特征分析法等等。而當前存在的問題就是如何提高提取出的字幕信息的準確率。
筆者所要研究的內(nèi)容,首先是利用軟件將模擬信號視頻用幀內(nèi)壓縮編碼的方式轉(zhuǎn)換為數(shù)字視頻,然后再利用上述原理,編程將視頻中的標注字幕提取出來保存為圖像文件。最后利用已經(jīng)成熟的OCR圖像轉(zhuǎn)文字技術將其轉(zhuǎn)化為.txt文本文件并同原視頻關聯(lián)。
采用視頻采集卡和視頻采集軟件,把模擬視頻轉(zhuǎn)換為數(shù)字視頻。接著采用了Easy Realmedia Producer V1.94進行幀內(nèi)壓縮編碼。最后通過Adobe Premiere Pro 2.0軟件提取出視頻中的幀。
圖3.1 原始圖像
筆者實現(xiàn)文字區(qū)域檢測的方法較為簡易。
首先,對圖像采用高斯濾波。圖像濾波的作用,是在盡量保留圖像細節(jié)特征的條件下對目標像的噪聲進行抑制,是圖像預處理中不可缺少的操作,其處理效果的好壞將直接響到后續(xù)圖像處理和分析的有效性和可靠性。濾波后的圖像如圖3.2:
圖3.2 通過高斯濾波器后的圖像
接下來,應用Sobel算子對圖像進行邊緣檢測。
Sobel算子是一離散性差分算子,用來運算圖像亮度函數(shù)的梯度之近似值。在圖像的任何一點使用此算子,將會產(chǎn)生對應的梯度矢量或是其法矢量。該算子包含兩組3*3的矩陣,分別為橫向及縱向,將之與圖像作平面卷積,即可分別得出橫向及縱向的亮度差分近似值。如果以A代表原始圖像,Gx及Gy分別代表經(jīng)橫向及縱向邊緣檢測的圖像,其公式如下:
圖像的每一個像素的橫向及縱向梯度近似值可用以下的公式結合,來計算梯度的大小。
用下面的公式3.4來計算梯度的方向。
上式中,角度θ等于0,代表圖像在該處擁有縱向邊緣,左方較右方暗。
經(jīng)過邊緣檢測,得到的圖像如圖3.3:
圖3.3 邊緣檢測圖像
字幕文字通常出現(xiàn)在視頻圖像的下部1/4處,為簡化運算,筆者在程序中只對圖片的下部約100像素高度的部分進行檢測(RMVB格式的片源多數(shù)均在這個范圍左右),這樣避免了對全圖進行檢測,既提高了運算速度,又避免了圖像上部有同樣顏色的區(qū)塊對檢測結果產(chǎn)生干擾。
為了能較快地檢測出字幕,筆者檢測所有的白色像素點,保留最左端白色像素點的橫坐標,此橫坐標即為分割矩形框的左邊框,同理得到右邊框的橫坐標以及上下邊框的縱坐標。設定好邊框之后,用此窗口去截原本的灰度圖像,即得到下面的圖像3.4:
圖3.4 提取出的文本框
至此,字幕區(qū)域就從圖像中分割了出來。
在MATLAB中,利用語句rgb2gray可將文字圖像灰度化,本文中經(jīng)過高斯濾波器后已加入了生成灰度圖像的命令,如下圖3.5:
圖3.5 灰度圖像
利用im2bw語句可將圖像進行二值化處理。如下面的圖像3.6:
圖3.6 文本框二值化
保存圖像為“.jpg”圖像格式。為便于識別,若原始圖像不是該格式文件,與原始圖像同名即可。若原始圖像也是該圖像格式文件,則在原始文件名后加入“sub”以區(qū)分。
筆者采用漢王OCR 6.0軟件,導入圖像后其自動識別出文字。如下面的圖像3.7:
保存為文本文件時使用原始文件名,同原視頻保存在同一路徑。
為了檢測設計出的系統(tǒng)性能,筆者采用了一些素材進行檢測(前兩種素材為RMVB格式。高清的影片往往外掛字幕,在截取幀的時候并不會同時將字幕截出,故不予采用。第三種素材屬于內(nèi)嵌字幕的高清影片,可以采用)。表4.1為實驗數(shù)據(jù)和結果。
圖3.7 圖片識別結果
表4.1 實驗數(shù)據(jù)及結果
由于視頻中的文字往往分辨率較低,而且經(jīng)常嵌在復雜背景中,因而無法直接使用OCR軟件進行識別。如何對圖像進行處理,使文字便于識別,是視頻文字提取系統(tǒng)中最重要的工作。筆者在參閱了大量文獻之后,提出了一種較為簡易的方法,實現(xiàn)了視頻字幕文字的提取。利用Adobe Premiere Pro 2.0、Easy Realmedia Producer V1.94等軟件進行前期的視頻轉(zhuǎn)換,提取視頻圖像幀,采用邊緣檢測的方法對圖像進行處理,便于提取文字所在區(qū)域。利用MATLAB軟件實現(xiàn)了圖像濾波,邊緣檢測,圖像分割,圖像灰度化及二值化等步驟。最后使用漢王OCR 6.0軟件識別出圖像中的字幕文字。
[1]基于紋理的視頻鏡頭邊界檢測系統(tǒng)研究. 北京郵電大學,2010(3).
[2]張洋. 電視視頻字幕文字的提取方法研究.中國科技大學,2009(7).
[3]劉元春,凌堅,練益群. 電視新聞節(jié)目中標題字幕的提取技術探索. 廣播與電視技術,2008,35(11):91-94.
[4]張首君,陳銀杰,安孝寬,張精通,張遠. 數(shù)字視頻信號的壓縮編碼原理.西北大學學報(自然科學版),2007,37(3):379-383.