通過圖像識別技術提取視頻中的字幕信息

2012-09-23 13:17:56文丨顏

中國傳媒科技 2012年4期

文丨顏開

（湖南株洲市廣播電視臺，湖南株洲 412000）

1 引言

電視節(jié)目是人們獲取信息的重要途徑之一，而視頻中的標題字幕往往囊括了該視頻的主要內(nèi)容。如果能把字幕提取出來，那么對于將視頻分類整理、快速搜索，都有很大的好處。國內(nèi)外有大量這方面的研究論文，很多學者都已經(jīng)搭建了視頻文字處理系統(tǒng)，雖然處理方法上有所不同，但基本都分為視頻片段切割成幀、文字區(qū)域檢測、文字跟蹤和增強、文字區(qū)域的灰度化和二值化、文字識別五個部分。其中最重要的部分是文字區(qū)域檢測。當前字幕檢測方法大致有連通區(qū)域分析法、紋理分析法、邊緣檢測法、時空分布特征分析法等等。而當前存在的問題就是如何提高提取出的字幕信息的準確率。

筆者所要研究的內(nèi)容，首先是利用軟件將模擬信號視頻用幀內(nèi)壓縮編碼的方式轉(zhuǎn)換為數(shù)字視頻，然后再利用上述原理，編程將視頻中的標注字幕提取出來保存為圖像文件。最后利用已經(jīng)成熟的OCR圖像轉(zhuǎn)文字技術將其轉(zhuǎn)化為.txt文本文件并同原視頻關聯(lián)。

2 數(shù)字視頻轉(zhuǎn)換

采用視頻采集卡和視頻采集軟件，把模擬視頻轉(zhuǎn)換為數(shù)字視頻。接著采用了Easy Realmedia Producer V1.94進行幀內(nèi)壓縮編碼。最后通過Adobe Premiere Pro 2.0軟件提取出視頻中的幀。

3 字幕圖像提取

3.1 文字區(qū)域檢測及分割

圖3.1 原始圖像

筆者實現(xiàn)文字區(qū)域檢測的方法較為簡易。

首先，對圖像采用高斯濾波。圖像濾波的作用，是在盡量保留圖像細節(jié)特征的條件下對目標像的噪聲進行抑制，是圖像預處理中不可缺少的操作，其處理效果的好壞將直接響到后續(xù)圖像處理和分析的有效性和可靠性。濾波后的圖像如圖3.2：

圖3.2 通過高斯濾波器后的圖像

接下來，應用Sobel算子對圖像進行邊緣檢測。

Sobel算子是一離散性差分算子，用來運算圖像亮度函數(shù)的梯度之近似值。在圖像的任何一點使用此算子，將會產(chǎn)生對應的梯度矢量或是其法矢量。該算子包含兩組3*3的矩陣，分別為橫向及縱向，將之與圖像作平面卷積，即可分別得出橫向及縱向的亮度差分近似值。如果以A代表原始圖像，Gx及Gy分別代表經(jīng)橫向及縱向邊緣檢測的圖像，其公式如下：

圖像的每一個像素的橫向及縱向梯度近似值可用以下的公式結合，來計算梯度的大小。

用下面的公式3.4來計算梯度的方向。

上式中，角度θ等于0，代表圖像在該處擁有縱向邊緣，左方較右方暗。

經(jīng)過邊緣檢測，得到的圖像如圖3.3：

圖3.3 邊緣檢測圖像

字幕文字通常出現(xiàn)在視頻圖像的下部1/4處，為簡化運算，筆者在程序中只對圖片的下部約100像素高度的部分進行檢測（RMVB格式的片源多數(shù)均在這個范圍左右），這樣避免了對全圖進行檢測，既提高了運算速度，又避免了圖像上部有同樣顏色的區(qū)塊對檢測結果產(chǎn)生干擾。

為了能較快地檢測出字幕，筆者檢測所有的白色像素點，保留最左端白色像素點的橫坐標，此橫坐標即為分割矩形框的左邊框，同理得到右邊框的橫坐標以及上下邊框的縱坐標。設定好邊框之后，用此窗口去截原本的灰度圖像，即得到下面的圖像3.4：

圖3.4 提取出的文本框

至此，字幕區(qū)域就從圖像中分割了出來。

3.2 文字圖像灰度化、二值化

在MATLAB中，利用語句rgb2gray可將文字圖像灰度化，本文中經(jīng)過高斯濾波器后已加入了生成灰度圖像的命令，如下圖3.5：

圖3.5 灰度圖像

利用im2bw語句可將圖像進行二值化處理。如下面的圖像3.6：

圖3.6 文本框二值化

保存圖像為“.jpg”圖像格式。為便于識別，若原始圖像不是該格式文件，與原始圖像同名即可。若原始圖像也是該圖像格式文件，則在原始文件名后加入“sub”以區(qū)分。

3.3 文字識別

筆者采用漢王OCR 6.0軟件，導入圖像后其自動識別出文字。如下面的圖像3.7：

保存為文本文件時使用原始文件名，同原視頻保存在同一路徑。

4 實驗結果

為了檢測設計出的系統(tǒng)性能，筆者采用了一些素材進行檢測（前兩種素材為RMVB格式。高清的影片往往外掛字幕，在截取幀的時候并不會同時將字幕截出，故不予采用。第三種素材屬于內(nèi)嵌字幕的高清影片，可以采用）。表4.1為實驗數(shù)據(jù)和結果。

圖3.7 圖片識別結果

表4.1 實驗數(shù)據(jù)及結果

5 總結

由于視頻中的文字往往分辨率較低，而且經(jīng)常嵌在復雜背景中，因而無法直接使用OCR軟件進行識別。如何對圖像進行處理，使文字便于識別，是視頻文字提取系統(tǒng)中最重要的工作。筆者在參閱了大量文獻之后，提出了一種較為簡易的方法，實現(xiàn)了視頻字幕文字的提取。利用Adobe Premiere Pro 2.0、Easy Realmedia Producer V1.94等軟件進行前期的視頻轉(zhuǎn)換，提取視頻圖像幀，采用邊緣檢測的方法對圖像進行處理，便于提取文字所在區(qū)域。利用MATLAB軟件實現(xiàn)了圖像濾波，邊緣檢測，圖像分割，圖像灰度化及二值化等步驟。最后使用漢王OCR 6.0軟件識別出圖像中的字幕文字。

[1]基于紋理的視頻鏡頭邊界檢測系統(tǒng)研究. 北京郵電大學，2010（3）.

[2]張洋. 電視視頻字幕文字的提取方法研究.中國科技大學，2009（7）.

[3]劉元春，凌堅，練益群. 電視新聞節(jié)目中標題字幕的提取技術探索. 廣播與電視技術，2008，35（11）：91-94.

[4]張首君，陳銀杰，安孝寬，張精通，張遠. 數(shù)字視頻信號的壓縮編碼原理.西北大學學報（自然科學版），2007，37（3）：379-383.