褚晶輝,董 越,呂 衛(wèi)
(天津大學(xué)電子信息工程學(xué)院,天津 300072)
隨著寬帶網(wǎng)絡(luò)、通信器材、存儲設(shè)備以及數(shù)字電視等多媒體載體及處理設(shè)備的快速發(fā)展,視頻下載和傳輸?shù)陌踩珕栴}越來越突出。如何有效地對視頻的內(nèi)容進行監(jiān)控,確保視頻的內(nèi)容安全成為了研究的熱點。文字處理一般分為4個步驟,即文字檢測、定位、提取和識別,本文算法主要針對前三步,最后的文字識別用現(xiàn)有的OCR軟件來進行。視頻中的文字分兩種,即場景文字和圖形文字。前者是圖像自然背景中的文字,后者則是人為嵌入到視頻中的文字。兩者雖有區(qū)別,但文字檢測的方法都可分為以下三大類[1]:基于邊緣和梯度的方法、基于連通域的方法和基于紋理的方法。文字字符與背景會形成比較明顯的邊緣,可以利用此特點來檢測文字區(qū)域,但是在復(fù)雜背景的情況下,應(yīng)用邊緣來檢測文字會產(chǎn)生很多誤判?;谶B通域的方法是在文字字符具有相同的顏色或者灰度級這一假設(shè)上提出的,對文字檢測有很大的局限性?;诩y理的方法利用圖像中的文本有著與背景不同的紋理特性來決定一個像素點或圖像塊是否屬于文本區(qū)域,該方法可以提取不同分辨率圖像中不同尺寸、不同語言和不同字體的文本,具有一定的通用性。但是,它存在著計算量大和定位精度不高的缺點。由此可見,目前雖已提出很多文字檢測的方法,但各種方法都有自身的優(yōu)點和不足,加上復(fù)雜的背景和文字不同的顏色尺寸字體等問題,使得文字檢測仍然很具挑戰(zhàn)性。
本文首先對圖像進行降采樣,結(jié)合了小波變換和角點特征圖,將小波變換后的三高頻子帶按算法綜合,圖像分割提取統(tǒng)計特征,運用K均值分類器判斷文字塊和非文字塊,基于角點特征圖的啟發(fā)式規(guī)則過濾誤判文字塊。最后,提出了一種基于彩色空間和K-means分類的文字提取算法,結(jié)果比僅使用大津法直接作二值化要理想。實驗結(jié)果表明,此方法通過實驗證實對于檢測在復(fù)雜背景下的低對比度文字同樣有效,并可達到很好的效果。
無論是算法中閾值的確定,還是圖像分割塊的大小,都與原圖像的分辨率息息相關(guān),所以要先對原圖像作降采樣,使圖像的分辨率都在某個范圍內(nèi),以獲取更高的效率和魯棒性。經(jīng)過實驗,設(shè)定在原圖寬度大于800的情況下應(yīng)用降采樣。
對原圖像I(x,y)運用二維小波一級變換,分解結(jié)果為低頻子帶LL,水平方向高頻子帶LH,垂直方向高頻子帶HL,對角線方向高頻子帶HH,如圖1a~圖1d所示,在高頻子帶中,文字區(qū)域的小波系數(shù)與背景區(qū)域相比大很多。通過式(1)來綜合3個高頻子帶來獲取小波綜合圖像S,如圖1f所示,小波綜合圖像的文字區(qū)域變得更為明顯。
圖1 小波變換示例圖
角點被定義為兩條邊緣的交叉點或是具有兩條主要邊緣方向的點,是在文字檢測中常用并且高效的紋理類型。因為角點是對于旋轉(zhuǎn)和移動不變的量,所以與其他低級特征相比,角點具備更好的魯棒性和穩(wěn)定性,其結(jié)果也對背景噪聲有一定程度的抑制,針對角點設(shè)定一些規(guī)則也可以區(qū)分文字和非文字區(qū)域,本文使用角點檢測特征圖而非角點圖像,主要是因為文字的檢測是基于文字區(qū)域的,而非像素點,不需要知道角點的個數(shù)和具體位置,只需要知道哪一個區(qū)域趨于生成角點即可,并且對形態(tài)學(xué)操作也更有利。角點特征圖的基本公式如下[2]
式中:I(x,y)為原圖像;W(u,v)為窗函數(shù)。已證明該公式可以被式(3)代替
式中:Ix,Iy分別為I(x,y)在x和y方向的邊緣幅值;W(u,v)為光滑作用的高斯模板。如圖2a所示,角點特征圖像可以明顯看出文字區(qū)域從背景中突顯出來。
采用角點特征圖像和小波綜合圖像的統(tǒng)計特征來作為區(qū)分文字和非文字區(qū)域的特性。將圖像分割為N×N大小(N=10)的塊,高和寬都擴展至N的倍數(shù),擴展區(qū)域填充為0,分類后只保留擴展前部分。統(tǒng)計特征分別為能量、熵、慣量、局部同態(tài)性、均值、二階中心距和三階中心距,具體公式如下[3]
圖2 K-means分類示意圖
式中:G(i,j)表示在N×N大小的圖像塊內(nèi)位置為(i,j)的像素值。由于分別從角點特征圖像和小波綜合圖像中提取7個特征,所以在特征計算之后,得到14個特征。設(shè)F為該14維特征向量,對F作歸一化處理,使特征值范圍規(guī)范為0~1,算法為
式中:Max=max(F),Min=min(F)。
運用K均值分類器來區(qū)分出文字塊和非文字塊,由于分類器隨機標記文字塊為0或1,所以根據(jù)文字的特點,假設(shè)文字區(qū)域比非文字區(qū)域小,得到初始的文字區(qū)域,由于有些文字筆畫較少,很有可能被劃分為非文字塊,所以對于同一行的分割塊,若1個非文字塊位于2個文字塊的中間,則也被定義為文字塊,反之亦如此,如圖2c所示。
分類后還是會有一些包含豐富紋理信息的非文字塊被劃分為文字塊,所以文字區(qū)域的篩選過濾是必不可少的。本文主要利用角點特征圖像和文字的特性來劃分,首先對角點特征圖像的二值化圖像作簡單的形態(tài)學(xué)處理:先作閉運算,使角點響應(yīng)較強的部分連通,再膨脹,形成區(qū)域,最后作開運算,使區(qū)域和區(qū)域之間的小縫隙斷開分別獨立誤判篩選,如圖3所示。
圖3 誤判篩選示例圖
篩選的對象不是文字塊,而是文字塊連通區(qū)的外接矩形區(qū)域。本文利用2個特性作篩選,分別為飽和度與方向[4]。設(shè)Rs為角點區(qū)域飽和度,Rc為角點區(qū)域的面積,Rb為角點區(qū)域外接矩形的面積。在文字區(qū)域,若真包含文字,則角點區(qū)域占一定的比例。即Rs<a,則該文字區(qū)域判定為偽文字區(qū)域,由于文字的大小不定,所以閾值a定在0.2~0.3之間較為合理。
假設(shè)文字區(qū)域的方向只有水平和垂直兩種,方向定義為與水平方向的夾角,則文字的方向為0°或者90°,但由于并不是所有的中文文字都包含豐富的角點信息,筆畫較少的文字則信息較少,所以也會導(dǎo)致方向的偏差,設(shè)誤差為5°。即若角點區(qū)域方向不是0°~5°或者85°~90°,則該區(qū)域判定為偽文字區(qū)域。本文使用的方向是角點區(qū)域逼近橢圓的方向。
由于分割塊大小為N×N,很有可能有部分文字在非文字塊內(nèi),所以要做一次掩膜不超過N/2的膨脹,其外接矩形則為文字區(qū)域。
文字提取是把已經(jīng)確定的文字區(qū)域中的文字像素與背景像素分離開,視頻中的復(fù)雜背景和文字大小、顏色的未知性大大增加了文字提取的難度。大津法是經(jīng)典的二值化算法,也常用于文字提取,在此基礎(chǔ)之上提出一種基于彩色空間的文字提取算法。
運用RGB空間,對子通道圖像分別運用大津法作二值化處理,再合并3個二值圖像,僅保留文字像素的交集,稱此合并后的二值圖像為初步提取結(jié)果圖。然后運用K-means分類器作灰度值的分類,值得注意的是,放入K-means分類器中的僅僅是在初步提取結(jié)果圖的文字像素區(qū)域中的原圖像灰度值,K設(shè)定為2,分類后的結(jié)果會是比較干凈的文字像素和文字邊緣及干擾。前面提及K-means會隨機地將類型值標記為0或者1,如果對整幅文字區(qū)域圖的灰度值做分類,如何判定文字像素圖會比較麻煩,但僅放入初步提取結(jié)果圖的文字像素區(qū)域的灰度值,邊緣和干擾的分類結(jié)果圖中的連通域個數(shù)明顯比文字像素分類結(jié)果圖的多,可以以此作為判斷準則,并且得到的最終提取結(jié)果也會更準確。文字提取示例如圖4所示。
圖4 文字提取示例圖
由于現(xiàn)今對于文字檢測還沒有一個標準的數(shù)據(jù)庫,筆者建立了一個圖像庫,共200幅圖,來自于多種多樣的生活類視頻,如電影、電視劇、綜藝節(jié)目、新聞等。圖像庫所有圖像皆在復(fù)雜背景下,同時也包含低對比度文字圖像和無文字圖像。
為了更好地判斷文字檢測的性能,檢測到文字區(qū)域主要分為以下4 類[5]:
1)檢測正確的文字區(qū)域:檢測到的文字區(qū)域包含文字。
2)檢測錯誤的文字區(qū)域:檢測到的文字區(qū)域不包含文字。
3)遺漏信息的文字區(qū)域:檢測到的文字區(qū)域包含文字,但是丟失一些字符。
4)邊界有誤的文字區(qū)域:檢測到的文字區(qū)域包含文字,但是邊界寬于文字本身的邊界。
相應(yīng)地,判斷文字檢測性能也有如下4個指標
通過實驗,如圖5樣本示例所示,提出的方法可以在復(fù)雜背景下檢測到不同方向(水平和豎直)、不同字體和大小的文字。為了更直觀地評價算法性能,將本文算法與文獻[6]的方法進行比較。文獻[6]方法運用彩色空間和Harris角點來檢測定位文字。經(jīng)過對實驗結(jié)果的統(tǒng)計計算,檢測性能如表1所示。
圖5 正確檢測樣本示例
表1 文字檢測結(jié)果 %
從表1的數(shù)據(jù)來看,與對比算法相比,本算法有較高的檢測率和較低的缺失率,對比算法只運用Harris角點來檢測定位,由于文字尤其是中文有很多常見字符包含的筆畫很少,角點也相應(yīng)減少,導(dǎo)致缺失率較高,而本算法結(jié)合了小波變換,相比之下,有較豐富的紋理特征,檢測率也會相應(yīng)提高。雖然豐富的紋理信息也會增高誤判率,但是比較完善的誤判篩選讓誤判率保持在相對合理的水平上。
本算法對于對比度低的文字檢測仍有不足,如圖6所示,尤其在一幀圖像中出現(xiàn)多種不同形式的文字,高對比度和低對比度文字并存的情況下,低對比度文字很容易漏檢或者邊界定位過大,以此來看,復(fù)雜背景下的低對比度文字檢測仍具挑戰(zhàn)性。
圖6 漏檢誤檢邊界過大樣本示例
本文提出一種視頻文字檢測和提取的方法,該方法結(jié)合了小波變換高頻綜合圖像和角點特征圖像,提取統(tǒng)計特征獲取文字區(qū)域,并運用彩色空間和非監(jiān)督分類器來提取文字像素。經(jīng)實驗比較,它有較好的檢測率和缺失率,但誤判率及邊界誤檢率仍有待加強。
:
[1]JUNG K,KIM K,JAIN K A.Text information extraction in images and video:a survey[J].Pattern Recognition,2004,37(5):977-997.
[2]SUN L,LIU G,QIAN X,et al.A novel text detection and localization method based on corner response[C]//Proc.IEEE International Conference on Multimedia and Expo.,2009.[S.l.]:IEEE Press,2009:390-393.
[3]SHIVAKUMARA P,PHAN T Q,TAN C L.A robust wavelet transform based technique for video text detection[C]//Proc.10th International Conference on IEEE Document Analysis and Recognition,2009.[S.l.]:IEEE Press,2009:1285-1289.
[4]ZHAO X,LIN K H,F(xiàn)U Y,et al.Text from corners:a novel approach to detect text and caption in videos[J].IEEE Trans.Image Processing,2011,20(3):790-799.
[5]SHIVAKUMARA P,HUANG W,TAN C L.An efficient edge based technique for text detection in video frames[C]//Proc.the Eighth IAPR International Workshop on Document Analysis Systems,2008.[S.l.]:IEEE Press,2008:307-314.
[6]劉亞洲,劉國榮,王田甲.基于Harris角點的彩色圖像文字檢測[J].微電子學(xué)與計算機,2010,27(10):136-139.