王康
摘 要:隨著現(xiàn)代科學(xué)技術(shù)的快速發(fā)展,視頻圖像技術(shù)的應(yīng)用越來越廣泛,與此同時,人們對從視頻圖像中檢測識別文字的要求也越來越高。文字檢測是文字信息提取系統(tǒng)的前端,是文字信息提取中最關(guān)鍵的一步。近年來,視頻圖像文字信息檢測領(lǐng)域有了新的重要的發(fā)展,本文分析了近年來文字檢測技術(shù)的主要進展,并對視頻圖像中的文字檢測技術(shù)的難點進行總結(jié)。
關(guān)鍵詞:視頻圖像文字 文字檢測 邊緣檢測 區(qū)域分析 基于紋理方法 機器學(xué)習(xí)
圖像的內(nèi)容可以分為感知內(nèi)容和語義內(nèi)容。色彩、灰度、形狀、紋理及其隨時間的變化是感知內(nèi)容,而物體、事件以及關(guān)系是語義內(nèi)容。語義內(nèi)容根據(jù)文字、人臉、車牌和人的行為等進行分類。在這些分類基準(zhǔn)中,文字是本文尤其感興趣的部分,因為:(1)文字相對其他語義內(nèi)容更容易被提?。唬?)文字在描述圖像內(nèi)容時十分有效;(3)文字能夠支持關(guān)鍵字搜索、自動視頻日志和圖像索引。通過提取視頻圖像中的文字內(nèi)容信息,可對視頻圖像內(nèi)容進行描述。提取視頻圖像中的文字,首要的是進行視頻圖像中的文字檢測。因此,本文只關(guān)注文字檢測的發(fā)展進程。
一、視頻文字檢測的定義
視頻本質(zhì)上是序列圖像流,故下文在敘述上對視頻和圖像、視頻中的文字和圖像中的文字,不作嚴(yán)格區(qū)分。文字信息提取系統(tǒng)是指從視頻圖像中獲取文字信息的系統(tǒng),主要包括文字檢測和識別。文字檢測性能的好壞直接決定了文字識別的結(jié)果,所以文字檢測是文字信息提取系統(tǒng)中最關(guān)鍵的一步。
文字檢測是指檢測視頻圖像是否含有文字,若有,則將文字區(qū)域定位并分割,它的結(jié)果可以直接用于文字識別。有研究中將文字檢測、定位、提取嚴(yán)格區(qū)分,但大部分研究是不作區(qū)分的,因此在本文中默認這些概念可相互交換使用。視頻文字主要可分為兩種。一種是場景文字,即在視頻拍攝時自然包含在場景中的文字,如車牌、商標(biāo)、路標(biāo)和運動服編號等;另一種是通過人為加工嵌入視頻中的字幕文字,如新聞標(biāo)題、電視劇/電影字幕和不法分子在某些視頻圖像中添加的非法宣傳、標(biāo)語等。早期主要研究字幕文字,近年來場景文字的檢測也取得了一定的發(fā)展。
二、文字檢測的性能指標(biāo)
文字檢測中主要的性能指標(biāo)有查全率、查準(zhǔn)率和f指數(shù)等。這些指標(biāo)來源于信息檢索中的評價參數(shù),查全率指所有正樣本中正確檢測出來的正樣本所占比例;查準(zhǔn)率指所有檢測出來的樣本(可能包含正、負樣本)中被正確檢測出來的正樣本所占比例。上述正樣本表示文字區(qū)域,負樣本表示虛警區(qū)域。f指數(shù)是查全率和查準(zhǔn)率的加權(quán)調(diào)和平均。
三、文字檢測的方法
文字檢測方法分為兩類:基于區(qū)域和基于紋理的方法?;趨^(qū)域方法采用自底向上的結(jié)構(gòu),將圖像中的細小區(qū)域合并成可能的文字區(qū)域。一般采用的特征有連通區(qū)域、顏色和邊緣?;诩y理方法采用自頂向下的結(jié)構(gòu),利用文字的紋理特征將文字從背景分離出來。主要方法有小波變換、濾波器、傅里葉變換和基于機器學(xué)習(xí)的方法。
四、文字檢測技術(shù)的難點與趨勢
至今,還沒有找到一種能夠完全代表文字的特征,所以大部分文獻采用粗細法結(jié)構(gòu),使用兩種或多種特征。一般可將特征分為兩種:第一特征和第二特征。第一步粗檢測中,根據(jù)第一特征去除掉明顯的非文字場景;第二步細檢測中,提取第二特征,使用機器學(xué)習(xí)方法或啟發(fā)式方法進行模式識別。雖然圖像文字檢測取得了很大發(fā)展,但是至今依然沒有一種統(tǒng)一的方法能有效處理各種背景下的文字。這是因為,圖像背景通常變化多端,各種方法幾乎只在某些特定情況下才顯得有效。相當(dāng)一部分視頻圖像文字檢測的方法是啟發(fā)式的,研究人員一般沒有給出數(shù)學(xué)模型或者物理意義,只提出在某些情況下,該方法比較有效,這不利于進一步研究發(fā)展。文字檢測方法繁多,尤其是近年來,基于區(qū)域、基于紋理的方法的分類方式已經(jīng)顯得乏力,圖像文字檢測方法的分類越來越模糊,使用綜合性方法呈增多趨勢。如何更好地歸納和總結(jié)這些方法,給研究人員們提出了新的挑戰(zhàn)。另外,從本文中可以看到,不同方法的性能指標(biāo)的結(jié)果也大相徑庭,更優(yōu)的性能指標(biāo)結(jié)果并不能說明方法就一定好,因為目前沒有一個標(biāo)準(zhǔn)的視頻圖像數(shù)據(jù)庫用來測試,這在很大程度上影響了不同方法的性能評價。所以,未來視頻圖像文字檢測也對標(biāo)準(zhǔn)數(shù)據(jù)庫的建立提出了強烈需求。
五、基于區(qū)域的文字檢測方法
基于區(qū)域的方法利用顏色同質(zhì)性、強邊緣性將圖像像素組成文字,根據(jù)顏色、大小和幾何規(guī)則組成文字行。主要用到的特征有:顏色、邊緣、連通分量、角點等。
有研究中采用粗細法結(jié)構(gòu),第一步用塔式結(jié)構(gòu)處理不同大小的文字,K-均值法計算最大梯度差圖,得到文字區(qū)域的粗結(jié)果。第二步根據(jù)幾何特點和紋理特征修正結(jié)果后,對圖像進行離散小波變換DWT變換,使用主成分分析法和SVM方法將文字和非文字區(qū)域分類。該方法能夠檢測不同大小的文字,方法穩(wěn)定,但是算法復(fù)雜度較高。
5.1基于邊緣的文字檢測
基于邊緣的文字檢測把文字和背景的強對比性作為最主要的特征。通常利用邊緣提取算子對圖像進行邊緣檢測,再用平滑算子或形態(tài)學(xué)算子將其合并。
(1)基于連通分量
有研究通過從極值區(qū)域集合中高效地進行順序選擇先計算極值區(qū)域的文字概率分布,獲得局部最大概率極值區(qū)域;再使用高效的反饋循環(huán)窮舉搜索算法將極值區(qū)域組成字母、單詞。該文實現(xiàn)了一種端到端的實時文字檢測和識別方法。
(2)角點檢測方法
角點檢測是一種新型的方法。在文字區(qū)域,角點響應(yīng)強;在非文字區(qū)域,響應(yīng)較弱?;诮屈c對文字進行檢測,生成角點響應(yīng)圖,利用基于塊的閾值法得到候選文字區(qū)域,進行連通區(qū)域分析后用投影法得到文字行。有相關(guān)研究中對圖像進行角點檢測,經(jīng)形態(tài)學(xué)膨脹,得到包含角點的區(qū)域。提取區(qū)域的五個特征:面積、飽和度、基于紋理的文字檢測方法
5.2 變換域中的紋理檢測方法
離散余弦變換DCT系數(shù)與灰度的周期性相對應(yīng)。有研究中提出了基于DCT系數(shù)的文字檢測、定位和追蹤的方法。將視頻中1-幀分為8*8的塊,從各塊中取紋理特征強的DCT系數(shù),根據(jù)它們可以得到水平、豎直和對角線的紋理信息,最終用投影法得到水平和垂直方向的文字框。
視頻圖像一般存儲在變換域中,因此基于變換域的文字檢測方法不需要轉(zhuǎn)換輸入格式就能對視頻圖像直接處理,有利于工程實踐,但是隨著滑動窗口的增大,計算量迅速增大。
六、結(jié)束語
隨著計算機技術(shù)的發(fā)展和互聯(lián)網(wǎng)的興起,人們對視頻數(shù)據(jù)庫檢索的需求越來越迫切,以往的視頻數(shù)據(jù)庫主要依靠人工添加標(biāo)簽,這種作法不但效率低,而且受人的主觀因素很大。建立穩(wěn)定、快速和低成本的視頻文字提取系統(tǒng)勢在必行,本文主要關(guān)注近五年來的圖像文字檢測方法的進展,將方法概括為基于區(qū)域和基于紋理的方法,以及綜合性方法。
參考文獻
[1]崔愛斌.淺談數(shù)字視頻圖像檢測技術(shù)的應(yīng)用[J].科技情報開發(fā)與經(jīng)濟. 2010(35).
[2]曹毅,王林澤.圖像檢測技術(shù)在液態(tài)試劑濃度檢測中的研究與應(yīng)用[J]. 杭州電子科技大學(xué)學(xué)報. 2009(02).
[3]焦圣喜,張利輝,江絳.圖像檢測技術(shù)在工件在線分選中的應(yīng)用[J].機床與液壓. 2010(05).