視頻圖像文字檢測的分析與研究

2017-08-11 04:31:19王康

魅力中國 2016年49期

王康

摘要：隨著現(xiàn)代科學(xué)技術(shù)的快速發(fā)展，視頻圖像技術(shù)的應(yīng)用越來越廣泛，與此同時，人們對從視頻圖像中檢測識別文字的要求也越來越高。文字檢測是文字信息提取系統(tǒng)的前端，是文字信息提取中最關(guān)鍵的一步。近年來，視頻圖像文字信息檢測領(lǐng)域有了新的重要的發(fā)展，本文分析了近年來文字檢測技術(shù)的主要進展，并對視頻圖像中的文字檢測技術(shù)的難點進行總結(jié)。

關(guān)鍵詞：視頻圖像文字文字檢測邊緣檢測區(qū)域分析基于紋理方法機器學(xué)習(xí)

圖像的內(nèi)容可以分為感知內(nèi)容和語義內(nèi)容。色彩、灰度、形狀、紋理及其隨時間的變化是感知內(nèi)容，而物體、事件以及關(guān)系是語義內(nèi)容。語義內(nèi)容根據(jù)文字、人臉、車牌和人的行為等進行分類。在這些分類基準(zhǔn)中，文字是本文尤其感興趣的部分，因為：（1）文字相對其他語義內(nèi)容更容易被提?。唬?）文字在描述圖像內(nèi)容時十分有效；（3）文字能夠支持關(guān)鍵字搜索、自動視頻日志和圖像索引。通過提取視頻圖像中的文字內(nèi)容信息，可對視頻圖像內(nèi)容進行描述。提取視頻圖像中的文字，首要的是進行視頻圖像中的文字檢測。因此，本文只關(guān)注文字檢測的發(fā)展進程。

一、視頻文字檢測的定義

視頻本質(zhì)上是序列圖像流，故下文在敘述上對視頻和圖像、視頻中的文字和圖像中的文字，不作嚴(yán)格區(qū)分。文字信息提取系統(tǒng)是指從視頻圖像中獲取文字信息的系統(tǒng)，主要包括文字檢測和識別。文字檢測性能的好壞直接決定了文字識別的結(jié)果，所以文字檢測是文字信息提取系統(tǒng)中最關(guān)鍵的一步。

文字檢測是指檢測視頻圖像是否含有文字，若有，則將文字區(qū)域定位并分割，它的結(jié)果可以直接用于文字識別。有研究中將文字檢測、定位、提取嚴(yán)格區(qū)分，但大部分研究是不作區(qū)分的，因此在本文中默認這些概念可相互交換使用。視頻文字主要可分為兩種。一種是場景文字，即在視頻拍攝時自然包含在場景中的文字，如車牌、商標(biāo)、路標(biāo)和運動服編號等；另一種是通過人為加工嵌入視頻中的字幕文字，如新聞標(biāo)題、電視劇/電影字幕和不法分子在某些視頻圖像中添加的非法宣傳、標(biāo)語等。早期主要研究字幕文字，近年來場景文字的檢測也取得了一定的發(fā)展。

二、文字檢測的性能指標(biāo)

文字檢測中主要的性能指標(biāo)有查全率、查準(zhǔn)率和f指數(shù)等。這些指標(biāo)來源于信息檢索中的評價參數(shù)，查全率指所有正樣本中正確檢測出來的正樣本所占比例；查準(zhǔn)率指所有檢測出來的樣本（可能包含正、負樣本）中被正確檢測出來的正樣本所占比例。上述正樣本表示文字區(qū)域，負樣本表示虛警區(qū)域。f指數(shù)是查全率和查準(zhǔn)率的加權(quán)調(diào)和平均。

三、文字檢測的方法

文字檢測方法分為兩類：基于區(qū)域和基于紋理的方法?；趨^(qū)域方法采用自底向上的結(jié)構(gòu)，將圖像中的細小區(qū)域合并成可能的文字區(qū)域。一般采用的特征有連通區(qū)域、顏色和邊緣?；诩y理方法采用自頂向下的結(jié)構(gòu)，利用文字的紋理特征將文字從背景分離出來。主要方法有小波變換、濾波器、傅里葉變換和基于機器學(xué)習(xí)的方法。

四、文字檢測技術(shù)的難點與趨勢

至今，還沒有找到一種能夠完全代表文字的特征，所以大部分文獻采用粗細法結(jié)構(gòu)，使用兩種或多種特征。一般可將特征分為兩種：第一特征和第二特征。第一步粗檢測中，根據(jù)第一特征去除掉明顯的非文字場景；第二步細檢測中，提取第二特征，使用機器學(xué)習(xí)方法或啟發(fā)式方法進行模式識別。雖然圖像文字檢測取得了很大發(fā)展，但是至今依然沒有一種統(tǒng)一的方法能有效處理各種背景下的文字。這是因為，圖像背景通常變化多端，各種方法幾乎只在某些特定情況下才顯得有效。相當(dāng)一部分視頻圖像文字檢測的方法是啟發(fā)式的，研究人員一般沒有給出數(shù)學(xué)模型或者物理意義，只提出在某些情況下，該方法比較有效，這不利于進一步研究發(fā)展。文字檢測方法繁多，尤其是近年來，基于區(qū)域、基于紋理的方法的分類方式已經(jīng)顯得乏力，圖像文字檢測方法的分類越來越模糊，使用綜合性方法呈增多趨勢。如何更好地歸納和總結(jié)這些方法，給研究人員們提出了新的挑戰(zhàn)。另外，從本文中可以看到，不同方法的性能指標(biāo)的結(jié)果也大相徑庭，更優(yōu)的性能指標(biāo)結(jié)果并不能說明方法就一定好，因為目前沒有一個標(biāo)準(zhǔn)的視頻圖像數(shù)據(jù)庫用來測試，這在很大程度上影響了不同方法的性能評價。所以，未來視頻圖像文字檢測也對標(biāo)準(zhǔn)數(shù)據(jù)庫的建立提出了強烈需求。

五、基于區(qū)域的文字檢測方法

基于區(qū)域的方法利用顏色同質(zhì)性、強邊緣性將圖像像素組成文字，根據(jù)顏色、大小和幾何規(guī)則組成文字行。主要用到的特征有：顏色、邊緣、連通分量、角點等。

有研究中采用粗細法結(jié)構(gòu)，第一步用塔式結(jié)構(gòu)處理不同大小的文字，K-均值法計算最大梯度差圖，得到文字區(qū)域的粗結(jié)果。第二步根據(jù)幾何特點和紋理特征修正結(jié)果后，對圖像進行離散小波變換DWT變換，使用主成分分析法和SVM方法將文字和非文字區(qū)域分類。該方法能夠檢測不同大小的文字，方法穩(wěn)定，但是算法復(fù)雜度較高。

5.1基于邊緣的文字檢測

基于邊緣的文字檢測把文字和背景的強對比性作為最主要的特征。通常利用邊緣提取算子對圖像進行邊緣檢測，再用平滑算子或形態(tài)學(xué)算子將其合并。

（1）基于連通分量

有研究通過從極值區(qū)域集合中高效地進行順序選擇先計算極值區(qū)域的文字概率分布，獲得局部最大概率極值區(qū)域；再使用高效的反饋循環(huán)窮舉搜索算法將極值區(qū)域組成字母、單詞。該文實現(xiàn)了一種端到端的實時文字檢測和識別方法。

（2）角點檢測方法

角點檢測是一種新型的方法。在文字區(qū)域，角點響應(yīng)強；在非文字區(qū)域，響應(yīng)較弱?；诮屈c對文字進行檢測，生成角點響應(yīng)圖，利用基于塊的閾值法得到候選文字區(qū)域，進行連通區(qū)域分析后用投影法得到文字行。有相關(guān)研究中對圖像進行角點檢測，經(jīng)形態(tài)學(xué)膨脹，得到包含角點的區(qū)域。提取區(qū)域的五個特征：面積、飽和度、基于紋理的文字檢測方法

5.2 變換域中的紋理檢測方法

離散余弦變換DCT系數(shù)與灰度的周期性相對應(yīng)。有研究中提出了基于DCT系數(shù)的文字檢測、定位和追蹤的方法。將視頻中1-幀分為8*8的塊，從各塊中取紋理特征強的DCT系數(shù)，根據(jù)它們可以得到水平、豎直和對角線的紋理信息，最終用投影法得到水平和垂直方向的文字框。

視頻圖像一般存儲在變換域中，因此基于變換域的文字檢測方法不需要轉(zhuǎn)換輸入格式就能對視頻圖像直接處理，有利于工程實踐，但是隨著滑動窗口的增大，計算量迅速增大。

六、結(jié)束語

隨著計算機技術(shù)的發(fā)展和互聯(lián)網(wǎng)的興起，人們對視頻數(shù)據(jù)庫檢索的需求越來越迫切，以往的視頻數(shù)據(jù)庫主要依靠人工添加標(biāo)簽，這種作法不但效率低，而且受人的主觀因素很大。建立穩(wěn)定、快速和低成本的視頻文字提取系統(tǒng)勢在必行，本文主要關(guān)注近五年來的圖像文字檢測方法的進展，將方法概括為基于區(qū)域和基于紋理的方法，以及綜合性方法。

參考文獻

[1]崔愛斌.淺談數(shù)字視頻圖像檢測技術(shù)的應(yīng)用[J].科技情報開發(fā)與經(jīng)濟. 2010（35）.

[2]曹毅，王林澤.圖像檢測技術(shù)在液態(tài)試劑濃度檢測中的研究與應(yīng)用[J]. 杭州電子科技大學(xué)學(xué)報. 2009（02）.

[3]焦圣喜，張利輝，江絳.圖像檢測技術(shù)在工件在線分選中的應(yīng)用[J].機床與液壓. 2010（05）.

99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

視頻圖像文字檢測的分析與研究