基于組件樹和霍夫森林的場景文字檢測識別

2016-11-09 11:04:04蘇江房濤王曉明仵媛媛高博

電子設(shè)計工程 2016年20期

關(guān)鍵詞：霍夫分類器尺度

蘇江，房濤，王曉明，仵媛媛，高博

（國網(wǎng)陜西省電力公司信息通信公司陜西西安710004）

基于組件樹和霍夫森林的場景文字檢測識別

蘇江，房濤，王曉明，仵媛媛，高博

（國網(wǎng)陜西省電力公司信息通信公司陜西西安710004）

自然場景中的文字檢測與識別是圖像理解中的重要部分，在大部分的系統(tǒng)設(shè)計中，檢測和識別被看成是孤立的兩部分進(jìn)行處理，本文提出使用多類霍夫森林建立一個統(tǒng)一的檢測識別框架。同時為了解決霍夫森林在類別增多時識別率下降，以及在尺度多變的情況下定位偏移的問題，文中提出利用組件樹提取出具有層級的連通域，同時針對文字本身的特征建立分類器。通過級聯(lián)該分類器，提取出文本的候選位置并確定目標(biāo)的尺度大小，為后級精細(xì)的定位和識別奠定基礎(chǔ)。實驗結(jié)果顯示該方案在檢測和識別方面均與目前最優(yōu)的方案具有競爭性。

組件樹；霍夫森林；圖像理解；文字檢測；文字識別

隨著互聯(lián)網(wǎng)的發(fā)展，網(wǎng)絡(luò)帶寬的不斷提高，圖像、視頻由于易于理解，符合現(xiàn)代人快速的生活節(jié)奏，逐漸取代文本成為主要的信息傳播載體。由于微博類網(wǎng)站對文本長度的限制，要發(fā)表較豐富的內(nèi)容通常需要圖文結(jié)合的方式，同時，圖片分享類網(wǎng)站的蓬勃發(fā)展，給圖像理解領(lǐng)域帶來新的機(jī)遇和挑戰(zhàn)。自然場景的文字檢測和識別作為圖像理解的重要一環(huán)，一直受到研究者的關(guān)注。一般來說，光學(xué)字符識別（OCR）系統(tǒng)只能處理背景簡單且文本相對密集的圖像，對于包含復(fù)雜背景的自然圖像，必須先通過文字定位取出包含文本的圖像塊，才能實現(xiàn)準(zhǔn)確的識別。對于文本背景較為復(fù)雜的圖像，還必須經(jīng)過文本背景分離才能得到理想的識別結(jié)果。

在目前大部分的解決方案中，文字檢測和識別作為孤立的兩部分的工作分別進(jìn)行處理，本文提出使用多類霍夫森林，建立統(tǒng)一的文字檢測和識別框架。同時針對霍夫森林在檢測中尺度不準(zhǔn)確以及定位漂移的問題，提出通過組件樹級聯(lián)分類器的方式提取文字候選區(qū)域。

1 相關(guān)工作

霍夫變換是用于檢測具有解析表達(dá)式的幾何形狀的常用目標(biāo)檢測方法，如直線、圓檢測等［1］?；舴蜃儞Q的核心思想是把原圖像中的像素點或特征（如邊緣）變換到霍夫空間（即參數(shù)空間）進(jìn)行投票，而投票的峰值即為檢測的目標(biāo)。廣義霍夫變換在霍夫變換的基礎(chǔ)上進(jìn)行擴(kuò)展，可對一般形狀的目標(biāo)進(jìn)行檢測［2］。廣義霍夫變換的基本思想是通過圖像中每一個分塊的邊緣切向量估算目標(biāo)的中心點位置，本質(zhì)上利用邊緣切向量，為不存在解析表達(dá)的形狀建立參數(shù)空間，從而應(yīng)用霍夫變換。

廣義霍夫變換假設(shè)的前提是，圖像中每個像素都是獨立的，在投票過程中對每一個分塊賦予相同的權(quán)重，使得該方法在復(fù)雜場景下容易失效。Gall等人基于霍夫變換的思想，在2009年提出建立霍夫森林進(jìn)行目標(biāo)檢測［3］?；舴蛏謱D像中每一個分塊通過一組決策樹進(jìn)行分類（前景和背景），并估算目標(biāo)的中心位置，使用決策樹輸出的概率作為投票權(quán)重。

文中提出把每一種字符作為單獨一類，建立多類霍夫森林進(jìn)行字符檢測，同時完成檢測和識別任務(wù)，避免檢測和識別問題的孤立，計算效率更高。但針對具體的文字檢測和識別問題，霍夫森林在應(yīng)用中存在一定問題。

首先是對不同大小的文字進(jìn)行檢測，常用的方法有兩種：第一種是沿用廣義霍夫變換中的方案，在參數(shù)空間內(nèi)加入尺度的維度，然后在該維度上進(jìn)行搜索；第二種方法是使用圖像金字塔，對輸入圖像的多個尺度進(jìn)行檢測，然后進(jìn)行合成。兩種方法原理上是相似的，但隨著搜索的尺度范圍增大，計算量也會成倍增加。同時由于不同尺度下獨立進(jìn)行檢測，使用不適合的尺度將會出現(xiàn)定位漂移的問題，如圖1所示。

圖1 霍夫森林對字符“A”檢測結(jié)果

此外，文字中存在有大量的部分相似現(xiàn)象，如B的上半部和R的上半部，甚至在同一個字符中也會出現(xiàn)自相似的情況，如B上半部和下半部。在無法確定尺度的情況下檢測，很有可能出現(xiàn)一個字符被判定為多個目標(biāo)的情況，如圖2所示。

圖2 霍夫森林對字符“B”檢測結(jié)果（左：原圖；右：檢測結(jié)果）

除此以外，實驗結(jié)果表明，霍夫森林雖然能夠適應(yīng)多類識別的問題，但隨著類別的增多，準(zhǔn)確率會有一定程度的下降［4］。而對于典型的文字識別問題，類別為27類（26個大寫字母和背景類），僅僅依賴于霍夫森林進(jìn)行檢測顯然是不夠的。

2 基于組件樹和霍夫森林的文字檢測與識別

該方案主要分為兩部分，分別是基于組件樹的文字候選區(qū)域提取，以及使用霍夫森林進(jìn)行的文字檢測和識別。首先，通過建立組件樹從圖像中提取出具有層級的連通域，然后對每一個區(qū)域分別提取出一組表征文字的特征并輸入至分類器，根據(jù)分類器的判決結(jié)果提取文字的候選區(qū)域。然后把每一個文字候選區(qū)域放縮至同一尺度，并作為獨立的樣本輸入至霍夫森林，進(jìn)行精細(xì)的檢測及識別。

2.1 訓(xùn)練樣本生成

對于自然場景的文本檢測和識別問題，標(biāo)記樣本十分稀少，文中通過樣本生成的方式建立訓(xùn)練集。考慮到日常中的文本大都是水平分布，在文中通過隨機(jī)選取字體，根據(jù)二元語法（2-gram）模型隨機(jī)生成多個字符，并在水平居中的前提下進(jìn)行隨機(jī)旋轉(zhuǎn)和平移，作為基礎(chǔ)的文本單元。同時從隨機(jī)選取的背景圖中采樣相同大小的塊，然后把文本疊加于背景之上。為使樣本更具挑戰(zhàn)性，在融合過程中，文本圖像需乘以0.5～0.8的隨機(jī)系數(shù)，以降低文本與背景的對比度。

2.2 基于組件樹的文字候選區(qū)域提取

文字候選區(qū)域提取的目的有兩個，一是盡量去除背景圖像塊，提高后級的計算效率；二是確定目標(biāo)文字的尺度大小，以提高霍夫森林的檢測的準(zhǔn)確率。同時，文字候選區(qū)域提取還必須保證簡單快速，避免降低整個系統(tǒng)的性能。

文字本身邊緣特征豐富而紋理簡單，使用連通域提取文字候選區(qū)域是一個快速而有效的方法［5］。但由于場景的復(fù)雜性，提取出的連通域數(shù)量會相當(dāng)多，并且使用單一分割閾值提取的連通域往往不能提取出完整的文字。

最大穩(wěn)定極值區(qū)域（MSER）［6］有效解決了以上兩個問題，并被廣泛應(yīng)用于文字檢測方案中［7-8］。首先，最大穩(wěn)定極值區(qū)域針對不同的閾值提取連通域，其次，以相對面積隨閾值變化較小作為條件，提取出穩(wěn)定的連通域。組件樹是提取最大穩(wěn)定極值區(qū)域的常用線性時間算法［9］。

圖3 MSER提取結(jié)果

圖3所示是使用組件樹提取最大穩(wěn)定極值區(qū)域的結(jié)果?？梢钥闯?，在復(fù)雜的場景下，文字區(qū)域并不一定能滿足“穩(wěn)定”的要求。因此，文中在應(yīng)用中去除該約束，通過對組件樹中的每一個區(qū)域進(jìn)行特征提取，確定文字的候選區(qū)域。

對每一個連通域提取以上特征，然后輸入至分類器進(jìn)行獨立識別。分類器輸出的所有正樣本分別重采樣至同一尺度大小，作為文字的候選區(qū)域。

文中使用的分類器是AdaBoost分類器［10］，同時為了保證盡量多的文字被檢測到，即較高的召回率，在此前提下犧牲檢測的準(zhǔn)確率，當(dāng)后驗概率大于0.4時即判定為正樣本。準(zhǔn)確率由后級的霍夫森林檢測進(jìn)一步提高。

2.3 基于霍夫森林的檢測與識別

霍夫森林由一組獨立的霍夫樹組成，霍夫樹是分類樹和回歸樹的結(jié)合，每一個節(jié)點可能是分類節(jié)點或者回歸節(jié)點?；舴蛏直举|(zhì)上是基于概率投票的廣義霍夫變換，投票的權(quán)值以及目標(biāo)位置的估計值由葉子節(jié)點保存的碼本決定。

針對文字檢測和識別問題，以每個字符作為獨立的檢測目標(biāo)，應(yīng)用多類霍夫森林，可在檢測的同時完成識別，避免檢測和識別問題的孤立，并保持降低的計算復(fù)雜度。而霍夫森林在在多類檢測情況下雖然能保持較高的召回率，但準(zhǔn)確率會有一定程度下降［4］。針對這一情況，文中除了通過前級文字候選區(qū)域提取去除大量背景外，還在決策樹的節(jié)點分割函數(shù)對背景類進(jìn)行獨立計算，保證在分類過程中優(yōu)先進(jìn)行背景和文字的分離。除此之外，文中通過使用區(qū)域特征取代點特征提高算法的魯棒性，降低算法對目標(biāo)尺度的敏感性。最后，針對多類字符的目標(biāo)搜索，文中提出使用貪婪迭代搜索的方式進(jìn)行定位。

文中，使用的是文獻(xiàn)［3］提出的二類霍夫森林框架，并在此之上針對文字檢測識別應(yīng)用進(jìn)行了以下改進(jìn)。

首先是把二類分類問題推廣到多類。在二類分類的問題中霍夫樹每一個節(jié)點的目標(biāo)是最小化不確定性，包括類別的熵

以及中心位置的聚類

針對多類物體檢測的問題，中心位置的不確定性可由每一個類別的確定性相加獲得

其次，如圖2所示，霍夫森林在對于不確定的尺度無法進(jìn)行精確定位，必須通過對原圖進(jìn)行不同尺度的采樣分別進(jìn)行檢測，時間復(fù)雜度較高。除了利用候選區(qū)域提取確定尺度大小外，文中還通過修改霍夫森林的分類特征，進(jìn)一步提高霍夫森林對尺度變化的適應(yīng)性。

霍夫森林使用的特征是二進(jìn)制特征，典型的形式如下：

其中τ是閾值，Pl（x）是像素在特征空間的l取值。文中，將其推廣為區(qū)域特征。

該形式可看作是點特征的超集。以區(qū)域的均值作為判決準(zhǔn)則，可提高算法抗干擾能力，并減少對尺度的敏感性。

除此以外，對于單類目標(biāo)檢測的問題，通常在霍夫投票圖像，即后驗概率P（xi=l|fi），使用非極大值抑制（Non-Maximal Suppression）［12］，搜索極大值作為目標(biāo)，但該方法并不能推廣到多類情況。文中，提出圖4所示的貪婪迭代搜索算法確定目標(biāo)位置。首先初始化所有候選目標(biāo)均為背景，然后進(jìn)入迭代。每一次迭代中，求出每個候選目標(biāo)的最優(yōu)所屬類別，并選出優(yōu)化效果最顯著的候選目標(biāo)賦予新的標(biāo)簽值，然后再更新該候選目標(biāo)的鄰域標(biāo)簽值。當(dāng)無法通過改變標(biāo)簽值來提高后驗概率時，退出迭代。

圖4 霍夫空間貪婪搜索算法

3 實驗結(jié)果

文中生成的訓(xùn)練樣本大小為32×32，字符使用26個字母（區(qū)分大小寫）和10個阿拉伯?dāng)?shù)字，共62類。背景圖像從VOC2009數(shù)據(jù)集［13］中隨機(jī)抽樣獲得，圖5所示為部分合成的樣本。每類字符樣本各生成1 000張。

在組件樹提取時，把彩色圖像轉(zhuǎn)換為灰度圖以及HSV顏色空間，每個顏色通道獨立進(jìn)行提取后進(jìn)行融合?？紤]到日常生活中存在黑底白字和白底黑字兩種情況，對每個通道的每像素的二進(jìn)制反值也做同樣的處理［14］。區(qū)域分類使用的AdaBoost分類器，以單層決策樹作為弱分類器，弱分類器數(shù)量為100。

霍夫森林使用的特征空間是原始的灰度圖，以及X方向和Y方向的Sobel邊緣特征，提取的塊大小為16×16，決策樹的數(shù)量為10，樹的最大深度為20，節(jié)點的最少樣本數(shù)量為20。每個節(jié)點從參數(shù)空間采樣1 000個樣本，取最優(yōu)值作為判決特征。

文中使用的測試集是ICDAR 2013［15］，其中組件樹的定位準(zhǔn)確率是52.8%，召回率是87.1%。由于組件樹只作為文字候選區(qū)域的提取，較低的準(zhǔn)確率是可以接受的。

圖5 部分訓(xùn)練樣本

圖5所示是部分檢測成功的樣本，圖6是部分檢測失敗的樣本。表1是文中檢測結(jié)果與ICDAR 2013前3名的對比，其中召回率與ICDAR 2013的第1名接近，而準(zhǔn)確率高于第一名的成績，這得益于檢測與識別的結(jié)合。

表2是文中識別結(jié)果與ICDAR 2013文字識別前3名的比較，使用的是大寫字母子集。文中使用的是隨機(jī)自動生成的訓(xùn)練樣本，以檢測和識別為目標(biāo)，而其他算法使用的訓(xùn)練和測試樣本均是人工切割好的字符區(qū)域，且僅以識別為目的，兩者的測試樣本并不相同，結(jié)果只作為參考對比。

圖6 檢測成功的樣本

表1 ICDAR 2013文字檢測結(jié)果

表2 ICDAR 2013文字識別結(jié)果

圖7 檢測失敗的樣本

在時間復(fù)雜度方面，文中提出的算法在時間上的消耗主要為兩部分，分別是組件樹提取和霍夫森林檢測。由于不同顏色通道的組件樹提取以及各個霍夫樹的計算是相互獨立的，本文使用并行計算來提高效率。在一臺配置為Intel Core i5 1.8 GHz的電腦上，對一張大小為的圖像提取組件樹大約需時100毫秒，霍夫森林對整幅圖像進(jìn)行檢測大約需時250毫秒。由于實際應(yīng)用時霍夫森林僅對候選文字區(qū)域進(jìn)行檢測，因此真實需時會更少。

4 結(jié)束語

文中針對自然場景中的文本檢測識別問題，提出使用組件樹結(jié)合混合特征分類形成候選區(qū)域，再用霍夫森林進(jìn)行檢測識別的整體解決方案，與目前提出的最優(yōu)方案具有競爭性。該方案利用霍夫森林統(tǒng)一了文字檢測和識別兩部分工作，并應(yīng)用組件樹提高了算法對不同尺度文字的適應(yīng)性，同時以合成圖像作為訓(xùn)練樣本，提高了方案的適用性。雖然本文提出的方案與目前提出的最優(yōu)方案效果接近，但從實驗結(jié)果來看，自然場景中文字檢測和識別問題仍未被完全解決，自然場景的復(fù)雜性和文字本身的多樣性是該問題的最大難點。

［1］Duda R O，Hart P E.Use of the Hough transformation to detect lines and curves in pictures［J］.Communications of the ACM，1972，15（1）:11-15.

［2］Ballard D H.Generalizing the Hough transform to detect arbitrary shapes［J］.Pattern recognition，1981，13（2）:111-122.

［3］Gall J，Lempitsky V.Class-specific hough forests for object detection ［M］//Computer Vision and Pattern Recognition（CVPR），2009:1022-1029.

［4］Gall J，Yao A，Razavi N，et al.Hough forests for object detection，tracking，and action recognition［J］.IEEE Transactions on Pattern Analysis and Machine Intelligence，2011，33（11）:2188-2202.

［5］Koo H I，Kim D H.Scene text detection via connected component clustering and nontextfiltering［J］.IEEE Transactions on Image Processing，2013，22（6）:2296-2305.

［6］Matas J，Chum O，Urban M，et al.Robust wide-baseline stereo from maximally stable extremal regions［J］.Image and vision computing，2004，22（10）:761-767.

［7］Chen H，Tsai S S，Schrith G，et al.Robust text detection in natural images with edge-enhanced maximally stable extremal regions［C］//Image Processing （ICIP），2011:2609-2612.

［8］Neumann L，Matsa J.A method for text localization and recognition in real-world images［C］//Asian Conference of Computer Vision（ACCV），2010:770-783.

［9］Nistér D，Stewénius H.Linear time maximally stable ex-tremal regions［C］//Computer Vision-ECCV，2008:183-196.

［10］Freund Y，Schapire R E.A desicion-theoretic generalization of on-line learning and an application to boosting［C］//Computational learning theory，1995:23-37.

［11］Razavi N，Gall J，Van Gool L.Scalable multi-class object detection ［C］//Computer Vision and Pattern Recognition（CVPR），2011:1505-1512.

［12］Blaschko M B.Branch and bound strategies for non-maximal suppression in object detection ［C］//Energy Minimization Methods in Computer Vision and Pattern Recognition，2011: 385-398.

［13］Everingham M，Van Gool L，Williams C K I，et al.The pascal visual object classes（voc）challenge［J］.International journal of computer vision，2010，88（2）:303-338.

［14］Epshtein B，Ofek E，Wexler Y.Detecting text in natural sceneswith stroke width transform［C］//Computer Vision and Pattern Recognition（CVPR），2010:2963-2970.

［15］Karatzas D，Shafait F，UCHIDA S，et al.ICDAR 2013 robust reading competition［C］//Document Analysis and Recognition（ICDAR），2013:1484-1493.

Text detection and recognition in natural scenes based on component tree and Hough forest

SU Jiang，F(xiàn)ANG Tao，WANG Xiao-ming，WU Yuan-yuan，GAO Bo
（Shaanxi Electric Power Company Information Communication Co.，Ltd.，Xi'an 710004，China）

Text detection and recognition in natural scenes play an important role in image understanding.Inmost of current system design，detection and recognition are isolated and processed separately.A unified framework for detection and recognition based onmulti-class Hough forest is proposed.In order to improve the performance when the quantity of classes increases，aswellas improve accuracy with uncertain scale，component tree is used for extracting connected componentwith hierarchy，while a set of features based on text characteristics is extracted and feed to a classifier.With the help of the classifier，the scale of the target is determined and all candidate texts are located，which build the foundation of subsequent stage for fine positioning and recognition.Experiments show that the scheme is competitive with current optimal solutions in both detection and recognition.

component tree；Hough forest；image understanding；text detection；text recognition

TN99

1674－6236（2016）20-0178-04

2015-10-28 稿件編號：201510202

蘇江（1984—），男，陜西蒲城人，碩士，工程師。研究方向：信息系統(tǒng)開發(fā)維護(hù)、模式識別。