盧 迪 黃 鑫 柳長(zhǎng)源 林 雪 張華玉 嚴(yán) 俊
?
基于區(qū)域?qū)Ρ榷仍鰪?qiáng)的二值化算法
盧 迪 黃 鑫*柳長(zhǎng)源 林 雪 張華玉 嚴(yán) 俊
(哈爾濱理工大學(xué)電氣與電子工程學(xué)院 哈爾濱 150080)
降質(zhì)文檔圖像二值化問題是圖像處理領(lǐng)域的一個(gè)難點(diǎn)。該文通過(guò)分析圖像不同區(qū)域灰度對(duì)比度的差異,為降質(zhì)文檔圖像提出了新的二值化算法。首先利用四叉樹原理自適應(yīng)劃分區(qū)域,再對(duì)不同灰度對(duì)比度區(qū)域采用不同對(duì)比度增強(qiáng)法以調(diào)整局部區(qū)域內(nèi)的灰度對(duì)比度,最后根據(jù)灰度值出現(xiàn)的頻率確定局部閾值。該文測(cè)試了隨機(jī)拍攝的降質(zhì)圖像及DIBCO(Document Image Binarization COntest)圖像集中的50幅圖像。與4種經(jīng)典算法比較,所提算法處理的降質(zhì)圖像具有最高F-measure值和峰值信噪比(PSNR值)。
圖像處理;二值化;區(qū)域?qū)Ρ榷仍鰪?qiáng);局部閾值;四叉樹法
光學(xué)字符識(shí)別技術(shù)(Optical Character Recognition, OCR)是將紙質(zhì)文字信息錄入計(jì)算機(jī)的最高效方法,但其主要不足表現(xiàn)為無(wú)法從降質(zhì)文檔圖像中提取清晰字符,即降質(zhì)文檔圖像二值化過(guò)程存在問題。目前圖像二值化方法主要為基于閾值的二值化方法,又可分為全局閾值法和局部閾值法。全局閾值法(如Otsu 法[1])對(duì)處理目標(biāo)和背景灰度分布均勻且類偏差不大的圖像有良好效果,但對(duì)降質(zhì)文檔圖像,全局閾值法會(huì)出現(xiàn)大量的誤分割[2]。局部閾值法是根據(jù)局部像素點(diǎn)信息確定閾值,更適用于二值化降質(zhì)文檔圖像。1986年,文獻(xiàn)[3]提出利用局部均值和標(biāo)準(zhǔn)差計(jì)算閾值的自適應(yīng)二值化算法,該算法二值化的圖像字符筆畫較完整,但圖像背景會(huì)產(chǎn)生連續(xù)大塊非目標(biāo)黑色區(qū)域。2000年,文獻(xiàn)[4]在文獻(xiàn)[3]算法基礎(chǔ)上進(jìn)行改進(jìn),引入標(biāo)準(zhǔn)方差動(dòng)態(tài)范圍參數(shù)R降低文獻(xiàn)[3]算法中對(duì)修正參數(shù)K的依賴。該算法對(duì)大部分降質(zhì)文檔圖像有較好的處理效果,但對(duì)背景特別亮或特別暗的圖像,處理效果較差。2007年,文獻(xiàn)[5]提出的改進(jìn)FCM算法利用偏移場(chǎng)有效地降低了非均勻光照干擾, 但分割結(jié)果目標(biāo)丟失嚴(yán)重。2010年,文獻(xiàn)[6]提出基于圖像區(qū)域的二值化算法,根據(jù)預(yù)先設(shè)定的分塊數(shù)將圖像分塊,再采用Otsu法全局分割,由于其需事先指定分塊數(shù), 所以自適應(yīng)性受到了很大程度限制[7]。2014年,文獻(xiàn)[8]提出一種自適應(yīng)二值化算法,分4步對(duì)圖像進(jìn)行處理,依次是:局部對(duì)比分析、對(duì)比度擴(kuò)展、閾值選取和噪聲移除。文獻(xiàn)[8]算法對(duì)文檔填充充實(shí)的降質(zhì)圖像分割效果好,但處理圖像中只有少量字符的文檔圖像,會(huì)產(chǎn)生大量的噪點(diǎn)。
當(dāng)前技術(shù)大多是針對(duì)某一特定降質(zhì)原因的圖像有較好的二值化效果[9],但降質(zhì)原因多種多樣,好的二值化算法應(yīng)能處理多種原因形成的降質(zhì)圖像。降質(zhì)文檔圖像的特點(diǎn)是部分區(qū)域目標(biāo)和背景的灰度對(duì)比較明顯,部分對(duì)比不明顯或整體對(duì)比均不明顯[10]?;诖?,本文設(shè)計(jì)了一種基于區(qū)域?qū)Ρ榷仍鰪?qiáng)的二值化算法,可解決受多類原因影響的降質(zhì)文檔圖像的二值化問題。
2.1區(qū)域劃分
區(qū)域劃分的好壞直接影響著不同對(duì)比度增強(qiáng)法能否在相應(yīng)區(qū)域發(fā)揮最大效用,灰度對(duì)比度可作為劃分依據(jù)。設(shè)是一幅的灰度圖像,定義像素點(diǎn)處灰度對(duì)比度為
(2)
(3)
2.1.1區(qū)域粗劃分 本文利用四叉樹原理,根據(jù)灰度對(duì)比度對(duì)圖像進(jìn)行區(qū)域劃分如圖1。第1次四分將待處理圖像分為A, B, C, D 4個(gè)子區(qū)域,若子區(qū)域C內(nèi)的最大灰度對(duì)比度小于倍整體區(qū)域的最大灰度對(duì)比度(如式(4)),說(shuō)明該區(qū)域灰度變化不顯著,認(rèn)為該子區(qū)域不含字符均為背景,直接輸出該子區(qū)域。
2.1.2區(qū)域細(xì)劃分 粗劃分后不滿足式(4)的區(qū)域均被認(rèn)為是含字符的目標(biāo)區(qū)域,本文假設(shè)圖1中A, B,
圖1 區(qū)域劃分原理示意圖
D為目標(biāo)區(qū)域。對(duì)降質(zhì)文檔圖像,粗劃分后的剩余區(qū)域間的灰度對(duì)比度也可能存在明顯差異,因此需要對(duì)剩余區(qū)域再次細(xì)分。以區(qū)域D為例(A, B區(qū)域的細(xì)分同D區(qū)域),若第2次四分后子區(qū)域DD的最大灰度對(duì)比度小于倍四分前區(qū)域的最大灰度對(duì)比度(如式(5)),直接輸出該區(qū)域。
(6)
2.2區(qū)域?qū)Ρ榷仍鰪?qiáng)
2.1節(jié)將圖像劃分成灰度變化不顯著區(qū)域、非常顯著區(qū)域及較顯著區(qū)域。文檔圖像通常為黑色目標(biāo)及白色背景,因此對(duì)灰度變化不顯著區(qū)域,將區(qū)域內(nèi)各像素點(diǎn)灰度值調(diào)整為
對(duì)于灰度變化非常顯著區(qū)域,采用弱灰度對(duì)比度增強(qiáng)方式[11],將區(qū)域內(nèi)各像素點(diǎn)灰度值調(diào)整為
(9)
對(duì)于灰度變化較顯著區(qū)域,本文基于弱灰度對(duì)比度增強(qiáng)方式提出了強(qiáng)灰度對(duì)比度增強(qiáng)方式,其目的是更大程度地拉大區(qū)域內(nèi)各像素點(diǎn)間的灰度對(duì)比度。此時(shí)區(qū)域內(nèi)各像素點(diǎn)灰度值調(diào)整為
本文的灰度增強(qiáng)法可有效調(diào)整非均勻光照?qǐng)D像、透背圖像及變化背景圖像像素點(diǎn)的灰度值,進(jìn)而解決這3類圖像的二值化問題。對(duì)由字跡透背或受非均勻光照引起的降質(zhì)文檔圖像,圖像中字跡透背、光照太亮或太暗區(qū)域,其前景與背景間對(duì)比度相差不大,可歸為對(duì)比度較顯著區(qū)域,采用式(10)強(qiáng)對(duì)比度增強(qiáng)法可分離出清晰字符。對(duì)文檔降質(zhì)不嚴(yán)重的區(qū)域,其前景與背景間灰度對(duì)比度存在明顯差異,此時(shí)采用式(9)弱對(duì)比度增強(qiáng)法可減少噪聲。對(duì)存在變化背景的降質(zhì)文檔圖像,其背景間的對(duì)比度變化遠(yuǎn)比不上前景與背景之間的對(duì)比度變化。因此,若區(qū)域中不存在字符只存在對(duì)比度變化相對(duì)較大的背景時(shí),通過(guò)式(8)即可將它剔除;若區(qū)域中既存在字符又存在變化背景,則可以通過(guò)兩類對(duì)比度增強(qiáng)法,拉大像素點(diǎn)間的對(duì)比度,進(jìn)而從背景中分離出前景。圖2為強(qiáng)、弱灰度對(duì)比度增強(qiáng)法的二值化效果對(duì)比圖。通過(guò)圖2可以看出,對(duì)灰度變化程度不同的區(qū)域,應(yīng)用不同灰度對(duì)比度增強(qiáng)法可取得較好的分割效果。
2.3 區(qū)域閾值選取
經(jīng)對(duì)比度增強(qiáng)法調(diào)整后的灰度圖像直觀上可明顯地區(qū)分出目標(biāo)和背景。分析文檔圖像特點(diǎn)可知,通常情況下,文檔圖像字符像素點(diǎn)數(shù)目小于背景像素點(diǎn)數(shù)目,極少數(shù)可能存在大于的情況。因此可通過(guò)累加灰度直方圖中灰度值所對(duì)應(yīng)的像素點(diǎn)數(shù)來(lái)確定代表前背景的灰度值。對(duì)于經(jīng)灰度對(duì)比度增強(qiáng)法處理后的子區(qū)域圖像(其大小為),尋找累加值最接近時(shí)所對(duì)應(yīng)的灰度值,在中出現(xiàn)頻率最高的灰度值即為前景點(diǎn)的灰度值,在中出現(xiàn)頻率最高的灰度值即為背景點(diǎn)的灰度值。若在(或)中存在多個(gè)頻率最高的灰度值,則選取最小(或最大)的灰度值來(lái)代表前景(或背景灰度值)。子區(qū)域的閾值為和的均值,即:。最終,可獲得子區(qū)域的二值化圖像為
3.1實(shí)驗(yàn)環(huán)境和測(cè)試圖像庫(kù)
本文采用如下仿真實(shí)驗(yàn)環(huán)境:Intel(R) Core(TM)i3-3240 CPU, 4G 內(nèi)存,Matlab(R2011a)編譯環(huán)境。本文測(cè)試了隨機(jī)拍攝的手寫體圖像和印刷體圖像以及來(lái)自DIBCO圖像集[12]的50幅圖像。
3.2分割效果測(cè)試
分別應(yīng)用Otsu算法,Niblack算法,Sauvola算法和Singh算法與本文算法進(jìn)行對(duì)比實(shí)驗(yàn)。圖3~圖5為各算法處理后的二值圖像。除Otsu算法外均存在參數(shù)選取問題,因此本文結(jié)合參考文獻(xiàn)[2,3,6],對(duì)Niblack算法、Sauvola算法選取窗口大小為5 × 5, 15 × 15, 25 × 25, 35 × 35和 50 × 50做5組實(shí)驗(yàn),對(duì)Singh算法選取子塊大小為32 × 32, 64 × 64, 128 × 128, 256 × 256和512 × 512做5組實(shí)驗(yàn),本文算法以0.1為步長(zhǎng),隨機(jī)在,中選取5組,值測(cè)試,以上實(shí)驗(yàn)均選取具有最佳值的二值圖像作為最終實(shí)驗(yàn)結(jié)果。
圖3~圖5分別為受光照不均勻、字跡透背及字跡模糊影響的降質(zhì)文檔圖像。由圖3~圖5可以看出,無(wú)論是傳統(tǒng)的Otsu算法、Niblack算法或Sauvola算法還是先進(jìn)的Singh算法,經(jīng)它們處理后降質(zhì)文檔圖像的二值圖像,或存在筆畫斷裂、模糊不清的現(xiàn)象,或存在大塊黑色非目標(biāo)區(qū)域的現(xiàn)象,或存在筆畫濃度不一致的現(xiàn)象。針對(duì)降質(zhì)文檔圖像,本文算法可智能地篩選目標(biāo)區(qū)域及非目標(biāo)背景區(qū)域,避免噪聲干擾。經(jīng)本文算法處理后的二值圖像,保留了字符的完整性,分離出清晰的字符,大大地方便了后續(xù)計(jì)算機(jī)的識(shí)別。
圖2 強(qiáng)、弱灰度對(duì)比度增強(qiáng)法的二值化效果對(duì)比圖
圖3 隨機(jī)拍攝印刷體文字圖像二值化結(jié)果
圖4 隨機(jī)拍攝手寫體文字圖像二值化結(jié)果
圖5 H-DIBCO2012 H08二值化結(jié)果
3.3評(píng)估指標(biāo)
(13)
由表1可以看出,在5種算法處理降質(zhì)文檔圖像的測(cè)試結(jié)果中,應(yīng)用本文算法處理的二值圖像,具有最高的值(高于次高Otsu法4%)、最高的值(高于次高Sauvola法5%),說(shuō)明本文算法可最好地還原目標(biāo)像素點(diǎn),同時(shí)說(shuō)明應(yīng)用本文算法輸出的二值圖像最接近實(shí)際未降質(zhì)文檔的二值圖像。
表1不同算法對(duì)DIBCO圖像集的測(cè)試結(jié)果
方法Otsu算法Niblack算法Sauvola算法Singh算法本文算法 77.8148.9772.9370.5080.94 (dB)15.078.0915.1413.7415.90
3.4基于OCR評(píng)估
測(cè)試各算法二值圖像在OCR(識(shí)別正確率)上的識(shí)別效果可作為評(píng)價(jià)各算法二值效果好壞的重要依據(jù)。因此,本文利用圖3,測(cè)試各算法處理的二值化圖像在ABBYY Fine Reader 12上的識(shí)別正確率(具體數(shù)據(jù)見表2)。本文定義OCR識(shí)別正確率為
結(jié)合圖3及表2可知,雖然原灰度圖像受非均勻光照影響,但在ABBYY Fine Reader上仍有88.94%的識(shí)別正確率。經(jīng)Otsu算法及Sauvola算法處理后的二值圖像,由于圖像右下角區(qū)域字符筆畫斷裂,因此在ABBYY Fine Reader上識(shí)別效率較低。經(jīng)Niblack算法處理后的二值圖像,雖然圖像中存在黑色噪聲塊,但由于帶字符的前景區(qū)域字符筆畫連續(xù),因此識(shí)別率可達(dá)到90%以上。經(jīng)Singh算法處理后的二值圖像,大部分字符保留較完整,因此識(shí)別率也可達(dá)到90%以上。經(jīng)本文算法處理后的二值圖像,字符清晰、完整、易于識(shí)別,在ABBYY Fine Reader上可達(dá)到98%以上的識(shí)別正確率,說(shuō)明了本文二值化算法的有效性。
表2 圖3中各圖像在ABBYY FineReader上的識(shí)別正確率
本文根據(jù)區(qū)域間灰度對(duì)比度的差異,為降質(zhì)文檔圖像提出新的二值化算法。該算法自適應(yīng)地劃分灰度對(duì)比度顯著與較顯著區(qū)域,對(duì)灰度對(duì)比度顯著區(qū)域,本文采用弱對(duì)比度增強(qiáng)法調(diào)整前景與背景間的灰度差異,有效地抑制了噪聲的干擾。對(duì)灰度對(duì)比度較顯著區(qū)域,本文提出強(qiáng)對(duì)比度增強(qiáng)法來(lái)調(diào)整灰度差異,進(jìn)而分離出清晰字符。因此不論任何區(qū)域(包括變化背景、非均勻光照、透背等區(qū)域),總有適合的方法去處理。且本文算法對(duì)由嚴(yán)重非均勻光照及透背引起的降質(zhì)文檔圖像尤為有效。實(shí)驗(yàn)結(jié)果表明,在5種算法處理DIBCO圖像集得到的結(jié)果中,本文算法得到的二值圖像,字符筆畫清晰、完整,背景極少出現(xiàn)噪聲,且具有最高的F-measure值及PSNR值。將各種算法得到的二值圖像應(yīng)用到ABBYY FineReader12,本文算法具有最高的識(shí)別正確率。
[1] OTSU N. A threshold selection method from gray level histograms[J]., 1979, 9(1): 62-66. doi: 10.1109/TSMC.1979. 4310076.
[2] 申鉉京, 龍建武, 陳海鵬, 等. 三維直方圖重建和降維的Otsu閾值分割算法[J]. 電子學(xué)報(bào), 2011, 39(5): 1108-1114.
SHEN Xuanjing, LONG Jianwu, CHEN Haipeng,. Otsu thresholding algorithm based on rebuilding and dimension reduction of the 3-dimensional histogram[J]., 2011, 39(5): 1108-1114.
[3] NIBLACK W. An Introduction to Digital Image Processing [M]. Englewood Cliffs, NJ, US, Prentice-Hall, Inc., 1986: 115-116.
[4] SAUVOLA J and PIETIKAINEN M. Adaptive document image binarization[J]., 2000, 33(2): 225-236. doi: 10.1016/S0031-3203(99)00055-2.
[5] MA L and STAUNTON R C. A modified fuzzy C-means image segmentation algorithm for use with uneven illumination patterns[J]., 2007, 40(11): 3005-3011. doi: 10.1016/j.patcog.2007.02.005.
[6] CHOU C H, and LIN W H, and CHANG F. A binarization method with learning-build rules for document images produced by cameras[J]., 2010, 43(4): 1518-1530. doi: 10.1016/j.patcog.2009.10.016.
[7] 龍建武, 申鉉京, 臧慧, 等. 高斯尺度空間下估計(jì)背景的自適應(yīng)閾值分割算法[J]. 自動(dòng)化學(xué)報(bào), 2014, 40(8): 1773-1782. doi: 10.3724/SP.J.1004.2014.01773.
LONG Jianwu, SHEN Xuanjing, ZANG Hui,. An adaptive thresholding algorithm by background estimation in Gaussian scale space[J]., 2014, 40(8): 1773-1782. doi: 10.3724/SP.J.1004.2014.01773.
[8] SINGH B M, SHARMA R, GHOSH D,. Adaptive binarization of severely degraded and non-uniformly illuminated documents[J]., 2014, 17(4): 393-412. doi: 10.1007/ s10032-014-0219-6.
[9] MESQUITA R G, MELLO C A B, and ALMEIDA L H E V. A new thresholding algorithm for document images based on the perception of objects by distance[J].-, 2014, 21(2): 133-146. doi: 10.3233/ICA-130453.
[10] MILYAEV S, BARINOVA O, NOVIKOVA T,. Fast and accurate scene text understanding with image binarization and off-the-shelf OCR[J]., 2015, 18(2): 169-182. doi: 10.1007/ s10032-015-0240-4.
[11] ROSENFELD A and KAK A C. Digital Picture Processing [M]. 2nd ed. New York, Morgan Kaufmann: Academic Press, 1982: 92-95.
[12] PRATIKAKIS I, GATOS B, and NTIROGIANNIS K. DIBCO 2013-Document Image Binarization Contest [EB/ OL]. http://utopia.duth.gr/~ipratika/DIBCO2013/, 2013.
盧 迪: 女,1971年生,教授,研究方向?yàn)閿?shù)據(jù)融合、故障檢測(cè)、圖像處理、智能交通系統(tǒng).
黃 鑫: 女,1991年生,碩士生,研究方向?yàn)閳D像處理.
柳長(zhǎng)源: 男,1971年生,副教授,研究方向?yàn)槟J阶R(shí)別與智能信息處理技術(shù)、機(jī)器學(xué)習(xí)與人工智能、數(shù)字圖像處理.
Binarization Method Based on Local Contrast Enhancement
LU Di HUANG Xin LIU Changyuan LIN Xue ZHANG Huayu YAN Jun
(,y,150080,)
Binarization for degraded document images is a difficult point in image processing. This paper presents a new binarization method for the degraded document images by analyzing the differences of image grayscale contrast in different areas. Firstly, theory of quadtree is used to divide areas adaptively. Secondly, various contrast enhancements are selected to adjust local grayscale contrast for different contrast areas. Lastly, the frequency of gray value is utilized to calculate threshold. The proposed algorithm is tested on random shooting degraded images and datasets of Document Image Binarization COntest (DIBCO). Compared with other four classical algorithms, the binaried images using the proposed algorithm gain the highest F-measure and PSNR (Peak Signal-to-Noise Ratio).
Image processing; Binarization;Local contrast enhancement; Local threshold; Quadtree
TN911.73
A
1009-5896(2017)01-0240-05
10.11999/JEIT160197
2016-03-03;改回日期:2016-07-12;
2016-09-30
黃鑫 scorpion_hx@163.com
哈爾濱市科技創(chuàng)新人才項(xiàng)目(2014RFQXJ163)
The Science and Technology Innovation Talents Project of Harbin (2014RFQXJ163)