曾凡鋒, 段漾波
(北方工業(yè)大學(xué)計算機學(xué)院,北京 100144)
一種基于頁眉線的扭曲文檔圖像快速校正方法
曾凡鋒, 段漾波
(北方工業(yè)大學(xué)計算機學(xué)院,北京 100144)
在對文檔圖像進(jìn)行光學(xué)字符識別時,由于書籍扭曲的存在,識別率會降低。對于含有頁眉頁腳線的扭曲文檔圖像,提出一種快速校正方法。首先分別檢測并定位圖像中的頁眉線,保存頁眉線的坐標(biāo)信息。根據(jù)等比算法計算頁眉線上各點在校正時所需向上或向下移動的距離,然后以此距離為參數(shù)掃描圖像,計算頁眉頁腳線之間的各個目標(biāo)像素校正所需移動的距離,同時進(jìn)行像素點的移動重構(gòu)圖像,最終得到校正的圖像。實驗結(jié)果表明,該方法校正效果明顯,對于包含頁眉頁腳線的扭曲文檔圖像有較好的校正效果,校正后OCR識別率大幅度提高。
計算機應(yīng)用;扭曲文檔;頁眉頁腳線;等比距離;圖像校正
在進(jìn)行文檔圖像的光學(xué)字符識別(optical character recognition,OCR)時,由于紙質(zhì)文檔自身幾何形變和拍攝角度,或者由于積厚文檔導(dǎo)致的扭曲[1],其識別率會因圖像的扭曲而降低,為提高識別率,需要對扭曲的文檔圖像進(jìn)行校正[2]。目前,扭曲文檔圖像的校正方法,大多是基于文本行的校正,其主要特點是以每行文字為單元進(jìn)行校正,校正精度較高,但是由于要對每一行文字單獨進(jìn)行處理,甚至在基于連通域搜索文字的方法中也要對每一個字進(jìn)行單獨處理,因此耗時長,校正效率較低。還有一部分是基于模型重建的校正方法,如文獻(xiàn)[3]提出一種度量重建的扭曲文檔校正方法,文獻(xiàn)[4]提出一種基于魚眼模型的映射校正圖像方法。在眾多的扭曲文檔圖像中,有很多是采集于書本文檔,而目前在大多數(shù)書本文檔中,都存在頁眉頁腳線,扭曲圖像中的頁眉頁腳線是可以反應(yīng)圖像的扭曲程度的,因此將頁眉頁腳線作為校正參數(shù)。
通過以上分析,在對包含頁眉頁腳線的扭曲文檔圖像進(jìn)行校正時,可以利用頁眉線作為計算參數(shù)對圖像進(jìn)行全局校正,而不需要對每一行文字進(jìn)行單獨處理。本文基于此思路提出了一種利用頁眉線作為計算參數(shù)的扭曲文檔圖像的快速校正方法。該方法可以根據(jù)頁眉線計算出在頁眉線之下的文檔內(nèi)容校正所需的參數(shù),進(jìn)而對圖像進(jìn)行整體校正。對于同時含有頁腳線,或者只包含頁腳線的文檔圖像,也可以頁腳線作為計算參數(shù)來校正,方法與利用頁眉線的方法類似,即從頁腳線向上掃描即可。該方法校正后識別率有明顯提升,校正效率較其他方法有很大改進(jìn)。
在采集圖像的過程中,由于相機位置以及書本厚度,都可能使獲得的圖像發(fā)生扭曲。圖1所示為4幅內(nèi)容不同且?guī)в许撁柬撃_線的扭曲文檔圖像。
在文本文檔圖像扭曲的情況下,識別率將會大大降低;在嚴(yán)重扭曲的情況下甚至無法識別[2]。文獻(xiàn)[5]和[6]提出一種基于連通域的提取文檔圖像中復(fù)選框組件的方法,該方法是針對于每一行文字進(jìn)行校正的。在包含有頁眉頁腳線的扭曲文檔圖像中,根據(jù)頁眉或頁腳線的扭曲特征可以計算出校正文檔所需要的參數(shù),這樣做能很大程度地提高校正速度,即不用對每一行文字做單獨處理。同時本文提出的方法只針對于包含頁眉頁腳線的文檔進(jìn)行研究,對于文檔中介于頁眉頁腳線之間包含有其他線條(如表格線)的情況,需要做特定的圖像變換算法來檢測圖像中存在的線條,再用類似本文的校正算法校正圖像即可;本文對此類情況不做特殊討論。
對于含有頁眉線的扭曲文檔圖像,扭曲校正的第一步是檢測出頁眉線并保存其坐標(biāo);然后校正頁眉線,并計算出頁眉線上每個橫坐標(biāo)的目標(biāo)像素校正所需的參數(shù),其參數(shù)就是將每個目標(biāo)像素校正到正確位置所需移動的距離;利用這些參數(shù)就可以校正頁眉線之下的文檔內(nèi)容。本文就此提出一種基于頁眉線校正參數(shù)的校正方法,算法實現(xiàn)均采用C++編程語言,解決方案流程圖如圖2所示。
圖1 頁眉頁腳線扭曲文檔示意圖
圖2 本文解決方案流程圖
2.1圖像預(yù)處理
由于原始圖像大多數(shù)為真彩圖像,在本文所提出的方法中,需要對原始圖像進(jìn)行預(yù)處理,其內(nèi)容包括灰度化、二值化、去噪3個步驟。由于頁眉線比較細(xì),容易受到噪聲干擾,所以在進(jìn)行灰度化和二值化后需要進(jìn)行去噪處理。將真彩圖像灰度化是將具有R、G、B分量的真彩色圖像轉(zhuǎn)換為灰度圖像。轉(zhuǎn)換規(guī)則采用下式:
灰度化處理后需將圖像進(jìn)行二值化轉(zhuǎn)換,使圖像只包括背景色和前景色。傳統(tǒng)的二值化方法較多,如雙峰法、大津法(OTSU)、Sauvola算法[7]等。由于在光照均勻的情況下大津法可以很好地處理本文的研究圖像,得到效果較好的二值圖像[8],因此本文在研究中選用大津法進(jìn)行處理。
由于文檔扭曲,在扭曲邊緣可能會產(chǎn)生光照不均的情況,這會影響校正算法[9]。本文圖像采集均在光照均勻的條件下進(jìn)行,因此無需考慮光照等因素的影響,并選取簡單的鄰域去噪算法去噪,其對后續(xù)的處理不會造成影響。預(yù)處理后的圖像如圖3所示。
圖3 預(yù)處理圖像
2.2檢測頁眉線
校正的第一步是檢測出頁眉線的位置,在圖像處理中,Hough變換被用來檢測線條[10],但是對于本文來說,校正扭曲圖像對效率要求很高,因此如果采取Hough變換進(jìn)行線條檢測勢必會降低效率[11]。而本文的研究對象均為含有頁眉線的文檔圖像,即頁眉線是已存在的,如圖4所示。因此,所需要做的工作就是檢測出頁眉線的位置,并保存其位置信息。經(jīng)以上分析,本文采取一種快速的檢測頁眉線方法,即掃描檢測。
圖4 8-鄰域像素圖
本算法步驟如下:
步驟 1. 從圖像最上部的中間位置開始向下掃描,若掃描到兩個連續(xù)的黑色像素點,認(rèn)為是頁眉線上的點,用C++編程語言設(shè)置一個vector,保存該位置信息。
步驟2. 以步驟1中的位置為起點,分別向左、右掃描,每向左或向右掃描一個點,就以當(dāng)前點為基準(zhǔn)在縱向方分別向上、下掃描 10個像素單位,若檢測到連續(xù)的兩個黑色像素點,就保存為當(dāng)前頁眉線上的點。
步驟3. 重復(fù)步驟1及步驟2,直至頁面左右邊緣,即完成頁眉線檢測。
步驟4. 找出vector中值最大的元素,即為頁眉線中最高的點,并保存該點信息。
2.3計算頁眉線校正參數(shù)
扭曲校正的核心思想就是把扭曲的文字行中的文字移動到等高的位置。檢測出頁眉線后,可以先將頁眉線校正,即將頁眉線拉成水平,而將頁眉線拉平相比于拉平文字行要簡單的多。
本文實現(xiàn)頁眉線拉平的方法,是采用位移參數(shù)校正文檔內(nèi)容。首先是要拉平頁眉線,并計算展平頁眉線所需的參數(shù)。其步驟如下:
步驟 1. 在保存的頁眉線信息中,計算出頁眉線各橫坐標(biāo)上的點與最高點的高度差,并保存到一個數(shù)組中。
步驟2. 根據(jù)步驟1數(shù)組中保存的高度差,將頁眉線上的每個點在縱向上均提升到最高的位置,完成頁眉線的拉平。
原始頁眉線如圖5所示,拉平后的效果如圖6所示。
圖5 原始頁眉圖
圖6 拉平后的頁眉圖
2.4校正圖像
對于頁眉線之下的文檔內(nèi)容校正計算,其參數(shù)可以沿用校正頁眉線時計算得到的參數(shù)。對于頁眉線之下的目標(biāo)像素,校正的目的就是要使其移動到正確的位置,所需要移動的距離可以根據(jù)校正頁眉線時計算出的高度差數(shù)組來計算如圖7所示。具體校正所需要移動的距離可通過式(2)計算得到。
圖7 算法原理圖
式(2)中,Y是頁眉線最高點到當(dāng)前點水平坐標(biāo)的距離,y1是當(dāng)前目標(biāo)像素點到其所在縱向上頁眉的距離,Δh為當(dāng)前點所對應(yīng)的頁眉點校正到水平位置需要移動的距離。H即為當(dāng)前點校正到正確位置所需要移動的距離。算法步驟如下:
步驟1. 從頁眉開始縱向掃描圖像,遇到目標(biāo)像素首先根據(jù)式(2)計算目標(biāo)像素所需要移動的距離。
步驟2. 將目標(biāo)像素按步驟1中計算出來的距離移動到正確的位置。
步驟3. 重復(fù)步驟1及步驟2直至遍歷完圖像上位于頁眉線之下的目標(biāo)像素點,隨著所有目標(biāo)像素點移動結(jié)束,圖像的重構(gòu)完成。最終獲得校正后的圖像,如圖8所示。
圖8 校正圖
從圖8可以看出,在文檔內(nèi)容包含線條的情況下,內(nèi)容中的線條校正效果和頁眉線的校正效果并不完全一致,這是由于校正首先從頁眉線開始,頁眉線之下的文檔內(nèi)容校正需要用式(2)來計算校正參數(shù),所以在校正精度上會產(chǎn)生差別。但是這種差別并不會對文檔的整體校正效果和OCR識別率有負(fù)面影響。
3.1測試環(huán)境
本文算法均在VS2005開發(fā)環(huán)境下采用C++語言實現(xiàn)。實驗環(huán)境為:Inter(R) Core(TM) 2 Duo CPU E7400 @2.80 GHz;內(nèi)存2 GB;操作系統(tǒng)為Windows 7。實驗樣張取自16開普通中文書本,共100張,對其不同扭曲程度進(jìn)行測試。拍攝攝像頭為500萬像素。使用漢王OCR文字識別軟件進(jìn)行文字識別。
圖像的獲取均在光照均勻的環(huán)境下進(jìn)行,本文校正方法忽略光照強度的干擾。圖像數(shù)據(jù)為:24位真彩圖像,大小為1609×2469像素。本文算法主要針對橫排的文檔圖像進(jìn)行研究,圖像版面的特征包含頁眉頁腳線,對于文檔圖像的其他內(nèi)容不做限定,如可以包含圖形(如線條)、圖像以及表格線等非文字元素,對這些文檔圖像進(jìn)行有效的扭曲校正。
3.2校正效果對比
圖9為文獻(xiàn)[5]方法校正結(jié)果,圖10為本文方法校正結(jié)果??梢钥闯?,對于復(fù)雜版面的文檔圖像,文獻(xiàn)[5]的校正效果明顯較差,不但沒有達(dá)到校正的目的,而且有的文字行已經(jīng)損失,識別率大大降低。而本文算法進(jìn)行校正的效果明顯,且對文檔內(nèi)容是不敏感的,不管頁眉線以下的內(nèi)容是什么均可以很好地校正,因此提升了識別率。如文獻(xiàn)[12]、[13]中所提出的校正算法相比于本文算法都有明顯不足。在實驗中,采用本文方法進(jìn)行測試的樣張中,只有3張的校正效果不很理想,其余的樣張在校正后不論是可識別字符數(shù)還是識別率都有大幅度提升。表1是本文方法對圖1中4張測試圖的校正實驗結(jié)果統(tǒng)計。
圖9 文獻(xiàn)[5]校正效果圖
圖10 本文校正效果圖
表1 本文算法實驗結(jié)果比較分析
由于本文方法只需要對文檔進(jìn)行頁眉線的檢測,所以相對于其他校正方法在時間效率上有很明顯的改進(jìn),可達(dá)100毫秒級。在校正精確度和校正后識別率以及可識別字符數(shù)上也都有明顯優(yōu)勢。本文所提出的校正方法只針對于文檔中包含頁眉線的文檔圖像,所以在進(jìn)行測試時,只進(jìn)行有頁眉線的紙質(zhì)文檔圖像的采集和測試。其中所測試的樣張中平均識別率可以達(dá)到96%以上,而可識別字符數(shù)也明顯高出其他方法。同時本文方法有較強的魯棒性,對于不同的復(fù)雜版面均有較好的校正效果。
本文針對含有頁眉線的扭曲文檔圖像進(jìn)行研究,提出基于頁眉線的校正方法。首先通過校正頁眉線找出校正參數(shù);然后對于目標(biāo)像素點計算校正參數(shù),并進(jìn)行校正。該方法能在150 ms內(nèi)校正1609×2469像素的圖像,而且校正效果良好,其校正后的OCR識別率可以達(dá)到95%以上。本文提出的方法在本實驗室開發(fā)的智能閱讀機上進(jìn)行了應(yīng)用,在無需人工干涉的情況下已能實現(xiàn)復(fù)雜版面扭曲文檔圖像的快速校正,校正后的平均實時識別率能達(dá)到96%,可滿足工程上的要求。因此,本文提出的方法可以推廣到實時文字圖像識別系統(tǒng)中進(jìn)行應(yīng)用。
[1] 向世明, 趙國英, 陳睿, 等. 積厚文檔掃描圖像校正[J].計算機輔助設(shè)計與圖形學(xué)學(xué)報, 2005, 17(1): 42-48.
[2] Ghods A R, Mozaffari S, Ahmadpanahi F. Document image dewarping using kinect depth sensor [C]//Iranian Conference on Electrical Engineering (ICEE). Iranian, 2013: 1-6.
[3] Meng G F, Pan C H, Xiang S M, et al. Metric rectification of curved document images [J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2012, 4(34): 707-722.
[4] 楊玲, 成運. 應(yīng)用經(jīng)緯映射的魚眼圖像校正設(shè)計方法[J]. 工程圖學(xué)學(xué)報, 2010, 31(6): 19-22.
[5] 宋麗麗, 吳亞東, 孫波. 改進(jìn)的文檔圖像扭曲校正方法[J]. 計算機工程, 2011, 37(1): 204-206.
[6] Liu H, Ding R W. Restoring Chinese warped document images based on text boundary lines [C]//International Conference on Systems, Man and Cybernetics (ICSMC). San Antonio, Texas, USA, 2009: 571-576.
[7] 張偉業(yè), 趙群飛. 讀書機器人的版面分析及文字圖像預(yù)處理算法[J]. 微型電腦應(yīng)用, 2011, 27(1): 58-61.
[8] Nafchi H Z, Moghaddam R F, Cheriet M. Application of phase-based features and denoising in postprocessing and binarization of historical document images [C]// Document Analysis and Recognition (ICDAR), 2013 12th International Conference on. Washington, DC: [s. n.], 2013: 220-224.
[9] Meng G F, Xiang S M, Zheng N N, et al. Nonparametric illumination correction for scanned document images via convex hulls [J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2013, 35(7): 1730-1743.
[10] 都文鵬, 王敏. 基于圖像邊緣直線特征的尾隨目標(biāo)識別[J]. 華中科技大學(xué)學(xué)報, 2013, 41(增刊I): 160-162.
[11] 付蘆靜, 錢軍浩, 鐘云飛. 基于漢字聯(lián)通分量的印刷圖像版面分割方法[J/OL]. [2013-07-31]. 計算機工程與應(yīng)用, 2013, 19(3): 4. http://www.cnki.net/kems/detail/ 11.2127.TP.20130731.1817.001.html.
[12] Ghods A R, Mozaffari S, Ahmadpanahi F. Document image dewarping using kinect depth sensor [C]//21stIranian Conference, Electrical Engineering (ICEE). Iranian, 2013: 1-6.
[13] Tong L J, Zhang G L, Peng Q Y, et al. Warped document image mosaicing method based on inflection point detection and registration [C]//International Conference on Multimedia Information Networking and Security (ICMINES). Nanjing, China, 2012: 306-310.
A Correcting Method Based on Header and Footer Line for Warped Documnet Images
Zeng Fanfeng,Duan Yangbo
(College of Computer, North China University of Technology, Beijing 100144, China)
The recognition rate of OCR (optical character recognition) is low because of the warped document images. For those warped document images with header and footer lines, a fast method is proposed to increase the rate of OCR in this paper. Firstly, the location of the header line is detected and restored in the document image. Then the distance of the line moving upward or downward is calculated based on geometric algorithm. After that, the image is scanned using the distance as parameters and the distance that every target pixel needs to remove is calculated. At the same time, allpixelare removed in order to restructure the image and then a well corrected image is obtained. Experiments demonstrated that this correcting method was efficient. The OCR rate of warped document image with header line could be significantly improved.
computer application; warped document; header and footer line; geometric distance; image correct
TP 391
10.11996/JG.j.2095-302X.2016010079
A
2095-302X(2016)01-0079-05
2015-07-03;定稿日期:2015-10-15
國家自然科學(xué)基金項目(61371142)
曾凡鋒(1966–),男,江西吉安人,副研究員,碩士。主要研究方向為圖像處理、智能識別、系統(tǒng)辨識。E-mail:zengfanfeng@sina.com