李 濤
(威海職業(yè)學(xué)院 信息工程系,山東 威海264210)
對(duì)于圖文混排的復(fù)雜度高的文檔圖像一般采用自底向上的版面分析策略,在通過連通區(qū)搜索算法(包括二次分析)獲得版面全部連通區(qū)信息后即面臨文本區(qū)域和圖像區(qū)域的連通區(qū)信息區(qū)分問題。為方便討論,依模式識(shí)別理論我們稱文本區(qū)域和圖像區(qū)域的連通區(qū)為不同的模式類對(duì)象。 由于文本區(qū)域和圖像區(qū)域不能出現(xiàn)交疊(這種交疊情況我們結(jié)合后續(xù)相同模式類對(duì)象合并過程稱為合并或聚類風(fēng)險(xiǎn)), 但試驗(yàn)表明即使在剛剛獲得版面全部連通區(qū)信息,即在尚未展開后續(xù)合并等處理過程就已經(jīng)存在文本區(qū)域和圖像區(qū)域交疊的情況,或者說存在合并風(fēng)險(xiǎn)問題。所以有理由說合并風(fēng)險(xiǎn)將是伴隨相同模式類對(duì)象合并過程始終的。由于問題的復(fù)雜性,受二分法思想啟發(fā),我們把問題逐步分解,即確立圖文分解的方法。
對(duì)于一個(gè)待分析圖像文檔, 我們將圖像中的圖像模式類對(duì)象:邊框線和標(biāo)題在原圖像中濾除,同時(shí)將所提取的文字圖像部分就其在文檔中區(qū)域信息(該信息由對(duì)原圖像的連通區(qū)搜索得到)規(guī)范化為圖像文檔,即作為原始文檔的伴隨圖像。由于生成伴隨圖像,初步排除圖像模式類對(duì)象的干擾, 從而就其文字圖像的版面分析的復(fù)雜度大為降低[2-3]。
需要說明的是這僅是初步做到圖文分解,就是說在伴隨圖像中仍可能存在圖像模式類信息,為此我們采取“漸進(jìn)合并,特征凸現(xiàn)”的策略在后續(xù)處理中解決(對(duì)此將作另文詳述);另一方面的關(guān)鍵問題是仍無法保證對(duì)不同圖像模式類對(duì)象(如文字、圖像甚至表格)分析的互不干擾性,而這一點(diǎn)正是我們要求系統(tǒng)所能體現(xiàn)出的智能性,它是由聚類穩(wěn)定性算法保證實(shí)現(xiàn)的。
承前所述,隨著并行合并過程進(jìn)行,由于對(duì)模式類對(duì)象是采用“漸進(jìn)合并,特征凸現(xiàn)”的策略,模式類對(duì)象的確定要建立在一定前提條件上,即要待其模式類特征從不明顯到明顯之后,但在此過程完成時(shí)會(huì)有相互沖突情況產(chǎn)生。盡管上述算法的采用極大提高了系統(tǒng)的版面分析質(zhì)量, 但必須佐以其他功能模塊的運(yùn)用來處理這種更復(fù)雜的情形。該模塊的功能將分別不同情況實(shí)現(xiàn):1)擇取強(qiáng)勢特征模塊,該情況下將保留取強(qiáng)勢特征對(duì)象同時(shí)舍棄異類對(duì)象;2)折中退讓,該情況下將根據(jù)沖突的情形做單方面的退讓,如可以是文本類對(duì)象退讓圖像類對(duì)象(簡稱“文退圖”)等,由于該情況較復(fù)雜,鑒于篇幅作者只做一般情形解釋。
對(duì)于模式類區(qū)分方法可以做策略層面的理解,這對(duì)于整個(gè)版面分析系統(tǒng)的質(zhì)量是舉足輕重的,但沒有其他方法的輔助則很多具體問題仍不可得以完善和解決,因?yàn)榘婷娣治鲆媾R很多復(fù)雜的模式識(shí)別問題。本文正是探討通過兩者的融合從而是系統(tǒng)最終能體現(xiàn)出智能性的特點(diǎn),進(jìn)而獲得實(shí)際應(yīng)用的價(jià)值。
[1]周長嶺.中文OCR 中的版面分析算法初探[C]//第六屆全國漢字識(shí)別學(xué)術(shù)會(huì)議論文集,重慶,1996:137-142.
[2]H.Fujisawa, and Y.Nakano. A top-down approach for the analysis of document images[J]. Proc, SSPR90,1990:113-122.
[3]R.Ingold, and D.Armangil. A top-down document analysis method for logical structure recognition[J].Proc.First Int. Conf.On Document Analysis and Recognition,Saint-Malo, France,Sept.30-Oct.2,1991:41-49.