陳旭平
摘 要:圖像模式識(shí)別作為一種新型數(shù)字圖書(shū)修復(fù)技術(shù),在修復(fù)圖書(shū)資料中能夠起到較好的作用,通過(guò)計(jì)算機(jī)的結(jié)合,利用模式識(shí)別對(duì)數(shù)字圖書(shū)資料的內(nèi)容進(jìn)行修復(fù),采用掃描等方式將不清晰的圖形修復(fù),使數(shù)字圖書(shū)資料得到較好的恢復(fù)。文章對(duì)圖像模式識(shí)別的數(shù)字圖書(shū)資料修復(fù)進(jìn)行了詳細(xì)的分析。
關(guān)鍵詞:圖像模式識(shí)別;數(shù)字圖書(shū)資料;局部二值化
1 數(shù)字化圖書(shū)背景
圖書(shū)向著電子化和網(wǎng)絡(luò)化的特點(diǎn)發(fā)展,形成了數(shù)字形式的圖書(shū),經(jīng)過(guò)數(shù)字化的圖書(shū)可以在數(shù)據(jù)庫(kù)中進(jìn)行保存和使用,使用者利用網(wǎng)絡(luò)可以對(duì)數(shù)字化圖書(shū)進(jìn)行閱讀和下載等,同時(shí)這種資料的內(nèi)容和實(shí)際的內(nèi)容沒(méi)有差異,內(nèi)容一致,由于數(shù)字化的圖書(shū)經(jīng)過(guò)了特殊處理可以保留原本圖書(shū)中的完整內(nèi)容,但是兩種形式的展現(xiàn)方式具有很大的差異。數(shù)字化圖書(shū)的產(chǎn)生中,需要借助先進(jìn)的技術(shù)實(shí)現(xiàn),并且技術(shù)起到了重要的作用,比如清華同方等文獻(xiàn)資料的數(shù)據(jù)庫(kù)已經(jīng)將數(shù)字化圖書(shū)建立并且開(kāi)始進(jìn)行使用,更加的簡(jiǎn)便,有著較好的效果。
2 數(shù)字圖書(shū)資料修復(fù)過(guò)程的問(wèn)題
圖書(shū)資料需要結(jié)合數(shù)字化技術(shù)進(jìn)行處理,將收集的數(shù)據(jù)輸入到計(jì)算機(jī)中,之后對(duì)出現(xiàn)的長(zhǎng)方形框進(jìn)行圖像的預(yù)處理,使在其區(qū)域之內(nèi)的部分能夠被識(shí)別,進(jìn)而將圖像轉(zhuǎn)換成文字,這種方式可以使圖書(shū)等中的文字更加的明確的展現(xiàn),對(duì)圖書(shū)資料的修復(fù)起到了重要的作用,也能夠提供幫助,經(jīng)過(guò)這種方式的處理,能夠使圖書(shū)等資料的數(shù)字化得到成功的實(shí)踐。
二值化方式在數(shù)字化處理圖書(shū)資料中比較常用,數(shù)字圖書(shū)資料在修復(fù)中,需要通過(guò)數(shù)據(jù)的處理來(lái)完成,二值化方法可以使這個(gè)過(guò)程得到實(shí)現(xiàn),由于這種方式具有較高的效率,所以有著一定的優(yōu)點(diǎn),將數(shù)字圖書(shū)進(jìn)行二值化處理后可以使圖像的對(duì)比度提高,相比原來(lái)的圖書(shū),具有更好的清晰度,這樣可以使識(shí)別更加的有效,也可以利于進(jìn)行閱讀。然而二值化處理中也有一些問(wèn)題,二值化會(huì)使圖像中的模糊的部分變得更加的不清晰,使識(shí)別無(wú)法正常的進(jìn)行,這個(gè)問(wèn)題會(huì)導(dǎo)致圖書(shū)的數(shù)字化處理受到較大的不良影響,導(dǎo)致數(shù)字化處理中的要求不能得到滿足,管理人員在處理中會(huì)由于這個(gè)現(xiàn)象而放棄對(duì)部分圖書(shū)資料繼續(xù)修復(fù)。圖像采集過(guò)程中,收集的圖像會(huì)成為BMP格式的文件,這種格式的文件在計(jì)算機(jī)中顯示的不是正常的狀態(tài),而是灰度較高的圖像狀態(tài),圖像還會(huì)出現(xiàn)不清晰和字符筆畫(huà)不連貫等問(wèn)題,這些問(wèn)題會(huì)使圖像的識(shí)別受到影響,同時(shí)存在孤立噪聲的現(xiàn)象,導(dǎo)致識(shí)別的難度大大提升。
數(shù)字化圖書(shū)資料等具有的問(wèn)題,為了將其解決,通過(guò)對(duì)二值化技術(shù)的改善進(jìn)行處理,改為局部的形式,使不清晰的數(shù)字化圖書(shū)資料能夠更好的得到修復(fù),還可以使圖書(shū)資料的數(shù)字化水平提高。
3 圖像模式識(shí)別方式的使用原理
3.1 圖像模式識(shí)別含義
模式識(shí)別指的是對(duì)事物中的現(xiàn)象進(jìn)行分析,包括文字、邏輯等,經(jīng)過(guò)處理,使事物以及現(xiàn)象得到描述和分辨,同時(shí)使事物能夠被分類(lèi)和闡述的這個(gè)過(guò)程,這種方式在識(shí)別上能夠更加的準(zhǔn)確,通過(guò)信息的處理來(lái)進(jìn)行計(jì)算機(jī)計(jì)算和推理,將識(shí)別內(nèi)容的性質(zhì)分析出來(lái),包括對(duì)形狀、數(shù)字和圖形等的分析,這就是模式識(shí)別。
3.2 局部二值化的含義
先對(duì)整個(gè)大圖像進(jìn)行分割,使之變成若干張大小相等的小圖像,然后利用二值化方法對(duì)這些小圖像進(jìn)行閥值計(jì)算,而后將經(jīng)過(guò)二值化之后的小點(diǎn)陣進(jìn)行整合,得到最后的結(jié)果,這種方法就是局部二值化。在對(duì)數(shù)字圖書(shū)資料中的圖像進(jìn)行二值化的過(guò)程中,需要先將圖像的局部切割成小塊,這樣就能將大圖像的二值化問(wèn)題轉(zhuǎn)換成為小圖像的二值化問(wèn)題。
3.3 圖像模式識(shí)別的原理
圖像模式識(shí)別的工作原理主要由兩部分構(gòu)成,即局部二值化的原理和圖像分塊的確定。下面就對(duì)這兩方面進(jìn)行具體分析。
3.3.1 局部二值化原理
所謂的局部二值化就是將一張比較大的圖像分割成若干比較小的圖像,然后對(duì)這些比較小的圖像進(jìn)行二值化,經(jīng)過(guò)組合之后形成完整的二值化圖像。換句話說(shuō),只需要分割、塊二值化和合并三個(gè)步驟就能完成圖像的二值化處理。
3.3.2 圖像分塊的確定
在對(duì)大圖像進(jìn)行分割時(shí),應(yīng)該將圖像的局部灰度平均值作為分割的依據(jù),這樣就可以使一些質(zhì)量較差圖像的局部二值化效果得到提高。從理論上講,對(duì)大圖像分割的小圖像數(shù)量越多,最后二值化的效果就會(huì)越好。但是在實(shí)際的操作過(guò)程中,這樣的分割方法會(huì)大大降低計(jì)算的速度。而且,圖像分割得越小,經(jīng)過(guò)局部的二值化之后,最后整合出來(lái)的二值化的噪音就會(huì)越多,這樣就會(huì)給后面的平滑處理帶來(lái)更多的問(wèn)題,增加后期處理的難度。
4 數(shù)字圖書(shū)資料的修復(fù)方法
4.1 對(duì)圖像進(jìn)行預(yù)處理
基于圖像模式識(shí)別的數(shù)字圖書(shū)資料修復(fù)及應(yīng)用一方面,受掃描系統(tǒng)的版本、光電轉(zhuǎn)換的不同位置以及工作環(huán)境中的光電等因素的影響,會(huì)使圖書(shū)或者是檔案資料在進(jìn)行數(shù)字化的過(guò)程中,出現(xiàn)圖像掃描不均勻、對(duì)比度差異較大等問(wèn)題,導(dǎo)致圖像的清晰度不夠,還原度和可視程度降低。光電敏感元件中的載荷粒子會(huì)隨著機(jī)器的運(yùn)轉(zhuǎn)產(chǎn)生一定的噪音灰度圖像在經(jīng)過(guò)數(shù)字化的處理之后,都會(huì)含有一定的噪聲。在對(duì)圖書(shū)或者是檔案圖像進(jìn)行二值化的處理之前,都需要對(duì)圖像進(jìn)行預(yù)處理。圖書(shū)資料數(shù)字化的過(guò)程中,對(duì)圖像進(jìn)行預(yù)處理的辦法主要有兩種,即灰度變換和平滑濾波。
4.2 提取圖像中的字符信息
對(duì)于亮度比較大的點(diǎn),可以將它的值假設(shè)為0;對(duì)于亮度較小的點(diǎn),可以假設(shè)它的值為1。像素的集合就是圖像的背景區(qū)域,如果將小于或者是等于閾值N的像素設(shè)置成黑色,那么像素的值就為1,通過(guò)這樣的方法就能得到只有黑白兩個(gè)等級(jí)的二值化圖像,圖像中字符信息就會(huì)顯示出來(lái)。通常情況下,數(shù)字圖書(shū)資料的背景色都很淺,而字符的顏色比較深。以紙質(zhì)圖書(shū)為例,它的背景色通常都是白色,而字符則是黑色。
4.3 二值化圖像的二次處理
對(duì)圖像進(jìn)行局部二值化的處理之后,就能得到各個(gè)小塊圖像的值點(diǎn)。雖然這種方法能夠避免部分小塊顏色暗淡只是整體圖像沒(méi)有值點(diǎn)現(xiàn)象的產(chǎn)生,但會(huì)使圖像中包含很多的噪音。這些噪音在進(jìn)行圖像的重組之前必須去除,一般情況下,可以使用圖像重構(gòu)的方式進(jìn)行處理。采用圖像重構(gòu)法不僅能夠得到完整的原始圖像,還能夠構(gòu)造出BMP位圖文件,打印出比原來(lái)效果更好的圖書(shū)資料,達(dá)到修復(fù)圖書(shū)資料的目的。
5 結(jié)語(yǔ)
隨著網(wǎng)絡(luò)技術(shù)的應(yīng)用逐漸普及,數(shù)字圖書(shū)資料的占據(jù)的部分會(huì)隨著擴(kuò)大,其中包括較多的損壞的資料,或者不完整的資料,為了將損壞資料進(jìn)行修復(fù),需要加強(qiáng)數(shù)字圖書(shū)資料的修復(fù)效果,使用有效的技術(shù),比如圖像模式識(shí)別,使數(shù)字圖書(shū)資料得到有效的修復(fù),還可以利于科技水平的提升,使圖像模式識(shí)別方法的質(zhì)量提升,還可以使修復(fù)的效果逐漸提高,保證數(shù)字圖書(shū)的使用效果。
參考文獻(xiàn)
[1]趙迎春.計(jì)算機(jī)模式識(shí)別技術(shù)在圖書(shū)館的應(yīng)用研究[J].科學(xué)技術(shù)創(chuàng)新,2016(14):186-186.
[2]趙登攀,劉娟.計(jì)算機(jī)模式識(shí)別技術(shù)在圖書(shū)資料數(shù)字化中的應(yīng)用[J].電子技術(shù)與軟件工程,2016(16):169-169.
[3]姜雅慧.基于模式識(shí)別的圖像處理方法[J].通訊世界,2016(4):262-262.