陳湘 程路
摘 要:檔案是珍貴的歷史資料,具有很高的再利用價值。針對檔案資料在長期的保存和使用過程中容易沾染污漬,使檔案在數(shù)字化過程中不能準(zhǔn)確和清晰的實(shí)現(xiàn)檔案搜索、查詢和利用等問題,本文提出一種自動檢測檔案中污漬的算法。算法首先將檔案的正面彩色圖像和正面紅外圖像作灰度化處理;其次,采用最大類間方差法對兩種檔案圖像進(jìn)行二值化處理,隨后對兩種圖像進(jìn)行按位與運(yùn)算,檢測出可能的污漬區(qū)域;再次,對圖像進(jìn)行腐蝕運(yùn)算,消除背景中的噪聲;最后,采用連通域標(biāo)記算法精確檢測出污漬區(qū)域。經(jīng)過實(shí)際檔案圖像測試,相比于現(xiàn)有方法,本文采用的方法能夠快速準(zhǔn)確的檢測出檔案中的污漬部分,對于檔案間的信息共享和信息交換具有重要的現(xiàn)實(shí)意義。
關(guān)鍵詞:檔案;數(shù)字化;污漬檢測;圖像處理
1 引言
檔案是珍貴的歷史資料,《中華人民共和國公共圖書館法》第四十一條規(guī)定:“政府設(shè)立的公共圖書館應(yīng)當(dāng)加強(qiáng)館內(nèi)古籍的保護(hù),根據(jù)自身條件采用數(shù)字化、影印或者縮微技術(shù)等推進(jìn)古籍的整理、出版和研究利用,并通過巡回展覽、公益性講座、善本再造、創(chuàng)意產(chǎn)品開發(fā)等方式,加強(qiáng)古籍宣傳,傳承發(fā)展中華優(yōu)秀傳統(tǒng)文化”[1]。檔案數(shù)字化的主要目的是保護(hù)原件,讓掃描件代替原件使用,避免原件在頻繁的使用中遭受毀損[2],同時使檔案可通過計算機(jī)進(jìn)行檢索、查詢、分享和下載,提高檔案的利用率。
但由于檔案資料一般為紙質(zhì)文物,大多存放時間長且材質(zhì)脆弱,在長期的保存和使用過程中會發(fā)生各種病害,其中污漬就是紙質(zhì)檔案的一種病害,它一般是由灰塵、泥漬、墨漬、油漬等導(dǎo)致[3],使檔案在數(shù)字化過程中出現(xiàn)影像的污點(diǎn)和污漬噪聲,造成檔案圖像視覺質(zhì)量下降,給后續(xù)圖像處理工作,如檔案中文字分割、文字定位、文字識別、文字利用和檔案圖像檢索功能等工作帶來很大困難,不能準(zhǔn)確的傳達(dá)檔案信息,不能實(shí)現(xiàn)檔案搜索、查詢和利用的價值,所以需要通過計算機(jī)圖像處理技術(shù),增強(qiáng)影像的可讀性,修復(fù)檔案圖像。去污處理是館藏資源數(shù)字化建設(shè)中一個非常重要的過程[4],去污處理的第一步是污漬檢測。目前,通過圖像處理技術(shù)對掃描的檔案圖像進(jìn)行污漬檢測的方法很少,一般集中在對檔案雜點(diǎn)的檢測上。王海杰[5]采用基于分塊快速去除雜點(diǎn)和基于鄰域去除字里行間雜點(diǎn)的算法消除檔案影像中的雜點(diǎn);王琛[6]采用基于中值濾波的自適應(yīng)算法消除檔案影像中的噪音;尹翔[7]采用中值濾波和均值濾波方法去除與檔案圖像中無關(guān)的痕跡,并利用直方圖增強(qiáng)方法提高檔案圖像質(zhì)量;荊永菊[8]采用圖像二值化和圖像增強(qiáng)等方法消除圖像中無關(guān)的信息。這些方法無法檢測出面積稍大的污漬,且存在算法計算量大、效率低、破壞數(shù)字化后的檔案圖像質(zhì)量等問題。本文提出一種自動檢測檔案中污漬的算法,算法首先將正面彩色圖像和正面紅外圖像轉(zhuǎn)為灰度圖像;其次,采用最大類間方差法(OTSU)對兩種檔案圖像進(jìn)行二值化處理,隨后對兩種圖像進(jìn)行按位與運(yùn)算,檢測出可能的污漬區(qū)域;再次,對圖像進(jìn)行腐蝕運(yùn)算,消除背景中的噪聲;最后,采用連通域標(biāo)記算法精確檢測出污漬區(qū)域。
2 檔案圖像污漬檢測算法
檔案資料在長期的保存和使用過程中容易沾染污漬,直接數(shù)字化后的檔案圖像視覺質(zhì)量下降,給后續(xù)的圖像處理工作帶來困難,計算機(jī)圖像處理技術(shù)可增強(qiáng)圖像的可讀性,為自動化的去污處理提供依據(jù)。檔案圖像的污漬部分在正面彩色和正面紅外圖像中都顯示為一團(tuán)連續(xù)的部分,污漬檢測算法中關(guān)鍵部分是圖像的二值化處理和污漬區(qū)域的檢測和定位。
本文采用最大類間方差法(OTSU)尋找灰度化正面彩色圖像和正面紅外圖像的各自最優(yōu)二值分割閾值。OTSU是一種自適應(yīng)的閾值確定方法,它按圖像的灰度特性將圖像分成目標(biāo)、背景,目標(biāo)和背景間的類間方差越大,則構(gòu)成圖像兩部分差別越大,當(dāng)目標(biāo)錯分為背景或背景錯分為目標(biāo)時都會導(dǎo)致兩部分差別變小,因此,使類間方差最大的分割意味著錯分概率最小[9]。對于圖像I(x,y),前景(即目標(biāo))和背景的分割閾值記作T,前景像素點(diǎn)數(shù)占圖像的比記ω0,其平均灰度為μ0;背景像素點(diǎn)數(shù)占圖像的比記ω1,其平均灰度為μ1,圖像總平均灰度為μ,類間方差為g。假設(shè)圖像背景較暗,大小為M×N,圖像中像素灰度值小于T的像素個數(shù)為N0,像素灰度大于T的像素個數(shù)為N1,則有:
式(5)代入 (6),得到g=ω0×ω1×(μ0-μ1)2,采用遍歷方法得到使類間方差最大的閾值T,即為所求。
連通域標(biāo)記算法主要是用來檢測和定位污漬區(qū)域,便于根據(jù)連通區(qū)域的特征,確定可能的污漬區(qū)域,為后續(xù)污漬的精確定位提供依據(jù)。其基本思想是:首先,得到連通區(qū)域的輪廓,其具體過程為:(1)逐行掃描,把一行中連續(xù)白色像素組成的一個序列稱為一個團(tuán),并記下其起點(diǎn)、終點(diǎn)和所在行;(2)標(biāo)記連通區(qū)域,對于除了第一行外的所有行里的團(tuán),如果它與前一行中的所有團(tuán)沒有重合區(qū)域,則給它一個新的標(biāo)號;如果它僅與上一行中一個團(tuán)有重合區(qū)域,則將上一行的那個團(tuán)的標(biāo)號賦給它;如果它與上一行的兩個以上的團(tuán)有重疊區(qū)域,則給當(dāng)前團(tuán)賦一個相連團(tuán)的最小標(biāo)號,并將上一行的這幾個團(tuán)的標(biāo)記寫入等價對,說明它們屬于一類;(3)對等價標(biāo)記進(jìn)行合并,將等價對轉(zhuǎn)換為等價序列,每一個序列需要給一相同的標(biāo)號,因?yàn)樗鼈兌际堑葍r的;從1開始,給每個等價序列一個標(biāo)號;(4)遍歷開始團(tuán)的標(biāo)記,查找等價序列,給予它們新的標(biāo)記;(5)將每個團(tuán)的標(biāo)號填入標(biāo)記圖像中;(6)讀等價標(biāo)記進(jìn)行重新標(biāo)記,得到連通區(qū)域的4個頂點(diǎn)坐標(biāo)和面積。其次,確定各連通區(qū)域的一個外接矩形,即找到外接矩形四個頂點(diǎn)坐標(biāo),并根據(jù)其左上角X軸坐標(biāo)由小到大排序,得到的就是連通的區(qū)域,即可能的污漬區(qū)域。最后,保存所有殘缺區(qū)域信息,返回連通區(qū)域數(shù)目。
檔案數(shù)字化過程中的污漬檢測算法過程如下:
第一步,將檔案的正面彩色圖像和正面紅外圖像作灰度化處理。
第二步,圖像二值化處理。檔案圖像二值化處理目的是把原始灰度圖像的灰度值置為0或255,使處理變得簡單,便于對圖像做進(jìn)一步處理,而且數(shù)據(jù)量小,有利于壓縮、存儲和傳輸。本文采用最大類間方差法(OTSU)尋找灰度化的正面彩色圖像和正面紅外圖像的各自最優(yōu)二值分割閾值otsu1、otsu。并對閾值做一定限定,本文將二值化的分割閾值限定在[180,200]之間。接下來,遍歷整個灰度化后的正面彩色圖像,如果圖像中灰度值在[T1 ,otsu1]間(T1取100),將像素點(diǎn)的值置為255(即白色),否則置為0(即黑色),得到圖像A,此時就篩選出正面彩色圖像中可能的污漬區(qū)域;遍歷整個灰度化后的正面紅外圖像,如果圖像中灰度值在[T2 ,otsu]間(T2取100),將像素點(diǎn)的值置為255,否則置為0,得到圖像B,此時就篩選出正面紅外圖像中可能的污漬區(qū)域;隨后,將圖像A和圖像B相與得到圖像C,得到的圖像C就是進(jìn)一步確定的可能污漬區(qū)域,即如果正面彩色圖像某處和正面紅外圖像某處同時為污漬,則可能是污漬區(qū)域,否則不是污漬。
第三步,對圖像C進(jìn)行兩次腐蝕運(yùn)算,得到圖像D。由于圖像C是由圖像A和圖像B相與得到,此時背景中會產(chǎn)生很多額外的細(xì)小噪聲,需消除背景中的噪聲,故對圖像C進(jìn)行腐蝕運(yùn)算,消除背景中的噪聲。
第四步,由于對圖像C做了兩次腐蝕運(yùn)算,此時雖然消除了背景中的噪聲,但前景中細(xì)微處可能產(chǎn)生新的間斷,需根據(jù)污漬區(qū)域的面積大小,對污漬區(qū)域做更進(jìn)一步的篩選。首先對圖像D運(yùn)用連通域標(biāo)記算法得到各連通區(qū)域,即可能的污漬區(qū)域,再根據(jù)設(shè)定的閾值T(取100)去除小面積區(qū)域,得到圖像E。遍歷圖像E中所有連通區(qū)域(可能的污漬區(qū)域),如果某連通區(qū)域的面積大于設(shè)定的最大值,同時該連通區(qū)域外接矩形的高度和寬度均大于某值,也就是占空比要滿足一定的條件,要為一團(tuán)(取40),則將該區(qū)域就是精確檢測和定位到的污漬區(qū)域。
3 結(jié)語
本文對檔案數(shù)字化過程中污漬的檢測方法做了討論,主要針對檔案資料的正面彩色圖像和正面紅外圖像的掃描圖像進(jìn)行圖像處理,精確的檢測和定位出檔案中存在的污漬,給后續(xù)的圖像處理工作,如檔案中文字分割、文字定位、文字識別、文字利用和檔案圖像檢索功能等提供便利,準(zhǔn)確傳達(dá)檔案信息,實(shí)現(xiàn)檔案搜索、查詢和利用的價值。經(jīng)過實(shí)際檔案圖像測試,相比于現(xiàn)有方法,該文采用的方法能夠快速精確的檢測出檔案中的污漬,對于檔案之間的信息共享和信息交換具有重要現(xiàn)實(shí)意義,并能促進(jìn)檔案數(shù)字化的進(jìn)一步發(fā)展。
參考文獻(xiàn)
[1]《中華人民共和國公共圖書館法》[J].圖書館,2019(01):112.
[2]王婉萍.檔案數(shù)字化圖像處理之我見[J].檔案管理,2013(05):88.
[3]楊有,尚晉,楊華芬,余平.檔案圖像處理模型研究[J].重慶文理學(xué)院學(xué)報(自然科學(xué)版),2010,29(05):29-32.
[4]甘嵐.紙質(zhì)檔案規(guī)范化保護(hù)修復(fù)研究[J].檔案管理,2015(01):59-60.
[5]王海杰.文檔影像圖像處理中的糾偏與降噪研究[D].浙江大學(xué),2008.
[6]王琛.掃描檔案的圖像處理技術(shù)[D].天津大學(xué),2016.
[7]尹翔.現(xiàn)代檔案管理如何發(fā)揮圖像處理的最大功效[J].蘭臺世界,2012(29):21-22.
[8]荊永菊.圖像預(yù)處理技術(shù)在數(shù)字圖書館中的應(yīng)用[J].科技情報開發(fā)與經(jīng)濟(jì),2012,22(20):56-57+65.
[9]LEMY F,HADJIGEORGIOU J.Discontinuity trace map construction using photographs of rock exposures[J].International Journal of Rock Mechanics and Mining Sciences,2003,40( 6):903-917.
作者簡介
陳湘(1988-),女,漢,湖北大悟,碩士,助理館員,研究方向:圖像處理,科學(xué)數(shù)據(jù)管理,數(shù)據(jù)分析。
程路(1989-),男,漢,湖北荊州,碩士,助理館員,研究方向:數(shù)據(jù)分析,圖書館建設(shè)。