秦亞平
(靖江市黨史方志檔案辦公室,江蘇靖江,214500)
檔案數(shù)字化是依托先進(jìn)的數(shù)字技術(shù),將各類(lèi)傳統(tǒng)載體檔案信息轉(zhuǎn)換成數(shù)字檔案信息的處理過(guò)程。檔案數(shù)字化工作是構(gòu)建統(tǒng)一規(guī)范的數(shù)據(jù)庫(kù)、實(shí)現(xiàn)檔案信息資源社會(huì)共享、充分保護(hù)實(shí)體檔案安全、提高檔案利用效率、建設(shè)高質(zhì)量的數(shù)字檔案館的一項(xiàng)基礎(chǔ)工作,數(shù)字化工作的好壞,直接影響到檔案館社會(huì)服務(wù)功能的發(fā)揮。
目前江蘇省內(nèi)各級(jí)檔案館的館藏檔案數(shù)字化加工工作,絕大多數(shù)是通過(guò)招標(biāo)采購(gòu),以外包的方式由專(zhuān)業(yè)公司進(jìn)行的。因此,這更需要檔案館作為數(shù)字化工作的主體責(zé)任人進(jìn)行項(xiàng)目的整體監(jiān)督和把關(guān),對(duì)數(shù)字化過(guò)程中出現(xiàn)的問(wèn)題進(jìn)行及時(shí)修正,以便更好地保護(hù)檔案實(shí)體,使檔案信息能更安全、真實(shí)、準(zhǔn)確、有效地得以利用。筆者通過(guò)所在檔案館的紙質(zhì)檔案數(shù)字化工作實(shí)踐,就檔案館數(shù)字化工作過(guò)程中各環(huán)節(jié)出現(xiàn)的一些突出問(wèn)題進(jìn)行剖析,提出對(duì)策建議,以期拋磚引玉,共同推進(jìn)檔案數(shù)字化工作。
目前,大多數(shù)檔案館的提卷工作都由數(shù)字化加工公司工作人員完成。數(shù)字化加工公司工作人員根據(jù)檔案館制定的掃描工作方案中所確定的掃描對(duì)象,到指定的檔案庫(kù)房進(jìn)行提卷,加工結(jié)束后再入庫(kù)還卷。因人手原因,檔案館工作人員對(duì)回庫(kù)的檔案案卷只進(jìn)行數(shù)量清點(diǎn)后便填寫(xiě)出入庫(kù)登記表,而未對(duì)檔案出入庫(kù)前后的齊全狀況、破損狀況進(jìn)行檢查及描述登記。這使得檔案出庫(kù)后處于失控狀態(tài),得不到有效監(jiān)管,容易導(dǎo)致檔案實(shí)體安全得不到保證,一些破損檔案受到二次損壞。
應(yīng)對(duì)做法:檔案館工作人員應(yīng)對(duì)檔案的出入庫(kù)進(jìn)行全程監(jiān)管。首先,從檔案的出架開(kāi)始,就應(yīng)該進(jìn)行逐卷清點(diǎn),對(duì)檔案的數(shù)量及案卷狀況進(jìn)行登記,對(duì)有問(wèn)題的案卷進(jìn)行狀況描述。破損案卷最好在數(shù)字化加工前進(jìn)行裝裱修復(fù),以防止在掃描過(guò)程中受到二次損壞。其次,檔案在掃描結(jié)束還卷時(shí),檔案館工作人員應(yīng)對(duì)照提卷登記進(jìn)行認(rèn)真細(xì)致的還卷登記。在登記過(guò)程中,要著重對(duì)檔案數(shù)量及案卷狀況進(jìn)行檢查,重點(diǎn)檢查是否有缺卷、損壞,頁(yè)碼亂編、漏編,裝訂混亂等問(wèn)題,如發(fā)現(xiàn)問(wèn)題及時(shí)整改到位。
目錄數(shù)據(jù)庫(kù)建設(shè)是全文數(shù)據(jù)庫(kù)建設(shè)的重要基礎(chǔ)和前提。由于歷史原因,館藏歷史檔案的整理存在很多不規(guī)范狀況,如:檔案頁(yè)碼錯(cuò)編、漏編、數(shù)件合并等。數(shù)字化加工人員往往只根據(jù)原有檔案情況,僅對(duì)頁(yè)碼進(jìn)行重新編制,而不對(duì)原有檔案進(jìn)行規(guī)范整理,出現(xiàn)“件”與“件”界定不清、多件檔案作一件著錄等情況。另外,由于一些數(shù)字化加工人員責(zé)任心不強(qiáng),在著錄過(guò)程中粗心大意,錯(cuò)錄、漏錄、亂錄等現(xiàn)象時(shí)有發(fā)生。一些數(shù)字化加工單位為降低成本,通常采用單機(jī)進(jìn)行著錄,其一校正確率只能達(dá)到60%—70%,甚至更低。目錄數(shù)據(jù)著錄錯(cuò)誤將會(huì)導(dǎo)致相關(guān)檔案成為“死檔”,因此目錄著錄正確率的重要性不言而喻。
應(yīng)對(duì)做法:按照《檔案數(shù)字化轉(zhuǎn)換操作規(guī)程》(DB32/T 1894-2011)的要求,目錄數(shù)字化要求著錄字段基本反映檔案信息,能滿足利用者在查閱中進(jìn)行檢索。檔案的數(shù)字化過(guò)程也是對(duì)館藏檔案進(jìn)行重新整理的過(guò)程,對(duì)不規(guī)范的頁(yè)碼、條目進(jìn)行重新編制頁(yè)碼、錄入條目,條目的錄入要盡可能地反映更多的檔案信息,如文號(hào)、文件標(biāo)題、責(zé)任者、成文時(shí)間、主題詞等,通過(guò)這些字段可直接提高檔案的查準(zhǔn)率及查全率。特別是涉及人的檔案,著錄時(shí)必須著錄齊全,對(duì)于諸如任免、名冊(cè)等可以建立專(zhuān)題檔案數(shù)據(jù)庫(kù),檔案館要對(duì)著錄項(xiàng)目是否完整、著錄內(nèi)容是否規(guī)范、準(zhǔn)確等進(jìn)行嚴(yán)格的審查,對(duì)不合格的數(shù)據(jù)要嚴(yán)格按要求進(jìn)行整改,以達(dá)到規(guī)定標(biāo)準(zhǔn)。另外,為解決檔案著錄錯(cuò)誤問(wèn)題,根據(jù)筆者實(shí)踐,可以通過(guò)雙機(jī)著錄、軟件比對(duì)的方法來(lái)提高著錄的正確率,同時(shí)也能極大地提高勞動(dòng)效率、降低勞動(dòng)成本。詳見(jiàn)表1。
表1
掃描環(huán)節(jié)是數(shù)字化加工的中心環(huán)節(jié),檔案掃描的質(zhì)量直接影響到檔案數(shù)字化成果的利用質(zhì)量及利用效果。掃描環(huán)節(jié)中容易出現(xiàn)的問(wèn)題具體表現(xiàn)為:圖像的完整度清晰度不高、分辨率不夠;檔案錯(cuò)掃、漏掃;由于紙張凹凸不平,陰影嚴(yán)重,達(dá)不到規(guī)定的影像標(biāo)準(zhǔn),影響OCR識(shí)別的準(zhǔn)確率。
應(yīng)對(duì)做法:當(dāng)前按照相關(guān)規(guī)范標(biāo)準(zhǔn),數(shù)字化掃描的參數(shù)一般選擇24 位全彩色方式、300dpi 精度。這個(gè)參數(shù)對(duì)于絕大部分檔案是適用的,但對(duì)于某些特殊類(lèi)型的檔案,如原件字跡模糊、字體過(guò)小,計(jì)劃用來(lái)仿真的檔案等,掃描精度需要適當(dāng)提高。需要仿真的檔案一般采用600dpi 以上的精度進(jìn)行掃描,字跡模糊及字跡過(guò)小的檔案選取的精度標(biāo)準(zhǔn)以100%大小觀察電子圖像能夠清晰辨認(rèn)文字為標(biāo)準(zhǔn)。精度的選擇并不是越高越好,因?yàn)楦叩膾呙杈葧?huì)帶來(lái)更大的存儲(chǔ)壓力。
對(duì)于錯(cuò)掃、漏掃的情況,筆者認(rèn)為要重點(diǎn)從兩個(gè)方面著手控制。一是以案卷(件)為單位實(shí)施嚴(yán)格的校對(duì)工作,確保電子文件與實(shí)體檔號(hào)100%正確對(duì)應(yīng),杜絕錯(cuò)掃現(xiàn)象。二是對(duì)于漏掃的問(wèn)題,可以通過(guò)圖像個(gè)數(shù)與頁(yè)碼校對(duì)的手段來(lái)快速發(fā)現(xiàn)。具體做法為通過(guò)軟件工具將每個(gè)案卷(件)文件夾中的圖像個(gè)數(shù)與相應(yīng)的電子檔案目錄中的頁(yè)數(shù)字段進(jìn)行比對(duì),比對(duì)不一致的結(jié)果無(wú)非是漏掃、錄錯(cuò)兩種情況,因此這也是對(duì)電子檔案目錄的一次核對(duì),起到了一舉兩得的效果。
一些年代久遠(yuǎn)的檔案紙張難免會(huì)有褶皺變形現(xiàn)象,這樣的檔案如果直接掃描文字會(huì)出現(xiàn)波紋、陰影等,這樣的圖像在進(jìn)行OCR識(shí)別的時(shí)候會(huì)嚴(yán)重影響識(shí)別的正確率。對(duì)于此種類(lèi)型的檔案,在掃描前應(yīng)先做熨平處理。具體做法,可將彎曲褶皺的檔案放在兩層特氟龍薄膜之間,用溫度調(diào)至70攝氏度左右的干式電燙斗對(duì)其熨燙,熨平后的檔案紙張?jiān)龠M(jìn)行掃描,不僅圖像質(zhì)量能夠大幅提高,而且對(duì)檔案原件也相當(dāng)于做了一次簡(jiǎn)單修整。
掃描環(huán)節(jié)中電子圖像的存儲(chǔ)格式也是一個(gè)容易出問(wèn)題的地方。我們的經(jīng)驗(yàn)是,加工過(guò)程中一律采用單頁(yè)JPG 的存儲(chǔ)格式,以案卷(件)為單位建立電子圖像目錄結(jié)構(gòu),以案卷(件)檔號(hào)對(duì)文件夾命名,以頁(yè)號(hào)(順序號(hào))對(duì)JPG 文件命名。按照這種標(biāo)準(zhǔn),可以通過(guò)軟件工具批量地轉(zhuǎn)換成PDF、TIF 等其他多頁(yè)文件格式。
圖像處理環(huán)節(jié)最容易出現(xiàn)的問(wèn)題是圖像傾斜度校準(zhǔn)。目前行業(yè)內(nèi)對(duì)圖像傾斜的要求一般為正負(fù)1度。這個(gè)傾斜度一般肉眼很難覺(jué)察出來(lái),并且如果沒(méi)有一個(gè)標(biāo)準(zhǔn)參照物,由于每個(gè)人的主觀感覺(jué)不同,根本就沒(méi)辦法去認(rèn)定正負(fù)1 度的傾斜標(biāo)準(zhǔn)。
應(yīng)對(duì)做法:可以在加工中使用帶有網(wǎng)格標(biāo)尺功能的顯示器(如華碩PA238Q)進(jìn)行圖像處理,打開(kāi)其網(wǎng)格標(biāo)尺功能,并以此為參照物,對(duì)電子圖像進(jìn)行糾偏處理,確保圖像傾斜度不超過(guò)正負(fù)1度。
檔案數(shù)字化是一項(xiàng)繁重而復(fù)雜的工程,做好檔案數(shù)字化,將是數(shù)字檔案館立足自我、服務(wù)社會(huì),實(shí)現(xiàn)檔案信息資源深入、長(zhǎng)遠(yuǎn)、廣泛利用的生命線,因此,我們要以“質(zhì)量第一”為前提,穩(wěn)步推進(jìn)館藏檔案數(shù)字化,切不可盲目追求數(shù)量和進(jìn)度,否則將不利于數(shù)字檔案館的健康持續(xù)發(fā)展。