劉珊
摘 要:檔案數(shù)字化是指利用數(shù)據(jù)庫技術(shù)、高速掃描技術(shù)等,將紙質(zhì)檔案進(jìn)行掃描處理,系統(tǒng)地組織檔案信息庫的過程。本文結(jié)合檔案數(shù)字化掃描的實(shí)踐,從前期紙質(zhì)檔案數(shù)字化掃描準(zhǔn)備、紙質(zhì)檔案數(shù)字化掃描的過程、紙質(zhì)檔案數(shù)字化后的存儲方面論述了如何對紙質(zhì)檔案進(jìn)行數(shù)字化掃描。
關(guān)鍵詞:掃描;檔案;數(shù)字化;紙質(zhì);實(shí)踐
1 前期紙質(zhì)檔案數(shù)字化掃描準(zhǔn)備
1)紙質(zhì)檔案的準(zhǔn)備。在掃描前,必須取出活頁夾,檢查文檔中是否有任何干擾(如訂書釘、碎紙),以免卡紙和損壞掃描儀。有必要保持文檔的清潔并將其放入掃描儀。不能掃描的損壞部分應(yīng)先修復(fù)粘貼。掃描前應(yīng)將原件的掃描質(zhì)量平整;紙張?zhí)∏彝该鳎ㄈ缧偶?、便簽紙)、紙張?zhí)?、照片等采用高速掃描儀平掃;當(dāng)有附小頁、紙張時(shí),頁面的大小將為在平板上分別掃描。
2)拆卸捆綁。在刪除文檔中的綁定時(shí),應(yīng)注意在刪除綁定時(shí)保護(hù)文件不受損壞;在不刪除綁定的情況下,應(yīng)保護(hù)影響掃描工作的文件。
3)區(qū)分掃描件和非掃描件。根據(jù)需要在同一文件中將掃描儀與非掃描儀分開。通用文件的區(qū)分原則是刪除無關(guān)的重文件,不能掃描有正版或原版文件的文件。
4)頁面裁剪。對于嚴(yán)重?fù)p壞不能直接掃描的文件,應(yīng)先進(jìn)行技術(shù)維修和粘貼。對皺紋影響掃描質(zhì)量的原始零件,應(yīng)在掃描前進(jìn)行處理(平整或均勻燙傷)。
5)掃描設(shè)備和軟件的選擇??紤]到本單位檔案的數(shù)字掃描大部分是A3和A4,我們配備了A3和A4掃描儀。當(dāng)我們需要掃描一些大型文檔時(shí),例如基礎(chǔ)設(shè)施圖紙,我們使用塊掃描方法,然后使用圖像處理軟件進(jìn)行圖像拼接。為了保證拼接后的信息完整性,需要注意幾個(gè)問題:第一,在掃描大面積塊時(shí),要保證每個(gè)塊有一定的距離,沒有重疊部分;第二,要將這些數(shù)據(jù)塊單獨(dú)存放在文件夾中,統(tǒng)一存放。第三,掃描的圖像屬性要統(tǒng)一。
2 紙質(zhì)檔案數(shù)字化掃描的過程
1)掃描范圍的確定。在實(shí)施紙質(zhì)檔案數(shù)字化之前,首先要確定檔案數(shù)字化的優(yōu)先范圍。合理確定掃描范圍:先掃描利用率高的檔案;先保存利用率低、價(jià)值高但不適合掃描的檔案。根據(jù)《檔案查閱登記表》、《使用效果登記表》、《咨詢?nèi)艘庖姇?、《檔案出入境登記表》中的相關(guān)項(xiàng)目,確定了整個(gè)檔案掃描的優(yōu)先順序、年度優(yōu)先順序、內(nèi)容優(yōu)先順序等,并對檔案進(jìn)行了整理。有計(jì)劃、有秩序的掃描。如:黃熱病疫苗使用率高但無計(jì)算機(jī)管理的原始記錄和外國留學(xué)生的外語形式被納入優(yōu)先掃描范圍。
2)掃描參數(shù)的選擇。首先是分辨率,原則上,分辨率的參數(shù)是由筆跡和紙張的質(zhì)量來決定的,但由于速度的原因,統(tǒng)一的技術(shù)條件和標(biāo)準(zhǔn)不能完全實(shí)現(xiàn)。一般來說,文件的分辨率為300dpi,但對于筆跡不清楚的特殊文件,應(yīng)采用較高的分辨率。例如,當(dāng)掃描帶有印章的文檔時(shí),尤其是帶有外國印章的文檔時(shí),我們應(yīng)該將分辨率設(shè)置為600 dpi。檔案的書寫材料和字體不同,掃描參數(shù)的選擇也有很大的差異。但原則上,我們只需掌握清晰易讀的圖像,就可以滿足瀏覽和搜索的需要。其次是顏色模型,顏色模式分為黑白、RGB顏色、灰度、CMYK顏色、LAB、Web/Internet顏色、256色等,一般文本文件選擇黑白,圖片選擇RGB顏色或256色。最后是圖像模式,根據(jù)掃描文件的特點(diǎn)和清晰度要求,可采用編輯文本模式,也可采用彩色圖片模式,如黑白圖片、彩色圖片等類型。
3)紙質(zhì)檔案數(shù)字化掃描方式。(1)文件數(shù)字化。①建立數(shù)字圖像存儲文件夾。在項(xiàng)目單元中建立用于存儲掃描數(shù)據(jù)的文件夾,并根據(jù)文件的流水線編號建立子文件夾。②圖像格式及數(shù)字圖像命名。數(shù)字圖像為jpeg格式。圖像的壓縮比設(shè)置為85。根據(jù)三位流水線編號:aal jpg”002.jpg,003.jpg”,”003.jpg”,”和”圖像名稱的流水線編號必須與對應(yīng)頁面的頁碼一致。③數(shù)字圖像的掃描彩色模式。通常采用顏色模式,顏色位數(shù)設(shè)置為24位。對于筆跡清晰、無灰底、無印章、無插圖的黑白文件,可以采用黑白二值模式掃描。④數(shù)字圖像掃描分辨率。對于頁面上手寫或插圖清晰的文件,分辨率設(shè)置為200dpi。對于小、密集、清晰度差的文件,分辨率提高到300。⑤數(shù)字圖像掃描方式的選擇。利用高速掃描儀的自動送紙功能,可以掃描出質(zhì)地較新或較好的A3、A4格式的紙張文件。質(zhì)地差、易碎、薄、軟、厚的文件應(yīng)采用平板掃描。大于A3的文件應(yīng)使用大型工程掃描儀進(jìn)行掃描。⑥掃描頁碼檢查。在掃描檔案前,必須檢查紙質(zhì)檔案的頁數(shù)和頁數(shù)是否與目錄和參考表中記錄的頁數(shù)一致。使用自動糾偏軟件。如果用軟件對彩色圖像進(jìn)行自動校正,校正角度較大時(shí)可能會自動填充白色邊緣。這些白色邊緣應(yīng)手動切割和去除。在圖像裁剪中,應(yīng)注意保留原始圖像的內(nèi)容,以保證圖像的完整性。
(2)圖像數(shù)字化掃描。以24位彩色模式掃描的文檔的分辨率為100dpi;(上述模式的分辨率設(shè)置在A4紙上,其他規(guī)格根據(jù)需要進(jìn)行調(diào)整)掃描行數(shù)、閾值、亮度、灰度和對比度可根據(jù)掃描文檔材料的清晰度進(jìn)行調(diào)整;①創(chuàng)建以項(xiàng)目為單位存儲圖形數(shù)字?jǐn)?shù)據(jù)的文件夾,然后根據(jù)文件的流水線編號建立子文件夾(同一文檔的數(shù)字化)。②數(shù)字圖像采用jpeg格式,圖像壓縮比設(shè)置為85。圖像文件按照三位數(shù)流水線編號進(jìn)行處理:ool;jpg,002 jpg,003.jpg””。圖像名稱的管道編號必須與對應(yīng)頁面的頁碼一致。③圖紙數(shù)字化應(yīng)采用顏色模式,顏色位數(shù)應(yīng)設(shè)置為24位。④將繪圖掃描分辨率設(shè)置為200dpi。⑤所有圖紙均采用大型掃描儀(工程圖紙)進(jìn)行掃描。⑥數(shù)字化圖紙的頁碼檢查和質(zhì)量初審要求與數(shù)字化文件相同。
以24位彩色模式掃描的文檔的分辨率為100dpi;(上述模式的分辨率設(shè)置在A4紙上,其他規(guī)格根據(jù)需要進(jìn)行調(diào)整)。掃描行數(shù)、閾值、亮度、灰度和對比度可根據(jù)掃描文檔材料的清晰度進(jìn)行調(diào)整;必要時(shí),可根據(jù)原稿的清晰度適當(dāng)調(diào)整掃描分辨率。如果原稿質(zhì)量差,尺寸小,可以適當(dāng)提高分辨率;反之,可以相應(yīng)降低分辨率。增加或減少取決于掃描圖像根據(jù)原始尺寸顯示后是否清晰。
3 紙質(zhì)檔案數(shù)字化后的存儲
1)存儲格式。文本文件存儲包括DOC、RTF、HTML、DOT(MS文檔模板)和TXT。其中,前兩種是最常見的存儲格式,后三種不適合文本文件的訪問和標(biāo)準(zhǔn)化處理,因此一般不使用。圖像存儲的常見格式是TIFF和JPEG。前者不丟失圖像,但占用較大的磁盤空間;后者是可壓縮的,占用較小的磁盤空間,但在數(shù)據(jù)傳輸中會有不同程度的損失。因此,在掃描過程中,要堅(jiān)持正確的工作方法和標(biāo)準(zhǔn),及時(shí)進(jìn)行數(shù)據(jù)質(zhì)量檢查,確保掃描文件的質(zhì)量和效率。
2)儲存方法。首先是對紙質(zhì)檔案數(shù)字化文件保存和分類,在硬盤中設(shè)置多個(gè)文件夾并分別命名,分別存儲掃描的文件,并根據(jù)年份在每個(gè)文件夾中創(chuàng)建子文件夾。掃描后形成的文件按年度分類,便于管理和編目,也便于年復(fù)一年地檢索。其次要對紙質(zhì)檔案數(shù)字化文件排列和編號。掃描的圖像文件按時(shí)間順序排列,按順序編號,并形成文檔的流水線編號。命名規(guī)則為:類別-年份-存儲期間-文檔編號。例如,”HR 200910001”,其中第一至第二位表示類別,第三至第六位表示年份,第七位表示保質(zhì)期,第八至第十一位表示文件編號。最后掃描完每個(gè)文檔后,根據(jù)原文仔細(xì)檢查掃描是否清晰、完整;使用掃描儀并按要求清潔,每次使用后清潔掃描儀,檢查電源是否關(guān)閉。
4 結(jié)束語
通過紙質(zhì)檔案數(shù)字化掃描的實(shí)踐,實(shí)現(xiàn)對檔案內(nèi)容的“拷貝”,使其內(nèi)容傳播,不再受限于紙質(zhì)載體。通過網(wǎng)絡(luò)化設(shè)施,實(shí)現(xiàn)檔案數(shù)字化副本的實(shí)時(shí)查閱與異地利用,使檔案資源利用不再受限于某一時(shí)空。
參考文獻(xiàn)
[1]李紅梅,張棟.紙質(zhì)檔案數(shù)字化前處理工作探析[J].檔案學(xué)研究,2015(04):111-112.
[2]毛海帆.數(shù)字化過程中促進(jìn)紙質(zhì)檔案數(shù)字副本憑證效力研究[J].檔案學(xué)研究,2011(06):66-67.
[3]梁沙,史江.紙質(zhì)檔案數(shù)字化工作中存在的問題及對策探討[J].蘭臺世界,2011(30):168-170.
[4]張文波.綜合檔案館紙質(zhì)檔案數(shù)字化思考[J].山西檔案,2018(02):99-100.