岳曉峰,李慧穎,孫浩
(國家海洋信息中心天津 300171)
海洋科研檔案數(shù)字化關(guān)鍵問題實踐
岳曉峰,李慧穎,孫浩
(國家海洋信息中心天津 300171)
檔案數(shù)字化是推進檔案信息化建設(shè)的重要工作之一,科研檔案的復(fù)雜性使其檔案數(shù)字化進程中遇到更多的問題和難題。以海洋科研檔案為例,研究科研檔案在檔案掃描、數(shù)字化文件存儲、安全防護等數(shù)字化建設(shè)過程中遇到的關(guān)鍵問題以及經(jīng)過實踐和分析得出的實際解決方法。
科研檔案;數(shù)字化;實踐
紙質(zhì)檔案數(shù)字化是檔案數(shù)字化的重要組成部分,是將傳統(tǒng)的紙質(zhì)檔案上記載的文字、圖形等內(nèi)容轉(zhuǎn)化成以二進制數(shù)字代碼形式記錄的,能為計算機網(wǎng)絡(luò)所識別和表達的數(shù)字信息的過程。由于科研檔案產(chǎn)生于調(diào)查、勘查、試驗、研究、統(tǒng)計等多種科研活動中,背景比較復(fù)雜,檔案形式多種多樣,紙質(zhì)類型“包羅萬象”,因此科研檔案數(shù)字化難度相比其他類型檔案的難度大,數(shù)字化過程中面臨的需要解決的問題較多。
檔案掃描是檔案數(shù)字化中至關(guān)重要的一個環(huán)節(jié),掃描質(zhì)量的好壞,直接影響數(shù)字化工程的成敗和數(shù)字化成果的良莠。海洋科研檔案本體情況比較復(fù)雜,制定掃描標準應(yīng)該慎重,并細化到每個操作步驟。檔案掃描包括選擇掃描模式和設(shè)置掃描參數(shù)兩個重要環(huán)節(jié),海洋科研檔案掃描標準主要遵循忠于檔案本體內(nèi)容,保證所有數(shù)字化文件信息與其實體信息的清晰度、完整度保持一致,至少達到重要內(nèi)容與原件內(nèi)容一致等原則,根據(jù)每一件檔案實體紙張狀況、頁面文字清晰度等情況,并借鑒國家或其他行業(yè)相關(guān)標準制定。在具體實施過程中依據(jù)標準執(zhí)行的同時,結(jié)合數(shù)字化檔案本體具體情況具體分析。
掃描模式有彩色、灰度、黑白3種。彩色掃描模式捕獲的色彩信息最多,掃描效果最佳,但掃描用時是3種掃描模式中最多的,掃描圖像占用空間也是最大的;灰度掃描模式可較準確地顯示不同顏色內(nèi)容的色彩差別,掃描圖像的清晰度介于彩色掃描和黑白掃描之間;黑白掃描模式可以捕獲到?jīng)]有絲毫色調(diào)濃淡變化的純黑與純白雙色圖像,其形成的圖像與文檔的照相復(fù)制品相似,原件的亮度、黑度與色彩是無法通過黑白掃描反映出來的,但黑白掃描速度最快,掃描圖像文件最小。
選擇的模式不同,圖像的顯示效果、掃描時間和圖像存儲所占用空間大小也有所不同。由于海洋科研檔案紙質(zhì)除常見的復(fù)印紙、稿紙外,還有銅版紙、圖紙、機打紙、相紙等,記載方法有打印字,簽字筆、油筆、鉛筆等手寫字,油墨印刷字、手繪圖、照片等,無論采用哪種單一的模式掃描,都不可能滿足其需求。在實踐中,掃描時則根據(jù)不同掃描模式優(yōu)勢、掃描原則和需求,結(jié)合紙質(zhì)特點、檔案信息內(nèi)容情況選擇不同的掃描模式。在選擇掃描模式時,首先考慮檔案有效內(nèi)容顯示清楚。一般復(fù)印紙、稿紙等普通材質(zhì)且質(zhì)量較好、內(nèi)容比較清晰的黑白文字和圖件等原件采用黑白模式掃描,同樣紙質(zhì)和清晰度的彩色文字、圖件原件、重要手寫稿、黑白或彩色照片采用彩色模式掃描,內(nèi)容較不清晰或不清晰的,銅版紙等特殊材質(zhì)、帶色或泛黃的,字跡較不清晰或不清晰的紙質(zhì)檔案均采用彩色模式掃描。其次考慮掃描速度最快化,為提高整個數(shù)字化加工工作效率,在上述考慮因素的基礎(chǔ)上,海洋科研檔案首選黑白模式掃描,其次是灰度模式掃描,只有在必須選擇彩色模式的情況下采用彩色模式掃描;再則,考慮數(shù)字化環(huán)境和條件,在構(gòu)建海洋科研檔案數(shù)字化硬件環(huán)境時,基于提高掃描速度、加快整體數(shù)字化進程的考慮,配備的掃描儀、臺式機等數(shù)字化設(shè)備及移動硬盤、光盤、磁盤陣列等存儲設(shè)備的綜合性能比較高,因此海洋科研檔案數(shù)字化時掃描模式的選擇可以忽略圖像存儲占用空間、圖像掃描時間等因素。
經(jīng)過實踐和分析,海洋科研檔案不適宜采用灰度模式掃描。第一,灰度掃描圖像顯示效果欠佳,不是可讀性不夠高,就是頁面不夠清晰。海洋科研檔案中需要采用灰度模式掃描的檔案不多,但在掃描過程中,灰度模式與其他模式轉(zhuǎn)換又需要花費時間,降低了整體掃描過程的效率。第二,從圖像占用空間考慮,雖然灰度模式優(yōu)于彩色模式,但經(jīng)過對30頁A4幅面不同內(nèi)容檔案采用200 dpi分辨率進行灰度和彩色掃描,掃描后的圖像占用空間的比對測試,結(jié)果顯示平均每頁檔案灰度掃描比彩色掃描后的圖像占用空間少70 KB,100萬頁檔案的空間差量是70 GB?,F(xiàn)在存儲介質(zhì)的容量越來越大,70 GB對于TB級存儲介質(zhì)而言已是“輕量級”問題,可以不作為主要考慮因素。第三,掃描速度的快慢和圖像存儲空間的大小與掃描模式、數(shù)字化硬件環(huán)境、存儲設(shè)備等有關(guān)。理論上,灰度掃描速度比彩色掃描速度快,但是現(xiàn)代的高速掃描儀大大提高了掃描速度,并縮減了灰度掃描和彩色掃描的時間差。經(jīng)過測試,A4幅面檔案采用200 dpi分辨率分別進行灰度和彩色掃描,平均的時間差在0.5 s,因此灰度和彩色模式的選擇可以忽略掃描速度因素。綜合考慮這3個因素,海洋科研檔案可以不考慮灰度掃描模式。
海洋科研檔案掃描參數(shù)的設(shè)置與管理和利用需求、掃描模式相結(jié)合。以文字為主的數(shù)字化文件需要進行OCR識別提供全文檢索服務(wù),參數(shù)值太低,影響清晰度和識別率,參數(shù)值太高,文件太大,影響文件調(diào)用和傳輸速度。經(jīng)過多次實踐測試,海洋科研檔案數(shù)字化文件中,黑白模式掃描的圖像參數(shù)設(shè)為300 dpi,彩色模式掃描的文件參數(shù)設(shè)為200 dpi。海洋科研檔案中的照片、圖紙檔案色彩豐富、線條交錯復(fù)雜,必須加大分辨率增加圖像的顯示度,因此參數(shù)設(shè)為600 dpi。
在海洋科研檔案數(shù)字化過程中遇到一些特殊情況時,再適當(dāng)調(diào)節(jié)掃描軟件的對比度、亮度等參數(shù),以及采取特殊方法增強清晰度。如雙面均有鉛印字內(nèi)容的檔案,為了避免背面字透射至正面,掃描時紙張和掃描儀蓋板中間加一張白紙,可減輕透字情況;又如某些檔案紙質(zhì)為蠟紙,其特點為透明度較高,直觀紙張反面可清晰看見正面的印字,有時反面透字的清晰度較正面印字更清楚,可采取先掃描反面,對掃描后的圖像進行鏡像,可增強正面字跡的清晰度等。
形成的數(shù)字化文件命名后按照一定的格式存儲,才可進行管理和利用。數(shù)字化命名有多種方式,如以流水號命名、按案卷號命名等。海洋科研檔案數(shù)字化實踐中,充分考慮“檔號”作為檔案實體案卷標識的唯一性,引入“檔號”作為名稱的一部分,命名為“同案卷檔號”+“文件序號”。這種命名方法既體現(xiàn)了數(shù)字化文件的唯一性,又實現(xiàn)了數(shù)字化文件與同案卷文件目錄的一一對應(yīng),為數(shù)字化文件管理和檢索利用提供了方便。
目前國際主流的文件格式有XML、TIFF、JPEG、PDF等,每種格式都有各自的特點和優(yōu)缺點。其中TIFF格式為非失真的壓縮格式,存儲的圖像質(zhì)量最好,但是占用空間較大;JPEG格式為壓縮格式,支持多種壓縮級別,占用空間較少,但它屬于有損壓縮,易造成圖像數(shù)據(jù)的損傷;PDF格式可以很好地保持圖像原貌,且網(wǎng)絡(luò)傳輸速度快,可以邊下載邊閱讀圖像,為國際電子文檔分發(fā)的公開的實際標準,但有時存儲的圖像占用空間比較大;XML格式為可擴展格式,可以在不同系統(tǒng)之間進行信息傳輸,并能進行全文檢索,較適合于網(wǎng)絡(luò)管理,不太適合檔案管理。海洋科研檔案數(shù)字化文件存儲格式本著“占用空間小,圖像色彩丟失少”的原則,結(jié)合海洋科研檔案利用的需求,分別存儲為PDF格式、JPG格式、TIFF格式。其中以文字為主的數(shù)字化文件存儲為多頁雙層PDF格式文件,以方便文件下載、瀏覽、傳輸和OCR識別后的全文檢索;色彩豐富的圖幅、照片等數(shù)字化文件存儲為單頁的JPG格式文件,作為備份文件或提供圖像編輯等高級利用;所有數(shù)字化文件單獨存儲為多頁TIFF
格式作為備份文件之用。
在整個數(shù)字化加工過程中,檔案實體會經(jīng)過多個環(huán)節(jié)、多人之手操作,形成的數(shù)字化文件經(jīng)過計算機處理后,會保存在服務(wù)器硬盤、光盤、移動硬盤等介質(zhì)中,一旦發(fā)生實體損毀、檔案信息外泄或丟失,會造成無法挽回的損失。因此,在數(shù)字化過程中,保證檔案實體的完整和數(shù)字化文件的安全非同小可。海洋科研檔案數(shù)字化的安全保障主要從管理和技術(shù)兩個方面著手。
首先,建立健全安全管理制度和強化人員安全保密意識。在海洋科研檔案數(shù)字化過程中,通過制定海洋科研檔案的數(shù)字化安全管理辦法、數(shù)字化操作手冊等規(guī)章制度,規(guī)范數(shù)字化加工各環(huán)節(jié)和流轉(zhuǎn)程序。同時定期對工作人員進行安全保密教育,促使自覺地保護檔案實體和數(shù)字化文件的安全。
其次,采用技術(shù)手段保障安全。主要有:安裝殺毒軟件和防火墻;設(shè)置人員操作權(quán)限;設(shè)計日志系統(tǒng)記錄操作行為;對形成的數(shù)字化文件定期異地備份。
紙質(zhì)檔案數(shù)字化建設(shè)是一項龐大的工程,無論是海洋科研檔案,還是其他專業(yè)科研檔案數(shù)字化,遇到的問題絕不僅僅是這些,本文中提到的幾個問題和想法僅起到拋磚引玉的作用,借此以期引起業(yè)界專家對數(shù)字化建設(shè)問題的關(guān)注。
2012-09-16