方杰
為保護民國時期珍貴文獻,上海圖書館于2008年啟動民國期刊數(shù)字化加工項目。該項目現(xiàn)已完成了一萬多種、二十余萬冊(期)民國期刊的數(shù)字化工作。在項目進行過程中,由于民國期刊出版樣式的多樣化現(xiàn)狀,工作人員不斷改進加工流程與系統(tǒng),降低人工成本、加快工作效率、提高產(chǎn)品質(zhì)量,保證了項目的順利實施,為各類文獻數(shù)字化工作提供了借鑒。
民國時期文獻指形成于1911年至1949年這一特定歷史時期的各種知識和信息載體。由于正值中國社會急劇轉(zhuǎn)型,因此民國文獻具有鮮明的時代特征、學術價值和現(xiàn)實意義。然而限于諸多原因,目前民國文獻保護面臨諸多困難,如家底不清、保存條件不佳、酸化老化程度加劇、缺乏原生性保護、再生性保護進展緩慢等。因此,為保護原件內(nèi)容的文化價值,必需借助數(shù)字化方式使已脆化的原件能為用戶所提取閱讀,并降低珍貴文獻丟失與破損的風險,擴大其利用范圍。為此,上海圖書館啟動了民國期刊數(shù)字化加工項目。
數(shù)字化加工系統(tǒng)流程
民國期刊數(shù)字化加工系統(tǒng)自2008年開始研發(fā),流程如圖1。自圖像掃描開始,系統(tǒng)會自動分配一個工作包ID作為基本加工單位,項目加工人員依次對其進行圖像處理、版面分析、識別、縱校、橫校和版面還原等工序。
圖1 民國期刊數(shù)字化加工項目流程圖
掃描工序是通過系統(tǒng)自動獲取掃描儀后,將紙質(zhì)件順次掃描為電子圖像,并在掃描完成后,打包上傳至服務器進行圖像處理。為提高圖像的OCR識別率,在圖像處理中,需要進行旋轉(zhuǎn)、糾斜、去噪點、去污等操作,圖像質(zhì)量控制程序也會自動監(jiān)測處理質(zhì)量。然后進入版面分析工序,簡單來說,就是劃框并標識該框?qū)傩裕鐧M欄、豎欄、表格、圖像、英文等。在此工序中,系統(tǒng)有自動版面分析和手動版面分析兩種模式。系統(tǒng)會根據(jù)劃框的屬性將文字、數(shù)字、英文等圖像信息轉(zhuǎn)化為計算機文字和電子文字,以利于保存和閱讀。
為提高識別精確度,在識別后還將進行縱校和橫校??v校即將一個圖像或若干個圖像中識別成同一個字的文字圖像并列顯示,并以突出顏色標出可疑字,便于操作員發(fā)現(xiàn)錯誤從而進行修改。而橫校則需人工逐一校對,系統(tǒng)會將單一文字、數(shù)字、外文圖像和識別出的文字分別對應列出。加工人員據(jù)此人工對比,最終確定文字。完成上述工序后,工作人員將識別并修改好的文本分篇并標識標簽屬性,生成可供計算機閱讀、查詢、檢索的RTF、PDF、HTML、SGML/XML格式的數(shù)字文檔,完成整本(冊)期刊的數(shù)字化流程。
文本多樣性成加工難點
經(jīng)過反復實踐,系統(tǒng)在加工過程中主要會遇到三大問題。一是文獻管理難。上海圖書館是大型綜合性研究型公共圖書館,現(xiàn)藏中外文獻5300余萬冊(件),原加工系統(tǒng)不能提供文獻管理功能。當出現(xiàn)幾個工作人員同時加工一種期刊的情況時容易造成重復記錄,信息差錯率很高,而且一旦出錯,整個工作包必須重新加工。如果沒有在后續(xù)工序中發(fā)現(xiàn)錯誤,將造成數(shù)據(jù)重復、錯誤等問題,無疑影響整個項目的質(zhì)量。
二是掃描效果不佳。民國時期正是手工造紙向近代機械造紙和印刷過渡的時期,造紙材料混雜,制漿工藝落后。民國時期紙張壽命一般是50年至100年。上海圖書館民國文獻正面臨紙張酸化、老化嚴重,缺乏韌性,大量圖書變碎掉渣的情況。整本完整的圖書很難尋覓,尤其是抗戰(zhàn)文獻破損率達90%。加上部分紙質(zhì)過薄,且以油印方式印刷,因此透字、污損嚴重,使文獻掃描異常困難。在考慮了掃描質(zhì)量、圖像清晰度、存儲空間等因素后,項目使用平板掃描儀,采用300DPI的黑白掃描方式,用tif格式保存文件。遇到黃頁、透字、或者黑白掃描效果不佳的圖片則采用彩色掃描。雖然原加工系統(tǒng)在連續(xù)掃描時效果很好,但由于民國期刊的特殊性,在實際掃描過程中,人工干預程度高,連續(xù)掃描中斷多,圖片質(zhì)量不佳,掃描效率低下,日產(chǎn)量一直在600頁左右,產(chǎn)量和質(zhì)量均不能達到預期目標。此外,由于部分圖片已經(jīng)提前掃描完成,將這些圖片導入系統(tǒng)時,就需要手工將圖像以期(冊)為單位逐一在掃描工序中上傳至系統(tǒng),經(jīng)常會發(fā)生重復上傳數(shù)據(jù)、漏傳、工作包描述張冠李戴等錯誤,造成后續(xù)工序的延誤乃至數(shù)據(jù)錯誤。
三是后期識別錯誤率高。在圖像處理工序中,操作修改的功能性差,糾斜只能通過拉水平線完成,而裁剪、重命名等幾個簡單的功能不能批量操作,效率低下。并且,與現(xiàn)刊書籍的高識別率相比,民國期刊因紙質(zhì)、保存狀況、印刷技術、部分手寫體出版等原因,識別率最高只能達到80%左右,且半數(shù)以上的圖像識別率在60%以下。同時,由于民國的文字還不規(guī)范,漢字簡繁混合、異形字、錯別字很多,縱校的批量性優(yōu)勢難以體現(xiàn),不能降低橫校的工作量。且標簽信息(標題、作者、團體、作者、欄目、備注等)的標引工作沒有工序進行校驗,導致成品有多達15%的差錯率。總之,由于識別產(chǎn)量低下,在設計項目人工額定的情況下,難以保證工作進度。
因勢利導,完善系統(tǒng)
為增加產(chǎn)量,提高質(zhì)量,工作人員在綜合考慮各方意見后對加工系統(tǒng)進行了以下修改。首先是建立“劃到系統(tǒng)”?!皠澋较到y(tǒng)”是上海圖書館為更好管理民國期刊刊名庫而單獨設計開發(fā)的一個系統(tǒng),使刊名庫與全國報刊索引平臺實現(xiàn)無縫對接。
其次是重新定義掃描工序、識別工序和版面還原。經(jīng)過重新定義,掃描工序能自動提取指定目錄下的各子文件夾中所有圖像,根據(jù)目錄依次上傳服務器,并在工作包描述記錄文件目錄。而重新定義識別工序后,增加了標簽信息的檢驗。雖然相當于增加了10%的工作量,但由于將標簽信息提前帶入流程,使得后續(xù)校對工序可以同時幫助校驗標簽信息,從而在總體上提高了工作效率。在重新定義版面還原后,可直接通過識別工序的標引信息,自動進行版面還原,按要求生成PDF和TXT文件。因為非人工操作,從而杜絕了意外錯誤。
再次,停用縱校功能,直接進行橫校,使工作效率提高了35%左右。而在增加手寫模塊復制功能后,將高頻率使用的“標簽信息”+“內(nèi)容”成組保存,在需要時可直接復制到手寫輸入?yún)^(qū),提高了輸入效率。在所有加工完成后,還將進行整體合理性檢查、抽樣人工檢查,從而控制產(chǎn)品質(zhì)量。
通過以上措施,民國期刊數(shù)字化流程改為劃到、掃描、圖像校對、掃描上傳、識別、橫校、版面還原、質(zhì)量監(jiān)控八個工藝流程。在加工過程中,以80%的項目預設人工完成了全部任務,取得了良好效果。
民國期刊等老舊文獻數(shù)字化加工項目都存在文獻本身的不確定性和特殊性,固定的加工流程不能滿足所有文獻數(shù)字化的加工要求,因此在實踐中需要一直不斷完善現(xiàn)有加工系統(tǒng),用數(shù)字化方式延續(xù)文化的生命。