摘 要:古籍?dāng)?shù)字化與古籍整理、文獻(xiàn)保護(hù)、文化傳承緊密相關(guān)。文章從古籍?dāng)?shù)字化的概念與意義談起,詳細(xì)介紹了古籍?dāng)?shù)字化的加工流程,并從系統(tǒng)硬件配置入手,完整地設(shè)計(jì)并實(shí)現(xiàn)了一種通用古籍文獻(xiàn)數(shù)字化系統(tǒng)的構(gòu)建。
關(guān)鍵詞:古籍?dāng)?shù)字化;系統(tǒng)設(shè)計(jì)
1 古籍文獻(xiàn)數(shù)字化的概念與意義
古籍在各類文獻(xiàn)中獨(dú)具特色。以國家圖書館為例,其古籍文獻(xiàn)資源數(shù)量龐大,種類齊全,既包括甲骨、金石、簡(jiǎn)帛、輿圖、善本等珍貴特藏,也包括圖書、期刊、報(bào)紙、縮微文獻(xiàn)等傳統(tǒng)普通古籍文獻(xiàn)類型。無論線裝古籍,還是碑帖拓本、古地圖,所有古籍文獻(xiàn)資源都蘊(yùn)含著獨(dú)特的文獻(xiàn)價(jià)值、藝術(shù)價(jià)值,彰顯著古老文明的魅力。據(jù)文化部統(tǒng)計(jì),全國公共圖書館系統(tǒng)收藏古籍2717.5萬冊(cè)件,其中善本229.5萬冊(cè)件[1]。如此豐富的古籍資源,為古籍?dāng)?shù)字化建設(shè)提供了可供開采的豐富寶藏,成為數(shù)字圖書館資源建設(shè)不可缺少的重要內(nèi)容。
古籍?dāng)?shù)字化就是從利用和保護(hù)古籍的目的出發(fā),采用計(jì)算機(jī)技術(shù),將常見的語言文字或圖形符號(hào)轉(zhuǎn)化為能被計(jì)算機(jī)識(shí)別的數(shù)字符號(hào),從而制成古籍文獻(xiàn)書目數(shù)據(jù)庫和古籍全文數(shù)據(jù)庫,用以揭示古籍文獻(xiàn)信息資源的一項(xiàng)系統(tǒng)工作[2]。
古籍文獻(xiàn)數(shù)字化可以降低原件丟失和損失的風(fēng)險(xiǎn)。古老的文獻(xiàn)、照片都可以轉(zhuǎn)換成數(shù)字化文獻(xiàn),避免讀者直接使用原件,以減少或避免原件損失的機(jī)率,同時(shí)也可以擴(kuò)大原始文獻(xiàn)的利用范圍。古籍文獻(xiàn)數(shù)字化后,可以產(chǎn)生較原件可靠而功能性更強(qiáng)的數(shù)字資源,這將有利于開展古籍文獻(xiàn)研究,從而擴(kuò)大研究范圍。例如:對(duì)手稿字跡的鑒別,對(duì)圖畫、照片的放大瀏覽等等。古籍?dāng)?shù)字化是數(shù)字圖書館資源建設(shè)的重要組成部分,數(shù)字圖書館推廣工程將在全國范圍內(nèi)依托圖書館館藏優(yōu)勢(shì),建成內(nèi)容豐富、類型多樣的公共文化資源庫群。
2 古籍文獻(xiàn)數(shù)字化加工系統(tǒng)工作流程
古籍文獻(xiàn)數(shù)字化加工系統(tǒng)的工作流程一般可大致分為六個(gè)部分:文獻(xiàn)整理、圖像掃描、圖像處理與質(zhì)檢、文字識(shí)別與質(zhì)檢、數(shù)據(jù)標(biāo)引與質(zhì)檢、數(shù)據(jù)整理。其中,“文字識(shí)別與質(zhì)檢”根據(jù)加工需求為可選流程。圖1為古籍文獻(xiàn)數(shù)字化加工系統(tǒng)工作流程,各類古籍文獻(xiàn)依據(jù)類型的差異在數(shù)字化細(xì)節(jié)上會(huì)有所不同。
根據(jù)古籍文獻(xiàn)數(shù)字化加工系統(tǒng)工作流程圖可以得出,完成古籍文獻(xiàn)加工的單條流水線主要包含以下幾個(gè)環(huán)節(jié):
(1)文獻(xiàn)整理:待加工的文獻(xiàn)存放在專門的資料管理室,由相關(guān)人員統(tǒng)一上架登記,保護(hù)文獻(xiàn)安全;需借出做加工和歸還的文獻(xiàn)需要登記入冊(cè),統(tǒng)計(jì)書目信息和文獻(xiàn)數(shù)量;
(2)圖像掃描:按照加工要求對(duì)古籍文獻(xiàn)進(jìn)行掃描,對(duì)掃描圖像進(jìn)行命名、旋轉(zhuǎn)等;
(3)圖像處理:應(yīng)用專用圖像整理工具,自動(dòng)檢查整理圖像的DPI與圖像模式,主要包括批量進(jìn)行傾斜校對(duì),調(diào)整傾斜度、統(tǒng)一畫布尺寸、調(diào)整dpi、去除黑邊等操作、糾正文件名命名、建立圖像索引等,處理完成后導(dǎo)入數(shù)字化加工管理系統(tǒng)進(jìn)行數(shù)據(jù)自動(dòng)分發(fā)與流轉(zhuǎn),系統(tǒng)會(huì)在流水線上自動(dòng)派發(fā)任務(wù);
(4)OCR識(shí)別:應(yīng)用專業(yè)OCR識(shí)別軟件依照文獻(xiàn)數(shù)字化加工要求進(jìn)行全文或特定的文字識(shí)別;
(5)OCR數(shù)據(jù)質(zhì)檢:完成字體切分、校對(duì),從而做到一字一框,精確對(duì)位,同時(shí)進(jìn)行聚類校對(duì),將一批次中所有同一個(gè)字的字形聚集到一起,選出與標(biāo)準(zhǔn)字庫不一樣的那一個(gè)進(jìn)行標(biāo)紅,為下一步錯(cuò)字修改做準(zhǔn)備;完成錯(cuò)字修改,操作員通過管理客戶端可以實(shí)時(shí)讀取到上一步的校對(duì)結(jié)果,并進(jìn)行錯(cuò)誤修改,修改完的字體會(huì)有高級(jí)人員校對(duì);如遇操作員識(shí)別不了的字體,也可留給高級(jí)人員糾正。
(6)版式還原:包括原有版式編輯還原、XML排版、PDF排版、調(diào)整字體、字號(hào)、字間距、標(biāo)題格式等內(nèi)容;
(7)成品全檢:根據(jù)文獻(xiàn)數(shù)字化加工項(xiàng)目的特點(diǎn),應(yīng)用成品檢查工具,對(duì)每批完成數(shù)據(jù)進(jìn)行成品檢查。對(duì)出錯(cuò)的部分,按照誰做誰修改的原則,由管理系統(tǒng)返回給操作員進(jìn)行修改。
3 古籍文獻(xiàn)數(shù)字化加工系統(tǒng)設(shè)計(jì)
參照古籍文獻(xiàn)數(shù)字化系統(tǒng)工作的一般流程,可以將加工系統(tǒng)設(shè)計(jì)為包含軟硬件運(yùn)行平臺(tái)、數(shù)字化專用采集和輸出設(shè)備、數(shù)字化加工管理軟件等幾大部分。整個(gè)古籍文獻(xiàn)數(shù)字化加工系統(tǒng)硬件架構(gòu)中將包含服務(wù)器、存儲(chǔ)設(shè)備、加工工作站(終端PC機(jī))、各類型掃描儀及網(wǎng)絡(luò)集成等。
3.1 古籍文獻(xiàn)數(shù)字化加工系統(tǒng)拓?fù)浣Y(jié)構(gòu)圖
3.2 古籍文獻(xiàn)數(shù)字化加工系統(tǒng)軟件
古籍文獻(xiàn)數(shù)字化加工系統(tǒng)軟件可分為數(shù)字化加工管理系統(tǒng)軟件和文獻(xiàn)數(shù)字化生產(chǎn)系統(tǒng)軟件兩大部分。軟件系統(tǒng)部署在服務(wù)器端和工位的PC機(jī)端。目前市面上成品數(shù)字化管理及生產(chǎn)系統(tǒng)軟件很多也比較成熟,可以依據(jù)古籍文獻(xiàn)數(shù)字化的具體要求直接采購使用。
3.3 古籍文獻(xiàn)數(shù)字化加工系統(tǒng)服務(wù)器設(shè)計(jì)
古籍文獻(xiàn)數(shù)字化加工系統(tǒng)服務(wù)器可設(shè)計(jì)為數(shù)據(jù)庫及管理服務(wù)器2臺(tái),互做雙機(jī)熱備,部署數(shù)據(jù)庫、中間件、文獻(xiàn)數(shù)字化生產(chǎn)系統(tǒng)和數(shù)字化加工管理系統(tǒng)。其中一臺(tái)兼做數(shù)據(jù)封裝服務(wù)器和數(shù)據(jù)自動(dòng)處理服務(wù)器,另外一臺(tái)兼做元數(shù)據(jù)控制服務(wù)器和FTP服務(wù)器。由于有頻繁的數(shù)據(jù)處理,因此這2臺(tái)服務(wù)器建議為大內(nèi)存和多CPU。文獻(xiàn)數(shù)字化加工系統(tǒng)服務(wù)器2臺(tái),參考配置如下:
☆4路PC服務(wù)器,配4顆Intel8核CPU。
☆內(nèi)存至少為128GB,硬盤至少配2塊1TB SAS 高速盤,做RAID1
☆至少配2個(gè)千兆網(wǎng)口,1個(gè)萬兆光口
☆配DVD,冗余電源和風(fēng)扇。
3.4 古籍文獻(xiàn)數(shù)字化加工系統(tǒng)存儲(chǔ)設(shè)計(jì)
采用IP-SAN磁盤陣列作為加工系統(tǒng)存儲(chǔ)。目前各家IP-SAN廠商已研發(fā)出自己的卷共享軟件并能免費(fèi)提供,并且其iSCSI口已支持到萬兆(10G)。iSCSI技術(shù)是一種新儲(chǔ)存技術(shù),該技術(shù)是將現(xiàn)有SCSI接口與以太網(wǎng)絡(luò)(Ethernet)技術(shù)結(jié)合,使服務(wù)器通過網(wǎng)絡(luò)交換機(jī)可與IP-SAN儲(chǔ)存進(jìn)行數(shù)據(jù)交換。文獻(xiàn)數(shù)字化加工過程中,由于有多路的請(qǐng)求對(duì)存儲(chǔ)數(shù)據(jù)進(jìn)行大量頻繁的數(shù)據(jù)讀寫,存儲(chǔ)控制器的緩存大小對(duì)響應(yīng)性能尤為重要,因此要求存儲(chǔ)系統(tǒng)至少需要128G緩存,且具備一定的擴(kuò)展能力。存儲(chǔ)系統(tǒng)IP-SAN的具體要求如下:
☆雙控制器,緩存為128G,有至少一倍以上的擴(kuò)展能力;
☆提供至少8個(gè)iSCSC 10G接口;
☆一定容量的SAS高速硬盤用于數(shù)據(jù)庫區(qū)和數(shù)據(jù)頻繁交換區(qū);
☆一定容量的SAS 低速硬盤用于掃描和加工數(shù)據(jù)的保存;
☆免費(fèi)提供原廠的卷共享軟件和管理軟件。
3.5 古籍文獻(xiàn)數(shù)字化加工系統(tǒng)網(wǎng)絡(luò)設(shè)計(jì)
根據(jù)以上硬件系統(tǒng)設(shè)計(jì),加工系統(tǒng)網(wǎng)絡(luò)交換設(shè)備應(yīng)滿足2臺(tái)配有萬兆光口的服務(wù)器連接,8個(gè)iSCSI口IP-SAN連接,同時(shí)提供相應(yīng)數(shù)量的千兆網(wǎng)絡(luò)端口,能滿足古籍文獻(xiàn)加工區(qū)工位PC終端網(wǎng)絡(luò)接口的連接需求。
3.6 古籍文獻(xiàn)數(shù)字化加工系統(tǒng)PC終端設(shè)計(jì)
依據(jù)古籍文獻(xiàn)數(shù)字化年加工量要求,可相應(yīng)配置加工系統(tǒng)終端PC機(jī)數(shù)量,具體配置如下:
☆CPU:Intel I5,內(nèi)存8G,硬盤1TB
☆2個(gè)千兆網(wǎng)口,配DVDRW
☆19寸液晶顯示器、鍵盤、鼠標(biāo)
☆預(yù)裝Windows7 32bit操作系統(tǒng)軟件。
3.7 古籍文獻(xiàn)數(shù)字化加工系統(tǒng)掃描儀設(shè)計(jì)
古籍文獻(xiàn)數(shù)字化加工系統(tǒng)中服務(wù)器、存儲(chǔ)、終端PC和網(wǎng)絡(luò)集成這些硬件部分是通用的,主要的差異化來源于數(shù)字化加工的古籍文獻(xiàn)類型所帶來的區(qū)別。古籍文獻(xiàn)資源種類繁多,具有尺寸大小不一、載體材質(zhì)各不相同等諸多特點(diǎn),這就要求古籍?dāng)?shù)字化加工系統(tǒng)要依據(jù)古籍文獻(xiàn)的資源類型,采用不同的前端掃描輸入設(shè)備。
(1)2A0幅面彩色古籍仿真掃描儀(適合大幅面文物、藝術(shù)品、古籍、圖書、報(bào)紙、字畫、畫冊(cè)、地圖等稿件)
主要性能參數(shù)指標(biāo):
☆頂置式掃描頭,非接觸掃描,
☆承稿臺(tái)可掃描幅面:≥1800mm×1200mm ,承稿臺(tái)采用特殊耐磨的合成材料,采集過程不會(huì)損害古籍原稿,
☆光學(xué)分辨率調(diào)節(jié)范圍:≥300Dpi至1000Dpi,
☆全自動(dòng)設(shè)定:對(duì)焦、曝光時(shí)間、黑白平衡、幅面探測(cè)、自動(dòng)裁切頁面等
☆輸出: (彩色)≥42-bit,(灰度)≥12-bit,(黑白)≥1-bit
輸出圖像格式:TIFF、TIFF G4、TIFF Multipage、TIFF LZW、DNG、PNG、JPEG、JPEG2000、PDF等等
(2)A1幅面彩色掃描儀(適合文物、古籍、圖書、報(bào)紙、字畫、地圖等單頁或裝訂成冊(cè)稿件)
主要性能參數(shù)指標(biāo):
☆頂置式掃描頭,臺(tái)式非接觸掃描,自動(dòng)開啟式玻璃面板托書臺(tái)
☆最大原件尺寸:880×640 mm(超A1)
☆光學(xué)分辨率:600×600 dpi
☆掃描速度(彩色,A1):6.5秒/300dpi,12.3秒/600dpi
☆掃描模式:36 位彩色,12 位灰度,1 位黑白二值
☆原稿厚度:書本厚度最大為240mm,打開最大尺寸為1070 x675 mm
☆掃描方式:高解析度掃描鏡頭,8 線對(duì)/毫米,高精度掃描頭鏡頭,不失真,景深達(dá)50 毫米/2英寸
☆輸出圖像格式:TIFF 不壓縮,TIFF G4,JPEG,JP2,PDF,多頁TIFF,BNMP,PCS
(3)A2幅面彩色古籍仿真掃描儀(適合古籍、報(bào)紙、字畫、地圖等單頁或裝訂成冊(cè)稿件)
主要性能參數(shù)指標(biāo):
☆頂置式掃描頭,臺(tái)式非接觸掃描,帶完整的托書臺(tái),自動(dòng)開啟式玻璃壓稿臺(tái)
☆最大原件尺寸:635×460mm(超A2)
☆光學(xué)分辨率:600×600dpi
☆掃描速度(彩色,A2):3.5秒/300dpi,6.0秒/600dpi
☆掃描模式:36位彩色、12 位灰度,1 位黑白二值
☆原稿厚度:書本最大厚度為150毫米
☆掃描稿臺(tái):連機(jī)書稿臺(tái)(可選90 度開合電動(dòng)壓稿玻璃)
☆掃描方式:自動(dòng)對(duì)焦,景深達(dá)50 毫米
☆輸出圖像格式:TIFF ,TIFF G4,JPEG,JP2,PDF,多頁TIFF,BNMP,PCS
(4)A3幅面零邊距掃描儀(適合裝訂成冊(cè)的普通古籍掃描)
主要性能參數(shù)指標(biāo):
☆進(jìn)紙方式:平臺(tái)式,邊距:不超過2mm,影像感應(yīng)器:CCD 影響感應(yīng)器
☆光學(xué)解析度:600 dpi,灰階模式:8 位元,彩色模式:24 位元
☆最大紙張規(guī)格:11.8 x 17 英吋 (299 x 431 公厘)
☆掃描速度: B&W@200 dpi, A3 : 7 秒
(5)V型彩色古籍仿真掃描儀(適合高精度古籍、拓片、輿圖、卷軸、實(shí)物拍照)
主要性能參數(shù)指標(biāo):
☆頂置式掃描頭,臺(tái)式非接觸掃描,帶完整的托書臺(tái)
☆最大原件尺寸≥455×315mm(超A3)
☆光學(xué)分辨率≥600×600dpi
☆掃描模式: 36位彩色,12位灰度,1位黑白
☆原稿厚度:書本最大厚度≥150毫米,可承受重量≥20公斤
☆掃描稿臺(tái):V型臺(tái)可120°調(diào)整,V型玻璃臺(tái)由掃描程序自動(dòng)控制升降。
☆掃描方式:自動(dòng)對(duì)焦,景深≥50 毫米
☆全自動(dòng)設(shè)置:對(duì)焦,曝光時(shí)間,白平衡,格式檢測(cè)
☆圖像加強(qiáng):糾偏,閾值,消手指,曲率校正
☆輸出圖像格式:TIFF, TIFF G4, 多頁 TIFF, TIFF 12 Bits, JPEG, BMP, JPEG 2000, PDF,多頁 PDF
以上列舉了目前市場(chǎng)主流的各類幅面掃描輸入設(shè)備類型及主要性能參數(shù)指標(biāo),在古籍文獻(xiàn)數(shù)字化加工系統(tǒng)搭建時(shí)可以依據(jù)古籍文獻(xiàn)類型有針對(duì)性配置選用。
4 結(jié)語
本文從系統(tǒng)架構(gòu)的角度給出了古籍文獻(xiàn)數(shù)字化系統(tǒng)硬件設(shè)計(jì)實(shí)現(xiàn)的一個(gè)通用方案。古籍文獻(xiàn)數(shù)字化加工系統(tǒng)的生產(chǎn)流程是古籍文獻(xiàn)的掃描、存儲(chǔ)、OCR識(shí)別、標(biāo)識(shí)、質(zhì)檢、成品等工作。作為文獻(xiàn)數(shù)字化生產(chǎn)系統(tǒng),除了硬件設(shè)備本身要具有實(shí)用、易搭建、可擴(kuò)展、故障率低、維護(hù)方便等特點(diǎn)之外,畢竟文獻(xiàn)數(shù)字化還是一個(gè)有人參與的復(fù)雜過程,文獻(xiàn)數(shù)字化的掃描工作是快速機(jī)械化的,而成品古籍?dāng)?shù)字資源的生產(chǎn)是由人工加軟件完成,這兩者之間存在著加工能力的不同,而整個(gè)生產(chǎn)又在一個(gè)統(tǒng)一的管理系統(tǒng)中完成,因此這兩個(gè)環(huán)節(jié)之間相應(yīng)的硬件設(shè)備要做好匹配。當(dāng)然還包括應(yīng)用軟件與服務(wù)器性能的匹配,掃描及加工古籍?dāng)?shù)字資源容量與存儲(chǔ)容量的匹配,在統(tǒng)一管理下的加工系統(tǒng)生產(chǎn)與網(wǎng)絡(luò)環(huán)境的匹配,另外還包括了加工場(chǎng)地生產(chǎn)環(huán)境(溫度、濕度、新風(fēng))與生產(chǎn)設(shè)備的匹配等等,實(shí)際系統(tǒng)搭建的時(shí)候只有充分考慮到這些差異化的因素,做好各分系統(tǒng)之間的協(xié)調(diào)配置,才能保證古籍?dāng)?shù)字化加工系統(tǒng)工作全流程的順暢高效。
參考文獻(xiàn)
[1] 張志清 .國家圖書館古籍保護(hù)的歷史、現(xiàn)狀和任務(wù)[M]. 杭州: 浙江省古籍出版社,2008: 7.
[2] 毛建軍.古籍?dāng)?shù)字化的概念與內(nèi)涵[J].圖書館理論與實(shí)踐,2007,(4):82-83.
作者簡(jiǎn)介
陳英敏(1972-),男,國家圖書館數(shù)字資源部工程師,主要研究方向?yàn)槲墨I(xiàn)數(shù)字化加工。