費(fèi)佳
(中共南京市委黨校圖書(shū)館,江蘇南京 210046)
古籍在中華傳統(tǒng)文化傳承中發(fā)揮著重要的作用。國(guó)家對(duì)古籍保護(hù)高度重視,國(guó)務(wù)院辦公廳于2017年發(fā)布《關(guān)于進(jìn)一步加強(qiáng)古籍保護(hù)工作的意見(jiàn)》(國(guó)辦發(fā)〔2007〕6 號(hào)),提出在“十一五”期間全面開(kāi)展“中華古籍保護(hù)計(jì)劃”,并提出“制定古籍?dāng)?shù)字化標(biāo)準(zhǔn),規(guī)范古籍?dāng)?shù)字化工作,建立古籍?dāng)?shù)字資源庫(kù)”的要求。黨的十七屆六中全會(huì)提出要“加強(qiáng)文化典籍整理和出版工作,推進(jìn)文化典籍資源數(shù)字化”[1-2]。
民國(guó)文獻(xiàn)中大量文字記載了馬克思主義在中國(guó)的傳播歷程,記載了中國(guó)共產(chǎn)黨人的奮斗歷程和最終取得革命勝利的歷史,記載了中國(guó)近代社會(huì)的變遷,是中國(guó)共產(chǎn)黨帶領(lǐng)中國(guó)人民爭(zhēng)取民族獨(dú)立與解放的偉大見(jiàn)證,具有較高的歷史價(jià)值和學(xué)術(shù)價(jià)值。2012年,國(guó)家圖書(shū)館與國(guó)內(nèi)多家文獻(xiàn)收藏單位聯(lián)合推出“革命文獻(xiàn)與民國(guó)時(shí)期文獻(xiàn)保護(hù)計(jì)劃”,旨在加大民國(guó)文獻(xiàn)的保護(hù)力度。2016年,該計(jì)劃被列入《中華人民共和國(guó)國(guó)民經(jīng)濟(jì)和社會(huì)發(fā)展第十三個(gè)五年規(guī)劃綱要》。2017年,被列入《國(guó)家“十三五”時(shí)期文化發(fā)展改革規(guī)劃綱要》和《文化部“十三五”時(shí)期文化發(fā)展改革規(guī)劃》[3]。
在國(guó)家實(shí)施“中華古籍保護(hù)計(jì)劃”和“民國(guó)時(shí)期文獻(xiàn)保護(hù)計(jì)劃”兩大保護(hù)計(jì)劃的背景下,對(duì)古籍和民國(guó)文獻(xiàn)實(shí)施原生性保護(hù)和再生性保護(hù)是一項(xiàng)重大舉措,開(kāi)展雙重保護(hù)不僅有利于文獻(xiàn)原件的保存還有利于文獻(xiàn)內(nèi)容的傳播與利用[4]。
古籍保護(hù)的方式分為原生性保護(hù)和再生性保護(hù)兩種。原生性保護(hù)是指在維持原件完整性的前提下,對(duì)古籍實(shí)施修復(fù)、加固和優(yōu)化存放環(huán)境。再生性保護(hù)是指采用數(shù)字化等先進(jìn)技術(shù)將古籍內(nèi)容轉(zhuǎn)移至其他載體,實(shí)現(xiàn)對(duì)古籍文獻(xiàn)的二次呈現(xiàn)與傳播。
數(shù)字化是再生性保護(hù)的重要手段。古籍?dāng)?shù)字化是指利用現(xiàn)代信息技術(shù)實(shí)現(xiàn)對(duì)古籍的加工處理,將原始文件轉(zhuǎn)化成電子數(shù)據(jù)形式,并通過(guò)光盤(pán)、網(wǎng)絡(luò)等介質(zhì)進(jìn)行保存、傳播和利用[5]。
我國(guó)古籍?dāng)?shù)字化的發(fā)展經(jīng)歷了數(shù)據(jù)庫(kù)版、 光盤(pán)版、網(wǎng)絡(luò)版這3 個(gè)不同的階段。
第一階段,起源于20 世紀(jì)80年代,伴隨計(jì)算機(jī)技術(shù)的發(fā)展,借助計(jì)算機(jī)對(duì)古籍資料進(jìn)行目錄檢索,并編制索引,以改進(jìn)古籍的檢索方式。古籍?dāng)?shù)字化最初以書(shū)目數(shù)據(jù)庫(kù)的形式為主,它始于南京圖書(shū)館、浙江圖書(shū)館等省市級(jí)圖書(shū)館。古籍書(shū)目數(shù)據(jù)庫(kù)有設(shè)立書(shū)名目錄、著者目錄、分類(lèi)目錄等,可以通過(guò)輸入古籍名檢索該古籍的全部版本,也可以通過(guò)輸入著者名檢索館藏全部相關(guān)書(shū)目。此后,又產(chǎn)生了全文數(shù)據(jù)庫(kù),它將古籍全文錄入,轉(zhuǎn)化為電子文本,供用戶(hù)查閱,采用根據(jù)文獻(xiàn)內(nèi)容進(jìn)行檢索的查詢(xún)手段。隨著時(shí)代的進(jìn)步,在書(shū)目數(shù)據(jù)庫(kù)與全文數(shù)據(jù)庫(kù)發(fā)展的基礎(chǔ)上,又出現(xiàn)了綜合檢索系統(tǒng)。綜合檢索系統(tǒng)不僅實(shí)現(xiàn)了任意字、 詞和字符串的檢索,還實(shí)現(xiàn)了按條件檢索,拓寬檢索范圍,不僅能夠?qū)ξ谋竞蜁?shū)目檢索,也能對(duì)古籍的詞句、注釋、標(biāo)題等內(nèi)容進(jìn)行匹配檢索。
第二階段,起源于20 世紀(jì)90年代,出現(xiàn)了以光盤(pán)為載體,通過(guò)目錄進(jìn)行查詢(xún)、瀏覽原文的影像頁(yè)的古籍文獻(xiàn)或古籍?dāng)?shù)據(jù)庫(kù),所以又稱(chēng)為光盤(pán)版古籍。光盤(pán)版古籍包括圖像版、全文版和圖文版3 種形式。武漢大學(xué)出版社以文淵閣本《四庫(kù)全書(shū)》作為底本,對(duì)全書(shū)兩百余萬(wàn)頁(yè)內(nèi)容進(jìn)行掃描識(shí)別,轉(zhuǎn)化為電子文件,共打造出150 張“四庫(kù)全書(shū)光盤(pán)版”資料。
第三階段,進(jìn)入21 世紀(jì),數(shù)字化技術(shù)全面推廣,古籍?dāng)?shù)字化實(shí)現(xiàn)了全文檢索功能。將古籍的全文錄入到數(shù)據(jù)庫(kù)系統(tǒng),通過(guò)文本與檢索項(xiàng)匹配,實(shí)現(xiàn)直接到段落的精確查找。同時(shí)實(shí)行網(wǎng)絡(luò)化,以各地區(qū)的圖書(shū)館為節(jié)點(diǎn)、 網(wǎng)絡(luò)為紐帶建立網(wǎng)上的聯(lián)合數(shù)據(jù)庫(kù)。2016年,“全國(guó)古籍普查登記基本數(shù)據(jù)庫(kù)”“中華古籍資源庫(kù)” 這兩個(gè)數(shù)據(jù)庫(kù)作為古籍保護(hù)項(xiàng)目成果開(kāi)始投入使用,這意味著古籍影像和數(shù)據(jù)資源利用進(jìn)入互聯(lián)網(wǎng)服務(wù)時(shí)代。就目前來(lái)看,中華古籍資源庫(kù)在線(xiàn)發(fā)布的古籍影像資源主要涵蓋: 國(guó)家圖書(shū)館藏善本和普通古籍、法國(guó)國(guó)家圖書(shū)館藏敦煌遺書(shū)、天津圖書(shū)館藏普通古籍等,資源總量3.3 萬(wàn)余部。
近年來(lái),國(guó)家圖書(shū)館聯(lián)合全國(guó)多家古籍收藏單位在線(xiàn)發(fā)布古籍?dāng)?shù)字資源。目前已舉辦了四次聯(lián)合在線(xiàn)發(fā)布活動(dòng),共在線(xiàn)發(fā)布古籍資源2.4 萬(wàn)余部,供大眾閱覽和學(xué)術(shù)研究。
民國(guó)時(shí)期文獻(xiàn)是指1911年辛亥革命至1949年中華人民共和國(guó)成立這一特定歷史時(shí)期的各種文獻(xiàn)資料,包括圖書(shū)、期刊、報(bào)紙、手稿、檔案等。
民國(guó)時(shí)期文獻(xiàn)聯(lián)合目錄是“民國(guó)時(shí)期文獻(xiàn)保護(hù)計(jì)劃”工作的數(shù)據(jù)發(fā)布展示服務(wù)平臺(tái),于2012年開(kāi)發(fā)建設(shè)并投入使用。民國(guó)時(shí)期文獻(xiàn)聯(lián)合目錄匯集國(guó)家圖書(shū)館、首都圖書(shū)館、南京圖書(shū)館等22 家民國(guó)時(shí)期文獻(xiàn)普查成員館的民國(guó)時(shí)期圖書(shū)數(shù)據(jù)和館藏?cái)?shù)據(jù),同時(shí)提供由國(guó)家圖書(shū)館數(shù)字化的民國(guó)時(shí)期圖書(shū)文獻(xiàn)全文掃描頁(yè)的閱覽服務(wù),并提供該部分文獻(xiàn)的目次檢索。
為積極響應(yīng)中央關(guān)于加強(qiáng)中華優(yōu)秀傳統(tǒng)文化傳承的號(hào)召,加強(qiáng)對(duì)館藏珍貴文獻(xiàn)的揭示和利用,發(fā)揮珍貴文獻(xiàn)的文化價(jià)值和社會(huì)服務(wù)功能,南京市委黨校圖書(shū)館計(jì)劃對(duì)館藏珍貴文獻(xiàn)(包括館藏古籍和民國(guó)文獻(xiàn))開(kāi)展數(shù)字化工作。
2.1.1 處理原則
國(guó)際圖書(shū)館協(xié)會(huì)聯(lián)合會(huì)( International Federation of Library Associations and Institutions,IFLA) 于1994年發(fā)布了 《圖書(shū)館資料保護(hù)與處理原則》。IFLA 強(qiáng)調(diào)了格式轉(zhuǎn)換對(duì)館藏文獻(xiàn)儲(chǔ)存工作的重要意義,且提出,操作者在進(jìn)行轉(zhuǎn)換工作時(shí)務(wù)必謹(jǐn)慎小心,避免館藏文獻(xiàn)原件出現(xiàn)再次損害的情況。
《圖書(shū)館資料保護(hù)與處理原則》提醒操作者在格式轉(zhuǎn)換的前、中、后期都要注重文獻(xiàn)原件的保護(hù)。轉(zhuǎn)換前需要對(duì)原件的紙張、 裝幀、 破損等情況進(jìn)行評(píng)估,判斷其是否適合轉(zhuǎn)換操作;轉(zhuǎn)換過(guò)程中,在確保文件原件完整的前提下對(duì)部分原件實(shí)施臨時(shí)修補(bǔ),以提高格式轉(zhuǎn)換的質(zhì)量; 轉(zhuǎn)換成功后選取最佳的保存環(huán)境和方式,并對(duì)需要修復(fù)的部分實(shí)施正式修復(fù)。
國(guó)家古籍保護(hù)中心組織編制的《古籍?dāng)?shù)字化工作手冊(cè)》(試用本)對(duì)古籍?dāng)?shù)字化加工流程、古籍元數(shù)據(jù)著錄、圖像數(shù)字化、數(shù)據(jù)命名規(guī)范和數(shù)據(jù)發(fā)布利用等做了詳細(xì)規(guī)定。
2.1.2 數(shù)字化技術(shù)應(yīng)用
數(shù)字化技術(shù)融合了最新科技手段,常用技術(shù)包括:古籍?dāng)?shù)字化輸入技術(shù),該技術(shù)含拍照、非接觸式掃描和縮微膠片轉(zhuǎn)數(shù)字化技術(shù);OCR 光學(xué)字符識(shí)別技術(shù),該技術(shù)能夠借助OCR 軟件實(shí)現(xiàn)對(duì)古籍影像圖片的識(shí)別功能,提高文字轉(zhuǎn)化率;智能化處理技術(shù),該技術(shù)是數(shù)據(jù)庫(kù)分析功能的核心,對(duì)成功識(shí)別的古籍信息單元進(jìn)行重組,可提高古籍整理效率;現(xiàn)代化的網(wǎng)絡(luò)技術(shù),該技術(shù)能夠?yàn)楣偶當(dāng)?shù)字化資源跨平臺(tái)、跨系統(tǒng)與統(tǒng)一檢索提供技術(shù)支撐等。
南京市委黨校圖書(shū)館館藏古籍和民國(guó)文獻(xiàn)的數(shù)字化方案流程見(jiàn)圖1。
圖1 數(shù)字化方案流程
2.2.1 文獻(xiàn)整理
在數(shù)字化工作開(kāi)展前,依據(jù)《圖書(shū)館資料保護(hù)與處理原則》對(duì)館藏古籍和民國(guó)文獻(xiàn)的紙張、裝幀、破損、蟲(chóng)蛀等情況進(jìn)行評(píng)估,判斷哪些文獻(xiàn)需要進(jìn)行適當(dāng)?shù)呐R時(shí)加固、修補(bǔ),確保較薄、破損、字跡較淺等紙張情況較差的文獻(xiàn)掃描圖像清晰,提高格式轉(zhuǎn)換的質(zhì)量。
2.2.2 掃描錄入
掃描模塊用于獲取文獻(xiàn)對(duì)應(yīng)的電子圖像文檔。數(shù)字化過(guò)程中要求操作人員全程戴手套或使用指套,以避免汗?jié)n污染文獻(xiàn)。將館藏古籍和民國(guó)文獻(xiàn)使用免拆裝掃描裝置進(jìn)行掃描錄入,以減少對(duì)書(shū)頁(yè)的損傷[6]。
2.2.3 圖像處理
參照國(guó)家古籍保護(hù)中心編制的《古籍?dāng)?shù)字化工作手冊(cè)》(試用本) 對(duì)圖像采集處理的要求來(lái)進(jìn)行圖像處理,主要包括圖像的傾斜校正、去噪去污、剪裁、翻轉(zhuǎn)等,通過(guò)這些操作形成內(nèi)容完整、清晰干凈、版心正的圖像文檔。
2.2.4 文獻(xiàn)元數(shù)據(jù)和文件生成
對(duì)館藏古籍和民國(guó)文獻(xiàn)進(jìn)行元數(shù)據(jù)編目和圖像文件合成處理,將加工文件進(jìn)行字段標(biāo)引和分類(lèi)。
中國(guó)國(guó)家標(biāo)準(zhǔn)化管理委員會(huì)制定的《古籍著錄規(guī)則》(GB3792.7) 規(guī)定了古籍著錄項(xiàng)目及其排列順序、著錄用標(biāo)識(shí)符號(hào)、著錄用文字、著錄信息源、專(zhuān)門(mén)的術(shù)語(yǔ)和特殊的著錄方法。北京大學(xué)圖書(shū)館負(fù)責(zé)研制的《國(guó)家圖書(shū)館古籍元數(shù)據(jù)規(guī)范與著錄規(guī)則》根據(jù)國(guó)家圖書(shū)館古籍情況制定了元數(shù)據(jù)規(guī)范和著錄規(guī)則,并以著錄實(shí)例對(duì)規(guī)范與規(guī)則加以具體闡釋與說(shuō)明,以供參考借鑒。古籍著錄參照《古籍著錄規(guī)則》和《國(guó)家圖書(shū)館古籍元數(shù)據(jù)規(guī)范與著錄規(guī)則》進(jìn)行。古籍分類(lèi)按“經(jīng)、史、子、集”四部分類(lèi)法進(jìn)行?!敖?jīng)史子集”是古人將古籍按內(nèi)容區(qū)分的四大部類(lèi)。經(jīng):指經(jīng)書(shū),儒家經(jīng)典著作;史:指史書(shū),即正史;子:指先秦百家著作,宗教;集:指文集,即詩(shī)詞匯編[7-8]。
民國(guó)文獻(xiàn)目前沒(méi)有明確的著錄規(guī)則,參照中文圖書(shū)的《中國(guó)文獻(xiàn)編目規(guī)則》進(jìn)行著錄。民國(guó)文獻(xiàn)的分類(lèi)參照《中國(guó)圖書(shū)館圖書(shū)分類(lèi)法》進(jìn)行。
2.2.5 館藏古籍和民國(guó)文獻(xiàn)檢索數(shù)據(jù)庫(kù)
古籍和民國(guó)文獻(xiàn)數(shù)據(jù)庫(kù)以全文檢索為基礎(chǔ),利用OCR 光學(xué)字符識(shí)別技術(shù)滿(mǎn)足全文圖像瀏覽的需求,實(shí)現(xiàn)全文檢索的目標(biāo)。在系統(tǒng)中設(shè)置繁簡(jiǎn)字體的智能轉(zhuǎn)換功能,便于識(shí)別讀者輸入的簡(jiǎn)體文字,提高檢索系統(tǒng)的準(zhǔn)確率,同時(shí)實(shí)現(xiàn)檢索定位功能,對(duì)已檢索的結(jié)果進(jìn)行二次檢索[9]。
通過(guò)“書(shū)目檢索”菜單,用戶(hù)可以進(jìn)行“直接檢索”和通過(guò)“高級(jí)檢索”鏈接進(jìn)行組合檢索。用戶(hù)可選擇“題名”“著者”“出版年”等檢索項(xiàng),以輸入的檢索詞進(jìn)行檢索操作,也可選擇“中國(guó)圖書(shū)分類(lèi)”的分類(lèi)項(xiàng)作為單獨(dú)檢索或與“直接檢索”“高級(jí)檢索”一起參與檢索。
2.2.6 數(shù)字資源發(fā)布平臺(tái)
館藏古籍和民國(guó)文獻(xiàn)的數(shù)字資源提供在線(xiàn)共享服務(wù),用戶(hù)可以檢索和瀏覽所有數(shù)字資源。數(shù)字資源發(fā)布管理系統(tǒng)支持內(nèi)容發(fā)布的自動(dòng)化管理模塊,并提供全文檢索、導(dǎo)航檢索等多種檢索途徑。提供檢索界面、檢索語(yǔ)言、檢索結(jié)果和知識(shí)展示方式統(tǒng)一的一站式服務(wù)。
2.2.7 數(shù)據(jù)存儲(chǔ)與輸出
館藏古籍和民國(guó)文獻(xiàn)原始掃描圖像采用TIFF存儲(chǔ),在保證掃描圖像清晰可讀的情況下,盡可能降低壓縮率,以減小存儲(chǔ)空間。館藏古籍和民國(guó)文獻(xiàn)目錄數(shù)據(jù)庫(kù)中的文件,都對(duì)應(yīng)關(guān)聯(lián)圖像文件和PDF文件。
在中央實(shí)施“中華古籍保護(hù)計(jì)劃”和“民國(guó)時(shí)期文獻(xiàn)保護(hù)計(jì)劃”兩大保護(hù)計(jì)劃的背景下,對(duì)圖書(shū)館館藏古籍和民國(guó)文獻(xiàn)開(kāi)展數(shù)字化保護(hù)工作,能充分發(fā)揮文獻(xiàn)的價(jià)值,促進(jìn)中華優(yōu)秀傳統(tǒng)文化的傳承和發(fā)展。