肖君
(山西博物院古籍保護(hù)部,山西 太原 030024)
古籍是對中國古代書籍的總稱。其內(nèi)容主要為收錄、論述中國古代的傳統(tǒng)文化,并以中國古代傳統(tǒng)的著作方式撰寫,具有中國古代圖書傳統(tǒng)的裝幀形式。從廣義上講,1911年以前出版的所有書籍、典籍都可視為古籍。古籍還有孤本、珍本、善本的區(qū)分。其載體是非常豐富的,經(jīng)過數(shù)千年的演變,已經(jīng)由巖石、竹簡、錦帛等逐漸過渡到現(xiàn)在輕便且利于保存的紙張書籍。同時,古籍文獻(xiàn)的價值也是多樣的,其體現(xiàn)的文化內(nèi)涵是中國古代人民集體智慧的結(jié)晶;其版本、版式、印刷技藝也有很高的研究價值,對于深入了解歷史文化和語言文字都具有極其重要的意義。
然而,由于長久以來自然因素和人為因素的作用,流傳至今的諸多古籍文獻(xiàn)保存狀況不佳,不僅不利于使用,更不利于保護(hù)、整理與研究。因此,各大圖書館、博物館另辟蹊徑,提出了既能延長古籍使用壽命,又能發(fā)揮地域及館藏特色的再生性保護(hù)。
山西博物院前身為山西教育圖書博物館,成立于1919年,主要負(fù)責(zé)征集和保管博物館各類的藏品,其中就包括古籍圖書,數(shù)量頗為可觀。但是,戰(zhàn)亂原因?qū)е逻@批古籍散佚非常嚴(yán)重。直至五十年代,圖書館與博物館“分家”,很多珍貴的善本才輾轉(zhuǎn)留在了博物館中。另外,又通過收購、接受捐贈等方式,陸陸續(xù)續(xù)征集到7萬余冊的古籍文獻(xiàn)。這就造就了今天的山西博物院不僅具有悠久的歷史文化,還擁有豐富的館藏資源。2008年山西博物院被評為第一批國家古籍重點保護(hù)單位,2009年被評為山西省第一批古籍重點保護(hù)單位。
現(xiàn)在的山西博物院擁有10萬余冊的古籍文獻(xiàn)資料。善本600余種、5000余冊,涵蓋了刻、寫、稿、抄、印等多個版本,不乏珍本、善本。普通古籍的數(shù)量,也占館藏的90%以上,以包背裝和線裝為主??梢哉f,山西博物院藏古籍?dāng)?shù)量之多、珍本之豐,在全國也是翹楚。
不難看出,這批古籍不管在內(nèi)容、版本,還是藝術(shù)形式上都具有很高的價值。但是,從保存現(xiàn)狀來看,經(jīng)過這么多年的輾轉(zhuǎn)收藏,在不同程度上,院藏古籍都出現(xiàn)了書頁變色嚴(yán)重、污斑、書衣破損等現(xiàn)象,有些古籍甚至還有相當(dāng)嚴(yán)重的脆化情況。由于紙張易碎易折,工作人員在翻看古籍和拍攝書影的過程中,雖然小心翼翼,還是不可避免地造成了書口缺損、書頁開裂及裝幀線斷裂等狀況?;谶@些情況的出現(xiàn),從保護(hù)的角度出發(fā),山西博物院對部分古籍進(jìn)行了日常的保養(yǎng)與修復(fù),并在制度層面,采取“雙人雙鎖”入庫制度,非必要不得進(jìn)入,對古籍庫房進(jìn)行了嚴(yán)格管理。此舉措有效地保護(hù)了古籍圖書,但也為研究、利用設(shè)置了障礙。古籍保護(hù)和利用之間的矛盾日益凸顯。因此,為了真正讓沉睡的古籍“熠熠生輝”,山西博物院經(jīng)過多次的討論與利弊分析,最終決定將古籍再生性保護(hù)作為古籍保護(hù)的重要舉措列入博物館發(fā)展的長期規(guī)劃中。
在此,筆者首先提到古籍保護(hù)的兩個有效途徑。一是原生性保護(hù),博物館正在踐行的,即對古籍進(jìn)行修復(fù)、加固和對古籍庫房環(huán)境的必要改善。二是再生性保護(hù),也是博物館最需要付諸行動的,通過現(xiàn)代技術(shù)、數(shù)字化手段將古籍內(nèi)容復(fù)制或轉(zhuǎn)移到其他載體上,避免古籍利用的二次損壞。其次,筆者提出再生性保護(hù)最為重要的手段:古籍的數(shù)字化。所謂古籍?dāng)?shù)字化,就是利用三維激光掃描儀和圖像識別技術(shù),精準(zhǔn)地將古籍文字內(nèi)容轉(zhuǎn)化成為電子文本。它不僅降低了人工錄入出錯的概率,還能夠通過互聯(lián)網(wǎng)與世界共享,達(dá)到館藏文獻(xiàn)資源惠及他人的目的。這是古籍與現(xiàn)代技術(shù)的完美結(jié)合,既能解決保護(hù)與利用之間的矛盾,又能為將來館際間古籍?dāng)?shù)字資源的共享打下基礎(chǔ),讓博物館工作人員把更多的時間和精力投入古籍整理、保護(hù)與研究的更高層面。因此,古籍?dāng)?shù)字化勢在必行。
于是,山西博物院借鑒了很多有關(guān)單位,諸如國家圖書館、上海博物館等大型先進(jìn)圖書館、博物館的成功經(jīng)驗,綜合考慮本院特色古籍的管理方式,與北京漢王科技有限公司合作,開展了數(shù)期數(shù)字化保護(hù)項目。并制定了古籍加工過程中相關(guān)的操作制度,規(guī)范了在古籍領(lǐng)取、古籍整理、古籍掃描、掃描質(zhì)檢、圖像處理、OCR識別校對、成品驗收、數(shù)據(jù)備份等方面的工作流程,在整個工作環(huán)節(jié)中保證古籍及其信息的安全性,確保了每期數(shù)字化的順利完成。現(xiàn)將具體工作經(jīng)驗分享給大家,以求共勉。
古籍出庫:在數(shù)字化工作開展期間,為確保古籍文獻(xiàn)的安全,山西博物院仍然保留了“雙人雙鎖”的入庫制度及現(xiàn)場人員輪班制度,專人負(fù)責(zé)古籍拿取、監(jiān)督、緊急情況處理及確認(rèn)歸還等工作。古籍掃描前,按古籍出庫流程進(jìn)行登記,記錄古籍序列號、冊數(shù)、頁數(shù)、紙張大小以及完殘程度等原始狀況,經(jīng)兩位古籍保管員和掃描提書人員雙方簽字確認(rèn)后,形成規(guī)范的登記目錄。根據(jù)數(shù)字化工作進(jìn)度,領(lǐng)取頻次為每天領(lǐng)取。一天工作結(jié)束后,古籍全部核對清點無誤后,方可入庫。
為確保數(shù)字化質(zhì)量,在掃描之前,對古籍的物理形態(tài)、古籍的質(zhì)量、古籍的可讀性進(jìn)行檢查,無問題的進(jìn)入下一道環(huán)節(jié),有問題的記錄問題作報告。對古籍進(jìn)行逐頁清點,包括古籍的封皮、封底、正文頁、浮貼、夾條的頁數(shù)都要一一記錄。檢查及統(tǒng)計古籍內(nèi)容的完整性,詳細(xì)檢查有無缺頁、漏頁破損、殘缺等情況,是否需要添加襯紙,同時整理及檢查古籍內(nèi)容的頁數(shù)、順序,對照目錄逐條記錄;要對紙面進(jìn)行平整處理,消除折角、皺褶及遮字等現(xiàn)象,確保古籍文獻(xiàn)的掃描質(zhì)量。山西博物院要求漢王科技工作人員在古籍整理中必須佩戴手套,整理過程中輕拿輕放輕翻,以古籍安全為第一位。
古籍掃描選用非接觸式快速掃描儀設(shè)備(圖1)。根據(jù)實際情況會先對古籍頁面進(jìn)行平整、除塵等處理,以保證掃描效果。并確認(rèn)掃描參數(shù)是否正確。確認(rèn)完畢后,方可正式掃描。古籍掃描時需要給原書卷端添加色卡和標(biāo)尺,并且每冊古籍最后要單獨對色卡進(jìn)行掃描。古籍資料掃描采取逐拍掃描方式,依照掃描規(guī)格進(jìn)行數(shù)字加工,按照命名規(guī)則命名圖像文件。掃描工作完成后,會再次整理及清點古籍資料,并上傳加工端進(jìn)行掃描質(zhì)檢。掃描完成的古籍及時清點歸庫。圖像采用原始TIFF圖像,分辨率600dpi以上。山西博物院要求掃描不得有漏掃、多掃、頁碼順序顛倒等情況發(fā)生,保證圖像內(nèi)容完整。掃描頁面清晰、無扭曲、變形等現(xiàn)象發(fā)生,無臟點、臟斑,黑點、黑線、黑框、黑邊等污漬出現(xiàn)。最終形成雙層PDF文件。
圖1 古籍掃描
為保證古籍資料無缺、漏、殘現(xiàn)象發(fā)生,山西博物院要求必須逐冊逐頁對古籍資料進(jìn)行全檢。掃描質(zhì)檢過程中戴棉質(zhì)手套,特別注意輕拿輕放,不能對古籍資料造成任何人為損壞。詳細(xì)質(zhì)檢項如下:古籍掃描有無缺頁、倒頁、漏號、重號、錯號等不規(guī)范現(xiàn)象;檢查圖像分辨率,命名是否符合標(biāo)準(zhǔn);有無存在傾斜、壓字、折角、異物、透字和露字等情況,掃描明暗度、對比度是否最佳,是否與原件效果吻合。不符合要求的要打回掃描工序進(jìn)行返工處理。質(zhì)檢結(jié)束后,會將襯紙撤出。撤出襯紙時務(wù)必小心操作,不得損壞古籍。質(zhì)檢結(jié)束后,將質(zhì)檢完成的圖像,上傳至服務(wù)器質(zhì)檢文件夾內(nèi)。
根據(jù)山西博物院的要求,掃描后的圖像文件需經(jīng)過頁面糾偏、去影像黑邊、影像拼接等圖像處理程序。圖像處理后進(jìn)行自我檢查,先與掃描記錄單核對頁數(shù)是否完整。使用影像進(jìn)行圖像質(zhì)檢逐冊逐拍檢查圖像文件,詳細(xì)質(zhì)檢項如下:檢查圖像完整性、偏斜度、清晰度、失真度、圖像畸變等;檢查古籍漏掃、多掃等情況;檢查圖像文件的排列順序與古籍原件是否一致或是否符合文種要求的掃描順序;檢查圖像文件命名是否符合規(guī)范要求;檢查圖像文件與實際目錄是否相符。對于圖像文件質(zhì)檢不合格部分進(jìn)行返工、修改。最終處理后的圖像分頁按實際頁展現(xiàn),無顏色失真,滿足圖像利用效果(圖2)。
圖2 圖像處理前后對比
對獲取的古籍圖像,根據(jù)版面布局、內(nèi)容會先進(jìn)行分析理解,然后采用OCR技術(shù)對文字進(jìn)行數(shù)碼識別轉(zhuǎn)換,識別繁體印刷體、刻版圖像、規(guī)范手寫圖書等內(nèi)容。全文識別采用的“機(jī)器+人工”方式,能夠OCR識別的進(jìn)行OCR識別,OCR識別質(zhì)量不好的,進(jìn)行人工校對,這種“機(jī)器+人工”的方式可以發(fā)揮機(jī)器和人的最大優(yōu)勢,大大提高了文字的準(zhǔn)確率。最后還會由山西博物院方專業(yè)人員進(jìn)行審核,再次確保識別校對的準(zhǔn)確性。
完成所有既定古籍的數(shù)字化加工后,山西博物院對所有古籍原件、數(shù)字化加工后的圖像數(shù)據(jù)進(jìn)行了質(zhì)量抽檢。遵循古籍原件100%不丟失,數(shù)據(jù)要求圖像清晰、亮度適中、無黑邊、圖像不偏斜的原則,對抽檢的每一本古籍進(jìn)行了嚴(yán)格的核查。確保每一頁圖像資源的技術(shù)參數(shù)(包括色彩、分辨率、格式)100%達(dá)標(biāo);古籍原件除確認(rèn)無法掃描的外,100%不漏掃;需要進(jìn)行重掃、補掃,完成率為100%;圖像質(zhì)量參照圖像處理要求,完好率≥99%;圖像數(shù)據(jù)文件夾排序、命名正確率100%。
經(jīng)驗收合格的完整數(shù)據(jù)信息,山西博物院與漢王科技工作人員交接后,進(jìn)行了及時備份。備份數(shù)據(jù)主要包括能否打開、數(shù)據(jù)信息是否完整、文件數(shù)量是否準(zhǔn)確等。山西博物院對備份好的數(shù)據(jù)都做了標(biāo)記,便于以后的查找與管理,還就具體出現(xiàn)的其他問題通過協(xié)商的方式得到了及時的解決。經(jīng)過院方驗收合格的掃描TIFF圖像和處理質(zhì)檢的JPG圖像,以及雙層數(shù)據(jù)圖像由漢王科技備份至服務(wù)器和存儲介質(zhì)。PDF文件通過掃描錄入后,經(jīng)過去污、糾偏、OCR識別,輔以人工校對,最終生成上層是原始圖像,下層是識別結(jié)果,可以檢索的雙層PDF文件。這樣形成的圖像既可以100%保留原始版面效果,又便于建立數(shù)字資源庫,進(jìn)行科學(xué)的管理。
博物館是一個集征集、典藏、陳列和研究于一體的綜合性非營利機(jī)構(gòu)。古籍文獻(xiàn)作為博物館藏品的重要組成部分,是非常珍貴的學(xué)術(shù)寶庫。所以,古籍?dāng)?shù)字資源庫的建立對山西博物院再生性保護(hù)具有十分重要的意義。根據(jù)山西博物院的要求,漢王科技通過數(shù)字化加工的方式將院藏古籍文獻(xiàn)內(nèi)容轉(zhuǎn)換為圖像數(shù)據(jù)和全文精加工數(shù)據(jù),搭建起了古籍圖像數(shù)據(jù)庫和全文識別數(shù)據(jù)庫等數(shù)字資源庫平臺。
該平臺集內(nèi)容檢索、書影瀏覽、輔助研究等功能于一身,預(yù)計會先向院內(nèi)職工提供在線閱覽、檢索查詢及部分資源共享的服務(wù),使館藏古籍得以展示和利用。后期會陸續(xù)對古籍資源庫進(jìn)行升級和改造,以達(dá)到與其他博物館相適配的目的。未來將逐步實現(xiàn)院古籍?dāng)?shù)字資源平臺對外適合管理、方便閱覽、易于檢索和輔助利用等功能,為最終實現(xiàn)資源共享做好充分準(zhǔn)備。
在《山西博物院古籍善本書目》序言中,李致忠先生提出:“對待古籍藏品,凡屬善本,皆以文物相待,是博物院(館)共同的看法和做法。而一旦成為文物,就要跟其他文物一樣,深栢地宮,輕易不能為人所用。從保護(hù)的角度講,無可厚非;從研究的角度講,無論院(館)內(nèi)外,都可能要受到不同程度的制約,這大概是包括博物院(館)人在內(nèi)的普遍感受?!崩钕壬彩窍MT如我們這樣收藏有典籍文獻(xiàn)的博物館,悉心整理,揭示館藏,真正讓古籍上的文字“活起來”。因此,筆者認(rèn)為利用掃描、拍照等再生性保護(hù)技術(shù)手段將紙質(zhì)的古籍文獻(xiàn),轉(zhuǎn)化為計算機(jī)識別的電子數(shù)據(jù),建立起龐大的信息資源數(shù)據(jù)庫,形成資源共享,增進(jìn)各個圖書館、博物館之間的交流與合作,最終幫助到更多有需要的人。這才是真正的“活起來”。
目前結(jié)束的兩期數(shù)字化保護(hù)項目,山西博物院共完成3000余冊古籍的逐頁掃描,500冊全文精加工。筆者認(rèn)為這是山西博物院古籍再生性保護(hù)的重要成果,也為今后古籍文獻(xiàn)整理的延伸、發(fā)展與創(chuàng)新奠定了基礎(chǔ);而數(shù)據(jù)庫平臺的建立,將為實現(xiàn)數(shù)字資源的共享起到強有力的推動作用,最終能夠惠及更多熱愛中國古代典籍與文化的人。