馮紅娟 張文靜 梁蕙瑋
(國家圖書館,北京 100081)
中文古籍資源統(tǒng)一檢索系統(tǒng)初探?
馮紅娟 張文靜 梁蕙瑋
(國家圖書館,北京 100081)
通過對(duì)古籍書目數(shù)據(jù)庫和古籍全文數(shù)據(jù)庫的調(diào)查分析、比較研究,分析目前中文古籍?dāng)?shù)據(jù)庫的建設(shè)現(xiàn)狀及存在的問題,提出中文古籍統(tǒng)一檢索系統(tǒng)建設(shè)的設(shè)想,并對(duì)其未來進(jìn)行展望。
古籍?dāng)?shù)字化 統(tǒng)一檢索 共建共享
中文古籍是具有中國特色的文獻(xiàn)資源,對(duì)其進(jìn)行數(shù)字化是圖書館的重要工作之一。所謂古籍?dāng)?shù)字化,就是從古籍利用和保護(hù)的角度出發(fā),采用計(jì)算機(jī)、信息處理技術(shù),對(duì)古籍文獻(xiàn)進(jìn)行加工、處理,建設(shè)成古籍書目數(shù)據(jù)庫和古籍全文數(shù)據(jù)庫,以揭示古籍文獻(xiàn)信息資源的一項(xiàng)系統(tǒng)工作[1]。中文古籍?dāng)?shù)字化系統(tǒng)的建設(shè)既需要計(jì)算機(jī)、信息處理的技術(shù),也需要古籍整理研究的知識(shí)和技能,是一個(gè)綜合性、跨學(xué)科的課題。
中文古籍?dāng)?shù)字化系統(tǒng)的建設(shè)一方面方便公眾使用古籍,研究中國古代文史;另一方面也起到了保護(hù)古籍的作用。隨著計(jì)算機(jī)技術(shù)的發(fā)展,中文古籍?dāng)?shù)字化系統(tǒng)的建設(shè)已初具規(guī)模,涌現(xiàn)出了一大批優(yōu)秀的中文古籍?dāng)?shù)字化系統(tǒng)及數(shù)字化的古籍資源,主要分書目數(shù)據(jù)庫和全文數(shù)據(jù)庫兩種。其中,古籍書目數(shù)據(jù)庫通過對(duì)古籍進(jìn)行元數(shù)據(jù)編目,可以為用戶提供書目內(nèi)容的檢索查詢。古籍全文數(shù)據(jù)庫以古籍內(nèi)容為揭示對(duì)象,為用戶提供全文閱讀、全文檢索等服務(wù)。由于古籍資源建設(shè)過程中還缺少統(tǒng)一的規(guī)劃、標(biāo)準(zhǔn)及建設(shè)規(guī)范等原因,導(dǎo)致資源重復(fù)建設(shè)、數(shù)據(jù)建設(shè)與系統(tǒng)建設(shè)水平參差不齊,難以實(shí)現(xiàn)共建共享及統(tǒng)一檢索。
筆者對(duì)現(xiàn)有的古籍?dāng)?shù)字化資源及系統(tǒng)進(jìn)行調(diào)研,尤其側(cè)重于元數(shù)據(jù)及數(shù)據(jù)檢索系統(tǒng)部分,并選取其中較具代表性的建設(shè)案例進(jìn)行比較分析,進(jìn)而提出中文古籍資源統(tǒng)一檢索平臺(tái)的設(shè)想,探索中文古籍?dāng)?shù)字資源整合檢索之路。
2.1 古籍書目數(shù)據(jù)庫建設(shè)實(shí)例[2]
①中華古籍善本國際聯(lián)合書目系統(tǒng)[3]
“中華古籍善本國際聯(lián)合書目系統(tǒng)”項(xiàng)目中心設(shè)在國家圖書館,由其進(jìn)行管理和維護(hù),共有30余家圖書館參與建設(shè),包含了除美國國會(huì)圖書館以外的北美圖書館幾乎全部藏書以及中國圖書館的部分藏書,該系統(tǒng)收錄清乾隆六十年(1796年)以前在中國印刷或抄寫的中文古籍,數(shù)據(jù)量達(dá)到兩萬多條。
該系統(tǒng)根據(jù)《中文善本書類目表》,提供經(jīng)、史、子、集、叢部的分類瀏覽。支持簡體中文、繁體中文、漢語拼音檢索。著錄內(nèi)容包含著錄編號(hào)、題名、責(zé)任者、版本類型、版本信息、裝幀形式、載體形態(tài)、行款版式、存卷及補(bǔ)配情況、題跋鈐印、附注、四部分類、收藏單位和典藏號(hào)等14項(xiàng)。設(shè)置了題名、人名、機(jī)構(gòu)名稱、版本類型、出版地、版本年代、裝幀形式、鈐印文字、四部分類、典藏號(hào)、收藏單位11個(gè)檢索點(diǎn)。
②CALIS 古籍聯(lián)機(jī)目錄[4]
“CALIS古籍聯(lián)機(jī)目錄”項(xiàng)目中心設(shè)在北京大學(xué),由國內(nèi)藏有古籍的高校圖書館聯(lián)合建設(shè)。CALIS古籍聯(lián)機(jī)目錄系統(tǒng)由 Z39.50 古籍編目客戶端、Z39.50 服務(wù)器、古籍聯(lián)合目錄數(shù)據(jù)庫、管理客戶端及 OPAC 組成[5]。CALIS Z39.50 古籍編目客戶端是為古籍聯(lián)合編目制作的通用客戶端,分查詢、編目兩個(gè)模塊。
CALIS 古籍編目系統(tǒng)支持公共檢索、館際互借、文獻(xiàn)傳遞、資源導(dǎo)航、集團(tuán)采購等信息資源共享功能。提供古籍四庫分類類目的瀏覽服務(wù),可查詢CALIS聯(lián)合目錄中的古籍?dāng)?shù)據(jù),CALIS古籍聯(lián)合目錄采用CNMARC格式著錄文獻(xiàn),可繁、簡體統(tǒng)一檢索。對(duì)同品種、同版本的書,僅收錄一條記錄,以先提交的記錄為主,其他收錄的圖書館,只需在該記錄下添加館藏即可。
③上海圖書館-古籍書目查詢[6]
“上海圖書館古籍書目查詢系統(tǒng)”收錄上海圖書館收藏的中文古籍12萬余條,其中包含普通古籍約8萬條,叢編子目近3萬條,善本古籍約1萬條。古籍類型涵蓋了刻本、抄本、校本等多種類型。該平臺(tái)采用四庫分類法,標(biāo)準(zhǔn)繁體字著錄,著錄項(xiàng)包含文獻(xiàn)題名、責(zé)任者與責(zé)任方式、寫刻出版地、寫刻出版者、寫刻出版年、版本類型、叢書名、批校題跋、存佚、補(bǔ)配、附件責(zé)任者、館藏號(hào)等項(xiàng)。
④北京師范大學(xué)圖書館古籍目錄[7]
北京師范大學(xué)圖書館古籍書目數(shù)據(jù)庫共包含2.5萬余條數(shù)據(jù),支持繁體字對(duì)題名、編撰者的檢索,并具有二次檢索功能。檢索結(jié)果簡要顯示頁顯示字段包含題名、出版年及索書號(hào)。檢索結(jié)果詳細(xì)顯示頁顯示字段包含題名、出版年、索書號(hào),詳細(xì)顯示頁包含題名、責(zé)任者、出版項(xiàng)、版本類別、載體形態(tài)、裝訂形式、附注、索書號(hào)、收藏地址及服務(wù)形式等字段。
2.2 古籍書目數(shù)據(jù)庫對(duì)比研究
上述各系統(tǒng)平臺(tái)在收錄資源內(nèi)容、檢索方式、描述字段、分類、數(shù)據(jù)量等方面都存在差異,對(duì)其進(jìn)行比較分析見表1。
通過表1可以看出,各系統(tǒng)平臺(tái)包含的內(nèi)容多為某組織或某機(jī)構(gòu)的資源,收錄古籍資源各不相同,部分系統(tǒng)資源存在交叉;編目字段自成體系,還缺乏統(tǒng)一的元數(shù)據(jù)編目標(biāo)準(zhǔn);檢索功能和瀏覽功能的設(shè)置也存在差異;但分類方式較統(tǒng)一,多選用四庫分類法;各古籍?dāng)?shù)字化系統(tǒng)的數(shù)據(jù)量因內(nèi)容不同而存在著較大差異。
3.1 古籍全文數(shù)據(jù)庫建設(shè)實(shí)例
①《文淵閣四庫全書》原文及全文檢索版
《四庫全書》是清代乾隆年間官修的規(guī)模龐大的百科叢書。它匯集了從先秦到清代前期的歷代主要典籍,分為經(jīng)、史、子、集四部,共 44 類、70 屬?!段臏Y閣四庫全書》電子版是由香港迪志文化出版有限公司和上海人民出版社合作出版。
《文淵閣四庫全書》原文及全文檢索版在保持原書真跡的基礎(chǔ)上,提供檢索主頁、分類檢索及進(jìn)階檢索3種檢索方式。其中,檢索主頁檢索適用于快速檢索主題明確但材料分散的情況。分類檢索根據(jù)四庫分類法,將書目按經(jīng)、史、子、集四部進(jìn)行劃分。分類檢索適用于熟悉四庫分類法,對(duì)所查書目的部、類、屬歸屬非常明確的情況。進(jìn)階檢索,也稱高級(jí)檢索,包括全文、書名、著者檢索,還可利用布爾運(yùn)算,通過邏輯組配進(jìn)行檢索。
②《四部叢刊》原文及全文檢索版
《四部叢刊》是上個(gè)世紀(jì)由張?jiān)獫?jì)先生匯集多種中國古籍經(jīng)典纂輯而成。纂輯者專選宋、元、明代的舊刊(間及清本者,則必取其精刻)及精校名抄本,故該書具有較高版本價(jià)值,常被用作古籍整理的底本,分初編、續(xù)編、三編3部分,共收書504種。
《四部叢刊》原文及全文檢索版采用國際標(biāo)準(zhǔn)字符集ISO/ IEC 10646-1,保有紙本的全部內(nèi)容,并可實(shí)現(xiàn)書名、著者、全文檢索、分類檢索及組配檢索,具有簡繁體、異體漢字關(guān)聯(lián)的查詢功能。該系統(tǒng)還提供了拼音、部首及筆畫輸入等簡便的漢字輔助輸入法,適用于不熟悉鍵盤輸入法的用戶。
③《國學(xué)寶典》
《國學(xué)寶典》由北京國學(xué)時(shí)代文化傳播有限公司組織國內(nèi)文史專家,歷經(jīng)6年時(shí)間精心整理、??敝谱鞫?,是一套面向圖書館、科研機(jī)構(gòu)及文史研究人員的中華古籍全文資料檢索系統(tǒng)?!秶鴮W(xué)寶典》采用國際通用的 Unicode 漢字編碼,收錄先秦至民國兩千多年間的中文歷代典籍,并收錄了清代至當(dāng)代古籍研究的重要成果,共4000余種作品。分為經(jīng)、史、子、集、叢、通俗小說6部分。該庫將古代典籍與中國知網(wǎng)的期刊、報(bào)紙、論文、工具書等進(jìn)行知識(shí)資源的整合,具有CNKI知網(wǎng)節(jié)的功能。
④《中國基本古籍庫》
《中國基本古籍庫》是由北京大學(xué)劉俊文教授任總策劃、總編纂、總監(jiān)制,由北京愛如生數(shù)字化技術(shù)研究中心研發(fā)制作而成的綜合型古籍?dāng)?shù)據(jù)庫。《中國基本古籍庫》收錄先秦至民國年間的歷代典籍,包含哲學(xué)、史地、文藝、綜合4個(gè)子庫,共20大類、1萬種、17萬卷。
表1 古籍書目數(shù)據(jù)庫比較分析
《中國基本古籍庫》采用支持 Unicode編碼的 ABT 格式,提供4種檢索方式:分類檢索、條目檢索、全文檢索及高級(jí)檢索,支持二次檢索和模糊匹配功能。分類檢索是通過庫、類、目進(jìn)行定向檢索;條目檢索是通過書名、作者、版本等條件進(jìn)行檢索;全文檢索是通過輸入字詞或字符串進(jìn)行檢索;高級(jí)檢索是組合字詞進(jìn)行邏輯檢索或綜合選項(xiàng)進(jìn)行關(guān)聯(lián)檢索。
⑤《高校古文獻(xiàn)資源庫》
《高校古文獻(xiàn)資料庫》的建設(shè)于2004年6月正式啟動(dòng),由北京大學(xué)、南京大學(xué)、北京師范大學(xué)等24家高校圖書館共同建設(shè),是我國第一個(gè)高等院校校際合作建設(shè)的古文獻(xiàn)數(shù)據(jù)庫。該資料庫不僅包括書目記錄,有的還配有書影或圖像。其古文獻(xiàn)類型目前為各館所藏古籍和輿圖,今后還會(huì)增加金石拓片等類型,該庫元數(shù)據(jù)總量達(dá)到 60 余萬條[8]。
《學(xué)苑汲古—高校古文獻(xiàn)資源庫》發(fā)布服務(wù)平臺(tái),提供簡單檢索、高級(jí)檢索、瀏覽、索引等功能。其高級(jí)檢索功能提供責(zé)任者、出版年代、出版地、出版者、版本類別、裝幀方式等10余種單一檢索途徑并支持任意字段進(jìn)行組配檢索,及檢索結(jié)果的二次檢索。用戶通過瀏覽功能可按照古籍版本類別、出版年代、出版地進(jìn)行瀏覽,并提供題名和責(zé)任者的索引功能。
3.2 古籍全文數(shù)據(jù)庫對(duì)比研究
上述古籍全文數(shù)據(jù)庫在資源內(nèi)容、檢索方式上面都存在較大差異,對(duì)其進(jìn)行比較如表2所示。
通過表2可以看出,各庫資源已達(dá)一定規(guī)模,檢索方式靈活多樣,一般都具有簡單檢索和高級(jí)檢索功能,分類法大多采用四庫分類法。值得注意的是,《中國基本古籍庫》根據(jù)實(shí)際需要使用ASM分類法,高校古文獻(xiàn)資源庫主導(dǎo)機(jī)構(gòu)制定出了一套包括古籍、輿圖、拓片的完整的著錄標(biāo)準(zhǔn)規(guī)范,供參建館使用。
通過以上古籍?dāng)?shù)據(jù)庫的比較分析,可看出隨著計(jì)算機(jī)、信息處理技術(shù)的不斷發(fā)展,中文古籍?dāng)?shù)字化系統(tǒng)的建設(shè)發(fā)展迅速,有較多組織或機(jī)構(gòu)已建有古籍資源的書目檢索系統(tǒng)或全文檢索系統(tǒng),為用戶提供多種資源揭示服務(wù),這為實(shí)現(xiàn)中文古籍資源統(tǒng)一檢索奠定了基礎(chǔ),但也還存在以下問題亟待解決。
①古籍?dāng)?shù)字化成果碩果累累,但尚未形成完整的中文古籍普查報(bào)告。古籍加工機(jī)構(gòu)較分散,包含政府機(jī)構(gòu)、科研單位、典藏機(jī)構(gòu)及商業(yè)組織等各方面,且溝通交流機(jī)制不健全,是尚未完成古籍普查的主要原因。
②古籍系統(tǒng)建設(shè)缺乏統(tǒng)一標(biāo)準(zhǔn)和規(guī)劃,存在重復(fù)建設(shè)問題,資源共享性差。由于機(jī)構(gòu)間缺少溝通合作和統(tǒng)一規(guī)劃,其內(nèi)容選取標(biāo)準(zhǔn)通常只出于機(jī)構(gòu)自身需要,古籍內(nèi)容的重復(fù)選取與建設(shè)在所難免。統(tǒng)一標(biāo)準(zhǔn)的缺乏又會(huì)造成數(shù)據(jù)共享性和互通性差的問題,古籍?dāng)?shù)字化系統(tǒng)建設(shè)需要耗費(fèi)極大的人力物力,不同機(jī)構(gòu)古籍的重復(fù)建設(shè)和難以共享問題,將造成資源的極大浪費(fèi)。
③古籍資源尚未實(shí)現(xiàn)統(tǒng)一檢索,用戶查詢不便。由于各古籍?dāng)?shù)字化系統(tǒng)具有獨(dú)立性,且系統(tǒng)架構(gòu)不同,共建共享和互通性差,存在著“信息孤島”的問題,亟須實(shí)現(xiàn)統(tǒng)一檢索,以方便用戶的檢索使用,提升資源的利用率。
古籍?dāng)?shù)字化系統(tǒng)發(fā)展迅速,但發(fā)展過程中存在的瓶頸,主要是缺乏統(tǒng)一規(guī)劃標(biāo)準(zhǔn),未進(jìn)行統(tǒng)一的資源整合檢索所致。針對(duì)古籍?dāng)?shù)字化系統(tǒng)存在的問題,可采取以下對(duì)策:第一,通過建立統(tǒng)一的協(xié)調(diào)規(guī)劃機(jī)構(gòu),對(duì)古籍?dāng)?shù)字化整體工作進(jìn)行協(xié)調(diào),制定中長期規(guī)劃;第二,制定古籍?dāng)?shù)字化的相關(guān)規(guī)范標(biāo)準(zhǔn),提高資源的共享性和互通性;第三,對(duì)所有古籍資源通過多種途徑進(jìn)行整合發(fā)布,提供統(tǒng)一檢索。
表2 古籍全文數(shù)據(jù)庫比較分析
多樣化的中文古籍?dāng)?shù)字化系統(tǒng)為用戶提供了豐富的古籍資源,但由于各系統(tǒng)分別獨(dú)立,系統(tǒng)架構(gòu)、數(shù)據(jù)格式和檢索功能等存在異構(gòu)性,用戶查詢某一古籍時(shí),需要檢索多個(gè)古籍平臺(tái)才能得到較完善的查詢結(jié)果,所以亟需建設(shè)中文古籍資源統(tǒng)一檢索平臺(tái),提升讀者的檢索效率。
中文古籍資源統(tǒng)一檢索平臺(tái)可以通過建立古籍資源的元數(shù)據(jù)倉儲(chǔ)的模式來實(shí)現(xiàn),也就是基于元數(shù)據(jù)抽取的整合方式?;谠獢?shù)據(jù)倉儲(chǔ)的統(tǒng)一檢索平臺(tái)建設(shè),不會(huì)改變?cè)袛?shù)據(jù)庫的結(jié)構(gòu)和訪問方式,只需將每個(gè)數(shù)據(jù)庫的元數(shù)據(jù)進(jìn)行加工整合,可通過收集元數(shù)據(jù)、元數(shù)據(jù)字段映射、元數(shù)據(jù)清洗、轉(zhuǎn)換、整合等工作,實(shí)現(xiàn)古籍資源元數(shù)據(jù)倉儲(chǔ)的建設(shè),進(jìn)而實(shí)現(xiàn)中文古籍資源統(tǒng)一檢索功能。其具體建設(shè)工作可以從以下幾方面著手。
5.1 建立統(tǒng)一協(xié)調(diào)機(jī)構(gòu)
通過確定統(tǒng)一的中文古籍?dāng)?shù)字化協(xié)調(diào)管理機(jī)構(gòu),開展中文古籍?dāng)?shù)字化系統(tǒng)平臺(tái)的調(diào)研,做好普查摸底登記工作。確定古籍?dāng)?shù)字化系統(tǒng)的標(biāo)準(zhǔn)規(guī)范,為新建古籍?dāng)?shù)字化系統(tǒng)提供參考和借鑒。
5.2 制定中長期規(guī)劃
制定中文古籍資源統(tǒng)一檢索系統(tǒng)的中長期建設(shè)規(guī)劃,確立其共建共享體系及相應(yīng)合作制度。通過制定規(guī)劃,一方面可以避免古籍?dāng)?shù)字化系統(tǒng)的重復(fù)建設(shè),另一方面也使古籍?dāng)?shù)字化工作得以有序開展,起到保護(hù)古籍、傳承文明的作用。
5.3 建設(shè)中文古籍資源元數(shù)據(jù)倉儲(chǔ)
確定中文古籍元數(shù)據(jù)倉儲(chǔ)的建設(shè)規(guī)范,通過多種渠道盡可能多地收集各類中文古籍?dāng)?shù)字化系統(tǒng)的元數(shù)據(jù),建立元數(shù)據(jù)更新長效機(jī)制,并對(duì)收集到的元數(shù)據(jù)進(jìn)行字段映射、格式轉(zhuǎn)化等加工處理,導(dǎo)入元數(shù)據(jù)倉儲(chǔ)平臺(tái)。
5.4 建立中文古籍資源統(tǒng)一檢索系統(tǒng)
基于元數(shù)據(jù)倉儲(chǔ)系統(tǒng),建立中文古籍資源的一站式檢索系統(tǒng),為用戶查詢和利用中文古籍提供便利。統(tǒng)一檢索平臺(tái)根據(jù)古籍類別的不同,提供相應(yīng)類別的檢索字段和瀏覽方式,并提供多種檢索結(jié)果優(yōu)化服務(wù),使系統(tǒng)由資源檢索向知識(shí)檢索方向轉(zhuǎn)化。
在中文古籍資源統(tǒng)一檢索平臺(tái)建設(shè)過程中,應(yīng)通過對(duì)已建古籍?dāng)?shù)字化系統(tǒng)全面細(xì)致的調(diào)研,制定出資源整合的解決方案,運(yùn)用現(xiàn)代化技術(shù)手段將已建資源進(jìn)行加工轉(zhuǎn)化,納入統(tǒng)一的中文古籍?dāng)?shù)字化系統(tǒng)元數(shù)據(jù)倉儲(chǔ)中,進(jìn)而實(shí)現(xiàn)一站式的古籍?dāng)?shù)字化資源檢索發(fā)布服務(wù)。各古籍?dāng)?shù)字化平臺(tái)元數(shù)據(jù)的規(guī)范化加工,是實(shí)現(xiàn)共建共享和統(tǒng)一檢索的前提和基礎(chǔ),將有助于統(tǒng)一檢索平臺(tái)建設(shè)的順利開展。合作共建共享是其發(fā)展趨勢,通過合作共建,一方面減少了建設(shè)成本,另一方面也可以將更多的古籍資源進(jìn)行統(tǒng)一檢索發(fā)布,有利于提高查全率和檢索效率。
[1] 毛建軍.古籍?dāng)?shù)字化的概念和內(nèi)涵[J].圖書館理論與實(shí)踐,2007(4):82-84.
[2] 高娟,劉家真.中國大陸地區(qū)古籍?dāng)?shù)字化問題及對(duì)策[J].中國圖書館學(xué)報(bào),2013(7):110-119.
[3] 中華古籍善本聯(lián)合書目系統(tǒng)[EB/OL].[2014-05-29]. http://mylib.nlc.gov.cn/web/guest/zhonghuagujishanbenlia ?nheshumuxitong.
[4] CALIS 聯(lián)合目錄公共檢索系統(tǒng)-古籍四部類目瀏覽[EB/ OL].[2014-05-29].http://opac.calis.edu.cn/opac/classNum?ber.do?subact=enterpage&type=sklm.
[5] 吳永萍.CALIS 古籍編目與文獻(xiàn)資源共享[J].圖書館界,2009(1):79-81.
[6] 上海圖書館-古籍書目查詢[EB/OL].[2014-04-11].http:// search.library.sh.cn/guji/.
[7] 北京師 范 大學(xué) 圖 書館 古 籍目錄 [EB/OL].[2014-04-14]. http://digi2.lib.bnu.edu.cn:8080/digilib/search?channelid= 36687.
[8] 姚伯岳,沈蕓蕓.“高校古文獻(xiàn)資源庫”的擴(kuò)大建設(shè)及其意義[J].大學(xué)圖書館學(xué)報(bào),2012(3):54-58.
馮紅娟女,1983年生。碩士,館員。
張文靜女,1976年生。碩士,館員。
梁蕙瑋女,1974年生。碩士,副研究館員。
G255.1
2014-06-25;責(zé)編:張欣。)
*本文系國家社科基金重大項(xiàng)目“中國古籍?dāng)?shù)字化工程研究”(批準(zhǔn)號(hào):12@ZH016)成果之一。