吳茗
(國家圖書館,北京 100081)
?
G IS技術(shù)在古籍數(shù)字化資源建設中的應用
吳茗
(國家圖書館,北京 100081)
[摘要]GIS技術(shù)有著強大的空間定義能力和空間關(guān)系查詢能力,將其應用于古籍數(shù)字化資源組織中,可以實現(xiàn)深度開發(fā)古籍資源,為用戶提供一種全新的、立體的資源展示方式。評述了GIS技術(shù)的理念和屬性特點,通過對GIS技術(shù)在國內(nèi)古籍數(shù)字化建設的應用實例分析,總結(jié)了在古籍數(shù)字化建設過程中引入GIS的技術(shù)實現(xiàn)路徑,并提出了進一步開展GIS應用的建議。
[關(guān)鍵詞]GISGIS檢索古籍數(shù)字化統(tǒng)一時空框架
中文古籍數(shù)字化歷經(jīng)30余年的發(fā)展,在數(shù)據(jù)量方面取得了長足的進步。權(quán)威統(tǒng)計表明,2012年我國公藏機構(gòu)已經(jīng)擁有超過20億字的數(shù)字化文本格式的古籍,一些已成規(guī)模的大型古籍數(shù)據(jù)庫還在原有基礎上不斷拓展和完善[1]。然而隨著OCR光學識別技術(shù)、字處理技術(shù)、智能化處理技術(shù)和網(wǎng)絡技術(shù)的發(fā)展,數(shù)字化工作已從古籍文獻信息的簡單組織、檢索與利用的淺層次開發(fā),深入到海量文獻資源的深度分析和挖掘深層次的開發(fā)。隨著開發(fā)層次的不斷加深、古籍數(shù)字化標準和體系結(jié)構(gòu)的確立,為古籍中引入GIS技術(shù)構(gòu)筑了非同尋常的新平臺。
GIS技術(shù)有著強大的空間實體定義能力和空間關(guān)系查詢能力,在組織與管理地理空間數(shù)據(jù)方面起著至關(guān)重要的作用。古籍數(shù)字化建設可以基于GIS的理念,把古籍中的各種信息與反映地理位置的空間信息結(jié)合在一起,得到時間和空間兩方面的直觀檢索集,為用戶提供一個更為有效和可視化的信息檢索與資源服務環(huán)境。
2.1什么是GIS
地理信息系統(tǒng)(Geographic Information System,GIS)是20世紀60年代逐漸發(fā)展起來的一門新興學科,是一種集空間信息和其他數(shù)據(jù)信息為一體的計算機系統(tǒng),其對空間信息進行采集、存儲、管理、組織、查詢和顯示并采用地理模型分析方法,適時提供多種空間和動態(tài)的地理信息,為研究和決策服務而建立起來的計算機系統(tǒng)[2]。地理信息系統(tǒng)使用和處理的數(shù)據(jù)分為兩類:第一類是反映事物的地理空間位置、幾何特征和拓撲關(guān)系等,稱之為空間信息數(shù)據(jù);第二類是反映事物其他特征的信息,即屬性信息數(shù)據(jù)。將反映事物的空間信息數(shù)據(jù)與屬性數(shù)據(jù)結(jié)合在一起,用來存儲、組織、查詢和顯示空間實體及其相關(guān)信息,突破了傳統(tǒng)的文字表述模式,圖文并茂、多方面、多層次地展示在用戶面前。
基于GIS的古籍資源最大的改變在于可以幫助人們實現(xiàn)對海量復雜數(shù)據(jù)的有效管理,并輔助進行分析、解釋和數(shù)據(jù)挖掘。古籍文獻信息資源不再是靜態(tài)的、單一的,不再處于等待被使用的境地,它擁有了時間和空間的序列,這從某種意義上來說會改變古代文學史研究的視角、維度和書寫方式[3]。
2.2引入GIS技術(shù)的優(yōu)勢
在數(shù)據(jù)層面,古籍信息文本型數(shù)據(jù)具有模糊性、不確定性和非線性等特征,不能給用戶帶來直觀的用戶體驗;將地理空間數(shù)據(jù)與文獻信息資源相關(guān)聯(lián),就可以為讀者提供一個更為有效和可視化的信息檢索與資源服務環(huán)境。
在檢索層面,古籍資源一般通過題名、責任者、出版年代等文本特征加以索引,提供給用戶查找和使用??蓪⒌貓D數(shù)據(jù)信息與古籍文本相結(jié)合,構(gòu)建基于GIS技術(shù)的數(shù)據(jù)庫,在數(shù)字化地圖上直觀地表現(xiàn)古籍內(nèi)容及其地理分布,并提供地理檢索和分析功能,結(jié)合文本式檢索,幫助用戶深入閱讀和利用古代文獻。與傳統(tǒng)的文本式檢索相比,GIS檢索具有以下優(yōu)勢。
2.2.1彌補文本式檢索不能準確檢索地名的不足
由于歷史的演變,經(jīng)常出現(xiàn)一地多名、行政區(qū)劃改變、國土疆域改變等情況,這些都無法用文本式檢索準確定位,同時,窮舉其歷史地名也要頗費周折。而使用GIS檢索,則不需知道它叫什么名字,只需對所檢索的地點進行框選,利用此處空間的檢索值,檢索到所需的屬性和信息,檢索方式方便、直觀。
2.2.2減少因檢索詞的不準確匹配產(chǎn)生的誤檢
傳統(tǒng)的關(guān)鍵詞檢索主要還是詞形匹配而非詞義匹配,在漢字關(guān)聯(lián)技術(shù)上存在技術(shù)疏誤,在檢索詞中一般也未使用分詞技術(shù),使用文本式檢索時,雖然能夠在海量信息集合中快速定位信息,但容易引起大量不準確匹配,產(chǎn)生誤檢,而使用GIS檢索就可以避免這樣的錯誤。
2.2.3可以實現(xiàn)輻射式檢索
可以以一個點或者一條線為基礎,設置檢索范圍,對周邊區(qū)域進行輻射性的檢索,而文本式檢索只能實現(xiàn)定點的檢索,因此GIS檢索相比文本式檢索擴大了檢索的方式。
將GIS檢索與文本式檢索結(jié)合,不僅可以獲取時間、空間的直觀檢索集,還能實現(xiàn)數(shù)據(jù)統(tǒng)計、地圖生成等功能,有利于用戶更好地理解海量數(shù)據(jù)。
2.3古籍數(shù)字化建設中的應用實例
目前國外及我國港臺地區(qū)圖書館的GIS服務已趨向成熟,朝著更專業(yè)的方向發(fā)展,并有較多的成功案例,例如中國臺灣“中央研究院”開發(fā)的中國歷史文化地圖系統(tǒng),其針對歷代地圖資源進行數(shù)字化和可視化,以中國為空間范圍,并以原始社會到現(xiàn)代社會的整個中國歷史為時間縱深,以中國文明為內(nèi)涵的整合性咨詢應用環(huán)境[4]。借助于該系統(tǒng),用戶可以古代地圖為入口,了解到當時的地名設置、區(qū)域大小、重要道路以及其他重要文化信息。
國內(nèi)數(shù)字資源領(lǐng)域應用GIS技術(shù)雖然剛剛起步,還不夠成熟,但也產(chǎn)生了一些具有代表性意義的項目,包括北京大學數(shù)字圖書館古文獻資源庫的時空檢索和復旦大學的中國歷史地理信息系統(tǒng)項目(CHGIS)等。
2.3.1北京大學數(shù)字圖書館古文獻資源庫的時空檢索
該系統(tǒng)結(jié)合GIS檢索技術(shù),從時間和空間的角度對古文獻資源數(shù)據(jù)進行檢索,使歷史文化資源的時空特性得以充分展示。目前,該“時空檢索”僅在金石拓片這種資源類型上予以應用,用戶可以通過GIS檢索古籍拓片,形象直觀,其彌補了傳統(tǒng)檢索的不足,突破了傳統(tǒng)的文字檢索模式。
“時空檢索”具有兩種功能[5]:①可以在不同朝代的歷史地圖上按照用戶劃出的區(qū)域進行檢索;②可以在地圖上反映用戶檢索的結(jié)果集,定位出拓片所反映的原器物的出土或刻立地點,可以直觀分析數(shù)據(jù)分布,補充檢索式檢索的不足。
在“時空檢索”界面上顯示的地圖上,點選激活拓片圖層,就可以在地圖上顯示拓片所反映的原器物的出土或刻立地點,可以在不同朝代的歷史地圖上按照用戶劃出的區(qū)域進行檢索,檢索的結(jié)果集直接反映在地圖上。
目前已經(jīng)可以分別提供墓志、墓碑、刻經(jīng)、造像及全部拓片共5種類型的拓片圖標。
2.3.2復旦大學歷史地理研究中心的CHGIS
該項目試圖建立一套中國歷史時期連續(xù)變化的基礎地理信息庫,使其成為中國歷史GIS數(shù)據(jù)的基礎平臺。與傳統(tǒng)的紙質(zhì)地圖不同,CHGIS系統(tǒng)地理要素之間的關(guān)系可以修改和更新,按不同歷史時期和不同數(shù)據(jù)集的方式,為用戶提供最簡潔的數(shù)據(jù)查詢、檢索、編繪數(shù)據(jù)地圖和連接用戶數(shù)據(jù)的功能,同時允許用戶按他們設定的時間和地區(qū)重新組合數(shù)據(jù)庫中的數(shù)據(jù),可以將這個系統(tǒng)看作是以時間信息為縱軸,以空間信息為橫軸的立體數(shù)據(jù)空間,并將相關(guān)的政治、經(jīng)濟、商業(yè)等信息附著其中[6]。
目前該系統(tǒng)的搜索引擎僅實現(xiàn)了提供簡體地名及簡繁體模糊兩種方式進行查詢,用戶可從授權(quán)發(fā)布數(shù)據(jù)的網(wǎng)站上下載并使用CHGIS數(shù)據(jù)。鑒于該系統(tǒng)只提供歷史地理的基礎數(shù)據(jù)以及地圖瀏覽和地名查詢等功能,用戶要想生成某個學科的專題地圖就必須利用GIS系統(tǒng),對于完全不熟悉GIS的一般用戶,還存在一定的困難。
2.3.3構(gòu)建全國范圍的古籍時空分布系統(tǒng)
我國古籍數(shù)量龐大,且往往分散各地,由于缺乏一個全國性的權(quán)威機構(gòu)統(tǒng)一指導和協(xié)調(diào),其數(shù)字化加工與存儲各自獨立,所生成的獨立古籍文獻數(shù)字資源專題數(shù)據(jù)庫很難形成有機整體。為了實現(xiàn)更大范圍的資源共享與揭示,有必要進一步推進我國古籍數(shù)字資源整合,若能在此基礎上將GIS技術(shù)應用到整合資源中,使其具有數(shù)據(jù)檢索、統(tǒng)計、地圖生成等功能,古籍資源將不再是相對獨立分散的知識點,而是形成了層次清晰的知識圖譜體系。
目前,隨著全國古籍普查登記工作基本完成,《中華古籍總目》的編制工作已陸續(xù)展開和全國古籍普查基本數(shù)據(jù)庫的建立,其為構(gòu)建全國范圍的古籍時空分布系統(tǒng)奠定了堅實的基礎。上文提到的復旦大學歷史地理研究所開發(fā)的全球定位信息系統(tǒng)CHGIS,其目標是建立中國歷史時期基礎地理信息系統(tǒng)數(shù)據(jù)庫,可實現(xiàn)基于CHGIS構(gòu)建動態(tài)的全國古籍等移動文物的地理信息系統(tǒng)。復旦大學校長楊玉良在《復旦大學中華古籍保護研究院”的創(chuàng)建》中提出,大數(shù)據(jù)時代,建設基于CHGIS的中華古籍書目數(shù)據(jù)研究中心”,也就是利用GIS技術(shù)存儲、管理我國古籍書目數(shù)據(jù)庫,構(gòu)建可視化的古籍時空分布系統(tǒng),為國家移動文物普查、古籍保護、傳統(tǒng)中華學術(shù)研究提供大數(shù)據(jù)平臺,為國家文化保護提供決策,為來自高校、社會的研究人員以及各類決策機構(gòu),提供書目信息咨詢服務。該系統(tǒng)的建設目標,是要完成古代書名、人名、地名以及相應機構(gòu)名稱的規(guī)范化整理和翻譯,并將典籍出現(xiàn)時的經(jīng)濟、文化等各種背景綜合輸入匹配,形成一個整合的數(shù)據(jù)庫[7]。
從國內(nèi)現(xiàn)狀看,在古籍建設過程中引入GIS技術(shù)已取得了一定成果,但相對于對文本文獻的數(shù)字處理技術(shù)的日臻成熟,基于文本挖掘的檢索和存取已經(jīng)習以為常,以地圖或者圖像形式存儲的地理空間信息卻不像處理文本文獻那么容易,國內(nèi)圖書館目前將GIS技術(shù)應用于古籍善本數(shù)字資源庫的技術(shù)還不夠成熟,而且這種應用在某種程度上仍屬于利用GIS檢索電子地圖和圖像信息等較淺的層面。結(jié)合這些系統(tǒng)建設的實踐經(jīng)驗,對進一步推進我國基于GIS技術(shù)的古籍數(shù)字資源深度開發(fā)、更好地實現(xiàn)資源檢索和利用歸納出以下幾點提示和經(jīng)驗。
3.1元數(shù)據(jù)
為了古籍的深層次開發(fā)和利用,利用GIS技術(shù)的可視化數(shù)據(jù)和空間關(guān)系分析能力,將文獻資源的屬性數(shù)據(jù)與具有結(jié)構(gòu)特征的地理信息進行數(shù)據(jù)關(guān)聯(lián)聚合,充分重視和突顯古籍的時空信息,建構(gòu)可視化的古籍時空網(wǎng)絡,在元數(shù)據(jù)中應增加突顯時空屬性的元數(shù)據(jù)項目,突出時間跨度、空間分布等表達時間特性和空間位置的信息。在時間維度上,記錄時間的紀年、紀時方式和時間的類型,兼容中國傳統(tǒng)歷法時間和公元時間;在空間維度上包括地名的空間位置、所屬時期和行政隸屬等。
3.2基本數(shù)據(jù)源
GIS技術(shù)的基礎和前提是擁有大量準確、翔實、覆蓋面廣闊的地理空間數(shù)據(jù)和屬性數(shù)據(jù)。
在地理空間數(shù)據(jù)方面,需要對時空信息進行采集,建立相關(guān)的時空數(shù)據(jù)庫,包括空間地理數(shù)據(jù)庫、時間數(shù)據(jù)庫等;對時間地點信息進行解析和映射,實現(xiàn)時空信息的規(guī)范化、結(jié)構(gòu)化表達。其中時間數(shù)據(jù)由于歷史文獻的記錄與研究水平的關(guān)系,往往無法確定具體的時間,應將其相關(guān)描述信息予以保留,給用戶提供一個參考,以便在今后的研究中予以改正和確認;獲取空間地理數(shù)據(jù),需要具備基礎地圖資源,要完成地圖圖像數(shù)據(jù)的矢量化工作。
在屬性數(shù)據(jù)方面,除了資源本身所帶有的信息外,可整合家譜和地方志的數(shù)字資源,將其作為重要的切入點和數(shù)據(jù)源,二者資源中都蘊含時空信息和相關(guān)屬性數(shù)據(jù),并且具有全面、翔實、權(quán)威、系統(tǒng)等特點,利用其特有的資源豐富、古今縱覽和信息相關(guān)等優(yōu)勢,以地理位置、時間為線索,運用空間信息技術(shù)進行顯式、動態(tài)的可視化表達,將歷史全面反映,可成為GIS的重要數(shù)據(jù)來源[8]。
3.3基礎支撐
為了實現(xiàn)古籍信息與地理空間以及時間的關(guān)聯(lián)并構(gòu)成一個統(tǒng)一的整體,需要在古籍信息數(shù)據(jù)中抽取歷史地名信息和時間信息進行數(shù)字化建庫,然而在空間位置上,隨著地名的不斷變化、行政管理區(qū)域的改變而帶來的地名描述的變化,使得不同時期的地名沒有統(tǒng)一的參考基準,地名的空間位置和空間范圍難以確定;在時間信息上,因歷法差異和紀年方式的變化,計算機難以直接對其進行比較、分析。這就需要組織統(tǒng)一的時空描述參考框架,為所有的古籍提供一致的時間參考和空間參考。
將歷史演變過程中具有特定時間、位置、方位、范圍及形態(tài)特征的地名數(shù)據(jù)作為基本單元,以時間軸和空間軸為演變標尺構(gòu)建時空框架。只有在這個時空框架下進行時空解析和定位,規(guī)范表達時空信息,解決時間與空間的對應關(guān)系和變化關(guān)系,才能使得不同歷史時期、不同地區(qū)的古籍資料整合到一個統(tǒng)一的時空背景下進行分析。
因此,可以說統(tǒng)一的時空參考框架,是在古籍資源建設中利用GIS技術(shù)進行共享和分析的基礎支撐。
3.4開發(fā)平臺
古籍資源的GIS應用主要是基于成熟的GIS平臺進行搭建實施,目前主要的GIS平臺有國外的ARCGIS,MAPINFO,GEOMEDIA,國內(nèi)的超圖等,具有數(shù)據(jù)錄入、編輯、查詢、分析、制圖輸出等完善的功能和強大的二次開發(fā)能力。所有GIS數(shù)據(jù)庫的搭建與原有MIS(Management Information System,管理信息系統(tǒng))類似,只要與地理信息或空間信息相關(guān)的數(shù)據(jù),均需要以GIS平臺要求的數(shù)據(jù)格式進行規(guī)劃和存儲,然后在平臺搭建實施中按照相應GIS平臺要求的方式進行展現(xiàn)。同時,隨著用戶需求的扁平化,還可以基于GIS平臺開發(fā)更多的核心功能。
4.1標準化
標準化是資源整合共享和充分揭示的基礎,GIS技術(shù)的引用依賴于資源的整合共享。堅持數(shù)據(jù)的標準化、規(guī)范化具有突出的現(xiàn)實意義,也是進一步推進古籍數(shù)字資源深度開發(fā)的基礎保障。由于古籍類型眾多,包括善本印本、手寫本、輿圖、家譜、地方志、拓片等,情況各不相同,其數(shù)字化資源的格式往往也互不兼容,對數(shù)據(jù)共享的發(fā)展造成了障礙,因此,標準規(guī)范方面的工作相當復雜,應從數(shù)據(jù)、接口、應用、保存等多個層面進行統(tǒng)一和規(guī)范,制定統(tǒng)一的、行之有效的標準。
4.2專業(yè)人才的培養(yǎng)
目前,圖書館界對GIS技術(shù)的應用研究尚處于探索階段,尤其在古籍數(shù)字化方面,圖書館還缺乏這方面的專業(yè)人才,同時GIS技術(shù)發(fā)展迅速,軟件不斷更新,可獲得的空間數(shù)據(jù)的不斷擴大,不同格式、不同平臺、不同檢索機制的空間數(shù)據(jù)采集和轉(zhuǎn)換等,都對圖書館員的GIS素質(zhì)提出了更高的要求[9]。結(jié)合我國的實際情況,可采用引進GIS相關(guān)專業(yè)人才、組織人員進行專業(yè)培訓、提供實習機會等途徑來保證、提高工作人員的素質(zhì)。
4.3加強合作
在古籍資源開發(fā)中引入GIS技術(shù),涉及的內(nèi)容很多,既包括采集、編目等數(shù)據(jù)層面,也包括數(shù)據(jù)的存儲、發(fā)布、檢索等服務層面。因此開展多層次的資源共建和合作是必要的,其不僅包括加強與其他收藏機構(gòu)和數(shù)字化機構(gòu)的館際交流與溝通,也包括館內(nèi)部門之間的協(xié)調(diào)溝通。合作內(nèi)容是全方位立體式的,可以涉及資源、人才、技術(shù)、設備等多個方面,實現(xiàn)數(shù)據(jù)資源的整合共享,形成完整、翔實、準確的數(shù)據(jù)源,協(xié)同服務,優(yōu)勢互補,共享人力技術(shù)資源,提供高效、全面的古籍資源服務。
參考文獻:
[1]高娟,劉家真.中國大陸地區(qū)古籍數(shù)字化問題及對策[J].中國圖書館學報,2013(4):111.
[2]韓新蕾,等.基于3DMAX和GIS的三維圖書館空間管理系統(tǒng)開發(fā)[J].圖書館學刊,2014(4):105.
[3]范佳.“數(shù)字人文”內(nèi)涵與古籍數(shù)字化的深度開發(fā)[J].圖書館學研究,2013(3):31.
[4]中國臺灣中央研究院.中華文明之時空基礎架構(gòu)[EB/OL]. [2015-09-15].http://ccts.sinica.edu.tw/intro.php?lang=zh-tw.
[5]中國高等教育文獻保障系統(tǒng)管理中心.時空檢索說明[EB/OL]. [2015-09-16].http://rbdl.calis.edu.cn/pages/GisSearch.htm.
[6] 復旦大學歷史地理研究中心.chgis數(shù)據(jù)說明[EB/OL]. [2015-09-16].http://yugong.fudan.edu.cn/views/chgis_data. php.
[7]楊玉良.復旦大學“中華古籍保護研究院”的創(chuàng)建.[EB/OL]. [2015-09-16].http://www.library.fudan.edu.cn/main/info/42 53.htm.
[8]龔強,胡運權(quán).地方志:GIS的最佳數(shù)據(jù)源[J].學術(shù)交流,2001(01):155-157.
[9]黎明,但旺.國外圖書館GIS服務及其啟示[J].圖書館學研究,2008(10):79.
吳茗女,1975年生。碩士研究生,館員。研究方向:數(shù)字化平臺運維管理。
[分類號]G250.73
收稿日期:(2015-11-19;責編:楊新寬。)