整合異構特藏資源構建數(shù)字人文系統(tǒng)*

2018-09-27 06:39:46

圖書館論壇 2018年10期

隨著數(shù)字圖書館的發(fā)展，越來越多的圖書館將本館擁有的實體特藏資源數(shù)字化、網絡化，各大高校圖書館積累了大量數(shù)字化的特色資源。網絡化的特藏資源是一筆寶貴的知識財富，不僅有利于特色資源的長期保存，加快人文知識的大眾普及，還能為人文學者的研究提供更好的支持。但是，分散在各高校的特藏資源存在只服務于本校師生的信息孤島現(xiàn)象。打破信息孤島，整合特藏資源，將優(yōu)化整合后的資源推向更廣泛的用戶平臺，可以為缺乏特藏資源的圖書館提供支持服務，從而提高特藏資源的利用率。整合優(yōu)化后的特藏資源具有質量高、資料完備的特點，在此基礎上，借助GIS、數(shù)據(jù)可視化、文本挖掘等信息技術，人文學者可以從整個宏觀的時空范圍和群體角度對特藏資源進行觀察、提出問題和研究。

1 數(shù)字人文系統(tǒng)概述

1.1 數(shù)字人文發(fā)展概述

數(shù)字人文的起源可以追溯至1949年的“人文計算”，Roberto Busa使用電腦對神學家St.Thomas Aquinas著作內的字詞進行大規(guī)模的處理，繼而經歷了起步、鞏固、新發(fā)展和互聯(lián)網時代等四個演進階段[1]。2004年《數(shù)字人文指南》(A Companion to Digital Humanities)出版，“數(shù)字人文”取代“人文計算”，并被廣泛傳播。數(shù)字人文的概念難以界定，但是其活動特性可以用發(fā)現(xiàn)、標注、比較、引用、取樣、闡釋與呈現(xiàn)等7個原術語來進行概括[2]。早期數(shù)字人文的參與者主要集中在文學、計量史學、語言學等領域。隨著數(shù)字技術、計算技術的不斷發(fā)展，巨量的資料分析、地理空間分析、人員流動軌跡分析成為可能，數(shù)字人文深刻地改變了人文學者的研究方式。數(shù)字人文受到越來越多的關注，數(shù)字人文組織迅速發(fā)展。截至2017年，全球范圍內以“數(shù)字人文”為名稱的中心、項目、實驗室等有190多個[3]，包括斯坦福大學人文實驗室、加拿大維多利亞大學人文計算與媒體中心、英國倫敦大學學院數(shù)字人文中心、德國哥廷根大學數(shù)字人文中心、日本立命館大學日本文化藝術數(shù)字人文中心等。2005年，全球最大的數(shù)字人文綜合型研究機構國際數(shù)字人文組織聯(lián)盟(The Alliance of Digital Humanities Organizations， ADHO)成立，現(xiàn)任成員包括歐洲數(shù)字人文協(xié)會、計算機與人文協(xié)會、加拿大數(shù)字人文學會、澳大利亞數(shù)字人文協(xié)會、日本數(shù)字人文協(xié)會、數(shù)字人文中心，其目的是促進和支持包括藝術和人文學科在內的人文藝術領域內的數(shù)字化教學與研究，作為一個基礎平臺，在研究、出版、合作和培訓等方面提供支持[4]。國際數(shù)字人文研究的蓬勃發(fā)展也推動著國內數(shù)字人文研究的發(fā)展，2011年武漢大學成立數(shù)字人文研究中心，2014年“數(shù)字人文與語義技術”研討會在上海圖書館召開，2016年“數(shù)字人文論壇”在北京大學召開，同年北京大學數(shù)字人文小組成立，2017年上海圖書館年會上復旦大學人文社科數(shù)據(jù)研究所揭牌。

雖然國內數(shù)字人文的研究起步相較于國外較晚，但是近年來不斷快速發(fā)展，并且有了自主創(chuàng)新，例如古籍文本的可視化分析，中國歷史地理數(shù)據(jù)的應用，上海世博會對《清明上河圖》的數(shù)字動態(tài)再創(chuàng)作等。不難看出，數(shù)字人文在國外與國內都受到了極大的關注，數(shù)字人文的理論不斷完善，實踐領域不斷延伸。數(shù)字人文的出現(xiàn)為歷史學、哲學、文學、宗教學和社會學等一系列學科的發(fā)展帶來了機遇。同時，數(shù)字人文的發(fā)展也需要各學科協(xié)同創(chuàng)新、有機融合，學科間的不斷融合，才能有效地促進學科間的資源共享和知識發(fā)現(xiàn)，才能為數(shù)字人文的發(fā)展提供一個知識性、創(chuàng)造性的研究環(huán)境，才能為社會發(fā)展綿長歷史中人文精神的傳承起到推動作用[5]。

1.2 數(shù)字人文系統(tǒng)介紹

早期的數(shù)字人文研究更多的是單個或幾個學者以電腦為工具，用計量方式對文學作品的文本進行分析，如Roberto Busa對St.Thomas Aquinas著作進行的大規(guī)模字詞處理，陳炳藻對《紅樓夢》的歸屬研究。隨著數(shù)字人文的快速發(fā)展，數(shù)字人文的開發(fā)需要更多的專家學者、普通大眾和機構參與，數(shù)字人文系統(tǒng)應運而生。數(shù)字人文系統(tǒng)是以典藏機構的數(shù)字化資源為核心，在此基礎上由基金會、機構、領域專家等支持開發(fā)的系統(tǒng)，系統(tǒng)不僅可以提供保存資料的典藏手段和尋找資料的檢索工具，還可以協(xié)助研究者重新組織、分析資料，提供一個探索環(huán)境，也可以通過眾包平臺功能、提供API方式等與外界交互，共同發(fā)展。典型的數(shù)字人文系統(tǒng)有中國歷史地理系統(tǒng)(CHGIS)、中國歷代人物傳記資料庫(CBDB)、唐宋文學編年地圖、上海圖書館家譜知識服務平臺、南京師范大學的華夏民族家譜地理信息系統(tǒng)、“臺灣中央研究院”的中華文明之時空基礎架構(CCTS)、臺灣歷史文化地圖(THGIS)、臺灣歷史數(shù)位圖書館(THDL)，除此之外，早期的HathiTrust、DPLA(Digital Public Library of America)等基礎設施平臺也開始提供數(shù)字人文服務。表1分別從系統(tǒng)創(chuàng)建的資料來源、提供的功能及工具、與外界交互情況列舉了中國歷代人物傳記資料庫(CBDB)、臺灣歷史數(shù)位圖書館(THDL)、上海圖書館家譜知識服務平臺等三個較成功的數(shù)字人文系統(tǒng)的建設情況。

表1 數(shù)字人文系統(tǒng)建設情況

CBDB是由哈佛大學費正清中國研究中心、“中央研究院歷史語言研究所”和北京大學共建，其遠程目標在于系統(tǒng)性收入中國歷史上所有重要的傳記資料，并將其內容毫無限制地、免費地公諸學術之用。截至2016年4月，數(shù)據(jù)庫共收錄約37萬人的傳記資料。CBDB除可作為人物傳記的一種參考資料外，亦可作統(tǒng)計分析與空間分析之用[6]。THDL由臺灣大學項潔教授團隊主持，2006年完成，2007年開放使用，總共包含了近九萬件和臺灣有關的官方文書和民間契約等，是臺灣史研究最為豐富的資料庫[7]。THDL可以幫助使用者定位資料，提供檢索后分析功能，可進行諸如分類、檢索結果年代分布圖、詞頻統(tǒng)計等初步分析，并提供“自訂文件集”功能和一系列分析工具幫助使用者重新組織、分析資料?！凹易V知識服務平臺”由上海圖書館建立，在充分利用館藏家譜的基礎上，將家譜數(shù)字資源以“時間軸”“地圖”等可視化的方式開發(fā)出來，可見即可得地展示某一姓氏在某一地理空間范圍內的分布情況[8]。三個數(shù)字人文系統(tǒng)平臺有以下共同點：(1)以多來源的或單一來源的數(shù)據(jù)庫內容為核心。全面的、高質量的資料是數(shù)字人文的起點，為了適應各類人文研究的需求，不同的研究者皆需要有適合的、能與之對應的數(shù)據(jù)庫的建立[9]。(2)在內容的基礎上提供檢索、分析等工具，幫助研究者從大量資料中定位所需資料，分析資料。(3)提供API接口，實現(xiàn)不同數(shù)據(jù)庫之間、數(shù)據(jù)庫與互聯(lián)網之間的通聯(lián)。(4)允許使用者編輯、進行自己的創(chuàng)作，與研究者進行對話，共建數(shù)字人文系統(tǒng)。這些系統(tǒng)平臺為建設基于圖書館異構特藏資源的數(shù)字人文系統(tǒng)提供了參考。

2 異構資源整合的意義、方法與案例分析

2.1 異構資源整合的意義

數(shù)字人文系統(tǒng)是以數(shù)據(jù)庫為核心，必須有正確而完備的典藏和資料庫作為基礎，數(shù)字和人文研究才有更進一步合作的可能，數(shù)字人文系統(tǒng)的質量取決于資料是否正確、相關的記錄是否皆有收錄[10]。先將分散的、異構的資源整合，在此基礎上構建的數(shù)字人文系統(tǒng)提供的數(shù)據(jù)資源更加全面、完整、權威，質量更高，可以將人文研究學者從繁雜的資料收集、整理和辨?zhèn)喂ぷ髦薪饷摮鰜?。整合的異構資源系統(tǒng)使得資源可以跨時空、跨典籍立體交叉顯示，支持不同研究領域和研究方向的學者在同一個平臺開展工作，各取所需[11]，給人文研究學者提供了一個全新的視角。例如，唐宋文學編年地圖將中國詩詞在地圖上顯示，是文學、歷史和地理的融合，通過平臺，可以直觀地了解詩人在各地的足跡，也可以查看同一地點不同詩人不同時期所做的詩詞。

從圖書館出發(fā)，異構資源的整合為圖書館注入了新的活力，提高了公眾對其資源的認知度，改變了其在公眾眼中的封閉形象。在分散的、異構的資源基礎上構建系統(tǒng)，資源利用率低，資源不完備，極大地限制了特藏資源的價值發(fā)揮[12]。從經濟角度出發(fā)，直接在分散的、異構的特藏資源基礎上構建各自的數(shù)字人文系統(tǒng)，其成本是巨大的，不利于功能擴展。先將異構特藏資源整合，在大量數(shù)據(jù)資料的基礎上構建數(shù)字人文系統(tǒng)，并將優(yōu)化整合后的資源推向更廣泛的用戶平臺，不僅能夠有效提高資源利用率，還增加了用戶訪問資源保存機構的頻率。將存在于不同地點、不同系統(tǒng)的特藏資源整合起來，是建設數(shù)字人文系統(tǒng)最基本的工作。

2.2 異構資源整合的方法

數(shù)字資源整合也可稱為數(shù)字資源集成，是在各種數(shù)字資源自主性、分布性、異構性的基礎上，運用各種集成技術和手段將各類數(shù)字資源集成在統(tǒng)一的利用環(huán)境下，實現(xiàn)“一步到位”的檢索，讓用戶方便地利用各種數(shù)字資源，為其節(jié)省時間和精力。為了能夠將異構資源整合在一起，實現(xiàn)統(tǒng)一檢索和訪問，促進資源的發(fā)現(xiàn)與共享，圖書館采取了一系列解決方案，如OAI-PMH(The Open Archive Protocol for Metadata Harvesting)協(xié)議、Z39.50協(xié)議、跨庫檢索、信息鏈接等[13]。具體來看，資源整合的方法有以下幾種。

(1)數(shù)據(jù)倉庫法，指集成系統(tǒng)將存儲于不同地方的數(shù)據(jù)收集起來，并經過分析、綜合、轉換等一系列數(shù)據(jù)加工處理工作，最后裝載入本地的中心數(shù)據(jù)倉庫進行統(tǒng)一存儲。優(yōu)點是資源相對穩(wěn)定，在數(shù)據(jù)倉庫基礎上可進行信息挖掘，提供更深層次的知識服務；缺點是數(shù)據(jù)更新不及時，數(shù)據(jù)重復存儲。DPLA、OAIster、Calis學位論文項目通過OAI-PMH從數(shù)據(jù)提供方收割數(shù)據(jù)，并將數(shù)據(jù)存儲于服務方的數(shù)據(jù)倉庫中，HathiTrust項目通過FTPS將書目數(shù)據(jù)提交給Zephir[14]處理，是資源整合的數(shù)據(jù)倉庫法的典型例子。

(2)聯(lián)邦形式。集成系統(tǒng)分為客戶端和服務端，客戶端負責獲取用戶查詢，獲取查詢后發(fā)送至各個服務器，服務器解析查詢并從各自的數(shù)據(jù)源中獲取結果，整合后返回給客戶端，或者利用中間件模式，客戶端與中間層通信，中間層負責與各服務器相互聯(lián)系。該方法一般只提供只讀的查詢功能，執(zhí)行效率不高，但是數(shù)據(jù)不會重復存儲，適用于被集成的系統(tǒng)規(guī)模大、數(shù)據(jù)更新頻繁、數(shù)據(jù)實時一致性要求高的情況。Z39.50、SRW/SRU就是屬于此類集成方法的協(xié)議。INNOPAC、CALIS OPAC系統(tǒng)，就是將Z39.50作為中間層協(xié)議，將系統(tǒng)的具體實現(xiàn)映射到抽象模型上，實現(xiàn)異構系統(tǒng)間的交互式通信。

(3)基于本體的資源整合。本體論通過對概念的嚴格定義和概念之間的關系來確定概念精確含義，表示共同認可的、可共享的知識，成為語義Web中語義層次上信息共享和交換的基礎。基于本體的資源整合是基于領域本體模型對異構數(shù)字資源進行語義標注并構建統(tǒng)一的(元數(shù)據(jù))知識庫，從而實現(xiàn)對資源的統(tǒng)一語義檢索。本體在其中的作用是提供對資源進行語義標注的詞匯標準[15]。Wache等將基于本體的整合方法歸納為單一本體法、多本體法和混合法三種[16]。單一本體法首先定義一個全局本體，提供一個共享詞匯表作為集成時的參考，分布在各個地方的數(shù)據(jù)源都有全局共享本體相關聯(lián)。多本體法是在各個異構的數(shù)據(jù)源上建立局部本體，然后在局部本體間建立映射關系?；旌媳倔w法是將單一本體法和多本體法綜合，在多本體的局部本體方法上建立全局本體。本體能解決語義異構的問題，但是本體是領域相關的，對于不同領域內的資源整合較困難。

(4)基于關聯(lián)數(shù)據(jù)的資源整合。伯納斯·李于2006年在語義網基礎上提出了關聯(lián)數(shù)據(jù)(Linked Data)[17]。語義網試圖將數(shù)據(jù)聯(lián)系起來，并產生數(shù)據(jù)與現(xiàn)實事物的聯(lián)系，以方便人與機器閱讀和理解這些數(shù)據(jù)。關聯(lián)數(shù)據(jù)是第一種可行的語義網表達形式，它采用RDF數(shù)據(jù)模型，利用URI(統(tǒng)一資源標識符)命名數(shù)據(jù)實體，來發(fā)布和部署實例數(shù)據(jù)和類數(shù)據(jù)，從而可以通過HTTP協(xié)議揭示并獲取這些數(shù)據(jù)，同時強調數(shù)據(jù)的相互關聯(lián)、相互聯(lián)系以及有益于人機理解的語境信息。由于關聯(lián)數(shù)據(jù)要求采用URI命名數(shù)據(jù)實體，并可以通過HTTP協(xié)議獲取，完全自治的“數(shù)據(jù)孤島”可通過關聯(lián)數(shù)據(jù)連接起來，實現(xiàn)數(shù)據(jù)互聯(lián)和集成。

(5)本體與關聯(lián)數(shù)據(jù)驅動的圖書館信息資源語義整合框架[18]。歐石燕等將本體與關聯(lián)數(shù)據(jù)結合提出了此方法，旨在實現(xiàn)不同層次和范圍的資源整合。該整合框架有3層結構，第一層是基于本體的文獻資源整合，采用混合本體法實現(xiàn)異構元數(shù)據(jù)的語義互操作，首先構建一個共享的核心元數(shù)據(jù)本體，然后針對特定資源構建專門元數(shù)據(jù)本體；第二層基于關聯(lián)數(shù)據(jù)的圖書館信息資源整合，采用關聯(lián)數(shù)據(jù)發(fā)布圖書館信息資源使得每個資源可通過HTTP協(xié)議直接訪問，并可沿著RDF鏈接訪問其他相關資源；第三層與外界資源的鏈接與集成，采用關聯(lián)數(shù)據(jù)與其他圖書館的關聯(lián)數(shù)據(jù)或外界的關聯(lián)數(shù)據(jù)(如DBPedia)相關聯(lián)。

除了以上幾種典型的整合方法，還有諸如中國知網的跨庫檢索，谷歌、百度等搜索引擎運用自己的計算機程序從網上搜集信息，為用戶提供網頁連接組合等整合方法；通過提供應用程序接口方式(API)與其他系統(tǒng)整合也是一種常用的整合方式。基于GIS的應用，還可通過將不同數(shù)據(jù)資源與GIS整合。在實踐中，根據(jù)自身需求采用不同的整合方法，有時也會組合多種方法實現(xiàn)整合的目的，例如美國數(shù)字公共圖書館DPLA項目采用了數(shù)據(jù)倉庫法，基于本體、關聯(lián)數(shù)據(jù)的整合。

2.3 整合案例——美國數(shù)字公共圖書館DPLA

DPLA是通過多種方法將異構資源整合，在此基礎上提供開放服務，為數(shù)字人文提供支持的典型案例。DPLA項目于2010年底開始討論、規(guī)劃，2013年開放運行，它把檔案館、圖書館、博物館和文化遺產機構、私人收藏機構等分散的資源進行統(tǒng)一集合，最大限度地開放可共享的文化遺產。DPLA整合的過程，首先從它的內容和服務中心收割數(shù)據(jù)，然后對其數(shù)據(jù)進行豐富，經MAP(Metadata Application Profile)映射存儲，最后通過API發(fā)布數(shù)據(jù)。

(1)DPLA主要通過OAI收割、以及內容中心或服務中心提供的API收割來自兩個中心的元數(shù)據(jù)[19]。OAI-PMH是一種獨立于應用的、能夠提高Web上資源共享范圍和能力的互操作協(xié)議標準。在OAI-PMH的互操作框架中有兩種主要的角色：數(shù)據(jù)提供者和服務提供者。數(shù)據(jù)提供者是元數(shù)據(jù)的發(fā)布方，采用OAI技術框架發(fā)布元數(shù)據(jù)，使得服務提供者可以根據(jù)需求對這些元數(shù)據(jù)進行收割加工；服務提供者是元數(shù)據(jù)的收割方，使用OAI協(xié)議向數(shù)據(jù)提供方發(fā)出請求，并接收返回的元數(shù)據(jù)作為構造附加服務的基礎。OAI協(xié)議被應用于DSpace、WorldCat、NASA、LibGuides、Omeka等一系列組織的分享、收集數(shù)據(jù)中。DPLA為了更加迅速、更大范圍的收集數(shù)據(jù)開發(fā)了一款新的開源OAI收割器Spark OAI Harvester。Spark是分布式處理引擎，可實現(xiàn)并行處理大量數(shù)據(jù)，使得處理數(shù)據(jù)的能力更快。Spark的另一優(yōu)點是它支持結構化的處理數(shù)據(jù)，它提供諸如SQL查詢、機器學習算法、圖形計算等一系列內建庫，這使得收割來的數(shù)據(jù)更容易檢查、分析和操作。在Spark OAI Harvester的幫助下，DPLA收割數(shù)據(jù)、處理數(shù)據(jù)更加的方便、簡單。

(2)DPLA收割后的元數(shù)據(jù)，經過MAP映射，并以關聯(lián)開放數(shù)據(jù)加以強化，呈現(xiàn)和共享元數(shù)據(jù)。MAP基于Europeana數(shù)據(jù)模型EDM，并結合DPLA集成美國文化遺產機構元數(shù)據(jù)的經驗與特定需求。EDM主要使用來自其他命名空間的屬性、加上少數(shù)獨特的本地開發(fā)屬性，為集成來自歐盟不同機構的多樣化數(shù)字對象的元數(shù)據(jù)而開發(fā)，是一開放的、跨領域、基于語義網框架的數(shù)據(jù)模型[20]。MAP起草于2012年，于2013年初發(fā)布為最初的版本v3.0。2014年7月略作更新為v3.1，2015年3月發(fā)布的v4.0，2017年12月發(fā)布最新版v5。MAP(v5)[21]根據(jù)實施過程中的需求及意見在原來的版本上修改而成，其具體情況如圖1所示(引自：https：//drive.google.com/open?id=1fJEWhnYy5Ch7_ef_-V48-FAViA72OieG)。MAP(v5)有9個核心類，其中使用了來自 EDM 的 Place、TimeSpan、Agent、WebResource，來自skos的Concept，dcmitype的Colllection和ore的Aggregation。對象間的屬性關系也是采用dc、dcterms和edm定義的層級關系。通過MAP映射的DPLA數(shù)據(jù)在Web上開放、共享，成為具有相互聯(lián)系且可參引的數(shù)據(jù)，可與其他平臺數(shù)據(jù)直接聯(lián)系，形成一個開放的、可無限延伸與擴展的資源整合體系。

(3)DPLA提供統(tǒng)一檢索界面，并提供API接口調用其函數(shù)，目前API使用的數(shù)據(jù)未更新到最新版，仍采用v3.1[22]。其最基本的API調用格式為“https：//api.dp.la/v2/items?q=weasels&api_key=”其中“https：//api.dp.la/v2”是基本格式，“items”指的是請求的“資源類型”，除“items單條記錄”外還有“collections集合”，“?q”后面跟的是具體參數(shù)，“&api_key”后面跟的是你從DPLA取得的32位字符串形式的key。其返回的格式為“JSON-LD”格式，如下所示：

圖1 DPLA MAP概覽

DPLA通過API與其他系統(tǒng)整合，程序開發(fā)者可通過API訪問DPLA元數(shù)據(jù)，DPLA原來的官網上有專門的“Apps”網頁，列舉了34款通過DPLA提供的API接口開發(fā)的應用。DPLA整合的方法非常值得借鑒，通過OAI收割數(shù)據(jù)，并復用EDM、SKO等成熟詞表，發(fā)布關聯(lián)數(shù)據(jù)與其他資源整合。DPLA擁有大量經過加工處理的、較為完整規(guī)范的元數(shù)據(jù)信息，是重要的數(shù)據(jù)基礎設施，可用于文本分析和挖掘，當前許多優(yōu)秀的數(shù)字人文研究案例已開始受益于這些基礎設施[23]。

3 數(shù)字人文系統(tǒng)的設計——以師范聯(lián)盟異構特藏資源為基礎

3.1 師范聯(lián)盟異構特藏資源現(xiàn)狀調研

華東師范大學圖書館(以下簡稱“本館”)早在2014年就對師范聯(lián)盟圖書館特藏資源的建設情況進行過問卷調查；2017年又一次基于網絡跟蹤聯(lián)盟圖書館網站特色館藏平臺的變化情況。據(jù)調研，師范聯(lián)盟擁有的特藏資源數(shù)據(jù)庫中，涉及人文學科(不含文庫、教參及學位論文)的資源數(shù)量約占65%[24](表2)，圖書館特藏資源的有效開發(fā)可以支持為人文學者的研究提供支持。表中列舉的特藏資源是經過師范聯(lián)盟圖書館編目，使用商業(yè)或自建平臺發(fā)布的。特藏數(shù)據(jù)庫所使用的平臺涉及 TPI、TRS、Apabi-DESi、Apabi-TASi、IDL-ETD、DIPS、超星、麥達等商業(yè)平臺，還有一些圖書館使用的是自行開發(fā)的平臺。商業(yè)平臺中TPI、TRS的后臺數(shù)據(jù)庫是專有數(shù)據(jù)庫，而其他系統(tǒng)的數(shù)據(jù)庫使用的是SQL Server、MySQL等關系型數(shù)據(jù)庫。特藏資源使用不同的數(shù)據(jù)庫、不同的發(fā)布平臺，彼此異構，在為人文學者提供支持前首先需要選擇合適的整合方法，整合異構的圖書館特藏資源。

表2 師范聯(lián)盟成員館特藏資源數(shù)據(jù)庫統(tǒng)計表[25]

3.2 基于師范聯(lián)盟異構特藏資源的數(shù)字人文系統(tǒng)架構

由于整合異構特藏資源的目的是為人文研究提供支持，需要在數(shù)據(jù)的基礎上提供知識發(fā)現(xiàn)作用，因此在綜合考慮整合方法的基礎上，擬采用物化的數(shù)據(jù)倉庫式進行整合，即對元數(shù)據(jù)進行收割集中儲存，其系統(tǒng)架構圖如圖2所示。對于已經編目且存儲于類似于MySQL、MS SQL及Oracle的元數(shù)據(jù)，借鑒DPLA整合模式，使用OAI協(xié)議。師范聯(lián)盟各成員館是OAI協(xié)議中的數(shù)據(jù)提供方，本館是OAI協(xié)議中的服務提供方。首先要求數(shù)據(jù)提供方按照服務提供方要求的元數(shù)據(jù)格式進行編目。本館利用OAI收割器生成請求，通過HTTP協(xié)議的GET或POST方法向數(shù)據(jù)提供方發(fā)送OAI請求，數(shù)據(jù)提供方按照請求將數(shù)據(jù)返回給本館，從而完成元數(shù)據(jù)的收割。對于未在集成系統(tǒng)內進行編目，以excel、xml文件存儲的元數(shù)據(jù)，數(shù)據(jù)提供者可使用FTPS方式直接將元數(shù)據(jù)提交給本館。本館在獲得元數(shù)據(jù)后，對數(shù)據(jù)進行去重、清洗、轉換、合并和融合等加工處理存儲于核心數(shù)據(jù)庫中。在將采集來的元數(shù)據(jù)存于數(shù)據(jù)庫之后，一方面識別元數(shù)據(jù)的實體，構建知識本體。在知識本體的構建過程中應遵循盡量復用已有的知識本體與術語詞表。目前國際上通用流行的詞表有 DC/DCT、Schema.org、 BIBFRAME、RDA、EDM等。選定合適的詞表后，從核心元數(shù)據(jù)出發(fā)，將元數(shù)據(jù)項與詞表中的類相對應，并以屬性來明確類與類之間的關系，從而形成立體網狀模型。本體構建完成以后使用RDF格式編碼，存儲于專用的RDF存儲庫中，發(fā)布為關聯(lián)數(shù)據(jù)，實現(xiàn)與外部世界的自動關聯(lián)、復用、共享的目的；另一方面在核心數(shù)據(jù)庫基礎上構建數(shù)字人文系統(tǒng)平臺，借鑒CBDB、CHGIS和上海圖書館家譜知識服務平臺等數(shù)字人文系統(tǒng)，該平臺提供統(tǒng)一的檢索功能，基于GIS技術動態(tài)顯示資源信息；基于GIS的時空分析功能；提供編輯入口以眾包平臺方式讓使用者參與資源的共建；提供開放數(shù)據(jù)下載功能；提供API接口供其他程序調用；使用IP控制，供有權限的用戶瀏覽全文等一系列功能，實現(xiàn)資源長期保存、共享及發(fā)展。

圖2 基于師范聯(lián)盟異構特藏資源的數(shù)字人文系統(tǒng)架構圖

3.3 功能設計

以異構特藏資源為基礎構建的數(shù)字人文系統(tǒng)，借鑒CBDB、THDL、上海家譜知識服務平臺，應提供包括統(tǒng)一檢索、分析工具、GIS工具、眾包平臺、API接口、全文瀏覽等功能。

(1)統(tǒng)一檢索：數(shù)字人文系統(tǒng)聚集大量的數(shù)據(jù)，為幫助用戶快速定位資源，檢索是系統(tǒng)提供的最基本功能，包括簡單檢索、高級檢索。CBDB除能提供基于人名、地名、官名和關鍵詞的簡單分面查詢，還提供進階查詢功能，通過限定多種條件來構建自己的查詢；THDL檢索提供“相似文件”與相關文件功能，協(xié)助使用者查找資料，還提供“檢索后分類”功能，每次檢索后可根據(jù)年代、出處、作者、契書分類，并計算每個類別擁有的文件種類，且提供檢索結果的“年代分布圖”可視化顯示；上海圖書館家譜知識服務平臺提供基于字母的分面瀏覽功能。

(2)分析工具：CBDB可以進行群體傳記學的統(tǒng)計分析，還可以進行時空分析，并提供社會關系分析工具進行社會關系網絡分析。THDL提供檢索分析工具、關系探查工具。檢索分析工具包括THDL前后綴詞分析工具、THDL臺灣總督府抄錄契書地區(qū)分析及歷史地理信息系統(tǒng)，前后綴詞分析工具可進行詞頻分析；關系探查工具包括THDL契約買賣角色分析，淡新檔案訴訟關系圖。

(3)GIS工具：CHGIS、CCTS、THGIS、上海圖書館家譜知識服務平臺、南京師范大學的華夏民族家譜地理信息系統(tǒng)、全唐詩電子檢索系統(tǒng)等都是基于GIS系統(tǒng)整合專題數(shù)據(jù)庫，提供服務。廈門大學鄭振滿設計的莆田歷史人文地理信息系統(tǒng)，則是以GIS為平臺整合文獻(民間文獻、地方檔案、書籍)與田野調查資料(實物、建筑、儀式、音色)，構成一個跨越史料文類、主題、數(shù)據(jù)類型的數(shù)字人文系統(tǒng)，也可以說是一個時空史料綜合體[26]?；贕IS的系統(tǒng)可提供GIS有關點聚合、時間軸檢索、古今地名對照服務、地圖測距、開放檢索POI和熱力圖等功能。

(4)眾包平臺：眾包平臺可以實現(xiàn)元數(shù)據(jù)、功能和全文的眾包。上海圖書館家譜知識服務平臺提供編輯、提交入口，用戶可以編輯元數(shù)據(jù)字段，管理員通過審核后將被采用。數(shù)字人文項目“萊比錫開放碎片文本序列(LOFTS)”采用Perseids平臺，允許用戶對引用文本及句法進行標注，實現(xiàn)基于協(xié)作眾包的數(shù)字人文基礎設施平臺[27]。TDHL允許用戶更正元數(shù)據(jù)、全文、人地名，管理小組不定期整理，采用后并更新于新版資料庫中。CHGIS可幫助用戶把自己的數(shù)據(jù)發(fā)布在復旦大學歷史地理中心的"禹貢"網站或哈佛地學空間圖書館(HGL)、電子文化地圖集行動計劃(ECAI)和其他元數(shù)據(jù)信息交換站。

(5)API接口：提供面向程序的服務，即開發(fā)可被計算機應用程序調用的數(shù)據(jù)應用接口。通過API，每個資料庫可以取用其他資料庫的數(shù)據(jù)，而不必在自己資料庫重新輸入這些資料，實現(xiàn)不同數(shù)據(jù)庫間的互聯(lián)。DPLA開放API，在此基礎上程序員開發(fā)各自基于DPLA資源的應用。CBDB之空間分析就是建立在與CHGIS對接整合的基礎上，同時麥吉爾大學的明清婦女著作、“中央研究院歷史語言研究所”的人名權威人物傳記資料使用CBDB的API。

(6)全文瀏覽：系統(tǒng)應盡可能提供全文瀏覽功能，實現(xiàn)開放共享，但是由于版權的限制有些資料只提供給部分用戶瀏覽全文的權限，可采取IP控制，通過IP段授權，將部分功能提供給在IP段內的用戶，從而實現(xiàn)權限控制。

(7)其他功能：CBDB提供郵件訂閱，訂閱后用戶可以通過郵件得知平臺更新情況，提供教學輔助文件下載，幫助使用者更好的利用CBDB資料集；CBDB提供罕用字輸入工具、漢字轉拼音工具，THDL提供蘇州碼轉換器、度量衡單位換算系統(tǒng)等參考工具。

基于圖書館異構特藏資源的數(shù)字人文基礎平臺以師范聯(lián)盟成員館元數(shù)據(jù)為基礎，應借鑒CBDB、CHGIS等成熟系統(tǒng)的功能提供一系列數(shù)字人文工具和軟件供用戶使用，并與用戶和機器交互，按照由易到難的順序逐漸完善其功能。

4 結語

數(shù)字人文的發(fā)展促使人文社科研究模式的改變，數(shù)字人文系統(tǒng)的建設需要圖書館的努力。本文是以特藏資源為例對支持人文研究的異構資源整合實踐的初探，借鑒其他集成類系統(tǒng)的經驗，打破信息孤島，建立數(shù)字人文活動的系統(tǒng)平臺，在系統(tǒng)基礎上提供數(shù)字人文工具，為人文研究者提供支持。但是本文提出的系統(tǒng)對人文研究的支持作用有限，也存在一定的局限性。人文研究學者需要更深入地研究數(shù)據(jù)資料，如對特藏數(shù)據(jù)的全文進行識別，標注，抽取資源中的時間、地點、人物及事件等有價值的信息，在此基礎上人文研究學者可以擁有更好的研究視角及體驗，這將是我們下一步努力的方向。

整合異構特藏資源 構建數(shù)字人文系統(tǒng)*