蔡迎春 (上海師范大學(xué)圖書館 上海 200234)
特藏資源是圖書館寶貴的教育資源,體現(xiàn)著圖書館的人文底蘊(yùn)和資源價值,歷來為所有圖書館所重視。據(jù)OCLC發(fā)布的最新研究報告《推進(jìn)國家數(shù)字平臺:美國公共圖書館和州立圖書館的數(shù)字化現(xiàn)狀》顯示,美國92%的公共圖書館擁有本地重要的、獨(dú)特的實(shí)體特藏,而在過去3年,已有37.6%的圖書館致力于特藏資源的數(shù)字化建設(shè)[1]。而荷蘭萊頓大學(xué)圖書館館長和出版社社長貝爾德 (Kurt De Belder)在2013年的一次講演中曾預(yù)測,在15年內(nèi)高校圖書館將只有特色館藏在本地存儲和管理,其他紙本館藏都將存入國家/地區(qū)級的倉儲庫。未來圖書館資源競爭將是以“非正式出版物”為核心的特色館藏競爭[2]。武漢大學(xué)圖書館副館長張洪元也提出,圖書館要實(shí)現(xiàn)特殊化,體現(xiàn)圖書館特別的理論與價值,就要加強(qiáng)特藏建設(shè)、提供特藏空間[2]。
因此,伴隨著整個社會數(shù)字化遷移的過程,國內(nèi)很多圖書館非常關(guān)注特藏資源建設(shè),并且在充分考量現(xiàn)有資源特點(diǎn)的基礎(chǔ)上,強(qiáng)化本館資源特色,著力特色資源庫以及特色數(shù)據(jù)平臺的建設(shè)。據(jù)2016年的一項(xiàng)調(diào)查顯示,所調(diào)查的我國179所高校圖書館中有98所擁有特藏資源庫,占比54.7%[3]。其主題范圍涉及到古籍、民國文獻(xiàn)、地方文獻(xiàn)、地方戲曲、文史資料、非物質(zhì)文化遺產(chǎn)等。但在資源的記錄與揭示上,這些數(shù)據(jù)庫多是基于書目數(shù)據(jù)庫的題錄、電子全文、照片、聲像、視頻等數(shù)字化的資源集合,很多數(shù)據(jù)庫中的知識未能得到充分揭示。僅有少數(shù)圖書館將數(shù)字人文理念和技術(shù)結(jié)合進(jìn)特藏資源數(shù)字化建設(shè)中,并且取得了一些進(jìn)展,使許多本習(xí)以為常的數(shù)據(jù),在經(jīng)過深度挖掘和關(guān)聯(lián)后,展露出了新的內(nèi)涵和本質(zhì)特征。因此,數(shù)字人文相關(guān)技術(shù)在特藏資源建設(shè)中的運(yùn)用亦越來越多地引起圖書館界的關(guān)注。
表1 上海地區(qū)圖書館特藏資源數(shù)字人文建設(shè)情況
在國外,數(shù)字人文研究多以高校和圖書館為依托,為各類數(shù)字人文研究項(xiàng)目提供豐富的數(shù)據(jù)支持。據(jù)美國《圖書館管理雜志》2013年1月登載的一項(xiàng)調(diào)查報告顯示,截至2012年11月,全球已有近100個正式的數(shù)字人文中心,其中大約有一半在美國。這些數(shù)字人文中心約有半數(shù)坐落于圖書館內(nèi),另有1/4與圖書館保持著某種非正式關(guān)系[4]。到了2016年,美國已有41%的圖書館為數(shù)字人文項(xiàng)目提供特別服務(wù),17%的圖書館中設(shè)有數(shù)字學(xué)術(shù)中心,為多種學(xué)科提供支持,5%的圖書館設(shè)有專門為人文學(xué)科服務(wù)的數(shù)字學(xué)術(shù)中心[5]。典型的案例有:美國普渡大學(xué)(Purdue University)圖書館利用GIS技術(shù)從研究合作、學(xué)習(xí)支持和活動推廣3個角度提供支持人文及社會學(xué)科的服務(wù)[6]。美國密歇根大學(xué)圖書館參與數(shù)字人文項(xiàng)目“Using the Digital to Read Literary Texts in Context”,對20世紀(jì)初加利福尼亞地區(qū)雜志中的地域文學(xué)小說進(jìn)行整理、篩選及可視化[7]。愛爾蘭的都柏林圣三一學(xué)院(Trinity College Dublin)圖書館在發(fā)起數(shù)字人文項(xiàng)目“The Mary Martin Diary”時,充分利用了圖書館的溝通技巧、項(xiàng)目管理技能、數(shù)字化工具和技術(shù)以及其他在線資源的使用,為這個多學(xué)科合作項(xiàng)目提供了人員、資源及技術(shù)保障[8]。
在國內(nèi),數(shù)字人文項(xiàng)目及相關(guān)的實(shí)踐雖然引起了一定的關(guān)注,但實(shí)踐案例主要還是集中在研究機(jī)構(gòu)或人文領(lǐng)域,圖書館應(yīng)用數(shù)字人文相關(guān)技術(shù)來進(jìn)行特藏資源建設(shè)的實(shí)踐案例相對來說還比較少。以上海地區(qū)為例,調(diào)研的29家高校圖書館中,有19家具有本館特色資源,已建和在建的特藏資源庫達(dá)到44個[9]。但是,僅有4家在特藏資源數(shù)字化建設(shè)中應(yīng)用了數(shù)字人文的相關(guān)技術(shù)。另外,上海圖書館由于長期的積累,特藏資源豐富,尤其是名人手稿、家譜、地方文獻(xiàn)等,在特藏資源的數(shù)字人文建設(shè)中,可以說是起到了非常重要的引領(lǐng)作用,具體見表1[10]。
具體分析上海地區(qū)圖書館特藏資源數(shù)字人文建設(shè)情況,一般都是以數(shù)據(jù)庫或數(shù)據(jù)集的形式開展,主要集中在文學(xué)、藝術(shù)、語言學(xué)、古籍、歷史文化、檔案等人文領(lǐng)域。就數(shù)字人文相關(guān)技術(shù)而言,應(yīng)用較多的有規(guī)范控制、文本挖掘、關(guān)聯(lián)數(shù)據(jù)、信息可視化等。
(1)規(guī)范控制是圖書館編目控制中的重要一環(huán)。例如,利用人名規(guī)范可以方便集中同一責(zé)任者的不同著作,也能匯集同一著作的不同版本或譯本。以上海圖書館的“人名規(guī)范數(shù)據(jù)集”為例,作家魯迅的筆名多達(dá)100多個,只要建立一個規(guī)范檔,就能將魯迅以不同筆名發(fā)表的文章都集中在其詞條下。而要將同一人的很多信息集中在一起,就要設(shè)置這個人唯一可被機(jī)器讀取的標(biāo)識符,用HTTP的URI表示。這個唯一的標(biāo)識符,不僅可以是人名,也可以是地名,在互聯(lián)網(wǎng)上具有唯一性。
(2)文本挖掘技術(shù)以非結(jié)構(gòu)化的文本數(shù)據(jù)為研究對象,能夠?qū)崿F(xiàn)從海量的非結(jié)構(gòu)性文本中發(fā)現(xiàn)新的模式、規(guī)則、趨勢等,為用戶非結(jié)構(gòu)化的文本挖掘與分析研究帶來便利[11]。文本挖掘技術(shù)一般在文獻(xiàn)與目錄的研究項(xiàng)目中應(yīng)用較多,可以方便地實(shí)現(xiàn)資料查詢、計(jì)量分析、統(tǒng)計(jì)等功能,實(shí)現(xiàn)文獻(xiàn)的深度利用與開發(fā)。以上海財(cái)經(jīng)大學(xué)圖書館的“數(shù)字人文知識發(fā)現(xiàn)平臺”項(xiàng)目為例,通過數(shù)據(jù)挖掘,可以盡可能全面地揭示電影資源附著的各類信息,并以時間軸、數(shù)據(jù)地圖、對比的方式呈現(xiàn)數(shù)據(jù)[12]。
(3)關(guān)聯(lián)數(shù)據(jù)是一種已經(jīng)發(fā)展成熟的語義技術(shù)實(shí)現(xiàn)方式,可以把散落于不同文獻(xiàn)的人、地、時、事關(guān)聯(lián)起來,形成完整的知識圖,以可視化的方式展示。例如,上海圖書館的“上海年華”項(xiàng)目,主題較廣,涉及到的文獻(xiàn)有報刊、手稿、照片、名人檔案、地圖、地方文獻(xiàn)等資料,上海圖書館正是利用關(guān)聯(lián)數(shù)據(jù)技術(shù)對館藏特色資源進(jìn)行全方位的整合,以立體的方式呈現(xiàn)出各事件之間的關(guān)聯(lián)性。
(4)信息可視化是指從數(shù)字資源中發(fā)現(xiàn)特定知識并用圖形化方法呈現(xiàn),并顯示文本中隱含的內(nèi)容和關(guān)系,如GIS技術(shù)與地圖繪制等[13]。例如,華東師范大學(xué)圖書館的方志庫,利用可視化技術(shù)將方志文本中復(fù)雜或難以表達(dá)的內(nèi)容,以視覺符號或圖表的形式表達(dá)出來,為人們提供一種理解海量復(fù)雜文本的內(nèi)容、結(jié)構(gòu)和內(nèi)在規(guī)律等信息的有效手段,使研究者視覺認(rèn)知、關(guān)聯(lián)、推理的能力得到充分發(fā)揮。
我們應(yīng)該看到,數(shù)字人文應(yīng)用在特藏資源數(shù)字化建設(shè)中取得了一定的成就,在一個項(xiàng)目建設(shè)中綜合運(yùn)用多種數(shù)字人文相關(guān)技術(shù)的情況越來越多。但是,在為人文研究提供了許多便利的工具和方法的同時,許多相關(guān)的應(yīng)用還不是很完備,尤其是對“如何建”“怎么建”等相關(guān)問題考慮還不是很成熟,對人文學(xué)者研究沒有真正起到幫助作用。以上海外國語大學(xué)圖書館的“俄羅斯文學(xué)特色文獻(xiàn)數(shù)據(jù)平臺”項(xiàng)目為例,數(shù)據(jù)檢索結(jié)果可以顯示各數(shù)據(jù)庫的列表形式展示給用戶,雖然可以清楚看到來源數(shù)據(jù)庫,但對用戶幫助不大[14]。如果能將資源以更符合用戶需求的條件排序,并能去除其中的重復(fù)數(shù)據(jù),則可以進(jìn)一步提高用戶的研究效率,擴(kuò)展其研究視野。
另外,上海地區(qū)其他圖書館在特藏資源建設(shè)上應(yīng)用數(shù)字人文相關(guān)技術(shù)的情況還不是很多,為此筆者進(jìn)行了相關(guān)調(diào)研。結(jié)果顯示,67%的圖書館對數(shù)字人文理念及相關(guān)技術(shù)還不是很了解;78%的圖書館表示目前本館缺乏既懂?dāng)?shù)字人文技術(shù)、又對人文學(xué)者研究需求熟悉的館員;35%的圖書館在特藏資源建設(shè)應(yīng)用數(shù)字人文相關(guān)技術(shù)方面有規(guī)劃,但是還未制定出相對成熟的具體方案。調(diào)研結(jié)果從一個側(cè)面反映了目前圖書館對數(shù)字人文理念和相關(guān)技術(shù)還需要深入了解,圖書館缺乏相應(yīng)的人才儲備。雖然如此,許多圖書館還是計(jì)劃在特藏資源建設(shè)中結(jié)合人文學(xué)者的研究需要,嘗試數(shù)字人文技術(shù)的相關(guān)應(yīng)用和研究。
上海師范大學(xué)圖書館在確定了以數(shù)字化的特色館藏服務(wù)教學(xué)和科研的目標(biāo)以后,擬將館藏民國文獻(xiàn)的整理與研究作為突破口,把“原版民國時期文獻(xiàn)”和建國后出版的“新版民國時期文獻(xiàn)”(包括編校、再版和影印出版)結(jié)合起來,建設(shè)一個能充分揭示民國時期文獻(xiàn)及整理成果子目內(nèi)容的目錄數(shù)據(jù)庫——“民國時期文獻(xiàn)目錄數(shù)據(jù)平臺”(以下簡稱“數(shù)據(jù)平臺”),以有效促進(jìn)人文學(xué)者對民國文獻(xiàn)的分析和研究,并使民國文獻(xiàn)整理出版和采集有章可循。
當(dāng)前民國時期文獻(xiàn)及其整理成果豐碩,本研究通過全國各大圖書館的館藏目錄、各民國文獻(xiàn)主要出版機(jī)構(gòu)目錄等途徑收集的“新版民國時期文獻(xiàn)”近1 000種。但是,到目前為止,尚沒有一個關(guān)于“新版民國時期文獻(xiàn)”的目錄數(shù)據(jù)庫。“數(shù)據(jù)平臺”將擴(kuò)展民國時期書目整理的時間外延,首次全面普查1949年后民國文獻(xiàn)整理出版成果,把握民國文獻(xiàn)出版整體情況,揭示已整理出版的民國文獻(xiàn)中所收錄圖書、報刊和檔案的子目內(nèi)容,彌補(bǔ)解放后民國文獻(xiàn)的整理出版無書目可查的缺憾,可以使民國文獻(xiàn)的書目索引編制更加完整,并具有可持續(xù)性。
另外,數(shù)字人文相關(guān)技術(shù)可以有效揭示“新版民國時期文獻(xiàn)”與“原版民國時期文獻(xiàn)”之間的關(guān)聯(lián)性,有利于發(fā)現(xiàn)民國文獻(xiàn)整理是否過于集中于哪些類目,哪些文獻(xiàn)類型或者哪些文獻(xiàn)被重復(fù)、過度整理,哪些文獻(xiàn)一直未被重視、甚至被忽視,從而找到并發(fā)現(xiàn)文獻(xiàn)整理出版的趨勢和軌跡,便于出版社和圖書館制定出版計(jì)劃或進(jìn)行采購決策。而且,通過數(shù)字人文相關(guān)技術(shù)的應(yīng)用,可以揭示某一人物、某一事件或某一學(xué)科研究進(jìn)展之間的關(guān)聯(lián),并以可視化的方式呈現(xiàn),幫助學(xué)者快速地從海量的數(shù)據(jù)中發(fā)現(xiàn)新的知識,發(fā)現(xiàn)人物關(guān)系、事件發(fā)展脈絡(luò)以及某一學(xué)科發(fā)展軌跡。因此,本項(xiàng)目應(yīng)用數(shù)字人文技術(shù),主要是解決3個方面的問題:一是解決數(shù)據(jù)檢索、文本對比和文本標(biāo)注的問題,將人文學(xué)者從低水平的重復(fù)工作中解放出來;二是基于數(shù)據(jù)的量化統(tǒng)計(jì)和分析研究,對內(nèi)容數(shù)據(jù)進(jìn)行關(guān)聯(lián);三是對知識進(jìn)行多維度呈現(xiàn),為學(xué)者提供一種新的角度來解決問題或發(fā)現(xiàn)新問題。
“數(shù)據(jù)平臺”建設(shè)之初,項(xiàng)目組首先邀請到相關(guān)領(lǐng)域的專家進(jìn)行論證,主要是考慮如何建的問題,即如何用數(shù)字人文相關(guān)技術(shù)建立一個多元的、可供分析的“數(shù)據(jù)平臺”來達(dá)到建設(shè)目的。
(1)需要建立規(guī)范檔
民國文獻(xiàn)出版具有一定的特殊性,如出版地、出版機(jī)構(gòu)名稱變更的情況普遍,民國期刊???fù)刊、出版周期不固定等情況較多,還有就是著者筆名尤其多。因此,建立規(guī)范檔就成為先決條件之一。除了常規(guī)的主題規(guī)范、文獻(xiàn)類型規(guī)范以外,需要對名稱進(jìn)行規(guī)范,尤其是對同名的不同責(zé)任者以及同一責(zé)任者的不同筆名進(jìn)行消歧與合并。
(2)具備數(shù)據(jù)關(guān)聯(lián)和分析功能
民國文獻(xiàn)中所涉及的人、地、時、事等都具有千絲萬縷的關(guān)聯(lián),如果按時間、人物、地點(diǎn)及出版機(jī)構(gòu)等進(jìn)行多重關(guān)聯(lián)統(tǒng)計(jì)分析,就能夠快速地從海量的數(shù)據(jù)中發(fā)現(xiàn)新的知識,發(fā)現(xiàn)人物關(guān)系、事件發(fā)展脈絡(luò)以及出版發(fā)展軌跡等。
(3)具備可視化功能
應(yīng)用可視化工具,能夠?yàn)槊駠鴷r期的出版史研究、文獻(xiàn)版本研究乃至各個學(xué)科的專題研究提供較為直觀的分析,把傳統(tǒng)數(shù)據(jù)庫的檢索結(jié)果變成用戶可以開展自主分析的基礎(chǔ)數(shù)據(jù),把傳統(tǒng)數(shù)據(jù)庫檢索結(jié)果的平面式輸出轉(zhuǎn)化為立體化的全方位時空呈現(xiàn)。
(4)具備數(shù)據(jù)的后續(xù)更新和維護(hù)功能
“數(shù)據(jù)平臺”不僅能錄入數(shù)據(jù),也應(yīng)便于查重,實(shí)現(xiàn)新版本追加、自動排序以及索引編制功能,解決數(shù)據(jù)的后續(xù)更新和維護(hù)問題。另外,還需要具有開放性,為以后進(jìn)一步增加全文提供接口。
建立“數(shù)據(jù)平臺”的基礎(chǔ)數(shù)據(jù),首先主要是依托《民國時期總書目》和《1833—1949全國中文期刊聯(lián)合目錄》及其補(bǔ)編本,以及本項(xiàng)目收集到的“新版民國時期文獻(xiàn)”相關(guān)子目。
“數(shù)據(jù)平臺”的定位不僅僅是儲存與檢索,其既要為人文學(xué)者提供研究環(huán)境,并幫助他們重新組織知識、發(fā)現(xiàn)問題,還要為出版社和圖書館提供出版或采購依據(jù)。因此,在項(xiàng)目啟動之初,關(guān)于如何利用圖書館現(xiàn)有的人力、物力以及資源條件,將數(shù)字人文相關(guān)技術(shù)應(yīng)用于“數(shù)據(jù)平臺”,成為項(xiàng)目亟需解決的問題之一。
(1)共享開放的規(guī)范數(shù)據(jù)集
名稱規(guī)范檔的建立是“數(shù)據(jù)平臺”建設(shè)的基礎(chǔ),也是最重要的環(huán)節(jié)之一,但是目前利用圖書館現(xiàn)有的人員和技術(shù)條件很難實(shí)現(xiàn)。因此,在建設(shè)時,項(xiàng)目組大量調(diào)研了上海地區(qū)其他圖書館,尤其是上海圖書館的特藏資源數(shù)字化建設(shè),在對規(guī)范數(shù)據(jù)充分了解的基礎(chǔ)上,加強(qiáng)與上海圖書館的合作,利用其開放的人名規(guī)范數(shù)據(jù)集,首先進(jìn)行先期的規(guī)范檔建立,并且在合作共享的基礎(chǔ)上,逐步實(shí)現(xiàn)對出版機(jī)構(gòu)等其他相關(guān)規(guī)范檔的建立。
目前,“數(shù)據(jù)平臺”已搭建完成,大量基礎(chǔ)數(shù)據(jù)正在錄入。對于文獻(xiàn)作者,以及題名、摘要中的人名,則直接進(jìn)入上海圖書館人名規(guī)范庫獲取其URI,然后進(jìn)行著錄。例如,《哲學(xué)概論》一書的作者陳大齊,通過規(guī)范庫的檢索,其人名URI值為http://data.library.sh.cn/entity/person/p7sfh4jcd1mfa4vt,“數(shù)據(jù)平臺”就將此URI直接錄入。對于有多個筆名或別稱的作者,如冰心,原名謝婉瑩,筆名冰心女士、男士、素人,所有這些名字的URI賦值都是一致的,均為http://data.library.sh.cn/entity/person/05ebng66w4qjnkhg。
(2)數(shù)據(jù)關(guān)聯(lián)及文本分析功能的實(shí)現(xiàn)
“數(shù)據(jù)平臺”在底層數(shù)據(jù)集建立時,通過對基本數(shù)據(jù)集、原版數(shù)據(jù)集、新版數(shù)據(jù)集和新版子目數(shù)據(jù)集4個相關(guān)子庫所共有或特有的元數(shù)據(jù)進(jìn)行規(guī)范,并對其關(guān)聯(lián)性進(jìn)行確定,從而建立彼此之間的多重關(guān)聯(lián)關(guān)系。因此,利用“數(shù)據(jù)平臺”可以開展基于數(shù)據(jù)挖掘的文本分析與統(tǒng)計(jì)。
目前,“數(shù)據(jù)平臺”規(guī)范的元數(shù)據(jù)包括文獻(xiàn)目錄(含內(nèi)容提要)中的人名、地名、學(xué)科主題、原版及新版出版項(xiàng)等信息,可以利用“數(shù)據(jù)平臺”提供的檢索和分析功能進(jìn)行文獻(xiàn)主題分布、出版地分布、作者分布、年代分布等分析,并且還可以利用這些信息進(jìn)行組配式的關(guān)聯(lián)分析。例如,通過對著作的主題、出版時間分析,揭示某一學(xué)術(shù)領(lǐng)域的研究或某一學(xué)術(shù)流派在民國時期的學(xué)術(shù)史;通過作者及其著作出版時間的分析,勾勒出作者的學(xué)術(shù)軌跡和學(xué)術(shù)生平等。又如,如果想要獲取“民國時期敦煌學(xué)研究”的相關(guān)信息,通過作者與主題的匹配分析,可以看到敦煌學(xué)的早期研究者的基本信息,其中,陳垣為中國歷史學(xué)家、宗教史學(xué)家,向達(dá)為中外交通史家,羅振玉為金石學(xué)家、考古學(xué)家,劉復(fù)為語言學(xué)家,張大千為畫家等,正是因?yàn)檫@些學(xué)者利用敦煌文書提供的原始資料開展各自學(xué)科領(lǐng)域的研究,從而推動了敦煌學(xué)的起步和發(fā)展,并讓敦煌學(xué)發(fā)展成為一門世界關(guān)注的顯學(xué)。
(3)可視化工具的應(yīng)用
可視化工具在“數(shù)據(jù)平臺”的應(yīng)用,主要體現(xiàn)在文本分析的可視化和GIS技術(shù)的應(yīng)用上。文本分析的可視化,仍然以“民國時期敦煌學(xué)研究”為例,通過學(xué)科主題結(jié)合時間范圍的分析,能夠繪制出敦煌學(xué)在1908-1949年間學(xué)術(shù)論著發(fā)表數(shù)量柱狀圖,以此體現(xiàn)敦煌學(xué)研究的發(fā)展情況,具體如圖1所示。
圖1 民國時期敦煌學(xué)研究論著數(shù)量
GIS技術(shù)在“數(shù)據(jù)平臺”的應(yīng)用,主要是通過“中國歷史地理信息系統(tǒng)”(CHGIS)建立地理信息關(guān)聯(lián),將地圖的視覺化效果、地理分析功能與“數(shù)據(jù)平臺”中的地名信息相結(jié)合,在中國歷史地圖之上,疊加整合,實(shí)現(xiàn)時間和空間兩方面的直觀檢索,提供文獻(xiàn)的出版地分析、作者的地域分布分析以及出版的時空變遷分析等[15]。通過地圖直觀顯示文獻(xiàn)的出版數(shù)據(jù),按時間先后順序自動生成地域出版文獻(xiàn)數(shù)量、出版機(jī)構(gòu)分布、出版機(jī)構(gòu)遷徙流動路線圖等,實(shí)現(xiàn)檢索結(jié)果、分析結(jié)果的電子地圖呈現(xiàn)。
(4)數(shù)據(jù)可編輯功能的實(shí)現(xiàn)
考慮到出版信息在不斷增加,開放數(shù)據(jù)接口,可供出版社和圖書館按照平臺要求的格式添加數(shù)據(jù),以防止提供數(shù)據(jù)不準(zhǔn)確和完整。因此,在數(shù)據(jù)提交時,平臺設(shè)計(jì)了審核流程,以備對數(shù)據(jù)進(jìn)行不斷的完善和補(bǔ)充。
在數(shù)字人文視域下,圖書館特藏資源的數(shù)字化并非必須具備非常成熟的數(shù)據(jù)人文理念及技術(shù),而是要根據(jù)本館現(xiàn)有的條件,同時充分調(diào)研人文學(xué)者的研究需求,制定具有可操作性、符合本館資源特點(diǎn)的數(shù)字化方案。在實(shí)際建設(shè)時,對于數(shù)字人文相關(guān)技術(shù)的應(yīng)用,可以考慮先易后難,逐步實(shí)現(xiàn)和完善。另外,對于各方面制約和限制,需要前期進(jìn)行充分論證是否可以通過其他方式得以解決,如人員、技術(shù)支持、項(xiàng)目管理、數(shù)據(jù)保存、元數(shù)據(jù)選取等。本項(xiàng)目組在“數(shù)據(jù)平臺”建設(shè)中,對于這些關(guān)鍵問題的解決體會頗深。
首先是團(tuán)隊(duì)建設(shè)。上海師范大學(xué)圖書館雖然缺乏熟悉數(shù)字人文技術(shù)的專業(yè)人員,但是通過近些年的積累,不論在民國文獻(xiàn)的整理與研究,還是在研究團(tuán)隊(duì)培養(yǎng)方面都已具有一定的基礎(chǔ)。團(tuán)隊(duì)成員大多是具備文獻(xiàn)整理及相關(guān)領(lǐng)域知識背景,了解人文學(xué)科發(fā)展現(xiàn)狀及態(tài)勢的專業(yè)館員。因此,對“如何建”以及“怎么建”具有一定的思路和創(chuàng)新想法,可以通過學(xué)習(xí)彌補(bǔ)在數(shù)字人文理念和相關(guān)技術(shù)應(yīng)用方面的不足。在項(xiàng)目組制定出“如何建”的思路之后,團(tuán)隊(duì)成員就通過參加數(shù)字人文會議、調(diào)研和聽取數(shù)字人文講座等方式,加強(qiáng)對數(shù)字人文的理解,并且結(jié)合其他圖書館的相關(guān)案例,制定符合本項(xiàng)目特色的解決方案。
其次是合作眾籌。雖然數(shù)字人文研究在很大程度上依賴于掌握數(shù)據(jù)處理技術(shù)的專家,但是,在“數(shù)據(jù)平臺”建設(shè)時,在技術(shù)準(zhǔn)備不充分的條件下,項(xiàng)目組沒有坐以待斃,而是考慮先期使用成熟、穩(wěn)定的開放數(shù)據(jù)集,與在數(shù)字人文項(xiàng)目方面有成功經(jīng)驗(yàn)的團(tuán)隊(duì)進(jìn)行合作共享。首先利用上海圖書館的“人名規(guī)范庫”,然后在合作中,通過不斷的學(xué)習(xí)和積累,尋求其他相關(guān)規(guī)范庫的建立。另外,對于項(xiàng)目實(shí)施,尤其是平臺設(shè)計(jì)和基礎(chǔ)數(shù)據(jù)錄入時,需要大量的人力和物力的情況,則通過眾籌的方法,把技術(shù)難題分解,分包給其他有經(jīng)驗(yàn)的專業(yè)團(tuán)隊(duì),各個擊破。例如,“數(shù)據(jù)平臺”的設(shè)計(jì),主要是請有經(jīng)驗(yàn)的專業(yè)人員進(jìn)行,團(tuán)隊(duì)成員與專業(yè)人員通過不斷溝通和測試,進(jìn)一步完善設(shè)計(jì)思路和方案;數(shù)據(jù)錄入則是外包給專業(yè)的數(shù)據(jù)公司,在確保錄入速度的同時,為了保證質(zhì)量,團(tuán)隊(duì)成員主要是做好專業(yè)指導(dǎo)和抽校工作。
再次是營銷工作。這項(xiàng)工作很重要,但也容易被忽視。試想如果“數(shù)據(jù)平臺”建成以后缺乏宣傳與推廣,或許會導(dǎo)致利用率不高、達(dá)不到最初建設(shè)目的的尷尬局面。反之,如果能對“數(shù)據(jù)平臺”的建設(shè)加大宣傳力度,不但可以提高使用率,也可以在目標(biāo)用戶群中形成上海師范大學(xué)圖書館民國時期文獻(xiàn)特藏資源的既定印象,從而匯集到更多的民國文獻(xiàn)資源,更加促進(jìn)圖書館特藏資源的建設(shè)。對此,在項(xiàng)目建設(shè)前后,上海師范大學(xué)圖書館借助多方渠道,加強(qiáng)對民國時期文獻(xiàn)的整理與研究,以及“數(shù)據(jù)平臺”的推廣,以此獲取圖書館界、出版界和學(xué)術(shù)界等其他相關(guān)機(jī)構(gòu)的支持和幫助。例如,利用上海師范大學(xué)圖書館承辦上海高校圖工委刊物《上海高校圖書情報工作研究》的機(jī)會,增加“民國文獻(xiàn)整理與研究”固定專欄;在“國家圖書館民國時期文獻(xiàn)保護(hù)工作辦公室”的指導(dǎo)下,與上海圖書館、國家圖書館出版社加強(qiáng)合作,舉辦“民國時期文獻(xiàn)整理與研究國際研討會”等。這樣不但可以讓圖書館界或?qū)W界知曉上海師范大學(xué)圖書館在民國文獻(xiàn)整理與研究方面的作為,而且還可以從資金、資源和技術(shù)實(shí)現(xiàn)等方面獲得其他機(jī)構(gòu)的幫助,從而輔助本項(xiàng)目的具體實(shí)施。更重要的是,可以讓更多的人文學(xué)者了解到“數(shù)據(jù)平臺”建設(shè)的重要性以及對相關(guān)研究的支撐作用。
最后,在“數(shù)據(jù)平臺”建設(shè)中,項(xiàng)目組還特別強(qiáng)調(diào)元數(shù)據(jù)創(chuàng)建、管理及映射方面的工作,爭取與現(xiàn)行通行標(biāo)準(zhǔn)一致或與國際標(biāo)準(zhǔn)接軌,以便于知識發(fā)現(xiàn)。例如,在項(xiàng)目實(shí)施時充分考慮到《民國時期總書目》和《1833—1949全國中文期刊聯(lián)合目錄》及其補(bǔ)編本的分類排序規(guī)則,同時還參照目前國家圖書館正在編纂的《民國時期文獻(xiàn)總目(圖書卷)》進(jìn)行分類、標(biāo)引與著錄,使“新版民國時期文獻(xiàn)”目錄與《民國時期總書目》保持基本一致的體例和詳盡的著錄內(nèi)容。另外,在元數(shù)據(jù)保存方面項(xiàng)目組也非常注意平臺資源的合法性,書目數(shù)據(jù)庫中的字段以及文檔結(jié)構(gòu)中獨(dú)特的排列方法使用是不是受到版權(quán)保護(hù),有沒有侵犯原創(chuàng)作品的版權(quán)等問題都咨詢相關(guān)專家意見,以免招致不必要的法律糾紛。
數(shù)字人文技術(shù)的發(fā)展給傳統(tǒng)人文領(lǐng)域的研究帶來了新的活力,“數(shù)據(jù)平臺”的建設(shè)及數(shù)字人文相關(guān)技術(shù)在民國文獻(xiàn)領(lǐng)域的應(yīng)用實(shí)踐,給研究者帶來了新的視角,也為數(shù)字人文在特藏資源數(shù)字化建設(shè)上增添了一個新的案例。國內(nèi)特藏資源數(shù)字人文項(xiàng)目中,由圖書館支持或開展的成功案例還比較少,過程中必然會遇到各種挑戰(zhàn),尤其需要計(jì)算機(jī)及多媒體領(lǐng)域的技術(shù)專家來不斷優(yōu)化知識組織方法和知識服務(wù)功能。在當(dāng)前數(shù)字人文的大趨勢下,圖書館需要借鑒一些成功的案例,或是尋求與其他在數(shù)字人文研究及服務(wù)方面有成功經(jīng)驗(yàn)的圖書館的合作,或是用眾籌的方法來解決技術(shù)難題,又或是積極參加數(shù)字人文國際會議加強(qiáng)經(jīng)驗(yàn)交流。
目前,“數(shù)據(jù)平臺”已錄入部分?jǐn)?shù)據(jù),各項(xiàng)功能正在測試完善中,仍然需要進(jìn)一步摸索,在其運(yùn)行一段時間后,將邀請相關(guān)專家再次評估。如果運(yùn)行效果好,下一步將考慮在目錄數(shù)據(jù)庫的基礎(chǔ)上進(jìn)一步擴(kuò)展數(shù)據(jù)內(nèi)容,尋求相關(guān)合作,最終增加全文;如果效果不佳,對人文學(xué)者研究的影響或推動不盡如人意,則繼續(xù)考慮應(yīng)該如何改進(jìn)等,這些問題都會是下一步團(tuán)隊(duì)反思和研究的重點(diǎn)。