文/林忠娜
數(shù)字人文旨在數(shù)字化重構(gòu)人文資源,以提升其開放性、共享性、共建性和可訪問性,在海內(nèi)外學界引起了廣泛關注。國外數(shù)字人文實踐有70余年歷史,2002年國際數(shù)字人文組織聯(lián)盟成立,2005年國際數(shù)字人文中心網(wǎng)絡成立。對于數(shù)字人文的理論探討、應用研究,數(shù)據(jù)開發(fā)層面已經(jīng)積累了一定的研究經(jīng)驗,其實踐也頗具規(guī)模。近十年國內(nèi)數(shù)字人文研究日益受到重視,2011年武漢大學成立第一個數(shù)字人文研究中心。數(shù)字人文的主要作用是為人文學科領域中長期存在的問題提供新的研究方法。數(shù)字人文領域仍存在需要人文學者和技術(shù)人員共同攻克的新課題。
在新型數(shù)字化技術(shù)、語義網(wǎng)以及人工智能等現(xiàn)代信息技術(shù)的推動下,內(nèi)容上融合學科主題詞表進行語義描述,技術(shù)上結(jié)合數(shù)據(jù)科學、數(shù)字人文與知識圖譜,誕生了一系列圖書檔案博物機構(gòu)主導的高質(zhì)量數(shù)據(jù)庫。致力于資源保存、文化傳承與知識整序的圖書館將會成為主要責任主體?!胺e淀與超越:數(shù)字人文與中華文化”為主題的2020數(shù)字人文年會,一方面展現(xiàn)了數(shù)字人文對于實施積極的文獻搶救性保護、提供公共文化服務和專業(yè)學術(shù)研究等方面的現(xiàn)實意義;另一方面也加速推動圖書館界數(shù)字人文研究。
在數(shù)字、網(wǎng)絡信息隨手可得的新時代,圖書館的核心價值依存于其長期保存并不斷綿延發(fā)展的文明記憶資源。目前,圖書館的館藏尤其是數(shù)字館藏趨于同質(zhì)化,但特藏資源是圖書館在發(fā)展歷程中產(chǎn)生的兼具學科特色、文化內(nèi)涵和地域特征的館藏,是難以被模仿和復制的獨一無二的資源,是圖書館最有標志性的資源,是圖書館的獨特標簽。特藏文獻主要分為“特殊館藏”和“特色館藏”,優(yōu)先尋找本館具有先天優(yōu)勢的專題和目前業(yè)界亟待建設的專題,因其特色性和差異性服務會使圖書館館藏資源建設邁上新的臺階。
受人工智能、可視化、VR等技術(shù)的沖擊以及關聯(lián)數(shù)據(jù)、知識圖譜等知識探勘及呈現(xiàn)工具的影響,文獻收藏單位對重要性、唯一性、實時性、脆弱性的珍品進行數(shù)字典藏,建置數(shù)據(jù)庫,既滿足用戶的搜尋檢索習慣,又提供數(shù)據(jù)彼此間的可能脈絡。國內(nèi)出現(xiàn)古籍、民國文獻、徽州文書等特藏資源整理與分析的探索與研究。
數(shù)字人文有三個維度:學科性、專業(yè)性、技術(shù)性。數(shù)字人文是多維度、立體化的網(wǎng)狀結(jié)構(gòu),推動形成各學科領域的數(shù)字人文學術(shù)共同體。挖掘傳統(tǒng)紙質(zhì)文獻在數(shù)字人文背景下的全新變化與潛力,深度融合索引與標注等圖書館學科的專業(yè)方法,為數(shù)字人文的創(chuàng)新提供新資源。數(shù)字人文專題強調(diào)的是數(shù)字資源利用過程中的稀缺性、獨特性和關聯(lián)性,解決的是“如何用”和“用得好”的問題,二者達到理念上的契合。
目前數(shù)據(jù)和結(jié)構(gòu)化知識已成為必不可少且無處不在的學術(shù)輸入和一級輸出,實現(xiàn)可查找、可訪問、可互操作和可重復使用的數(shù)據(jù)環(huán)境目標,促進開放學術(shù)。
一是文獻資源的優(yōu)勢——研究對象的獨特性?!凹o鵬文庫”系當代著名詩人紀鵬捐贈,其中中外詩集、散文集以及關于詩歌、散文創(chuàng)作理論、創(chuàng)作技法等內(nèi)容具有較強的系統(tǒng)性和相對的完整性,涵蓋了從新中國建立初期到21世紀初的一些重要國內(nèi)外詩歌作品,從中可以看出這一時期我國詩詞作品演進和發(fā)展軌跡。
還有冰心、艾青、臧克家、賀敬之等著名作家、詩人親筆簽名的書籍。書中有人的加入,就有了靈魂與溫度。中國現(xiàn)當代文學研究比較注重初版本,簽名本有可能是初版本。即使不是初版本,其價值和意義仍十分重大。簽名本不僅具有歷史價值、學術(shù)價值,而且還具有很高的文化價值,是研究文學檔案的一個新視角。目前,相當比例的簽名本都為私人藏品,亦或散落于圖書市場,而公共藏品只占很小比例。藏書界重視有創(chuàng)意和價值的早期簽名書。一本兼具上下款和作者題詞的簽名書通常是拍賣會上的熱門商品。收藏家通常把重要作家代表作品的簽名本作為文物收藏。使簽名本圖書惠及更多的人,保護傳承這種文化現(xiàn)象,能將個人記憶整理為社會記憶,體現(xiàn)數(shù)字的人文關懷。
二是數(shù)字人文視域下——研究對象的關聯(lián)性。簽名本,包括收藏者本人的簽名,是研究文學史的一個新切入口:可以考察作者的文壇交往,了解作者的著書緣起等。程千帆、徐有富先生在《校讎廣義·典藏篇》 中指出:“藏書除有益于讀書、治學、創(chuàng)作外,也豐富了藏書家的生活內(nèi)容,使他們獲得高層次的精神享受。”這些簽名本,曾被著名詩人紀鵬所有、使用并留有印跡。有“一經(jīng)品題身價十倍”之說。既有紀鵬先生的藏書章、長春市圖書館的館藏章、還有部分簽名人的鈐印,有上款、下款和作者題詞,是最完善最齊備的簽名本。利用關聯(lián)數(shù)據(jù)技術(shù)建立詩人譜系,立體呈現(xiàn)事件之間的關聯(lián)性,意味著資源開拓的更多可能。
數(shù)字人文背景下,借鑒鄭巧英等編著的《國家圖書館圖像資源元數(shù)據(jù)規(guī)范和著錄規(guī)則》、曾子明等提出的一種面向數(shù)字人文的圖像語義描述模式等,先將簽名本詩歌特藏資源盡可能地數(shù)字化,包含圖像數(shù)字化、文本化、結(jié)構(gòu)化和語義化。對詩詞簽名本信息進行提取、描述、分類、多層次標引,借助于字符識別技術(shù)、關聯(lián)數(shù)據(jù)技術(shù)和檢索技術(shù),可以從數(shù)字化轉(zhuǎn)向文本化,最終直達本體。深入揭示資源內(nèi)部知識單元,將數(shù)字文獻作為“數(shù)據(jù)”進行處理和加工,進行知識挖掘與探索。構(gòu)建起典藏體系并配套數(shù)據(jù)挖掘、數(shù)據(jù)分析、海量數(shù)據(jù)存儲技術(shù),有效促進人文學者對當代詩歌文獻的分析和研究。
研究以收藏、整理當代詩歌簽名本和數(shù)字化為起點,揭示文獻之間、文本之間的關系和語義。館藏中的資源并不是彼此孤立存在的,資源彼此間有關聯(lián)。以構(gòu)建關聯(lián)數(shù)據(jù)為目標,數(shù)字人文視域下特藏的持續(xù)拓展、科學整理和深度研究有待聘請相關領域的專家協(xié)助,同多學科背景的研究人員積極展開合作,使之成為精準化學科服務的重要資源,利用關聯(lián)數(shù)據(jù)技術(shù)建立詩人譜系,輔助和促進收藏,以立體的方式呈現(xiàn)出各事件之間的關聯(lián)性。
通過數(shù)字人文相關技術(shù)的應用,揭示某一詩人、某一事件或某一流派研究進展之間的關聯(lián),并以可視化的方式呈現(xiàn),為廣大研究人員提供更行之有效的數(shù)據(jù)檢索手段,幫助樹立人際網(wǎng)絡、學科發(fā)展歷程以及事件關聯(lián)圖譜。數(shù)字人文技術(shù)的介入,旨在解決三個主要問題:存儲、檢索與關聯(lián)。在此基礎上,提供信息檢索與文本標注的功能;構(gòu)建內(nèi)容數(shù)據(jù)的關聯(lián)屬性,賦能文本的量化分析能力;多維展現(xiàn)數(shù)字內(nèi)容,創(chuàng)新文本研究范式。依托圖書館對信息的處理和服務能力,以及對信息來源、信息終端用戶的把握能力,以重要簽名本、歷史人物等為線索,采集保存?zhèn)€人記憶,創(chuàng)立集書籍、印刷品、展覽、講座、數(shù)據(jù)庫、專藏書架“五位一體”的全新服務模式,為讀者提供一種全方位、立體式的閱讀體驗。
構(gòu)建開放、集成、共享的多元信息整合服務平臺,有序化整理、深入挖掘并實現(xiàn)數(shù)據(jù)化,明確創(chuàng)建流程。一是對簽名本進行深度、精確的元數(shù)據(jù)標引;二是簽名信息數(shù)字化,通過富集數(shù)據(jù)和數(shù)據(jù)關聯(lián),幫助用戶發(fā)現(xiàn)新知識、提出新問題;三是以簽名本收錄為開端,通過運維宣傳、查詢使用、評論交流,豐富簽名本資源信息網(wǎng)絡;四是簽名信息挖掘,通過對文獻類別、讀者群體、閱讀時間、內(nèi)容喜好等數(shù)據(jù)的甄別分析,從以館員為主到探索與多方合作;五是發(fā)掘、搜集、輯錄、整理“簽名本詩論集”“簽名本詩歌作品集”“簽名本詩歌文獻圖像數(shù)據(jù)庫”及網(wǎng)站運行。
按照課題的研究思路、研究方法及規(guī)劃設計,設計“數(shù)字人文視域下館藏深度挖掘”系統(tǒng)。平臺通過對圖書書目信息、簽名信息及書名頁、版權(quán)頁、簽名頁圖像信息上傳,實現(xiàn)信息發(fā)布,由讀者在網(wǎng)頁端自由查看或發(fā)表閱讀感想書評等,通過讀者的行為操作實現(xiàn)“圖書-讀者-信息”之間關系的深度挖掘。系統(tǒng)的主要特點有:圖書信息展示,平臺權(quán)威發(fā)布的專家解讀,讀者評論發(fā)表,讀者行為統(tǒng)計等。
對數(shù)據(jù)進行標記、評論,創(chuàng)建并上傳用戶原創(chuàng)內(nèi)容。一是充分利用網(wǎng)站后臺進行管理,建立針對用戶反饋的及時響應機制;二是設置專題的創(chuàng)作、審稿和維護的流程,讀者和館員共同維護;三是挖掘具有審稿能力的讀者,通過管理員獲取相應權(quán)限,參與到專題的勘誤工作,在線修訂專題內(nèi)容;四是定期擴充與更新資源;五是及時優(yōu)化網(wǎng)站;六是補充網(wǎng)站功能。
初衷是保護、完善、研究和傳播,形成簽名本詩詞專題庫,面向?qū)I(yè)用戶提供開放共享服務。在圖書館網(wǎng)站發(fā)布、在線論壇、學術(shù)會議上等進行推廣,然后發(fā)掘潛在受眾,并邀請志愿者參與。提升讀者的參與度和積極性,擴展資源收集渠道,由讀者進行數(shù)字館藏征集與整理的補充,征集更多的影像圖片及文本,貢獻新資源,或豐富、整合及重新配置現(xiàn)有資源,保障專題的多樣性。館員作為數(shù)字化資源OCR、數(shù)字資源組織描述及發(fā)布主體,完成元數(shù)據(jù)著錄。專題數(shù)據(jù)經(jīng)作者創(chuàng)作后,提交審稿人審核并反饋。審核通過后,平臺發(fā)布與公眾共享,開展平臺維護和管理工作,保障專題的專業(yè)性。
從數(shù)據(jù)資源、數(shù)字技術(shù)進而到平臺系統(tǒng)都可以是眾包之源,眾包的志愿群體是實名的,對詩詞感興趣、通曉現(xiàn)代詩詞或具備一定信息技術(shù)技能的,且對參與價值認可的成員進行篩選并進行操作培訓。由我們發(fā)起,眾包志愿者參與配合,經(jīng)過相互協(xié)作共同保護、傳承和創(chuàng)建開放、互聯(lián)和智能的資源。志愿者實現(xiàn)信息技術(shù)水平、詩詞素養(yǎng)提升,學到新知識,獲得滿足感。項目以貢獻者排行榜進行激勵,對持續(xù)參與者進行鼓勵。
對圖像數(shù)據(jù)庫轉(zhuǎn)錄、修訂、標記與分類,進行標準化加工、組織和管理,轉(zhuǎn)化成結(jié)構(gòu)化數(shù)據(jù)。匯集詩歌文獻的封面、版權(quán)頁、目錄等出版發(fā)行信息,簽名信息,作者簡介、書摘、詩人紀鵬的標注及藏書章、印章、款識、書中閱讀痕跡及館藏信息等。
關聯(lián)數(shù)據(jù)是一種語義知識圖譜,注重知識發(fā)布與關聯(lián)?;趫D數(shù)據(jù)庫實現(xiàn)的知識圖譜是廣義上的知識圖譜,注重知識挖掘與計算。嘗試基于圖數(shù)據(jù)庫實現(xiàn)知識圖譜和關聯(lián)數(shù)據(jù)的結(jié)合,對詩詞背景、典故、情感及地域特征,展開詩、人、地、掌故關聯(lián)性推理和交互式查詢。最終在圖書館特藏資源建設的基礎上,結(jié)合數(shù)字技術(shù)、公眾力量和社會資源共同完成簽名本詩詞專題數(shù)據(jù)庫建設。
專題庫建設是從數(shù)據(jù)采集、加工、組織、存儲,到評估、開放、共享、利用的全流程。目前我們對詩詞簽名本特藏資源進行了比較充分的分析與梳理,推動搭建面向?qū)W科的特藏資源研究與開發(fā)平臺,突出館藏特色,努力發(fā)揮館藏的數(shù)字人文研究價值,但評估、開放、共享、利用及優(yōu)化思考相對薄弱。
一是數(shù)據(jù)評估。對項目的平臺建設、宣傳,任務分發(fā)、部署,質(zhì)量控制及風險管理、經(jīng)費支持等都要進行評估,需要多部門、多學科、多元服務與多元支持,邀請數(shù)字人文學者、計算機專業(yè)人才、優(yōu)秀項目管理者及有關領域的法律顧問等,商議具有指導意義的方案。在評估基礎上進一步細化拓展,完成對現(xiàn)代詩詞簽名本的知識組織和開發(fā)利用,注意館藏中高質(zhì)量圖像的保護,后續(xù)研究需建立現(xiàn)代詩文文本標注的語料庫。一邊建設,一邊拓寬交流渠道,了解用戶需求與反饋,并及時改進。
二是開源共享。使數(shù)據(jù)朝著RDF格式轉(zhuǎn)變,重視API標準化或者為不同類型用戶設置針對性訪問方法。開放的在線專題庫和開放數(shù)據(jù)平臺無疑會為研究人員提供隨時隨地訪問的便利,考證文獻的真實性、原本性,考證圖書版本演變源流等。但是基于版權(quán)的開放程度需應對挑戰(zhàn),如提供鏈接服務過程中產(chǎn)生的侵權(quán)風險,在開發(fā)圖片數(shù)據(jù)庫的過程中的著作權(quán)侵權(quán)風險,如特定情況下,合理使用及著作權(quán)例外并不被法院所認可等。協(xié)作和交互技術(shù)有待升級,數(shù)據(jù)安全和數(shù)據(jù)隱私安全有待保障,數(shù)據(jù)加密和脫敏技術(shù)有待升級。
三是增進流通。簽名本專題庫承載文化信息的流通功能,實現(xiàn)簽名本價值最大程度的體現(xiàn),達到詩歌文獻信息資源共享。共享和反饋環(huán)境以及深度交互的渠道有待進一步探索,數(shù)字化技術(shù)及數(shù)據(jù)管理技術(shù)要不斷升級。依照一套完整的技術(shù)規(guī)范,發(fā)揮關聯(lián)數(shù)據(jù)的價值,采用url作為唯一能定位的資源標識符,可以實現(xiàn)簽名本資源多平臺共建共享,提升數(shù)字人文資源流動屬性。為提升簽名本圖像內(nèi)容的實用價值,應利用知識圖譜、本體方法論、語義網(wǎng)等技術(shù)手段提升文字資源等呈現(xiàn)范式與知識體系構(gòu)建。
四是提升實用價值。可視化分析、統(tǒng)計分析、關聯(lián)分析等會為研究帶來新的發(fā)現(xiàn),帶著情懷的簽名本,有人的故事、也有書的故事,是精神思想交流和私人友誼交往的見證。每本藏書都有溫度,有態(tài)度,有故事。講好這些故事,數(shù)據(jù)分析技術(shù)及可視化技術(shù)要不斷升級。利用平臺的可視化分析軟件功能使眾包數(shù)據(jù)、統(tǒng)一檢索與分析數(shù)據(jù)等功能發(fā)現(xiàn)知識發(fā)現(xiàn),實現(xiàn)數(shù)據(jù)的智慧化使用。
五是資源優(yōu)化。數(shù)字人文研究,圖像是重要的研究資料,包括原照和數(shù)字化后的圖像文獻,標準規(guī)范地展現(xiàn)詩歌簽名本領域圖像的特性,有待深入研究。項目選擇自建平臺,由項目組成員,按照課題思路,創(chuàng)建獨立的項目網(wǎng)站。版本略低,結(jié)構(gòu)、流程、功能及測試等有待優(yōu)化。加強機構(gòu)之間、作者之間的交流,加強與高校、科研機構(gòu)、圖書館的交流合作,從實體到數(shù)字圖像相關技術(shù)、圖像數(shù)字資源的描述、圖像語義層次的描述、分類及元數(shù)據(jù)屬性特征、關聯(lián)關系予以揭示并進行優(yōu)化。