靳文君/安徽大學(xué)管理學(xué)院
近年來,我國已有學(xué)者對國內(nèi)外檔案數(shù)字人文項目進(jìn)行了研究,如董聰穎從檔案信息資源開發(fā)角度研究國外檔案數(shù)字人文項目對我國的啟示[1];蔡迎春通過研究國內(nèi)數(shù)字人文項目和案例,認(rèn)為我國數(shù)字人文項目主要集中在古籍、文學(xué)、藝術(shù)、檔案等人文領(lǐng)域,其他領(lǐng)域關(guān)注度并不高[2];趙生輝通過分析國外檔案領(lǐng)域數(shù)字人文項目運(yùn)行和管理特征,提出推動我國項目發(fā)展的四點(diǎn)措施[3]。目前對中外檔案領(lǐng)域數(shù)字人文項目實踐的綜合比較還比較少。筆者利用網(wǎng)頁調(diào)查法對中美檔案領(lǐng)域數(shù)字人文項目(各選20項)進(jìn)行對比,厘清異同點(diǎn),以借鑒美國檔案數(shù)字人文項目的有益經(jīng)驗。
我國檔案數(shù)字人文項目主要依托高校數(shù)字人文中心、公共圖書館、檔案館及博物館,具有以下特點(diǎn):第一,高校數(shù)字人文中心是目前檔案數(shù)字人文項目的主要承擔(dān)機(jī)構(gòu),約占65%,能為檔案數(shù)字人文項目提供資源基礎(chǔ)及人才技術(shù)保障。第二,獨(dú)立承擔(dān)和聯(lián)合協(xié)作模式并存,如“圖文關(guān)聯(lián)”標(biāo)記系統(tǒng)項目主要由武漢大學(xué)數(shù)字人文中心承擔(dān)[4],“數(shù)字敦煌”項目由中國科學(xué)院計算機(jī)研究所、武漢大學(xué)、浙江大學(xué)以及敦煌研究院聯(lián)合承擔(dān)[5],“中國歷史人物傳記資料庫(CBDB)”項目則由哈佛大學(xué)燕京學(xué)社、中研院歷史語言研究所、北京大學(xué)中國古代史研究中心等機(jī)構(gòu)共同負(fù)責(zé)。
美國檔案數(shù)字人文項目大多依托高校專業(yè)學(xué)科數(shù)字人文研究中心,與特定技術(shù)或?qū)W科聯(lián)系密切。第一,項目依托機(jī)構(gòu)一般成立時間較早,檔案數(shù)字人文項目發(fā)展成熟。美國布朗大學(xué)數(shù)字學(xué)術(shù)中心早在1994年就已成立,是布朗大學(xué)多個數(shù)字人文項目的孵化器[6]。第二,項目依托多元化的機(jī)構(gòu)組成人員,為檔案數(shù)字人文項目發(fā)展提供技術(shù)保障和人文學(xué)理基礎(chǔ)。如弗吉尼亞大學(xué)的“影谷項目(The Valley of Shadow)”,前后約有82人參與其中[7];斯坦福大學(xué)空間與文本分析中心核心研究團(tuán)隊(CESTA),包括“人文+設(shè)計”、文學(xué)實驗室、詩歌媒體實驗室、“空間歷史項目”等6個核心研究團(tuán)隊,合作推動數(shù)字人文項目[8]。第三,獨(dú)立高校包含多個數(shù)字人文中心,這些數(shù)字人文中心將人文社會科學(xué)與信息技術(shù)進(jìn)行深度融合。
兩國相同點(diǎn)體現(xiàn)在:第一,都主要依托高校數(shù)字人文研究中心。第二,都比較重視檔案數(shù)字人文項目合作,都與公共圖書館、檔案館以及博物館進(jìn)行合作。第三,獨(dú)立專有的檔案數(shù)字人文項目中心都比較少,多依托檔案數(shù)字資源,進(jìn)行文本的挖掘分析、關(guān)聯(lián)數(shù)據(jù)庫的構(gòu)建和可視化研究工具的開發(fā)。
兩國不同點(diǎn)體現(xiàn)在檔案數(shù)字人文相關(guān)研究中心成立時間、數(shù)量及核心團(tuán)隊組成等方面。第一,美國檔案數(shù)字人文項目依托機(jī)構(gòu)普遍建立較早,在20世紀(jì)90年代已有高校籌劃成立數(shù)字人文研究機(jī)構(gòu)。直到2011年,武漢大學(xué)才成立了數(shù)字人文研究中心,該中心的成立是我國數(shù)字人文中心建設(shè)起步的標(biāo)志。第二,美國檔案數(shù)字人文中心的數(shù)量遠(yuǎn)超我國。第三,美國數(shù)字人文中心發(fā)展規(guī)模相對健全,不少高校已建立了不同學(xué)科領(lǐng)域的數(shù)字人文中心,包含了多個核心團(tuán)隊。我國檔案數(shù)字人文中心目前雖初具規(guī)模,但核心團(tuán)隊主要由高校相關(guān)學(xué)科的專家和學(xué)生組成,變動性比較大。
當(dāng)前我國檔案數(shù)字人文項目實踐方式呈現(xiàn)多樣化特點(diǎn),主要有六種:第一種為早期的古籍?dāng)?shù)據(jù)庫項目(3項,占15%),多是在歷史古籍文獻(xiàn)數(shù)字化基礎(chǔ)上發(fā)展來的,“中國基本古籍庫”[9]、“國學(xué)寶典”等都是此類代表[10]。第二種GIS歷史地理可視化(5項,占25%),主要是將實際地理空間和檔案歷史文獻(xiàn)資料互相關(guān)聯(lián),按照主題以多維模式展現(xiàn)?!爸袊鴼v代人物傳記資料庫”即是采用GIS技術(shù)將唐代至清代四十多萬人的傳記資料清晰地呈現(xiàn)在地理系統(tǒng)中[11]。第三種是非遺數(shù)字資料庫(1項,占5%),將文本、照片和視頻資料進(jìn)行數(shù)字化,按照不同主題對信息進(jìn)行處理和呈現(xiàn)?!皵?shù)字敦煌”項目就是對敦煌石窟和文物進(jìn)行數(shù)字化處理,將非遺信息資源進(jìn)行可視化展現(xiàn)[12]。第四種為專題歷史文獻(xiàn)資料庫(6項,占3%),是對某一歷史或文學(xué)主題的數(shù)字資源進(jìn)行挖掘和關(guān)聯(lián),發(fā)掘新的歷史文學(xué)研究視角和開發(fā)分析工具。第五種是歷史圖景虛擬重現(xiàn)(2項,占10%),主要利用制圖技術(shù)和虛擬現(xiàn)實技術(shù)重現(xiàn)歷史建筑圖景,實現(xiàn)歷史和現(xiàn)在的虛實交互。第六種是社會記憶構(gòu)建網(wǎng)站(5項,占25%),多利用現(xiàn)代信息技術(shù)整合專題社會記憶資源,這是我國檔案數(shù)字人文項目的特色實踐方式。
美國檔案數(shù)字人文項目多以各類主題檔案庫呈現(xiàn),大致包含七類:第一類是名人檔案庫項目(6項,占比30%),采用文本標(biāo)記、詞頻分析及語義挖掘等技術(shù)對名人檔案信息資源進(jìn)行深度開發(fā)和融合,推動主題研究。弗吉尼亞大學(xué)英語系的“羅塞蒂檔案庫(Rossetti Archive)”項目即屬于此類[13]。第二類是基于GIS的歷史地理可視化項目(8項,占比40%),是美國檔案數(shù)字人文項目的主要實踐方式。斯坦福大學(xué)空間和文本分析中心的“繪制共和國信件(Mapping the Republic of Letters)”項目將伊拉斯謨時代到富蘭克林時代關(guān)于公眾人物的通信、社交等實現(xiàn)交互可視化,提供新的研究視角[14]。特定歷史時期、對象及事件檔案庫(9項,占25%)是對特定時間、人物及特大歷史事件的重新審視和深入挖掘,是美國檔案數(shù)字人文項目實踐的重點(diǎn)。喬治梅森大學(xué)歷史與新媒體研究中心的“911事件數(shù)字檔案(The September 11 Digital Archive)項目”就是對特定歷史事件資料進(jìn)行文本標(biāo)記和圖像處理[15]。此外,美國檔案數(shù)字人文項目還包含少量的語言資料庫和專門的學(xué)術(shù)資源檔案庫(2項,占10%)。
中美兩國檔案數(shù)字人文項目實踐方式共同點(diǎn)體現(xiàn)在:第一,項目實踐方式呈現(xiàn)多元化,基本都包括語料庫建設(shè)、GIS歷史地理可視化、歷史圖景虛擬重現(xiàn)、考古和文化遺產(chǎn)保護(hù)等。第二,兩國檔案數(shù)字人文項目實踐都是依托豐富的檔案文本和數(shù)字化資源實施的,為人文社會科學(xué)研究提供了可靠的研究材料。不同之處在于:第一,我國檔案數(shù)字人文實踐比較傾向于專題歷史文獻(xiàn)資料庫建設(shè),而美國則集中在名人檔案庫和特定歷史時期、群體以及事件資料的挖掘。第二,我國近幾年比較關(guān)注數(shù)字人文與社會記憶構(gòu)建的融合,開發(fā)了多個獨(dú)立的有關(guān)社會記憶構(gòu)建的網(wǎng)站,而美國專門的社會記憶構(gòu)建網(wǎng)站比較少,多是融于其他數(shù)字人文項目之中。第三,美國有專業(yè)的學(xué)術(shù)資源檔案庫,將數(shù)字檔案資源與大學(xué)學(xué)術(shù)出版物資源進(jìn)行編碼和關(guān)聯(lián),以助力學(xué)術(shù)研究,而我國在這些方面的項目比較少。
我國檔案數(shù)字人文項目應(yīng)用的技術(shù)與項目實踐方式有關(guān),主要包括數(shù)字化技術(shù)、數(shù)據(jù)關(guān)聯(lián)技術(shù)、數(shù)據(jù)挖掘技術(shù)、GIS可視化技術(shù)以及虛擬現(xiàn)實技術(shù)。武漢大學(xué)的“圖文關(guān)聯(lián)標(biāo)注系統(tǒng)”主要采用數(shù)字化技術(shù)[16];上海圖書館的“華人家譜總目”項目通過使用數(shù)據(jù)關(guān)聯(lián)和數(shù)據(jù)挖掘技術(shù)實現(xiàn)家譜信息的關(guān)聯(lián)[17];中南大學(xué)的“唐宋文學(xué)編年地圖”項目利用可視化技術(shù)構(gòu)建多維地圖,呈現(xiàn)出唐宋時期的文學(xué)家在時間和空間中的行為分布信息[18];清華大學(xué)城市設(shè)計研究院的“再現(xiàn)圓明園”項目則是運(yùn)用虛擬現(xiàn)實技術(shù)實現(xiàn)的[19]。
美國名人檔案庫類數(shù)字人文項目多利用多媒體文本轉(zhuǎn)換技術(shù)和數(shù)字化技術(shù),對名人檔案資料進(jìn)行深度挖掘、分析和呈現(xiàn)。美國弗吉尼亞大學(xué)的“迪金森電子檔案(Dickinson Electronic Archives)”項目即是通過融合多種信息處理技術(shù),整合其作品、手稿和圖片資源,揭示迪金森作品背后的理論[20]。特定歷史時期、群體以及事件檔案庫主要使用文本編碼技術(shù)和數(shù)據(jù)挖掘技術(shù),對檔案文獻(xiàn)資源和各類影音照片資源進(jìn)行編碼,在此基礎(chǔ)上進(jìn)行結(jié)構(gòu)化處理,重新研究歷史事件。布朗大學(xué)的“開放檔案(Opening the Archives)”項目即是對數(shù)萬份有關(guān)巴西的解密文件進(jìn)行數(shù)字化和編碼,以解析20世紀(jì)60年代至80年代間美巴兩國的關(guān)系[21]。文物遺跡檔案庫項目主要使用虛擬現(xiàn)實技術(shù),結(jié)合遙感技術(shù)和計算機(jī)制圖技術(shù)重新模擬歷史遺跡,演繹歷史建筑的發(fā)展與沉淪。弗吉尼亞大學(xué)“查科研究檔案(Chaco Research Archive)”項目利用虛擬現(xiàn)實技術(shù)再現(xiàn)了墨西哥州查科谷的歷史[22]。
中美兩國檔案數(shù)字人文項目基本都包含數(shù)字化、可視化、數(shù)據(jù)挖掘及虛擬現(xiàn)實技術(shù)等方面,且不同的檔案數(shù)字人文項目都有關(guān)鍵技術(shù)支撐。不同之處在于:第一,美國特定歷史時期、群體及事件檔案數(shù)字人文項目得到深度發(fā)展,與之相關(guān)的文本轉(zhuǎn)化、數(shù)據(jù)關(guān)聯(lián)和可視化技術(shù)比較成熟,而我國還在探索階段。第二,美國GIS歷史地理信息技術(shù)應(yīng)用更加廣泛,基本涵蓋各類檔案數(shù)字人文項目。第三,美國相關(guān)檔案數(shù)字人文項目已開始自主研發(fā)適用的技術(shù)工具和技術(shù)標(biāo)準(zhǔn),我國目前還處于理論研究階段。
目前我國檔案數(shù)字人文項目成果包括文史數(shù)據(jù)資源庫、人文社會科學(xué)研究平臺工具、公開網(wǎng)站等,其中文史數(shù)據(jù)資源庫分為三種:第一種為免費(fèi)的數(shù)據(jù)資源庫,如首都師范大學(xué)的“國學(xué)寶典”數(shù)據(jù)庫;第二種是以北京大學(xué)“中國基本古籍庫”為代表的付費(fèi)使用的數(shù)字化資源庫[23];第三種為有權(quán)限設(shè)置的數(shù)字資源庫,這種資源庫一般還在建設(shè)完善中,如復(fù)旦大學(xué)歷史地理研究中心的“清代驛站交通數(shù)據(jù)庫”[24]。人文社會科學(xué)研究平臺工具主要包含GIS歷史地理信息使用平臺,如“中國歷代人物傳記資料庫”項目衍生出的“中國古代學(xué)術(shù)師承”可視化分析平臺等。公開網(wǎng)站在檔案數(shù)字人文項目成果中占比最多,這類網(wǎng)站一般包括檔案數(shù)字人文項目介紹、項目團(tuán)隊構(gòu)成、項目成果介紹等。
美國檔案數(shù)字人文項目成果比較豐富,除公開查詢展示網(wǎng)站、數(shù)字歷史資料庫以外,還包括相關(guān)數(shù)字人文研究工具、專題教學(xué)資源、出版物等。美國檔案數(shù)字人文項目研究工具主要是為人文學(xué)者提供分析儀、DH工具和方法等,“以色列/巴勒斯坦銘文(Inscriptions of Israel/Palestine)”項目就制作了MYSQL引文數(shù)據(jù)庫供學(xué)者使用[25],“關(guān)聯(lián)爵士樂社區(qū)(Linked Jazz)”項目可以提供人物關(guān)系分析儀等數(shù)據(jù)人文研究工具套件[26]。專題教學(xué)資源是檔案數(shù)字人文項目的教育資源成果,通過提供專題教學(xué)資源促進(jìn)數(shù)字人文教育發(fā)展和人才培養(yǎng)工作。除此之外,部分高校也將專題檔案資源庫嵌入圖書館系統(tǒng)中,為學(xué)術(shù)研究提供平臺。
相同之處體現(xiàn)在:第一,中美檔案數(shù)字人文項目成果都以公開查詢網(wǎng)站、數(shù)字歷史文學(xué)資料庫、數(shù)字人文研究工具居多,并且都在持續(xù)更新完善中。第二,中美檔案數(shù)字人文項目成果多為歷史人文學(xué)科提供相關(guān)研究工具,而關(guān)于檔案學(xué)和檔案工作實踐本身的專業(yè)數(shù)字人文工具都比較少。第三,由檔案部門主導(dǎo)研發(fā)的供檔案學(xué)研究的數(shù)字化工具平臺比較少。不同之處在于:第一,我國檔案數(shù)字人文項目成果中公開查詢網(wǎng)站比較多,而美國的電子和紙質(zhì)版的專題教育資源比較多。第二,美國檔案數(shù)字人文項目的研究成果和工具平臺比較多樣化,而我國檔案數(shù)字人文項目成果比較單一。第三,美國檔案數(shù)字人文項目網(wǎng)站多會嵌入圖書館網(wǎng)站中,界面設(shè)置友好、資源鏈接度比較強(qiáng),而我國則是獨(dú)立的網(wǎng)頁,界面比較簡單,數(shù)據(jù)關(guān)聯(lián)性有待提升。
本研究通過比較中美兩國檔案領(lǐng)域數(shù)字人文項目實踐的異同點(diǎn),發(fā)現(xiàn)目前美國檔案數(shù)字人文項目主要集中在特定歷史時期、群體和事件的文本挖掘和呈現(xiàn)方面,重點(diǎn)關(guān)注資源開發(fā)建設(shè)的深度,主動研發(fā)數(shù)字人文項目技術(shù)和相關(guān)標(biāo)準(zhǔn)。而我國目前綜合性歷史文學(xué)資料庫建設(shè)和信息序化類項目比較多,主要關(guān)注資源建設(shè)的廣度。
美國檔案數(shù)字人文項目在檔案資源協(xié)同開發(fā)、數(shù)字技術(shù)與檔案人文融合、檔案資源價值挖掘拓展等方面值得我國借鑒。兩國普遍存在的主要問題包括:都缺乏專門針對檔案學(xué)研究和檔案實踐的數(shù)字人文項目,多是利用檔案文獻(xiàn)資源進(jìn)行文史研究和工具開發(fā),與檔案工作有交叉但是專指性不強(qiáng);此外檔案部門在檔案數(shù)字人文項目中主導(dǎo)作用不突出,檔案數(shù)字人文項目與檔案工作實踐的融合度有待提高。