• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      借器之勢(shì),出道之新
      ——“數(shù)字人文”浪潮下的古典文學(xué)研究三人談

      2019-12-21 07:48:20王兆鵬鄭永曉劉京臣
      文藝研究 2019年9期
      關(guān)鍵詞:數(shù)字人文人文數(shù)字

      王兆鵬 鄭永曉 劉京臣

      王兆鵬永曉、京臣,二位好!“數(shù)字人文”(digital humanities)研究已成為一種強(qiáng)大的浪潮,成為人文社會(huì)科學(xué)研究的一大趨勢(shì)?!段乃囇芯俊冯s志約咱們?nèi)苏務(wù)剶?shù)字人文研究的最新進(jìn)展以及古典文學(xué)研究應(yīng)用數(shù)字人文的前景。這次兩位來(lái)武漢開會(huì),正好可以好好地交流一下。

      一、數(shù)字人文的特點(diǎn)與發(fā)展歷程

      王兆鵬先請(qǐng)永曉介紹一下數(shù)字人文。

      鄭永曉關(guān)于“數(shù)字人文”,維基百科中文版的定義是,電腦運(yùn)算或信息科技與人文學(xué)的交叉學(xué)科,是以合作、跨學(xué)科與電腦運(yùn)算等新方法來(lái)進(jìn)行人文學(xué)的研究、教學(xué)、出版等學(xué)術(shù)工作。這只是眾多定義中的一種。事實(shí)上,學(xué)界還沒(méi)有統(tǒng)一的定義。由于數(shù)字人文的持續(xù)發(fā)展及其開放特性,舊的定義往往很快會(huì)被新的定義所取代。

      劉京臣確實(shí),有學(xué)者在系統(tǒng)梳理西方數(shù)字人文的發(fā)展歷程后指出,“什么是數(shù)字人文”這一題目本身,已經(jīng)成為一種寫作題材,以至于每年都會(huì)有專著面世,可見(jiàn)這一概念很難定義。

      王兆鵬雖然難以定義,但合作、跨學(xué)科和電腦運(yùn)算這三點(diǎn),應(yīng)是數(shù)字人文的基本特征。

      鄭永曉是的。數(shù)字人文是從“人文計(jì)算”(humanities computing)發(fā)展而來(lái)的。它使用數(shù)字化的資料或數(shù)字原生資料,結(jié)合傳統(tǒng)人文學(xué)科如歷史學(xué)、哲學(xué)、文學(xué)、藝術(shù)、考古學(xué)、文化研究與社會(huì)科學(xué)的方法論,以計(jì)算機(jī)運(yùn)算所提供的工具,如超文本、超媒體、圖像、文獻(xiàn)檢索、數(shù)據(jù)挖掘、統(tǒng)計(jì)等,進(jìn)行綜合性研究。

      王兆鵬跟人文計(jì)算相比較,數(shù)字人文有哪些特點(diǎn)?

      劉京臣可以從數(shù)據(jù)、平臺(tái)、團(tuán)隊(duì)三個(gè)方面來(lái)審視數(shù)字人文的特點(diǎn)。數(shù)據(jù),是數(shù)字人文的核心要素。人文計(jì)算階段的數(shù)據(jù)大多是文本,數(shù)字人文階段的數(shù)據(jù)更復(fù)雜多樣。除文本外,圖像、地圖、建筑等都可成為數(shù)據(jù)來(lái)源,成為被數(shù)字化、數(shù)據(jù)化的對(duì)象。平臺(tái),是數(shù)字人文的基礎(chǔ)設(shè)施。平臺(tái)將復(fù)雜多樣的、非結(jié)構(gòu)性的“大數(shù)據(jù)”(big data)開發(fā)成關(guān)系型結(jié)構(gòu)化數(shù)據(jù)庫(kù),供用戶使用。團(tuán)隊(duì),是數(shù)字人文的人力保障。數(shù)字人文的建設(shè)者、參與者,很少是單打獨(dú)斗的,需要團(tuán)隊(duì)合作。就現(xiàn)階段來(lái)看,比較成熟的數(shù)字人文項(xiàng)目,基本上都有比較成熟穩(wěn)定的團(tuán)隊(duì)。例如斯坦福大學(xué)、哈佛大學(xué)及我國(guó)的臺(tái)灣大學(xué)、武漢大學(xué)、中南民族大學(xué)、浙江大學(xué)等高校,都各有一批數(shù)字人文學(xué)者組成的不同形式的團(tuán)隊(duì),并建有相關(guān)實(shí)驗(yàn)室或研究中心。當(dāng)然,不同的數(shù)字人文項(xiàng)目,各有側(cè)重,有的側(cè)重?cái)?shù)據(jù)挖掘,有的側(cè)重平臺(tái)架構(gòu),還有的側(cè)重方法論與工具推廣。凡是以信息技術(shù)為依托來(lái)推動(dòng)人文社會(huì)科學(xué)發(fā)展的項(xiàng)目,都需要團(tuán)隊(duì)協(xié)作,需要信息技術(shù)人員和人文學(xué)者的合作攻關(guān)。

      王兆鵬“數(shù)字化”與“數(shù)據(jù)化”有什么區(qū)別?很多人不明白,數(shù)字化文獻(xiàn)庫(kù)與結(jié)構(gòu)化數(shù)據(jù)庫(kù)究竟有什么不同?我們現(xiàn)在常用的全文檢索數(shù)據(jù)庫(kù),如《國(guó)學(xué)寶典》《中國(guó)基本古籍庫(kù)》《漢籍全文檢索系統(tǒng)》《文淵閣〈四庫(kù)全書〉電子版》和《中華經(jīng)典古籍庫(kù)》等,是不是結(jié)構(gòu)化數(shù)據(jù)庫(kù)?

      劉京臣您說(shuō)的這些數(shù)字化文獻(xiàn)資源庫(kù),是通過(guò)信息技術(shù)對(duì)文獻(xiàn)進(jìn)行處理,使其轉(zhuǎn)化為電子數(shù)據(jù)格式,能夠通過(guò)光盤、硬盤、磁盤陣列等保存和傳播。我們存儲(chǔ)在電腦硬盤里的各種文獻(xiàn)資料、網(wǎng)上流傳的各類電子書、圖片文獻(xiàn)、文本文件以及超文本標(biāo)記語(yǔ)言(HTML)文件、可擴(kuò)展超文本標(biāo)記語(yǔ)言(XHTML)文件等,都屬于數(shù)字化文獻(xiàn)。

      王兆鵬通俗地說(shuō),非結(jié)構(gòu)化數(shù)據(jù)庫(kù),是一種固化數(shù)據(jù)。《中國(guó)基本古籍庫(kù)》之類的文獻(xiàn)資源庫(kù),只是用數(shù)字化方式儲(chǔ)存,并沒(méi)有改變?cè)瓡奈谋拘螒B(tài),它只能進(jìn)行字詞檢索,而不能提取數(shù)據(jù),檢索到的資料不能重組關(guān)聯(lián)。而結(jié)構(gòu)化數(shù)據(jù),是一種活化數(shù)據(jù),是將原始文本按一定規(guī)則轉(zhuǎn)化成碎片化數(shù)據(jù),數(shù)據(jù)之間可以任意重組關(guān)聯(lián),形成新知識(shí),發(fā)現(xiàn)新問(wèn)題;可以自動(dòng)生成數(shù)據(jù),進(jìn)行統(tǒng)計(jì)分析;可以進(jìn)行語(yǔ)義檢索和時(shí)空定位;并能可視化呈現(xiàn)。哈佛大學(xué)的《中國(guó)歷代人物傳記資料庫(kù)》和我主持的《唐宋文學(xué)編年地圖平臺(tái)》,都是這樣的結(jié)構(gòu)化數(shù)據(jù)庫(kù)。

      鄭永曉從某種意義上說(shuō),結(jié)構(gòu)化數(shù)據(jù)庫(kù)是數(shù)字化文本型文獻(xiàn)資源庫(kù)的升級(jí)版。數(shù)字化文本型文獻(xiàn)資源庫(kù),是結(jié)構(gòu)化數(shù)據(jù)庫(kù)的基礎(chǔ)資源,通過(guò)技術(shù)創(chuàng)新,可以升級(jí)轉(zhuǎn)化為關(guān)系型結(jié)構(gòu)化數(shù)據(jù)庫(kù)。

      王兆鵬討論了數(shù)字人文的特點(diǎn),我們?cè)僮匪菀幌聰?shù)字人文經(jīng)歷了怎樣的發(fā)展歷程。

      鄭永曉數(shù)字人文的前身人文計(jì)算,可以追溯至20世紀(jì)40年代末,當(dāng)時(shí)耶穌會(huì)士羅伯托·布薩(Roberto Busa)和他的助手跟IBM公司合作,利用大型計(jì)算機(jī)制作了托馬斯·阿奎那著作的索引,稱為“Index Thornisticus”。60年代,《計(jì)算機(jī)與人文科學(xué)》雜志誕生,標(biāo)志著人文計(jì)算的正式興起。

      劉京臣從人文計(jì)算到數(shù)字人文的用詞轉(zhuǎn)變,始于2004年約翰·恩斯沃思(John Unsworth)等人所編的文選《數(shù)字人文指南》(A Companion to Digital Humanities, John Wiley and Sons Ltd,2004)。2006年,美國(guó)人文學(xué)科國(guó)家基金發(fā)起成立數(shù)字人文組織,2008年改名為數(shù)字人文科學(xué)辦公室。自此,“數(shù)字人文”一詞在美國(guó)被廣泛接受。

      鄭永曉近十多年來(lái),數(shù)字人文學(xué)發(fā)展迅猛,漸成熱潮。研究機(jī)構(gòu)如雨后春筍般涌現(xiàn),各種數(shù)字人文研究學(xué)會(huì)和專門的研究中心遍布全球。截至2019年4月20日,數(shù)字人文合作組織“數(shù)字人文中心網(wǎng)絡(luò)”(Center Net)收錄的數(shù)字人文中心已達(dá)201個(gè)。專門的數(shù)字人文期刊也紛紛創(chuàng)辦,如國(guó)際數(shù)字人文組織聯(lián)盟贊助出版的《數(shù)字人文季刊》(Digital Humanities Quarterly)、歐洲數(shù)字人文協(xié)會(huì)主辦的《數(shù)字人文學(xué)刊》(Digital Scholarship in the Humanities)等。

      王兆鵬我們中國(guó)的數(shù)字人文,是什么時(shí)候開始起步的?

      鄭永曉2009年,武漢大學(xué)信息管理學(xué)院王曉光教授,在其博客上發(fā)表《“數(shù)字人文”的產(chǎn)生、發(fā)展與前沿》,此文后收錄于武漢大學(xué)出版社2010年11月出版的《中國(guó)高校哲學(xué)社會(huì)科學(xué)發(fā)展論壇:2010方法創(chuàng)新與哲學(xué)社會(huì)科學(xué)發(fā)展》。這是較早全面介紹國(guó)內(nèi)外數(shù)字人文發(fā)展?fàn)顩r的文章。學(xué)界將此文視為國(guó)內(nèi)數(shù)字人文研究的正式起步。2011年之后,相關(guān)論文逐漸增多,數(shù)字人文的專題研討會(huì)也不斷舉行,涉及地理信息系統(tǒng)、圖書館學(xué)、檔案學(xué)、文學(xué)、文獻(xiàn)學(xué)、歷史學(xué)、學(xué)術(shù)出版等。

      劉京臣臺(tái)灣地區(qū)的數(shù)字人文,起步比我們大陸略早。2008年,臺(tái)灣大學(xué)成立數(shù)位人文研究中心,并發(fā)行第1期《數(shù)位人文研究中心電子報(bào)》。此后,“中研院”和政治大學(xué)都成立了數(shù)位人文中心,每年12月定期召開數(shù)位人文國(guó)際學(xué)術(shù)研討會(huì),至今已舉辦了九屆。

      鄭永曉值得注意的是,在“數(shù)字人文”這一名詞被介紹到中國(guó)之前,無(wú)論是大陸還是臺(tái)灣,都已有這方面的研究和實(shí)踐。如2005年,北京大學(xué)中文系李鐸教授主持開發(fā)了《全唐詩(shī)分析系統(tǒng)》《全宋詩(shī)分析系統(tǒng)》。2009年,南京師范大學(xué)虛擬地理環(huán)境教育部重點(diǎn)實(shí)驗(yàn)室開發(fā)上線《華夏民族家譜地理信息系統(tǒng)》。2010年,李鐸又與國(guó)家圖書館聯(lián)合開發(fā)了《中國(guó)歷代典籍總目分析系統(tǒng)》,旨在挖掘海量書目數(shù)據(jù)背后隱藏的知識(shí)。

      劉京臣臺(tái)灣“中研院”史語(yǔ)所范毅軍研究員主持開發(fā)了基于GIS的《中華文明之時(shí)空基礎(chǔ)架構(gòu)》,提供上古至清代二千多年的中國(guó)歷代基本底圖和各類歷史地圖、遙測(cè)影像等基礎(chǔ)信息。利用這個(gè)平臺(tái),可以開發(fā)出適合不同學(xué)科的專題地理信息系統(tǒng),如考古地理信息系統(tǒng)、文學(xué)地理信息系統(tǒng)等。

      鄭永曉已故臺(tái)灣元智大學(xué)羅鳳珠教授,也做了卓有成效的探索。她在20世紀(jì)80年代就開始關(guān)注電腦介入人文學(xué)科的研究,這對(duì)中國(guó)韻文的語(yǔ)意標(biāo)記及語(yǔ)意概念分類研究、文學(xué)地理信息研究尤具啟發(fā)意義。她主持開發(fā)了《宋人與宋詩(shī)地理信息系統(tǒng)》??上⒛暝缡?,令人嘆惋!

      王兆鵬人文學(xué)者普遍關(guān)心,數(shù)字人文究竟有哪些功能,或者說(shuō)它能解決什么問(wèn)題?

      劉京臣這確實(shí)是一個(gè)非常重要的問(wèn)題。早在人文計(jì)算時(shí)代,人們就追問(wèn):人文計(jì)算的功能是什么?它能解決什么樣的問(wèn)題?無(wú)論是早期的人文計(jì)算,還是現(xiàn)階段的數(shù)字人文,它要解決的,就是不借助信息技術(shù)手段學(xué)者難以發(fā)現(xiàn)的問(wèn)題與難以進(jìn)行研究的課題。簡(jiǎn)單地講,數(shù)字人文所要解決的,取決于學(xué)者的需求;所能解決的,取決于技術(shù)的發(fā)展。比如,早期文史類數(shù)據(jù)庫(kù)的數(shù)據(jù),很大一部分是靠人工錄入的;隨著技術(shù)的發(fā)展,出現(xiàn)了以多特定人規(guī)范手寫識(shí)別引擎為代表的OCR識(shí)別。正是基于這種技術(shù),解決了《文淵閣〈四庫(kù)全書〉電子版》90%以上的錄入問(wèn)題。近些年OCR技術(shù)不斷發(fā)展,應(yīng)用領(lǐng)域也越來(lái)越廣泛,但是能準(zhǔn)確識(shí)別稿抄本的OCR技術(shù)尚未問(wèn)世。即使有了這種技術(shù),也還沒(méi)有大規(guī)模應(yīng)用到稿抄本的識(shí)別領(lǐng)域。這便是“要解決的”與“能解決的”二者之間的矛盾。

      鄭永曉基于大數(shù)據(jù)的數(shù)字人文研究,在宏觀研究方面具有優(yōu)勢(shì)。比如,我國(guó)歷代以“愁”為主題的作品不計(jì)其數(shù),傳統(tǒng)方法幾乎不可能對(duì)歷代所有以“愁”為主題的作品進(jìn)行分析。而“主題模型算法”(latent dirichlet allocation)作為一種機(jī)器學(xué)習(xí)技術(shù),可以用來(lái)識(shí)別大規(guī)模文檔庫(kù)或語(yǔ)料庫(kù)中潛藏的主題信息。其原理在于可以將文本庫(kù)中每篇文檔的主題以概率分布的形式抽取出來(lái),通過(guò)分析這些抽取出的主題,進(jìn)行主題聚類或文本分類。

      王兆鵬每個(gè)時(shí)代作家群的社會(huì)流動(dòng)、不同時(shí)代作品之間的互文關(guān)系,人工很難全面了解其詳情,而用數(shù)字人文技術(shù)的文本挖掘功能就可以發(fā)現(xiàn)和解決。

      劉京臣在近現(xiàn)代文學(xué)研究領(lǐng)域,報(bào)紙、期刊的流行,使得文獻(xiàn)數(shù)量數(shù)倍于古代。隨著西學(xué)東漸和中西文化碰撞,各類文學(xué)觀念、思想觀念往往經(jīng)過(guò)一段時(shí)期的潛藏突然流行開來(lái)。對(duì)這些觀念、思想流變的研究,傳統(tǒng)作法是選取代表人物的代表作品、代表言論進(jìn)行分析。這既缺乏大規(guī)模的實(shí)證依據(jù),而所謂代表人物、代表作品也往往是后知后覺(jué)的產(chǎn)物,并不一定符合當(dāng)時(shí)的實(shí)際。結(jié)合傳統(tǒng)詞源學(xué)、語(yǔ)義學(xué)和大數(shù)據(jù)技術(shù),完全可以清晰地顯示某個(gè)觀念的誕生、潛隱、突變、流行、淡出的過(guò)程。

      王兆鵬我曾經(jīng)統(tǒng)計(jì)過(guò)《梁?jiǎn)⒊分械南嚓P(guān)語(yǔ)詞,發(fā)現(xiàn)他早期使用的人稱代詞都是“吾”,后期多用“我”。如果對(duì)梁?jiǎn)⒊谜Z(yǔ)進(jìn)行全面的歷時(shí)性分析,那么就可以看出20世紀(jì)初期有關(guān)觀念和用語(yǔ)的變化軌跡。

      鄭永曉目前的數(shù)字人文研究,雖長(zhǎng)于宏觀研究,但也能解決微觀問(wèn)題。例如,人物關(guān)系挖掘就是目前數(shù)字人文研究領(lǐng)域一個(gè)頗具特色的分支,可以利用信息抽取方法對(duì)人物進(jìn)行社會(huì)網(wǎng)絡(luò)關(guān)系挖掘,可以對(duì)多個(gè)關(guān)聯(lián)作品的人物關(guān)系進(jìn)行分析,這在小說(shuō)研究中頗為實(shí)用。

      二、國(guó)內(nèi)外數(shù)字人文研究的實(shí)績(jī)與進(jìn)展

      王兆鵬近年來(lái),國(guó)外數(shù)字人文研究取得了哪些實(shí)績(jī)?做了哪些項(xiàng)目?建了哪些平臺(tái)呢?

      劉京臣國(guó)外跟我們中國(guó)文化有關(guān)的數(shù)字人文研究項(xiàng)目,比較引人注目的有三個(gè):《中國(guó)歷代人物傳記資料庫(kù)》(CBDB)、《中國(guó)歷史地理信息系統(tǒng)》(CHGIS)和《古籍半自動(dòng)標(biāo)記平臺(tái)》(MARKUS)。

      鄭永曉《中國(guó)歷代人物傳記資料庫(kù)》由哈佛大學(xué)費(fèi)正清中國(guó)研究中心、臺(tái)灣“中研院”歷史語(yǔ)言研究所與北京大學(xué)中國(guó)古代史研究中心共同建設(shè),旨在系統(tǒng)收錄中國(guó)歷史上所有重要的傳記資料,并免費(fèi)供學(xué)界使用。從方法論的角度看,它主要涉及三個(gè)方面:一是群體傳記學(xué),力圖通過(guò)一群歷史人物生平的集體性研究探討其共同的背景特征;二是社會(huì)網(wǎng)絡(luò)分析(SNA),近三十年來(lái)已逐漸成為人文社科研究的一種新范式;三是地理信息系統(tǒng)(GIS),借助ArcGIS、MapInfo、Google Earth等軟件將《中國(guó)歷代人物傳記資料庫(kù)》與《中國(guó)歷史地理信息系統(tǒng)》的數(shù)據(jù)整合在一起,可以幫助研究者在大量傳記數(shù)據(jù)中歸納出一定的模式?!吨袊?guó)歷代人物傳記資料庫(kù)》實(shí)現(xiàn)了數(shù)據(jù)、平臺(tái)、方法論與工具的有機(jī)整合,頗具引領(lǐng)和示范意義。

      劉京臣《中國(guó)歷史地理信息系統(tǒng)》由哈佛大學(xué)、復(fù)旦大學(xué)共同研發(fā),試圖建立一套可靠、開放的基礎(chǔ)地理信息數(shù)據(jù)庫(kù)。《古籍半自動(dòng)標(biāo)記平臺(tái)》由荷蘭萊頓大學(xué)魏希德(Hilde de Weerdt)教授與何浩洋博士設(shè)計(jì)開發(fā),是一個(gè)純線上文本標(biāo)記工具。通過(guò)自動(dòng)或人工標(biāo)記,使用者可以為文本標(biāo)記出人名、地名、年號(hào)、職官等關(guān)鍵詞。這些經(jīng)過(guò)特征標(biāo)記的文本,會(huì)成為其他數(shù)字人文研究的數(shù)據(jù)來(lái)源。與《中國(guó)歷代人物傳記資料庫(kù)》相比,《古籍半自動(dòng)標(biāo)記平臺(tái)》是一個(gè)文本標(biāo)記平臺(tái),自身沒(méi)有數(shù)據(jù),需要使用者提供數(shù)據(jù)。

      王兆鵬這些年,我國(guó)的數(shù)字人文研究也取得了很大進(jìn)展。

      鄭永曉從研究機(jī)構(gòu)來(lái)看,國(guó)內(nèi)成立了一些數(shù)字人文研究中心。2011年,武漢大學(xué)成立了大陸首家高校數(shù)字人文研究中心。2017年,南京大學(xué)歷史學(xué)院成立了數(shù)字人文研究中心。

      王兆鵬2018年3月,我們中南民族大學(xué)也成立了數(shù)字人文資源研究中心,致力于數(shù)字人文資源的開發(fā)與應(yīng)用,近期主要開發(fā)唐宋文學(xué)知識(shí)圖譜,擬將唐宋時(shí)期的全部文學(xué)作品和歷史文獻(xiàn)轉(zhuǎn)化成關(guān)系型結(jié)構(gòu)化數(shù)據(jù)庫(kù)。

      劉京臣從平臺(tái)建設(shè)來(lái)看,臺(tái)灣大學(xué)的DocuSky數(shù)位人文學(xué)術(shù)研究平臺(tái),以人文學(xué)者研究需要為指歸,進(jìn)行個(gè)人化材料整理與分析。注冊(cè)后,用戶可以利用平臺(tái)所提供的各種工具,實(shí)現(xiàn)個(gè)人文本的格式轉(zhuǎn)換、標(biāo)記與建庫(kù)、探勘與分析以及可視化、GIS整合等。

      鄭永曉首都師范大學(xué)張萍教授主持開發(fā)的《絲綢之路歷史地理信息開放平臺(tái)》,2017年6月已上線運(yùn)行。該平臺(tái)是國(guó)家社會(huì)科學(xué)基金重大項(xiàng)目成果,針對(duì)兩千年陸上絲綢之路地理信息進(jìn)行采集、儲(chǔ)存、分析、管理,提供絲綢之路沿線綜合的歷史地理數(shù)據(jù),便于進(jìn)行絲綢之路歷史地理長(zhǎng)時(shí)段、綜合性問(wèn)題的研究,也便于學(xué)者進(jìn)行個(gè)性化的專題研究?jī)?nèi)容。

      王兆鵬下面我們談?wù)勚袊?guó)古典文學(xué)研究領(lǐng)域的數(shù)字人文研究成果吧。

      劉京臣古典文學(xué)研究領(lǐng)域較早利用地理信息系統(tǒng)(GIS)從事數(shù)字人文研究的,應(yīng)該首推您啊。

      王兆鵬不敢當(dāng),我只是較早嘗試而已。2012年,我主持的國(guó)家社會(huì)科學(xué)基金重大招標(biāo)項(xiàng)目“唐宋文學(xué)編年系地信息平臺(tái)建設(shè)”獲準(zhǔn)立項(xiàng),整合了古典文學(xué)研究領(lǐng)域的一百多位中青年學(xué)者,歷時(shí)五年,開發(fā)出《唐宋文學(xué)編年地圖平臺(tái)》,2017年3月上線。目前上傳的唐宋詩(shī)人行跡數(shù)據(jù)只有156家,還有300位詩(shī)人的數(shù)據(jù)不久將上傳。地圖融時(shí)間、地點(diǎn)、人物、事件、作品為一體,將唐宋兩代詩(shī)人的編年事跡和編年作品轉(zhuǎn)化為關(guān)系型結(jié)構(gòu)化數(shù)據(jù),以歷史地圖為平臺(tái),可視化呈現(xiàn)詩(shī)人一生的活動(dòng)軌跡。每個(gè)詩(shī)人何時(shí)經(jīng)過(guò)或寓居某地,創(chuàng)作有哪些作品,一點(diǎn)即得。

      點(diǎn)擊一位詩(shī)人,如駱賓王,地圖上便能呈現(xiàn)他一生的活動(dòng)軌跡,經(jīng)行之處凡有作品也都能呈現(xiàn);點(diǎn)擊一個(gè)地點(diǎn),如洛陽(yáng),便可知自655—1123年,共有57位詩(shī)人曾在此停留,留下了603首詩(shī)歌;點(diǎn)擊一個(gè)年份,可以呈現(xiàn)這一年在全國(guó)各地活動(dòng)的作家。過(guò)去,一個(gè)時(shí)間點(diǎn)或一個(gè)時(shí)間段,我們只知道一個(gè)個(gè)作家各自獨(dú)立的活動(dòng),有了編年地圖平臺(tái),我們就可以了解這個(gè)時(shí)間點(diǎn)或時(shí)間段內(nèi)所有作家的活動(dòng)軌跡。一個(gè)地點(diǎn),以前我們只知道一個(gè)或幾個(gè)作家曾經(jīng)在此活動(dòng)過(guò),利用地圖平臺(tái),就可以知道不同時(shí)間里所有作家在此活動(dòng)的情況。歷史上在同一時(shí)間、同一地點(diǎn)活動(dòng)的眾多作家,過(guò)去被一張無(wú)形的墻幕隔離,我們只能知曉每一個(gè)個(gè)體的活動(dòng),而無(wú)法同時(shí)知曉一群人、一代人的活動(dòng)。文學(xué)編年地圖如同拆除了這張墻幕,讓歷史上一群人、一代人的活動(dòng)軌跡同時(shí)呈現(xiàn),一個(gè)時(shí)期的文學(xué)生態(tài)、文壇活動(dòng)圖景由此得以還原性建構(gòu)。

      地圖平臺(tái)還支持多元素呈現(xiàn)模式,選擇兩個(gè)時(shí)間點(diǎn),比如“1068—1077年”,便可知張方平、文彥博、富弼、張先、蘇軾、蘇轍等35位詩(shī)人在熙寧年間的活動(dòng)軌跡。選擇任意兩個(gè)地點(diǎn),就可以知道哪些作家曾經(jīng)從此地到彼地。比如,選擇“西安—潮州”,地圖上立即呈現(xiàn)出唐代韓愈和李德裕從西安到潮州的時(shí)間、經(jīng)行路線以及沿途創(chuàng)作的作品。看了地圖,我們可以更生動(dòng)地感知韓愈“一封朝奏九重天,夕貶潮州路八千”的痛苦。綜合兩人的經(jīng)行路線,我們就可以大致勾勒、還原出唐代從西安到潮州的交通路線圖,也可以據(jù)此檢驗(yàn)嚴(yán)耕望先生《唐代交通圖考》的正誤。打開衛(wèi)星地圖,我們還能了解韓愈南貶途中經(jīng)行之地的地形地貌。

      鄭永曉我覺(jué)得,編年地圖平臺(tái)的亮點(diǎn)之一,是首次提出了“系地”這一理論支撐點(diǎn)并付諸實(shí)施。傳統(tǒng)文史研究,無(wú)論是編年文學(xué)史,還是年譜、作品系年,都是注重時(shí)間維度。而近年來(lái)受到重視的文學(xué)地理學(xué),又僅關(guān)注文學(xué)創(chuàng)作的空間維度,忽略或淡化了時(shí)間維度?!跋档亍边@一概念的提出,具有重大理論意義和應(yīng)用價(jià)值,是了不起的創(chuàng)新。同時(shí),平臺(tái)背后還有時(shí)間、人物、活動(dòng)和作品數(shù)據(jù)的支撐,是一個(gè)龐大的知識(shí)體系。與全文檢索數(shù)據(jù)庫(kù)僅能提供字詞檢索的思路完全不同,它可以提供更多維度的考量,提供更多的知識(shí)點(diǎn),既能宏觀考察,也能微觀透視,從而將歷代作家活動(dòng)和創(chuàng)作立體地呈現(xiàn)出來(lái),并且可以彰顯出一個(gè)時(shí)期內(nèi)作家遷移的總趨勢(shì)。這種建立在大數(shù)據(jù)基礎(chǔ)上的作家遷徙趨勢(shì),是比較精準(zhǔn)的,是傳統(tǒng)研究手段所無(wú)法實(shí)現(xiàn)的。

      王兆鵬《唐宋文學(xué)編年地圖平臺(tái)》不僅強(qiáng)化了文學(xué)史的空間維度,更改變了文學(xué)地理空間的認(rèn)知方式。以前文學(xué)的地理空間,人們主要關(guān)注的是作家的籍貫地理,即據(jù)作家的籍貫而確定的地理空間。籍貫地理對(duì)了解作家作品的地域文化基因自有其意義,但籍貫地理是靜態(tài)的、固定的,而作家的生活創(chuàng)作是流動(dòng)的、變化的。大量的文學(xué)史實(shí)表明,作家一生的創(chuàng)作絕大多數(shù)是在故鄉(xiāng)之外的他鄉(xiāng)、遠(yuǎn)方,僅根據(jù)籍貫地理考察文學(xué)的地理空間,無(wú)法真正了解文學(xué)創(chuàng)作真實(shí)的地理空間。而過(guò)去根本無(wú)法突破這種認(rèn)識(shí)的局限。如今有了作家活動(dòng)編年系地?cái)?shù)據(jù)庫(kù),就可以確定文學(xué)的活動(dòng)地理,具體了解每個(gè)作家一生不同時(shí)期的活動(dòng)地理和創(chuàng)作地理。今后將會(huì)由此產(chǎn)生一種新型的動(dòng)態(tài)的地域文學(xué)、流域文學(xué)研究范式。

      時(shí)間維度上,《唐宋文學(xué)編年地圖平臺(tái)》也可以為文學(xué)史研究提供新的視角和范式。傳統(tǒng)的文學(xué)史研究,只能進(jìn)行長(zhǎng)時(shí)段的觀察和研究,很難進(jìn)行短時(shí)段的研究,因?yàn)闆](méi)有詳細(xì)的作家作品系年為依據(jù)。長(zhǎng)時(shí)段的研究,可以將具體的時(shí)間進(jìn)程模糊處理。而短時(shí)段的研究,比如五年、十年的文學(xué)史研究,當(dāng)無(wú)法確定哪些作品是產(chǎn)生在這五年、十年之內(nèi)時(shí),就無(wú)法進(jìn)行。而地圖平臺(tái)的編年系地?cái)?shù)據(jù),每年產(chǎn)生的文學(xué)作品都很明確、具體,每年活躍在文壇上的作家都一清二楚。因此,觀察文學(xué)史的發(fā)展變化,可以細(xì)致到一年、幾年之間。今后研究或撰寫文學(xué)史,不再只有斷代文學(xué)史,可能還有年度文學(xué)史,可以書寫一年、五年、十年的文學(xué)史。哪個(gè)年份是文學(xué)變化的關(guān)鍵節(jié)點(diǎn),哪個(gè)地方是文學(xué)變化的核心場(chǎng)域,今后都有可能被發(fā)現(xiàn)?!澳甓任膶W(xué)史”“時(shí)段文學(xué)史”研究將成為可能,從而開創(chuàng)出文學(xué)研究的新格局。

      劉京臣除了王老師主持的這個(gè)地圖平臺(tái)之外,浙江大學(xué)徐永明教授與哈佛大學(xué)合作,聯(lián)合開發(fā)了《學(xué)術(shù)地圖發(fā)布平臺(tái)》,自2018年3月19日上線以來(lái),已發(fā)布三百余幅數(shù)據(jù)地圖、六百多個(gè)圖層、四十萬(wàn)條數(shù)據(jù),力求從空間維度展示中國(guó)人文與歷史。

      鄭永曉首都師范大學(xué)周文業(yè)先生開發(fā)的《中國(guó)古代小說(shuō)數(shù)字化軟件》,可以逐字比勘同一小說(shuō)的不同版本的文字,自動(dòng)生成校記。北京大學(xué)李鐸教授開發(fā)的《全唐詩(shī)分析系統(tǒng)》《全宋詩(shī)分析系統(tǒng)》,可以自動(dòng)查詢重出互見(jiàn)情況,自動(dòng)標(biāo)注每首詩(shī)歌的平仄、用韻情況,便于進(jìn)行大規(guī)模的格律分析研究。北京大學(xué)杜曉勤教授研發(fā)的《中國(guó)古典詩(shī)文聲律分析系統(tǒng)》,實(shí)現(xiàn)了對(duì)中國(guó)古典詩(shī)歌及有關(guān)韻文進(jìn)行四聲自動(dòng)標(biāo)注和八病標(biāo)識(shí),既有助于研究永明體詩(shī)歌的聲病情況,還可考察永明詩(shī)律向近體詩(shī)律演變的過(guò)程。這些都是有價(jià)值的數(shù)字人文研究的分析軟件與分析工具。

      劉京臣從論文成果來(lái)看,已有不少學(xué)者用數(shù)字人文的研究方法來(lái)分析研究古代文學(xué)中的問(wèn)題和現(xiàn)象。比如嚴(yán)程《顧太清交游網(wǎng)絡(luò)分析視野下“秋紅吟社”變遷考》(載《山東社會(huì)科學(xué)》2018年第7期),借助社會(huì)網(wǎng)絡(luò)分析來(lái)考察顧太清與沈善寶等十余位詩(shī)友的往來(lái)詩(shī)作,將文獻(xiàn)中涉及的人物、時(shí)間和事件信息轉(zhuǎn)換成變動(dòng)的人際網(wǎng)絡(luò),并借助Gephi軟件呈現(xiàn)出來(lái);徐永明《中國(guó)古典文學(xué)研究的幾種可視化途徑》(載《浙江大學(xué)學(xué)報(bào)》2018年第2期),利用相關(guān)數(shù)據(jù)庫(kù),可視化呈現(xiàn)湯顯祖的行跡、活動(dòng)地點(diǎn)和社會(huì)關(guān)系的地理分布,也很新穎。

      王兆鵬其實(shí),你們倆在這方面的成果也很突出。永曉的《以GIS為例看信息技術(shù)在古典文學(xué)研究中的應(yīng)用》(載《重慶教育學(xué)院學(xué)報(bào)》2006年第5期)、《情感計(jì)算應(yīng)用于古典詩(shī)詞研究芻議》(載《科研信息化技術(shù)與應(yīng)用》2012年第4期)、《〈佩文韻府〉與康熙后期唐宋詩(shī)之爭(zhēng)》(載《文學(xué)遺產(chǎn)》2017年第3期)等論文,都是有益的嘗試。特別是利用大數(shù)據(jù)的思維方式和方法研究《佩文韻府》,頗具方法論的啟示意義。京臣的《振筆欲增西域記——GIS視閾中〈萬(wàn)里荷戈集〉研究》(載《重慶師范大學(xué)學(xué)報(bào)》2015年第6期)、《大數(shù)據(jù)視閾中的文學(xué)地理學(xué)研究——以〈入蜀記〉〈北行日錄〉等行錄筆記為中心》(載《文學(xué)評(píng)論》2017年第1期)、《他者視閾中的數(shù)字方志建設(shè)——以燕行錄中的薊州為中心》(載《中國(guó)地方志》2017年第5期)等論文,都是圍繞GIS進(jìn)行數(shù)字人文研究的成功之作,為古典文學(xué)研究具體運(yùn)用數(shù)字人文的理念和方法開示了門徑,提供了范例。

      三、古典文學(xué)研究應(yīng)用數(shù)字人文的前景

      王兆鵬咱們前面回顧了海內(nèi)外數(shù)字人文研究的進(jìn)展,下面來(lái)展望一下古典文學(xué)研究領(lǐng)域進(jìn)一步深入開展的愿景吧。我們可以從兩個(gè)方面來(lái)談,一是基礎(chǔ)建設(shè),二是理論研究。數(shù)字人文的基礎(chǔ)工程是數(shù)據(jù)和平臺(tái),我們從事古代文學(xué)研究需要哪些數(shù)據(jù),應(yīng)該建設(shè)哪些平臺(tái)呢?

      劉京臣請(qǐng)王老師先說(shuō)說(shuō)這方面的思考。

      王兆鵬好的。從數(shù)據(jù)來(lái)說(shuō),古代文學(xué)的數(shù)字人文研究至少需要三大系列數(shù)據(jù)。一是作家系列數(shù)據(jù),包含作家本人的生平行跡、人物關(guān)系和后世的傳播接受數(shù)據(jù)等。生平行跡,包括作家活動(dòng)、創(chuàng)作的編年系地?cái)?shù)據(jù);人物關(guān)系,包括家庭世系、姻親關(guān)系、師承關(guān)系、仕宦關(guān)系、地緣關(guān)系等數(shù)據(jù);傳播接受,包括本人的別集版本、后世的選本入選,當(dāng)世和后世作家追和、仿效、化用、引用的數(shù)據(jù)以及評(píng)論評(píng)點(diǎn)數(shù)據(jù),20世紀(jì)以來(lái)海內(nèi)外有關(guān)作家研究的論著目錄數(shù)據(jù)。二是作品系列數(shù)據(jù),包括作品原文、作品分類、作品的傳播接受等數(shù)據(jù)。作品分類數(shù)據(jù),至少應(yīng)該按體裁、時(shí)間、地點(diǎn)、主題、題材、語(yǔ)義等分類。先人工標(biāo)引,機(jī)器學(xué)習(xí)后再自動(dòng)識(shí)別分類;作品的傳播接受,包括版本、入選、評(píng)點(diǎn)和20世紀(jì)以來(lái)海內(nèi)外有關(guān)研究論著目錄數(shù)據(jù)。三是歷史地理數(shù)據(jù),包括每一年各種歷史人物的活動(dòng)數(shù)據(jù),全國(guó)各地發(fā)生的社會(huì)事件和自然災(zāi)害數(shù)據(jù),全國(guó)各地的地理沿革、景觀物產(chǎn)和驛路交通等數(shù)據(jù)。

      鄭永曉平臺(tái)建設(shè)方面,您有什么構(gòu)想?

      王兆鵬我希望國(guó)內(nèi)各大型數(shù)字化文獻(xiàn)資源庫(kù)能升級(jí)換代為關(guān)系型結(jié)構(gòu)化數(shù)據(jù)庫(kù),并且有一個(gè)平臺(tái),能把各自獨(dú)立分散的數(shù)據(jù)資源用搜索引擎將其匯聚串聯(lián)起來(lái),成為一個(gè)超大型的文獻(xiàn)資源數(shù)據(jù)集成平臺(tái)。我們中南民族大學(xué)數(shù)字人文資源研究中心正在努力把《唐宋文學(xué)編年地圖平臺(tái)》擴(kuò)建成《唐宋文學(xué)知識(shí)圖譜平臺(tái)》。第一步是將唐宋時(shí)期的全部文學(xué)作品、野史筆記、歷史典籍、地理方志和文學(xué)批評(píng)史料、選本資料、20世紀(jì)海內(nèi)外唐宋文史研究論著目錄,進(jìn)行集成和標(biāo)引,開發(fā)成關(guān)系型結(jié)構(gòu)化數(shù)據(jù)庫(kù)。數(shù)據(jù)庫(kù)可以提供上面所說(shuō)的作家、作品和歷史地理三大系列數(shù)據(jù)。我們的目標(biāo)是,以目前的文學(xué)編年地圖為基礎(chǔ),建構(gòu)唐宋文學(xué)的知識(shí)圖譜,還原唐宋文學(xué)的歷史場(chǎng)景。第二步,是將平臺(tái)的知識(shí)圖譜向前后延伸,形成貫穿古今的中國(guó)文學(xué)知識(shí)圖譜。

      劉京臣平臺(tái)數(shù)據(jù)的功能有哪些改進(jìn)呢?

      王兆鵬平臺(tái)數(shù)據(jù)是一鍵生成、個(gè)性定制,使用更加便捷,可以滿足不同用戶的個(gè)性需求。用戶查詢到的數(shù)據(jù)或相關(guān)資料,一鍵就可以生成下載。目前眾多的文獻(xiàn)資源庫(kù),檢索到的資料需要我們一條條地拷貝下載,很費(fèi)時(shí)間。比如,我們?cè)凇段臏Y閣〈四庫(kù)全書〉電子版》里檢索到有關(guān)蘇軾的資料兩千條,需要點(diǎn)擊拷貝兩千次。而我們開發(fā)的結(jié)構(gòu)化數(shù)據(jù)庫(kù),今后只要一鍵就可以下載全部資料數(shù)據(jù),下載的數(shù)據(jù)包含原始文獻(xiàn),都是分類打包的。下載的這些資料,可以保存到平臺(tái)為用戶提供的個(gè)人云盤中,不必重新拷貝到個(gè)人電腦硬盤里。

      平臺(tái)還可以滿足個(gè)性化的定制服務(wù)。用戶需要什么樣的數(shù)據(jù),平臺(tái)可以針對(duì)性地提供其所需的數(shù)據(jù)。我們希望用戶及時(shí)地將需求和建議反饋給我們,我們會(huì)不斷完善數(shù)據(jù)庫(kù),以滿足用戶的不同需求。我們的平臺(tái),將來(lái)不再是中國(guó)文學(xué)研究的輔助性平臺(tái),而是剛需性平臺(tái)。它既可以語(yǔ)義檢索、時(shí)空定位、關(guān)聯(lián)生成,又可以統(tǒng)計(jì)分析、可視化呈現(xiàn)。無(wú)論是做數(shù)據(jù)統(tǒng)計(jì)還是文本分析,是文獻(xiàn)考據(jù)還是理論闡釋,都離不開這個(gè)平臺(tái)。

      鄭永曉從文學(xué)地圖到文學(xué)圖譜,確實(shí)是很宏大而切實(shí)的跨越。期待文學(xué)圖譜平臺(tái)早日建成。

      王兆鵬知識(shí)圖譜的部分功能已經(jīng)實(shí)現(xiàn),用戶可以隨時(shí)上網(wǎng)去試用體驗(yàn),我們是免費(fèi)開放的,目前的網(wǎng)址是https:// sou-yun.cn/ research.aspx。進(jìn)入網(wǎng)頁(yè)后,在主題搜索框里輸入要查詢的詩(shī)人名、地名(目前主要有縣級(jí)以上行政區(qū)名的相關(guān)信息),就可以獲得相關(guān)分類數(shù)據(jù)。如輸入杜甫,界面就彈出“杜甫作品詳情”“杜甫朋友圈”“他人詩(shī)中提及杜甫的作品”“杜甫的行跡地圖”等七個(gè)知識(shí)卡片。再點(diǎn)擊“杜甫作品詳情”,界面就出現(xiàn)分體、年份、創(chuàng)作地點(diǎn)、時(shí)節(jié)、人物、植物等欄目。點(diǎn)擊分體,頁(yè)面自動(dòng)呈現(xiàn)杜詩(shī)分體統(tǒng)計(jì)結(jié)果:律詩(shī)748首、絕句91首、排律126首、古風(fēng)485首;再點(diǎn)擊其中數(shù)據(jù),頁(yè)面就自動(dòng)呈現(xiàn)相關(guān)作品原文。點(diǎn)擊年份,頁(yè)面就會(huì)自動(dòng)呈現(xiàn)杜甫各年創(chuàng)作的詩(shī)歌數(shù)量;點(diǎn)擊創(chuàng)作地點(diǎn),可以了解杜甫一生在各地創(chuàng)作的詩(shī)歌數(shù)量和詳情;點(diǎn)擊人物,頁(yè)面立即呈現(xiàn)杜甫與當(dāng)朝各類人物交往的詩(shī)篇數(shù)量,如他寫給李白的詩(shī)最多,有11首;點(diǎn)擊植物,可見(jiàn)杜甫寫了哪些花卉樹木(此項(xiàng)信息目前不全)?,F(xiàn)在是通過(guò)知識(shí)卡片的方式,分類呈現(xiàn)與人物、地點(diǎn)相關(guān)的數(shù)據(jù)。用戶可以綜合運(yùn)用這些數(shù)據(jù),從不同的角度進(jìn)行統(tǒng)計(jì)分析。今后,可以查詢和統(tǒng)計(jì)唐宋文學(xué)作品和歷史典籍中所有人名、地名、官名、物名、書名、篇名、典故、語(yǔ)詞及其關(guān)系數(shù)據(jù)。

      劉京臣聽(tīng)了王老師對(duì)唐宋文學(xué)知識(shí)圖譜的建構(gòu),很令人振奮。我對(duì)于古籍文獻(xiàn)資源庫(kù),除了期待其升級(jí)換代為結(jié)構(gòu)化數(shù)據(jù)庫(kù)之外,還期待能夠進(jìn)行圖像檢索,由“圖像檢索”直接實(shí)現(xiàn)“版本比對(duì)”。2015年,我曾在《大數(shù)據(jù)時(shí)代的古典文學(xué)研究——以數(shù)據(jù)分析、數(shù)據(jù)挖掘與圖像檢索為中心》(載《文學(xué)遺產(chǎn)》2015年第5期)一文中提到:“隨著多媒體檢索技術(shù)的發(fā)展,對(duì)圖像、聲音、視頻等進(jìn)行檢索成為IT界的熱點(diǎn)。圖像檢索隨之被廣泛應(yīng)用于醫(yī)療、遙感、測(cè)繪等領(lǐng)域,并取得了相當(dāng)成就?!钡诠诺湮膶W(xué)研究領(lǐng)域,圖像檢索仍未得到廣泛應(yīng)用。圖像檢索的核心是對(duì)以圖像形式存在的文獻(xiàn)進(jìn)行定位、檢索與匹配。對(duì)研究者而言,可實(shí)現(xiàn)由“文本”到“文本”跨越到由“文本”到“圖像”、“圖像”到“圖像”。這樣,一是能將研究者從研判疑難文字中解放出來(lái),二是不必再將圖像文獻(xiàn)識(shí)別轉(zhuǎn)換為文本,三是圖像檢索能以最真實(shí)、直觀的方式體現(xiàn)出不同文獻(xiàn)之間的細(xì)微差異。從圖像檢索入手,還可以完美實(shí)現(xiàn)版本比對(duì)。時(shí)至今日,最初的設(shè)想“機(jī)器一邊進(jìn)行著圖像檢索匹配,一一標(biāo)注不同版本之間的差異,一邊將識(shí)別出來(lái)的文本與已經(jīng)在文本數(shù)據(jù)庫(kù)中的海量數(shù)據(jù)相匹配”,仍然處于設(shè)想階段。雖然“中文在線” 等推出了在線識(shí)別圖像文獻(xiàn)的功能,但使用的效果還不是很理想。

      鄭永曉學(xué)者應(yīng)該參與數(shù)據(jù)庫(kù)的開發(fā)?,F(xiàn)有文獻(xiàn)資源庫(kù),基本上都是商業(yè)公司的產(chǎn)品。在開發(fā)過(guò)程中,學(xué)者的參與度很低。雖然文獻(xiàn)資源庫(kù)可以幫助學(xué)者查詢資料,但不能統(tǒng)計(jì)分析。要完成從數(shù)字化資源庫(kù)到結(jié)構(gòu)化數(shù)據(jù)庫(kù)的轉(zhuǎn)換,需要利用數(shù)據(jù)挖掘?qū)ξ谋具M(jìn)行加工,這種加工必須按照預(yù)設(shè)的規(guī)則進(jìn)行,需要學(xué)者的深度參與,甚至需要學(xué)者對(duì)相關(guān)數(shù)據(jù)進(jìn)行人工標(biāo)記。數(shù)據(jù)挖掘可以通過(guò)技術(shù)來(lái)實(shí)現(xiàn),但挖掘什么樣的數(shù)據(jù),什么樣的數(shù)據(jù)有用,必須有古代文學(xué)研究的專家參與設(shè)計(jì)。專業(yè)領(lǐng)域的需求只有相關(guān)專家最為了解。錢鐘書先生在20世紀(jì)80年代支持中國(guó)社會(huì)科學(xué)院建立計(jì)算機(jī)室時(shí)曾說(shuō):“實(shí)踐證明,能幫助人的電腦需要人的更多幫助。”這句話即使在今天仍不過(guò)時(shí)。

      王兆鵬下面我們?cè)儆懻撘幌?,怎樣運(yùn)用數(shù)據(jù)和結(jié)構(gòu)化數(shù)據(jù)庫(kù)對(duì)古代文學(xué)進(jìn)行分析和闡釋。

      鄭永曉可以利用編年系地?cái)?shù)據(jù)對(duì)作家群進(jìn)行空間分析。如果文學(xué)編年地圖平臺(tái)囊括了自先秦至近現(xiàn)代以來(lái)的數(shù)萬(wàn)個(gè)作家的綜合信息數(shù)據(jù),包括其族群、行跡、交游、創(chuàng)作、作品傳播等信息,當(dāng)我們?cè)O(shè)定某個(gè)時(shí)間點(diǎn)啟動(dòng)系統(tǒng)進(jìn)行分析時(shí),就可以觀察到所有活躍作家的遷徙移動(dòng)信息。例如元軍攻陷臨安后的二三十年間,以關(guān)漢卿、白樸、馬致遠(yuǎn)為代表的北方作家向杭州遷移,同時(shí)杭州本土作家,或作為遺民追懷宋室,或降元謀求新的出路。族群遷徙、文化碰撞、南北交流在這幾十年間跌宕起伏、異彩紛呈。如果有這一時(shí)段的人口和作家歷史地理信息數(shù)據(jù)庫(kù),我們一定可以發(fā)現(xiàn)傳統(tǒng)研究方法易于忽略的細(xì)節(jié)和作家流動(dòng)的趨勢(shì)。

      王兆鵬中國(guó)文化中心的三次大南移——永嘉之亂、安史之亂、靖康之亂后,北方士人向南方遷徙的時(shí)間、經(jīng)行地、目的地、過(guò)程、路線等真實(shí)圖景,也可以通過(guò)大數(shù)據(jù)來(lái)完整呈現(xiàn)。

      劉京臣還可從時(shí)間和空間兩個(gè)維度研究某個(gè)地方本土作家、流寓作家的唱和、交游情況,探討文學(xué)史中重要時(shí)間、地點(diǎn)、事件、人物關(guān)系,揭示文學(xué)思潮、文學(xué)觀念變化的關(guān)鍵節(jié)點(diǎn)和演進(jìn)規(guī)律。

      王兆鵬可找一兩個(gè)具體時(shí)段為突破口,比如北宋神宗元豐年間烏臺(tái)詩(shī)案后,包括蘇軾在內(nèi)的許多文士受到牽連貶謫,這些文士的貶謫地分布在哪些地方,各自走什么路線到達(dá)貶所,沿途和在貶所各有哪些創(chuàng)作,都可以通過(guò)文學(xué)編年地圖予以可視化呈現(xiàn)。他們貶謫后的命運(yùn)、生活、心態(tài)和創(chuàng)作各有哪些變化,也可以用數(shù)據(jù)來(lái)呈現(xiàn)和分析,由此再現(xiàn)當(dāng)時(shí)的文學(xué)圖景。哲宗親政后的紹圣、元符年間,元祐黨人紛紛遭貶,到了徽宗崇寧年間,更立元祐黨人碑,三百多位元祐黨人及其子孫遭受更嚴(yán)酷的迫害。這段時(shí)期政壇大變局、文壇大動(dòng)蕩的具體場(chǎng)景,如今可以用大數(shù)據(jù)來(lái)考察分析和可視化呈現(xiàn)。

      鄭永曉還可以用數(shù)據(jù)挖掘技術(shù)來(lái)分析意象的形成與流變。人工智能的一個(gè)分支“自然語(yǔ)言處理”(NLP)近年來(lái)發(fā)展迅速,其中的“文本蘊(yùn)含識(shí)別”(textual entailment) 研究?jī)蓚€(gè)文本之間的語(yǔ)義推理關(guān)系,基于邏輯推演、相似度或文本轉(zhuǎn)換,或基于深度學(xué)習(xí)等算法方面的研究,已取得長(zhǎng)足進(jìn)步。舉例來(lái)說(shuō),古代詩(shī)詞中經(jīng)常出現(xiàn)“月亮”這一意象。但月亮在古典詩(shī)詞中有很多代稱,諸如“嬋娟”“玉兔”“桂魄”“玉盤”“玉鉤”“玉鏡”“蟾魄”“冰輪”等。人工不可能對(duì)大批量的涉及月亮意象的作品進(jìn)行比較、分析。但利用計(jì)算機(jī)就可以輕松提取歷代詩(shī)詞中全部與月亮意象相關(guān)的作品,然后從歷時(shí)性的角度分析其意義的流變,從共時(shí)的角度分析其情感內(nèi)涵。

      王兆鵬我補(bǔ)充一句,“搜韻網(wǎng)”搜羅的古典詩(shī)詞已達(dá)八十多萬(wàn)首,可以利用這個(gè)網(wǎng)站進(jìn)行數(shù)據(jù)提取和分析。

      劉京臣還可以跟計(jì)算機(jī)專家合作,利用語(yǔ)義分析技術(shù),通過(guò)修辭手法的統(tǒng)計(jì)和分析,深度解析作家的藝術(shù)風(fēng)格。

      鄭永曉也可以利用文本數(shù)據(jù)挖掘技術(shù),開展文學(xué)影響史、接受史的研究。京臣所著《盛唐中唐詩(shī)對(duì)宋詞影響研究》(中國(guó)社會(huì)科學(xué)出版社2014年版)就是一個(gè)很好的嘗試。把唐詩(shī)和宋詞通過(guò)計(jì)算機(jī)進(jìn)行形式和語(yǔ)義方面的匹配,可以發(fā)現(xiàn)二者之間的內(nèi)在聯(lián)系。通過(guò)作品研究前后文學(xué)史之間的聯(lián)系,較之單純梳理相關(guān)記載、言辭要可靠得多。這種方式既可以研究不同文體之間的影響,也可以考察不同時(shí)代作家之間的影響與接受情況。

      王兆鵬是的,可以研究唐詩(shī)對(duì)宋詞的影響,也可以研究宋詩(shī)對(duì)宋詞的影響、唐宋詞對(duì)金元明清詞的影響等等。一個(gè)作家的接受,不是單向的,而是多向的。比如,辛棄疾的一首詞,既融化有唐宋詩(shī)詞中的語(yǔ)句,也融化有前代經(jīng)史子集中的語(yǔ)句。可以一個(gè)詩(shī)人或詞人為視點(diǎn),用大數(shù)據(jù)來(lái)分析、呈現(xiàn)其接受前人和影響后人的具體情形。

      鄭永曉數(shù)字人文研究,會(huì)給文學(xué)研究范式、方法、視角帶來(lái)重大影響和變化。

      王兆鵬請(qǐng)具體說(shuō)說(shuō)會(huì)帶來(lái)哪些變化呢?

      鄭永曉首先是研究科學(xué)性的提高。我們習(xí)慣于歸納研究,歸納需要證據(jù),但是,過(guò)去我們的證據(jù)往往是不充分的。文學(xué)史研究和寫作,即使卷帙再龐大,其所涉及的作家作品也是有限的。一部文學(xué)史,90%以上的作家都沒(méi)有涉及,如何能夠證明其科學(xué)性?在數(shù)字人文研究的視野中,基于大數(shù)據(jù)的統(tǒng)計(jì)和分析可以對(duì)此有所補(bǔ)充、修正,涉及的作家作品可能是有文獻(xiàn)記載的全部。這樣看似宏觀的研究其實(shí)是建立在十分精確的微觀研究基礎(chǔ)之上的,因此得出的結(jié)論、觀點(diǎn)必將更為科學(xué)、嚴(yán)謹(jǐn)。

      王兆鵬確實(shí),我們現(xiàn)在的文學(xué)史,秉持的是選擇性文學(xué)史觀,受觀念方法和紙質(zhì)載體的制約,我們只能有選擇性地?cái)⑹鑫膶W(xué)史。選擇意味著遮蔽,意味著遺落,大量生動(dòng)的文學(xué)史現(xiàn)象和文學(xué)生態(tài)以及文學(xué)作品被遮蔽和遺落在文學(xué)史視野之外。在大數(shù)據(jù)時(shí)代,則可以用全景性的文學(xué)史觀來(lái)重新認(rèn)識(shí)文學(xué)史、書寫文學(xué)史。

      鄭永曉其次是視野的擴(kuò)大。大數(shù)據(jù)能協(xié)助我們從更為寬廣的視角、不同的層面去理解、研究文學(xué)史現(xiàn)象。比如,詩(shī)韻研究是詩(shī)歌研究中的重要課題,但誰(shuí)能回答古人使用哪個(gè)韻部哪個(gè)韻字最多?這個(gè)問(wèn)題依靠傳統(tǒng)方法無(wú)法解決,可是在大數(shù)據(jù)時(shí)代輕而易舉。

      王兆鵬我補(bǔ)充一個(gè)近似的實(shí)例。近體詩(shī)寫作中究竟忌不忌三平尾、三仄尾?歷來(lái)各執(zhí)一詞。我曾請(qǐng)搜韻網(wǎng)的陳逸云對(duì)歷代近體詩(shī)進(jìn)行抽樣統(tǒng)計(jì),統(tǒng)計(jì)結(jié)果是,在由1224位作者(數(shù)據(jù)庫(kù)中律詩(shī)數(shù)量超過(guò)30首者)寫的240095首五七言律詩(shī)中,僅有220人寫的385首律詩(shī)中出現(xiàn)過(guò)三平尾;而有三仄尾的律詩(shī)多達(dá)16037首,涉及作者1108人。有三平尾的詩(shī)作占抽樣律詩(shī)總數(shù)的0.16%,而有三仄尾者則占6.7%。出現(xiàn)過(guò)三平尾現(xiàn)象的詩(shī)人僅占抽樣詩(shī)人總數(shù)的17.9%,而出現(xiàn)過(guò)三仄尾的則占90.5%。數(shù)據(jù)統(tǒng)計(jì)結(jié)果顯示,九成多的詩(shī)人寫過(guò)三仄尾的詩(shī),而不到兩成的詩(shī)人出現(xiàn)過(guò)三平尾現(xiàn)象。律詩(shī)的創(chuàng)作實(shí)踐表明,詩(shī)人并不刻意回避三仄尾,但會(huì)盡量避免三平尾。

      劉京臣在研究某個(gè)微觀問(wèn)題,比如研究某一篇文學(xué)作品時(shí),能夠真正把它放在整個(gè)文學(xué)史中去進(jìn)行定位、闡述,至少可以放在那個(gè)時(shí)代所有文獻(xiàn)提供的龐大信息中去比較研究。大到某個(gè)作家流派的形成和風(fēng)格,小到某個(gè)字詞用法的演變,都將有精確的量的統(tǒng)計(jì)和分析。研究單個(gè)作家,也不再是對(duì)其進(jìn)行孤立的分析,而是對(duì)其進(jìn)行全方位的比較研究。比如,錢鐘書先生在《宋詩(shī)選注》中選錄了王安石的名作《泊船瓜洲》,在分析“春風(fēng)又綠江南岸”之“綠”字時(shí),列舉數(shù)例唐人使用“綠”字的先例,并作了富有啟發(fā)性的分析。現(xiàn)在有計(jì)算機(jī)的輔助,當(dāng)能找出更多前人使用“綠”字的例子,并對(duì)其前后演變進(jìn)行闡釋。我們也可以對(duì)所有唐詩(shī)中使用色彩的字詞進(jìn)行統(tǒng)計(jì)分析,看看“赤”“橙”“黃”“綠”“青”“藍(lán)”“紫”這些詞唐人運(yùn)用得如何,它們對(duì)于創(chuàng)作繽紛燦爛的唐詩(shī)究竟起到了什么作用。這些都是過(guò)去的研究方法所不能實(shí)現(xiàn)的。

      王兆鵬未來(lái)的數(shù)字人文研究應(yīng)該注意哪些問(wèn)題?或者說(shuō)要堅(jiān)持什么原則呢?

      劉京臣首先,要堅(jiān)持以問(wèn)題為導(dǎo)向,人文為本位,技術(shù)為輔助。無(wú)論是傳統(tǒng)人文研究還是數(shù)字人文研究,都要以問(wèn)題為導(dǎo)向。如果不能發(fā)現(xiàn)、分析和解決問(wèn)題,那么數(shù)字人文或淪為舊成果的展示臺(tái),或淪為新技術(shù)的炫耀場(chǎng)。數(shù)字人文只能以人文為本位,以技術(shù)為手段來(lái)發(fā)現(xiàn)、分析和解決人文社科領(lǐng)域的問(wèn)題,而不能僅用人文社科領(lǐng)域的數(shù)據(jù)來(lái)驗(yàn)證算法。

      王兆鵬說(shuō)得好。我當(dāng)時(shí)進(jìn)入數(shù)字人文研究,就是由問(wèn)題引導(dǎo)的。2012年立項(xiàng)的“唐宋文學(xué)編年系地信息平臺(tái)建設(shè)”,現(xiàn)在大家都認(rèn)為是數(shù)字人文研究的項(xiàng)目。其實(shí),當(dāng)時(shí)我并不知道“數(shù)字人文”概念。只是為了解決文學(xué)研究中的時(shí)、空分離問(wèn)題,才去尋找能解決該問(wèn)題的方法和技術(shù)。2017年,《唐宋文學(xué)編年地圖平臺(tái)》上線引起廣泛反響之后,我才特別關(guān)注數(shù)字人文。

      劉京臣其次,要以數(shù)據(jù)為基礎(chǔ)、平臺(tái)為契機(jī)、團(tuán)隊(duì)為依托。毋庸置疑,數(shù)據(jù)是數(shù)字人文研究的基礎(chǔ)。未來(lái)的數(shù)字人文研究,數(shù)據(jù)要公開,過(guò)程要可推演,結(jié)論要可檢驗(yàn)。平臺(tái)是數(shù)字人文建設(shè)的重要環(huán)節(jié):一要從數(shù)據(jù)著手,研發(fā)特色平臺(tái),不跟風(fēng)、不趨從、不貪大。平臺(tái)有特色,才有可能做出有特色的成果。二要秉持開放理念,積極推廣與其他平臺(tái)的數(shù)據(jù)對(duì)接。《唐宋文學(xué)編年地圖平臺(tái)》實(shí)現(xiàn)了與典故、注釋等次級(jí)平臺(tái)的對(duì)接,極大方便了使用者。三要堅(jiān)持學(xué)術(shù)性與普及性的統(tǒng)一,適時(shí)推出一些與平臺(tái)相關(guān)的說(shuō)明文檔、工具軟件等。

      王兆鵬確實(shí),平臺(tái)過(guò)于專業(yè),會(huì)影響普通用戶的使用和推廣?!吨袊?guó)歷代人物傳記資料庫(kù)》很專業(yè),功能也很強(qiáng)大,但過(guò)于專業(yè)、復(fù)雜,普通用戶使用不便。我們《唐宋文學(xué)編年地圖平臺(tái)》,正在開發(fā)一系列小工具,比如古代紀(jì)年自動(dòng)識(shí)別轉(zhuǎn)換工具、古今地名自動(dòng)識(shí)別轉(zhuǎn)換工具、古代職官自動(dòng)識(shí)別注釋小工具、詩(shī)詞典故自動(dòng)注釋小工具等等。這些小工具不久會(huì)上線給用戶使用。不好意思,打斷了你的話,請(qǐng)繼續(xù)講團(tuán)隊(duì)。

      劉京臣團(tuán)隊(duì)建設(shè),至少要有兩個(gè)方面的力量:一是跨學(xué)科、多背景的建設(shè)團(tuán)隊(duì),主要負(fù)責(zé)項(xiàng)目建設(shè)。在與技術(shù)人員的共同建設(shè)中,人文學(xué)者應(yīng)當(dāng)嘗試學(xué)習(xí)編程語(yǔ)言、數(shù)據(jù)庫(kù)技術(shù)、統(tǒng)計(jì)學(xué)等知識(shí),試著用程序員思維來(lái)思考問(wèn)題、提出問(wèn)題。二是多形式、跨媒介的推廣團(tuán)隊(duì),可借助學(xué)術(shù)會(huì)議、工作坊、培訓(xùn)課程等方式推介平臺(tái),注重在青年學(xué)者、在校碩、博士中的推介,注重向海內(nèi)外數(shù)字人文領(lǐng)域的期刊介紹以平臺(tái)為依托的研究成果。

      王兆鵬當(dāng)前,人文社科研究的范式正在發(fā)生深刻變革。從研究?jī)?nèi)容到研究方法再到研究范疇,都發(fā)生了極大的變化。如何應(yīng)對(duì)這種變化呢?

      鄭永曉守正出新。首先,要堅(jiān)持住傳統(tǒng)的學(xué)術(shù)路徑,夯實(shí)傳統(tǒng)的學(xué)術(shù)基礎(chǔ),練好內(nèi)功,這是“出新” 的前提。其實(shí),很多借助于GIS、SNA等手段呈現(xiàn)出來(lái)的成果,都是以既有研究成果為依據(jù)的,例如CHGIS推出的Ming Dynasty Courier Routes and Stations,源數(shù)據(jù)就來(lái)自于楊正泰的《明代驛站考》(上海古籍出版社1994年版)。其次,要注重學(xué)科交叉,大膽利用其他學(xué)科成熟的經(jīng)驗(yàn)與技術(shù),推動(dòng)單一學(xué)科、傳統(tǒng)學(xué)科的新突破、新發(fā)展。

      劉京臣時(shí)代在發(fā)展,技術(shù)在進(jìn)步,面對(duì)強(qiáng)大的技術(shù),人文學(xué)者既不能無(wú)視,也不必盲從。守正出新,守住學(xué)術(shù)傳統(tǒng),出以技術(shù)之新,相信能將傳統(tǒng)人文研究與數(shù)字人文研究一起推向前進(jìn)。

      王兆鵬數(shù)字人文研究有豐富的議題。我們今天只是做了初步的梳理和展望。數(shù)字人文與傳統(tǒng)人文研究在學(xué)理上有許多內(nèi)在的契合點(diǎn),又能激發(fā)傳統(tǒng)學(xué)科煥發(fā)出新的光彩。我們期待有更多的學(xué)者參與、推進(jìn)這一進(jìn)程。感謝《文藝研究》提供這樣一個(gè)機(jī)會(huì)與大家交流,也感謝兩位的深入討論。

      猜你喜歡
      數(shù)字人文人文數(shù)字
      人文
      答數(shù)字
      人文紹興
      數(shù)字學(xué)術(shù)與公眾科學(xué):數(shù)字圖書館新生態(tài)
      跨界與融合:全球視野下的數(shù)字人文
      跨界與融合:全球視野下的數(shù)字人文
      大規(guī)模古籍文本在中國(guó)史定量研究中的應(yīng)用探索
      數(shù)字看G20
      人文社科
      讓人文光輝照耀未來(lái)
      许昌市| 安阳市| 醴陵市| 淅川县| 高安市| 呼和浩特市| 醴陵市| 综艺| 汝阳县| 呼和浩特市| 博野县| 宜川县| 曲靖市| 天等县| 富平县| 兴文县| 松江区| 延安市| 阳春市| 虎林市| 屏边| 日照市| 白银市| 西昌市| 哈尔滨市| 水富县| 蓝田县| 库尔勒市| 甘洛县| 山西省| 罗定市| 莆田市| 汾西县| 高碑店市| 宜州市| 灵山县| 元阳县| 沧源| 丹寨县| 沐川县| 子洲县|