王兆鵬
(四川大學(xué) 中國俗文化研究所,四川 成都 610065;中南民族大學(xué) 文學(xué)與新聞傳播學(xué)院,湖北 武漢 430074)
今天我們需要大數(shù)據(jù),是因為我們已經(jīng)進入了大數(shù)據(jù)時代。各行各業(yè)都在運用大數(shù)據(jù)來升級換代,連延續(xù)幾千年的刀耕火種的農(nóng)業(yè)也用上了大數(shù)據(jù)??墒俏覀児糯膶W(xué)研究領(lǐng)域的學(xué)者,有的對大數(shù)據(jù)置若罔聞。我們必須跟上時代的步伐,特別是年輕一代的學(xué)者,應(yīng)該擁抱時代,承擔時代賦予的責任。運用大數(shù)據(jù),不僅僅是一種研究方法的選擇、研究視野的拓展,也是大家應(yīng)該承擔起來的責任。大家肩上有三重責任:
第一是要推動學(xué)術(shù)進步。我們已經(jīng)進入了信息時代,現(xiàn)在的本科生、碩士生、博士生應(yīng)該怎樣去推動學(xué)術(shù)進步?數(shù)據(jù)化是一條很重要的途徑。按照傳統(tǒng)的學(xué)術(shù)觀念和研究方法,古代文學(xué)研究很難有革命性的變化。但時代為我們提供了非常有利的、人人可用的數(shù)字技術(shù)。我們不能辜負時代,要充分利用數(shù)字技術(shù)去推動古代文學(xué)研究的數(shù)據(jù)化與現(xiàn)代化,這是新生代學(xué)人的責任。作為個體,可以自由選擇研究方法,堅守學(xué)術(shù)傳統(tǒng);但作為新生代學(xué)人,有責任用新方法、新視野把學(xué)術(shù)研究向前推進。
第二是做好文化傳承。在大數(shù)據(jù)時代、讀屏讀圖時代,我們應(yīng)該怎樣傳承文化?仍然只靠一支筆或是口耳相傳?信息化、可視化時代,文學(xué)研究應(yīng)該怎樣利用虛擬現(xiàn)實、區(qū)塊鏈、元宇宙等技術(shù)、方法、理念來更好地傳承文學(xué)經(jīng)典與文化精華,是我們不能回避的課題和責任。當新技術(shù)風生水起時,從事傳統(tǒng)文化、文學(xué)研究的專業(yè)工作者若不參與其中,所謂的傳承文化、傳承經(jīng)典,只是一句空話。
在信息時代,文學(xué)研究隱藏著一種新的危機,那就是“古籍在國內(nèi),而數(shù)據(jù)在國外”。很多古籍文獻數(shù)據(jù)由外國人開發(fā)和掌握。若今后我們要使用的古代文化、文學(xué)數(shù)據(jù)需要向外國人購買,那樣不僅會尷尬,也會深度影響我們的文化自信、文化安全。我們必須完全掌握屬于自己的古籍文獻數(shù)據(jù),為學(xué)術(shù)研究、社會文化建設(shè)服務(wù)。今后研究古代文學(xué),如果我們只是找出幾條文獻依據(jù),而外國學(xué)者拿出大數(shù)據(jù)作為研究依據(jù),我們將無言以對。所以,用大數(shù)據(jù)來傳承文化,不僅僅是一種責任,還有一種緊迫感和危機感。新生代的學(xué)者,要有世界眼光、時代意識,要有責任感和使命感。
第三是適應(yīng)人才培養(yǎng)的需要。無論是師范生,還是非師范生,大家都肩負著培養(yǎng)人才的責任?,F(xiàn)在的教育理念和方法是基于工業(yè)化時代的,進入信息時代、大數(shù)據(jù)時代后,我們要思考怎樣適應(yīng)時代的需求,培養(yǎng)新時代所需要的人才。當學(xué)生都了解并運用虛擬現(xiàn)實、區(qū)塊鏈、元宇宙時,如果身為師長還視而不見,則無法培養(yǎng)出新時代需求的新型人才。這幾重責任,都需要我們?nèi)チ私獯髷?shù)據(jù)、運用大數(shù)據(jù)。
當下是文學(xué)研究需要大數(shù)據(jù)、也能產(chǎn)生大數(shù)據(jù)的時代。大數(shù)據(jù)從哪來?文學(xué)研究歷來缺乏數(shù)據(jù)意識和數(shù)據(jù)積累。我們提出的理念是:凡資料,皆數(shù)據(jù)。無論是什么樣的文獻資料,都可以轉(zhuǎn)化為數(shù)據(jù)。先說數(shù)據(jù)有哪些類型。
數(shù)據(jù)有三大類型:
從形態(tài)上看,可以分為顯性數(shù)據(jù)和隱性數(shù)據(jù)。顯性數(shù)據(jù)是直觀的,俯拾即是。比如古代文學(xué)作品選里的作者和作品目錄,人名和地名辭典里的人名、地名目錄,都是顯性數(shù)據(jù)。隱性數(shù)據(jù),是材料里隱含的、不能直接看到的數(shù)據(jù),需要加以人工標引。比如,作者的社會身份、作品的創(chuàng)作時間和地點,就需要根據(jù)有關(guān)傳記資料或考證成果予以人工標引。從作家年譜里提取作家的行蹤數(shù)據(jù),也需要標引和挖掘。一篇作品,隱含有多種數(shù)據(jù),如仿效、化用了前人哪篇作品,又被哪些后人仿效、化用,以往這些隱性數(shù)據(jù)很難獲得,如今隨著數(shù)字技術(shù)的進步,計算機經(jīng)過學(xué)習,能自動對不同的作品進行比對,從而為我們提供每篇作品的接受史數(shù)據(jù)。
比如,要了解杜甫的詩《登高》有多少人仿效唱和,我們在詩詞“知識圖譜”數(shù)據(jù)庫(1)“知識圖譜”數(shù)據(jù)庫,是筆者的團隊與蘇州圖譜信息技術(shù)有限公司合作開發(fā)的。網(wǎng)址是https://cnkgraph.com/,相關(guān)數(shù)據(jù)還在開發(fā)階段,可免費試用。里,可以找到20首后人追和的詩作,還可以進一步了解每句詩有多少后人模仿化用。例如,詩句“無邊落木蕭蕭下”,化用的人最多,后世有88首仿效和化用。這些數(shù)據(jù),可以用來分析一首詩在后世影響的大小及其變化。以前筆者做接受史研究,非常希望有這類創(chuàng)作接受的數(shù)據(jù),可當時很難獲取。現(xiàn)在有了這類數(shù)據(jù),就可以豐富和完善接受史研究。而且隨著技術(shù)進步,以后這類數(shù)據(jù)會越來越豐富、越來越完善。
從性質(zhì)上看,可以分為定質(zhì)化數(shù)據(jù)和定量化數(shù)據(jù)。所謂定質(zhì)化數(shù)據(jù),是能夠衡量測度對象內(nèi)在質(zhì)量優(yōu)劣高低的數(shù)據(jù)。定量化數(shù)據(jù),是計算對象數(shù)值多少的數(shù)據(jù)。定量化數(shù)據(jù),只能比較數(shù)量的差異,而不能衡定質(zhì)量的異同。目前我們還只有定量化數(shù)據(jù),筆者30年來積累的定量化數(shù)據(jù)有幾百萬條,但定質(zhì)化數(shù)據(jù)一條也沒有。這需要學(xué)界的共同努力。
3.從來源上看,可以分為原生數(shù)據(jù)和衍生數(shù)據(jù)。原生數(shù)據(jù),是客觀信息,比如作品選目錄里的作者、時代和作品篇名等信息。衍生數(shù)據(jù),是需要標引再生的數(shù)據(jù),如作者的文體身份,是詩歌作者還是散文作者,作品的文體是詩還是詞抑或是賦等。這些身份、文體屬性經(jīng)過標引后就成為新的數(shù)據(jù),即衍生數(shù)據(jù)。用戶目的不同,標引的內(nèi)容、角度不同,衍生出的數(shù)據(jù)也不一樣。
上文提到,凡資料,即數(shù)據(jù)。文獻來源不同,數(shù)據(jù)的內(nèi)容和功能也不一樣。古代文學(xué)研究,至少有六種數(shù)據(jù)來源。
第一種是文學(xué)史?!吨袊膶W(xué)史》著作,是中文系學(xué)生的必讀書?,F(xiàn)在各大學(xué)使用的文學(xué)史教材,有的是用高等教育出版社出版的袁行霈先生主編的《中國文學(xué)史》,有的是用袁世碩先生主編的《中國古代文學(xué)史》,還有中國社會科學(xué)院文學(xué)研究所編著的《中國文學(xué)史》,或者是北京大學(xué)游國恩先生等主編的《中國文學(xué)史》。文學(xué)史教材轉(zhuǎn)化為數(shù)據(jù),首先需要建立數(shù)據(jù)錄入的模板(見表1)。
表1 中國文學(xué)史所論作家作品數(shù)據(jù)表
例如錄入袁行霈先生主編《中國文學(xué)史》唐代部分的數(shù)據(jù),“作家姓名”欄,按目錄依次填王績、王勃、楊炯、盧照鄰、駱賓王、杜審言、沈佺期、宋之問等;“章節(jié)層級”欄,因為李白、杜甫各占一章,就填“一章”;陳子昂,一人獨占一節(jié),就填“一節(jié)”;張若虛、王維、王昌齡、崔顥、高適、岑參等,都是幾人合為一節(jié),就各填“合節(jié)”;王績、四杰、杜審言、沈佺期、宋之問和張九齡等,都是在各節(jié)目錄下出現(xiàn)姓名,可填“節(jié)下”。其他欄目,也根據(jù)文學(xué)史正文的實際情況填上相關(guān)數(shù)據(jù)。
通過章節(jié)篇幅的數(shù)據(jù),就可以看出詩人詩史地位、影響力的不同。獨占一章者,為第一層級;獨占一節(jié)者,為第二層級;合一節(jié)者為第三層級;節(jié)下提及其名者,為第四層級。如果參照鐘嶸《詩品》的做法,將四個層級依次換為上上品、上品、中品、下品,那么,李白、杜甫和李商隱可視為上上品,陳子昂可視為上品,張若虛、王維等人可視為中品,其他詩人可視為下品。當然,這只是一家文學(xué)史的評價,屬一家之言。如果將20世紀以來數(shù)百種文學(xué)史數(shù)據(jù)錄入,就可以全面看出作家地位的不同及其變化。比如以前的文學(xué)史都是在節(jié)下提及張若虛,很少在“節(jié)”的目錄中出現(xiàn)。也就是說,以前都將其作為下品詩人對待,而袁本文學(xué)史把他提到了中品。晚唐的李商隱,在以前的文學(xué)史都是占一節(jié)或共占一節(jié),屬于上品或中品詩人,到了袁本文學(xué)史,卻獨占一章,這表明他的文學(xué)史地位已跨入上上品,與李、杜并駕齊驅(qū)。這是南開大學(xué)羅宗強先生提出的意見,他是唐五代文學(xué)卷的主編。他力主把李商隱升為一專章,也就是從上品詩人提升為上上品詩人。編寫組討論時有不同意見,因為以前的文學(xué)史很少把李商隱作為上上品詩人看待。但羅先生力主其說,并提出了許多理由依據(jù),編寫組就遵從了他的意見。到現(xiàn)在,也為學(xué)界所普遍接受認同。
如果把20世紀以來成百上千種文學(xué)史著作全面轉(zhuǎn)化為數(shù)據(jù),不僅可以統(tǒng)計分析個體作家歷史地位的變化、群體流派的演進,還可以考察不同時期文學(xué)觀念、審美意識、價值標準的不同與變化,看出學(xué)術(shù)的發(fā)展與進步。比如,宋代詞人張元干、朱敦儒,由原來的節(jié)下提及上升到節(jié)的目錄中,不僅表明他們的歷史地位有所提高,也表明學(xué)術(shù)界對他們的研究更加深入,提升了對他們在詞史進程中貢獻的認識。文學(xué)史著作的基本理念是守正出新,不能把沒有得到學(xué)界認同的個人主觀化的見解寫到文學(xué)史中。隨著學(xué)術(shù)研究的深入和進步,我們對有些作家和群體流派的貢獻會有新的認識。數(shù)據(jù)的統(tǒng)計分析,可以看出學(xué)術(shù)研究的發(fā)展變化。
第二種是作品選。作品選里也都是數(shù)據(jù),比如郁賢皓先生主編、高等教育出版社出版的《中國古代文學(xué)作品選》,筆者主編的武漢出版社出版的《中國古代文學(xué)作品選》。除了作為高校教材的作品選,各種古代文學(xué)作品選本,諸如唐詩選、宋詞選、李白詩選、杜甫詩選等讀物,也一樣包含有豐富的信息數(shù)據(jù)。
首先是作家數(shù)據(jù)。每位作家入選的作品文體不同、篇數(shù)不同。比如蘇軾,詩詞文各體皆工,哪部作品選都會入選他的詩、詞、文、賦;李、杜以詩見長,入選的詩作會很多;韓愈、柳宗元的散文和詩歌,也是作品選必選的對象。一位作家,入選的作品越多,表明他的文學(xué)地位越高、文學(xué)影響力越大。
其次是作品數(shù)據(jù)。一部作品入選的次數(shù)越多,表明它的影響力越大。作品數(shù)據(jù)錄入的方法,也是先建數(shù)據(jù)表(見表2)。
表2 中國古代文學(xué)作品選數(shù)據(jù)表
作家姓名、作品篇名和首句,是原生信息數(shù)據(jù)。體裁、主題、時代是標引出來的衍生數(shù)據(jù)。之所以詩歌也要列出首句,是為了區(qū)別同題的作品和組詩中的單篇作品。如果統(tǒng)計了幾十上百種選本,就可以統(tǒng)計分析每篇作品影響力的大小和變化、每位作家創(chuàng)造力和影響力的高低變化。有的詩人是百花齊放,有好多作品受人歡迎,有的一枝獨秀,總是那一首作品受人關(guān)注。有的作家眾體皆擅,多項全能,有的作家屬單項選手,專擅一體。統(tǒng)計數(shù)據(jù)既能給每位作家畫像,也能衡量他貢獻的大小、影響的高低。唐詩究竟哪首詩影響力、知名度最高?是杜甫的《登高》還是崔顥的《黃鶴樓》?李白《登金陵鳳凰臺》有意與崔顥《黃鶴樓》一爭高下,究竟是崔氏原唱受人歡迎,還是李白的擬作受人關(guān)注?數(shù)據(jù)會提供具體的答案。
第三是文學(xué)總集的作家信息數(shù)據(jù)。比如《全唐詩》《全唐文》《全宋詩》《全宋詞》《全宋文》,收錄了唐宋時期全部作者的所有作品,里面都有作者小傳。作者小傳中的信息,可以轉(zhuǎn)化為數(shù)據(jù)。需要注意的是,《全唐詩》《全唐文》是清人所編,作者小傳的信息不盡準確?!度卧~》成書較早,作者小傳的信息,后來學(xué)界多有訂正。所以,錄入時要注意參考學(xué)界成果加以訂正。
宋代作家信息的數(shù)據(jù)(參表3),可以根據(jù)《全宋詩》《全宋詞》《全宋文》來錄入。作家姓名欄填蘇軾、辛棄疾等。時代欄,填宋代或唐代。如果專注于宋代,可填北宋或南宋,甚至是北宋前期、北宋中期或后期;如果是唐代,可分初、盛、中、晚唐。根據(jù)研究者的不同需求,可細分也可粗分。生卒年欄,生卒年可考的就填,生卒年不明的就留空。但要注意按《全宋詩》《全宋詞》《全宋文》原來的排列次序來填。排列次序,隱含著作者的時代信息,特別是生卒年不詳?shù)淖髡?,原書所排列的時段、位置,都有一定的歷史依據(jù)。為了標明每位作者所在的時段,筆者依據(jù)“三全”的順序,分別給每位作者編一個代碼,如S4012、C1097、W1599,分別代表三位作者在《全宋詩》的第4012頁、《全宋詞》的1097頁、《全宋文》的1599頁。這些都是起始頁,同時代表作者所處的時代位置。
表3 作家基本信息數(shù)據(jù)表
作家籍貫,分省市縣三級,是為便于分地分層統(tǒng)計。還可以列出古代路或道、州、縣三級,以便古今對照。文體身份,指作者是詩人還是詞人抑或是散文作者,可用代碼表示,如S代表詩、C代表詞、W代表文,SCW代表其人兼三種詩詞文作者三重身份,SC代表作者同時有詩詞傳世,SW代表其人有詩文傳世。填入后由計算機來統(tǒng)計,又快又準確。不過,統(tǒng)計作品數(shù)量,要注意一題多篇的情況,特別是詩歌,有的一題之下有多首,要注意分開統(tǒng)計。比如陸游的詩歌題目只有五千多篇,詩作卻有九千多首。
數(shù)據(jù)經(jīng)整理加工,逐步開發(fā)成為數(shù)據(jù)庫,有助于研究的多角度與多層面的開展。筆者運用這些數(shù)據(jù)的論文已經(jīng)發(fā)表(2)王兆鵬,齊曉玉.宋代詩文詞作者的層級與時空分布[J].中南民族大學(xué)學(xué)報(人文社會科學(xué)版),2022,42(01)。,被中國人民大學(xué)報刊復(fù)印資料《中國古近代文學(xué)研究》全文轉(zhuǎn)載,《新華文摘》也有論點摘編。去年在學(xué)報網(wǎng)絡(luò)版刊出后,還受到《2021哲學(xué)社會科學(xué)學(xué)科研究發(fā)展報告(文學(xué))》課題組的關(guān)注和介紹。數(shù)據(jù)統(tǒng)計分析成果受到學(xué)界的關(guān)注,也表明該研究方法的科學(xué)性與創(chuàng)新性。
第四是研究論著目錄數(shù)據(jù)。數(shù)據(jù)來源于研究論文目錄和研究著作目錄。國內(nèi)論文目錄,可以從中國期刊網(wǎng)、中國人民大學(xué)報刊復(fù)印資料、全國報刊索引等網(wǎng)站獲取。著作則可以從全國新書目、國家圖書館官網(wǎng)等查詢,海外有關(guān)中國古代文學(xué)研究論著目錄來源不一。既可從各國各地政府圖書館、著名高校圖書館查詢,也可從相關(guān)專題目錄匯編中查詢。如日本吉田誠夫、高野由紀夫、櫻田芳樹編集《中國文學(xué)研究文獻要覽1945-1977》(日外アソシエーツ株式會社1979年版),谷口洋、稀代麻也子、永田知之、內(nèi)山精也、上田望編集《中國文學(xué)研究文獻要覽·古典文學(xué)1978-2007》(日外アソシエーツ株式會社2008年版),胡建次和邱美瓊編譯《日本學(xué)者中國古典詩學(xué)研究主要文獻目錄1900-2007》(百花洲文藝出版社2009年版),金時俊、徐敬浩編《韓國中國學(xué)研究論著目錄1945-1999》(首爾松出版社2001年版)等。論著目錄的模板,需要包含如下欄目(見表4):
表4 論著目錄數(shù)據(jù)表
前四個欄目,都是原生客觀信息,后面幾欄,都是需要標引的衍生數(shù)據(jù)。例如,“晉玉《漱玉斷腸詞》,《文藝雜志》1915年第1期”這條目錄,分別錄入作者、作品、來源、時間四個欄目。對象,指論文研究的作家,這篇論文研究的是李清照和朱淑真,對象欄則應(yīng)填上李、朱二人的名字。角度,指研究角度是考據(jù)還是理論闡釋。這一欄,比較主觀,可以根據(jù)研究者的需求來設(shè)定或變更欄目內(nèi)容。時代,指論文研究對象的時代,如果數(shù)據(jù)庫包含幾個時代,就應(yīng)該填宋代,如果數(shù)據(jù)庫只含宋代的研究成果,那就可填南宋,以區(qū)別于北宋。文體,是指論文研究的詩、詞還是文?!妒駭嗄c詞》是研究兩位女性詞人的詞,所以文體欄應(yīng)該填“詞”。單篇,指論文研究的是作家的那一篇作品,如李清照的《聲聲慢》之類。但此文是整體研究,不是專門研究哪一篇、哪一首作品,所以此欄留空。地域,指論文作者是哪里人,以便統(tǒng)計作者的地域分布。如果數(shù)據(jù)庫包含海內(nèi)外,地域就填中國大陸或中國臺灣、中國香港或美、日、韓等。如果只是國內(nèi)數(shù)據(jù),就按省份或城市來填。
一條或幾條論著目錄意義不大,但幾千條、幾萬條目錄,就大有用處??梢該?jù)此統(tǒng)計分析一個時段、一個地區(qū)的研究格局、動態(tài)。筆者搜羅了3萬多條20世紀海內(nèi)外研究唐代文學(xué)研究的論著目錄,把這些目錄轉(zhuǎn)化成數(shù)據(jù)庫,然后運用這些數(shù)據(jù)統(tǒng)計分析,發(fā)表了十幾篇論文。這幾年筆者的團隊又陸續(xù)搜羅了30多萬條中國古代文學(xué)研究的論著目錄,可以全方位統(tǒng)計分析20世紀整個中國古代文學(xué)研究的狀況,既可以考察一百多年來作者隊伍的代群分布、時段分布,也可了解各個時段研究熱點的分布與變化。
第五是研究著作,比如作家年譜與傳記、別集編年箋注、作家生平考證論文等。我主持研發(fā)的唐宋文學(xué)編年地圖的數(shù)據(jù),就是從這三類研究成果中挖掘提取來的。唐宋文學(xué)編年地圖數(shù)據(jù),錄入表格如下:
表5 作家活動編年數(shù)據(jù)表
這個表格是經(jīng)過反復(fù)摸索試驗后定下來的??雌饋砗唵?,做起來卻不容易。開始我們是把作家活動和作品編年分開來做,后來發(fā)現(xiàn)做了很多重復(fù)勞動,于是合并簡省為一個表。表中的數(shù)據(jù),沒有原生數(shù)據(jù),全是按預(yù)設(shè)的目的從文獻資料中挖掘提取而來。
以白居易為例,根據(jù)《白居易年譜》,他大歷七年正月二十日生于新鄭。這條內(nèi)容,分別填入上面表格中對應(yīng)的欄目。京畿道、鄭州和河南、鄭州等地名信息,都是錄入時人工補充的信息?,F(xiàn)在隨著技術(shù)的發(fā)展,我們開發(fā)的數(shù)據(jù)庫中,已經(jīng)可以自動比對地名的所屬關(guān)系?,F(xiàn)在只填一個古地名鄭州,數(shù)據(jù)庫會自動比對唐代鄭州屬于京畿道,宋代屬于京西北路,而不用人工填寫。機器自動比對后填寫,不容易出錯。而人工做,不小心就會把地名的對應(yīng)關(guān)系弄錯,還是需要校驗。交往人物、編年作品,有則填,沒有信息就留空?!白髌肺捏w”,是指編年作品屬于詩、詞或文,以便分體統(tǒng)計。文獻來源,填所依據(jù)的作者書名及版本頁碼等信息。文獻來源,不止一種。白居易事跡,既參考了朱金城《白居易年譜》,也參用了謝思煒的《白居易文集校注》。
這些作家活動數(shù)據(jù),與《中國歷史地圖》數(shù)據(jù)融合,就形成唐宋文學(xué)編年地圖平臺(3)https://sou-yun.cn/MPoetLifeMap.aspx。。編年地圖,不只是把作家一生的活動軌跡予以可視化呈現(xiàn),還可以發(fā)現(xiàn)很多學(xué)術(shù)問題,引發(fā)我們進一步思考和研究。
第六是工具書。工具書往往是格式化、條目化的,轉(zhuǎn)化為數(shù)據(jù)更方便。比如,浙江大學(xué)龔延明等先生編撰的《宋登科記考》,搜羅的宋代進士的信息相當豐富完備。我們按照進士姓名、及第年份、及第科目、進士籍貫(分路、州、縣三級)等欄目,將宋代進士的信息轉(zhuǎn)錄成《宋代進士數(shù)據(jù)庫》。
李之亮先生前年些出版了兩套《宋代職官通考》《宋代郡守通考》叢書,是學(xué)術(shù)含量很高的學(xué)術(shù)著作。筆者團隊曾把這兩套書轉(zhuǎn)化為《宋代文官數(shù)據(jù)庫》,檢索統(tǒng)計都十分方便,既可以了解宋代每一年從中央到地方的各路分州府有哪些官員,也可以分地統(tǒng)計各路、各州府歷年有哪些官員,還可以考察每位官員一生做了哪些官、在哪些地方做過官。數(shù)據(jù)非常有用。
比如,在宋代300多年的歷史上,有多少人在建康做過知州、知府,每一年是誰任知州知府,打開數(shù)據(jù)庫,瞬間就可以統(tǒng)計出結(jié)果。建康一地出了多少進士,有多少狀元,每科多少人,打開《宋代進士數(shù)據(jù)庫》,一查即知。
有了數(shù)據(jù)意識,什么資料都可以轉(zhuǎn)化為數(shù)據(jù)。再強調(diào)一遍:凡資料,即數(shù)據(jù)。凡數(shù)據(jù),皆有用。
現(xiàn)在論證第二個問題:數(shù)據(jù)有什么用?有什么學(xué)術(shù)意義?
有人認為文學(xué)是審美的,美的東西是無法用數(shù)量、數(shù)據(jù)來衡量的。既然美的東西不用能數(shù)據(jù)來衡量,那數(shù)據(jù)就沒什么用,跟文學(xué)也沒有關(guān)系。我們現(xiàn)在要破除這種執(zhí)念,特別是在大數(shù)據(jù)時代,文學(xué)數(shù)據(jù)有大用、有妙用。藝術(shù)體操、花樣滑冰、高臺跳水等運動項目,既是競技的,也是審美的。比賽的時候,不是用分數(shù)來衡量高下嗎?這些項目的世界冠亞軍不是通過打分決出勝負的嗎?書法繪畫是一種純藝術(shù)、純審美的東西。拍賣行里、書畫市場里,不是用價格來衡量它藝術(shù)價值的高低嗎?當然價格的高低,有市場因素起作用,但書畫家影響力的高低、作品藝術(shù)價值的大小,是決定性因素。
一首詩、一首詞、一部小說,既是審美的藝術(shù)作品,也含有競技性。我們?yōu)槭裁床荒苡脭?shù)據(jù)來衡量它價值的高低呢?只是我們現(xiàn)在還沒找到一種有效的方法來衡量它、測度它。筆者認為,構(gòu)建一套文學(xué)評價指標體系,建立計算模型和一套標準化的操作規(guī)程,也能準確衡量出一部作品價值的高低。
數(shù)據(jù)與文的關(guān)系有無?例如,詩人的地位、影響力,和他的作品數(shù)量有沒有關(guān)系?傳統(tǒng)的觀念是,文學(xué)作品要靠質(zhì)量、靠精品,這當然沒錯。但是,如果僅有一首精品,能不能成為杜甫?如果李白只有一首經(jīng)典作品流傳,還能不能成為后人心目中的李白?
我們來看《全唐詩》中的數(shù)據(jù)。在唐詩中,從影響力來看,杜甫、李白分別居第一和第二;而作品量,他倆也位居第二、第三。也就是說,杜甫的影響力是第一,作品量是第二;李白的影響力第二,作品量為第三。這個數(shù)據(jù)表明,詩人的影響力、文學(xué)史地位,跟他作品的數(shù)量正相關(guān)。再來看《全宋詞》。宋詞里辛棄疾的影響力高居第一,蘇軾居第二;作品量呢,也是辛棄疾第一,蘇軾第二。這再次表明,作家的影響力、文學(xué)史地位,跟他作品的數(shù)量高度正相關(guān)。假如辛棄疾的名篇佳作只有一首,蘇軾一生也只創(chuàng)作了一首詞,或者只有一首好作品傳世,他倆還能成為后人無限景仰的辛棄疾、蘇軾嗎?宋詩里,影響力最大的是蘇軾,其次是陸游。陸游的詩作最多,有九千多首,名列第一;蘇軾的詩作近三千首,作品量排在第七。
這些數(shù)據(jù)表明,在唐宋詩詞里,詩人的影響力跟他的作品數(shù)量高度正相關(guān),但不是完全成正比。不是作品數(shù)量越高,影響力就越大。因為,有些詩人作品量雖然很多,但影響力不大。所以,影響力大的詩人,作品量都很高,但不能說,詩人的作品量越多,影響力就越大。南宋趙汝騰《石屏詩序》說:“詩之傳,非以能多也,以能精也。精者不可多,唐詩數(shù)百家,精者才十數(shù)人,就十數(shù)人中選其精者,才數(shù)十而已。惟少陵、謫仙能多而能精,故為唐詩人巨擘也?!彪m然他強調(diào),詩歌傳播要靠精品,而精品難得,但他也明確地說,正因為精品難得,所以要成“巨擘”,必須是“多而能精”。質(zhì)量與數(shù)量要雙高。李、杜能成為巨擘,就是因為他們的作品又多又精。
事實表明文學(xué)跟數(shù)量、數(shù)據(jù)大有關(guān)系。接著來看數(shù)據(jù)究竟有哪些作用和意義。
其一,數(shù)據(jù)可以發(fā)現(xiàn)新問題、提出新觀點。我們平常說唐詩宋詞是經(jīng)典,但五萬多首唐詩、兩萬多首宋詞,并不是每首都是經(jīng)典。究竟哪些詩詞作品影響力較大、較受大眾歡迎?有人喜歡“鵝鵝鵝,曲項向天歌”,有人喜歡“床前明月光,疑是地上霜”,還有人喜歡或者說更熟悉“春眠不覺曉”。就這三首啟蒙詩,哪篇影響力最大?啟蒙詩知名度高,但在詩人心中、專家眼中,未必是頂級的經(jīng)典。文學(xué)史上,可讀性與藝術(shù)性之間、創(chuàng)造性與影響力之間,不一定都成正比。知名度很高、可讀性很強的作品,文學(xué)價值不一定是最高的。那怎樣來衡量唐詩宋詞的價值和影響力呢?
我們還是用數(shù)據(jù)來回答。目前的數(shù)據(jù),還無法測度一篇作品內(nèi)在藝術(shù)價值的大小,因為還沒有建立起作品評價的量化指標體系和計算模型,但可以衡量一篇詩詞作品的外在影響力。我們選取了五種指標:后代詩人、詞人追和的頻次,歷代選本的入選頻次,歷代詩論家的品評頻次,當代學(xué)者研究的頻次,網(wǎng)頁著錄及評論的頻次。按照這五種指標搜羅數(shù)據(jù)后再加權(quán)計算,衡定每首詩詞影響力的大小。將影響力位居前列的視為名篇。
根據(jù)具體數(shù)據(jù)我們分別排列出唐詩名篇三百首、宋詞名篇三百首、宋詩名篇三百首、唐文名篇三百首,每篇作品得分多少、差距多大,一目了然。過去評判作家作品時,主要憑借專家學(xué)者主觀評價,易受個體的好惡影響。例如,只憑感覺,認為這篇作品影響很大、那篇作品影響較大。很大、較大,究竟差別是多大,只憑感覺,而無具體的量化指標和數(shù)據(jù)支撐。今天我們能用數(shù)據(jù)呈現(xiàn)出確切的答案。在影響力最大的唐詩三百首名篇中,位居前列的十大名篇是:
表6 唐詩十大名篇表
以前從來沒有人為唐詩作品的影響力、知名度排出名次,最多只爭論哪首作品該排在第一,如嚴羽說崔顥的《黃鶴樓》應(yīng)為第一,但他沒有說哪首詩該居第二、哪首詩可列第三,而且只是憑主觀感覺、個人好惡,很難有公信力、說服力。今天我們用大數(shù)據(jù)為唐詩宋詞排名,可能有人不同意這個排名,因為和他心目中的十大名篇差別太大,但這是客觀數(shù)據(jù)得出來的結(jié)論,有理有據(jù)。我們不僅能夠排列出三百首名篇、百首名篇、十大名篇、第一名篇,而且可以分析出其理據(jù)。崔顥的《黃鶴樓》能成為唐詩第一名篇,除了本身的藝術(shù)含量之外,重要原因是有傳播故事,而且還有李白這樣的超級名流推介。傳播故事與名流推介的雙重作用,強化和擴大了崔詩的影響力。十大名篇中,其他作品也都有傳播故事起作用。
再看宋詞十大名篇:
表7 宋詞十大名篇表
從得分來看,第一名《念奴嬌·赤壁懷古》遠高于其他詞作,是當之無愧的宋詞第一名篇。唐詩里,第一名《黃鶴樓》的得分也比第二名之后的唐詩高出好多。從形成的原因看,宋詞十大名篇,也有傳播故事和名流推介。蘇軾本人,就是《念奴嬌·赤壁懷古》的推廣者。宋人盛傳,東坡在玉堂,問善歌的幕士,他的詞跟柳永詞有什么不同。幕士回答說:柳永詞適合十七八女孩兒,按紅牙拍歌“楊柳岸曉風殘月”,東坡詞須關(guān)西大漢,執(zhí)銅琵琶鐵板唱“大江東去”。這個故事,差不多盡人皆知。經(jīng)典作品,本就受人關(guān)注,加之有趣的故事,更會讓人津津樂道,從而提高其知名度、美譽度和影響力。
其實,用大數(shù)據(jù)分析得出排行榜,不是我們的根本目的。我們的目的,是要追尋探討為什么這些詩詞影響力最大、原因何在,對詩詞的當下傳播有什么啟示,詩詞的影響力在不同時代有什么變化、為什么有變化,和當時的文學(xué)思潮、價值觀念、審美意識有什么深層的關(guān)聯(lián)。過去依據(jù)有限的文獻記載和評點,只能靜態(tài)了解后世論者對唐詩宋詞的態(tài)度,而大數(shù)據(jù)則能動態(tài)地顯示一篇作品在不同時代影響力的變化,從而發(fā)現(xiàn)不同作品不同的特質(zhì)。數(shù)據(jù)顯示,蘇軾《念奴嬌·赤壁懷古》,是永恒的經(jīng)典,哪個時代都受人歡迎;而岳飛《滿江紅》則是后起的經(jīng)典,在明清之前影響力有限,到20世紀30年代以后,隨著政治環(huán)境的變化,才聲華日上,成為舉世傳誦、家喻戶曉的名篇。
有人會問,為什么陳子昂的《登幽州臺歌》、張若虛的《春江花月夜》這些名篇,沒有入圍唐詩十大名篇?《登幽州臺歌》甚至排名在百名之外。數(shù)據(jù)告訴我們,這兩首作品在明清以前,壓根就沒有什么名氣,直到現(xiàn)當代才受人關(guān)注。近代著名學(xué)者王闿運稱揚張若虛的《春江花月夜》是“孤篇橫絕,竟為大家”,現(xiàn)代著名詩人、學(xué)者聞一多又極力稱頌它是“詩中的詩,頂峰上的頂峰”,于是,《春江花月夜》就名聲大振,凡是唐詩選本,無不入選。我們的唐詩宋詞排行榜,涵蓋的是歷代數(shù)據(jù),不是一個時代的數(shù)據(jù),反映的是每首作品在歷代的綜合影響力而不是一個時代的影響力。
數(shù)據(jù)還可以發(fā)現(xiàn)個體作家創(chuàng)作歷程的變化,例如,李白創(chuàng)作高潮在何時?杜甫的創(chuàng)作高峰在哪個時段?李白和杜甫是唐詩頂峰上的頂峰,但不是一步登上頂峰,而是逐步登上頂峰的。數(shù)據(jù)可以顯示李杜創(chuàng)作歷程和影響力的變化過程,但現(xiàn)在還沒有人做過統(tǒng)計分析。
筆者統(tǒng)計了蘇軾創(chuàng)作歷程的變化。他的詞創(chuàng)作,可分為五個階段:第一階段,治平元年至熙寧七年(1064-1074)任鳳翔簽判至杭州通判時期,作詞57首;第二階段,熙寧八年至元豐二年(1075-1079)知密州、徐州、湖州時期,寫有52首詞;第三階段,元豐三年至七年(1080-1084)謫居黃州時期,作詞97首;第四階段,元豐八年至紹圣元年(1085-1094)回朝任翰林及出守杭州、潁州、定州時期,作詞62首;第五階段,紹圣二年至元符三年(1095-1100)謫居惠州、儋州時期,共寫詞24首。這是依據(jù)鄒同慶、王宗堂先生《蘇軾詞編年校注》編年的統(tǒng)計。蘇軾可編年詞共292首,而謫居黃州五年,就創(chuàng)作了97首。由此可以發(fā)現(xiàn),蘇詞的創(chuàng)作高峰是在謫居黃州期間。居黃五年的詞作,占了他一生詞作總量的三分之一。他的十首經(jīng)典名作,也一半寫在黃州。這五首名篇是:《念奴嬌》(大江東去)、《水龍吟》(似花還似非花)、《卜算子》(缺月掛疏桐)、《洞仙歌》(冰肌玉骨)、《定風波》(莫聽穿林打葉聲)。黃州,是蘇軾政治上的低谷時期,卻創(chuàng)造了詞作的輝煌。其中原因,今年5月14日筆者在《光明日報》國學(xué)版發(fā)表的短文《蘇軾:問汝平生功業(yè),黃州惠州儋州》,做過簡略的分析,以后還會展開討論。
其二,數(shù)據(jù)可以改變甚至顛覆傳統(tǒng)的認知。例如,陳振祥先生的《中國文化地理》提出的中國文化中心三次南移論被廣泛接受。陳先生認為,中國文化中心,原來是在黃河流域的中原。三次大戰(zhàn)亂,即永嘉之亂、安史之亂、靖康之亂,導(dǎo)致文化中心南移。到靖康之亂,文化中心徹底南移到南方。筆者的數(shù)據(jù)卻表明,文學(xué)中心的南移,其實在晚唐的時候就基本完成,到北宋初,已徹底南移。且看表8數(shù)據(jù):
表8 北宋時期南北方作家分布表
宋初,南方作者共有280人,而北方只有181人。到北宋慶歷年間,也就是范仲淹、歐陽修生活的時代,南方作者多達623人,北方只有203人。元祐時期,也就是蘇軾、黃庭堅生活的時代,南方作者達到976人,而北方仍維持在200多人的水平。數(shù)據(jù)表明,北宋的文學(xué)中心完全移到了南方,此后北方就再也沒有超越南方。至于文學(xué)中心南移的原因,不僅僅跟戰(zhàn)爭因素有關(guān),還跟別的因素有關(guān)。比如,安史之亂后,唐代北方的詩人還在增長,而南方詩人數(shù)量降低,到了晚唐,南方詩人才超過北方,表明戰(zhàn)爭造成的文化中心流動,至少有滯后效應(yīng)?;蛘哒f,造成唐代文化中心南移的戰(zhàn)爭,不僅是安史之亂,晚唐的內(nèi)戰(zhàn)也造成了巨大的社會流動和文化中心的轉(zhuǎn)移。
我們從數(shù)據(jù)中還發(fā)現(xiàn),文化中心向南移的“南”,并不是廣義的南方,即長江以南,而是東南。宋代東南沿海地區(qū)的作家最多,且看下面的統(tǒng)計表:
表9 宋代作家、進士地市排名對比表
這個表格,大大出乎我們的意料。宋代州級作家的數(shù)量,居然是福建南平最多,奪得第一名,同屬福建的福州獲得第二名。南平市的知名度在當下好像不是很高,著名詞人柳永的家鄉(xiāng)崇安(現(xiàn)今名武夷山市)就屬南平,南宋的首任宰相李綱也是南平邵武人。宋代作家人數(shù)最多的十大州府中,福建占三席:南平、福州、莆田;浙江占四地:杭州、溫州、寧波、金華;江西有三州:撫州、吉安、上饒。宋代的文學(xué)中心,是在江浙、福建的東南沿海。宋代福建文學(xué)的盛況很值得研究,這是以前我們沒有注意的。
對比一下宋代進士排行榜,福建南平、福州的作家人數(shù)最多就不難理解了。宋代的進士人數(shù),福州第一,近4000人;南平的進士名列第二,有2000多人。這兩個地方教育文化高度發(fā)達,所以文學(xué)昌盛,作家人數(shù)特別多。文學(xué)的興盛與教育文化的發(fā)達是分不開的。宋代南平地區(qū),印刷業(yè)高度發(fā)達,名揚天下的“建本”就出產(chǎn)在南平。所以,南平奪得宋代作家數(shù)量的冠軍,雖然出乎我們的意料,卻在情理之中,只是我們以前不知道而已。
此外,我們過去了解的文學(xué)版圖都是靜態(tài)的,是按作家籍貫來考察地域分布的,且看圖1。唐代有籍貫可考的詩人1669人,其中河南、陜西、河北三省人數(shù)最多,共占42%。如果加上江蘇、浙江、山西三省,七省就占總?cè)藬?shù)的70%。七省的詩人數(shù)量,占了唐代全部詩人總量的七成??梢娞拼娙说乩矸植嫉氖Ш?。
圖1 唐代著名詩人籍貫分布圖
這幅圖,是學(xué)術(shù)、技術(shù)、美術(shù)的有機融合,是筆者請武漢大學(xué)測繪學(xué)院的繪圖高級工程師喬俊軍先生繪制的。為繪此圖,他潛心研究,寫了兩篇論文來探討。未來的文學(xué)研究,不僅要數(shù)據(jù)化,還要可視化。由這幅畫,可以看出可視化的優(yōu)越性、直觀性。地圖中的熱力圖,與餅形圖、柱形圖有機融合,還加上具體數(shù)據(jù)與百分比,既有學(xué)術(shù)性,又有觀賞性。
文化發(fā)達的地方,占籍詩人就多;偏遠落后之地,占籍詩人很少。但許多詩人,因貶謫或因逃避戰(zhàn)亂,而流寓到原本詩人很少的地方,從而改寫、擴大了詩歌的靜態(tài)版圖。以前沒有大數(shù)據(jù),我們無法了解詩人都往哪些地方流動,無法看到詩壇地理分布的動態(tài)變化。如今的大數(shù)據(jù),則展示出不同的詩壇景觀。
從圖2可以看出,唐代都城西安、洛陽和經(jīng)濟文化發(fā)達的蘇州,詩人活動密集,創(chuàng)作的詩也很多。但奉節(jié)、常德、三臺、永州、宜春等,原本都是偏遠之地,本地占籍詩人為零,而產(chǎn)生于此地詩歌量卻為數(shù)不少,這得益于詩人的社會流動將詩歌帶進了這些偏遠之地、落后之邦。重慶奉節(jié)(即夔州),是因為杜甫流寓此地而留下大量名篇佳作,后來劉禹錫任夔州刺史,又寫了大量詩篇。湖南常德,因為劉禹錫謫居其地、王昌齡路過其境,帶來濃郁的詩風。湖南永州,因柳宗元貶謫到此而改寫了原本貧瘠的詩壇。江西宜春,是韓愈和李德裕先后帶去詩歌創(chuàng)作的種子并開花結(jié)果。大數(shù)據(jù)清晰顯示了詩人的流動怎樣改變著原本分布失衡的詩歌版圖。
圖2 唐代部分縣市的詩人活動與創(chuàng)作統(tǒng)計
其三,數(shù)據(jù)也可以驗證傳統(tǒng)的結(jié)論。比如,傳統(tǒng)觀點都認為唐詩的高峰在盛唐,宋詞的高峰在元祐。著名詩人余光中先生有詩說:“李白繡口一吐,就是半個盛唐。”意思是李白一人就占了半個盛唐。這從大數(shù)據(jù)中可以得到驗證、確證。唐詩百首名篇,盛唐占59首;唐詩十大名篇,盛唐占8首(已見前表);唐詩十大名家,盛唐占7家:李白、杜甫、王維、孟浩然、高適,岑參、王昌齡;唐詩第一名篇,也在盛唐。
宋詞的高峰在元祐,也得到數(shù)據(jù)的充分驗證。宋詞百首名篇,元祐時期占37首,名列宋詞六個階段的首位。宋詞十大名家,元祐時期占4家:蘇軾、晏幾道、秦觀、周邦彥。宋詞第一名篇,蘇軾《念奴嬌·赤壁懷古》也產(chǎn)生在元祐時期。
王國維曾在《清真先生遺事》中說:“詞中老杜,非先生(周邦彥)不可?!币郧叭藗兌加X得這是一己之見,難稱公允之論。而數(shù)據(jù)顯示,宋詞三百首名篇,周邦彥獨占40首,位居第一;宋詞一百首名篇,周邦彥占15首,也是第一名,超過蘇(11首)、辛(12首)。就名篇占有率而言,宋代詞人中只有周邦彥可比杜甫。杜甫的唐詩名篇占有率雄居第一。像杜甫是學(xué)詩的最高典范一樣,周邦彥也曾被推舉宋學(xué)詞的最高典范。周濟《宋四家詞選》就說:“問途碧山,歷夢窗、稼軒,以還清真之渾化?!睌?shù)據(jù)印證了王國維和周濟的眼力。
數(shù)據(jù)的意義,遠不止發(fā)現(xiàn)新問題、糾正舊觀點、驗證老結(jié)論這三點。當然,數(shù)據(jù)也不是萬能的,有些問題數(shù)據(jù)也無法解決和說明。所以,定量分析方法必須與定性分析方法相結(jié)合。定性分析和定量分析各有優(yōu)勢和短板,定性分析方法代替不了定量分析方法,定量分析也不能替代定性分析方法。所以,定量分析與定性分析的結(jié)合,才是未來人文社會科學(xué)發(fā)展的必然趨勢。