李二苓
(中國社會科學(xué)院當(dāng)代中國研究所,北京 100009)
20世紀80年代以來,隨著社會史、文化史的興起,我國學(xué)術(shù)界的口述歷史記錄和研究日益豐富,口述歷史數(shù)據(jù)庫建設(shè)也隨之起步。目前國內(nèi)關(guān)于口述歷史的研究大多從兩個方面切入,一是如何做口述歷史,即口述訪談具體的操作步驟和注意事項;二是如何做口述歷史研究,即運用訪談材料進行學(xué)術(shù)研究,以論文或著作的形式考辨歷史事實。目前,有很多口述歷史項目涉及數(shù)據(jù)庫的建設(shè),但其經(jīng)驗探討仍集中于口述歷史采集方法,對于怎樣呈現(xiàn)、用好口述歷史資料,傳播口述歷史研究成果等還缺乏理論思考。在原本已經(jīng)浩如煙海的現(xiàn)當(dāng)代史料中,再增添回憶錄等新史料,研究者有限之精力難以處理這般無垠之史料。隨著“數(shù)字人文”的發(fā)展,在新一輪的“史學(xué)革命”中,歷史資料如何數(shù)字化呈現(xiàn)以便服務(wù)科研的問題亟待解決,這一問題的解決或許會帶來史學(xué)研究的新發(fā)展。
數(shù)據(jù)庫主要是資料的集聚,數(shù)據(jù)平臺則更強調(diào)交互功能。在數(shù)據(jù)庫技術(shù)發(fā)展日新月異的背景下,歷史資料的獲取、呈現(xiàn)、服務(wù)科研等或也可隨之升級,歷史類數(shù)據(jù)庫應(yīng)向歷史研究共享平臺轉(zhuǎn)變。
隨著口述歷史專業(yè)化的發(fā)展,研究者對口述資料的質(zhì)疑和批判與日俱增。尤其是口述歷史的真實與否,成為其能否作為史料的關(guān)鍵。因而,口述歷史資料的編輯加工和呈現(xiàn)方式需要更加規(guī)范,可以為平臺運營各類史料樹立典范。相較于其他史料的搜集、整理和運用,口述歷史更具有跨學(xué)科和大眾化的特點,受科技的影響更大,更有可能成為構(gòu)建歷史研究共享平臺的切入點和突破口,有利于改善專業(yè)歷史學(xué)與社會大眾的疏離狀態(tài)。據(jù)此,本文希圖以口述歷史對數(shù)字化網(wǎng)絡(luò)平臺的需求為切入點,為建設(shè)歷史研究共享平臺張本。
打破各自為政的信息壁壘,減少資源的重復(fù)投入,建設(shè)資料類型豐富、資源互相關(guān)聯(lián)的立體資料數(shù)據(jù)庫,是搭建歷史研究共享平臺的基礎(chǔ)。
國際上,大多數(shù)學(xué)者認為1948年美國哥倫比亞大學(xué)的歷史學(xué)家艾倫·內(nèi)文斯(Allan Nevins)著手進行美國重要人物的訪談工作是口述歷史建立的標志。其做口述歷史的初心是補足重大歷史事件的史料,主要訪談對象是沒有自傳的領(lǐng)袖。
這一新研究路徑對中國學(xué)術(shù)界的影響,首先體現(xiàn)在臺灣地區(qū)。1955年,郭廷以在創(chuàng)辦“中央研究院”近代史研究所時,就尤為重視口述歷史。20世紀60年代該所與哥倫比亞大學(xué)東亞研究所合作,并獲得美國福特基金會的資助,對北洋政府、國民政府的將官展開口述歷史訪談。1984年,呂實強所長成立“口述歷史組”,開展對臺灣地區(qū)各界代表人士的訪談,以及對二二八事件等政治案件的專題訪談。這些研究成果主要通過《口述歷史》雜志發(fā)表和“口述歷史叢書”出版。從內(nèi)容上看,臺灣地區(qū)的口述歷史局限于重要歷史人物和重要歷史事件。
中國大陸向來有口述傳統(tǒng),新中國成立初期就開始了政協(xié)文史資料的搜集。毛澤東號召撰寫“四史”(家史、廠史、社史、村史)等也是以訪談、田野的方式來搜集歷史資料。不過,現(xiàn)代學(xué)術(shù)層面的口述歷史,則是從20世紀80年代逐漸發(fā)展起來。由于口述歷史受限于當(dāng)事人健在這一客觀條件的制約,現(xiàn)當(dāng)代史是口述歷史應(yīng)用的主要場域。重要歷史人物和重大歷史事件仍然是口述歷史的重點。特別是在新中國史領(lǐng)域,有“當(dāng)代中國口述史”系列叢書等一批代表性的成果陸續(xù)出版。(1)姚力.再論國史研究與口述歷史[J].中國科技史雜志,2009,30(3): 284-285.另外,受到20世紀60年代以來歐洲學(xué)術(shù)界與左翼政治運動結(jié)盟的社會、文化歷史研究(2)持歷史書寫應(yīng)關(guān)注底層歷史的觀點的代表性人物是英國史學(xué)家保羅·湯普森,他1978年出版了巨著《過去的聲音——口述史》。保爾·湯普森.過去的聲音——口述史[M].覃方明,渠東,張旅平,譯.沈陽: 遼寧教育出版社,2000.法國年鑒學(xué)派也提出“the history from bottom up”(由下向上觀察歷史)的觀點。和20世紀70年代美國史學(xué)“自下而上”方法的影響,那些被忽視的普通人的生活也被納入口述歷史研究范圍,抗戰(zhàn)老兵、少數(shù)民族、婦女、知青、非物質(zhì)文化遺產(chǎn)傳承人等,都成為口述歷史的訪談對象??谑鰵v史成為中國當(dāng)代社會史的重要基石和源泉。(3)姚力.試論口述歷史對中國當(dāng)代社會史研究的啟示[J].當(dāng)代中國史研究,2012,19(4): 33-39.
口述歷史是基于訪談對象回憶而形成的,具有一定的不可靠性和主觀性。不可否認,主觀性與不可靠性同樣存在于其他史料中,即便是檔案資料,有些內(nèi)容也不見得就是歷史真實。董國強指出目前歷史學(xué)界普遍存在的問題是過度依賴檔案資料,即所謂盲目的“檔案拜物教”傾向,導(dǎo)致研究成果缺乏創(chuàng)新性,也很難聽到普通民眾的聲音,達不到反映多元社會關(guān)系結(jié)構(gòu)的目的。(4)董國強.中國當(dāng)代史研究方法論兩題[J].中共黨史研究,2021(1): 152-155.口述歷史等獲取歷史信息的新方法對于現(xiàn)當(dāng)代史研究來說更重要。運用史料是否能夠得到客觀的研究成果,關(guān)鍵取決于歷史研究者的功底。
比較研究是去偽存真的有效方法之一。將不同社會階層、不同視角的人所留下的史料對比閱讀,才能全面、深刻地反映歷史樣貌。研究者只有充分了解已有研究,對勘不同來源的資料,才能做出經(jīng)得起推敲的學(xué)術(shù)成果。
數(shù)據(jù)庫的首要特征是資料浩繁。檔案、報刊等核心史料是歷史數(shù)據(jù)庫必不可少的收錄資料,在此基礎(chǔ)上增加回憶錄、民間文書、日記、書信等原始資料,以及著作、論文、報告等研究成果,形成立體的資料體系。數(shù)據(jù)庫中既有從上而下,又有從下而上的觀察;既有當(dāng)事人,又有旁觀者的看法;既有失敗者,又有勝利者的回憶;既有當(dāng)時的記載,又有后人的研究;除了政治、經(jīng)濟之外,還包括日常生活、音樂、宗教等主題;在搜集訪談音、視頻的同時,也征集與訪談相關(guān)的信件、日記、照片、回憶錄和受訪者捐贈的其他資料,豐富數(shù)據(jù)庫資源類型,立體地展現(xiàn)歷史。
任何有價值的歷史研究成果都不是運用單一史料、從單一的角度來分析的,而是需要“上下左右”求索與論證,充分運用文獻學(xué)、校勘學(xué)等史學(xué)研究方法,以求得客觀公正的史家評判。立體資料數(shù)據(jù)庫是歷史研究對史料數(shù)據(jù)庫的要求。
歷史學(xué)對史料的解讀不應(yīng)停留在史料之所指,而應(yīng)考慮史料背后的生成機制,掌握史料產(chǎn)生的整個過程。對口述歷史而言,即不宜僅訪談歷史大事件,而應(yīng)做生命史。生命史全流程發(fā)布是口述歷史對立體資料數(shù)據(jù)庫所提出的要求。
20世紀70年代末,西方學(xué)術(shù)界針對口述歷史的真實性展開了一系列理論探討。受后現(xiàn)代理論等的影響,口述歷史成為連接歷史與當(dāng)下的橋梁,記憶成為歷史分析的對象,形成了所謂的口述歷史的“文化轉(zhuǎn)向”(cultural exchange)(5)Thomson A. Fifty Years On: An International Perspective on Oral History[J]. The Journal of American History, 1998, 85(2): 586.。保羅·湯普森曾指出:“社會統(tǒng)計資料并不比報紙報道、私人信件或者出版的自傳更多地代表絕對真實。像記錄下來的訪談資料一樣,它們要么從個人的立場要么從集合體的立場,全部代表著對事實的社會感知;并且所接受到的東西是社會意義,并且正是它必須予以評介。”(6)保爾·湯普森.過去的聲音——口述史[M].覃方明,渠東,張旅平,譯.沈陽: 遼寧教育出版社,2000: 131.口述歷史的受訪者所說的記憶,“它不一定是過去發(fā)生的事實,卻反映了個人的認同、行為、記憶與社會結(jié)構(gòu)間的關(guān)系”(7)定宜莊.關(guān)于《最后的記憶》一書的說明[J].北京航空航天大學(xué)學(xué)報(社會科學(xué)版),1999,12(23): 47.??谑鰵v史工作者不僅要保存大量訪談和觀察資料,還“必須注意到人們記得什么,他們?yōu)槭裁磿浕驗槭裁磿^去的事件重新整理”(8)唐納德·里奇.口述史的發(fā)展歷程[M]//唐納德·里奇.牛津口述史手冊.宋平明,左玉河,譯.北京: 人民出版社,2016: 15.。
因此,口述歷史要做生命史,要“去了解他的全部,然后再進入我們感興趣的那個地方”。只有對受訪者的生命歷程的前因后果有充足的了解,才能分析受訪者是怎么想的,為什么要那么說。
隨著電子科技和網(wǎng)絡(luò)技術(shù)的發(fā)展,口述歷史每個階段的成果物均可以上傳到網(wǎng)絡(luò),低成本地大規(guī)模發(fā)布。因此,口述歷史訪談的公共呈現(xiàn)已經(jīng)成為口述歷史實踐中最具活力的內(nèi)容之一,其公共呈現(xiàn)的完整與否也一定程度上決定了口述歷史能否做到客觀。
口述歷史的特點之一即“雙重主體”性,一個主體是作為研究者的訪談?wù)?;另一個主體是作為歷史當(dāng)事人的受訪者。后者既是研究對象的客體,又作為旁觀者、參與者成為歷史研究的主體。(9)左玉河.口述歷史與國史研究[J].當(dāng)代中國史研究,2016(3): 48-49.口述歷史是訪談?wù)吆褪茉L者共同創(chuàng)造的過程(10)羅納德·格里,柯里·羅比,瑪麗·克拉克.口述歷史與檔案館: 以哥倫比亞大學(xué)口述歷史中心的經(jīng)驗為例[G]//楊祥銀.口述史研究: 第一輯.北京: 社會科學(xué)文獻出版社,2014: 28-39.,因此發(fā)布訪談過程中有授權(quán)的全部資料有助于區(qū)分訪談?wù)吲c受訪者各自的表達,更準確地還原事實,充分展現(xiàn)身份認同、價值觀、隱喻等文化與社會的信息。西方口述歷史學(xué)界甚至?xí)懻撟x抄本與聽錄音的差別。(11)Cohen S. Shifting Questions: New Paradigms for Oral History in a Digital World[J]. The Oral History Review, 2013, 40(1): 154-167.究竟聲音和影像會不會干擾研究者對受訪者口述的客觀解讀尚待討論,但這些探討進一步強調(diào)了口述歷史全流程發(fā)布是確保其史料價值的前提。(12)為了解決口述歷史的真實性問題,有些機構(gòu)采取出版口述歷史整理稿的方法以求獲得權(quán)威性,但卻難以展現(xiàn)口述歷史的生動性和雙重主體性。例如南京民間抗日戰(zhàn)爭博物館的抗戰(zhàn)老兵訪談,先將訪談成果發(fā)表于地方文史資料,再在博物館官網(wǎng)上展示文史資料的登載內(nèi)容。
數(shù)據(jù)庫發(fā)布成本較低,利于大批量發(fā)布。因此,數(shù)據(jù)庫不僅要發(fā)布整理出來的回憶錄、綜述片,充分體現(xiàn)口述歷史的可讀性、藝術(shù)性,以便吸引讀者,而且,訪談的提問大綱、音視頻原始文件和抄本也有必要發(fā)布,以便學(xué)術(shù)研究者追根溯源。只是在抄本中需要把有史實錯誤的地方標注出來,并注明出處,以免誤導(dǎo)讀者。(13)目前有學(xué)者主張在抄本中直接修改違背史實的內(nèi)容。筆者不太贊同這一做法,建議保留受訪者原意,將考證史實的結(jié)果標示在旁,并注明所謂史實之出處,讀者才能明確何為受訪者的記憶,何為編輯加工者的觀點。
立體資料數(shù)據(jù)庫主要包含兩層含義。一是資料類型、來源的多樣化,資料生成過程的完整性,以滿足“上下左右”論證的需要。建設(shè)數(shù)據(jù)共享開放平臺是學(xué)界廣泛呼吁并持續(xù)努力推進的,例如“抗日戰(zhàn)爭與近代中日關(guān)系文獻數(shù)據(jù)平臺”通過廣泛搜集史料、免費使用,達到打破史料壁壘、突破史觀局限、橫向縱向史料互證的目的。(14)羅敏.“抗戰(zhàn)文獻數(shù)據(jù)平臺”與創(chuàng)新中共抗戰(zhàn)史研究的方向和可能[J].中共黨史研究,2020(6): 157-159.但是,目前“數(shù)據(jù)孤島”、重復(fù)建設(shè)現(xiàn)象仍較嚴重,大多數(shù)數(shù)據(jù)庫僅限于原創(chuàng)機構(gòu)內(nèi)部使用,而一些開放的營利性數(shù)據(jù)庫,則主要局限于圖書、期刊等資料類型。造成這些現(xiàn)象的主要原因是版權(quán)壁壘,特別是現(xiàn)當(dāng)代的資料,檔案可能暫未解密,圖書、報刊、實物資料、口述資料等又各有所屬。因而,需要在整合圖書館、檔案館、博物館、出版單位、研究機構(gòu)等方面有所突破。
二是資料鏈接立體化,實現(xiàn)知識關(guān)聯(lián),方便追根溯源。數(shù)據(jù)庫不僅要有精準檢索及二次篩選、高級檢索等基礎(chǔ)功能,更要實現(xiàn)知識的關(guān)聯(lián)以及知識與資料的關(guān)聯(lián)。(1) 全文數(shù)字化是增加功能的基礎(chǔ)。相較于圖片掃描,全文數(shù)字化成本較高,因此有些大型公益型數(shù)據(jù)庫(如“抗日戰(zhàn)爭與近代中日關(guān)系文獻數(shù)據(jù)平臺”)往往做不到全文數(shù)字化。(2) 信息整理的規(guī)范化是保證資料學(xué)術(shù)價值和資源共享的基礎(chǔ)。要充分尊重資源原有的形成環(huán)境和保存形式,形成資源整理、上傳的國家級規(guī)范。(3) 知識關(guān)聯(lián)功能需同時滿足兩個層面的要求才能對史學(xué)研究有切實的幫助: 一是知識與知識的關(guān)聯(lián),指要將每一個歷史知識與其他相關(guān)的歷史知識關(guān)聯(lián)。二是知識與資料關(guān)聯(lián),知其然亦要知其所以然,指每一條知識信息或知識關(guān)聯(lián)信息都要有據(jù)可依,方便讀者快速查閱信息來源資料。目前,在歷史學(xué)界影響較大的人物資料庫——“中國歷代人物傳記資料庫”(CBDB)利用地理信息系統(tǒng),將親屬關(guān)系、社會關(guān)系等作為勾連人物知識的脈絡(luò)。但是目前“中國歷代人物傳記資料庫”被認為是好評如潮卻少有問津。好評如潮的原因是該庫抓住了歷史研究者的痛點,做到了知識之間的關(guān)聯(lián)。少有問津的主要原因在于該庫使用過于復(fù)雜,知識關(guān)聯(lián)與史料脫節(jié),從人物界面無法直接獲取相關(guān)史料。數(shù)據(jù)分析與文本閱讀的脫節(jié)也是目前人文學(xué)界詬病數(shù)字人文的重要原因。(4) 文獻比對功能。該功能是指將涉及同一歷史事物的文字進行比對,展示不同資料對同一事物的不同敘述,方便讀者去偽存真、分析流變。其技術(shù)難點在于歷代用語各有不同,自然語言處理的難度較大。目前能實現(xiàn)同主題文獻比對功能的數(shù)據(jù)庫,有人民出版社的“人民金典語義查詢系統(tǒng)”,比對范圍限于共產(chǎn)主義經(jīng)典著作。
現(xiàn)在有一種提法叫“量化數(shù)據(jù)庫”,這一概念不僅強調(diào)資料的數(shù)量巨大,還強調(diào)“可適用于統(tǒng)計分析軟件”進行量化研究,因此它帶來的科研革命不僅是“資料革命”,更是研究方法的革命。在利用數(shù)據(jù)庫做量化研究時,文本分析、社會網(wǎng)絡(luò)、時空地圖等方法運用得越來越多。新技術(shù)“真正介入研究的核心”,使學(xué)者們“從文獻敘述中發(fā)現(xiàn)問題轉(zhuǎn)變?yōu)閺臄?shù)據(jù)分析中發(fā)現(xiàn)問題”(15)梁晨.量化數(shù)據(jù)庫:“數(shù)字人文”推動歷史研究之關(guān)鍵[J].江海學(xué)刊,2017(2): 162-164.。歷史研究平臺在促成研究方法的革命上則要更進一步,不僅要滿足學(xué)術(shù)研究的功能性要求,更要突出交互性和互通性。
數(shù)字人文在學(xué)術(shù)界的發(fā)展存在一個從量化研究到數(shù)字學(xué)術(shù)的轉(zhuǎn)型。20世紀中期以來,學(xué)界大力提倡跨學(xué)科研究方法,于是統(tǒng)計學(xué)等數(shù)量分析方法在歷史學(xué)、社會學(xué)、人類學(xué)、哲學(xué)、文學(xué)等領(lǐng)域廣泛應(yīng)用,定性研究與定量研究密切結(jié)合,使得人文學(xué)科進一步精確化,如美國的“新經(jīng)濟史”開創(chuàng)了計量史學(xué)之先河。20世紀80年代以來,計量史學(xué)擴展到中國史學(xué)的各個領(lǐng)域,成為一種潮流。隨著計算機技術(shù)和互聯(lián)網(wǎng)技術(shù)的發(fā)展,知識的獲取、分析集成、展示和傳播的體系發(fā)生了變化,“大數(shù)據(jù)”一詞孕育而生,學(xué)術(shù)研究不再限于計量,學(xué)者們希望借助技術(shù)手段實現(xiàn)多維的知識關(guān)聯(lián)。數(shù)據(jù)分析不僅僅是為研究提供論據(jù),更可以發(fā)現(xiàn)新的知識。以大數(shù)據(jù)為支撐,通過技術(shù)手段,用數(shù)據(jù)發(fā)現(xiàn)新知識的學(xué)術(shù)研究,可以稱為“數(shù)字學(xué)術(shù)”。就史學(xué)而言,學(xué)界則稱為“數(shù)字史學(xué)”。圖書館界對這一發(fā)展現(xiàn)狀的關(guān)注度最高,學(xué)術(shù)界對數(shù)字人文評價不一。(16)包偉民,李劍鳴,王日根,等.“大數(shù)據(jù)時代史學(xué)研究的理論與方法”筆談[J].史學(xué)月刊,2018(9): 5-7.(17)邱偉云,嚴程.數(shù)字方法與傳統(tǒng)人文更需邁向多元共生關(guān)系[N].社會科學(xué)報,2021-02-04(5).
目前,基于數(shù)字學(xué)術(shù)而建設(shè)的結(jié)構(gòu)性數(shù)據(jù)庫往往缺乏共享機制,導(dǎo)致在信息搬運、組織標引等方面造成重復(fù)勞動的現(xiàn)象。其原因大致是學(xué)術(shù)界注重通過著作、論文展現(xiàn)數(shù)據(jù)庫功能和研究成果,而缺乏知識服務(wù)意識。所謂知識服務(wù),即以領(lǐng)域知識體系建設(shè)為基礎(chǔ),融合相關(guān)技術(shù),構(gòu)建領(lǐng)域知識匯聚機制,對領(lǐng)域知識進行采集、沉淀、組織,設(shè)計并生產(chǎn)知識產(chǎn)品,以知識產(chǎn)品為紐帶與連接器,連接知識創(chuàng)造與知識應(yīng)用,提供多樣化服務(wù)模式,促進知識創(chuàng)新與再創(chuàng)造,支持各領(lǐng)域生產(chǎn)活動、學(xué)術(shù)研究、包括政府部門在內(nèi)的各類機構(gòu)的決策,滿足社會公眾以知識為核心的文化消費。知識服務(wù)的目的是向用戶提供可以解決問題的知識資源。(18)劉廣峰,張濤,孫金,等.專業(yè)出版知識服務(wù)標準體系構(gòu)建研究[J].出版發(fā)行研究,2018(12): 49-51.在信息爆炸的數(shù)字時代,信息精準化的智能知識服務(wù)已成趨勢,只有基于用戶即時互動的平臺,所生產(chǎn)的知識才是最有用的知識,所提供的服務(wù)才是最有效的服務(wù)。
數(shù)字學(xué)術(shù)在建構(gòu)結(jié)構(gòu)性數(shù)據(jù)庫時,應(yīng)加強知識服務(wù)意識,向共享、互通方向發(fā)展。如果不以互通、共享為建庫目標,那么就很難有效整合工作流程煩瑣的需要耗費較大人力、財力和時間成本的基礎(chǔ)工作,很難推動數(shù)字學(xué)術(shù)的持續(xù)、快速發(fā)展。中國人民大學(xué)“數(shù)字清史實驗室”(19)夏明方.大數(shù)據(jù)與生態(tài)史: 中國災(zāi)害史料整理與數(shù)據(jù)庫建設(shè)[J].清史研究,2015(2): 67-82.、香港科技大學(xué)李中清-康文林研究團隊在構(gòu)建數(shù)據(jù)庫時,關(guān)注到了自建多個數(shù)據(jù)庫的匹配連接,并共同致力于數(shù)據(jù)開放(20)梁晨.用大規(guī)模量化歷史數(shù)據(jù)庫檢驗中國的長期代際遺傳[J].南京大學(xué)學(xué)報(哲學(xué)·人文科學(xué)·社會科學(xué)),2019(2): 91-96.。這些探索將有助于數(shù)字學(xué)術(shù)研究成果的積累和科研過程的共享。
重大歷史事件和重要歷史人物不再是研究的全部,量化歷史研究也早已從經(jīng)濟史延展到社會史、文化史,開拓新領(lǐng)域和學(xué)術(shù)深耕越來越成為研究的發(fā)展趨勢。面對如此多樣、復(fù)雜的學(xué)術(shù)研究,如何精準滿足學(xué)者需求,提供更有效的知識服務(wù),成為越來越難做的工作。
萬變不離其宗。數(shù)字學(xué)術(shù)崛起,但并非每位學(xué)者都具備統(tǒng)計學(xué)等學(xué)科的知識和計算機技能,因此需要借助軟件工具處理海量的資料。在搭建數(shù)據(jù)庫時,時間、地點、人物、重大事件、學(xué)科分類、文獻類型、專業(yè)詞匯等仍是最基本的元數(shù)據(jù),但是隨著使用需求的多元化,讓用戶參與元數(shù)據(jù)的制定及標引,將是學(xué)術(shù)平臺的發(fā)展方向,使“人文學(xué)研究者不再是被動選擇既有的數(shù)據(jù)庫,而是參與數(shù)據(jù)庫建設(shè)過程,由其自身研究需要引導(dǎo)數(shù)據(jù)庫開發(fā),數(shù)據(jù)庫開發(fā)過程也就成為其研究的一部分”(21)趙思淵.地方歷史文獻的數(shù)字化、數(shù)據(jù)化與文本挖掘: 以《中國地方歷史文獻數(shù)據(jù)庫》為例[J].清史研究,2016(4): 26-35.。
并非每位學(xué)者都需要參與數(shù)據(jù)庫建設(shè)項目,而是可以通過將數(shù)據(jù)庫著錄標引的編輯后臺提供給用戶使用的方式,達到每位學(xué)者都加入數(shù)據(jù)庫建設(shè)的目的。借此,平臺也能實現(xiàn)研究過程的共享,形成在研究中不斷生長、互惠共贏的發(fā)展模式。方便的量化分析工具也可以使學(xué)者從煩瑣的量化研究中跳脫出來,做到量化與質(zhì)性研究的兼顧,凸顯人文研究的主體性。
目前已有一些數(shù)據(jù)庫在文本分析、數(shù)據(jù)處理功能上有所推進,有些還獲得了不錯的銷售業(yè)績。例如,“臺灣歷史數(shù)位圖書館”(THDL)提供詞頻分析、契約文書買賣角色分析、人物相關(guān)性分析、契約空間分布展示等功能;“蓋爾學(xué)者數(shù)據(jù)庫”(Gale Scholar)整合了國外常用的第三方數(shù)據(jù)挖掘和數(shù)據(jù)分析軟件,為用戶提供詞庫、詞頻分析工具和可視化展示。
口述歷史更需要知識服務(wù)的加持。一方面,網(wǎng)絡(luò)的發(fā)展使得任何人在任何地方都能參與到口述歷史項目中來,口述歷史的采集量與日俱增,需要引導(dǎo)用戶快速、有效地獲得目標信息。另一方面,口述歷史資料最為龐雜、分散,更需要交互性的平臺功能,聚焦熱點和前沿問題。
就目前的出版而言,紙質(zhì)書的作者較難了解讀者購買后的閱讀情況,作者與讀者的互動性很弱。大多商用的學(xué)術(shù)性專題數(shù)據(jù)庫,運營后臺往往是以內(nèi)容資源為根本,用戶行為分析功能薄弱,難以全面把握用戶的網(wǎng)上行為基本數(shù)據(jù),難以分析用戶的來源路徑、興趣點、知識關(guān)聯(lián)、學(xué)術(shù)產(chǎn)出。如何向用戶推送數(shù)據(jù)庫中個人感興趣的優(yōu)質(zhì)資料?如何挖掘出用戶普遍關(guān)心的問題從而促進學(xué)術(shù)探討?數(shù)據(jù)庫內(nèi)容可能引發(fā)哪些新的研究點?廣泛運用于電商、檢索平臺的用戶行為分析算法或可用于學(xué)術(shù)平臺,通過分析平臺訪問日志來解決上述問題。
用戶行為分析能使知識生產(chǎn)更有針對性、引導(dǎo)性。一方面,平臺服務(wù)質(zhì)量全面提升,用戶的忠誠度能隨之提高;另一方面,聚集興趣點相近的人群,不僅能快速地挖掘史料,還可以減少資料搜集的個別性和零散性,從而對推進學(xué)術(shù)研究發(fā)揮實質(zhì)性的作用。
公共史學(xué)有三個維度: 書寫公眾歷史、讓公眾參與、寫給公眾看。(22)錢茂偉.公眾史學(xué): 從根本上解決歷史的應(yīng)用問題[N].社會科學(xué)報,2017-03-23(5).公共史學(xué)諸維度的實現(xiàn)需要借信息網(wǎng)絡(luò)發(fā)展的東風(fēng),催生歷史共享平臺建設(shè)??谑鰵v史是公眾加入平臺建設(shè)的入口之一,是連接大眾和學(xué)術(shù)的橋梁,是打破學(xué)術(shù)主體與公共主體之間二元對立格局的契機,是史學(xué)家履行社會責(zé)任的有效方式,更是技術(shù)進步為歷史學(xué)發(fā)展提供的新路徑。
當(dāng)記憶成為研究對象,口述歷史成為普通民眾表達歷史觀念的一種途徑,即普通民眾擁有所謂“共享的解釋權(quán)”(23)Frisch M. A Shared Authority: Essays on the Craft and Meaning of Oral an Public History[M]. Albany: State University of New York Press, 1990: 188.。這樣讓無聲群體得以發(fā)聲,使得社會充分了解該群體,從而謀求社會和諧。這也有利于綜合各方面的意見,形成比較客觀公正的歷史認識,從而形成歷史共識。正如從事殘疾人口述項目的學(xué)者卡倫·赫什(Karen Hirsch)所說:“(口述歷史)可以讓某些群體發(fā)聲,可以引領(lǐng)地方社會歷史的新觀點,還可以幫助對文化狀況的深層次的理解并影響到每個人?!?24)Hirsch K.Culture and Disability: The Role of Oral History[M]//Perks R, Thomson A. Oral History Reader. New York : Routledge, 1995: 214.
口述歷史在中國有良好的社會基礎(chǔ)。除了有學(xué)界的參與,還有來自新聞出版、政協(xié)文史委等社會各界的強力推動,并被廣泛應(yīng)用于社會學(xué)、民俗學(xué)等多個學(xué)科領(lǐng)域。由于口述歷史項目需要較大的人力成本投入,很多主持口述歷史項目的機構(gòu)都采取了征募、培訓(xùn)訪談員,分發(fā)口述歷史項目等眾包的方式。崔永元口述歷史研究中心、中華女子學(xué)院圖書館等機構(gòu)都采用這種形式。他們的實踐都為口述歷史的公共化、網(wǎng)絡(luò)化奠定了較好的基礎(chǔ)。
隨著信息技術(shù)的發(fā)展,網(wǎng)絡(luò)社區(qū)已經(jīng)自發(fā)地形成了公共史學(xué)的新場域。(25)李紅巖.如何應(yīng)對“人人都是歷史學(xué)家”的時代[J].探索與爭鳴,2020(9): 36-38.公共史學(xué)旨在思考歷史學(xué)如何在當(dāng)代社會中應(yīng)用和發(fā)展,但目前歷史學(xué)界與社會還處于疏離狀態(tài)。學(xué)術(shù)界亟須正視在網(wǎng)絡(luò)環(huán)境下歷史學(xué)的傳播問題,探尋一條適合歷史學(xué)發(fā)展的新道路。學(xué)術(shù)界既要鼓勵公眾參與討論和重新闡釋歷史,又要掌握公眾歷史觀念生成中的話語權(quán),以便引導(dǎo)歷史研究健康、深入發(fā)展。
讓公眾參與歷史研究共享平臺建設(shè)是連接歷史學(xué)界與社會的可行途徑,但應(yīng)注重平臺參與者的協(xié)商和教育(26)Neuenschwander J A. A Guide to Oral History and the Law[M]. New York and Oxford: Oxford University Press, 2014: 111.。
同時,歷史研究共享平臺需建構(gòu)法律保障的預(yù)防性機制。隨著信息網(wǎng)絡(luò)的發(fā)展,線上公開征集資料、開放糾錯和評論窗口成為可能。借助平臺,民眾參與到回顧歷史的活動中,形塑共同的歷史記憶。但是,口述歷史可能涉及敏感、隱私等內(nèi)容,網(wǎng)絡(luò)傳播更是增加了相關(guān)風(fēng)險。因此,上述工作應(yīng)是在有針對知識產(chǎn)權(quán)、人格權(quán)、傳播權(quán)等法律保障的前提下進行。訪談前應(yīng)該向受訪者做好必要的說明,尊重受訪人的尊嚴和自主性,通過充分協(xié)商,簽署版權(quán)法律文件。擁有法律保障是獲取受訪者信任的前提,因而也是確保訪談內(nèi)容接近事實,真切反映受訪者內(nèi)心世界的前提。但是保障范圍的限制不宜過度擴張,不應(yīng)影響學(xué)術(shù)研究的創(chuàng)新性。(27)楊祥銀.美國口述歷史倫理審查機制研究[J].史學(xué)理論研究,2016(2): 86-97.
歷史共享平臺建設(shè)應(yīng)注重學(xué)術(shù)引導(dǎo)??谑鰵v史的時間段限于一個人的生命周期,訪談成果會對現(xiàn)實產(chǎn)生影響,且這段歷史尚無充分的時間沉淀,難以做出客觀評價,因此更需要學(xué)術(shù)界的引領(lǐng)。歷史共享平臺建設(shè)應(yīng)增強審核機制,提升知識來源的可靠性,鼓勵利用平臺從事學(xué)術(shù)研究,從而有利于校正公眾歷史討論的盲目性。將文獻史料、口述歷史和學(xué)術(shù)研究三者結(jié)合起來,有利于形成人文研究的閉環(huán),打造研究主題社區(qū)。歷史研究或?qū)⒊蔀樘岣呙癖娢幕仞B(yǎng)、深化愛國主義教育的引擎。
根據(jù)口述歷史自身的流程和要求、國家的相關(guān)規(guī)定和學(xué)術(shù)界的相關(guān)需求來策劃口述歷史線上垂直服務(wù)功能,促成歷史研究共享平臺建設(shè)。平臺主體規(guī)劃如下表。
表1 口述歷史線上垂直服務(wù)功能規(guī)劃概覽
線上垂直服務(wù)的要點是規(guī)范化,包括信息搜集、整理的規(guī)范化和審核上線的規(guī)范化。
學(xué)界對口述歷史真實性的質(zhì)疑,要求口述歷史采集和使用的全流程更為規(guī)范。口述歷史成果的歸檔可以根據(jù)我國檔案局于2018年1月1日起實施的《口述史料采集與管理規(guī)范》(DA/T 59—2017)具體實施,并據(jù)此提供線上模板,包括口述史料采集協(xié)議書、口述者基本信息采集表、采集成果封面、著錄標引字段、采集編號等。
口述訪談標題的擬定和摘要的撰寫需要規(guī)范化,方便用戶查找和閱讀。標題分主標題和副標題兩個部分,標題根據(jù)訪談內(nèi)容擬定,主標題體現(xiàn)訪談的整體脈絡(luò)或獨特之處;副標題為“受訪者姓名+口述的主要事件”。摘要參照貝絲·羅伯遜(Beth M. Robertson)《如何做好口述歷史》一書中的建議,提供訪談內(nèi)容的簡單綱要,用以提示主題次序和錄音各段落的相關(guān)信息,并陳述這段訪談的優(yōu)點、焦點以及弱點(不要用帶有強烈否定的詞語)。(28)貝絲·羅伯遜.如何做好口述歷史[M].黃煜文,譯.臺北: 五觀藝術(shù)管理有限公司,2004: 67-69.
其他史料同樣需要規(guī)范化的加工和標引。鑒于目前各歷史數(shù)據(jù)庫有著錄標引規(guī)則不統(tǒng)一的情況,以及用戶對元數(shù)據(jù)多元化的需求,平臺需要制定一套基本的開放式的著錄標引體系框架,形成積累語料庫的底本。例如對保存版本、儲存形式等內(nèi)容加工的規(guī)定,以《中國分類主題詞表》為基礎(chǔ)構(gòu)建標引體系等,都有利于規(guī)范語料庫建設(shè),增加自然語言識別的精準率,實現(xiàn)自動標引,從而減少人力成本和不規(guī)范問題。
口述歷史平臺建設(shè)對網(wǎng)絡(luò)倫理和道德引領(lǐng)意義重大。鑒于信息傳播渠道的拓寬和傳播速度的加快,需要制定一套訪談員培訓(xùn)、優(yōu)質(zhì)資源推薦和資源上傳的審核、發(fā)布的通用標準。這些規(guī)則的制定不僅需要學(xué)術(shù)界的探討和參與,還需要政府有關(guān)部門強有力的支持。
歷史研究共享平臺的特點主要體現(xiàn)在科研輔助和便捷交互兩方面的功能上,以研究主題為焦點,形成科學(xué)引領(lǐng)、規(guī)范化的網(wǎng)絡(luò)社區(qū)。平臺從功能到內(nèi)容的實現(xiàn),需要發(fā)動各學(xué)科研究者和各界民眾共同參與,助推學(xué)術(shù)資料的積累和學(xué)術(shù)研究的進步。
資料的搜集與傳播需要法律對著作權(quán)等各項權(quán)益的保障。中國傳媒大學(xué)崔永元口述歷史研究中心的口述史成果豐碩,卻因為版權(quán)問題很難實現(xiàn)對公眾開放,在傳播和利用方面難免打了折扣。
資料整理和共享需要有圖書館和檔案館的加入。一方面,作為資料收藏的主要機構(gòu),圖書館和檔案館的資源互通與共享是打破“信息壁壘”的關(guān)鍵,其“開源”程度的高低決定了平臺起步能否成功。2015年,國家圖書館的“中國記憶項目實驗網(wǎng)站”向全國圖書館界發(fā)起共同開展記憶資源搶救與建設(shè)的倡議,即是較好的嘗試。另一方面,平臺建設(shè)需要圖書館學(xué)、檔案學(xué)界參與資料整理規(guī)則的制定。
口述歷史已經(jīng)在歷史學(xué)、社會學(xué)、民俗學(xué)、新聞出版等領(lǐng)域有了跨學(xué)科的合作。隨著數(shù)字技術(shù)的發(fā)展,各學(xué)科還需要與計算機技術(shù)結(jié)合。一方面以項目或問題為中心開展平臺建設(shè)和學(xué)術(shù)研究,從挪用計算機技術(shù)向創(chuàng)新技術(shù)功能轉(zhuǎn)變。(29)臺灣學(xué)術(shù)界近十年來提倡,人文學(xué)科與計算機技術(shù)的結(jié)合,不應(yīng)局限于單向挪用計算機、統(tǒng)計學(xué)界既有的技術(shù)、算法,而是要開拓具有人文社科特色的新的分析工具和研究方法。項潔,翁稷安.數(shù)位人文在歷史學(xué)研究的應(yīng)用[M].臺北: 臺大出版中心,2011.(30)邱偉云.我國臺灣數(shù)字人文研究進程(2009—2017)[J].圖書館論壇,2020(7): 9-19.另一方面需要計算機技術(shù)確保平臺的網(wǎng)絡(luò)安全和硬件安全。中華女子學(xué)院的“中國女性圖書館”收錄了婦女口述歷史成果,2013年建成中英文網(wǎng)站免費對外開放,有較可觀的瀏覽量。但由于該數(shù)據(jù)庫屢遭黑客攻擊,于2018年被迫關(guān)閉,實屬可惜。因此,口述歷史平臺建設(shè)還需要國家法律法規(guī)與計算機技術(shù)運用相配套,合法保護和有效利用個人信息(31)邵國松,黃琪.個人數(shù)據(jù)保護全球融合的趨勢與挑戰(zhàn)[J].上海交通大學(xué)學(xué)報(哲學(xué)社會科學(xué)版),2021(4): 148-158.,并確保算法的可控(32)崔聰聰,許智鑫.機器學(xué)習(xí)算法的法律規(guī)則[J].上海交通大學(xué)學(xué)報(哲學(xué)社會科學(xué)版),2020(2): 35-47.。
口述歷史平臺建設(shè)中音、視頻剪輯的藝術(shù)性凸顯。世界正處于媒體轉(zhuǎn)型期,即從紙質(zhì)媒體向數(shù)字媒體遷移,從以文字為中心向以形象為中心轉(zhuǎn)換,大多數(shù)讀者的閱讀習(xí)慣和信息訴求已經(jīng)改變。綜述片、紀錄片、影像志等多媒體成果,有利于歷史知識的傳播,形成品牌效應(yīng),激發(fā)公眾的創(chuàng)作熱情,推動平臺發(fā)展。5G技術(shù)使得多媒體傳播更為快速、高效。學(xué)術(shù)平臺亟須正視從文獻資料匯集向多媒體成果展示的轉(zhuǎn)型。
通過跨學(xué)科合作,平臺可以實現(xiàn)資源擴充、方法多元、關(guān)聯(lián)擴展、形式多樣,形成安全、實用、互動、規(guī)范、正氣的網(wǎng)絡(luò)社區(qū)。平臺的建設(shè)和運營需要足夠的持續(xù)的智力支持和資金支持,目前尚未形成有效的驅(qū)動鏈條。
在數(shù)字人文飛速發(fā)展的新時代,將知識生產(chǎn)與知識保存打通,將史料搜集與歷史研究打通,將學(xué)術(shù)研究與引領(lǐng)公眾的作用打通,將文化傳承與公共文化打通等是發(fā)展趨勢。歷史研究數(shù)據(jù)庫也應(yīng)從史料型數(shù)據(jù)庫向量化數(shù)據(jù)庫,再向可持續(xù)擴展的歷史研究共享平臺發(fā)展。可持續(xù)擴展性通過共享、互通、交互來實現(xiàn),主要體現(xiàn)為資源不斷充實,知識關(guān)聯(lián)不斷豐富,知識服務(wù)功能不斷優(yōu)化。
習(xí)近平總書記在2019年全國“兩會”上提出:“哲學(xué)社會科學(xué)工作者要多到實地調(diào)查研究,了解百姓生活狀況、把握群眾思想脈搏,著眼群眾需要解疑釋惑、闡明道理,把學(xué)問寫進群眾心坎里?!睔v史研究共享平臺或可成為學(xué)者走出象牙塔,為群眾做學(xué)問的一條可能路徑。歷史學(xué)者需積極響應(yīng)黨史學(xué)習(xí)的號召,通過平臺搜集黨史資料、分享黨史學(xué)習(xí)和研究成果,或可形成解決跨界合作、融合發(fā)展、利益驅(qū)動問題的突破口,甚至可能形成新業(yè)態(tài)。
近代以來的資料浩繁,但是相對于其他歷史時段的資料來說,全文數(shù)字化和自然語言處理較容易實現(xiàn)。從黨史資料入手,能節(jié)省技術(shù)成本,循序漸進地實現(xiàn)功能開發(fā),再逐漸輻射到社科其他領(lǐng)域,最終滿足比較研究、量化研究、數(shù)字學(xué)術(shù)、公共史學(xué)、跨學(xué)科研究等領(lǐng)域?qū)?shù)字人文所提出的需求。如此,不僅豐富了資料獲取方式,并可實現(xiàn)通過數(shù)據(jù)分析發(fā)現(xiàn)新的知識。
2021年5月29日啟動的“當(dāng)代文史數(shù)字書店暨‘四史’學(xué)習(xí)教育數(shù)字中心”項目是通過“四史”學(xué)習(xí)連接歷史學(xué)與信息技術(shù)、連接歷史學(xué)與公眾學(xué)習(xí)的一次積極實踐。以服務(wù)黨史學(xué)習(xí)、黨務(wù)工作為主的“學(xué)習(xí)強國”學(xué)習(xí)平臺也積攢了較廣的用戶群體。未來或可以“學(xué)習(xí)”為契機,連接學(xué)術(shù)研究和公共文化領(lǐng)域,發(fā)動各界突破壁壘,集中解決資金和技術(shù)問題,激發(fā)知識經(jīng)濟和文化創(chuàng)意產(chǎn)業(yè),使史學(xué)從基礎(chǔ)學(xué)科向應(yīng)用延伸,強化知識普及、文化引領(lǐng)等社會服務(wù)功能。