• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      計(jì)算文獻(xiàn)學(xué)的概念、范疇及前景

      2023-06-18 06:15:42李斌王東波
      圖書與情報(bào) 2023年1期
      關(guān)鍵詞:數(shù)字人文文獻(xiàn)學(xué)

      李斌 王東波

      摘? ?要:在人工智能和信息技術(shù)飛速發(fā)展的今天,無(wú)論是古典文獻(xiàn)的版本、目錄、校勘,還是現(xiàn)代文獻(xiàn)的管理與研究,都發(fā)生著重大變革。紙質(zhì)文獻(xiàn)數(shù)字化內(nèi)容的計(jì)量與可視化分析,已經(jīng)產(chǎn)生了數(shù)字文獻(xiàn)學(xué)和文獻(xiàn)計(jì)量學(xué)的研究范式,而借助自然語(yǔ)言處理技術(shù),文獻(xiàn)內(nèi)容的標(biāo)注與自動(dòng)分析也日益豐富。以數(shù)字化形態(tài)為基本載體,以計(jì)算模型為技術(shù)手段的文獻(xiàn)管理與研究已經(jīng)成為學(xué)界業(yè)界的新趨勢(shì)、新常態(tài)。文章提出“計(jì)算文獻(xiàn)學(xué)”這一術(shù)語(yǔ),以統(tǒng)稱信息智能時(shí)代的新型文獻(xiàn)學(xué)研究方法與范式。進(jìn)而以古典文獻(xiàn)為對(duì)象,提出以人工智能技術(shù)進(jìn)行字符識(shí)別、自動(dòng)斷句、標(biāo)點(diǎn)、標(biāo)引,版本自動(dòng)比對(duì)、征引,智能排版,形成全數(shù)字化整理出版流程,大大加快古籍的整理出版工作。在高質(zhì)量數(shù)字化底本的基礎(chǔ)上,建設(shè)古典文獻(xiàn)知識(shí)庫(kù),以大數(shù)據(jù)的知識(shí)服務(wù)方法,發(fā)揮古典文獻(xiàn)的社會(huì)服務(wù)功能。通過(guò)多學(xué)科協(xié)同,培養(yǎng)新時(shí)代的文獻(xiàn)整理研究的文理復(fù)合型人才。

      關(guān)鍵詞:計(jì)算文獻(xiàn)學(xué);文獻(xiàn)學(xué);古籍?dāng)?shù)字化;計(jì)算人文;數(shù)字人文

      中圖分類號(hào):G256? ?文獻(xiàn)標(biāo)識(shí)碼:A? ?DOI:10.11968/tsyqb.1003-6938.2023004

      Abstract Today, with the rapid development of artificial intelligence and information technology, major changes have taken place in the editions, catalogs, and collations of classical documents, as well as in the management and research of modern documents. The quantitative and visual analysis of digital content of paper documents has produced the research paradigm of digital bibliology and bibliometrics, and with the help of natural language processing technology, the annotation and automatic analysis of document content are also increasingly enriched. Document management and research with digital forms as the basic carrier and computational models as technical means has become a new trend and new normal state in the academic world. This paper proposes the concept of "computational bibliography" to name the new research method and paradigms of philology in the era of information and intelligence. Taking classical literature, we propose to use artificial intelligence technology for OCR, automatic sentence segmentation, punctuation, indexing, edition comparison, citation, and intelligent typesetting to perform a whole digital emendation and publishing process, which will greatly speed up the emendation and publishing of ancient books. Then, it is urgent to build knowledge bases of classical literature based on high-quality digital documents, and to apply the knowledge service method of big data to classical literature. Finally, through multidisciplinary collaboration, more interdisciplinary students need to be educated in the new era.

      Key words computational bibliography; bibliography; ancient book digitization; computational humanities; digital humanities

      文獻(xiàn)學(xué)是對(duì)文獻(xiàn)的研究,主要包括中國(guó)傳統(tǒng)的以版本、目錄、??睘楹诵牡臍v史文獻(xiàn)學(xué),以及從西方引入的以圖書情報(bào)領(lǐng)域的現(xiàn)代文獻(xiàn)學(xué)[1]。前者致力于對(duì)紙質(zhì)文獻(xiàn)進(jìn)行內(nèi)容上的考證與整理,后者更注重利用數(shù)學(xué)方法進(jìn)行文獻(xiàn)的歸類整理與計(jì)量研究。隨著電子信息技術(shù)和人工智能技術(shù)的發(fā)展,文獻(xiàn)學(xué)已經(jīng)發(fā)展出了“數(shù)字文獻(xiàn)學(xué)”[2]、“文獻(xiàn)計(jì)量學(xué)”[3]、“E考據(jù)”[4]、“人文計(jì)算”[5]等新的研究方法和研究范式,給文獻(xiàn)學(xué)帶來(lái)了新的活力。本文在梳理這一發(fā)展趨勢(shì)的基礎(chǔ)上,指出文獻(xiàn)電子化之后除了保存文獻(xiàn)內(nèi)容之外,更重要的是對(duì)文獻(xiàn)內(nèi)容的分析和利用。數(shù)學(xué)計(jì)算方法是現(xiàn)代文獻(xiàn)學(xué)進(jìn)行數(shù)字化、計(jì)量分析和計(jì)算分析的基礎(chǔ),也是促進(jìn)傳統(tǒng)文獻(xiàn)進(jìn)行數(shù)字化考證和活化利用的支撐。但一直缺乏一個(gè)比較合適的術(shù)語(yǔ)來(lái)命名這種新的文獻(xiàn)研究方法。因此,本文明確提出“計(jì)算文獻(xiàn)學(xué)”這一學(xué)科術(shù)語(yǔ),并論證這一新的技術(shù)方法的研究范式和應(yīng)用價(jià)值。

      1? ?從數(shù)字文獻(xiàn)學(xué)到文獻(xiàn)計(jì)量學(xué)

      作為現(xiàn)代文獻(xiàn)學(xué)的數(shù)字化轉(zhuǎn)型,數(shù)字文獻(xiàn)學(xué)和文獻(xiàn)計(jì)量學(xué)相繼出現(xiàn)。我們可以將二者看作相互依存的兩個(gè)層面:第一個(gè)層面,即數(shù)字文獻(xiàn)學(xué)或電子文獻(xiàn)學(xué),主要指用數(shù)字化技術(shù)來(lái)承載和轉(zhuǎn)換傳統(tǒng)文獻(xiàn)的研究;第二個(gè)層面,即文獻(xiàn)計(jì)量學(xué),主要采用統(tǒng)計(jì)方法來(lái)挖掘海量文獻(xiàn)中隱藏的各種知識(shí)。

      1.1? ? 數(shù)字文獻(xiàn)學(xué)

      數(shù)字文獻(xiàn)學(xué)是隨著電子計(jì)算機(jī)的廣泛應(yīng)用,以文獻(xiàn)的電子化為主要研究任務(wù)和方法的學(xué)科。國(guó)際上,在20世紀(jì)60年代制定了計(jì)算機(jī)字符編碼標(biāo)準(zhǔn)之后,如1963年的ASCII(美國(guó)信息交換標(biāo)準(zhǔn)代碼),以手工錄入為主的電子文獻(xiàn)和目錄逐步出現(xiàn)。1964-1969年,美國(guó)教育部就建設(shè)了教育資源信息中心(ERIC),這是一個(gè)教育引文、摘要和文本的數(shù)據(jù)庫(kù)[6]。伴隨著70、80年代數(shù)據(jù)庫(kù)技術(shù)的不斷發(fā)展,又產(chǎn)生了代表性的電子文獻(xiàn)目錄庫(kù) OPAC(在線公共訪問(wèn)目錄)[7]。90年代之后,隨著互聯(lián)網(wǎng)的崛起和廣泛使用,電子文本開(kāi)始了爆發(fā)式增長(zhǎng)。同時(shí),光學(xué)字符識(shí)別技術(shù)(OCR)的興起,也使得傳統(tǒng)的紙質(zhì)文獻(xiàn)得以快速掃描和識(shí)別為文字,形成電子文獻(xiàn)。國(guó)內(nèi)外的文獻(xiàn)電子化研究和整理工作都不斷展開(kāi)[2]。在這種趨勢(shì)下,2006年,鄭永曉明確提出了數(shù)字文獻(xiàn)(digital document)學(xué),指出數(shù)字文獻(xiàn)學(xué)就是對(duì)數(shù)字文獻(xiàn)的產(chǎn)生、發(fā)展、演變、整理、制作、校對(duì)、使用、流通、管理等各個(gè)流程和環(huán)境進(jìn)行研究的一門新興學(xué)科[8]。

      從主要研究?jī)?nèi)容來(lái)看,數(shù)字文獻(xiàn)學(xué)就是用數(shù)字化技術(shù),將紙質(zhì)為主的文獻(xiàn)轉(zhuǎn)化為計(jì)算機(jī)可以存儲(chǔ)和處理的數(shù)字文獻(xiàn),并用數(shù)據(jù)庫(kù)技術(shù)進(jìn)行保存和管理。這是文獻(xiàn)的數(shù)字化工作,也是用計(jì)算技術(shù)和統(tǒng)計(jì)方法對(duì)文獻(xiàn)進(jìn)行分析研究的基礎(chǔ)。

      1.2? ? 文獻(xiàn)計(jì)量學(xué)

      數(shù)字化的文獻(xiàn),為“文獻(xiàn)計(jì)量學(xué)”提供了大量的研究資料。在計(jì)算機(jī)出現(xiàn)以前,已經(jīng)有了一些使用計(jì)算方法對(duì)文獻(xiàn)進(jìn)行統(tǒng)計(jì)分析的工作,但是過(guò)程非常艱辛,大多是依靠手工做卡片和統(tǒng)計(jì)。這種純?nèi)斯し椒?,費(fèi)時(shí)費(fèi)力,效率低下,但是數(shù)理統(tǒng)計(jì)之后,依然得到了許多值得稱道的研究成果,挖掘出了文獻(xiàn)中的量化信息。如學(xué)界一般將1917年Cole和Eales對(duì)300多年的解剖學(xué)文獻(xiàn)進(jìn)行的統(tǒng)計(jì)分析作為文獻(xiàn)計(jì)量學(xué)的開(kāi)創(chuàng)性研究[9]。1922年,英國(guó)學(xué)者Hulme使用了“statistical bibliography(統(tǒng)計(jì)文獻(xiàn)學(xué))”術(shù)語(yǔ)[10]。但受限于效率問(wèn)題,這些純手工的文獻(xiàn)統(tǒng)計(jì)研究一直沒(méi)有大規(guī)模展開(kāi),直到20世紀(jì)60年代之后,隨著計(jì)算機(jī)的快速發(fā)展,一方面電子文獻(xiàn)的數(shù)量不斷增長(zhǎng),另一方面計(jì)算機(jī)的算力不斷增強(qiáng),使計(jì)量研究有了計(jì)算機(jī)的強(qiáng)力支撐,效率大幅提高,文獻(xiàn)的計(jì)量研究正式進(jìn)入了發(fā)展期。1969年,英國(guó)學(xué)者Alan Pritchard提出了新的術(shù)語(yǔ)Bibliometrics,意為“Biblio(圖書)+metry(計(jì)量)+cs(學(xué))”,一般被翻譯為“文獻(xiàn)計(jì)量學(xué)”[11]。美國(guó)學(xué)者Eugene Garfield于1955年在美國(guó)《科學(xué)》雜志發(fā)表《引文索引用于科學(xué)》的重要論文[12],系統(tǒng)地提出了用引文索引檢索科技文獻(xiàn)的新方法,從而打破了分類法和主題法在檢索方法中的壟斷地位,60年代-80年代,逐步以手工、磁帶、軟盤、光盤、網(wǎng)絡(luò)等方式,發(fā)布學(xué)術(shù)文獻(xiàn)索引SCI、SSCI、ISTP等,并基于引文索引進(jìn)行了大量的計(jì)量研究。

      2? ?計(jì)算文獻(xiàn)學(xué)

      2.1? ? 基于計(jì)算的文獻(xiàn)數(shù)字化

      自20世紀(jì)90年代以來(lái),基于計(jì)算技術(shù)的文獻(xiàn)學(xué)就已經(jīng)產(chǎn)生。特別是在計(jì)算語(yǔ)言學(xué)和數(shù)字人文領(lǐng)域,展開(kāi)了文字識(shí)別、詞法分析、文本風(fēng)格分析的研究工作。以文字識(shí)別技術(shù)為例,OCR(Optical Character Recognition,光學(xué)字符識(shí)別)可以將文獻(xiàn)進(jìn)行光學(xué)掃描后,從圖片形式轉(zhuǎn)化為字符形式。該技術(shù)改變了過(guò)去以人工錄入為主的文獻(xiàn)數(shù)字化模式,大大加快了紙質(zhì)、金石、木刻等載體的文獻(xiàn)數(shù)字化進(jìn)程[13]。而在數(shù)字化之后,就可以加工為數(shù)據(jù)庫(kù),進(jìn)行基于字符串的全文檢索,從而使得文獻(xiàn)可以被更快捷地檢索和利用。文本的檢索技術(shù),實(shí)際上利用的也是計(jì)算技術(shù),而且涉及到大量的自然語(yǔ)言處理技術(shù)。如詞法分析技術(shù),主要可以進(jìn)行英文單詞的詞形還原,從而保證檢索的完整性。具體來(lái)說(shuō),檢索“buy”這個(gè)單詞的時(shí)候,需要考慮“buys”“bought”等不同的形式。而在漢語(yǔ)中,雖然不需要詞形還原,卻需要進(jìn)行自動(dòng)分詞,以保證檢索的準(zhǔn)確性。如檢索“和尚”時(shí),如果文獻(xiàn)沒(méi)有經(jīng)過(guò)詞語(yǔ)的切分處理,就會(huì)檢索出“和-尚未”“和-尚且”等大量的錯(cuò)誤干擾項(xiàng)。在國(guó)際上,基于字符串和詞串的檢索技術(shù)也已經(jīng)在搜索引擎和各種檢索平臺(tái)上廣泛應(yīng)用。

      因此,在進(jìn)行漢字文獻(xiàn)的電子化、檢索與計(jì)量分析時(shí),“計(jì)算”已經(jīng)成了必不可少的技術(shù)和流程。但是,漢字文獻(xiàn)沒(méi)有詞語(yǔ)邊界,如果不進(jìn)行詞語(yǔ)的切分,只能做基于字和字符串的統(tǒng)計(jì),這對(duì)于基于詞和概念的很多研究來(lái)說(shuō)是非常不便的。在漢字文獻(xiàn)的檢索上,想實(shí)現(xiàn)基于“詞”的檢索,就必須采用自然語(yǔ)言處理的計(jì)算技術(shù)進(jìn)行自動(dòng)分詞[14]。OCR、詞法分析、索引和檢索技術(shù)已經(jīng)成了制作檢索平臺(tái)的基礎(chǔ)。因此,在國(guó)內(nèi)外的許多研究論文中,都出現(xiàn)了“基于人工智能”“基于計(jì)算”“智能分析”“計(jì)算分析”“數(shù)智”等字樣的文獻(xiàn)學(xué)研究[15],一個(gè)新的術(shù)語(yǔ)呼之欲出。

      2.2? ? 基于計(jì)算的文獻(xiàn)計(jì)量學(xué)

      20世紀(jì)90年代之后,電子文本呈爆發(fā)式增長(zhǎng),計(jì)算機(jī)的算力也迅速提升。文獻(xiàn)計(jì)量學(xué),也從簡(jiǎn)單的數(shù)據(jù)統(tǒng)計(jì)、引文分析,進(jìn)一步發(fā)展為對(duì)文本的詞頻進(jìn)行分析,觀察出現(xiàn)的作家、作品、詞語(yǔ)的頻次與相關(guān)關(guān)系,挖掘代表人物、代表作品、研究熱點(diǎn)與前沿,還用于學(xué)術(shù)熱點(diǎn)追蹤,學(xué)科評(píng)價(jià)等,近年來(lái)也逐步拓展到醫(yī)學(xué)文獻(xiàn)、法律文獻(xiàn)等領(lǐng)域知識(shí)的挖掘[16]。

      可以看出,文獻(xiàn)計(jì)量學(xué)已經(jīng)越來(lái)越多地使用計(jì)算機(jī)來(lái)進(jìn)行海量電子文獻(xiàn)的計(jì)量分析,而超越統(tǒng)計(jì)方法的人工智能領(lǐng)域的技術(shù),諸如機(jī)器學(xué)習(xí)的分類、聚類,自然語(yǔ)言處理的文本自動(dòng)分析、情感分析、自動(dòng)摘要、機(jī)器翻譯,復(fù)雜網(wǎng)絡(luò)分析與可視化技術(shù)等,都不斷地被應(yīng)用到文獻(xiàn)內(nèi)容的挖掘與分析中。在這種趨勢(shì)下,已經(jīng)催生出了基于“計(jì)算”的新型文獻(xiàn)學(xué),但始終沒(méi)有一個(gè)合適的術(shù)語(yǔ)指稱。

      2.3? ? 計(jì)算文獻(xiàn)學(xué)的提出

      基于在數(shù)字時(shí)代文獻(xiàn)學(xué)自身的發(fā)展,和文獻(xiàn)內(nèi)容深度研究的科學(xué)需求,本文提出“計(jì)算文獻(xiàn)學(xué)(Computational Bibliography)”的術(shù)語(yǔ)。這個(gè)新術(shù)語(yǔ)主要強(qiáng)調(diào)采用計(jì)算技術(shù),進(jìn)行文獻(xiàn)的掃描、錄入、數(shù)據(jù)化、索引、檢索、自動(dòng)標(biāo)引、自動(dòng)分詞、統(tǒng)計(jì)分析、可視化交互、智能應(yīng)用等新型的文獻(xiàn)學(xué)研究技術(shù)和研究范式。

      在計(jì)算的視角下,文獻(xiàn)的數(shù)字化、計(jì)量分析、可視化,都是計(jì)算文獻(xiàn)學(xué)的研究?jī)?nèi)容,從而把基于計(jì)算的文獻(xiàn)學(xué)納入到一個(gè)整體的框架中,避免條塊分割。數(shù)字文獻(xiàn)學(xué)、E考據(jù)、文獻(xiàn)計(jì)量學(xué)、計(jì)量風(fēng)格學(xué)、文獻(xiàn)可視化、文獻(xiàn)內(nèi)容挖掘、文獻(xiàn)元宇宙等,實(shí)際上運(yùn)用了大量計(jì)算技術(shù)和方法的研究,也都可以歸入計(jì)算文獻(xiàn)學(xué)的范疇中,不僅便于學(xué)術(shù)界和業(yè)界的指稱和交流,還可以將研究聚焦于計(jì)算技術(shù),加強(qiáng)計(jì)算技術(shù)與方法的研究、教學(xué)和應(yīng)用。所以計(jì)算文獻(xiàn)學(xué)對(duì)文獻(xiàn)學(xué)新形式的概念釋義,更是將古典文獻(xiàn)學(xué)和現(xiàn)代文獻(xiàn)學(xué)在計(jì)算框架下融合與發(fā)展的自然產(chǎn)物。

      計(jì)算文獻(xiàn)學(xué)是一門以計(jì)算機(jī)科學(xué)和文獻(xiàn)學(xué)等多學(xué)科進(jìn)行交叉研究的學(xué)科,以文獻(xiàn)特別是數(shù)字化文獻(xiàn)為研究對(duì)象,以傳統(tǒng)的人文學(xué)科和文獻(xiàn)研究法為指導(dǎo),以數(shù)學(xué)模型、計(jì)算技術(shù)為代表的新方法技術(shù)為支撐,服務(wù)于信息化、智能化時(shí)代對(duì)文獻(xiàn)數(shù)字化、文獻(xiàn)內(nèi)容的結(jié)構(gòu)化、知識(shí)化、多模態(tài)化,滿足學(xué)術(shù)研究、知識(shí)服務(wù)等社會(huì)需求(計(jì)算文獻(xiàn)學(xué)的基本架構(gòu)見(jiàn)圖1)。

      計(jì)算人文以計(jì)算方法與技術(shù)對(duì)更廣闊的人文領(lǐng)域進(jìn)行體系化、深入化和精細(xì)化的計(jì)算研究。計(jì)算文獻(xiàn)學(xué)是在新時(shí)代信息智能的條件下和計(jì)算人文的整體框架下針對(duì)海量的典籍文獻(xiàn)展開(kāi)的一系列計(jì)算研究,在學(xué)科定位上更加專注,符合現(xiàn)有古典文獻(xiàn)、圖書情報(bào)等相關(guān)學(xué)科的研究、教學(xué)及未來(lái)發(fā)展。作為一門新興交叉學(xué)科,計(jì)算文獻(xiàn)學(xué)既可以作為圖書情報(bào)學(xué)、文獻(xiàn)學(xué)和計(jì)算機(jī)應(yīng)用技術(shù)的子學(xué)科,從細(xì)分學(xué)科上也可以作為計(jì)算人文的分支學(xué)科內(nèi)容。

      3? ?計(jì)算文獻(xiàn)學(xué)的金字塔

      我們可以把計(jì)算文獻(xiàn)學(xué)看作數(shù)字文獻(xiàn)學(xué)和文獻(xiàn)計(jì)量學(xué)之后的第三個(gè)層面。一般來(lái)說(shuō),計(jì)算文獻(xiàn)學(xué)是在文獻(xiàn)計(jì)量學(xué)之后,更注重采用計(jì)算技術(shù)、人工智能、復(fù)雜網(wǎng)絡(luò)與可視化的高技術(shù)層面。三個(gè)層面形成一個(gè)典型的金字塔結(jié)構(gòu)(見(jiàn)圖2-A)。然而,三者現(xiàn)實(shí)的關(guān)系應(yīng)該是貫穿式金字塔(見(jiàn)圖2-B)。

      首先,數(shù)字文獻(xiàn)學(xué)提供了數(shù)字化的文獻(xiàn),是計(jì)量和計(jì)算的基礎(chǔ);其次,文獻(xiàn)計(jì)量學(xué)可以在電子文獻(xiàn)的基礎(chǔ)上,開(kāi)展各種統(tǒng)計(jì)分析研究。但是,文獻(xiàn)計(jì)量的研究成果,也可以服務(wù)于數(shù)字文獻(xiàn)學(xué),是可以下探到底層的。如對(duì)異體字的字頻和詞頻的統(tǒng)計(jì)分析,可以對(duì)古籍文獻(xiàn)的電子化進(jìn)行規(guī)范,盡可能處理好正體字和異體字的關(guān)系,以滿足全文檢索的需求。

      計(jì)算文獻(xiàn)學(xué)則貫穿了前面兩者。一方面,以O(shè)CR和文本糾錯(cuò)技術(shù)為代表的計(jì)算技術(shù),在文獻(xiàn)數(shù)字化的過(guò)程中作用巨大,可以大大提升速度與質(zhì)量,大大減少人工的錄入和校對(duì)工作;另一方面,以自動(dòng)分詞、自動(dòng)標(biāo)引、文本挖掘?yàn)榇淼挠?jì)算技術(shù),大大拓展了文獻(xiàn)計(jì)量學(xué)的研究方法和技術(shù),可以統(tǒng)計(jì)出比字面信息更多更深入的信息。甚至可以說(shuō),計(jì)算文獻(xiàn)學(xué)占據(jù)了整個(gè)金字塔,為數(shù)字文獻(xiàn)學(xué)和文獻(xiàn)計(jì)量學(xué)提供了基礎(chǔ)的技術(shù)支持和研究方法。

      這個(gè)金字塔,也可以用三句話來(lái)解讀,文獻(xiàn)數(shù)字化需要計(jì)算技術(shù),文獻(xiàn)計(jì)量與內(nèi)容挖掘需要計(jì)算技術(shù),文獻(xiàn)可視化與應(yīng)用需要計(jì)算技術(shù)。

      4? ?計(jì)算文獻(xiàn)學(xué)的特點(diǎn)與發(fā)展前景

      4.1? ? 計(jì)算文獻(xiàn)學(xué)的兩大特色:大數(shù)據(jù)和計(jì)算

      (1)大數(shù)據(jù)。在當(dāng)前數(shù)字化社會(huì)的發(fā)展趨勢(shì)下,新的文獻(xiàn)爆炸式增長(zhǎng),每天都有數(shù)以億計(jì)的電子文獻(xiàn)在互聯(lián)網(wǎng)上涌現(xiàn)。而古籍文獻(xiàn)數(shù)字化的不斷推進(jìn),每年也會(huì)掃描和整理上億字的古籍。大數(shù)據(jù)是事實(shí),是現(xiàn)狀,也是未來(lái)的常態(tài)。

      (2)計(jì)算。計(jì)算是指的計(jì)算能力和計(jì)算模型。首先,海量的數(shù)據(jù),靠個(gè)人的力量,是無(wú)法閱讀、整理、掌握和分析的。大數(shù)據(jù)離開(kāi)計(jì)算技術(shù),也只是一堆無(wú)用的存儲(chǔ)。數(shù)據(jù)越大,越需要新的算法模型作為支撐,強(qiáng)大的軟硬件算力作為基礎(chǔ);其次,目前深度學(xué)習(xí)技術(shù)已經(jīng)在OCR、自動(dòng)分詞、標(biāo)引等方面取得了突破性進(jìn)展,將來(lái)還會(huì)有更多的智能計(jì)算技術(shù)涌現(xiàn)出來(lái),不斷增強(qiáng)文獻(xiàn)的內(nèi)容分析與智能應(yīng)用性能;最后,量變很可能產(chǎn)生質(zhì)變,在超大數(shù)據(jù)規(guī)模和智能算法的加持下,易于在宏觀的時(shí)空尺度上,發(fā)現(xiàn)語(yǔ)言、社會(huì)、文化的歷時(shí)演化和隱秘的關(guān)聯(lián),也可以在微觀層面上挖掘出以往不為人們關(guān)注到的現(xiàn)象,從量化分析得出新的定性認(rèn)識(shí)和結(jié)論。

      4.2? ? 計(jì)算文獻(xiàn)學(xué)的交叉性

      計(jì)算文獻(xiàn)學(xué),既需要傳統(tǒng)文科的知識(shí)體系作為定性研究的支撐,又需要各種新技術(shù)作為定量與建模計(jì)算分析的基礎(chǔ),因此是一門綜合性、交叉性非常強(qiáng)的學(xué)科。

      (1)文獻(xiàn)內(nèi)容涉及各類學(xué)科,需要大量不同領(lǐng)域的知識(shí)。由于文獻(xiàn)的基本載體是語(yǔ)言文字,文獻(xiàn)的內(nèi)容包羅萬(wàn)象,本身就涉及人類知識(shí)的方方面面。如傳統(tǒng)的人文科學(xué),包括文學(xué)、語(yǔ)言、歷史、哲學(xué)、藝術(shù)、法律、教育等,都涉及其中。如果是科技類文獻(xiàn),自然也包括數(shù)學(xué)、物理、化學(xué)、地理、生物、計(jì)算機(jī)等。計(jì)算文獻(xiàn)學(xué)自然也要以傳統(tǒng)文獻(xiàn)學(xué)和現(xiàn)代文獻(xiàn)學(xué)已有的方法為基本的指導(dǎo),解決文獻(xiàn)學(xué)的傳統(tǒng)問(wèn)題。

      (2)文獻(xiàn)的數(shù)字化和計(jì)量需要各種計(jì)算技術(shù)。如前所述,數(shù)學(xué)、計(jì)算機(jī)、人工智能技術(shù)都在文獻(xiàn)的數(shù)字化和計(jì)量研究中扮演了重要角色。具體來(lái)說(shuō),數(shù)學(xué)中的計(jì)算數(shù)學(xué)、數(shù)學(xué)建模、微積分、線性代數(shù)、數(shù)理統(tǒng)計(jì)、離散數(shù)學(xué)、復(fù)雜網(wǎng)絡(luò)等都是基本的數(shù)學(xué)工具。計(jì)算機(jī)科學(xué)與技術(shù)中的人工智能技術(shù)(如機(jī)器學(xué)習(xí)、自然語(yǔ)言處理、圖像文字識(shí)別技術(shù)、知識(shí)工程、知識(shí)圖譜等)、信息檢索技術(shù)(如全文檢索、詞檢索、多模態(tài)檢索等)、程序設(shè)計(jì)(如C、PYTHON、JS等)、數(shù)據(jù)庫(kù)技術(shù)(如網(wǎng)絡(luò)數(shù)據(jù)庫(kù)、數(shù)據(jù)安全、多模態(tài)數(shù)據(jù)庫(kù)等)、人機(jī)交互技術(shù)(如可視化技術(shù)、用戶界面設(shè)計(jì)、用戶畫像等)、虛擬技術(shù)(如VR、AR、元宇宙等)、互聯(lián)網(wǎng)技術(shù)(如多終端聯(lián)動(dòng)等)則是進(jìn)行統(tǒng)計(jì)、計(jì)算和網(wǎng)絡(luò)檢索與可視化服務(wù)的支撐。

      (3)研究方法與研究人員的交叉性。要分析和處理某個(gè)領(lǐng)域的文獻(xiàn),既需要這個(gè)領(lǐng)域的專家學(xué)者,根據(jù)其專業(yè)領(lǐng)域的知識(shí)體系進(jìn)行研究,還需要與計(jì)算技術(shù)的專家共同合作,根據(jù)具體的問(wèn)題,以計(jì)算建模的方式進(jìn)行定量研究,形成定性的結(jié)論和知識(shí)服務(wù)。而能夠通曉專業(yè)領(lǐng)域與計(jì)算技術(shù)的復(fù)合型人才,往往能更加得心應(yīng)手地進(jìn)行這種交叉研究。計(jì)算文獻(xiàn)學(xué)本身,就是給與傳統(tǒng)的文獻(xiàn)管理和研究以計(jì)算技術(shù)的加持,培養(yǎng)這種掌握計(jì)算技術(shù)的新型文獻(xiàn)學(xué)人才,已經(jīng)是圖書情報(bào)學(xué)界正在開(kāi)展的事業(yè)。傳統(tǒng)文獻(xiàn)學(xué)則因?yàn)橐莆沾罅康墓糯Z(yǔ)言和文史知識(shí),在培養(yǎng)文理兼通的人才方面難度較大,是將來(lái)值得發(fā)展的方向[17]。

      4.3? ? 計(jì)算文獻(xiàn)學(xué)的發(fā)展前景

      計(jì)算文獻(xiàn)學(xué)需要處理超大規(guī)模文獻(xiàn)數(shù)據(jù),運(yùn)用前沿科技,與諸多學(xué)科協(xié)同研究,其發(fā)展前景也充滿了多樣性。

      對(duì)于傳統(tǒng)文獻(xiàn)學(xué)來(lái)說(shuō),可以開(kāi)拓新的研究領(lǐng)域,將傳統(tǒng)的古籍進(jìn)行數(shù)字化,進(jìn)而計(jì)算分析與利用,還可以將古籍版本、字詞考證、點(diǎn)校等工作進(jìn)行智能化技術(shù)升級(jí),下一章詳述;對(duì)圖情學(xué)來(lái)說(shuō),計(jì)算文獻(xiàn)學(xué)對(duì)計(jì)算技術(shù)的倚重,可以更好地在文獻(xiàn)數(shù)字化、量化分析與智能應(yīng)用方面發(fā)揮作用。特別是知識(shí)圖譜構(gòu)建和知識(shí)服務(wù)領(lǐng)域,很可能出現(xiàn)諸多新的算法和應(yīng)用,推進(jìn)文獻(xiàn)內(nèi)容的知識(shí)庫(kù)構(gòu)建與個(gè)性化知識(shí)服務(wù);對(duì)于語(yǔ)言、文學(xué)、歷史、哲學(xué)等倚重文本內(nèi)容的學(xué)科來(lái)說(shuō),計(jì)算文獻(xiàn)學(xué)可以為之提供更為豐富的文獻(xiàn)數(shù)據(jù)庫(kù)、高度結(jié)構(gòu)化的文史數(shù)據(jù)、文本內(nèi)容智能分析技術(shù)和各種可視化分析呈現(xiàn)。

      服務(wù)于定量與定性研究。過(guò)去人們對(duì)大數(shù)據(jù)有一種誤解,即大數(shù)據(jù)只能做定量分析,難以做定性研究。隨著回歸分析、假設(shè)檢驗(yàn)、自動(dòng)聚類、自動(dòng)分類、復(fù)雜網(wǎng)絡(luò)分析等方面的算法不斷完善,在文獻(xiàn)大數(shù)據(jù)上進(jìn)行定性研究已經(jīng)成了新的趨勢(shì)[18]。如利用語(yǔ)言數(shù)據(jù)和貝葉斯模型來(lái)研究原始漢藏語(yǔ)系,已經(jīng)獲得了初步的研究成果[19]。將來(lái)人們掌握了中國(guó)及周邊國(guó)家地區(qū)的多語(yǔ)言文獻(xiàn)數(shù)據(jù),形成大規(guī)模數(shù)據(jù)庫(kù),在計(jì)算文獻(xiàn)學(xué)方法指導(dǎo)下,可以對(duì)中國(guó)的歷史、語(yǔ)言、文化,以及多文化、多語(yǔ)言、多民族的交流歷史,在數(shù)千年的大尺度框架下,通過(guò)分類、聚類、復(fù)雜網(wǎng)絡(luò)等分析技術(shù),來(lái)形成新的認(rèn)識(shí)和結(jié)論。

      除了學(xué)術(shù)服務(wù)之外,還可以產(chǎn)生較大的經(jīng)濟(jì)效益和社會(huì)效益。高校和企業(yè)聯(lián)合開(kāi)發(fā),可以產(chǎn)生多樣的學(xué)術(shù)性、商業(yè)化文獻(xiàn)知識(shí)服務(wù)平臺(tái)和應(yīng)用。未來(lái)的文獻(xiàn)內(nèi)容服務(wù),將不只是字符級(jí)別的全文檢索,而是基于內(nèi)容的知識(shí)檢索和知識(shí)服務(wù)。借助ChatGPT①這樣的個(gè)性化問(wèn)答服務(wù)技術(shù),加之越來(lái)越大的文獻(xiàn)數(shù)據(jù),可以進(jìn)一步開(kāi)發(fā)個(gè)性化的知識(shí)學(xué)習(xí)系統(tǒng)、文獻(xiàn)管理助手、實(shí)時(shí)知識(shí)獲取與分析等應(yīng)用,讓海量的文獻(xiàn)更好地為人服務(wù)。

      5? ?基于計(jì)算文獻(xiàn)學(xué)的中國(guó)古籍活化利用

      中國(guó)古典文獻(xiàn)浩如煙海,是一筆取之不盡、用之不竭的文化財(cái)富。然而,古典文獻(xiàn)的整理工作無(wú)比艱巨,不僅包括標(biāo)點(diǎn)、校勘、注釋等工作,還需要編制書目、索引、辭書等。我國(guó)古典文獻(xiàn)總數(shù)迄今尚無(wú)定論,總量估計(jì)超過(guò)20萬(wàn)種、20億字。根據(jù)《古籍整理圖書目錄(1949-1991)》記載,1978-1990年,我國(guó)共整理出版古典文獻(xiàn)4360種。若全部以人力來(lái)進(jìn)行古典文獻(xiàn)的整理工作,那將花費(fèi)數(shù)百年時(shí)間。擁有大量漢字古籍的日本已經(jīng)展開(kāi)了文獻(xiàn)數(shù)字化的整理工作,在技術(shù)加持下形成了諸多古籍文獻(xiàn)數(shù)據(jù)庫(kù)[20]。

      計(jì)算文獻(xiàn)學(xué)可以為古典文獻(xiàn)學(xué)研究帶來(lái)新工具、新思路。中文OCR、自動(dòng)標(biāo)引、專名識(shí)別等技術(shù)的應(yīng)用為古典文獻(xiàn)的整理工作帶來(lái)重大利好。古典文獻(xiàn)全文庫(kù)、知識(shí)庫(kù)的建設(shè)大大滿足了學(xué)術(shù)界、大眾獲取古典文獻(xiàn)內(nèi)容的需求。將現(xiàn)代科技應(yīng)用到古典文獻(xiàn)的整理工作中,將極大提高我國(guó)古典文獻(xiàn)整理出版工作的效率,促進(jìn)我國(guó)古典文獻(xiàn)在新時(shí)期持續(xù)發(fā)揮價(jià)值。

      5.1? ? 以計(jì)算技術(shù)打通古典文獻(xiàn)全數(shù)字化整理出版流程

      古典文獻(xiàn)整理工作往往依托歷史和“三古”專業(yè)(即古代文學(xué)、古代漢語(yǔ)和古典文獻(xiàn)學(xué)專業(yè)),主要工作有版本???、文字訓(xùn)詁、句讀標(biāo)點(diǎn)、注釋等工作。直至目前,古典文獻(xiàn)整理出版主體仍然集中在古籍出版社與高校。

      目前,古籍OCR的識(shí)別正確率大幅提高,達(dá)到95%以上,自動(dòng)句讀、自動(dòng)標(biāo)點(diǎn)、專名識(shí)別等技術(shù)也都可以達(dá)到90%-95%的正確率。經(jīng)過(guò)計(jì)算機(jī)的處理之后,只要輔以人工校正,整理效率就能實(shí)現(xiàn)巨大飛躍。除此以外,古文獻(xiàn)的斷句、標(biāo)點(diǎn)、分詞、詞性標(biāo)注、命名實(shí)體識(shí)別都達(dá)到了實(shí)用水平[21]。在第一屆古漢語(yǔ)國(guó)際評(píng)測(cè)EvaHan2022上,分詞準(zhǔn)確率達(dá)到了96%以上,詞性標(biāo)注準(zhǔn)確率達(dá)到了92%以上[22]。

      在高校和出版社的探索下,目前古典文獻(xiàn)整理工作已經(jīng)實(shí)現(xiàn)了數(shù)字化工具整理、人工校對(duì)的半自動(dòng)化流程,出現(xiàn)了一些古典文獻(xiàn)整理平臺(tái)輔助工作。成立于2015年的古聯(lián)(北京)數(shù)字傳媒科技有限公司是中華書局的全資子公司,它建設(shè)運(yùn)營(yíng)的國(guó)家級(jí)古籍整理出版資源平臺(tái)“籍合網(wǎng)”①在2018年上線?!凹暇W(wǎng)”中包含引文核查、專名識(shí)別、自動(dòng)標(biāo)點(diǎn)、繁簡(jiǎn)轉(zhuǎn)換、OCR識(shí)別等服務(wù),通過(guò)采用眾包的方法,流程化、大規(guī)模開(kāi)展古籍編校工作。2018-2022年,通過(guò)“籍合網(wǎng)”整理的古籍文本約為14億字,極大推進(jìn)了古典文獻(xiàn)整理的進(jìn)度。浙江大學(xué)的“智慧古籍平臺(tái)”②集成了OCR識(shí)別、智能標(biāo)點(diǎn)功能,采用眾包機(jī)制,可使古籍整理者突破地域限制,高效地完成線上整理工作。這些數(shù)字化平臺(tái)協(xié)助傳統(tǒng)古典文獻(xiàn)整理工作者完成基礎(chǔ)的校對(duì)、標(biāo)引等工作,大大減輕了勞動(dòng)量[23]。

      2022年10月,全國(guó)古籍整理出版規(guī)劃領(lǐng)導(dǎo)小組發(fā)布《2021-2035年國(guó)家古籍工作規(guī)劃》(以下簡(jiǎn)稱《規(guī)劃》),將國(guó)家古籍?dāng)?shù)字化工程作為重大工程,鼓勵(lì)古籍?dāng)?shù)字化與古籍整理出版工作同步推進(jìn)、緊密結(jié)合,推動(dòng)古籍整理出版數(shù)字化資源庫(kù)建設(shè)。在將來(lái),學(xué)界和業(yè)界需投入到古典文獻(xiàn)全數(shù)字化整理平臺(tái)的建設(shè)中,搭建出從文本識(shí)別、標(biāo)引、校對(duì)到編輯出版全數(shù)字化、智能化的整理流程。通過(guò)技術(shù)賦能,為我國(guó)古籍整理工作者減輕負(fù)擔(dān)。如文獻(xiàn)中包含有大量難以識(shí)別的罕用字、異體字等,未來(lái)古典文獻(xiàn)漢字庫(kù)建設(shè)完成后,將極大滿足古典文獻(xiàn)整理與出版工作中的實(shí)際需求。

      5.2? ?以知識(shí)工程技術(shù)建立新型古典文獻(xiàn)知識(shí)庫(kù)

      古籍?dāng)?shù)字平臺(tái)的演化不僅給古籍整理工作帶來(lái)了重大轉(zhuǎn)變,還推動(dòng)了古典文獻(xiàn)知識(shí)庫(kù)的建立。傳統(tǒng)古典文獻(xiàn)整理工作的目的是將古典文獻(xiàn)轉(zhuǎn)化為便于當(dāng)代人閱讀的文本,不僅投入人力大、耗費(fèi)時(shí)間長(zhǎng),而且由于大多數(shù)文獻(xiàn)內(nèi)容豐富、艱深,難以被普通大眾接受。因此,傳統(tǒng)的古典文獻(xiàn)整理工作主要服務(wù)對(duì)象為學(xué)術(shù)研究者。若想使我國(guó)古典文獻(xiàn)中蘊(yùn)含的文化知識(shí)財(cái)富被普羅大眾接受,就必須適應(yīng)時(shí)代需求,轉(zhuǎn)換古典文獻(xiàn)整理的成果形態(tài)。古籍全文數(shù)據(jù)庫(kù)和圖文數(shù)據(jù)庫(kù),大多保留了古籍面貌,便于用戶檢索瀏覽。

      近年來(lái),隨著人工智能與信息技術(shù)的進(jìn)一步發(fā)展,古籍?dāng)?shù)字化工作有了新理念、新方法。古籍自動(dòng)分詞[14]、智能標(biāo)引、專名識(shí)別[21]、地理信息[24]、知識(shí)工程和知識(shí)圖譜[25]等技術(shù),可以將古籍的文字轉(zhuǎn)化為結(jié)構(gòu)化的知識(shí)數(shù)據(jù),構(gòu)建新型的古典文獻(xiàn)知識(shí)庫(kù)。這樣,蘊(yùn)藏在古典文獻(xiàn)中的深層知識(shí)可以用諸多算法技術(shù)挖掘出來(lái),以可視化技術(shù)呈現(xiàn)在人們眼前。此外,知識(shí)庫(kù)革新了知識(shí)的構(gòu)建方式,改變了古籍知識(shí)純文本的顯示方式,將古典文獻(xiàn)中的知識(shí)以可視化、可交互化的方式重組,不僅便于學(xué)術(shù)研究者更加直觀、便利地獲取古典文獻(xiàn)中的知識(shí),也可以增加大眾讀者對(duì)傳統(tǒng)文獻(xiàn)的接受度。

      國(guó)際上古典文獻(xiàn)知識(shí)庫(kù)的建設(shè)自20世紀(jì)末便已經(jīng)開(kāi)始,“中國(guó)歷代人文傳記資料庫(kù)(CBDB)”于20世紀(jì)90年代建立,是全球較早進(jìn)行數(shù)據(jù)結(jié)構(gòu)化的古籍知識(shí)資料庫(kù)[26]。目前,國(guó)內(nèi)對(duì)于古典文獻(xiàn)知識(shí)庫(kù)的建設(shè)已經(jīng)有了部分探索性工作,主要包括圖書目錄數(shù)據(jù)庫(kù)、專題知識(shí)庫(kù)、專書知識(shí)庫(kù)、綜合性知識(shí)庫(kù)等。古籍目錄數(shù)據(jù)庫(kù)主要收錄圖書的作者、年代、品級(jí)等信息,服務(wù)于題錄檢索,相對(duì)比較成熟[27];專題知識(shí)庫(kù)主要有人物傳記數(shù)據(jù)庫(kù)和歷史地理數(shù)據(jù)庫(kù),記錄歷史人物的生平、社交關(guān)系、古代歷史電子地圖等信息;專書知識(shí)庫(kù)則專注于某部古籍,進(jìn)行內(nèi)容的深度標(biāo)注與結(jié)構(gòu)化。在這一方面的實(shí)踐中,已經(jīng)有了一些較為顯著的成果,主要集中在高校的科研單位中。南京師范大學(xué)開(kāi)發(fā)的“《資治通鑒》知識(shí)庫(kù)檢索平臺(tái)”引入古籍自動(dòng)分析技術(shù)和GIS技術(shù),建設(shè)了數(shù)字人文知識(shí)庫(kù),解決了人名、地名的“異名同指”和“同名異指”問(wèn)題,通過(guò)對(duì)文本進(jìn)行深度加工和知識(shí)重組,提取相關(guān)信息并進(jìn)行本體化處理,實(shí)現(xiàn)了基于語(yǔ)義的檢索和閱讀瀏覽功能[28]。北京大學(xué)數(shù)字人文中心開(kāi)發(fā)的“《宋元學(xué)案》知識(shí)圖譜系統(tǒng)”將書中的人物、時(shí)間、地點(diǎn)等要素及它們之間的復(fù)雜語(yǔ)義關(guān)系提取出來(lái)構(gòu)建為知識(shí)圖譜,并具備可視化展現(xiàn)、交互式瀏覽、語(yǔ)義查詢等功能[26]。古典文獻(xiàn)數(shù)據(jù)庫(kù)從數(shù)字化到智能化的轉(zhuǎn)變,意味其實(shí)現(xiàn)了功能性提升與結(jié)構(gòu)性轉(zhuǎn)變。

      目前我國(guó)還缺少大而全的綜合性古典文獻(xiàn)知識(shí)庫(kù),這一工作在探索期過(guò)后便能提上建設(shè)議程,一旦建設(shè)完成,將會(huì)大大推動(dòng)古典文獻(xiàn)在大眾層面的普及工作。目前已建立的古典文獻(xiàn)知識(shí)庫(kù),已能夠?yàn)楣诺湮墨I(xiàn)研究者和整理工作者帶來(lái)了思維方式和研究范疇的新變。一方面,以“知識(shí)庫(kù)”形態(tài)為建設(shè)目標(biāo)本身就是對(duì)傳統(tǒng)古典文獻(xiàn)整理工作的一次革新;另一方面,古典文獻(xiàn)知識(shí)庫(kù)能作為輔助研究工具,為相關(guān)研究者提供便利的知識(shí)獲取途徑。大數(shù)據(jù)帶來(lái)的數(shù)據(jù)聚類化研究,也能便于對(duì)傳統(tǒng)的知識(shí)進(jìn)行驗(yàn)證與修正。因此,建立在古典文獻(xiàn)數(shù)字化整理上的古典文獻(xiàn)知識(shí)庫(kù),會(huì)成為信息化時(shí)代的古典文獻(xiàn)研究、傳播的新工具、新途徑。

      6? ?結(jié)語(yǔ)

      在數(shù)字化高速發(fā)展的信息時(shí)代,我們面臨著文獻(xiàn)的爆炸式增長(zhǎng),海量的古籍文本也亟待數(shù)字化。本文梳理了國(guó)內(nèi)外的研究發(fā)展趨勢(shì),得出無(wú)論是文獻(xiàn)數(shù)字化,還是文獻(xiàn)內(nèi)容的結(jié)構(gòu)化表示與內(nèi)容分析挖掘,都需要計(jì)算技術(shù)和方法的基礎(chǔ)性支撐,并從這一趨勢(shì)出發(fā),提出了“計(jì)算文獻(xiàn)學(xué)”這一學(xué)科性的術(shù)語(yǔ)。計(jì)算文獻(xiàn)學(xué)強(qiáng)調(diào)“計(jì)算”在當(dāng)前和今后將成為文獻(xiàn)學(xué)研究的重要技術(shù)和方法論,明確了該學(xué)科與“數(shù)字文獻(xiàn)學(xué)”和“文獻(xiàn)計(jì)量學(xué)”的貫穿式繼承關(guān)系。本文還指出,計(jì)算文獻(xiàn)學(xué)具有大數(shù)據(jù)和計(jì)算的兩大特色,其學(xué)科交叉性也不只體現(xiàn)在學(xué)科知識(shí)和技術(shù)的交叉,更是研究方法與研究人員的交叉合作,可以將其置于“計(jì)算人文”的下位學(xué)科。最后,本文提出,要以計(jì)算文獻(xiàn)學(xué)為框架,打通古籍?dāng)?shù)字化整理和出版的全流程,構(gòu)建新型古籍知識(shí)庫(kù),從而活化利用中國(guó)的古代文獻(xiàn)。

      “計(jì)算文獻(xiàn)學(xué)”這一術(shù)語(yǔ)的提出,僅僅是一個(gè)起點(diǎn)。我們希望這個(gè)術(shù)語(yǔ)能夠促進(jìn)文獻(xiàn)學(xué)特別是傳統(tǒng)文獻(xiàn)學(xué)的技術(shù)方法升級(jí),傳承和發(fā)掘傳統(tǒng)文獻(xiàn)中的精華;在大數(shù)據(jù)的視野下對(duì)文獻(xiàn)做出數(shù)千年的歷時(shí)分析與國(guó)內(nèi)外多語(yǔ)言文獻(xiàn)的橫向分析;吸引更多的年輕學(xué)者加入到這個(gè)領(lǐng)域中來(lái),培養(yǎng)更多的復(fù)合型人才,助力民族偉大復(fù)興。

      致謝:馮志偉教授、鄭永曉教授和審稿人的寶貴修改意見(jiàn)。

      參考文獻(xiàn):

      [1]? 王余光,汪濤,陳幼華.中國(guó)文獻(xiàn)學(xué)理論研究百年概述[J].圖書與情報(bào),1999(3):12-19.

      [2]? 楊清虎.數(shù)字文獻(xiàn)學(xué)的概念與問(wèn)題[J].黑龍江史志,2013(13):203.

      [3]? 趙蓉英,許麗敏.文獻(xiàn)計(jì)量學(xué)發(fā)展演進(jìn)與研究前沿的知識(shí)圖譜探析[J].中國(guó)圖書館學(xué)報(bào),2010,36(5):60-68.

      [4]? 黃一農(nóng).從E考據(jù)看避諱學(xué)的新機(jī)遇:以己卯本《石頭記》為例[J].文史,2019(2):205-222.

      [5]? 黃水清.人文計(jì)算與數(shù)字人文:概念、問(wèn)題、范式及關(guān)鍵環(huán)節(jié)[J].圖書館建設(shè),2019(5):68-78.

      [6]? Ted Brandhorst.The Educational Resources Information Center(ERIC)[A].Allen Kent.Ed.Encyclopedia of Library and Information Science[C].New York:Marcel Dekker,Inc.,1993,51(S14):208-225.

      [7]? Babu B Ramesh,Ann oBrien.Web OPAC interfaces: an overview[J].The electronic library,2000,18(5):316-330.

      [8]? 鄭永曉.古籍?dāng)?shù)字化對(duì)學(xué)術(shù)的影響及其發(fā)展方向[J].社會(huì)科學(xué)管理與評(píng)論,2006(4):81-88.

      [9]? Cole F T,Eales N B.The History of Comparative Anatomy[J].Science Progress,1917(11):578-596.

      [10]? Hulme E W.Statistical bibliography in relation to the growth of modern civilization:two lectures delivered in the University of Cambridge in May,1922.author,1923.

      [11]? Pritchard Alan.Statistical Bibliography or Bibliometrics[J].Journal of Documentation,1969,25(4):248-349.

      [12]? Garfield,Eugene.Citation indexes for science:A new dimension in documentation through association of ideas[J].Science,1955,122(3159):108-111.

      [13]? 郭利敏,葛亮,劉悅?cè)?卷積神經(jīng)網(wǎng)絡(luò)在古籍漢字識(shí)別中的應(yīng)用實(shí)踐[J].圖書館論壇,2019,39(10):142-148.

      [14]? 石民,李斌,陳小荷.基于CRF的先秦漢語(yǔ)分詞標(biāo)注一體化研究[J].中文信息學(xué)報(bào),2010,24(2):39-45.

      [15]? 雷玨瑩,侯西龍,王曉光.數(shù)智時(shí)代古籍?dāng)?shù)字化再造的邏輯與進(jìn)路[J].數(shù)字人文研究,2022,2(2):46-56.

      [16]? 邱均平,段宇鋒,陳敬全,等.我國(guó)文獻(xiàn)計(jì)量學(xué)發(fā)展的回顧與展望[J].科學(xué)學(xué)研究,2003(2):143-148.

      [17]? 楊海崢,王軍.對(duì)新時(shí)代古籍人才培養(yǎng)的思考[J].出版廣角,2022(12):6-10,30.

      [18]? Mills Kathy A.Big data for qualitative research[J].Taylor & Francis,2019.

      [19]? Zhang M,Yan S,Pan W,et al.Phylogenetic evidence for Sino-Tibetan origin in northern China in the Late Neolithic[M].Nature,2019,569(7754):112-115.

      [20]? 鄭永曉.傳承與超越:數(shù)字文獻(xiàn)學(xué)的未來(lái)發(fā)展芻議——兼論日本文獻(xiàn)數(shù)字化對(duì)我國(guó)之啟示[J].中國(guó)比較文學(xué),2019(4):2-13.

      [21]? 黃水清,王東波.古文信息處理研究的現(xiàn)狀及趨勢(shì)[J].圖書情報(bào)工作,2017,61(12):43-49.

      [22]? Bin Li,Yiguo Yuan,Jingya Lu,et al.The First International Ancient Chinese Word Segmentation and POS Tagging Bakeoff:Overview of the EvaHan 2022 Evaluation Campaign[A].In Proceedings of the Second Workshop on Language Technologies for Historical and Ancient Languages[C].Marseille,F(xiàn)rance.European Language Resources Association,2022:135-140.

      [23]? 劉石.文獻(xiàn)學(xué)的數(shù)字化轉(zhuǎn)向[J].文學(xué)遺產(chǎn),2022(6):10-13.

      [24]? 張萍.地理信息系統(tǒng)(GIS)與中國(guó)歷史研究[J].史學(xué)理論研究,2018(2):35-47,158.

      [25]? 楊海慈,王軍.宋代學(xué)術(shù)師承知識(shí)圖譜的構(gòu)建與可視化[J].數(shù)據(jù)分析與知識(shí)發(fā)現(xiàn),2019,3(6):109-116.

      [26]? 包弼德,王宏蘇,傅君勱,等.“中國(guó)歷代人物傳記資料庫(kù)”(CBDB)的歷史、方法與未來(lái)[J].數(shù)字人文研究,2021,1(1):21-33.

      [27]? 李文琦,王鳳翔,孫顯斌,等.歷代史志目錄的數(shù)據(jù)集成與可視化[J].中國(guó)圖書館學(xué)報(bào),2023,49(1):82-98.

      [28]? 常博林,萬(wàn)晨,李斌,等.基于詞和實(shí)體標(biāo)注的古籍?dāng)?shù)字人文知識(shí)庫(kù)的構(gòu)建與應(yīng)用——以《資治通鑒·周秦漢紀(jì)》為例[J].圖書情報(bào)工作,2021,65(22):134-142.

      作者簡(jiǎn)介:李斌,男,南京師范大學(xué)文學(xué)院副教授;王東波,男,南京農(nóng)業(yè)大學(xué)信息管理學(xué)院教授。

      猜你喜歡
      數(shù)字人文文獻(xiàn)學(xué)
      數(shù)字人文時(shí)代公共圖書館經(jīng)典閱讀推廣研究
      數(shù)字人文目標(biāo)下圖書館信息服務(wù)模式研究
      “夏譯漢籍”的文獻(xiàn)學(xué)價(jià)值
      西夏研究(2017年2期)2017-05-16 06:48:53
      數(shù)字學(xué)術(shù)與公眾科學(xué):數(shù)字圖書館新生態(tài)
      跨界與融合:全球視野下的數(shù)字人文
      跨界與融合:全球視野下的數(shù)字人文
      大規(guī)模古籍文本在中國(guó)史定量研究中的應(yīng)用探索
      從文獻(xiàn)學(xué)的角度考釋不同版本的聲明學(xué)論著《八轉(zhuǎn)聲頌》
      西藏研究(2016年2期)2016-06-05 11:31:06
      《傷科匯纂》文獻(xiàn)學(xué)研究
      《荀子》文獻(xiàn)學(xué)研究述略
      白河县| 自贡市| 德昌县| 电白县| 河南省| 甘孜县| 桦南县| 和龙市| 扶风县| 万盛区| 铜梁县| 五河县| 敖汉旗| 淳化县| 桦南县| 巴彦县| 社旗县| 剑川县| 江陵县| 黄陵县| 扬中市| 会宁县| 云林县| 神农架林区| 甘德县| 武义县| 庆云县| 茂名市| 宣汉县| 会昌县| 五莲县| 兴国县| 霞浦县| 茌平县| 大连市| 阳泉市| 唐海县| 沙田区| 教育| 南木林县| 天气|