• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      數(shù)字人文知識(shí)生產(chǎn)特征

      2022-04-12 08:28:00林世華譚富強(qiáng)
      出版科學(xué) 2022年2期
      關(guān)鍵詞:數(shù)字人文

      林世華 譚富強(qiáng)

      [摘 要] 研究提出一種基于word2vec和變分自編碼器(VAE)相結(jié)合的wordVAE數(shù)字人文知識(shí)生產(chǎn)特征挖掘方法。以數(shù)字人文研究成果(CSSCI期刊論文)和相關(guān)書(shū)籍著作為研究對(duì)象,對(duì)其知識(shí)生產(chǎn)特征進(jìn)行實(shí)證研究。研究顯示:從期刊文獻(xiàn)的研究結(jié)果看,數(shù)字人文知識(shí)生產(chǎn)特征主要有知識(shí)生產(chǎn)結(jié)構(gòu)化與邊界模糊化并存、跨學(xué)科合作化;以書(shū)籍的研究結(jié)果看,數(shù)字人文知識(shí)生產(chǎn)特征主要有主題凝聚性、視野廣闊性。

      [關(guān)鍵詞] 數(shù)字人文 知識(shí)生產(chǎn)特征 wordVAE 范式轉(zhuǎn)變

      [中圖分類(lèi)號(hào)] G237 [文獻(xiàn)標(biāo)識(shí)碼] A [文章編號(hào)] 1009-5853 (2022) 02-0057-10

      Research on the Characteristics of Digital Humanistic Knowledge Based on Natural Language Processing

      Lin Shihua Tan Fuqiang

      (School of Media and Communication, Shenzhen University, Shenzhen, 518060)(Institute for Cultural Industries Shenzhen University, Shenzhen, 518060)

      [Abstract] The paper proposes a wordVAE digital humanities knowledge production feature mining method based on the combination of word2vec and Variational Auto-Encoder (VAE). The study conducts an empirical research on the characteristics of knowledge production taking digital humanities research results (CSSCI Journal Papers) and related books as research objects. The research shows that:in terms of the research results of Journal Papers, the main characteristics of digital humanities knowledge production are the coexistence of knowledge production structure and boundary blurring, and interdisciplinary collaboration. In terms of the research results of books, the main characteristics are thematic cohesiveness and broad horizons.

      [Key words] Digital humanities Knowledge production characteristics WordVAE Paradigm shift

      1 問(wèn)題緣起

      當(dāng)下,人類(lèi)已然進(jìn)入數(shù)字人文時(shí)代,知識(shí)和信息的邊界越發(fā)模糊,二者本身已經(jīng)不再成為制約人類(lèi)知識(shí)增長(zhǎng)的關(guān)鍵因素。多渠道獲取海量知識(shí)的途徑將成為推動(dòng)知識(shí)發(fā)展的重要手段,然而如何在便捷的知識(shí)獲取渠道下完成對(duì)信息與知識(shí)的再加工成為數(shù)字人文時(shí)代人類(lèi)所面臨的重大問(wèn)題之一。自施賴布曼(Schreibman)等人正式提出“數(shù)字人文”這一概念后,其本身所具備的計(jì)算機(jī)科學(xué)與人文學(xué)科的交叉屬性使得數(shù)字人文作為新興研究領(lǐng)域越發(fā)受到學(xué)界重視[1]。目前,學(xué)界關(guān)于數(shù)字人文知識(shí)生產(chǎn)的研究主要集中于以下幾個(gè)方面:一是基于知識(shí)網(wǎng)絡(luò)的數(shù)字人文領(lǐng)域的知識(shí)網(wǎng)絡(luò)演化研究。知識(shí)網(wǎng)絡(luò)概念源自心理學(xué)[2],于20世紀(jì)80年代末被引入中國(guó)[3],美國(guó)科學(xué)基金會(huì)認(rèn)為知識(shí)網(wǎng)絡(luò)是由專(zhuān)家、信息和知識(shí)三者構(gòu)成的凝聚體[4]。中國(guó)學(xué)者趙蓉英將知識(shí)網(wǎng)絡(luò)看作由“節(jié)點(diǎn)”和“邊”關(guān)聯(lián)所構(gòu)成的網(wǎng)絡(luò)化知識(shí)體系[5]。依據(jù)上述對(duì)知識(shí)網(wǎng)絡(luò)的定義,不少學(xué)者假定期刊、著作、學(xué)者以及文獻(xiàn)關(guān)鍵詞為知識(shí)網(wǎng)絡(luò)演進(jìn)中的關(guān)鍵節(jié)點(diǎn),將引用關(guān)系、共現(xiàn)關(guān)系假定為邊,進(jìn)而力圖將現(xiàn)有數(shù)字人文的研究成果進(jìn)行網(wǎng)絡(luò)化梳理,在對(duì)相關(guān)文獻(xiàn)進(jìn)行取舍后,通過(guò)計(jì)算完成數(shù)字人文知識(shí)網(wǎng)絡(luò)演變機(jī)制以及相關(guān)路徑[6][7],在一定程度上回答了數(shù)字人文本位視角下的知識(shí)生產(chǎn)。二是基于圖書(shū)館知識(shí)服務(wù)模式的相關(guān)研究。因當(dāng)今時(shí)代“互聯(lián)網(wǎng)+”的逐步興起,人們對(duì)信息的需求度及其需求方式都已發(fā)生轉(zhuǎn)變,在此背景下,傳統(tǒng)圖書(shū)館服務(wù)模式無(wú)法滿足人們尤其是數(shù)字人文學(xué)者的需求,圖書(shū)館數(shù)字技術(shù)普遍得到重視[8]。一些人文學(xué)者開(kāi)始將目光聚焦于圖書(shū)館服務(wù)模式的研究[9],在專(zhuān)注圖書(shū)數(shù)字化保存的同時(shí)也開(kāi)始關(guān)注到相應(yīng)平臺(tái)的數(shù)字人文文本分析[10]。因此,圖書(shū)館在數(shù)字人文發(fā)展過(guò)程中扮演著重要角色,數(shù)字人文因圖書(shū)館獲得了新的發(fā)展機(jī)遇,兩者互嵌的模式引發(fā)了相應(yīng)的知識(shí)生產(chǎn),推進(jìn)了相關(guān)學(xué)術(shù)研究[11]。有學(xué)者對(duì)數(shù)字人文與圖書(shū)館的知識(shí)生產(chǎn)關(guān)系進(jìn)行了辯證看待:一方面,館藏文本的數(shù)字化豐富圖書(shū)館的知識(shí)服務(wù);另一方面,大量數(shù)字化文本的生產(chǎn)將促使人們對(duì)其進(jìn)行知識(shí)挖掘、知識(shí)組織與開(kāi)發(fā)[12]。一言以蔽之,數(shù)字人文以其新技術(shù)提升了圖書(shū)館的知識(shí)服務(wù)內(nèi)涵與層次,而其所側(cè)重的文獻(xiàn)資源數(shù)字化儲(chǔ)藏方式則為用戶提供起一套有價(jià)值的研究?jī)?nèi)容以及據(jù)此而研發(fā)出的科學(xué)數(shù)據(jù)挖掘方式[13]。此外,周建新和譚富強(qiáng)以曼海姆的知識(shí)社會(huì)學(xué)作為理論視角分析了數(shù)字人文的知識(shí)生產(chǎn)屬性特征,指出數(shù)字人文的知識(shí)生產(chǎn)屬性具有多重聯(lián)動(dòng)特征[14],從而在一定程度上探索了數(shù)字人文的知識(shí)生產(chǎn)特性問(wèn)題。

      綜上所述,學(xué)界對(duì)數(shù)字人文知識(shí)生產(chǎn)的相關(guān)研究取得了相應(yīng)成果,但也存在以下不足之處:第一,既往研究側(cè)重于對(duì)數(shù)字人文知識(shí)網(wǎng)絡(luò)演化的研究,對(duì)數(shù)字人文的知識(shí)生產(chǎn)缺乏研究;第二,既往研究主要討論了數(shù)字人文知識(shí)生產(chǎn)的相關(guān)節(jié)點(diǎn)與邊界,但對(duì)數(shù)字人文知識(shí)生產(chǎn)的影響因素及其排列機(jī)制缺乏相應(yīng)的解釋力;第三,既往研究主要立足于圖書(shū)館與數(shù)字人文關(guān)系,在一定程度上忽視了數(shù)字人文本體研究;第四,既往研究缺乏足夠的科學(xué)性與嚴(yán)謹(jǐn)性,這主要表現(xiàn)在數(shù)字人文的相關(guān)研究缺乏足夠的科學(xué)衡量標(biāo)準(zhǔn),并對(duì)數(shù)字人文現(xiàn)象缺乏深刻理解;第五,既往研究缺乏對(duì)數(shù)字人文知識(shí)生產(chǎn)屬性的分析,這將導(dǎo)致對(duì)數(shù)字人文知識(shí)生產(chǎn)缺乏理論認(rèn)識(shí)。

      鑒于此,本研究將以既往數(shù)字人文研究論文和圖書(shū)著作為研究數(shù)據(jù),通過(guò)搭建word2vec與變分自編碼器(VAE)相組合的wordVAE數(shù)字人文知識(shí)生產(chǎn)挖掘方法來(lái)分析近年來(lái)數(shù)字人文研究成果的知識(shí)生產(chǎn)特征,以深化對(duì)數(shù)字人文知識(shí)生產(chǎn)及其屬性的相關(guān)認(rèn)識(shí)。

      2 基于wordVAE的數(shù)字人文知識(shí)生產(chǎn)實(shí)證研究

      2.1 研究數(shù)據(jù)

      本文是基于既往數(shù)字人文研究成果與數(shù)字人文圖書(shū)著作而進(jìn)行的自然語(yǔ)言處理研究,旨在揭示數(shù)字人文知識(shí)生產(chǎn)及其屬性特征。因而依據(jù)研究需要,首先,收集了題目、關(guān)鍵詞以及研究主題等層面包含數(shù)字人文知識(shí)生產(chǎn)的相關(guān)研究論文共計(jì)600篇;其次,收集了國(guó)內(nèi)翻譯的數(shù)字人文著作,具體為《數(shù)字人文:改變知識(shí)創(chuàng)新與分享的游戲規(guī)則》以及《數(shù)字人文:數(shù)字時(shí)代的知識(shí)與批判》。

      2.2 研究工具

      由于研究需要,本次研究采用自然語(yǔ)言處理中的詞向量word2vec(Word to Vector)為研究工具。首先,詞向量最早由辛頓(Hinton)[15]提出,而本吉奧(Bengio)等人[16]則建立了最早的詞向量原模型,該方法主要可分為獨(dú)熱表示(One-hot Representation)[17]與分布式表示(Distributed Representation)[18]兩種,前者表示方法簡(jiǎn)單,但語(yǔ)義表達(dá)能力有限,后者是基于前者的推進(jìn)模型,在一定程度上彌補(bǔ)了前者語(yǔ)義表達(dá)能力有限以及矩陣存在稀疏冗長(zhǎng)等問(wèn)題[19]。其次,word2vec工具是由谷歌(Google)于2013年推出的自然語(yǔ)言處理工具,內(nèi)部算法則借鑒了神經(jīng)網(wǎng)絡(luò)語(yǔ)言模型(Neural Network Language Model, NNLM)的基本理念。其優(yōu)點(diǎn)在于通過(guò)給定的語(yǔ)料庫(kù)可將文本中的詞映射至實(shí)數(shù)向量空間,而該實(shí)數(shù)向量空間由多個(gè)維度組成,每一維度都能夠代表相應(yīng)的淺層語(yǔ)義特征[20]。最后,成熟的word2vec工具主要分為連續(xù)的詞袋模型(Continuous Bag-of-Words)以及連續(xù)的跳字模型(Continious skip-gram)兩種模型,因本次研究的訓(xùn)練集數(shù)量較大,因而采用通過(guò)輸入一個(gè)詞便有望測(cè)量出上下相關(guān)詞的跳字模型,該模型具有語(yǔ)義精確且在大型訓(xùn)練集中表現(xiàn)優(yōu)異的特色[21][22]。

      變分自編碼器(Variational Auto-Encoder,VAE)。變分自編碼器是自動(dòng)編碼器的升級(jí)版本,其結(jié)構(gòu)跟自動(dòng)編碼器較為類(lèi)似,也由編碼器和解碼器構(gòu)成。相比于自編碼器,VAE更傾向于數(shù)據(jù)生成。正因如此,研究將word2vec的詞向量結(jié)果輸入VAE,從而獲得更好的分類(lèi)結(jié)果。VAE的最大特點(diǎn)是模仿自動(dòng)編碼機(jī)的學(xué)習(xí)預(yù)測(cè)機(jī)制,在可測(cè)函數(shù)之間進(jìn)行編碼、解碼[23]。變分自編碼器是基于無(wú)監(jiān)督學(xué)習(xí)的深度生成網(wǎng)絡(luò)模型,由金馬(Kingma)和威林(Welling)在2014年提出,該模型的思想源自傳統(tǒng)的自編碼器網(wǎng)絡(luò)模型(auto encoder,AE),與傳統(tǒng)的自編碼器不同的是,VAE考慮了隱變量的分布誤差,并用相對(duì)熵(也稱為KL散度,Kullback-Leibler divergence)來(lái)表示。KL 散度觀察聯(lián)合分布差距公式為[24]:

      公式1

      該模型還引入了貝葉斯公式從而構(gòu)建起變分自編碼器的核心公式:

      公式2

      需要說(shuō)明的是,本研究使用的VAE模型使用了隨機(jī)梯度下降法來(lái)訓(xùn)練網(wǎng)絡(luò)參數(shù),該方法的公式如下所示:

      公式3

      2.3 研究流程

      本次研究具體分為四個(gè)流程:首先是原始語(yǔ)料庫(kù)預(yù)處理,其次是實(shí)詞抽取,再次是模型運(yùn)行,最后為研究結(jié)果呈現(xiàn)。詳細(xì)研究流程如圖1所示:

      針對(duì)期刊雜志與圖書(shū)著作的特性,本研究以自然語(yǔ)言處理技術(shù)針對(duì)二者的關(guān)鍵詞進(jìn)行分析,具體流程如下。

      首先,原始語(yǔ)料庫(kù)預(yù)處理。理論而言,本研究所使用的研究技術(shù)適用于多個(gè)語(yǔ)種的文本,但由于本次研究所用的是中文文本,因而在研究開(kāi)始之前需要進(jìn)行原始語(yǔ)料庫(kù)的處理,并去除與本次研究無(wú)關(guān)的停用詞以避免相應(yīng)的噪聲干擾,從而提升話題的精密度。此外,為提升后期抽取實(shí)詞,進(jìn)而對(duì)相應(yīng)的詞性標(biāo)注,本次研究所使用的詞性標(biāo)注工具為自然語(yǔ)言處理與信息檢索共享平臺(tái)(NLPIR)漢語(yǔ)分詞系統(tǒng)[25]。

      其次,實(shí)詞抽取。期刊雜志文獻(xiàn)的關(guān)鍵詞通常是由相關(guān)作者給出,具備準(zhǔn)確率高、貼合文章主題、全文精簡(jiǎn)指引等特征,因而以往研究通常采用關(guān)鍵詞抽取的辦法進(jìn)行研究。但本次研究需要對(duì)所有資料進(jìn)行全文檢驗(yàn),意在抽取文本中的名詞、動(dòng)詞、形容詞以及副詞,因此需要采用較為經(jīng)典的關(guān)鍵詞權(quán)重計(jì)算公式(Term Frequency–Inverse DocumentFrequency, TF-IDF),通過(guò)計(jì)算所抽取詞匯的TF-IDF數(shù)值來(lái)過(guò)濾TF-IDF數(shù)值小于制定標(biāo)準(zhǔn)的詞匯,最終形成相應(yīng)的實(shí)詞集合。TF-IDF計(jì)算公式為:

      公式4

      再次,模型運(yùn)行。一是基于word2vec技術(shù)的實(shí)詞詞向量獲取。期刊雜志論文與數(shù)字人文圖書(shū)著作在一定程度上因主題聚焦而具備了共同屬性的同時(shí)也存在明顯聯(lián)系,這也是本研究的基礎(chǔ)。然而,事實(shí)上在通過(guò)初步研究后發(fā)現(xiàn)二者依然具有相當(dāng)差異,這主要體現(xiàn)在期刊雜志論文專(zhuān)業(yè)詞匯較多,而數(shù)字人文圖書(shū)著作口語(yǔ)化更為顯著。本研究認(rèn)為盡管二者之間有一定的差異,存在關(guān)鍵詞不對(duì)應(yīng)的情況,且同一術(shù)語(yǔ)在期刊雜志論文與圖書(shū)著作中的表達(dá)方式不同,但由于本次研究具備主題凝練性特征,術(shù)語(yǔ)的使用環(huán)境也較為相似,因此以詞匯的上下文信息判斷可以較好地解決該問(wèn)題。二是通過(guò)關(guān)鍵詞詞向量聚類(lèi)的計(jì)算獲取主題及主題向量表示。本次研究采取基于X―means的關(guān)鍵詞詞向量聚類(lèi),該算法是基于K―means算法的改進(jìn)版本,其優(yōu)勢(shì)在于運(yùn)算之初無(wú)需制定聚類(lèi)數(shù)量K,只需制定聚類(lèi)數(shù)量K的取值范圍即可,如此一來(lái),算法將通過(guò)計(jì)算在制定范圍內(nèi)尋找最后聚類(lèi)數(shù)量K,以實(shí)現(xiàn)優(yōu)化下的關(guān)鍵詞詞向量聚類(lèi)劃分。三是基于詞向量計(jì)算主題詞的語(yǔ)義相似度。語(yǔ)義相似度是由兩個(gè)實(shí)詞合集之間的余弦距離所決定。本次研究采用改良后的夾角余弦公式來(lái)計(jì)算主題詞C1與C2的語(yǔ)義相似度,假設(shè)C1主題下具有以下合集{W11,W12,… , W1m},而C2主題詞下的實(shí)詞合集為{W21,W22,…, W2n},且m>n。夾角余弦計(jì)算公式為:

      公式5

      最后,變分自編碼器運(yùn)行。借鑒聶錦燃等人的研究,編碼器和生成器是變分自編碼器的主要組成部分,均采用循環(huán)神經(jīng)網(wǎng)絡(luò)(Recurrent Neural Networks)結(jié)構(gòu)。將門(mén)控循環(huán)單元(Gated recurrent unit,GRU)作為RNN的基本單元[26]。內(nèi)容編碼器作為提取源端輸入文本的內(nèi)容。內(nèi)容的表征z,且將標(biāo)簽向量L,作為線性變換的基礎(chǔ),隨后使用RNN-GRU作為生成器,從而輸出數(shù)字人文研究的知識(shí)特征分類(lèi)結(jié)果。

      通過(guò)以上流程(見(jiàn)圖2),本研究得到了相關(guān)的研究結(jié)果。

      3 研究結(jié)果

      3.1 基于數(shù)字人文圖書(shū)著作的“數(shù)字人文知識(shí)生產(chǎn)”特征結(jié)果

      將數(shù)字人文的圖書(shū)著作為文本,在使用python中的詞向量技術(shù)后,得出詞云圖(見(jiàn)圖3),可更加直觀地展示出圖書(shū)著作的主題強(qiáng)度。

      在主題強(qiáng)度分析基礎(chǔ)上,研究結(jié)果展現(xiàn)出了相關(guān)主題詞及其詞頻。為使得結(jié)果更加清晰化,本研究摘取排名前十的主題詞及其詞頻以供展示(見(jiàn)表1)。

      在本次研究中,以“數(shù)字人文知識(shí)生產(chǎn)”為主題的圖書(shū)著作中,“數(shù)字”一詞占據(jù)該表榜首,詞頻高達(dá)6288;緊隨其次的便是“人文”一詞,詞頻高達(dá)5714。由此可見(jiàn),在圖書(shū)著作中大多數(shù)使用者對(duì)數(shù)字人文知識(shí)生產(chǎn)的重點(diǎn)感受為“數(shù)字”,而該詞的相關(guān)詞匯則是數(shù)字化、數(shù)字平臺(tái)等,這在一定程度上說(shuō)明數(shù)字人文的屬性重在數(shù)字化。

      3.2 基于期刊雜志論文的“數(shù)字人文”特征結(jié)果

      本次以“數(shù)字人文”的相關(guān)期刊雜志文獻(xiàn)共計(jì)600篇,其詞云圖為圖4。

      同樣,本研究依據(jù)主題強(qiáng)度分析,研究結(jié)果也展現(xiàn)了基于期刊雜志論文的數(shù)字人文知識(shí)生產(chǎn)主題詞及其詞頻。研究摘錄排名前十的主題詞及其詞頻以供展示(見(jiàn)表2)。

      在本次研究中,期刊雜志論文中的“數(shù)字人文知識(shí)生產(chǎn)”主題詞及其詞頻與基于數(shù)字人文圖書(shū)著作的“數(shù)字人文知識(shí)生產(chǎn)”主題詞及其詞頻表在主題詞遴選上差異不大,僅為排名第八的主題詞有所差異,而前者有“分析”主題,后者有“進(jìn)行”主題詞。這在一定程度上表現(xiàn)了期刊雜志論文的術(shù)語(yǔ)用詞與圖書(shū)著作的用詞存在一定差異,但其他主題詞變化不大,這在一定程度上反映了學(xué)者們的用詞慣習(xí)以及用語(yǔ)環(huán)境具有高度的凝聚性傾向。而在詞頻方面,單純從數(shù)字看二者差異不大,但細(xì)探之下二者具有相當(dāng)差異:首先,從文本字?jǐn)?shù)看,基于數(shù)字人文圖書(shū)著作的文本約29萬(wàn)余字,而基于期刊論文的相關(guān)文本則約有4萬(wàn)余字,兩者的主題詞及其詞頻在各自文本中所占據(jù)的比例具有相當(dāng)差異。然而,盡管各自文本的字?jǐn)?shù)差異如此之大,但在主題詞聚斂方面表現(xiàn)出了相當(dāng)一致性,這在一定程度上說(shuō)明數(shù)字人文知識(shí)生產(chǎn)的主題具有高度凝聚性以及強(qiáng)烈的趨同性特征。

      3.3 基于word2vec技術(shù)的主題詞及其下屬實(shí)詞的關(guān)聯(lián)距離

      本研究基于word2vec技術(shù)的文本挖掘,重點(diǎn)在于測(cè)算主題詞及其下屬實(shí)詞的關(guān)聯(lián)距離,該距離的測(cè)量能夠在一定程度上反映出主題詞對(duì)文本的概括性以及實(shí)詞集合挖掘的優(yōu)良特征。

      基于word2vec技術(shù)可以測(cè)算出主題詞及其下屬實(shí)詞的關(guān)聯(lián)距離,摘取排名前五關(guān)鍵詞及其合集內(nèi)排名前三的實(shí)詞,見(jiàn)表3。

      3.4 基于wordVAE的數(shù)字人文知識(shí)生產(chǎn)特征結(jié)果

      研究根據(jù)wordVAE的模型結(jié)構(gòu)框架,運(yùn)算wordVAE方法,從而得到了近年來(lái)數(shù)字人文研究的知識(shí)生產(chǎn)矩陣,并使用譜聚類(lèi)的方式對(duì)相關(guān)數(shù)據(jù)進(jìn)行繪圖,在選取前排名前50的運(yùn)算結(jié)果后,繪制圖5。

      根據(jù)wordVAE的譜聚類(lèi)結(jié)果圖可知,當(dāng)前的數(shù)字人文研究主要形成了四個(gè)結(jié)構(gòu)中心,分別是“數(shù)字人文研究”節(jié)點(diǎn)中心、“圖書(shū)館”節(jié)點(diǎn)中心、“人文研究”節(jié)點(diǎn)中心以及“數(shù)字化”節(jié)點(diǎn)研究中心。其中“數(shù)字人文研究”節(jié)點(diǎn)突顯出了人文思想挖掘、數(shù)字技術(shù)、人文建設(shè)、圖書(shū)館基礎(chǔ)、文本分析等知識(shí)生產(chǎn)特性;“圖書(shū)館”節(jié)點(diǎn)中心則含有人文反思、信息管理、具體知識(shí)、人文思想等知識(shí)生產(chǎn)特性;“人文研究”節(jié)點(diǎn)突顯出了古文分析、事件關(guān)系(抽?。?、文本共現(xiàn)等知識(shí)生產(chǎn)特性。

      由此可見(jiàn),數(shù)字人文相關(guān)研究所呈現(xiàn)出“人文”與“數(shù)字化”并存的局面,且相應(yīng)的研究成果具有一定的交叉特性,這樣顯示出數(shù)字人文研究的知識(shí)生產(chǎn)特征具有典型的跨學(xué)科合作特點(diǎn)。相關(guān)分析見(jiàn)下節(jié)。

      3.5 研究結(jié)論

      基于自然語(yǔ)言處理的詞向量文本挖掘研究結(jié)束,通過(guò)主題詞挖掘及其頻次以及主題詞及其下屬實(shí)詞關(guān)聯(lián)距離等內(nèi)容的研判,研究認(rèn)為基于期刊論文的研究結(jié)果突顯出以下特征。

      (1)數(shù)字人文知識(shí)生產(chǎn)結(jié)構(gòu)化與邊界模糊化并存。以中文核心期刊為文本的結(jié)果突顯出相當(dāng)?shù)臄?shù)字人文知識(shí)生產(chǎn)結(jié)構(gòu)化與邊界模糊化,體現(xiàn)為重視數(shù)字人文知識(shí)生產(chǎn)的宏觀層面和微觀層面知識(shí)生產(chǎn)結(jié)構(gòu)問(wèn)題。就“數(shù)字人文知識(shí)生產(chǎn)”的宏觀層面而言,基于word2vec技術(shù)的主題詞挖掘表明:首先,數(shù)字人文知識(shí)生產(chǎn)結(jié)構(gòu)化主要體現(xiàn)在“人文”“數(shù)字”“學(xué)科”“協(xié)作”“跨學(xué)科”等維度。這些具有強(qiáng)烈結(jié)構(gòu)化的主題詞一方面顯示了數(shù)字人文知識(shí)生產(chǎn)具有相對(duì)的獨(dú)立結(jié)構(gòu)化,另一方面又明確出數(shù)字人文的知識(shí)生產(chǎn)具有相對(duì)的關(guān)聯(lián)程度,這在一定程度上使得其具備知識(shí)生產(chǎn)結(jié)構(gòu)化特征的同時(shí)又具有知識(shí)生產(chǎn)邊界模糊化。其次,數(shù)字人文知識(shí)生產(chǎn)邊界模糊化主要表征為在結(jié)構(gòu)化基礎(chǔ)之上而呈現(xiàn)出的結(jié)構(gòu)邊界模糊化。“跨學(xué)科”“協(xié)作”等主題詞的出現(xiàn),表明數(shù)字人文知識(shí)生產(chǎn)在一定程度上突破了傳統(tǒng)的知識(shí)生產(chǎn)模式,達(dá)到既基于學(xué)科優(yōu)勢(shì),又融合了信息化技術(shù)的多體表征。最后,以數(shù)字人文的跨界知識(shí)生產(chǎn)而言,其與圖書(shū)館的知識(shí)生產(chǎn)模式在一定程度上具有一致性,圖書(shū)館一方面可支持?jǐn)?shù)字人文的核心需要,另一方面也能從技術(shù)與數(shù)據(jù)庫(kù)方面給予數(shù)字人文發(fā)展支持??偠灾?,數(shù)字人文與圖書(shū)館的合作關(guān)系模型表明二者之間存在諸多共同點(diǎn)[27]。

      (2)數(shù)字人文知識(shí)生產(chǎn)跨學(xué)科合作化。上段中論述了數(shù)字人文的跨學(xué)科屬性會(huì)導(dǎo)致一定程度上的數(shù)字人文知識(shí)生產(chǎn)邊界模糊化,在本段中講論了數(shù)字人文知識(shí)生產(chǎn)跨學(xué)科的合作化問(wèn)題。首先,數(shù)字人文知識(shí)生產(chǎn)跨學(xué)科合作源于解決實(shí)際問(wèn)題。隨著科技進(jìn)步,當(dāng)下的知識(shí)生產(chǎn)模式已然發(fā)生著深刻變革,數(shù)字人文作為新興崛起的知識(shí)生產(chǎn)中心,其顯著特征是“知識(shí)生產(chǎn)更多地源于實(shí)際問(wèn)題,因而具有天然的跨學(xué)科屬性”[28]。源于現(xiàn)實(shí)需要進(jìn)而引發(fā)的跨學(xué)科合作化現(xiàn)象在當(dāng)下已是屢見(jiàn)不鮮,數(shù)字人文領(lǐng)域的跨學(xué)科合作研究已有眾包項(xiàng)目實(shí)戰(zhàn)案例,將其他學(xué)術(shù)群體引入數(shù)字人文研究中,不僅在知識(shí)生產(chǎn)上提供了學(xué)科協(xié)作化生產(chǎn),也為數(shù)字人文領(lǐng)域研究與其他學(xué)科、公眾群體建立了緊密聯(lián)系[29]。這種融合大眾為學(xué)術(shù)研究工作的方式,用戶與數(shù)字人文機(jī)構(gòu)的跨學(xué)科甚至是跨領(lǐng)域合作化知識(shí)生產(chǎn)機(jī)制將能夠營(yíng)造出雙贏局面[30]。

      (3)數(shù)字人文知識(shí)生產(chǎn)的凝聚性?;凇皵?shù)字人文知識(shí)生產(chǎn)”為主題的數(shù)字人文圖書(shū)著作突顯出了明確的主題凝聚性。首先,數(shù)字人文知識(shí)生產(chǎn)的凝聚性體現(xiàn)在檢索方式的變化。數(shù)字人文的出現(xiàn)打破了以往學(xué)習(xí)時(shí)間、地點(diǎn)以及資源利用等固有方式,使得原本較為散亂的學(xué)習(xí)資料變得更為凝聚,通過(guò)相關(guān)的關(guān)鍵詞掃描以及數(shù)字化搜索便能夠提供所需要的關(guān)鍵信息,這無(wú)疑給予研究者們相當(dāng)?shù)姆奖阈?,提高了知識(shí)搜尋的精準(zhǔn)度,從而為使用數(shù)字人文方法進(jìn)行知識(shí)生產(chǎn)提供了保障。其次,數(shù)字人文知識(shí)生產(chǎn)的凝聚性還體現(xiàn)在數(shù)字人文方法改變了知識(shí)生產(chǎn)者的思維方式。信息搜集方式的轉(zhuǎn)變?cè)跓o(wú)形之中影響了平臺(tái)使用的思考方式與路徑,從文本挖掘中的“技術(shù)”“信息”“分析”等主題詞可以明確出數(shù)字人文的出現(xiàn)改變了數(shù)據(jù)文本的加工方式,文本信息加工過(guò)程的革新使得原本基于人腦的加工思維變?yōu)橐约夹g(shù)為中心的加工,這種改變能夠有效影響到知識(shí)生產(chǎn)者的思維[31],處理方式的變化在一定程度上更利于知識(shí)生產(chǎn)者專(zhuān)注某一知識(shí)點(diǎn)的鉆研。

      (4)數(shù)字人文知識(shí)生產(chǎn)的視野廣闊性。數(shù)字人文的圖書(shū)著作突顯出了一定的視野廣闊性,可從其文本挖掘的主題詞“知識(shí)”“資源”“數(shù)據(jù)”“圖書(shū)館”等信息中推斷,數(shù)字人文能夠引發(fā)使用者對(duì)其評(píng)價(jià)為“知識(shí)”一類(lèi)的宏觀詞匯,其下屬相近詞為“知識(shí)創(chuàng)造”“知識(shí)視野”“知識(shí)生產(chǎn)”等。下屬詞匯表明,數(shù)字人文的圖書(shū)著作在努力闡述出數(shù)字人文知識(shí)生產(chǎn)的廣闊性,它模糊了學(xué)科知識(shí)生產(chǎn)的相關(guān)邊界,進(jìn)而將目光投向于更為宏大的維度,亦即說(shuō)數(shù)字人文在引導(dǎo)相關(guān)使用者將目光投射得更遠(yuǎn)、更為廣闊。數(shù)字人文知識(shí)生產(chǎn)的視野廣闊性是基于其數(shù)據(jù)資源足夠宏大的基礎(chǔ)以及推薦算法的優(yōu)越性而得以完成。因而也可以說(shuō),數(shù)字人文知識(shí)生產(chǎn)的視野廣闊性是基于宏大數(shù)據(jù)資源上的優(yōu)秀推薦算法而得以實(shí)現(xiàn),數(shù)據(jù)資源的宏大以及推薦算法的優(yōu)良將在一定程度上影響到數(shù)字人文知識(shí)生產(chǎn)的相關(guān)屬性。

      4 結(jié) 語(yǔ)

      本研究以“數(shù)字人文知識(shí)生產(chǎn)”為主題,通過(guò)建構(gòu)起wordVAE數(shù)字人文知識(shí)生產(chǎn)特征研究方法,以既往關(guān)于數(shù)字人文期刊論文和著作為文本資料,回答了數(shù)字人文知識(shí)生產(chǎn)屬性的特征的問(wèn)題,結(jié)果表明:首先,數(shù)字人文的知識(shí)生產(chǎn)屬性主要有知識(shí)生產(chǎn)結(jié)構(gòu)化與邊界模糊化并存、跨學(xué)科合作化;其次,數(shù)字人文知識(shí)生產(chǎn)屬性主要有主題凝聚性、視野廣闊性。數(shù)字人文知識(shí)生產(chǎn)作為一種具有恒久活力的話題,尚需更多的實(shí)證研究去發(fā)掘它的優(yōu)劣勢(shì),從而為人類(lèi)知識(shí)進(jìn)步做出貢獻(xiàn)。

      盡管本研究使用wordVAE方法作為數(shù)字人文知識(shí)生產(chǎn)特征研究方法,但其依舊存在一定的局限性:首先,對(duì)文本語(yǔ)料庫(kù)的預(yù)先分析尤其是個(gè)別停用詞匯的處理上,仍存在進(jìn)一步提升的可能;其次,word2vec詞向量具備兩個(gè)文本處理模型,研究?jī)H采用了連續(xù)的跳字模型,進(jìn)而相關(guān)主題詞的挖掘與呈現(xiàn)可能與連續(xù)的詞袋模型所產(chǎn)生的主題詞存在一定差異;最后,數(shù)字人文知識(shí)生產(chǎn)屬性的結(jié)果是基于一定的思維推導(dǎo)而得以呈現(xiàn),因此理論上存在因?qū)W者思維差異而概括出不同屬性特征的局限。

      注 釋

      [1]許鑫,陳路遙,楊佳穎.數(shù)字人文研究領(lǐng)域的知識(shí)網(wǎng)絡(luò)演化:基于題錄信息和引文上下文的關(guān)鍵詞共詞分析[J].情報(bào)學(xué)報(bào),2019,38(3):322-334

      [2]趙蓉英. 知識(shí)網(wǎng)絡(luò)及其應(yīng)用[M]. 北京: 北京圖書(shū)館出版社,2007: 8-58

      [3]舒剛.企業(yè)知識(shí)管理新熱點(diǎn):知識(shí)網(wǎng)絡(luò)[J]:科技創(chuàng)業(yè)月刊,2008, 21(9): 14-15

      [4]Sharda R, Frankwick G L, Turetken O. Group knowledge networks:A framework and an implementation[J]. Information SystemsFrontiers, 1999, 1(3): 221-239

      [5]趙蓉英. 知識(shí)網(wǎng)絡(luò)研究(Ⅱ)——知識(shí)網(wǎng)絡(luò)的概念、內(nèi)涵和特征[J]. 情報(bào)學(xué)報(bào), 2007, 26(3): 470-476

      [6]柯平, 宮平. 數(shù)字人文研究演化路徑與熱點(diǎn)領(lǐng)域分析[J]. 中國(guó)圖書(shū)館學(xué)報(bào), 2016, 42(6): 13-30

      [7]高瑾. 數(shù)字人文學(xué)科結(jié)構(gòu)研究的回顧與探索[J]. 圖書(shū)館論壇, 2017, 37(1): 1-9

      [8]朱娜. 數(shù)字人文的興起及圖書(shū)館的角色[J]. 圖書(shū)館, 2016(12): 17-22+48

      [9]Fay E, Nyhan J. Webbs on the Web: libraries, digital humanities and collaboration[J]. Library review, 2015,64(1/2):118-134

      [10]黃鈺新, 王遠(yuǎn)智. 嵌入數(shù)字人文過(guò)程的圖書(shū)館科研數(shù)據(jù)服務(wù)研究[J]. 情報(bào)資料工作, 2017, 38(6): 84-89

      [11]王新雨. 面向數(shù)字人文的圖書(shū)館知識(shí)服務(wù)模式研究[J]. 圖書(shū)館工作與研究, 2019, 1(8): 71-76

      [12]張?jiān)姴? “數(shù)字人文” 背景下的圖書(shū)館知識(shí)服務(wù)[J]. 晉圖學(xué)刊, 2013 (5): 40-42+53

      [13]周晨. 國(guó)際數(shù)字人文研究特征與知識(shí)結(jié)構(gòu)[J]. 圖書(shū)館論壇, 2017, 37(4): 1-8

      [14]周建新,譚富強(qiáng).數(shù)字人文知識(shí)生產(chǎn)的屬性和分析框架:基于曼海姆知識(shí)社會(huì)學(xué)的考察[J].江海學(xué)刊,2020(5):130-135+255

      [15]Hinton G E . Learning distributed representations of concepts.[C]// Eighth Conference of the CognitiveScience Society,1986:12

      [16]BengioY,SchwenkH,Senecal J S,et al. Neural probabilistic language models[M]//Innovations in Machine Learning.Springer Berlin Heidelberg,2006:137-186

      [17]Mathew J, RadhakrishnanD.An FIR digital filter using one-hot coded residue representation[C]// SignalProcessing Conference, 2000, European.IEEE, 2008:1-4

      [18]MikolovT,ChenK,CorradoG,et al.Efficient Estimation of Word Representations in Vector Space[J].arXivpreprint arXiv:1301.3781,2013

      [19]龔麗娟,王昊,張紫玄,等. Word2Vec對(duì)海關(guān)報(bào)關(guān)商品文本特征降維效果分析[J].數(shù)據(jù)分析與知識(shí)發(fā)現(xiàn),2020(4)(Z1):89-100

      [20]Zheng XQ, Chen HY, Xu TY. Deep learning for Chinese word segmentation and POS tagging[C]// Proceedings of 2013 Conference on Empirical Methods in Natural Language Processing. Seattle, WA, USA. 2013: 647-657

      [21]范并思. 推動(dòng)社科情報(bào)的學(xué)科建設(shè)[J]. 情報(bào)資料工作, 2006(5): 12-14

      [22]張聿忠. 走進(jìn)新世紀(jì)的社科信息理論與實(shí)踐研究: 歷史的回眸與展望[J]. 情報(bào)資料工作, 2000(1):2-6

      [23]劉佳琦,李陽(yáng).基于信息最大化變分自編碼器的孿生神經(jīng)主題模型[J].計(jì)算機(jī)應(yīng)用與軟件,2020,37(9):118-125

      [24]郭奉琦,孟凡榮,王志曉.基于變分自編碼器的謠言立場(chǎng)分類(lèi)算法[J].計(jì)算機(jī)工程,2022,48(2):99-105

      [25]徐紅姣,曾文,張運(yùn)良.基于Word2Vec的論文和專(zhuān)利主題關(guān)聯(lián)演化分析方法研究[J].情報(bào)雜志, 2018, 37(12): 36-42

      [26]聶錦燃,魏蛟龍,唐祖平.基于變分自編碼器的無(wú)監(jiān)督文本風(fēng)格轉(zhuǎn)換[J].中文信息學(xué)報(bào),2020,34(07):79-88

      [27]Sula C A. Digital humanities and libraries: A conceptual model[J]. Journal of Library Administration, 2013, 53(1): 10-26

      [28]陳洪捷.知識(shí)生產(chǎn)模式的轉(zhuǎn)變與博士質(zhì)量的危機(jī)[J].高等教育研究,2010,31(1):57-63

      [29]Terras M. Crowdsourcing in the Digital Humanities[M]// A New Companion to Digital Humanities.John Wiley & Sons, Ltd, 2015:420-438

      [30]賀晨芝,張磊.圖書(shū)館數(shù)字人文眾包項(xiàng)目實(shí)踐[J].圖書(shū)館論壇,2020,40(5):3-9

      [31]戎思淼.量子思維對(duì)大數(shù)據(jù)背景下信息決策新思路的啟示[J].科技進(jìn)步與對(duì)策,2016,33(8):6-10

      (收稿日期:2022-01-13)

      [作者簡(jiǎn)介] 林世華,深圳大學(xué)傳播學(xué)院2019級(jí)博士生;譚富強(qiáng),深圳大學(xué)文化產(chǎn)業(yè)研究院2020級(jí)博士生。

      猜你喜歡
      數(shù)字人文
      數(shù)字人文項(xiàng)目合作平臺(tái)分析
      圖書(shū)館未來(lái)的技術(shù)應(yīng)用與發(fā)展
      數(shù)據(jù)驅(qū)動(dòng)下的高校圖書(shū)館數(shù)字人文服務(wù)研究
      漢傳佛教文化遺產(chǎn)數(shù)字化建設(shè)現(xiàn)狀調(diào)查與特征分析
      數(shù)字人文2011—2016年研究綜述
      數(shù)字人文時(shí)代公共圖書(shū)館經(jīng)典閱讀推廣研究
      數(shù)字人文時(shí)代公共圖書(shū)館經(jīng)典閱讀推廣研究
      數(shù)字人文目標(biāo)下圖書(shū)館信息服務(wù)模式研究
      數(shù)字學(xué)術(shù)與公眾科學(xué):數(shù)字圖書(shū)館新生態(tài)
      跨界與融合:全球視野下的數(shù)字人文
      赫章县| 康平县| 会同县| 安岳县| 综艺| 四子王旗| 义马市| 金塔县| 高邮市| 章丘市| 延安市| 准格尔旗| 普兰县| 冕宁县| 安阳市| 尉犁县| 贡嘎县| 扬州市| 河北省| 海伦市| 德安县| 定兴县| 义马市| 炉霍县| 金湖县| 蚌埠市| 滁州市| 柘城县| 安西县| 宾川县| 临高县| 荣成市| 虎林市| 广平县| 水富县| 綦江县| 增城市| 万荣县| 海南省| 兰西县| 威信县|