劉智鋒 王繼民
關(guān)鍵詞: 社會科學(xué); 數(shù)據(jù)集; 跨學(xué)科; CHARLS; CGSS
DOI:10.3969 / j.issn.1008-0821.2023.09.014
〔中圖分類號〕G203 〔文獻(xiàn)標(biāo)識碼〕A 〔文章編號〕1008-0821 (2023) 09-0165-13
隨著開放獲取運動的不斷興起, 開放科學(xué)得到了科研社區(qū)的廣泛關(guān)注[1] 。開放科學(xué)數(shù)據(jù)作為開放科學(xué)的重要組成部分, 是促進(jìn)科學(xué)數(shù)據(jù)高效利用的重要途徑。早在2018 年, 國務(wù)院辦公廳發(fā)布了《科學(xué)數(shù)據(jù)管理辦法》[2] , 提出促進(jìn)科學(xué)數(shù)據(jù)的開放共享, 以支撐科技創(chuàng)新與社會經(jīng)濟(jì)發(fā)展。學(xué)界圍繞開放科學(xué)數(shù)據(jù)開放共享開展研究, 重點關(guān)注科學(xué)數(shù)據(jù)共享平臺[3] 、開放政策[4] 、影響因素[5] 等方面。
科學(xué)數(shù)據(jù)集開放只是共享的第一步, 數(shù)據(jù)集開放之后如何被學(xué)者利用, 則是科學(xué)數(shù)據(jù)發(fā)揮價值的關(guān)鍵所在, 同時也是理解科學(xué)數(shù)據(jù)開放共享如何促進(jìn)科學(xué)進(jìn)步的途徑。關(guān)于數(shù)據(jù)集的利用, 當(dāng)前圖情領(lǐng)域?qū)W者多數(shù)從數(shù)據(jù)集利用主體出發(fā), 重點關(guān)注數(shù)據(jù)復(fù)用行為特征[6] 及其影響因素[7] ; 也有學(xué)者研究了科學(xué)數(shù)據(jù)集的知識擴(kuò)散[8] ; 卻鮮有研究關(guān)注數(shù)據(jù)集如何被不同學(xué)科領(lǐng)域的學(xué)者利用。數(shù)據(jù)集作為實證研究的基礎(chǔ), 同一數(shù)據(jù)集不僅被本學(xué)科領(lǐng)域的學(xué)者利用, 也可被不同學(xué)科的學(xué)者復(fù)用[9] 。分析數(shù)據(jù)集被哪些學(xué)科使用, 跨學(xué)科性如何、是否存在跨學(xué)科合作社區(qū), 相關(guān)研究的主題以及跨學(xué)科研究如何演化等問題, 有助于理解數(shù)據(jù)集在不同學(xué)科的擴(kuò)散規(guī)律以及數(shù)據(jù)集如何在不同學(xué)科發(fā)揮作用的機制。
隨著數(shù)據(jù)驅(qū)動的研究范式在社會科學(xué)領(lǐng)域不斷盛行, 數(shù)據(jù)集已成為社會科學(xué)領(lǐng)域量化分析的重要基礎(chǔ)[10] , 社會科學(xué)數(shù)據(jù)集的數(shù)量快速增長, 數(shù)據(jù)集的影響力不斷增強。社會科學(xué)數(shù)據(jù)是指人類各類社會系統(tǒng)運行過程中所產(chǎn)生的各類數(shù)據(jù)[11] , 與自然科學(xué)數(shù)據(jù)存在顯著差異。在自然科學(xué)研究中, 實驗等方法獲取的數(shù)據(jù)標(biāo)準(zhǔn)性較好, 如在計算機科學(xué)和生物醫(yī)學(xué)等領(lǐng)域, 基于同一實驗數(shù)據(jù)集, 研究者可以從不同角度或采用不同方法進(jìn)行研究, 從而具有較高的重復(fù)利用率; 相比之下, 社會科學(xué)數(shù)據(jù)主要通過調(diào)查等收集, 數(shù)據(jù)較為主觀, 質(zhì)量參差不齊,且大部分社科數(shù)據(jù)集是研究者根據(jù)自身研究需求進(jìn)行獲取, 盡管存在一些高質(zhì)量數(shù)據(jù)集, 但滿足統(tǒng)一標(biāo)準(zhǔn)的數(shù)據(jù)集相對較少, 數(shù)據(jù)集的共享和重復(fù)利用率較低。為了促進(jìn)社會科學(xué)數(shù)據(jù)集的共享與使用,社會科學(xué)領(lǐng)域?qū)W者不斷推進(jìn)高質(zhì)量的數(shù)據(jù)集建設(shè),如北京大學(xué)牽頭開展了中國健康與養(yǎng)老追蹤調(diào)查,收集一套中國中老年人及其家庭的高質(zhì)量微觀數(shù)據(jù)等, 高質(zhì)量的社科數(shù)據(jù)不斷增加。
以往研究更多聚焦于科學(xué)數(shù)據(jù)集的共享與重復(fù)利用研究[12] , 對社會科學(xué)數(shù)據(jù)集的跨學(xué)科擴(kuò)散研究較少。因此, 本文擬以被廣泛使用的中國健康與養(yǎng)老追蹤調(diào)查(CHARLS)和中國綜合社會調(diào)查(CGSS)兩個社會科學(xué)數(shù)據(jù)集為研究對象, 從數(shù)據(jù)集的跨學(xué)科性測度分析、數(shù)據(jù)集跨學(xué)科合作社區(qū)結(jié)構(gòu)與主題識別以及數(shù)據(jù)集跨學(xué)科合作演化研究3 個方面, 對社會科學(xué)數(shù)據(jù)集的跨學(xué)科性進(jìn)行研究, 以期為促進(jìn)社會科學(xué)數(shù)據(jù)集在不同學(xué)科之間的開放共享、高效利用以及數(shù)據(jù)集的影響力評價等方面提供理論支持。
1相關(guān)研究
1.1科學(xué)數(shù)據(jù)集使用特征研究
科學(xué)數(shù)據(jù)集是描述科學(xué)研究對象、狀態(tài)、條件等因素的數(shù)字、文字和符號[13] , 可以分為調(diào)查數(shù)據(jù)、實驗數(shù)據(jù)、統(tǒng)計數(shù)據(jù)、記錄數(shù)據(jù)等不同類型,對實證研究具有重要研究意義[14] 。以科學(xué)數(shù)據(jù)集作為研究對象, 學(xué)界從不同視角對科學(xué)數(shù)據(jù)集的特征開展了一系列相關(guān)研究。從數(shù)據(jù)生命周期的視角出發(fā), 孟祥保等[15] 分析了教育學(xué)、歷史學(xué)等6 個學(xué)科的數(shù)據(jù)創(chuàng)建主體、數(shù)據(jù)組織、數(shù)據(jù)存儲、數(shù)據(jù)出版以及數(shù)據(jù)引用5 個方面的特征。屈亞杰等[16] 從被引社會科學(xué)數(shù)據(jù)的被引次數(shù)、訪問形式、規(guī)模、時間跨度等不同方面揭示了社會科學(xué)數(shù)據(jù)的引用特點。沈婷婷[17] 以《中國社會科學(xué)》為例, 研究了人文社會學(xué)科學(xué)者的數(shù)據(jù)來源、所用的數(shù)據(jù)類型、方法與工具等。楊寧等[18] 分別從計量分析與內(nèi)容分析兩個視角出發(fā), 分析了生物醫(yī)學(xué)領(lǐng)域數(shù)據(jù)集的使用強度、使用章節(jié)、使用位置等使用特征。戚景琳等[19] 、張瑩等[20] 探索了經(jīng)濟(jì)學(xué)和管理學(xué)領(lǐng)域的科研人員數(shù)據(jù)使用行為特征。Park H[9] 通過科學(xué)數(shù)據(jù)集在不同學(xué)科之間的引用情況, 研究科學(xué)、技術(shù)、工程等理工科的科學(xué)數(shù)據(jù)集跨學(xué)科性。綜上可知, 學(xué)者們主要從使用和引用兩個視角出發(fā), 分析了科學(xué)數(shù)據(jù)集的特征和科研人員的數(shù)據(jù)集復(fù)用行為。然而, 社會科學(xué)數(shù)據(jù)集的跨學(xué)科特性并未得到深入研究。
1.2跨學(xué)科性相關(guān)研究
跨學(xué)科研究, 也被稱為交叉學(xué)科研究, 已被認(rèn)為是人類解決重大科研難題的重要研究范式[21] 。而跨學(xué)科性是跨學(xué)科研究的特征, 如研究的跨學(xué)科分布及跨學(xué)科的廣度、深度等[22] 。關(guān)于跨學(xué)科性的研究, 學(xué)者主要從跨學(xué)科理論研究、跨學(xué)科性測度、跨學(xué)科性的演化等方面展開。在跨學(xué)科性的理論研究方面, 步一等[23] 從知識重組的視角來解構(gòu)跨學(xué)科性。關(guān)于跨學(xué)科性的測度, Stirling A[24] 提出可以從學(xué)科豐富性、學(xué)科均衡性以及學(xué)科差異性3 個維度對跨學(xué)科性進(jìn)行測度, 學(xué)科豐富性表示學(xué)科的種類多少, 學(xué)科均衡性代表的是不同學(xué)科的數(shù)目是否均衡, 而學(xué)科的差異性反映不同學(xué)科之間的差異程度; 后續(xù)學(xué)者采用各種類型的指標(biāo)來衡量這3 個維度, 如不同學(xué)科數(shù)[25] 、信息熵[26] 、基尼系數(shù)[27] 等。在此基礎(chǔ)上, 學(xué)者們通過跨學(xué)科性測度指標(biāo)隨時間的變化來研究跨學(xué)科性的演化, 如Zhao Y 等[28] 分析了COVID-19 相關(guān)研究是否具有越來越高的跨學(xué)科性; 吳小蘭等[29] 從學(xué)科豐富度、均衡度和差異度3 個方面研究了國家自然科學(xué)基金項目發(fā)文的跨學(xué)科演變。
此外, 部分學(xué)者從學(xué)科共現(xiàn)網(wǎng)絡(luò)與跨學(xué)科引用的視角來研究特定學(xué)科領(lǐng)域的跨學(xué)科性。學(xué)科共現(xiàn)網(wǎng)絡(luò)通過不同學(xué)科在同一篇論文共現(xiàn)關(guān)系來構(gòu)建,特定領(lǐng)域論文的學(xué)科共現(xiàn)網(wǎng)絡(luò)可以反映該領(lǐng)域的跨學(xué)科合作結(jié)構(gòu), 從而揭示該領(lǐng)域的跨學(xué)科特征。如Xu X 等[30] 構(gòu)建了7 544篇論文的學(xué)科共現(xiàn)網(wǎng)絡(luò),并對網(wǎng)絡(luò)進(jìn)行分析以揭示精準(zhǔn)醫(yī)學(xué)領(lǐng)域的跨學(xué)科性。Hu J 等[31] 采用大數(shù)據(jù)領(lǐng)域的論文學(xué)科共現(xiàn)網(wǎng)絡(luò)來分析該領(lǐng)域的跨學(xué)科性??鐚W(xué)科引用視角, 通過分析不同學(xué)科之間的引用情況, 以揭示不同學(xué)科之間的跨學(xué)科性以及不同學(xué)科之間的知識流動, 如徐璐等[32] 分析了圖書情報領(lǐng)域期刊的跨學(xué)科引用,來研究期刊在跨學(xué)科交流中所起的作用。施順順[33] 采用Rao-Stirling 多樣性指標(biāo)評估了公共管理學(xué)的跨學(xué)科性。
綜上可知, 當(dāng)前學(xué)者關(guān)于跨學(xué)科性開展了大量的研究, 然而這些研究主要研究特定主題或?qū)W科領(lǐng)域的跨學(xué)科性, 鮮有研究分析基于特定數(shù)據(jù)集的相關(guān)研究的跨學(xué)科性, 因此, 本文擬借鑒以往的相關(guān)研究, 從學(xué)科多樣性和學(xué)科均衡性對數(shù)據(jù)集的跨學(xué)科性進(jìn)行測度, 并從學(xué)科共現(xiàn)網(wǎng)絡(luò)的視角出發(fā)研究基于特定數(shù)據(jù)集的相關(guān)研究的跨學(xué)科合作網(wǎng)絡(luò)結(jié)構(gòu)及其演化規(guī)律。
1.3知識實體擴(kuò)散相關(guān)研究
科學(xué)知識擴(kuò)散是指知識在不同學(xué)者與學(xué)科領(lǐng)域之間的流動, 科學(xué)知識的擴(kuò)散可以促進(jìn)知識的生產(chǎn)與傳播, 從而推動科學(xué)發(fā)展。學(xué)術(shù)論文作為科學(xué)知識的重要載體, 是科學(xué)知識擴(kuò)散研究的重要對象。以往研究通常從引文分析的視角來探討論文的擴(kuò)散模式與規(guī)律。如閔超等[34] 將引文視作知識擴(kuò)散的過程, 并從多個維度分析了引文擴(kuò)散的要素與過程。也有研究針對經(jīng)典論文(如諾貝爾獎獲獎?wù)撐模郏常担莺椭鳎ㄈ纭督Y(jié)構(gòu)洞: 競爭的社會結(jié)構(gòu)》)[36] 等, 揭示其引文擴(kuò)散模式。同時, 部分學(xué)者關(guān)注引文擴(kuò)散的影響因素[37-38] , 揭示知識擴(kuò)散的內(nèi)在機制。此外, 有研究從全文引文的視角出發(fā), 研究跨學(xué)科知識擴(kuò)散的特征[39] ??梢?, 基于學(xué)術(shù)論文的引文分析, 可以深入了解知識擴(kuò)散的模式和規(guī)律。
近年來, 隨著學(xué)術(shù)論文的全文開放獲取的增加以及自然語言處理技術(shù)的快速發(fā)展, 學(xué)者們開始深入研究全文內(nèi)容, 采用深度學(xué)習(xí)等方法抽取論文中的知識實體, 如問題、算法、理論、數(shù)據(jù)集和軟件等[40] , 使細(xì)粒度知識實體的擴(kuò)散研究得以實現(xiàn)。如有研究者分析了論文中LDA 算法的擴(kuò)散渠道及其模式[41] 。也有學(xué)者研究了CiteSpace 等科學(xué)計量相關(guān)軟件在不同學(xué)科的使用情況[42-43] 。此外, 部分學(xué)者探究了數(shù)據(jù)集實體的擴(kuò)散和使用情況, 如楊寧等[8] 抽取了PubMed Central 全文中使用的基因表達(dá)相關(guān)數(shù)據(jù)集, 并從科學(xué)數(shù)據(jù)集擴(kuò)散廣度和強度等方面揭示了擴(kuò)散特征。Hou J 等[44] 研究了數(shù)據(jù)集在Twitter 上的傳播方式, 以及學(xué)者和大眾在傳播過程中扮演的角色。此外, Jiao C 等[45] 探究了PLOS ONE論文中用于分享研究數(shù)據(jù)的機制和存儲庫。綜上所述, 已有部分學(xué)者研究了各種類型知識實體, 如科學(xué)數(shù)據(jù)集、算法等的擴(kuò)散特征與規(guī)律。然而, 當(dāng)前關(guān)于高質(zhì)量社會科學(xué)數(shù)據(jù)集在不同學(xué)科的擴(kuò)散規(guī)律尚未得到深入研究。因此, 本研究將從社會科學(xué)數(shù)據(jù)集的跨學(xué)科視角出發(fā), 探究其在不同學(xué)科的擴(kuò)散。
2數(shù)據(jù)與方法
本文提出的社會科學(xué)數(shù)據(jù)集跨學(xué)科性研究框架如圖1 所示。該研究框架一共包含3 個模塊, 分別是數(shù)據(jù)收集與跨學(xué)科性測度分析、數(shù)據(jù)集跨學(xué)科合作社區(qū)結(jié)構(gòu)與主題識別以及數(shù)據(jù)集跨學(xué)科合作演化研究。首先, 采集使用特定數(shù)據(jù)集的文獻(xiàn)集, 提取發(fā)表時間、標(biāo)題、摘要、學(xué)科分類等字段, 采用信息熵、不同學(xué)科數(shù)等指標(biāo)對跨學(xué)科性進(jìn)行測度; 其次, 構(gòu)建跨學(xué)科合作網(wǎng)絡(luò), 并采用Louvain 算法對網(wǎng)絡(luò)進(jìn)行聚類, 識別數(shù)據(jù)集跨學(xué)科合作社區(qū), 采用BERTopic 主題模型, 提取不同學(xué)科潛在的合作研究主題; 最后, 劃分不同的時間窗口, 構(gòu)建不同時間窗口的數(shù)據(jù)集跨學(xué)科合作網(wǎng)絡(luò), 觀測網(wǎng)絡(luò)結(jié)構(gòu)特征指標(biāo)變化, 分析網(wǎng)絡(luò)演化特征。
2.1數(shù)據(jù)來源
本文以中國健康與養(yǎng)老追蹤調(diào)查(CHARLS)和中國綜合社會調(diào)查(CGSS)兩個數(shù)據(jù)集為例, 中國健康與養(yǎng)老追蹤調(diào)查數(shù)據(jù)集是由北京大學(xué)牽頭采集的關(guān)于中國45 歲及以上中老年個人及家庭的微觀數(shù)據(jù), 廣泛應(yīng)用于人口老齡化等跨學(xué)科研究; 中國綜合社會調(diào)查是我國最早的全國性、綜合性學(xué)術(shù)調(diào)查項目, 全面采集了個人、家庭、社區(qū)和社會各個層面的數(shù)據(jù), 是研究中國社會的最重要數(shù)據(jù)來源之一。因此, CHARLS 和CGSS 數(shù)據(jù)集均具有較好的代表性。CHARLS 數(shù)據(jù)和CGSS 數(shù)據(jù)在社會科學(xué)領(lǐng)域得到了廣泛地使用, 產(chǎn)生了許多在國際期刊發(fā)表的高質(zhì)量成果; 本研究擬以使用CHARLS 數(shù)據(jù)和CGSS 數(shù)據(jù)的英文論文為研究對象, 分析社會科學(xué)數(shù)據(jù)集的跨學(xué)科性。
為了獲取使用CHARLS 數(shù)據(jù)和CGSS 數(shù)據(jù)的英文論文, 本文分別采用數(shù)據(jù)集的英文全稱與簡寫等構(gòu)造檢索式TS=(“China Health and Retirement Lon?gitudinal Study” OR “ China Health and RetirementLongitudinal Studies” OR “Chinese Health and Retire?ment Longitudinal Study” OR “ Chinese Health andRetirement Longitudinal Studies” OR CHARLS)和TS=(“Chinese General Social Survey” OR “China GeneralSocial Survey” OR “Chinese Social Survey” OR “ChinaSocial Survey” OR (CGSS AND Survey)), 在Web ofScience 核心合集中進(jìn)行檢索, 時間限制為2013—2021 年, 文獻(xiàn)類型限制為Article, 檢索時間為2022年7 月16 日, 剔除少數(shù)非目標(biāo)文獻(xiàn), 最終得到使用CHARLS 數(shù)據(jù)集的論文數(shù)為790 篇, 使用CGSS 數(shù)據(jù)集的論文數(shù)為328 篇, 論文的時間分布如圖2(a)所示, 可知使用CHARLS 數(shù)據(jù)集和CGSS 數(shù)據(jù)集的英文論文在2013—2016 年較為穩(wěn)定, 而在2016—2021年呈現(xiàn)較快的增長趨勢, 表明以中國數(shù)據(jù)集為基礎(chǔ)的研究在國際期刊上得到了廣泛的認(rèn)可。
2.2研究方法
2.2.1跨學(xué)科性測度
本文的學(xué)科分類采用Web of Science 學(xué)科分類體系, 該分類體系一共包含252 個不同的學(xué)科[46] ,一篇論文可屬于1 個或多個不同的學(xué)科。借鑒以往的相關(guān)研究, 本文從多樣性和平衡性兩個方面對社會科學(xué)數(shù)據(jù)集的跨學(xué)科性進(jìn)行測度。多樣性指的是使用數(shù)據(jù)集的學(xué)科的數(shù)量, 本文采用不同的學(xué)科數(shù)表示使用CHARLS 和CGSS 數(shù)據(jù)集的學(xué)科多樣性;平衡性指的是使用數(shù)據(jù)集的學(xué)科數(shù)量的均衡程度,本文采用信息熵來計算使用CHARLS 和CGSS 數(shù)據(jù)集的學(xué)科平衡性。
2.2.2社會網(wǎng)絡(luò)分析
社會網(wǎng)絡(luò)分析已被廣泛應(yīng)用于揭示特定學(xué)科領(lǐng)域的知識結(jié)構(gòu)[47] 。本文借鑒以往的研究, 采用社會網(wǎng)絡(luò)分析揭示CHARLS 和CGSS 數(shù)據(jù)集的跨學(xué)科合作網(wǎng)絡(luò)結(jié)構(gòu)及其演化特征。首先, 基于論文所屬的學(xué)科共現(xiàn)關(guān)系, 構(gòu)建學(xué)科共現(xiàn)網(wǎng)絡(luò), 其中, 學(xué)科共現(xiàn)網(wǎng)絡(luò)的節(jié)點代表特定學(xué)科, 邊代表兩個學(xué)科在一篇論文中同時出現(xiàn), 邊的粗細(xì)代表兩個學(xué)科的共現(xiàn)強度。網(wǎng)絡(luò)的節(jié)點數(shù)可以反映使用特定數(shù)據(jù)集的不同學(xué)科數(shù); 網(wǎng)絡(luò)的邊數(shù)代表不同學(xué)科對數(shù); 網(wǎng)絡(luò)的密度為當(dāng)前邊數(shù)與理論最大邊數(shù)的比值, 反映網(wǎng)絡(luò)的稀疏程度。Louvain 社區(qū)發(fā)現(xiàn)算法是社會網(wǎng)絡(luò)常用的聚類方法[48] , 本文采用Louvain 算法[49] 對CHARLS 和CGSS 數(shù)據(jù)集的跨學(xué)科合作網(wǎng)絡(luò)進(jìn)行社區(qū)探測, 以發(fā)現(xiàn)CHARLS 和CGSS 數(shù)據(jù)集的跨學(xué)科合作社群。
2.2.3 BERTopic
BERTopic 是由Grootendorst M[50] 于2022 年提出的一種基于Transformer 語言模型的主題建模方法, 該方法基于預(yù)訓(xùn)練語言模型進(jìn)行動態(tài)的嵌入表示, 可以更好地對文檔進(jìn)行語義表示, 還可以自動生成特定的主題, 避免了主題數(shù)的設(shè)定, 相對以往的LDA 主題建模和Top2vec 方法均具有更好的效果。因此, 本文擬采用BERTopic 對使用CHARLS 和CGSS 數(shù)據(jù)集的論文進(jìn)行主題識別, 以揭示潛在的跨學(xué)科合作主題。
BERTopic 算法包含4 個主要模塊, 首先采用預(yù)訓(xùn)練語言模型對每個文檔進(jìn)行嵌入表示, 然后對獲取的文檔向量表示進(jìn)行降維處理, 接著采用聚類算法對文檔進(jìn)行聚類, 最后對同類的文檔進(jìn)行合并, 并采用基于類別的c-TF-IDF 算法提取同類別中的重要關(guān)鍵詞以表征該類別的主題。其中, 各個模塊是相對獨立的, 不同的模塊可以選取不同的算法進(jìn)行組合, 本文使用官方推薦的組合方案, 選?。樱澹睿簦澹睿悖澹簦颍幔睿螅妫铮颍恚澹?的All-MiniLM-L6-v2 版本作為文檔的詞嵌入模型, 首先采用UMAP 對高維向量進(jìn)行降維, 然后采?。龋模拢樱茫粒?聚類算法[51] 對文檔進(jìn)行聚類, 最后采?。悖裕疲桑模?算法進(jìn)行主題提取。
3結(jié)果與分析
3.1 CHARLS 和CGSS數(shù)據(jù)集的學(xué)科分布
CHARLS 數(shù)據(jù)和CGSS 數(shù)據(jù)作為跨學(xué)科的數(shù)據(jù)集, 分別被74 個和58 個不同的學(xué)科所使用, 論文篇均學(xué)科數(shù)分別為1.54 和1. 53 個。學(xué)科頻次和不同學(xué)科數(shù)隨時間的變化如圖2(b)和圖2(c)所示,可知使用CHARLS 和CGSS 數(shù)據(jù)集的學(xué)科不斷增加。進(jìn)一步, 采用信息熵度量學(xué)科的均衡性, 由圖2(d)可知, 隨著時間的推移, 信息熵不斷增大, 使用CHARLS 和CGSS 數(shù)據(jù)集的學(xué)科分布越來越均衡。
根據(jù)各個學(xué)科使用數(shù)據(jù)集的頻次, 可將使用CHARLS 和CGSS 數(shù)據(jù)集的學(xué)科分為核心、主要和邊緣3 類。核心學(xué)科為使用數(shù)據(jù)集的論文數(shù)30 篇以上, 主要學(xué)科為使用數(shù)據(jù)集的論文數(shù)10 篇以上,邊緣學(xué)科為使用數(shù)據(jù)集的論文數(shù)小于10 篇?;诖?, 可得使用CHARLS 數(shù)據(jù)集的核心學(xué)科有11 個,主要學(xué)科有14 個, 邊緣學(xué)科有49 個; 使用CGSS 數(shù)據(jù)集的核心學(xué)科有6 個, 主要學(xué)科有8 個, 邊緣學(xué)科有44 個。CHARLS 數(shù)據(jù)集涉及的3 類學(xué)科數(shù)多于CGSS 數(shù)據(jù)集涉及的學(xué)科數(shù)。具體而言, 使用CHARLS 數(shù)據(jù)集和CGSS 數(shù)據(jù)集的核心學(xué)科如表1所示, CHARLS 數(shù)據(jù)的核心學(xué)科主要與公共衛(wèi)生、老年學(xué)、環(huán)境科學(xué)、經(jīng)濟(jì)學(xué)、健康政策與服務(wù)等相關(guān)。而CGSS 數(shù)據(jù)的核心學(xué)科主要與社會學(xué)、經(jīng)濟(jì)學(xué)、公共衛(wèi)生以及環(huán)境研究相關(guān)。
3.2 CHARLS 和CGSS 數(shù)據(jù)集的跨學(xué)科合作社區(qū)探測
跨學(xué)科合作網(wǎng)絡(luò)可以刻畫出使用數(shù)據(jù)集的相關(guān)學(xué)科以及學(xué)科之間的合作關(guān)系。圖3(a)和圖3(b)分別是CHARLS 和CGSS 數(shù)據(jù)集的跨學(xué)科合作網(wǎng)絡(luò), 節(jié)點代表學(xué)科, 邊代表學(xué)科的共現(xiàn)關(guān)系, 邊的粗細(xì)代表學(xué)科共現(xiàn)的頻次。具體而言, CHARLS 數(shù)據(jù)集跨學(xué)科合作網(wǎng)絡(luò)包含64 個節(jié)點, 107 條不同的邊, 平均度為3.344, 網(wǎng)絡(luò)密度為0. 053; CGSS數(shù)據(jù)集學(xué)科合作網(wǎng)絡(luò)的節(jié)點包含54 個節(jié)點, 形成76 條不同的邊, 平均度為2.815, 網(wǎng)絡(luò)密度為0.053。CHARLS 和CGSS 數(shù)據(jù)集跨學(xué)科合作網(wǎng)絡(luò)度排名前十的學(xué)科如表2 所示, 通過學(xué)科的度的大小可以揭示學(xué)科的重要程度。
在此基礎(chǔ)上, 本研究采用Louvain 算法分別對CHARLS 和CGSS 數(shù)據(jù)集的跨學(xué)科合作網(wǎng)絡(luò)進(jìn)行聚類分析, 如圖3 所示, 節(jié)點大小表示節(jié)點的度, 相同顏色的節(jié)點屬于同一個社區(qū); 可以發(fā)現(xiàn), 使用CHARLS 數(shù)據(jù)集存在7 個跨學(xué)科協(xié)作社區(qū), 形成了以老年醫(yī)學(xué)、環(huán)境衛(wèi)生與職業(yè)健康以及健康經(jīng)濟(jì)與衛(wèi)生服務(wù)為主的三大研究社區(qū); 使用CGSS 數(shù)據(jù)集的研究社區(qū)較為分散, 存在10 個不同的跨學(xué)科協(xié)作社區(qū), 形成了以經(jīng)濟(jì)學(xué)、社會學(xué)以及環(huán)境科學(xué)為主的三大研究社區(qū)。
3.3 CHARLS 和CGSS 數(shù)據(jù)集的跨學(xué)科合作主題識別
識別基于CHARLS 和CGSS 數(shù)據(jù)集的研究主題, 可以發(fā)現(xiàn)不同學(xué)科潛在的合作方向。本文采用BERTopic 模型分別對使用CHARLS 和CGSS 數(shù)據(jù)集的論文主題進(jìn)行識別, 共識別出使用CHARLS數(shù)據(jù)集的論文研究主題19 個, 圖4 表示了其中的8 個主題排名前5 的特征詞, 結(jié)合相關(guān)文獻(xiàn)可知,CHARLS 數(shù)據(jù)集是關(guān)于中國老年的微觀調(diào)查數(shù)據(jù),使用CHARLS 數(shù)據(jù)集的研究主要圍繞老年人的抑郁狀況、醫(yī)療保險、睡眠狀況、高血壓狀況、家庭經(jīng)濟(jì)支出、空氣污染、吸煙行為、能源消費等影響因素及其之間的相互作用機制等展開, 受到社會學(xué)、經(jīng)濟(jì)學(xué)、環(huán)境科學(xué)、公共衛(wèi)生等學(xué)科領(lǐng)域?qū)W者的關(guān)注, 也是后續(xù)可以進(jìn)一步合作的學(xué)科交叉點。
基于同樣的方法, 共識別出使用CGSS 數(shù)據(jù)集的論文研究主題10 個, 圖5 展示了其中8 個主題排名前5 的特征詞, 結(jié)合使用CGSS 數(shù)據(jù)集的相關(guān)論文, 可得研究主題主要包含環(huán)境行為與能源消費、員工工作滿意度、居民幸福感、婚姻與家庭、互聯(lián)網(wǎng)使用、政治民主與信任、教育支出與回報、區(qū)域差異等, 主要涉及的學(xué)科有社會學(xué)、經(jīng)濟(jì)學(xué)、政治學(xué)、教育學(xué)、環(huán)境科學(xué)等, 不同學(xué)科領(lǐng)域的學(xué)者可以基于CGSS 數(shù)據(jù)集, 同時引入外部數(shù)據(jù)集等, 開展更多的跨學(xué)科合作研究。
對基于CHARLS和CGSS數(shù)據(jù)集研究的主題進(jìn)行可視化, 圖6為研究主題的可視化圖譜, 每個圓圈代表一個研究主題, 圓圈的大小代表該主題相關(guān)文檔的出現(xiàn)頻率, 越大代表出現(xiàn)的頻率越高, 不同圓圈的距離代表主題之間的相似度, 通過對不同主題及其之間的關(guān)系進(jìn)行可視化, 可以揭示主題的結(jié)構(gòu)特征。由圖6可知, 使用CHARLS 數(shù)據(jù)集的研究主題可以分為6 個不同的簇, 不同學(xué)科合作或關(guān)注的主題較為集中; 而基于CGSS 數(shù)據(jù)集的相關(guān)研究主題的結(jié)構(gòu)較為分散; 造成兩者差異的可能原因是, CHARLS 數(shù)據(jù)集的主要調(diào)查對象為中老年, 數(shù)據(jù)收集的范圍以及所包含的信息量較為有限, 而CGSS 是一個綜合性的數(shù)據(jù)集, 數(shù)據(jù)包含的范圍較為廣泛, 可以開展關(guān)于中國社會不同方面與層面的研究。
3.4 CHARLS 和CGSS數(shù)據(jù)集的跨學(xué)科研究演化分析
使用CHARLS 和CGSS 數(shù)據(jù)集的論文數(shù)在2013—2015 年較為穩(wěn)定, 在2016—2018 年實現(xiàn)了一定程度的增長, 2019—2021 年呈現(xiàn)快速增長的趨勢, 基于此將時間窗口劃分為3 段。本文首先統(tǒng)計了2013—2015 年、2016—2018 年以及2019—2021年3 個時間段使用CHARLS 和CGSS 數(shù)據(jù)集的相關(guān)學(xué)科頻次的變化以反映學(xué)科的演化情況。其中, 3個階段使用CHARLS 數(shù)據(jù)集學(xué)科頻次前5 的學(xué)科如表3所示。第二階段即2016—2018 年使用CHARLS 數(shù)據(jù)集的學(xué)科除了社會與醫(yī)學(xué)相關(guān)的學(xué)科, 經(jīng)濟(jì)學(xué)和環(huán)境科學(xué)等學(xué)科使用該數(shù)據(jù)集的頻次不斷增加, 并進(jìn)入前5; 到第三個時間段, 環(huán)境科學(xué)使用該數(shù)據(jù)集的頻次進(jìn)一步提升, 其他學(xué)科相對穩(wěn)定。
3 個階段使用CGSS 數(shù)據(jù)集學(xué)科頻次前5 的學(xué)科如表4 所示, 在第一階段使用CGSS 數(shù)據(jù)集的學(xué)科主要有社會學(xué)、政治學(xué)、教育學(xué)以及經(jīng)濟(jì)學(xué); 第二階段經(jīng)濟(jì)學(xué)使用CGSS 數(shù)據(jù)集的頻次快速提升,位居第一, 公共衛(wèi)生與環(huán)境相關(guān)學(xué)科亦較多使用該數(shù)據(jù)集; 第三階段則以環(huán)境科學(xué)相關(guān)學(xué)者使用該數(shù)據(jù)集居多。
分別構(gòu)建CHARLS 和CGSS 數(shù)據(jù)集在3 個時間窗口的跨學(xué)科合作網(wǎng)絡(luò), 以揭示跨學(xué)科合作網(wǎng)絡(luò)的演化特征。CHARLS 和CGSS 數(shù)據(jù)集3 個不同階段的跨學(xué)科合作網(wǎng)絡(luò)節(jié)點數(shù)、邊數(shù)、密度以及社區(qū)數(shù)等指標(biāo)的變化如圖7 所示。由圖7 可知, 3 個階段的跨學(xué)科合作網(wǎng)絡(luò)的節(jié)點數(shù)和邊數(shù)都在不斷增長,反映了使用CHARLS 和CGSS 數(shù)據(jù)集的相關(guān)學(xué)科以及不同學(xué)科之間的合作不斷加強; 由于網(wǎng)絡(luò)節(jié)點數(shù)增長較快, 導(dǎo)致跨學(xué)科合作網(wǎng)絡(luò)的密度有所下降,表明不同學(xué)科之間的合作存在較大的空間; 此外,相關(guān)的研究社區(qū)數(shù)也呈現(xiàn)增長的趨勢, 表明CHARLS 和CGSS 數(shù)據(jù)集的研究社區(qū)不斷興起。
CHARLS 和CGSS 數(shù)據(jù)集3 個階段的跨學(xué)科合作網(wǎng)絡(luò)結(jié)構(gòu)如圖8 和圖9 所示, 采用Louvain 算法分別對不同階段的網(wǎng)絡(luò)進(jìn)行聚類分析。對比圖8(a) ~(c)可知, CHARLS 數(shù)據(jù)集的跨學(xué)科合作網(wǎng)絡(luò)不斷擴(kuò)張, 2013—2015 年以老年學(xué)相關(guān)學(xué)科為研究主導(dǎo); 2016—2018 年, 形成了經(jīng)濟(jì)學(xué)、老年學(xué)以及公共衛(wèi)生與職業(yè)健康三足鼎立的學(xué)科格局;2019—2021 年, 延續(xù)了上一階段的學(xué)科格局, 且3個不同學(xué)科主導(dǎo)的網(wǎng)絡(luò)不斷充實, 越來越多學(xué)科參與合作。對比圖9(a) ~ (c), 可知, CGSS 數(shù)據(jù)集的跨學(xué)科合作網(wǎng)絡(luò)不斷擴(kuò)張, 在第一階段以社會學(xué)和政治學(xué)相關(guān)學(xué)科為主; 第二階段, 則以社會學(xué)、經(jīng)濟(jì)學(xué)和環(huán)境科學(xué)相關(guān)學(xué)科為主; 第三階段, 仍以社會學(xué)、經(jīng)濟(jì)學(xué)和環(huán)境科學(xué)等學(xué)科為主, 且計算機科學(xué)、健康政策與服務(wù)等一批新的學(xué)科不斷加入。
4結(jié)論與討論
隨著數(shù)據(jù)驅(qū)動的研究范式在社會科學(xué)中不斷盛行, 數(shù)據(jù)集已成為社會科學(xué)研究的重要戰(zhàn)略資源。社會科學(xué)數(shù)據(jù)集為社會科學(xué)領(lǐng)域各個學(xué)科的實證研究提供了重要基礎(chǔ)。同一社會科學(xué)數(shù)據(jù)集可被不同學(xué)科用于相關(guān)領(lǐng)域的研究問題, 不同的學(xué)科也可基于特定的數(shù)據(jù)集進(jìn)行合作研究, 社會科學(xué)數(shù)據(jù)集已成為學(xué)科交叉的重要載體和機制之一。通過分析社會科學(xué)數(shù)據(jù)集的跨學(xué)科性, 可以促進(jìn)數(shù)據(jù)集在不同學(xué)科間的開放共享, 并推動基于數(shù)據(jù)集的跨學(xué)科研究。
本文提出了一個針對社會科學(xué)數(shù)據(jù)集的跨學(xué)科性研究框架, 并以社會科學(xué)領(lǐng)域具有代表性的CHARLS 和CGSS 數(shù)據(jù)集為例。首先, 采用信息熵和不同學(xué)科數(shù)等指標(biāo)對數(shù)據(jù)集的跨學(xué)科多樣性和平衡性進(jìn)行測度, 以揭示使用CHARLS 和CGSS 數(shù)據(jù)集的學(xué)科分布及其變化趨勢。其次, 構(gòu)建了數(shù)據(jù)集的跨學(xué)科合作網(wǎng)絡(luò), 并采用Louvain 算法和BER?Topic 模型對網(wǎng)絡(luò)結(jié)構(gòu)和主題進(jìn)行了分析, 發(fā)現(xiàn)不同學(xué)科之間的合作社區(qū)和潛在的研究主題。最后,通過劃分不同時間窗口, 可以觀察數(shù)據(jù)集跨學(xué)科合作網(wǎng)絡(luò)的演化特征, 從而揭示不同階段的主導(dǎo)學(xué)科和合作模式。
在數(shù)據(jù)集跨學(xué)科性特征方面,研究發(fā)現(xiàn)CHARLS和CGSS 分別在74 個和58 個不同學(xué)科得到了廣泛的應(yīng)用, 其學(xué)科多樣性和平衡性在不斷增長。除社會學(xué)外, 還在公共衛(wèi)生、環(huán)境科學(xué)、經(jīng)濟(jì)學(xué)等不同學(xué)科被使用, 表明這兩個數(shù)據(jù)集在各學(xué)科之間具有較強的擴(kuò)散能力和影響力。因此, 學(xué)者在選擇數(shù)據(jù)集時, 不應(yīng)局限于本學(xué)科領(lǐng)域, 可以根據(jù)研究問題的需求, 從其他學(xué)科獲取相應(yīng)的數(shù)據(jù)集。關(guān)于數(shù)據(jù)集跨學(xué)科合作社區(qū)的分布,結(jié)果表明使用CHARLS和CGSS 數(shù)據(jù)集均呈現(xiàn)以少數(shù)跨學(xué)科合作社區(qū)為主導(dǎo)的格局, 使用CHARLS 數(shù)據(jù)集的學(xué)科形成了以老年醫(yī)學(xué)、環(huán)境衛(wèi)生與職業(yè)健康以及健康經(jīng)濟(jì)與衛(wèi)生服務(wù)為主的三大研究社區(qū); 使用CGSS 數(shù)據(jù)集的研究社區(qū)較為分散, 形成了以經(jīng)濟(jì)學(xué)、社會學(xué)以及環(huán)境科學(xué)為主的三大研究社區(qū)。可見, 除了以研究問題為中心構(gòu)建跨學(xué)科合作社區(qū), 還可以研究數(shù)據(jù)集為紐帶, 促進(jìn)多個學(xué)科之間的合作。
在數(shù)據(jù)集跨學(xué)科合作主題方面, 使用CHARLS的研究主題達(dá)到19 個, 圍繞老年人的抑郁狀況、醫(yī)療保險、睡眠狀況、高血壓狀況、家庭經(jīng)濟(jì)支出等多個主題展開。采用CGSS 數(shù)據(jù)集進(jìn)行的研究主題有10 個, 包含環(huán)境行為與能源消費、員工工作滿意度、教育支出與回報等多個主題。然而, CHARLS的研究主題相對較為集中, CGSS 的則較為分散,可能由于CGSS 作為綜合性數(shù)據(jù)集, 調(diào)查對象更為多樣化, 數(shù)據(jù)項更加豐富, 從而研究問題分布較為廣泛。關(guān)于跨學(xué)科演化分析, 研究發(fā)現(xiàn)CHARLS 和CGSS 數(shù)據(jù)集跨學(xué)科合作網(wǎng)絡(luò)的節(jié)點數(shù)、邊數(shù)、社區(qū)數(shù)隨著時間在不斷增長, 表明不斷有學(xué)科使用這兩個數(shù)據(jù)集, 且形成了新的跨學(xué)科合作社區(qū)。
本文從新的視角探討了社會科學(xué)數(shù)據(jù)集的跨學(xué)科性, 為理解數(shù)據(jù)集在不同學(xué)科間的開放共享和高效利用提供了新的思路和方法, 對于促進(jìn)社會科學(xué)數(shù)據(jù)集在各學(xué)科間的擴(kuò)散以及數(shù)據(jù)集的評價具有一定的理論與實踐意義。在理論意義方面, 本文為數(shù)據(jù)集的跨學(xué)科研究提供了一個較為完整的框架, 后續(xù)可以在此基礎(chǔ)上研究不同數(shù)據(jù)集的跨學(xué)科性。此外, 還為評價社會科學(xué)數(shù)據(jù)集的質(zhì)量和影響力提供了新的指標(biāo)和方法, 有助于后續(xù)從數(shù)據(jù)集的跨學(xué)科性視角對數(shù)據(jù)集進(jìn)行評價; 在實踐意義方面, 本文揭示了CHARLS 和CGSS 數(shù)據(jù)集的使用學(xué)科分布、潛在的研究主題以及潛在的合作學(xué)科, 為相關(guān)研究人員提供了啟示和借鑒。同時, 也為數(shù)據(jù)集建設(shè)者和管理者如何促進(jìn)數(shù)據(jù)集在不同學(xué)科之間的擴(kuò)散提供參考依據(jù)。
本研究存在一定的不足之處。首先, 本文的數(shù)據(jù)集來源于Web of Science 核心合集, 主要分析了使用CHARLS 和CGSS 數(shù)據(jù)集的英文文獻(xiàn)集。在后續(xù)研究中, 可以納入使用CHARLS 和CGSS 數(shù)據(jù)集的中文文獻(xiàn)集作為研究數(shù)據(jù)源的補充, 并對使用CHARLS 和CGSS 數(shù)據(jù)集的中英文文獻(xiàn)集的跨學(xué)科性進(jìn)行對比分析。其次, 未來的研究可以進(jìn)一步探索社會科學(xué)數(shù)據(jù)集和自然科學(xué)數(shù)據(jù)集在擴(kuò)散特征和模式方面的差異, 以期更好地理解數(shù)據(jù)在不同學(xué)科間的擴(kuò)散和應(yīng)用規(guī)律, 為各領(lǐng)域數(shù)據(jù)集的開放共享與利用提供有益的啟示。