• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      數(shù)據(jù)科學(xué)研究在社會(huì)科學(xué)中的應(yīng)用前景

      2018-11-28 09:36:42章昌平米加寧李大宇
      社會(huì)科學(xué) 2018年9期
      關(guān)鍵詞:研究范式知識(shí)圖譜社會(huì)科學(xué)

      章昌平 米加寧 李大宇

      摘要:在網(wǎng)絡(luò)化、信息化不斷深化,大數(shù)據(jù)滲透到整個(gè)世界的背景下,我們以WOK平臺(tái)核心合集為數(shù)據(jù)來(lái)源,采用文獻(xiàn)計(jì)量和知識(shí)圖譜分析方法,梳理了數(shù)據(jù)科學(xué)研究的總體態(tài)勢(shì)、演化進(jìn)程、發(fā)展現(xiàn)狀、研究結(jié)構(gòu)及與其他學(xué)科之間交叉、滲透的關(guān)系。在此基礎(chǔ)上,結(jié)合數(shù)據(jù)科學(xué)交叉學(xué)科特性和在社會(huì)科學(xué)領(lǐng)域應(yīng)用取得的成果,我們認(rèn)為數(shù)據(jù)科學(xué)對(duì)社會(huì)科學(xué)研究轉(zhuǎn)型的作用機(jī)制及應(yīng)用前景主要表現(xiàn)在六個(gè)方面:(1)為解決目前社會(huì)科學(xué)研究存在的問(wèn)題提供可能,(2)對(duì)社會(huì)科學(xué)認(rèn)知體系產(chǎn)生結(jié)構(gòu)性的影響,(3)構(gòu)建社會(huì)科學(xué)全新的研究路徑,(4)社會(huì)科學(xué)研究轉(zhuǎn)向跨學(xué)科的事件導(dǎo)向建構(gòu)方法,(5)實(shí)現(xiàn)對(duì)真實(shí)世界的多路徑“涌現(xiàn)”,(6)為我國(guó)社會(huì)科學(xué)發(fā)展提供重要機(jī)遇。在此過(guò)程中,我們應(yīng)當(dāng)處理好交叉學(xué)科研究、辯證看待大數(shù)據(jù)、建立風(fēng)險(xiǎn)意識(shí)、處理好大數(shù)據(jù)與小數(shù)據(jù)的關(guān)系、構(gòu)建新的研究技能與團(tuán)隊(duì)合作及促進(jìn)政府?dāng)?shù)據(jù)開(kāi)放和建設(shè)數(shù)據(jù)科學(xué)基礎(chǔ)設(shè)施等問(wèn)題。

      關(guān)鍵詞:數(shù)據(jù)科學(xué);社會(huì)科學(xué);研究范式;知識(shí)圖譜

      中圖分類號(hào):C0; TP311.13文獻(xiàn)標(biāo)識(shí)碼:A文章編號(hào):0257-5833(2018)09-0078-11

      作者簡(jiǎn)介:章昌平,桂林理工大學(xué)公共管理與傳媒學(xué)院副教授、哈爾濱工業(yè)大學(xué)管理學(xué)院博士研究生;米加寧,哈爾濱工業(yè)大學(xué)管理學(xué)院教授;李大宇,哈爾濱商業(yè)大學(xué)財(cái)政與公共管理學(xué)院講師(廣西桂林541004)

      一、問(wèn)題的提出

      人類社會(huì)正在快速進(jìn)入大數(shù)據(jù)時(shí)代。數(shù)據(jù)開(kāi)始滲透并充斥著整個(gè)世界,成為重要的生產(chǎn)要素和戰(zhàn)略資源。數(shù)據(jù)科學(xué)也越來(lái)越受到人們的重視。然而,目前對(duì)數(shù)據(jù)科學(xué)的綜述卻不盡如人意,一方面偏向歷史演進(jìn)的總結(jié)和研究現(xiàn)狀中期刊、作者的展示,另一方面偏向具體應(yīng)用領(lǐng)域。同時(shí),關(guān)于數(shù)據(jù)科學(xué)的理論淵源的梳理也過(guò)于注重計(jì)算機(jī)科學(xué),對(duì)其與數(shù)學(xué)、統(tǒng)計(jì)學(xué)、信息學(xué)等學(xué)科的滲透關(guān)系,與大數(shù)據(jù)、數(shù)據(jù)挖掘、機(jī)器學(xué)習(xí)、人工智能等領(lǐng)域間的交叉關(guān)系關(guān)注不夠,缺乏數(shù)據(jù)科學(xué)在人文社會(huì)科學(xué)領(lǐng)域應(yīng)用的總結(jié)和趨勢(shì)分析。據(jù)此,本文擬利用一源多圖(一個(gè)文獻(xiàn)題錄數(shù)據(jù)來(lái)源和多種知識(shí)圖譜分析)和內(nèi)容分析相結(jié)合的方法,從文獻(xiàn)信息資源外部形態(tài)特征和知識(shí)源屬性兩大角度入手,綜合文獻(xiàn)學(xué)、科學(xué)學(xué)和計(jì)算機(jī)科學(xué)等多學(xué)科理論和工具對(duì)數(shù)據(jù)科學(xué)研究進(jìn)展進(jìn)行分析,揭示其與其他學(xué)科之間交叉、滲透的關(guān)系及自身的研究結(jié)構(gòu),并對(duì)數(shù)據(jù)科學(xué)在社會(huì)科學(xué)研究中的應(yīng)用前景、機(jī)遇和挑戰(zhàn)進(jìn)行探討,以期發(fā)現(xiàn)數(shù)據(jù)科學(xué)研究的規(guī)律性內(nèi)容和發(fā)展趨勢(shì),從而指導(dǎo)其在人文社會(huì)科學(xué)領(lǐng)域的應(yīng)用。

      二、數(shù)據(jù)獲取與研究方法

      (一)數(shù)據(jù)獲取

      本文選擇科睿唯安Web of Knowledge(WOK)檢索平臺(tái)的核心合集(含SCI、SSCI、A&HCI;、CPCI四大核心數(shù)據(jù)庫(kù))作為數(shù)據(jù)來(lái)源。WOK平臺(tái)能夠利用文獻(xiàn)信息資源之間的內(nèi)在聯(lián)系,把各種相關(guān)資源提供給研究人員,為學(xué)術(shù)界提供可靠、有效的數(shù)據(jù)支持,其引文統(tǒng)計(jì)數(shù)據(jù)記錄了各領(lǐng)域研究人員共同評(píng)判出來(lái)的最具影響力的研究成果,能夠?yàn)橥诰蚋黝I(lǐng)域研究的演化、結(jié)構(gòu)和滲透、交叉關(guān)系提供數(shù)據(jù)基礎(chǔ)。筆者使用Topic=“data science” &Timespan;=“1960-2017”檢索式進(jìn)行檢索,檢索時(shí)間為2018年1月15日。返回檢索結(jié)果為1123篇文獻(xiàn),為避免非學(xué)術(shù)研究成果、重復(fù)研究成果對(duì)數(shù)據(jù)分析的干擾,我們對(duì)檢索結(jié)果進(jìn)行精煉和去重,在此基礎(chǔ)上統(tǒng)計(jì)出與數(shù)據(jù)科學(xué)主題相關(guān)的文獻(xiàn)共有1014篇,其中期刊論文530篇,會(huì)議論文390篇,綜述類論文63篇,圖書章節(jié)等其他類型文獻(xiàn)31篇。

      (二)研究方法

      從WOK平臺(tái)導(dǎo)出文獻(xiàn)題錄數(shù)據(jù)后,本文采用文獻(xiàn)計(jì)量、知識(shí)圖譜等研究方法對(duì)數(shù)據(jù)科學(xué)研究進(jìn)展進(jìn)行分析。文獻(xiàn)計(jì)量對(duì)文獻(xiàn)基本特征進(jìn)行統(tǒng)計(jì),揭示數(shù)據(jù)科學(xué)研究的總體概況;社會(huì)網(wǎng)絡(luò)分析對(duì)文獻(xiàn)互引或共現(xiàn)網(wǎng)絡(luò)節(jié)點(diǎn)及節(jié)點(diǎn)間關(guān)系進(jìn)行分析,構(gòu)建互引網(wǎng)絡(luò)中節(jié)點(diǎn)之間的關(guān)系模型,描述個(gè)體對(duì)群體關(guān)系結(jié)構(gòu)和整體功能的影響,尋找具有重要地位的文獻(xiàn)和主題,揭示數(shù)據(jù)科學(xué)研究的演化規(guī)律;共詞分析對(duì)關(guān)鍵詞共詞網(wǎng)絡(luò)進(jìn)行分析,揭示數(shù)據(jù)科學(xué)研究的結(jié)構(gòu)特點(diǎn),分析發(fā)展趨勢(shì);信息可視化技術(shù)則用于繪制可視化的知識(shí)圖譜。其中,HistCite能夠分析文獻(xiàn)基本的計(jì)量指標(biāo),生成引文編年圖譜,發(fā)現(xiàn)研究重大進(jìn)展和發(fā)展趨勢(shì),展示學(xué)者的文獻(xiàn)數(shù)量和引證關(guān)系,快速找出關(guān)鍵文獻(xiàn)李瑞波、張琳、王玨:《基于Histcite工具的引文網(wǎng)絡(luò)實(shí)證研究》,《情報(bào)科學(xué)》2015年第10期。。VOSviewer可使用共現(xiàn)網(wǎng)絡(luò)構(gòu)造知識(shí)圖譜,挖掘和呈現(xiàn)可視化結(jié)果Van Eck N J, Waltman L,“Software Survey: VOSviewer, a Computer Program for Bibliometric Mapping”,Scientometrics,vol.84,No.2,2010,pp.523-538.。

      三、數(shù)據(jù)科學(xué)研究演化與主題分布

      (一)數(shù)據(jù)科學(xué)研究的學(xué)術(shù)史梳理

      數(shù)據(jù)科學(xué)起源于20世紀(jì)60年代對(duì)數(shù)據(jù)分析未來(lái)的預(yù)測(cè)和計(jì)算機(jī)科學(xué)即“數(shù)據(jù)處理的科學(xué)”根本理念與原則的研究Gil Press,“A Very Short History Of Data Science”,Web of pitt,https://classes.dbmi.pitt.edu/sites/default/files/averyshorthistory.pdf,2016-03-01.。數(shù)學(xué)家J.W.Tukey在1962年提出數(shù)據(jù)分析是一門新的科學(xué),而不僅僅是數(shù)學(xué)的分支,確定了數(shù)據(jù)分析發(fā)展的四大驅(qū)動(dòng)力:統(tǒng)計(jì)學(xué)理論、計(jì)算機(jī)和顯示設(shè)備的快速發(fā)展、各領(lǐng)域大量數(shù)據(jù)帶來(lái)的挑戰(zhàn)和廣泛多樣的學(xué)科對(duì)量化的強(qiáng)調(diào),明確了統(tǒng)計(jì)學(xué)在其中的作用J.W. Tukey,“The Future of Data Analysis”, Annals of Mathematical Statistics,vol.33,No.2,1962,pp.1-67.。1966年,計(jì)算機(jī)科學(xué)家P. Naur提出了“datalogy”的概念,強(qiáng)調(diào)計(jì)算機(jī)科學(xué)為“本質(zhì)和數(shù)據(jù)使用的科學(xué)”,系統(tǒng)討論了數(shù)據(jù)、數(shù)據(jù)表示和數(shù)據(jù)處理構(gòu)成的數(shù)據(jù)科學(xué)基本概念和實(shí)用技術(shù),并積極推動(dòng)數(shù)據(jù)科學(xué)在計(jì)算機(jī)教育中的地位,形成了計(jì)算機(jī)科學(xué)的哥本哈根傳統(tǒng)Sveinsdottir E, Frkjr E, “Datalogy—The Copenhagen Tradition of Computer Science”, Bit Numerical Mathematics, vol.28,NO.3,1988,pp.450-472.。20世紀(jì)90年代以后,數(shù)據(jù)科學(xué)獲得較大發(fā)展,數(shù)據(jù)科學(xué)的術(shù)語(yǔ)和過(guò)程被正式提出,并強(qiáng)調(diào)用“數(shù)據(jù)”分析和理解實(shí)際現(xiàn)象,是不同于傳統(tǒng)的視角和思維方式Hayashi C, Yajima K, Bock H H, et al, Data Science, Classification, and Related Methods.Proceedings of the 5th Conference of the International Federation of Classification Societies (IFCS-96), Kobe, Japan, March 27–30, 1996,Springer,1998.pp.40-51.。2012年以后,隨著大數(shù)據(jù)的崛起,數(shù)據(jù)科學(xué)也迎來(lái)了爆發(fā)式的發(fā)展,快速成為多個(gè)領(lǐng)域的研究熱點(diǎn)。

      為找出數(shù)據(jù)科學(xué)的研究脈絡(luò)和重點(diǎn)內(nèi)容,揭示其演化過(guò)程和發(fā)展階段,本文選擇HistCite知識(shí)圖譜軟件,利用WOK平臺(tái)LCS(Local Citation Score,本地被引次數(shù))為文獻(xiàn)重要程度衡量指標(biāo),繪制引文編年圖譜(如圖1所示,顯示了LCS排名前40位的文獻(xiàn)及相互關(guān)系)。縱向表示重要文獻(xiàn)發(fā)表的年份變化情況,橫向則標(biāo)注了重要文獻(xiàn)分布的主要研究領(lǐng)域。

      從圖1我們可以清晰地看出數(shù)據(jù)科學(xué)研究的文獻(xiàn)數(shù)量變化、研究方式和研究?jī)?nèi)容的演化,由此,我們把數(shù)據(jù)科學(xué)以2001年和2012年為分界點(diǎn),大致劃分為三個(gè)研究階段:

      (1)1960-2001年醞釀階段。該階段主要是計(jì)算機(jī)科學(xué)、統(tǒng)計(jì)學(xué)與數(shù)學(xué)等領(lǐng)域?qū)?shù)據(jù)科學(xué)的概念、方法與工具等方面進(jìn)行研究,并在生物學(xué)、地球科學(xué)等領(lǐng)域開(kāi)展科學(xué)數(shù)據(jù)采集、挖掘與分析的應(yīng)用,在商業(yè)領(lǐng)域利用交易和行為數(shù)據(jù)進(jìn)行預(yù)測(cè)和決策優(yōu)化。該階段在圖1中出現(xiàn)的關(guān)鍵文獻(xiàn)有2篇,其中2號(hào)文獻(xiàn)總結(jié)了日、法科學(xué)家的研究經(jīng)驗(yàn),認(rèn)為統(tǒng)計(jì)方法和數(shù)據(jù)挖掘并不能覆蓋數(shù)據(jù)的意義和帶來(lái)的機(jī)遇與挑戰(zhàn),強(qiáng)調(diào)從數(shù)據(jù)分析轉(zhuǎn)向數(shù)據(jù)科學(xué)的重要性O(shè)hsumi NFrom Data Analysis to Data Science,F(xiàn)rom Henk A. L,Data Analysis, Classification, and Related Methods.Berlin:Springer Berlin Heidelberg,2000,pp.329-334.。7號(hào)文獻(xiàn)則論述了數(shù)據(jù)科學(xué)的起源和內(nèi)涵,并強(qiáng)調(diào)了計(jì)算機(jī)科學(xué)、數(shù)學(xué)、統(tǒng)計(jì)學(xué)等思維、方法和工具,理論與數(shù)據(jù)的連接在數(shù)據(jù)科學(xué)中的重要性Cleveland W S,“Data Science: An Action Plan for Expanding the Technical Areas of the Field of Statistics”,International Statistical Review,vol.69,No.1,2001,pp.21-26.。上述文獻(xiàn)的發(fā)表使得關(guān)于數(shù)據(jù)的跨學(xué)科研究和計(jì)算取得了顯著進(jìn)展,被認(rèn)為是數(shù)據(jù)科學(xué)發(fā)展過(guò)程中最重要的兩篇源頭文獻(xiàn)Mukkamala R R, Hussain A, Vatrapu R,Towards a Formal Model of Social Data,Copenhagen: ITUniversitetet i Kbenhavn,2013,pp.1-21.。

      (2)2002-2011年為全面滲透階段。在此階段,數(shù)據(jù)科學(xué)開(kāi)始滲透到多個(gè)領(lǐng)域,分散的應(yīng)用隨著互聯(lián)網(wǎng)的普及逐漸走向融合,數(shù)據(jù)科學(xué)開(kāi)始影響人們的生活,并在社會(huì)科學(xué)領(lǐng)域逐步獲得廣泛應(yīng)用。日本慶應(yīng)義塾大學(xué)推出數(shù)據(jù)科學(xué)系列叢書,涵蓋從數(shù)據(jù)素養(yǎng)到數(shù)據(jù)采集、挖掘、建模、驗(yàn)證、算法,再到空間、金融、環(huán)境、健康、運(yùn)動(dòng)等具體領(lǐng)域的數(shù)據(jù)應(yīng)用柴田里程、北川源四郎、清水邦夫等:《データサイエンス?シリーズ 全12巻》,共立出版社網(wǎng)站http://www.kyoritsupub.co.jp/series/20/,2013-12-30。。這一階段還發(fā)生了許多影響深遠(yuǎn)的事件:包括CODATA官方學(xué)術(shù)期刊Data Science Journal在內(nèi)的多本刊物創(chuàng)辦;與聯(lián)合國(guó)信息社會(huì)世界峰會(huì)、政府間氣候變化委員會(huì)等國(guó)際機(jī)構(gòu)的合作積極展開(kāi),發(fā)布數(shù)據(jù)科學(xué)的科學(xué)議程全球倡議;數(shù)據(jù)科學(xué)家共同體或群體建設(shè)問(wèn)題得到關(guān)注等。

      (3)2012至今為爆發(fā)階段。在該階段,數(shù)據(jù)科學(xué)在大數(shù)據(jù)的驅(qū)動(dòng)下,與人工智能、機(jī)器學(xué)習(xí)、數(shù)據(jù)挖掘等逐漸融合,在各領(lǐng)域的研究、技術(shù)開(kāi)發(fā)和應(yīng)用不斷增多,領(lǐng)域數(shù)據(jù)科學(xué)得到極大發(fā)展,并在應(yīng)用基礎(chǔ)上對(duì)大數(shù)據(jù)驅(qū)動(dòng)的數(shù)據(jù)科學(xué)可能帶來(lái)的思維、社會(huì)經(jīng)濟(jì)系統(tǒng)和科研范式變革進(jìn)行了思考,數(shù)據(jù)科學(xué)家的能力要求、人才培養(yǎng)和職業(yè)認(rèn)同進(jìn)一步加強(qiáng)Baker M,“Data Science: Industry Allure”,Nature,vol.520,No.7546,2015,pp.253-255;Inmon W H, Linstedt D,“Data Architecture: A Primer for the Data Scientist : Big Data, Data Warehouse and Data Vault”,Data Architecture A Primer for the Data Scientist,No.13-15,2015,pp.57–62.。

      從圖1的橫向結(jié)構(gòu)來(lái)看,數(shù)據(jù)科學(xué)主要研究?jī)?nèi)容包含基礎(chǔ)理論、數(shù)據(jù)處理、平臺(tái)工具、基礎(chǔ)設(shè)施、人才培養(yǎng)和領(lǐng)域數(shù)據(jù)科學(xué)(如材料數(shù)據(jù)科學(xué))等。其中,基礎(chǔ)理論的關(guān)鍵文獻(xiàn)出現(xiàn)較早,主要是從統(tǒng)計(jì)學(xué)、計(jì)算機(jī)科學(xué)視角進(jìn)行分析;商業(yè)領(lǐng)域數(shù)據(jù)科學(xué)關(guān)鍵文獻(xiàn)最多,這與近年來(lái)數(shù)據(jù)科學(xué)和大數(shù)據(jù)結(jié)合越來(lái)越緊密有關(guān)系;而對(duì)大數(shù)據(jù)環(huán)境下科學(xué)研究范式轉(zhuǎn)化的思考則體現(xiàn)了數(shù)據(jù)科學(xué)研究縱深層次的不斷加深,從技術(shù)驅(qū)動(dòng)的應(yīng)用實(shí)踐開(kāi)始走向更為抽象的理論總結(jié)。從關(guān)鍵文獻(xiàn)的引用關(guān)系來(lái)看,基礎(chǔ)理論研究為領(lǐng)域數(shù)據(jù)科學(xué)應(yīng)用提供了理論基礎(chǔ),而領(lǐng)域數(shù)據(jù)科學(xué)內(nèi)部相互引用的關(guān)系比與外部的關(guān)系更緊密,說(shuō)明數(shù)據(jù)科學(xué)在各領(lǐng)域的應(yīng)用并未完全打破學(xué)科之間的藩籬。部分研究?jī)?nèi)部的關(guān)鍵文獻(xiàn)缺少引用關(guān)系,說(shuō)明內(nèi)部研究較為分散,沒(méi)有形成較為固定的合作網(wǎng)絡(luò)。

      從時(shí)間來(lái)看,大部分關(guān)鍵文獻(xiàn)出現(xiàn)在2013年以后,且與大數(shù)據(jù)相關(guān)文獻(xiàn)數(shù)量較多,體現(xiàn)了數(shù)據(jù)科學(xué)在與大數(shù)據(jù)融合前后的差異性。這種差異性體現(xiàn)在各領(lǐng)域大數(shù)據(jù)的興起促進(jìn)了數(shù)據(jù)科學(xué)的快速發(fā)展??梢哉f(shuō)數(shù)據(jù)科學(xué)研究伴隨著大數(shù)據(jù)的熱潮而興盛,大數(shù)據(jù)驅(qū)動(dòng)的數(shù)據(jù)科學(xué)研究逐步涵蓋知識(shí)發(fā)現(xiàn)和提取的各個(gè)過(guò)程,如數(shù)據(jù)采樣、挖掘、建模和算法等Dhar V,“Data Science and Prediction”, Communications of the Acm,vol.56,No.12,2013,pp.64-73;Li T, Lu J,“Preface: Intelligent Techniques for Data Science”,International Journal of Intelligent Systems,vol.30,No.8,2015,pp.851-853.,開(kāi)發(fā)了多種分布式存儲(chǔ)、數(shù)據(jù)分析工具楊京等:《大數(shù)據(jù)背景下數(shù)據(jù)科學(xué)分析工具現(xiàn)狀及發(fā)展趨勢(shì)》,《情報(bào)理論與實(shí)踐》2015年第3期。。大數(shù)據(jù)在科學(xué)領(lǐng)域的表現(xiàn)是數(shù)據(jù)科學(xué)的興起,數(shù)據(jù)科學(xué)將成為科研體系中的重要組成部分,并逐漸達(dá)到與物理、化學(xué)、生命科學(xué)等自然科學(xué)分庭抗禮的地位趙國(guó)棟、易歡歡、糜萬(wàn)軍等:《大數(shù)據(jù)時(shí)代的歷史機(jī)遇》,清華大學(xué)出版社2013年版,第278-286頁(yè)。。隨著大數(shù)據(jù)的發(fā)展,數(shù)據(jù)科學(xué)文獻(xiàn)數(shù)量和滲透的領(lǐng)域都急劇增長(zhǎng),不再局限于數(shù)據(jù)的收集和處理,還包括數(shù)據(jù)管理、知識(shí)獲取以及信息可視化等內(nèi)容,數(shù)據(jù)科學(xué)與具體應(yīng)用領(lǐng)域大數(shù)據(jù)的結(jié)合促進(jìn)了對(duì)數(shù)據(jù)操作、轉(zhuǎn)化、分析和處理復(fù)雜數(shù)據(jù)能力和數(shù)據(jù)分析平臺(tái)工具的關(guān)注Mcleod J, Childs S,“The Cynefin Framework: A Tool for Analyzing Qualitative Data in Information Science?”,Library & Information Science Research,vol.35,No.4,2013,pp.299-309.。在大數(shù)據(jù)之前,數(shù)據(jù)科學(xué)發(fā)展較為緩慢,主要以數(shù)據(jù)獲取和存儲(chǔ)為主,注重?cái)?shù)據(jù)獲取的完整性,而隨著大數(shù)據(jù)的快速發(fā)展,數(shù)據(jù)科學(xué)逐漸深入到人類社會(huì)各方面,研究者開(kāi)始轉(zhuǎn)向側(cè)重?cái)?shù)據(jù)的分析處理,挖掘數(shù)據(jù)蘊(yùn)含的真正價(jià)值。

      (二)數(shù)據(jù)科學(xué)研究的結(jié)構(gòu)狀態(tài)

      為更好揭示研究的結(jié)構(gòu)狀態(tài),本文利用VOSviewer繪制數(shù)據(jù)科學(xué)研究知識(shí)圖譜,形成Density Visualization(密度可視化視圖)和Network Visualization(網(wǎng)絡(luò)可視化視圖),如圖2所示。密度可視化視圖能夠直觀地展示聚類與圖譜區(qū)域分布,有助于我們快速了解關(guān)鍵詞共現(xiàn)圖譜的整體結(jié)構(gòu)與主題分布;網(wǎng)絡(luò)可視化視圖可以通過(guò)節(jié)點(diǎn)大小和節(jié)點(diǎn)連線的粗細(xì)表示各關(guān)鍵詞共現(xiàn)的頻次及相互間聯(lián)系的疏密關(guān)系Van Eck N J, Waltman L,“Software Survey: VOSviewer, A Computer Program for Bibliometric Mapping”,Scientometrics, vol.84,No.2,2010,pp.523-538.。從圖2可以看出數(shù)據(jù)科學(xué)研究具有典型的交叉學(xué)科特點(diǎn),與數(shù)學(xué)、統(tǒng)計(jì)學(xué)、計(jì)算機(jī)科學(xué)、自然科學(xué)和社會(huì)科學(xué)各領(lǐng)域交叉滲透,知識(shí)群內(nèi)外之間均具有緊密相關(guān)性的特點(diǎn),各主題之間的交叉滲透關(guān)系較為明顯,并形成了不同的研究主題和應(yīng)用(共形成10個(gè)聚類)。根據(jù)聚類情況本文將其總結(jié)為以下三個(gè)方面的內(nèi)容:

      1.數(shù)據(jù)科學(xué)基本內(nèi)涵的研究

      該研究主題包含圖2中的基礎(chǔ)理論研究、復(fù)雜性科學(xué)、統(tǒng)計(jì)學(xué)、倫理和大數(shù)據(jù)等聚類的主要內(nèi)容。研究的問(wèn)題包括:(1)數(shù)據(jù)科學(xué)學(xué)科性質(zhì)的討論,分為統(tǒng)計(jì)學(xué)的延伸或交叉學(xué)科兩類觀點(diǎn),前者認(rèn)為無(wú)論數(shù)據(jù)量大還是小,都是統(tǒng)計(jì)學(xué)數(shù)據(jù)處理的范圍內(nèi)張程:《數(shù)據(jù)科學(xué)的統(tǒng)計(jì)學(xué)內(nèi)涵探究》,《電大理工》2016年第4期。,后者認(rèn)為數(shù)據(jù)科學(xué)更多地呈現(xiàn)跨學(xué)科或交叉學(xué)科的特點(diǎn)Baumer B, “A Data Science Course for Undergraduates: Thinking With Data”, American Statistician, vol.69,No.4,2015, pp.334-342.。(2)數(shù)據(jù)科學(xué)概念和內(nèi)涵的界定研究,基本沿著兩條核心路徑進(jìn)行概括:一是將其視為研究“數(shù)據(jù)”的科學(xué),二是將其視為利用數(shù)據(jù)開(kāi)展研究的科學(xué),為自然科學(xué)和社會(huì)科學(xué)提供新的范式和方法朱揚(yáng)勇、熊赟:《數(shù)據(jù)學(xué)》,復(fù)旦大學(xué)出版社2009年版,前言。。前者認(rèn)為數(shù)據(jù)科學(xué)處理幾乎所有與數(shù)據(jù)生命周期有關(guān)的事務(wù)David D, “50 Years of Data Science”, Web Of MIT http://courses.csail.mit.edu/18.337/2015/docs/50YearsDataScience.pdf, 2015-09-18.,其目的是提取以前無(wú)法獲得的、潛在有用的信息Li T, Lu J, “Preface: Intelligent Techniques for Data Science”, International Journal of Intelligent Systems, vol.30, No.8, 2015, pp.851-853.,并能實(shí)現(xiàn)預(yù)測(cè)和決策優(yōu)化Aalst W V D, Damiani E, “Processes Meet Big Data: Connecting Data Science with Process Science”, IEEE Transactions on Services Computing, vol.8, No.6, 2015, pp.810-819.。后者則從數(shù)據(jù)科學(xué)所涉及的技術(shù)方法和學(xué)科領(lǐng)域?qū)ζ溥M(jìn)行界定,如視為統(tǒng)計(jì)學(xué)中一個(gè)新的領(lǐng)域延伸,主要關(guān)注重點(diǎn)為數(shù)據(jù)分析,涉及數(shù)據(jù)建模與方法、數(shù)據(jù)處理等Myers K, Wiel S V, “Discussion of ‘Data Science: An Action Plan for Expanding the Technical Areas of the Field of Statistics”, International Statistical Review, vol.7, No.6, 2015, pp.420-422.;從計(jì)算機(jī)科學(xué)的視角出發(fā),認(rèn)為數(shù)據(jù)科學(xué)已經(jīng)發(fā)展成為包含機(jī)器學(xué)習(xí)、數(shù)據(jù)挖掘、人工智能、信息可視化等內(nèi)容混合的研究方法Li T, Lu J, “Preface: Intelligent Techniques for Data Science”, International Journal of Intelligent Systems, vol.30, No.8, 2015, pp.851-853.;從數(shù)學(xué)的角度則包含信號(hào)處理、概率模型、模式識(shí)別和不確定性建模等Moraes R M D, López L M, “Computational Intelligence Applications for Data Science”, KnowledgeBased Systems, vol.87, No.6, 2015, pp.1-2.。甚至將行為社會(huì)科學(xué)、倫理學(xué)等學(xué)科范圍也納入其中Aalst W V D, Damiani E, “Processes Meet Big Data: Connecting Data Science with Process Science”, IEEE Transactions on Services Computing, vol.8, No.6, 2015, pp.810-819.。(3)數(shù)據(jù)科學(xué)的構(gòu)成方面的研究也遵循了這一路徑,將其按數(shù)據(jù)處理流程劃分為數(shù)據(jù)探索與準(zhǔn)備、數(shù)據(jù)表示與轉(zhuǎn)換、數(shù)據(jù)計(jì)算、數(shù)據(jù)建模、數(shù)據(jù)可視化和演示或按統(tǒng)計(jì)學(xué)活動(dòng)、計(jì)算機(jī)相關(guān)技術(shù)、數(shù)學(xué)或信息科學(xué)相結(jié)合的要點(diǎn)進(jìn)行論述葉鷹、馬費(fèi)成:《數(shù)據(jù)科學(xué)興起及其與信息科學(xué)的關(guān)聯(lián)》,《情報(bào)學(xué)報(bào)》2015年第6期;劉瀟、楊建梅:《基于數(shù)據(jù)科學(xué)的復(fù)雜元網(wǎng)絡(luò)方法及應(yīng)用》,科學(xué)出版社2015年版,第4-11頁(yè)。。綜合各方觀點(diǎn),其中對(duì)數(shù)據(jù)的管理、統(tǒng)計(jì)、機(jī)器學(xué)習(xí)和可視化被認(rèn)為是數(shù)據(jù)科學(xué)發(fā)展的核心內(nèi)容。

      2.數(shù)據(jù)科學(xué)研究方法、技術(shù)與平臺(tái)

      該主題研究主要包含圖2中的機(jī)器學(xué)習(xí)、數(shù)據(jù)分類、信息可視化、平臺(tái)工具和大數(shù)據(jù)等聚類。具體可分為以下幾類內(nèi)容:(1)是對(duì)數(shù)據(jù)科學(xué)方法和技術(shù)的系統(tǒng)介紹,如按照數(shù)據(jù)生命周期介紹數(shù)據(jù)采集、數(shù)據(jù)預(yù)處理相關(guān)數(shù)據(jù)審計(jì)、數(shù)據(jù)清洗、數(shù)據(jù)變換、數(shù)據(jù)集成、數(shù)據(jù)脫敏、數(shù)據(jù)規(guī)約和數(shù)據(jù)標(biāo)注技術(shù)等;按照數(shù)據(jù)科學(xué)方法或技術(shù)主題,如機(jī)器學(xué)習(xí)與數(shù)據(jù)挖掘、統(tǒng)計(jì)模型和方法、預(yù)測(cè)與描述、探索性數(shù)據(jù)分析、溝通和可視化、數(shù)據(jù)處理、編程等介紹相關(guān)技術(shù)。(2)是對(duì)某一種方法、技術(shù)在數(shù)據(jù)科學(xué)中的應(yīng)用進(jìn)行深入介紹,如利用R、Python語(yǔ)言進(jìn)行數(shù)據(jù)科學(xué)分析方法的研究,利用MapReduce、PageRank、Kmeans進(jìn)行數(shù)據(jù)計(jì)算的研究等。(3)是特定領(lǐng)域內(nèi)專用數(shù)據(jù)分析工具的開(kāi)發(fā)與應(yīng)用研究,如在醫(yī)療領(lǐng)域利用機(jī)器學(xué)習(xí)建立全新綜合數(shù)據(jù)模型(DIPULSE)以避免通過(guò)觀測(cè)傳統(tǒng)、單一醫(yī)療數(shù)據(jù)識(shí)別QT間期,診斷非心源性適應(yīng)癥風(fēng)險(xiǎn)大的問(wèn)題。(4)是對(duì)不同環(huán)境或所處理的數(shù)據(jù)變化帶來(lái)的技術(shù)挑戰(zhàn)與應(yīng)對(duì)進(jìn)行研究,如針對(duì)TB和PB級(jí)數(shù)據(jù)處理、管理及應(yīng)用的對(duì)策和技術(shù)方案研究。(5)是各領(lǐng)域大型數(shù)據(jù)科學(xué)平臺(tái)的建設(shè)的研究,如美國(guó)政府發(fā)起的BD2K倡議、中國(guó)科學(xué)院科學(xué)數(shù)據(jù)共享工程等。

      3.領(lǐng)域數(shù)據(jù)科學(xué)研究

      當(dāng)今已沒(méi)有無(wú)數(shù)據(jù)的科學(xué),也沒(méi)有無(wú)科學(xué)的數(shù)據(jù)趙鵬大:《大數(shù)據(jù)時(shí)代呼喚各科學(xué)領(lǐng)域的數(shù)據(jù)科學(xué)》,《中國(guó)科技獎(jiǎng)勵(lì)》2014年第9期。。Jim Gray在“eScience科學(xué)方法的一次革命”的演講中認(rèn)為,與“計(jì)算思維”類似,我們正在見(jiàn)證每個(gè)學(xué)科演變?yōu)閮蓚€(gè)分支:收集分析信息的XInfo和計(jì)算、仿真的CompX。數(shù)據(jù)科學(xué)理論和方法應(yīng)用于各個(gè)領(lǐng)域或?qū)W科,從而形成專門領(lǐng)域的數(shù)據(jù)學(xué)或數(shù)據(jù)科學(xué)。微軟研究院出版的《第四范式:數(shù)據(jù)密集型科學(xué)發(fā)現(xiàn)》一書,展示了環(huán)境應(yīng)用科學(xué)、生態(tài)學(xué)、海洋科學(xué)、天文學(xué)、醫(yī)學(xué)、生物學(xué)等學(xué)科領(lǐng)域數(shù)據(jù)驅(qū)動(dòng)的科學(xué)研究案例Hey T, The Fourth Paradigm—DataIntensive Scientific Discovery,Berlin & Heidelberg: Springer,2012,p.1.。此外,數(shù)據(jù)科學(xué)在空間、環(huán)境、健康、醫(yī)學(xué)、運(yùn)動(dòng)、金融等諸多領(lǐng)域均有豐富的應(yīng)用案例劉德權(quán)、蘇荷:《基于大數(shù)據(jù)的城市環(huán)境治理對(duì)策》,《哈爾濱商業(yè)大學(xué)學(xué)報(bào)(社會(huì)科學(xué)版)》2016年第6期。。從圖1和2中我們也可以看出,材料科學(xué)、生物學(xué)和商業(yè)、管理學(xué)等領(lǐng)域與數(shù)據(jù)科學(xué)的結(jié)合比較緊密。有人對(duì)國(guó)外數(shù)據(jù)科學(xué)研究進(jìn)行分析后,指出數(shù)據(jù)科學(xué)與各領(lǐng)域的應(yīng)用主要體現(xiàn)在面向優(yōu)化和面向創(chuàng)新兩個(gè)方面,前者包括使用數(shù)據(jù)科學(xué)更有效地實(shí)現(xiàn)預(yù)測(cè)、優(yōu)化方法和決策,后者主要是實(shí)現(xiàn)新的科學(xué)發(fā)現(xiàn)和突破研究瓶頸王曰芬、謝清楠、宋小康:《國(guó)外數(shù)據(jù)科學(xué)研究的回顧與展望》,《圖書情報(bào)工作》2016年第14期。。

      四、關(guān)鍵詞與熱點(diǎn)分析:不斷增長(zhǎng)的數(shù)據(jù)科學(xué)知識(shí)體系與方法工具

      通過(guò)VOSviewer繪制的知識(shí)圖譜中節(jié)點(diǎn)大小和顏色深淺,可以獲知節(jié)點(diǎn)的權(quán)重,權(quán)重越大說(shuō)明該節(jié)點(diǎn)代表的關(guān)鍵詞參與共現(xiàn)詞越多,越能代表該領(lǐng)域研究熱點(diǎn),在圖2(a)中顯示越接近黑色,在圖2(b)中顯示節(jié)點(diǎn)越大。同時(shí),各聚類間產(chǎn)生交互聯(lián)系的中間關(guān)鍵詞顯示了兩個(gè)以上聚類產(chǎn)生聯(lián)系或過(guò)渡的關(guān)鍵點(diǎn),往往具有較高的出現(xiàn)頻次和中心度。因此,根據(jù)知識(shí)圖譜、關(guān)鍵詞中心度和文獻(xiàn)被引頻次,我們發(fā)現(xiàn)在數(shù)據(jù)科學(xué)研究領(lǐng)域重點(diǎn)關(guān)鍵詞包括:

      (1)“Data Science”、“Statistics”、“Machine Learning”、“Big Data”、“Knowledge Discovery”,探討內(nèi)容包括數(shù)據(jù)科學(xué)的歷史淵源、概念體系、基本假設(shè)、學(xué)理根據(jù)等;數(shù)據(jù)、大數(shù)據(jù)相關(guān)概念,數(shù)據(jù)生命周期規(guī)律等基礎(chǔ)理論;數(shù)據(jù)科學(xué)的方法體系,包括機(jī)器學(xué)習(xí)、知識(shí)發(fā)現(xiàn)及涉及的基本方法、工具和算法等。

      (2)“Data Mining”、“Classification”、“Clustering”、“Visual Analytics”、“Internet ofThings”、“MapReduce”、“Hadoop”,探討數(shù)據(jù)作為資源對(duì)其進(jìn)行獲取、分析、感知的系列方法、工具和平臺(tái);數(shù)據(jù)科學(xué)作為方法和工具在科學(xué)研究過(guò)程中的應(yīng)用方法、過(guò)程;具體的數(shù)據(jù)分析技術(shù)與工具開(kāi)發(fā)等內(nèi)容。

      (3)“Business Intelligence”、“Predictive Analytics”、“Computational Social Science”,探討數(shù)據(jù)科學(xué)在具體學(xué)科或應(yīng)用領(lǐng)域的發(fā)展對(duì)策、應(yīng)用前景、應(yīng)用過(guò)程和方法工具等,其中商業(yè)、材料、天氣、健康、輿情、城市管理等為該類關(guān)鍵詞涉及較多的領(lǐng)域。

      (4)“Decision Tree”、“Twitter”、“Bioinformatics”、“Precision Medicine”。

      (5)“Uncertainty”、“Metadata”、“Nature Language Processing”、“Methodology”、“Theory”、“Algorithm”、“Privacy”、“Ethic”分布在圖2視圖中離中心區(qū)域較遠(yuǎn)的外圍聚類或連接較少的節(jié)點(diǎn),代表該研究領(lǐng)域未來(lái)的生長(zhǎng)點(diǎn),從關(guān)鍵詞的主要內(nèi)容可以看出,研究?jī)?nèi)容有向數(shù)據(jù)科學(xué)基礎(chǔ)理論和具體研究領(lǐng)域兩個(gè)方向不斷細(xì)化和深入的趨勢(shì)。

      作為典型的橫斷學(xué)科,數(shù)據(jù)科學(xué)具有明顯的跨學(xué)科、交叉學(xué)科特點(diǎn)。由于數(shù)據(jù)科學(xué)剛剛邁入成長(zhǎng)期,并且信息技術(shù)發(fā)展不斷加速,因此無(wú)論從數(shù)據(jù)科學(xué)學(xué)科體系建設(shè)還是其在各領(lǐng)域應(yīng)用的發(fā)展,我們都需要對(duì)數(shù)據(jù)科學(xué)知識(shí)體系和方法工具進(jìn)行梳理與總結(jié)。但是數(shù)據(jù)科學(xué)作為一門新興學(xué)科,其理論來(lái)源和知識(shí)構(gòu)成仍處在動(dòng)態(tài)發(fā)展的過(guò)程中,目前建立一個(gè)固定的學(xué)科體系和方法工具系統(tǒng)顯然是不可能的。學(xué)者們對(duì)數(shù)據(jù)科學(xué)的構(gòu)成也因其出發(fā)點(diǎn)的不同呈現(xiàn)較大的差異。例如,Cleveland的數(shù)據(jù)科學(xué)行動(dòng)計(jì)劃認(rèn)為,數(shù)據(jù)科學(xué)需要發(fā)展跨領(lǐng)域數(shù)據(jù)分析能力、數(shù)據(jù)建模和方法、數(shù)據(jù)計(jì)算能力、學(xué)科規(guī)劃、工具、基礎(chǔ)理論William S. Cleveland, “Data Science: An Action Plan for Expanding the Technical Areas of the Field of Statistics”, International Statistical Review, vol.69,No.1,2001,pp.21-26.。國(guó)內(nèi)學(xué)者認(rèn)為,數(shù)據(jù)科學(xué)主要包括理論數(shù)據(jù)學(xué)、數(shù)據(jù)方法論、數(shù)據(jù)科學(xué)發(fā)展史、資源數(shù)據(jù)學(xué)、管理數(shù)據(jù)學(xué)、技術(shù)數(shù)據(jù)學(xué)、工程數(shù)據(jù)學(xué)和部門數(shù)據(jù)學(xué)等劉闖:《地理科學(xué)數(shù)據(jù)流及其關(guān)鍵節(jié)點(diǎn)前沿科學(xué)問(wèn)題與案例研究》,騰沖,2011年數(shù)據(jù)密集型科研與數(shù)據(jù)科學(xué)研討暨CODATA中委會(huì)人才團(tuán)隊(duì)建設(shè)啟動(dòng)會(huì)。。更有學(xué)者構(gòu)建了從數(shù)據(jù)科學(xué)基本假設(shè)和基礎(chǔ)理論到數(shù)據(jù)學(xué)基礎(chǔ)再到數(shù)據(jù)科學(xué)應(yīng)用的基本框架。

      根據(jù)知識(shí)圖譜分析的結(jié)果,并結(jié)合上述學(xué)者對(duì)數(shù)據(jù)科學(xué)理論體系構(gòu)成的探討,對(duì)數(shù)據(jù)科學(xué)研究的熱點(diǎn)關(guān)鍵詞進(jìn)行歸納可以大致得出數(shù)據(jù)科學(xué)知識(shí)體系和方法工具的構(gòu)成框架(如圖3所示)。該框架劃分為理論數(shù)據(jù)科學(xué)、工程數(shù)據(jù)科學(xué)和應(yīng)用數(shù)據(jù)科學(xué)(分別對(duì)應(yīng)熱點(diǎn)關(guān)鍵詞1-3)。其中理論數(shù)據(jù)科學(xué)主要探討數(shù)據(jù)生命周期規(guī)律及數(shù)據(jù)科學(xué)研究中的基本假設(shè)、基礎(chǔ)理論和方法論體系;工程數(shù)據(jù)科學(xué)則傾向于數(shù)據(jù)作為資源和數(shù)據(jù)科學(xué)作為方法與工具的處理過(guò)程,包括數(shù)據(jù)獲取、分析、感知的具體技術(shù)與工具研發(fā)等;應(yīng)用數(shù)據(jù)科學(xué)則是數(shù)據(jù)科學(xué)根據(jù)其應(yīng)用對(duì)象所涉獵的具體學(xué)科或應(yīng)用領(lǐng)域而產(chǎn)生的專門領(lǐng)域。

      從關(guān)鍵文獻(xiàn)、重要關(guān)鍵詞和熱點(diǎn)主題分析可以看出,目前處于研究熱點(diǎn)的主題多集中在軟硬件架構(gòu)(IT視角)和商業(yè)領(lǐng)域(應(yīng)用視角),主要分布在工程數(shù)據(jù)科學(xué)這一層面魏瑾瑞、蔣萍:《數(shù)據(jù)科學(xué)的統(tǒng)計(jì)學(xué)內(nèi)涵》,《統(tǒng)計(jì)研究》2014年第5期。,而代表研究生長(zhǎng)點(diǎn)的關(guān)鍵詞則出現(xiàn)向上和向下延伸的趨勢(shì)(對(duì)應(yīng)生長(zhǎng)關(guān)鍵4-5)。關(guān)鍵文獻(xiàn)和演化路徑顯示的特征表明數(shù)據(jù)科學(xué)促進(jìn)學(xué)科融合的作用并未得到充分發(fā)揮。數(shù)據(jù)科學(xué)研究?jī)?nèi)部也較為分散,對(duì)學(xué)科性質(zhì)和目標(biāo)定位不清晰,沒(méi)有形成較為固定的合作網(wǎng)絡(luò)。在高被引文獻(xiàn)中,缺少基礎(chǔ)理論研究,重應(yīng)用輕基礎(chǔ)、重技術(shù)輕理論的傾向明顯。數(shù)據(jù)科學(xué)更多地像是多個(gè)相關(guān)學(xué)科“拼接”起來(lái)的新興學(xué)科,存在目標(biāo)不明確和尚未形成完整的學(xué)科框架體系等問(wèn)題。當(dāng)然,科學(xué)研究的道路常常是先做“白盒研究”,知識(shí)積累多了才可能抽象出通用性較強(qiáng)的“黑盒模型”和普適規(guī)律李國(guó)杰、程學(xué)旗:《大數(shù)據(jù)研究:未來(lái)科技及經(jīng)濟(jì)社會(huì)發(fā)展的重大戰(zhàn)略領(lǐng)域——大數(shù)據(jù)的研究現(xiàn)狀與科學(xué)思考》,《中國(guó)科學(xué)院院刊》2012年第6期。。目前數(shù)據(jù)科學(xué)已經(jīng)積累了一定數(shù)量的案例和經(jīng)驗(yàn),“白盒研究”成果不斷豐富,亟需在此基礎(chǔ)上開(kāi)展更深入的思考和研究,探討通用性更強(qiáng),具有普遍規(guī)律的理論。未來(lái),數(shù)據(jù)科學(xué)的發(fā)展方向一方面將繼續(xù)探討大數(shù)據(jù)環(huán)境下的技術(shù)發(fā)展,另一方面也將不斷增加基礎(chǔ)理論的構(gòu)建,同時(shí)推動(dòng)在不同的應(yīng)用領(lǐng)域發(fā)揮重要作用。D.Donoho認(rèn)為數(shù)據(jù)科學(xué)的下一個(gè)50年發(fā)展趨勢(shì)將體現(xiàn)在三個(gè)方面:開(kāi)放科學(xué)接管、把科學(xué)本身作為數(shù)據(jù)和科學(xué)的數(shù)據(jù)分析、可被實(shí)證檢驗(yàn);而要實(shí)現(xiàn)最后一點(diǎn),數(shù)據(jù)科學(xué)的科學(xué)性必須有一個(gè)不斷發(fā)展、基于事實(shí)的方法:科學(xué)范圍的元分析、交叉研究分析和跨工作流程分析。因此,圖3所示的數(shù)據(jù)科學(xué)知識(shí)體系和方法工具只是提供了一個(gè)基本的構(gòu)成框架,在今后的發(fā)展過(guò)程中,這個(gè)框架必將隨著數(shù)據(jù)科學(xué)邊界、內(nèi)涵、理論的發(fā)展和應(yīng)用的拓展而不斷增長(zhǎng)。

      五、數(shù)據(jù)科學(xué)促進(jìn)社會(huì)科學(xué)研究轉(zhuǎn)型的應(yīng)用前景

      (一)改變與應(yīng)對(duì):社會(huì)科學(xué)研究轉(zhuǎn)型正在發(fā)生

      雖然社會(huì)科學(xué)界對(duì)是否接受大數(shù)據(jù)帶來(lái)的挑戰(zhàn)還在猶豫不決,存在社會(huì)科學(xué)家被逐漸邊緣化的擔(dān)憂。但數(shù)據(jù)科學(xué)在社會(huì)科學(xué)研究中的應(yīng)用已經(jīng)逐漸拓展和深入,改變已經(jīng)悄然來(lái)臨。從圖1我們可以看出,商業(yè)大數(shù)據(jù)是領(lǐng)域數(shù)據(jù)科學(xué)研究的重要組成部分,內(nèi)容涵蓋商業(yè)智能、供應(yīng)鏈管理、商業(yè)決策、招聘信息文本挖掘、可持續(xù)制造等多個(gè)領(lǐng)域,并且在內(nèi)外部的文獻(xiàn)互引上表現(xiàn)出比其他主題更趨緊密的關(guān)系。在基礎(chǔ)設(shè)施聚類中也涵蓋了公共醫(yī)學(xué)、城市治理和智能情報(bào)等社會(huì)科學(xué)研究?jī)?nèi)容;數(shù)據(jù)處理聚類包括股票市場(chǎng)波動(dòng)與搜索行為關(guān)系的研究;工具平臺(tái)含有對(duì)社交網(wǎng)絡(luò)通信效率的關(guān)注;研究范式聚類中也論述了XInformation范式在市場(chǎng)、公共政策和社會(huì)問(wèn)題等領(lǐng)域的轉(zhuǎn)變。圖2中也含有可計(jì)算社會(huì)科學(xué)、商業(yè)智能、社交網(wǎng)絡(luò)、健康管理等社會(huì)科學(xué)研究領(lǐng)域的關(guān)鍵詞,部分關(guān)鍵詞出現(xiàn)在熱點(diǎn)聚類之中,并在統(tǒng)計(jì)學(xué)、復(fù)雜性系統(tǒng)、倫理學(xué)等代表理論的關(guān)鍵詞和數(shù)據(jù)分析、信息可視化、計(jì)算、數(shù)據(jù)挖掘、機(jī)器學(xué)習(xí)等代表技術(shù)的關(guān)鍵詞之間起到連接和過(guò)度的作用,占有十分重要的地位。在對(duì)合作網(wǎng)絡(luò)進(jìn)行的補(bǔ)充分析中,我們發(fā)現(xiàn),數(shù)據(jù)科學(xué)研究已經(jīng)開(kāi)始打破各自為政的局面,呈現(xiàn)出合作的廣泛性和國(guó)際性,來(lái)自多個(gè)國(guó)家的機(jī)構(gòu)在共現(xiàn)網(wǎng)絡(luò)上產(chǎn)生了較為緊密的連接,在機(jī)構(gòu)類型中除了研究型大學(xué)外,政府機(jī)構(gòu)、研究所、企業(yè)也參與其中。數(shù)據(jù)科學(xué)研究已經(jīng)從“村舍”活動(dòng)逐漸過(guò)渡到大規(guī)?!靶袠I(yè)化”努力。

      數(shù)據(jù)科學(xué)對(duì)社會(huì)科學(xué)研究轉(zhuǎn)型的作用還體現(xiàn)在相應(yīng)研究方法的使用和研究成果的取得。研究方法主要包括:復(fù)雜性科學(xué)與計(jì)算機(jī)技術(shù)相結(jié)合,使用仿真方法對(duì)社會(huì)科學(xué)領(lǐng)域問(wèn)題進(jìn)行研究,在虛擬環(huán)境中模擬現(xiàn)實(shí)世界可能發(fā)生的現(xiàn)象,從而進(jìn)行預(yù)測(cè)或優(yōu)化;使用計(jì)算實(shí)驗(yàn)方法,通過(guò)人工個(gè)體代替現(xiàn)實(shí)系統(tǒng)的人,把現(xiàn)實(shí)社會(huì)系統(tǒng)轉(zhuǎn)化成智能主體構(gòu)成的演化系統(tǒng),從而揭示社會(huì)系統(tǒng)中個(gè)體微觀行為和系統(tǒng)宏觀行為之間的動(dòng)力學(xué)機(jī)制王眾托:《大力推進(jìn)社會(huì)科學(xué)研究方法論的創(chuàng)新》,載盛昭瀚《社會(huì)科學(xué)計(jì)算實(shí)驗(yàn)理論與應(yīng)用》,上海三聯(lián)書店2009年版,序言第1-3頁(yè);米傳民等:《經(jīng)濟(jì)學(xué)研究的新范式:芻議基于agent的計(jì)算經(jīng)濟(jì)學(xué)》,《經(jīng)濟(jì)與管理評(píng)論》2004年第6期。;通過(guò)社會(huì)科學(xué)和數(shù)據(jù)科學(xué)的交叉融合,實(shí)現(xiàn)計(jì)算社會(huì)科學(xué)、社會(huì)網(wǎng)絡(luò)分析、基于主體的數(shù)據(jù)挖掘等,從而達(dá)到以人和社會(huì)為表征的建模、實(shí)驗(yàn)與分析評(píng)估等目的毛文吉:《社會(huì)計(jì)算發(fā)展研究》,載中國(guó)科學(xué)技術(shù)協(xié)會(huì)主編《控制科學(xué)與工程學(xué)科發(fā)展報(bào)告2010-2011》,中國(guó)科技出版社2011年版,第161-165頁(yè)。。這些研究方法在全球問(wèn)題、危機(jī)管理、輿情監(jiān)控、消費(fèi)決策、技術(shù)創(chuàng)新、土地覆被變化、生態(tài)系統(tǒng)服務(wù)等領(lǐng)域的建模仿真;在社會(huì)安全、社交網(wǎng)絡(luò)、決策行為、軍事工程等領(lǐng)域的數(shù)據(jù)挖掘、分析與人機(jī)交互;在公共管理領(lǐng)域的精準(zhǔn)治理和國(guó)家治理技術(shù)平臺(tái)、情報(bào)學(xué)領(lǐng)域的知識(shí)圖譜研究、科學(xué)學(xué)領(lǐng)域的技術(shù)創(chuàng)新等方面均取得了豐碩的成果。數(shù)據(jù)科學(xué)中的數(shù)據(jù)集成與聯(lián)結(jié),數(shù)據(jù)挖掘與分析技術(shù)在其中發(fā)揮重要作用。隨著海量數(shù)據(jù)存儲(chǔ)、傳遞、挖掘和整理技術(shù)的不斷進(jìn)步,數(shù)據(jù)科學(xué)利用大數(shù)據(jù)挖掘相對(duì)于傳統(tǒng)數(shù)據(jù)分析的優(yōu)勢(shì)更加明顯,無(wú)論是算法還是工具都優(yōu)于傳統(tǒng)數(shù)據(jù)挖掘,更能應(yīng)對(duì)數(shù)據(jù)的大體量、數(shù)據(jù)多樣性和復(fù)雜性的處理。可處理對(duì)象來(lái)源除了管理信息系統(tǒng)、Web信息系統(tǒng)外,還包括感知信息系統(tǒng)等傳感設(shè)備自動(dòng)產(chǎn)生的數(shù)據(jù),數(shù)據(jù)體量呈指數(shù)級(jí)增長(zhǎng),數(shù)據(jù)類型轉(zhuǎn)變?yōu)槎喾N數(shù)據(jù)類型大量并存的狀態(tài),數(shù)據(jù)結(jié)構(gòu)復(fù)雜化程度加深。在此背景下,大數(shù)據(jù)時(shí)代的到來(lái)和數(shù)據(jù)科學(xué)的發(fā)展,為社會(huì)科學(xué)研究方法突破困境創(chuàng)造了條件,一個(gè)以計(jì)算機(jī)技術(shù)、互聯(lián)網(wǎng)為基礎(chǔ),具有無(wú)限可能性的新計(jì)算社會(huì)科學(xué)成為現(xiàn)實(shí)Lazer D, Pentland A, et al, “Computational Social Science”, Science,vol.323,No.1,2009,pp.721-723.,這給社會(huì)科學(xué)研究帶來(lái)了革命性的變革和創(chuàng)新,并將深刻改變著社會(huì)科學(xué)的研究范式。

      (二)數(shù)據(jù)科學(xué)在社會(huì)科學(xué)研究中的應(yīng)用前景

      從數(shù)據(jù)科學(xué)研究進(jìn)展的梳理和社會(huì)科學(xué)研究已經(jīng)發(fā)生的轉(zhuǎn)變來(lái)看,大數(shù)據(jù)驅(qū)動(dòng)數(shù)據(jù)科學(xué)在社會(huì)科學(xué)研究轉(zhuǎn)型中的作用前景將主要體現(xiàn)在以下六個(gè)方面:

      (1)為解決目前社會(huì)科學(xué)研究存在的問(wèn)題提供可能。大數(shù)據(jù)中的行為數(shù)據(jù)彰顯社會(huì)科學(xué)研究的人本特性,數(shù)據(jù)科學(xué)將重構(gòu)社會(huì)科學(xué),并從理論范式上重繪學(xué)術(shù)圖景、延伸經(jīng)典學(xué)說(shuō),從學(xué)科范式上豐富學(xué)科目標(biāo)、促進(jìn)學(xué)科融合、提升學(xué)科應(yīng)用,在研究實(shí)踐上疏解方法分歧、優(yōu)化變量測(cè)量、提供高質(zhì)量數(shù)據(jù)支撐、增加展示形式等陳云松、吳青熹等:《大數(shù)據(jù)何以重構(gòu)社會(huì)科學(xué)》,《新疆師范大學(xué)學(xué)報(bào)(哲學(xué)社會(huì)科學(xué)版)》2015年第3期;米加寧、章昌平、李大宇等:《第四研究范式:大數(shù)據(jù)驅(qū)動(dòng)的社會(huì)科學(xué)研究轉(zhuǎn)型》,《學(xué)?!?018年第2期。。

      (2)數(shù)據(jù)科學(xué)將對(duì)社會(huì)科學(xué)認(rèn)知體系產(chǎn)生結(jié)構(gòu)性的影響,這意味著無(wú)論是個(gè)體的認(rèn)知體系還是社會(huì)性的認(rèn)知功能體系都正在發(fā)生質(zhì)性的轉(zhuǎn)變:在社會(huì)科學(xué)研究層面形成新的研究范式,形成新的認(rèn)識(shí)論、方法論、方法和工具,在認(rèn)知的操作結(jié)果上則會(huì)發(fā)現(xiàn)新的相關(guān)關(guān)系,產(chǎn)生超越傳統(tǒng)認(rèn)知方式的洞見(jiàn),使經(jīng)典理論取得新的發(fā)展和更加切近真實(shí)的檢驗(yàn)。新的認(rèn)知方式正在將社會(huì)科學(xué)研究導(dǎo)向開(kāi)放的基于數(shù)據(jù)的分析模式,通過(guò)分析基于數(shù)據(jù)科學(xué)的社會(huì)科學(xué)認(rèn)知體系的內(nèi)部結(jié)構(gòu)、邏輯過(guò)程及其結(jié)果的結(jié)構(gòu)變化有利于我們把握數(shù)據(jù)科學(xué)條件下社會(huì)科學(xué)認(rèn)知發(fā)生的有效機(jī)制,并對(duì)其做出發(fā)展和改進(jìn)。

      (3)數(shù)據(jù)科學(xué)將改變傳統(tǒng)社會(huì)科學(xué)用“小數(shù)據(jù)”來(lái)驗(yàn)證邏輯的路徑,實(shí)現(xiàn)用“大數(shù)據(jù)”來(lái)發(fā)現(xiàn)邏輯的研究路徑。數(shù)據(jù)科學(xué)時(shí)代的社會(huì)科學(xué)研究可能不再需要我們做出理論預(yù)設(shè),而是在大數(shù)據(jù)分析得到的奇點(diǎn)相關(guān)的引導(dǎo)下建構(gòu)因果和結(jié)構(gòu)關(guān)系,進(jìn)而發(fā)現(xiàn)其中蘊(yùn)藏著的知識(shí)或規(guī)律。數(shù)據(jù)即現(xiàn)象和經(jīng)驗(yàn),“科學(xué)始于數(shù)據(jù)”而非直接觀察和傳統(tǒng)測(cè)量。大數(shù)據(jù)更高的精確度和整體性,延展了知識(shí)發(fā)現(xiàn)的新途徑和新方法。

      (4)傳統(tǒng)社會(huì)科學(xué)以學(xué)科為導(dǎo)向的問(wèn)題構(gòu)建轉(zhuǎn)向大數(shù)據(jù)時(shí)代的以跨學(xué)科為導(dǎo)向的事件的構(gòu)建?;跀?shù)據(jù)科學(xué)的可計(jì)算社會(huì)科學(xué)的發(fā)展正在淡化、溝通甚至徹底消除學(xué)科邊界,將還原論下的專業(yè)性社會(huì)認(rèn)知和建構(gòu)升級(jí)為社會(huì)整體系統(tǒng)認(rèn)知和建構(gòu)過(guò)程。數(shù)據(jù)科學(xué)正在將傳統(tǒng)認(rèn)識(shí)能夠抵達(dá)的對(duì)象社會(huì)孤立的數(shù)據(jù)流進(jìn)行整合和連通,在科學(xué)家、決策者、專業(yè)工作人員和普羅大眾之間建立集中共享的新的社會(huì)和環(huán)境圖式,催生一體化、有機(jī)的、速度更快、關(guān)聯(lián)更緊密、響應(yīng)更敏捷的可計(jì)算科學(xué)體系。

      (5)數(shù)據(jù)科學(xué)可以實(shí)現(xiàn)對(duì)真實(shí)世界的多路徑“涌現(xiàn)”。真實(shí)世界的進(jìn)化路徑,偶然性非常大。但在大數(shù)據(jù)支持下,基于HS+CA的一體化建模與計(jì)算實(shí)驗(yàn)平臺(tái)王國(guó)成:《行為大數(shù)據(jù),通宏洞微與人類決策——計(jì)算社會(huì)科學(xué)的興起與發(fā)展》,《科研信息化技術(shù)與應(yīng)用》2015年第6期。,對(duì)真實(shí)世界的多路徑“涌現(xiàn)”仿真就成為可能。數(shù)據(jù)科學(xué)、復(fù)雜性科學(xué)(特別是對(duì)復(fù)雜性系統(tǒng)建模仿真方面)、社會(huì)計(jì)算的綜合發(fā)展,使得現(xiàn)實(shí)世界和理論(仿真)世界融合并建立平行系統(tǒng)成為可能,這也意味著提供了社會(huì)科學(xué)全景式認(rèn)識(shí)社會(huì)經(jīng)濟(jì)系統(tǒng)的可能性,促進(jìn)社會(huì)科學(xué)預(yù)測(cè)目標(biāo)的回歸和預(yù)測(cè)、解釋、說(shuō)明能力的融合。

      (6)數(shù)據(jù)科學(xué)為我國(guó)社會(huì)科學(xué)的發(fā)展提供了加速超越西方和形成中國(guó)特色、中國(guó)氣派的重要機(jī)遇羅瑋、羅教講:《新計(jì)算社會(huì)學(xué):大數(shù)據(jù)時(shí)代的社會(huì)學(xué)研究》,《社會(huì)學(xué)研究》2015年第3期。。當(dāng)代中國(guó)正經(jīng)歷著歷史上最為廣泛而深刻社會(huì)轉(zhuǎn)型,整個(gè)社會(huì)充斥著“三千年未有之大變局”中的大問(wèn)題,需要構(gòu)建宏大的新理論、新方法予以解決汪丁?。骸渡鐣?huì)科學(xué)定量分析方法基礎(chǔ)探討》,《社會(huì)科學(xué)戰(zhàn)線》2010年第1期。。這種前無(wú)古人的偉大實(shí)踐,必將給理論創(chuàng)造、學(xué)術(shù)繁榮提供強(qiáng)大動(dòng)力和廣闊空間。通過(guò)數(shù)據(jù)科學(xué)驅(qū)動(dòng)社會(huì)科學(xué)研究轉(zhuǎn)型,將促進(jìn)我國(guó)社會(huì)科學(xué)研究更符合中國(guó)的現(xiàn)實(shí)發(fā)展場(chǎng)景,實(shí)現(xiàn)由學(xué)習(xí)到創(chuàng)新,再到領(lǐng)跑。

      同時(shí),我們認(rèn)為,在社會(huì)科學(xué)研究轉(zhuǎn)型過(guò)程需要注意處理好以下幾個(gè)方面的問(wèn)題:(1)需要交叉學(xué)科的研究。大數(shù)據(jù)每一種具體形式都僅能呈現(xiàn)事物本身的一個(gè)側(cè)面而并非全貌,如何加工處理并轉(zhuǎn)化成智能知識(shí),仍然需要通過(guò)多學(xué)科交叉來(lái)研究和討論石勇:《大數(shù)據(jù)三個(gè)重要的技術(shù)問(wèn)題》,長(zhǎng)沙,2013年全國(guó)報(bào)社新聞技術(shù)工作會(huì)議暨中國(guó)報(bào)業(yè)技術(shù)年會(huì)。。(2)需要辯證看待大數(shù)據(jù)。準(zhǔn)確把握大數(shù)據(jù)的生成背景,研判大數(shù)據(jù)對(duì)社會(huì)科學(xué)研究的可能性與適應(yīng)性,辯證認(rèn)識(shí)大數(shù)據(jù)對(duì)于重構(gòu)社會(huì)科學(xué)研究范式的作用陳泓茹、趙寧、汪偉:《大數(shù)據(jù)融入人文社會(huì)科學(xué)的基本問(wèn)題》,《社會(huì)科學(xué)文摘》2016年第2期。。(3)要意識(shí)到風(fēng)險(xiǎn)的存在。大數(shù)據(jù)分析可能失靈,要理性認(rèn)識(shí)大數(shù)據(jù)的優(yōu)勢(shì)與劣勢(shì)。(4)處理好大數(shù)據(jù)與小數(shù)據(jù)之間的關(guān)系。(5)大數(shù)據(jù)需要新的研究技能與團(tuán)隊(duì)合作。(6)需要構(gòu)筑適應(yīng)大數(shù)據(jù)環(huán)境的基礎(chǔ)設(shè)施,促進(jìn)政府?dāng)?shù)據(jù)開(kāi)放等。

      結(jié)論

      綜上所述,本文對(duì)數(shù)據(jù)科學(xué)演化進(jìn)程、主題分布進(jìn)行了梳理,并構(gòu)建了數(shù)據(jù)科學(xué)知識(shí)體系和方法工具的動(dòng)態(tài)框架,認(rèn)為數(shù)據(jù)科學(xué)未來(lái)發(fā)展的方向?qū)墓こ虜?shù)據(jù)科學(xué)的技術(shù)研究逐漸向基礎(chǔ)理論和具體應(yīng)用領(lǐng)域研究深化發(fā)展。這加強(qiáng)了數(shù)據(jù)科學(xué)與社會(huì)科學(xué)的內(nèi)在聯(lián)系,一方面數(shù)據(jù)科學(xué)基礎(chǔ)理論需要哲學(xué)、社會(huì)科學(xué)更深層次的思考,提供理論支撐,另一方面社會(huì)科學(xué)發(fā)展存在的問(wèn)題和面臨的全新環(huán)境需要數(shù)據(jù)科學(xué)提供新的支持。數(shù)據(jù)科學(xué)對(duì)社會(huì)科學(xué)轉(zhuǎn)型的重大影響已經(jīng)顯現(xiàn),引起了國(guó)內(nèi)外多個(gè)領(lǐng)域?qū)W者們的重視,社會(huì)科學(xué)研究人員科研行為方式和數(shù)據(jù)、方法需求已經(jīng)發(fā)生改變。大數(shù)據(jù)驅(qū)動(dòng)的數(shù)據(jù)科學(xué)將在社會(huì)科學(xué)研究轉(zhuǎn)型中扮演十分重要的角色,應(yīng)用前景廣闊。同時(shí),由于數(shù)據(jù)科學(xué)和大數(shù)據(jù)存續(xù)時(shí)間較短,其對(duì)社會(huì)科學(xué)的影響和作用機(jī)制需要長(zhǎng)期、系統(tǒng)地跟蹤研究??茖W(xué)研究范式轉(zhuǎn)換的研究主要集中在自然科學(xué)研究領(lǐng)域,而是否適用于社會(huì)科學(xué)研究的討論則不多見(jiàn)。厘清大數(shù)據(jù)、數(shù)據(jù)科學(xué)和社會(huì)科學(xué)研究范式轉(zhuǎn)型之間的作用機(jī)制,對(duì)我們擺脫社會(huì)科學(xué)現(xiàn)有的困境,從研究方法的范式轉(zhuǎn)型對(duì)社會(huì)科學(xué)研究進(jìn)行分析與批判,并提供大數(shù)據(jù)驅(qū)動(dòng)的數(shù)據(jù)科學(xué)對(duì)策具有十分重要的作用,需要進(jìn)一步深入分析。

      (責(zé)任編輯:輕舟)

      猜你喜歡
      研究范式知識(shí)圖譜社會(huì)科學(xué)
      《云南社會(huì)科學(xué)》征稿征訂啟事
      《河北農(nóng)業(yè)大學(xué)(社會(huì)科學(xué)版)》2021年喜報(bào)
      我國(guó)犯罪論體系之變革及刑法學(xué)研究范式之轉(zhuǎn)型
      卷宗(2016年10期)2017-01-21 19:10:25
      近十五年我國(guó)小學(xué)英語(yǔ)教學(xué)研究的熱點(diǎn)、問(wèn)題及對(duì)策
      基于知識(shí)圖譜的產(chǎn)業(yè)集群創(chuàng)新績(jī)效可視化分析
      基于知識(shí)圖譜的智慧教育研究熱點(diǎn)與趨勢(shì)分析
      從《ET&S》與《電化教育研究》對(duì)比分析中管窺教育技術(shù)發(fā)展
      數(shù)學(xué)在社會(huì)科學(xué)中的應(yīng)用
      論我國(guó)刑事錯(cuò)案防范的研究范式
      行為會(huì)計(jì)理論與應(yīng)用研究綜述
      唐海县| 新密市| 来凤县| 庆元县| 长泰县| 中卫市| 栖霞市| 勃利县| 江安县| 玉田县| 建始县| 石首市| 青川县| 南部县| 乌鲁木齐市| 福州市| 巴马| 慈利县| 文安县| 芦溪县| 小金县| 错那县| 孟村| 莎车县| 通辽市| 临江市| 绥芬河市| 新余市| 嘉义县| 尼勒克县| 乳源| 苏尼特左旗| 沽源县| 昭苏县| 乌兰察布市| 汾阳市| 和田县| 神池县| 崇阳县| 元阳县| 南平市|