楊子江 單鐵城 李晨 李憲毅 杜陽
【摘? 要】論文基于CNKI數(shù)據(jù)庫,運(yùn)用文獻(xiàn)計(jì)量、信息可視化和社會網(wǎng)絡(luò)分析的方法,對我國2012-2020年大數(shù)據(jù)產(chǎn)業(yè)研究的核心期刊文獻(xiàn)進(jìn)行梳理,用Citespace構(gòu)建了共現(xiàn)圖譜,分析了該領(lǐng)域的發(fā)文趨勢和主要研究機(jī)構(gòu);通過Ucinet進(jìn)行社會網(wǎng)絡(luò)分析,探討了我國大數(shù)據(jù)產(chǎn)業(yè)研究的發(fā)展特點(diǎn)和高頻關(guān)鍵詞之間的聯(lián)系情況。
【Abstract】Based on CNKI database, this paper uses the methods of bibliometrics, information visualization and social network analysis to sort out the literatures of the core journals of big data industry research in China from 2012 to 2020. Citespace is used to construct the co-occurrence map and analyze the publishing trend and major research institutions in this field. Through social network analysis by Ucinet, this paper discusses the development characteristics of China's big data industry research and the relationship between high-frequency keywords.
【關(guān)鍵詞】大數(shù)據(jù)產(chǎn)業(yè);可視化分析;社會網(wǎng)絡(luò)分析;知識圖譜
【Keywords】big data industry; visual analysis; social network analysis; knowledge map
【中圖分類號】F49? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? 【文獻(xiàn)標(biāo)志碼】A? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ?【文章編號】1673-1069(2021)09-0040-04
1 引言
隨著數(shù)據(jù)量的飛速增長,人們邁入了大數(shù)據(jù)時代,新型信息發(fā)布方式不斷涌現(xiàn),數(shù)據(jù)正成為另一種重要的戰(zhàn)略資源。大數(shù)據(jù)是眾多關(guān)鍵行業(yè)關(guān)注的問題?!按髷?shù)據(jù)”這一概念從被提出到獲得普遍認(rèn)可并成為全球熱詞,伴隨的是數(shù)據(jù)在各行業(yè)領(lǐng)域的深層滲透與應(yīng)用。作為復(fù)雜而龐大的數(shù)據(jù)集,它具備強(qiáng)大的分析與挖掘價值,是影響競爭和發(fā)展的重要因素。在信息化發(fā)展的新階段,大數(shù)據(jù)對經(jīng)濟(jì)發(fā)展、社會秩序、國家治理、人民生活都會產(chǎn)生重大影響。
為推動我國大數(shù)據(jù)產(chǎn)業(yè)有效、健康發(fā)展,本文運(yùn)用文獻(xiàn)計(jì)量和信息可視化的方法,對我國大數(shù)據(jù)產(chǎn)業(yè)相關(guān)研究的核心期刊文獻(xiàn)進(jìn)行梳理,分析了該領(lǐng)域的發(fā)文趨勢和主要研究機(jī)構(gòu);通過共詞分析、知識圖譜和社會網(wǎng)絡(luò)分析,探討新時期互聯(lián)網(wǎng)和大數(shù)據(jù)環(huán)境下,大數(shù)據(jù)產(chǎn)業(yè)的發(fā)展特點(diǎn)和主題演化,以期為之后研究工作的開展提供參考。
本文運(yùn)用文獻(xiàn)計(jì)量和信息可視化的方法,對我國大數(shù)據(jù)產(chǎn)業(yè)相關(guān)研究的核心期刊文獻(xiàn)進(jìn)行梳理,分析了該領(lǐng)域的發(fā)文趨勢和主要研究機(jī)構(gòu),以期為之后研究工作的開展提供參考。
2 數(shù)據(jù)來源與研究步驟
2.1 數(shù)據(jù)來源
本文選用CNKI平臺中國學(xué)術(shù)期刊網(wǎng)絡(luò)出版總庫(CAJD)作為數(shù)據(jù)源,以“大數(shù)據(jù)產(chǎn)業(yè)OR大數(shù)據(jù)行業(yè)”為檢索詞進(jìn)行主題檢索,檢索年限字段從2012年開始,截至2020年,根據(jù)布拉德福文獻(xiàn)離散分布規(guī)律,為保證研究的有效性,研究論文數(shù)據(jù)1165條(檢索時間為2021年3月27日)。
2.2 研究步驟
運(yùn)用文獻(xiàn)計(jì)量的理論和方法,對收集所得的大數(shù)據(jù)產(chǎn)業(yè)研究文獻(xiàn)進(jìn)行統(tǒng)計(jì)分析?;谠~頻分析法,利用SATI、Excel軟件處理文獻(xiàn)數(shù)據(jù),從文獻(xiàn)數(shù)量、作者和機(jī)構(gòu)分布、關(guān)鍵詞等角度進(jìn)行了社會網(wǎng)絡(luò)分析,探討參與大數(shù)據(jù)產(chǎn)業(yè)相關(guān)研究的作者和機(jī)構(gòu)的合作情況以及該領(lǐng)域的研究熱點(diǎn)和前沿。將期刊來源類別字段設(shè)定為核心期刊及CSSCI來源期刊。通過人工篩選、去重、整理,共得到大數(shù)據(jù)產(chǎn)業(yè)相關(guān)研究論文數(shù)據(jù)1165條(檢索時間為2021年3月27日)。
3 分析討論
3.1 大數(shù)據(jù)產(chǎn)業(yè)相關(guān)研究發(fā)文的時間分布
我國2012年均發(fā)表在圖書情報學(xué)相關(guān)期刊上,指出了大數(shù)據(jù)時代的來臨和對數(shù)據(jù)進(jìn)行創(chuàng)新分析的重要性。大數(shù)據(jù)的研發(fā)與應(yīng)用開始被重視起來。截至2020年,該領(lǐng)域共發(fā)表核心期刊論文1165篇,其發(fā)文趨勢見圖1。
工業(yè)4.0代表了第四次工業(yè)革命,代表了生產(chǎn)中自主和非集中控制的新范式。產(chǎn)品和生產(chǎn)系統(tǒng)被增強(qiáng)為具有相互通信、構(gòu)建自組織網(wǎng)絡(luò)、自我控制和自我優(yōu)化能力的網(wǎng)絡(luò)物理系統(tǒng)。從IT的角度來看,這涉及一個新層次的網(wǎng)絡(luò)、數(shù)據(jù)集成和生產(chǎn)中的數(shù)據(jù)處理。物聯(lián)網(wǎng)、大數(shù)據(jù)等成熟技術(shù)是工業(yè)4.0的傳播解決方案組件。到目前為止,還沒有對IT需求進(jìn)行有根據(jù)的詳細(xì)闡述,也沒有對解決方案組件如何滿足這些需求進(jìn)行有區(qū)別的討論。本研究采用內(nèi)容分析的方法,從現(xiàn)有的研究文獻(xiàn)中提取工業(yè)4.0的需求。分析的目標(biāo)是數(shù)據(jù)處理需求的結(jié)構(gòu)化匯編。由此產(chǎn)生的分類方案支持在工業(yè)4.0的應(yīng)用領(lǐng)域中進(jìn)一步開發(fā)解決方案組件。此外,本文還展示了如何將需求與大數(shù)據(jù)軟件解決方案的能力相匹配。因此,確定并描述了工業(yè)4.0中大數(shù)據(jù)應(yīng)用程序的2個通用用例。我們可以看到2012-2020年大數(shù)據(jù)產(chǎn)業(yè)相關(guān)研究從2012年至2015年呈指數(shù)增長。與此同時,該行業(yè)在管理大量可用于執(zhí)行大數(shù)據(jù)項(xiàng)目的技術(shù)方面面臨巨大挑戰(zhàn)。在初步調(diào)查的基礎(chǔ)上,有一個空白的文獻(xiàn)清楚地審視了銀行業(yè)是如何利用大數(shù)據(jù)的潛力和面臨的挑戰(zhàn)。本研究以3家選定銀行為樣本進(jìn)行個案研究,旨在通過更細(xì)致地調(diào)查如何使用和管理大數(shù)據(jù)來填補(bǔ)這一空白。這些發(fā)現(xiàn)將有助于我們從技術(shù)的角度加深對大數(shù)據(jù)實(shí)施和管理技術(shù)的理解,因此,2015年我國大數(shù)據(jù)產(chǎn)業(yè)相關(guān)研究發(fā)生了“大爆炸”。雖然2015-2017年發(fā)文量增長趨于平穩(wěn),但發(fā)文量一直較高,這段時間,我國相繼出臺了各種相關(guān)政策。2018年,大數(shù)據(jù)行業(yè)發(fā)展達(dá)到了一個“瓶頸”,發(fā)文量有明顯的下降,國家出臺的相關(guān)政策也較少。2018年之后,相關(guān)研究繼續(xù)增長。由此可以看出,該領(lǐng)域的研究與國家政策的支持有較大關(guān)系。近年來,各種網(wǎng)絡(luò)物理系統(tǒng)(CPS)的開發(fā)和實(shí)現(xiàn)呈爆炸式增長。因此,與CPS相關(guān)的研究和CPS技術(shù)的進(jìn)步越來越成為物聯(lián)網(wǎng)(IoT)、大數(shù)據(jù)、云計(jì)算和工業(yè)4.0等IT領(lǐng)域新興趨勢的一部分。然而,只有很少的研究工作能夠確定與新興IT趨勢相關(guān)的綜合CPS研究趨勢。因此,本文的目的是探討什么樣的CPS研究主題與新興的IT趨勢相關(guān),以及產(chǎn)業(yè)如何實(shí)施CPS技術(shù)。
3.2 大數(shù)據(jù)產(chǎn)業(yè)相關(guān)研究的熱點(diǎn)和前沿分析
2012-2020年大數(shù)據(jù)產(chǎn)業(yè)相關(guān)研究涉及的關(guān)鍵詞及其頻次統(tǒng)計(jì)顯示,1162篇文獻(xiàn)共涉及關(guān)鍵詞5112個,其中占該領(lǐng)域關(guān)鍵詞總數(shù)55.01%的2812個關(guān)鍵詞出現(xiàn)過1次(見圖2)。
將CNKI的論文以endnote形式導(dǎo)入文獻(xiàn)題錄信息統(tǒng)計(jì)分析工具SATI軟件,對文檔提取關(guān)鍵詞,其中TOP10高頻關(guān)鍵詞如表1所示。
首先將從中國知網(wǎng)下載的endnote格式文檔輸入SATI軟件中,變成了50×50的共詞矩陣,計(jì)算共詞矩陣的Ochiai(相似)系數(shù),并得到相似矩陣,如圖3所示。
接下來,運(yùn)用Ucinet軟件對關(guān)鍵詞相關(guān)矩陣進(jìn)行社會網(wǎng)絡(luò)分析。人工刪掉了“大數(shù)據(jù)”“大數(shù)據(jù)時代”等過大的節(jié)點(diǎn),得到高頻關(guān)鍵詞網(wǎng)絡(luò)圖,如圖4所示。
對該網(wǎng)絡(luò)進(jìn)行中心度分析,節(jié)點(diǎn)之間的連線越多,顏色越深,代表其相互關(guān)系作用越強(qiáng)。根據(jù)圖5可知,節(jié)點(diǎn)中心度由大到小依次為“人工智能”“數(shù)據(jù)挖掘”“云計(jì)算”“大數(shù)據(jù)分析”“數(shù)據(jù)共享”等。
數(shù)據(jù)挖掘技術(shù)是如何在Hadoop中用于云數(shù)據(jù)的,技術(shù)融入日常生活中已經(jīng)變得非常流行。數(shù)據(jù)挖掘有助于提高業(yè)務(wù)領(lǐng)域的效率,降低成本。在云計(jì)算范式中,最需要的是數(shù)據(jù)挖掘的應(yīng)用和技術(shù)。用戶可以從虛擬集成的數(shù)據(jù)倉庫中獲取有意義的信息,通過在云計(jì)算中實(shí)現(xiàn)數(shù)據(jù)挖掘來降低存儲和基礎(chǔ)設(shè)施的成本。本文以電信行業(yè)客戶流失預(yù)測為研究對象,將數(shù)據(jù)集存儲在云端,利用Hadoop中的數(shù)據(jù)挖掘技術(shù)實(shí)現(xiàn)。本文采用分類的方法對電信行業(yè)的數(shù)據(jù)集進(jìn)行分析,對數(shù)字?jǐn)?shù)據(jù)和文本數(shù)據(jù)進(jìn)行分類,并對可能從現(xiàn)有網(wǎng)絡(luò)中切換的用戶進(jìn)行預(yù)測,在Hadoop環(huán)境下,利用聚類方法對給定數(shù)據(jù)集的分類結(jié)果進(jìn)行分組,以達(dá)到對數(shù)字和文本數(shù)據(jù)的最佳預(yù)測。Hadoop是一個易于實(shí)現(xiàn)分類的環(huán)境。按照“網(wǎng)絡(luò)—凝聚力—密度—密度”的路徑進(jìn)行網(wǎng)絡(luò)密度分析,結(jié)果顯示網(wǎng)絡(luò)密度為0.0016,通過比較,該網(wǎng)絡(luò)密度較低,關(guān)鍵詞之間的聯(lián)系較弱。
鑒于此,為進(jìn)一步研究我國大數(shù)據(jù)研究的發(fā)展趨勢,運(yùn)行CiteSpace,參數(shù)設(shè)置“Burst items”,得到關(guān)鍵詞突現(xiàn)圖(見圖6)。
由圖6可看出,2012年,大數(shù)據(jù)產(chǎn)業(yè)研究起步階段,研究多在情報學(xué)領(lǐng)域和數(shù)據(jù)分析領(lǐng)域,而后,大數(shù)據(jù)產(chǎn)業(yè)的研究可以融入許多原本存在的和新出現(xiàn)的行業(yè)中。最后,2018-2020年突變詞為“產(chǎn)業(yè)融合”,說明大數(shù)據(jù)產(chǎn)業(yè)在“產(chǎn)業(yè)融合”方面的研究將是一種發(fā)展趨勢,大數(shù)據(jù)將更好地促進(jìn)各個產(chǎn)業(yè)進(jìn)行融合發(fā)展。面向流程工業(yè)領(lǐng)域的跨部門大數(shù)據(jù)平臺的體系結(jié)構(gòu)。主要目標(biāo)是設(shè)計(jì)一個可擴(kuò)展的分析平臺,支持多個行業(yè)領(lǐng)域數(shù)據(jù)的收集、存儲和處理。這樣一個平臺應(yīng)該能夠連接到工廠的現(xiàn)有環(huán)境,并使用收集到的數(shù)據(jù)建立預(yù)測功能,以優(yōu)化生產(chǎn)過程。分析平臺將包含用于構(gòu)建這些功能的開發(fā)環(huán)境,以及用于評估模型的仿真環(huán)境。該平臺將在不同行業(yè)的多個網(wǎng)站之間共享??绮块T共享將使知識能夠在不同領(lǐng)域之間進(jìn)行轉(zhuǎn)移。在開發(fā)過程中,我們采用了以用戶為中心的方法來收集來自不同涉眾的需求,這些涉眾用于從不同的角度(從上下文到部署)設(shè)計(jì)體系結(jié)構(gòu)模型。部署的架構(gòu)在2個過程工業(yè)領(lǐng)域進(jìn)行了測試,一個來自鋁生產(chǎn),另一個來自塑料成型行業(yè)。
4 結(jié)論與不足
由于大數(shù)據(jù)概念比較廣泛,大數(shù)據(jù)產(chǎn)業(yè)涉及的領(lǐng)域也較多,使得對大數(shù)據(jù)產(chǎn)業(yè)研究現(xiàn)狀分析不夠系統(tǒng)和完整。
我國大數(shù)據(jù)產(chǎn)業(yè)研究與國家政策的支持有較大關(guān)系,相關(guān)研究起步于2012年,2012-2015年發(fā)文量呈指數(shù)增長,2015-2017年發(fā)文量增長趨于平穩(wěn),但發(fā)文量一直較高,2018年,大數(shù)據(jù)行業(yè)發(fā)展達(dá)到了一個“瓶頸”,發(fā)文量有明顯的下降,2018年之后,相關(guān)研究繼續(xù)增加。研究還發(fā)現(xiàn),我國大數(shù)據(jù)產(chǎn)業(yè)研究熱點(diǎn)主要集中在“人工智能”“數(shù)據(jù)挖掘”“云計(jì)算”“大數(shù)據(jù)分析”“數(shù)據(jù)共享”等方面,通過對該網(wǎng)絡(luò)的密度進(jìn)行分析,發(fā)現(xiàn)關(guān)鍵詞整體網(wǎng)絡(luò)密度較低,關(guān)鍵詞之間的聯(lián)系較弱,對關(guān)鍵詞進(jìn)行小團(tuán)體分析,最終將50個關(guān)鍵詞分為10個小團(tuán)體,表明關(guān)鍵詞之間較分散。通過對突變詞的研究,說明大數(shù)據(jù)產(chǎn)業(yè)在“產(chǎn)業(yè)融合”方面的研究將是一種發(fā)展趨勢。
【參考文獻(xiàn)】
【1】李后卿,樊津妍,印翠群.中國大數(shù)據(jù)戰(zhàn)略發(fā)展?fàn)顩r探析[J].圖書館,2019(12):30-35.
【2】習(xí)近平:實(shí)施國家大數(shù)據(jù)戰(zhàn)略加快建設(shè)數(shù)字中國[J].中國衛(wèi)生信息管理雜志,2018,15(01):5-6.
【3】國發(fā)〔2015〕50號.國務(wù)院關(guān)于印發(fā)促進(jìn)大數(shù)據(jù)發(fā)展行動綱要的通知[Z].
【4】工信部規(guī)[2016]412號.工業(yè)和信息化部關(guān)于印發(fā)大數(shù)據(jù)產(chǎn)業(yè)發(fā)展規(guī)劃(2016-2020年)的通知[Z].
【5】邱均平.信息計(jì)量學(xué)(四) 第四講? 文獻(xiàn)信息離散分布規(guī)律——布拉德福定律[J].情報理論與實(shí)踐,2000(04):315-314+316-320.
【6】林德明,陳超美,劉則淵.共被引網(wǎng)絡(luò)中介中心性的Zipf-Pareto分布研究[J].情報學(xué)報,2011(1):76-82.
【7】黃曉斌,鐘輝新.大數(shù)據(jù)時代企業(yè)競爭情報研究的創(chuàng)新與發(fā)展[J].圖書與情報,2012(06):9-14.
【8】張文彥,武瑞原,于潔.大數(shù)據(jù)時代的圖書館初探[J].圖書與情報,2012(06):15-21.
【9】季忠洋,李北偉,朱婧祎.大數(shù)據(jù)生態(tài)系統(tǒng)形成機(jī)理與模型構(gòu)建研究[J].圖書館學(xué)研究,2018(05):9-13+8.