唐燕++韓愛(ài)慶++張寶瑛++張未未
摘要:該文以CNKI為數(shù)據(jù)源,對(duì)2009年-2016年高校大數(shù)據(jù)相關(guān)文獻(xiàn)進(jìn)行計(jì)量分析。通過(guò)文獻(xiàn)數(shù)量、文獻(xiàn)機(jī)構(gòu)來(lái)源、文獻(xiàn)發(fā)表期刊、關(guān)鍵詞詞頻分析,以及關(guān)鍵詞共詞矩陣、知識(shí)圖譜的分析,分析出高校大數(shù)據(jù)相關(guān)研究情況和研究熱點(diǎn),為今后科研人員開(kāi)展研究提供參考。
關(guān)鍵詞:高校;大數(shù)據(jù);文獻(xiàn)計(jì)量學(xué);知識(shí)圖譜
中圖分類(lèi)號(hào): G250.2 文獻(xiàn)標(biāo)識(shí)碼: A 文章編號(hào):1009-3044(2016)26-0010-04
Bibliometric Analysis of Big Data in Colleges and Universities in China in 2009-2016
TANG Yan, HAN Ai-qing, ZHANG Bao-ying,ZHANG Wei-wei
(Information Center, Beijing University of Chinese Medicine, Beijing 100029,China)
Abstract:This article introduce the bibliometrics analysis of big data related literature in colleges and universities in 2009-2016. Through the bibliometrics analysis of the literature and literature sources, literature journal, CO word matrix of keyword analysis, keyword, knowledge mapping analysis, draw the data related researches and the research hot spot, which can provide the reference for future researchers.
Keyword: University; big data; bibliometrics method; knowledge mapping
1研究背景
隨著云計(jì)算、互聯(lián)網(wǎng)的發(fā)展,人類(lèi)社會(huì)已經(jīng)進(jìn)入大數(shù)據(jù)時(shí)代。大數(shù)據(jù)包括各個(gè)系統(tǒng)中數(shù)據(jù)庫(kù)中的結(jié)構(gòu)化數(shù)據(jù),也包括由社交媒體、郵件、視頻、音頻、文檔信息和網(wǎng)頁(yè)所產(chǎn)生的非結(jié)構(gòu)化數(shù)據(jù)。
大數(shù)據(jù)已經(jīng)成功應(yīng)用于政治、經(jīng)濟(jì)、文化、社會(huì)等各領(lǐng)域,已成為一個(gè)事關(guān)國(guó)家發(fā)展的產(chǎn)業(yè)。2012 年3 月29 日,美國(guó)政府宣布了“大數(shù)據(jù)研究和發(fā)展倡議(Big Data Research and Development Initiative)”,以推進(jìn)從大量的、復(fù)雜的數(shù)據(jù)集合中獲取知識(shí)和洞見(jiàn)的能力,并承諾政府將為此投資超2 億美元,許多重要國(guó)家機(jī)構(gòu)都將參與其中。2012 年7 月10 日,聯(lián)合國(guó)發(fā)布大數(shù)據(jù)政務(wù)白皮書(shū)《大數(shù)據(jù)促發(fā)展:挑戰(zhàn)與機(jī)遇》,指出各國(guó)政府應(yīng)當(dāng)使用極大豐富的數(shù)據(jù)資源,更好地響應(yīng)社會(huì)和經(jīng)濟(jì)指標(biāo)。日本總務(wù)省于2012 年7 月新發(fā)布“活躍ICT日本”新綜合戰(zhàn)略,提出正針對(duì)大數(shù)據(jù)推廣的現(xiàn)狀、發(fā)展動(dòng)向、面臨問(wèn)題等進(jìn)行探討,以期對(duì)解決社會(huì)公共問(wèn)題做出貢獻(xiàn)。
同時(shí),大數(shù)據(jù)正在給零售行業(yè)帶來(lái)深刻的變革,比如美國(guó)的亞馬遜,中國(guó)的阿里巴巴、騰訊等企業(yè)。電商利用大數(shù)據(jù)預(yù)測(cè)人們的購(gòu)買(mǎi)行為,預(yù)知消費(fèi)趨勢(shì),并對(duì)人們未來(lái)的選擇做出一些推薦。大數(shù)據(jù)也影響著每個(gè)人的工作、生活和學(xué)習(xí)。生活中,人們基于大數(shù)據(jù)的移動(dòng)應(yīng)用隨時(shí)叫到出租車(chē);甚至有數(shù)據(jù)分析家分析Facebook上的信息,來(lái)判斷戀人們是否會(huì)分手。
大數(shù)據(jù)技術(shù)的目標(biāo)就是從這些數(shù)據(jù)中挖掘信息、判斷趨勢(shì)、提高效益?!按髷?shù)據(jù)”是繼物聯(lián)網(wǎng)、云計(jì)算之后IT 產(chǎn)業(yè)又一次顛覆性的技術(shù)變革。如何在教育信息化領(lǐng)域充分理解并迎接大數(shù)據(jù)技術(shù)帶來(lái)的機(jī)遇和挑戰(zhàn),利用海量數(shù)據(jù)來(lái)挖掘信息、判斷趨勢(shì)、提高效率?這是高校信息化部門(mén)未來(lái)建設(shè)數(shù)字化校園過(guò)程中的必由之路。
高校信息系統(tǒng)也是數(shù)據(jù)生產(chǎn)大戶。麥肯錫全球研究中心的最新數(shù)據(jù)顯示,僅2009 年,美國(guó)國(guó)家教育部的某信息系統(tǒng)的數(shù)據(jù)庫(kù)就膨脹至269 P 字節(jié)(1 個(gè)P 字節(jié)等于10 億個(gè)M 字節(jié))。在中國(guó)的高校里,學(xué)生的學(xué)籍、選課、成績(jī)、借書(shū)、BB平臺(tái)、科研系統(tǒng)、實(shí)習(xí)情況、就業(yè)情況、上網(wǎng)、論壇、微博、一卡通、門(mén)禁等都會(huì)產(chǎn)生大量數(shù)據(jù);教師的OA系統(tǒng)、基本信息、科研情況、講座、上課課件、視頻、遠(yuǎn)程教育課程等也會(huì)產(chǎn)生大量數(shù)據(jù);實(shí)驗(yàn)設(shè)備、機(jī)房、實(shí)驗(yàn)室、圖書(shū)等信息,也會(huì)產(chǎn)生大量數(shù)據(jù)。所以高校信息系統(tǒng)通常龐大、復(fù)雜,經(jīng)過(guò)多年運(yùn)營(yíng),已經(jīng)積累了很多數(shù)據(jù),這就是高校信息系統(tǒng)中的大數(shù)據(jù)。
高校中的大數(shù)據(jù)有很高的教學(xué)與科研價(jià)值,通過(guò)大數(shù)據(jù)分析,為學(xué)校管理部門(mén)提供科學(xué)的決策支持,幫助教學(xué)管理部門(mén)優(yōu)化教學(xué)資源配置,優(yōu)化招生、就業(yè)指導(dǎo)等工作。在這個(gè)信息非常寶貴的時(shí)代,高校的師生們都將從大數(shù)據(jù)技術(shù)中受益。本文采用文獻(xiàn)計(jì)量學(xué)方法,對(duì)我國(guó)2009年至2016年大數(shù)據(jù)在高校的相關(guān)文獻(xiàn)進(jìn)行統(tǒng)計(jì)分析,旨在了解該領(lǐng)域的研究現(xiàn)狀、研究熱點(diǎn)和發(fā)展趨勢(shì),為科研人員和技術(shù)人員提供參考。
2 數(shù)據(jù)來(lái)源與處理方法
2.1數(shù)據(jù)來(lái)源
本文選擇CNKI中國(guó)知網(wǎng)數(shù)據(jù)庫(kù)作為檢索數(shù)據(jù)來(lái)源,檢索策略為:(主題=大數(shù)據(jù) 或big data) 并且 (摘要=高校 或 大學(xué))。檢索時(shí)間范圍為:2009年至2016年的數(shù)據(jù),共檢索出1340條記錄,檢索時(shí)間截止2016年3月9日。
本研究分析的文獻(xiàn)均來(lái)自于國(guó)內(nèi)學(xué)術(shù)期刊、會(huì)議論文和學(xué)位論文,剔除新聞、短訊、消息、會(huì)議通知等文獻(xiàn),并經(jīng)過(guò)人工篩選剔除不屬于大數(shù)據(jù)和高校主題相關(guān)的研究文獻(xiàn)以及資料不全、數(shù)據(jù)缺失的文獻(xiàn)。經(jīng)過(guò)篩選共有1258篇文獻(xiàn)與本文研究領(lǐng)域相關(guān),作為文獻(xiàn)研究數(shù)據(jù)。其中,期刊論文1143,學(xué)位論文89篇,會(huì)議論文26篇。
2.2分析方法
本文應(yīng)用計(jì)量分析法分析文獻(xiàn)發(fā)表年度分布、文獻(xiàn)發(fā)表地區(qū)分布、文獻(xiàn)機(jī)構(gòu)來(lái)源分布、文獻(xiàn)發(fā)表期刊等情況;并進(jìn)一步研究文獻(xiàn)的高頻關(guān)鍵詞,分析關(guān)鍵詞共詞矩陣,繪制高頻關(guān)鍵詞知識(shí)圖譜,探討高校大數(shù)據(jù)的研究熱點(diǎn)和研究前沿。
在研究過(guò)程中利用Excel、Access軟件對(duì)檢索到的文獻(xiàn)數(shù)據(jù)進(jìn)行數(shù)據(jù)分析前期的數(shù)據(jù)清洗、數(shù)據(jù)管理;使用SATI3.2軟件進(jìn)行信息的抽取,使用Ucinet軟件生成數(shù)據(jù)文件,并通過(guò)NetDraw進(jìn)行知識(shí)圖譜的可視化展示。
3 文獻(xiàn)計(jì)量分析
3.1文獻(xiàn)年度發(fā)表數(shù)量分布
對(duì)研究文獻(xiàn)按年度統(tǒng)計(jì)文獻(xiàn)數(shù)量,結(jié)果顯示:2009年文獻(xiàn)5篇,2010年4篇,2011年7篇,2012年9篇,2013年86篇,2014年336篇,2015年739篇,2016年截至3月9日發(fā)表文章58篇,另有15篇年代不詳。統(tǒng)計(jì)結(jié)果如表1所示。通過(guò)文獻(xiàn)數(shù)量可以看出,2012年以前,國(guó)內(nèi)大數(shù)據(jù)技術(shù)在高校中的應(yīng)用比較少,尚處于萌芽狀態(tài);2013年開(kāi)始增長(zhǎng),2014之后迅猛發(fā)展,2015年文章數(shù)占2009-2016.3月文獻(xiàn)總數(shù)的一半多。
表1 2009-2015年高校大數(shù)據(jù)相關(guān)文獻(xiàn)數(shù)量
3.2 文獻(xiàn)來(lái)源機(jī)構(gòu)分布
分析文獻(xiàn)的來(lái)源機(jī)構(gòu),可以為該領(lǐng)域各科研機(jī)構(gòu)的科研成果、學(xué)術(shù)水平提供科學(xué)依據(jù)。本文提取文獻(xiàn)中作者的所在機(jī)構(gòu),并將同一學(xué)校不同部門(mén)、更名機(jī)構(gòu)合并為同一機(jī)構(gòu),分析機(jī)構(gòu)來(lái)源情況。分析得出,文獻(xiàn)來(lái)源于619個(gè)科研機(jī)構(gòu),并按發(fā)文量由高到低排列,位于前12位的機(jī)構(gòu)及發(fā)文量如表2所示:
表2 高校大數(shù)據(jù)發(fā)文量前12名的機(jī)構(gòu)分布
通過(guò)表2可以看出發(fā)文量較高的大學(xué)主要位于上海、北京、南京、廣州等這些經(jīng)濟(jì)比較發(fā)達(dá)的地區(qū),大部分是重點(diǎn)大學(xué),這些高校在大數(shù)據(jù)方面的研究開(kāi)展較早,投入較多,研究基礎(chǔ)較好。
使用Access軟件,對(duì)不同機(jī)構(gòu)之間的合作發(fā)文情況進(jìn)行統(tǒng)計(jì),機(jī)構(gòu)間合作發(fā)文95篇,占總文獻(xiàn)數(shù)的7.1%。單個(gè)機(jī)構(gòu)發(fā)文數(shù)量遠(yuǎn)遠(yuǎn)高于合作發(fā)文,目前不同機(jī)構(gòu)在高校大數(shù)據(jù)方面的合作還比較少。
3.3文獻(xiàn)發(fā)表期刊分析
選擇1143篇期刊文獻(xiàn),經(jīng)過(guò)統(tǒng)計(jì),共發(fā)表在518種不同的期刊上,發(fā)文量排名靠前的期刊分別為《中國(guó)教育網(wǎng)絡(luò)》26篇,《農(nóng)業(yè)讀書(shū)情報(bào)學(xué)刊》22篇,《中國(guó)教育信息化》17篇,《蘭臺(tái)世界》17篇。統(tǒng)計(jì)發(fā)表文獻(xiàn)數(shù)量排在前十的期刊,如表3所示,這些期刊占518種期刊的1.93%,但是發(fā)文量共162篇,占全部期刊文獻(xiàn)的14.11%。說(shuō)明這些期刊中發(fā)表高校大數(shù)據(jù)方面的文章較多,是高校大數(shù)據(jù)研究的重要陣地。
表3 國(guó)內(nèi)高校大數(shù)據(jù)相關(guān)文獻(xiàn)排名前10的期刊分布
3.4 文獻(xiàn)關(guān)鍵詞分析
文獻(xiàn)的關(guān)鍵詞一般有3-5個(gè)詞或詞組組成,能體現(xiàn)出文章的核心思想。對(duì)關(guān)鍵詞進(jìn)行分析,找出高頻關(guān)鍵詞,發(fā)現(xiàn)研究領(lǐng)域的熱點(diǎn)問(wèn)題。本文共提取1258篇論文中的關(guān)鍵詞4853個(gè),整理、合并部分意思相同的關(guān)鍵詞,頻率最高的29個(gè)關(guān)鍵詞如表4所示:
表4 高校大數(shù)據(jù)相關(guān)高頻關(guān)鍵詞
從表4中可以看出,“大數(shù)據(jù)”詞頻最高, “高校圖書(shū)館”、“高校”、“思想政治教育”、“MOOC”、“數(shù)據(jù)挖掘”“互聯(lián)網(wǎng)、互聯(lián)網(wǎng)+”等關(guān)鍵詞出現(xiàn)的頻率也較高,可以看出這些都是大數(shù)據(jù)在高校的研究熱點(diǎn)。
但是,單個(gè)關(guān)鍵詞的詞頻不能夠說(shuō)明關(guān)鍵詞之間的關(guān)系,還需要進(jìn)一步進(jìn)行關(guān)鍵詞共詞分析的研究。
3.5 關(guān)鍵詞共詞分析
關(guān)鍵詞共詞分析是對(duì)關(guān)鍵詞兩兩統(tǒng)計(jì)其在同一片篇文獻(xiàn)中出現(xiàn)的次數(shù),構(gòu)建共詞矩陣,進(jìn)行聚類(lèi)分析,從而找出關(guān)鍵詞之間的聯(lián)系,進(jìn)一步解釋該領(lǐng)域研究熱點(diǎn)之間的聯(lián)系和結(jié)構(gòu)關(guān)系[4]。
本文使用Excel中的“數(shù)據(jù)透視表”功能,創(chuàng)建所有關(guān)鍵詞共詞矩陣,選擇矩陣中關(guān)鍵詞詞頻較高的部分?jǐn)?shù)據(jù),顯示在表5中。
上面的共詞矩陣中,對(duì)角線顯示單個(gè)關(guān)鍵詞在文獻(xiàn)中出現(xiàn)的次數(shù)(注:此處關(guān)鍵詞沒(méi)有進(jìn)行人工整理、合并),其他單元格顯示行和列對(duì)應(yīng)的兩個(gè)關(guān)鍵詞同時(shí)出現(xiàn)在文獻(xiàn)中的次數(shù)。該矩陣以對(duì)角線為對(duì)稱軸對(duì)稱,沿對(duì)角線方向,矩陣上下部分?jǐn)?shù)據(jù)完全一致。
為了研究高頻關(guān)鍵詞之間的關(guān)系,將表5所示的共詞矩陣導(dǎo)入到Ucinet軟件中,生成*.h的數(shù)據(jù)文件,并通過(guò)NetDraw可視化軟件繪制關(guān)鍵詞之間的知識(shí)圖譜,生成如圖1所示的高校大數(shù)據(jù)關(guān)鍵詞知識(shí)圖譜。
在圖1中,不同的節(jié)點(diǎn)代表不同的關(guān)鍵詞,節(jié)點(diǎn)的大小說(shuō)明了關(guān)鍵詞的中介中間性。處于整個(gè)圖中心位置的“大數(shù)據(jù)”關(guān)鍵詞,節(jié)點(diǎn)最大,說(shuō)明位置最為重要。節(jié)點(diǎn)之間線條的粗細(xì)程度代表了節(jié)點(diǎn)表示的關(guān)鍵詞共現(xiàn)的次數(shù)的多少。線條越粗,說(shuō)明兩個(gè)關(guān)鍵詞共現(xiàn)的次數(shù)較多,關(guān)系較為密切。
圖1中,關(guān)鍵詞“大數(shù)據(jù)”位于核心位置,是這兩年研究的重點(diǎn)?!案咝D書(shū)館”、“高?!薄ⅰ八枷胝谓逃?、“MOOC”、“數(shù)據(jù)挖掘”“互聯(lián)網(wǎng)、互聯(lián)網(wǎng)+”等關(guān)鍵詞,也是大數(shù)據(jù)在高校領(lǐng)域的研究熱點(diǎn)。
4 結(jié)論
綜上所述,通過(guò)對(duì)2009年-2016年CNKI上高校大數(shù)據(jù)相關(guān)文獻(xiàn)進(jìn)行計(jì)量分析法、內(nèi)容分析法和可視化分析法,得出以下結(jié)論:
文獻(xiàn)數(shù)量上,2012年以前,研究較少,處于萌芽狀態(tài);2013年開(kāi)始增長(zhǎng),2014之后迅猛發(fā)展。文獻(xiàn)的數(shù)量與大數(shù)據(jù)在我國(guó)的發(fā)展相吻合。媒體將2013年稱為中國(guó)的“大數(shù)據(jù)元年”。這一年,大數(shù)據(jù)開(kāi)始走向各行各業(yè),阿里、百度等企業(yè)與政府簽署了戰(zhàn)略合作框架協(xié)議,推動(dòng)大數(shù)據(jù)在政府統(tǒng)計(jì)中的應(yīng)用。教育、醫(yī)療等行業(yè)也認(rèn)識(shí)到大數(shù)據(jù)對(duì)于解決面臨的種種問(wèn)題具有重要戰(zhàn)略價(jià)值,大數(shù)據(jù)技術(shù)在各行業(yè)的研究應(yīng)用逐步增多。從數(shù)據(jù)可以看出,從2013年開(kāi)始,大數(shù)據(jù)技術(shù)與高校相關(guān)的文獻(xiàn)迅速增多,大數(shù)據(jù)在高校的研究與應(yīng)用越來(lái)越多。
從文獻(xiàn)發(fā)表期刊可以看出,近年來(lái)雖然文獻(xiàn)數(shù)量快速增長(zhǎng),但是,發(fā)文期刊主要集中在教育信息化、教育教學(xué)、圖書(shū)情報(bào)方面。高校大數(shù)據(jù)研究集中在教育、情報(bào)圖書(shū)館、計(jì)算機(jī)科學(xué)領(lǐng)域,具有學(xué)科交叉性,但是目前對(duì)大數(shù)據(jù)的研究還處在初期的理論、概念、設(shè)計(jì)方面的研究,大數(shù)據(jù)技術(shù)的深入研究、行業(yè)的實(shí)際應(yīng)用方面還比較薄弱。
通過(guò)關(guān)鍵詞詞頻分析、共詞矩陣、知識(shí)圖譜的分析,可以看出在高校圍繞大數(shù)據(jù)開(kāi)展的熱點(diǎn)研究主要集中在三個(gè)方面:
1) 大數(shù)據(jù)在高校圖書(shū)館、信息服務(wù)、知識(shí)服務(wù)、數(shù)據(jù)分析、數(shù)據(jù)挖掘方面的研究;
2) 大數(shù)據(jù)在人才培養(yǎng)、高等教育方面引起的變革,以及MOOC教學(xué)模式的引入也是研究的熱點(diǎn)內(nèi)容;
3) 大數(shù)據(jù)、云計(jì)算、物聯(lián)網(wǎng)技術(shù)在高校管理的信息化、數(shù)字化,以及建設(shè)數(shù)據(jù)中心,建設(shè)智慧校園中必不可少的。也是高校大數(shù)據(jù)的研究熱點(diǎn)。
總之,高校大數(shù)據(jù)的相關(guān)研究已經(jīng)取得了一些成果,今后科研人員還需要注重研究的深度,注重大數(shù)據(jù)關(guān)鍵技術(shù)在高校中的應(yīng)用的研究,將理論成果向?qū)嵺`應(yīng)用轉(zhuǎn)化,為高校、乃至整個(gè)教育行業(yè)帶來(lái)深遠(yuǎn)的影響。
參考文獻(xiàn):
[1] Spiroski,Mirko.Relative Citation Ratio of Top Twenty Macedonian Biomedical Scientists in PubMed:A New Metric that Uses Citation Rates to Measure Influence at the Article Level[J].Open access Macedonian journal of medical sciences,2016,4(2):187-93.
[2] Huang,Ying,Schuehle,Jannik,Porter,Alan L.A systematic method to create search strategies for emerging technologies based on the Web of Science: illustrated for Big Data[J].SCIENTOMETRICS,2015,105(3).
[3] Bragge,Johanna,Korhonen,Pekka,Wallenius,Hannele.Scholarly communities of research in multiple criteria decision making:a bibliometric research profiling study[J].international journal of information technology & decision making,2012,11(2):401-426.
[4] 楊瑞仙.大數(shù)據(jù)研究的文獻(xiàn)計(jì)量分析[J].情報(bào)科學(xué),2015,33(8):152-156.
[5] 桑慶兵.大數(shù)據(jù)在高校的應(yīng)用與思考[J].南通紡織職業(yè)技術(shù)學(xué)院學(xué)報(bào)(綜合版),2013,13(2):84-87. (下轉(zhuǎn)第16頁(yè))
(上接第13頁(yè))
[6] 姜開(kāi)達(dá),章思宇,孫強(qiáng).基于Hadoop 的校園網(wǎng)站日志系統(tǒng)設(shè)計(jì)與實(shí)現(xiàn)[C].中國(guó)高等教育學(xué)會(huì)教育信息化分會(huì)第十二次學(xué)術(shù)年會(huì)論文集,2014(11).
[7] 崔雷,鄭華川.關(guān)于從MEDLINE數(shù)據(jù)庫(kù)中進(jìn)行知識(shí)抽取和挖掘的研究進(jìn)展[J].情報(bào)學(xué)報(bào),2003(4):425-433.
[8] 楊繹.基于文獻(xiàn)計(jì)量的“大數(shù)據(jù)”研究[J].圖書(shū)館雜志,2012,33(9):29-32.
[9]李賀,袁翠敏,李亞峰.基于文獻(xiàn)計(jì)量的大數(shù)據(jù)研究綜述[J].情報(bào)科學(xué),2014,32(6):148-155.
[10] 侯元元,黃裕榮,張紅,等.基于文獻(xiàn)計(jì)量的我國(guó)大數(shù)據(jù)研究進(jìn)展分析[J].圖書(shū)情報(bào)工作,2014,58(12):204-208.