李毅強(qiáng) 鄭川
摘 要:本文以NoteExpress為分析工具,對(duì)中國(guó)知網(wǎng)中云計(jì)算檔案管理相關(guān)論文進(jìn)行計(jì)量分析,對(duì)該領(lǐng)域的發(fā)文時(shí)間及數(shù)量分布、核心作者、主要研究機(jī)構(gòu)和來源期刊進(jìn)行統(tǒng)計(jì)分析,通過閱讀文獻(xiàn)摘要和正文的方式對(duì)論文研究主題進(jìn)行分類,并從理論研究和實(shí)踐應(yīng)用兩方面概要介紹了主要研究成果,為推動(dòng)云計(jì)算在檔案行業(yè)的運(yùn)用提供支持。
關(guān)鍵詞:檔案管理;云計(jì)算;文獻(xiàn)計(jì)量;研究現(xiàn)狀
引言
隨著現(xiàn)代信息技術(shù)的飛速發(fā)展,社交網(wǎng)絡(luò)、信息系統(tǒng)、電子商務(wù)等數(shù)字業(yè)態(tài)的互聯(lián)網(wǎng)應(yīng)用迅猛擴(kuò)張,傳統(tǒng)的本地化計(jì)算機(jī)軟硬件管理模為應(yīng)對(duì)每天大量新增的數(shù)據(jù)存儲(chǔ)和運(yùn)算需求,維護(hù)成本水漲船高。為解決這一問題,亞馬遜、谷歌等頭部互聯(lián)網(wǎng)公司于2006年提出了“云計(jì)算”的技術(shù)構(gòu)想,將運(yùn)算能力、存儲(chǔ)設(shè)備、應(yīng)用程序等建設(shè)成可以隨時(shí)按需訪問的互聯(lián)網(wǎng)基礎(chǔ)設(shè)施,為用戶提供付費(fèi)計(jì)算機(jī)資源化服務(wù)。隨后云計(jì)算模式得到學(xué)術(shù)界和產(chǎn)業(yè)界的廣泛關(guān)注與認(rèn)可,云計(jì)算模型、算法、應(yīng)用、性能優(yōu)化等相關(guān)問題攻克,目前已有Amazon、IBM、 Google、華為、Microsoft、阿里巴巴、Sun等一大批云計(jì)算廠商為社會(huì)提供云計(jì)算服務(wù),一些企業(yè)和機(jī)構(gòu)選擇自建云計(jì)算資源對(duì)單位內(nèi)部提供相關(guān)云服務(wù)。為了解檔案行業(yè)對(duì)云計(jì)算技術(shù)的結(jié)合運(yùn)用情況,對(duì)該領(lǐng)域相關(guān)文獻(xiàn)進(jìn)行計(jì)量分析,分析云計(jì)算背景下的檔案管理研究現(xiàn)狀,為推動(dòng)云計(jì)算在檔案行業(yè)的運(yùn)用提供支持。
一、數(shù)據(jù)來源和研究方法
1.數(shù)據(jù)來源
以中國(guó)知網(wǎng)CNKI為數(shù)據(jù)來源,在NoteExpress中通過“在線檢索”功能選擇“CNKI中國(guó)知網(wǎng)”,檢索數(shù)據(jù)庫=總庫,檢索條件為:主題=檔案 and 云計(jì)算(精確匹配);發(fā)表時(shí)間=不限;文獻(xiàn)來源=不限,檢索時(shí)間為2020年1月10日,檢索得到文獻(xiàn)題錄898條。通過批量獲取和下載全文功能分別下載所得題錄和對(duì)應(yīng)文獻(xiàn)全文,再逐篇閱讀文獻(xiàn)摘要進(jìn)行數(shù)據(jù)清洗,剔除重復(fù)題錄51篇、新聞資訊12篇、期刊要覽5篇、內(nèi)容無關(guān)文獻(xiàn)15篇、訪談稿3篇,最終得到812篇云計(jì)算檔案管理相關(guān)文獻(xiàn)。
2.研究方法
采用文獻(xiàn)計(jì)量法和內(nèi)容分析法結(jié)合的方法對(duì)云計(jì)算檔案管理相關(guān)論文進(jìn)行分析。文獻(xiàn)計(jì)量法是運(yùn)用數(shù)學(xué)與統(tǒng)計(jì)學(xué)方法描述、評(píng)價(jià)和預(yù)測(cè)科技文獻(xiàn)的外部特征進(jìn)而推斷科學(xué)技術(shù)現(xiàn)狀與發(fā)展趨勢(shì)的定量分析方法,文獻(xiàn)計(jì)量工具使用文獻(xiàn)管理軟件NoteExpress和電子表格軟件Microsoft Excel。內(nèi)容分析法是社會(huì)科學(xué)研究中普遍使用的以文獻(xiàn)內(nèi)容為對(duì)象進(jìn)行客觀、系統(tǒng)描述的研究方法,可分別從定性和定量?jī)煞矫鎸?duì)文獻(xiàn)所包含的內(nèi)容進(jìn)行加工和處理。
二、云計(jì)算檔案管理文獻(xiàn)計(jì)量分析
1.發(fā)文時(shí)間計(jì)量分析
論文發(fā)文量是科學(xué)研究成果的基本指標(biāo),將文獻(xiàn)數(shù)量按發(fā)文時(shí)間的分布,可以直觀地體現(xiàn)某領(lǐng)域科研的發(fā)展情況和研究熱度。使用NoteExpress的文件夾信息統(tǒng)計(jì)功能對(duì)812篇文獻(xiàn)的發(fā)文年度進(jìn)行統(tǒng)計(jì),統(tǒng)計(jì)結(jié)果導(dǎo)入Microsoft Excel繪制發(fā)文時(shí)間及數(shù)量分布曲線如圖1所示。
使用二次函數(shù)對(duì)該曲線進(jìn)行回歸分析,得到趨勢(shì)線y=2.3462x2+38.345x-48.327, R2=0.8946,我國(guó)云計(jì)算檔案管理研究始于2009年前后,2009年至2014年該領(lǐng)域研究快速發(fā)展,年發(fā)文量從3篇穩(wěn)步增長(zhǎng)至117篇,2015年至2019年間研究熱度趨于穩(wěn)定并略有下降,年均發(fā)文量在100篇左右??傮w上看,檔案行業(yè)對(duì)云計(jì)算技術(shù)的研究熱度與云計(jì)算技術(shù)的成熟與工業(yè)應(yīng)用呈正相關(guān)。
2.文獻(xiàn)作者計(jì)量分析
使用NoteExpress的數(shù)據(jù)及分詞管理器對(duì)云計(jì)算檔案管理相關(guān)文獻(xiàn)的發(fā)文作者進(jìn)行統(tǒng)計(jì),812篇論文共有作者998人。由普耐斯定律知,發(fā)文數(shù)量≥的作者為核心作者,單個(gè)作者發(fā)文量最大為=9篇,故發(fā)文量3篇及以上的作者為該領(lǐng)域的核心作者。核心作者共29人,占作者總?cè)藬?shù)的2.91%,核心作者總發(fā)文數(shù)量為108篇,占總發(fā)文量的13.30%,繪制作者發(fā)文數(shù)量詞頻云圖如圖2所示。距普耐斯定律所述“半數(shù)論文由核心作者所撰寫,核心作者數(shù)量約等于全部作者總數(shù)的平方根”有較大差距。說明在檔案行業(yè)還未形成有效的關(guān)注云計(jì)算的核心作者群。
3.研究機(jī)構(gòu)計(jì)量分析
直接統(tǒng)計(jì)文獻(xiàn)的署名單位共有652個(gè)單位,由于論文署名常為作者所在單位的具體部門,直接統(tǒng)計(jì)會(huì)有很大誤差,故對(duì)署名機(jī)構(gòu)進(jìn)行預(yù)處理:署名單位統(tǒng)一以一級(jí)單位名進(jìn)行統(tǒng)計(jì),合著論文只取通訊作者所在單位。處理之后得到發(fā)文量5篇及以上的機(jī)構(gòu)如表1所示??梢姼叩葘W(xué)校是云計(jì)算檔案管理研究的主要機(jī)構(gòu),檔案局等檔案行政管理機(jī)構(gòu)也在一定程度上參與該領(lǐng)域科學(xué)研究。
4.來源期刊計(jì)量分析
812篇云計(jì)算檔案管理論文中有學(xué)位論文102篇,其余為期刊論文,對(duì)710篇期刊論文進(jìn)行來源分析。使用NoteExpress的數(shù)據(jù)及分詞管理器對(duì)“來源”進(jìn)行統(tǒng)計(jì),發(fā)現(xiàn)這些論文分布在210種刊物上,其中載文量8篇以上的期刊如表2所示。根據(jù)布拉德福定律對(duì)期刊的分類,核心區(qū)、相關(guān)區(qū)和非相關(guān)區(qū)三類期刊的發(fā)文量占總發(fā)文量的三分之一,故表2中排名前7的期刊為云計(jì)算檔案管理領(lǐng)域的核心區(qū)期刊,其中《檔案學(xué)研究》、《中國(guó)檔案》和《檔案管理》為北大中文核心期刊。
三、云計(jì)算檔案管理文獻(xiàn)內(nèi)容分析
通過閱讀文獻(xiàn)摘要和正文的方式分析文獻(xiàn)研究?jī)?nèi)容,對(duì)文獻(xiàn)研究的主題進(jìn)行分類,總體上云計(jì)算檔案管理論文研究主題可分為理論研究類和實(shí)踐應(yīng)用類,理論研究類涉及數(shù)字檔案資源云存儲(chǔ)、檔案信息云共享利用、云環(huán)境下檔案信息安全、檔案云系統(tǒng)構(gòu)架研究等,實(shí)踐應(yīng)用類主要介紹各類檔案系統(tǒng)基于云技術(shù)構(gòu)架的具體應(yīng)用與經(jīng)驗(yàn)介紹。
1.云計(jì)算檔案管理理論研究
劉偉謙和李華瑩研究了云計(jì)算在檔案館信息化過程中的三種運(yùn)用模式,分別分析了這些模式的優(yōu)缺點(diǎn),并提出檔案云服務(wù)平臺(tái)應(yīng)在國(guó)家主導(dǎo)下提供服務(wù)。高晨翔和黃新榮梳理了云計(jì)算環(huán)境下數(shù)字檔案館各構(gòu)成要素的安全性,建立了包括信息系統(tǒng)安全要素、數(shù)字檔案安全要素、云計(jì)算技術(shù)安全要素、法律法規(guī)制度要素、管理控制安全要素、組織內(nèi)部支持要素以及目標(biāo)與反饋要素在內(nèi)的云數(shù)字檔案館安全評(píng)估指標(biāo)體系。趙彥昌和毛麗敏討論了“互聯(lián)網(wǎng)+”背景下云技術(shù)對(duì)檔案收集、檔案工作宣傳、檔案信息整合與共享、數(shù)字檔案利用帶來的變革與完善。程妍妍對(duì)開放檔案信息系統(tǒng)模型在云環(huán)境下應(yīng)用的局限性進(jìn)行了分析,建立數(shù)字檔案館的功能結(jié)構(gòu)模型,并采用層次化、模塊化方法提出了基于OAIS的新型云數(shù)字檔案館功能結(jié)構(gòu)模型。牛力和韓小汀通過引入“云計(jì)算”技術(shù)解決檔案信息資源共享服務(wù)中存在的問題,設(shè)計(jì)了基于“支撐云”、“業(yè)務(wù)云”和“公共云”的三層次檔案云服務(wù)平臺(tái), 并提出了一種檔案信息資源整合與服務(wù)模式。
2.云計(jì)算檔案管理實(shí)踐應(yīng)用
薛四新、陶水龍和崔偉以北京市區(qū)域性數(shù)字檔案館為例,從云計(jì)算重組IT應(yīng)用模式出發(fā),結(jié)合數(shù)字檔案館建設(shè)的重點(diǎn)難點(diǎn)指出了我國(guó)數(shù)字檔案館區(qū)域性集約化建設(shè)的發(fā)展趨勢(shì)。楊茜雅介紹了中國(guó)聯(lián)通公司基于云技術(shù)建設(shè)全國(guó)性數(shù)字檔案館的思路和方案。劉振鵬、王坤瑞、卞昭玲等人以區(qū)域電子健康檔案為例,從業(yè)務(wù)需求和技術(shù)需求兩方面對(duì)基于云計(jì)算的電子健康檔案系統(tǒng)進(jìn)行了詳細(xì)分析。祁天嬌和劉越男介紹了基于微服務(wù)技術(shù)架構(gòu)以及云服務(wù)等新技術(shù)而建設(shè)的美國(guó)國(guó)家檔案與文件署的電子文件檔案館(ERA)項(xiàng)目,闡述了該項(xiàng)目的建設(shè)背景、目標(biāo)、過程和成果,總結(jié)了項(xiàng)目進(jìn)行的經(jīng)驗(yàn),為我國(guó)數(shù)字檔案館建設(shè)提供借鑒。
四、總結(jié)
筆者以中國(guó)知網(wǎng)為數(shù)據(jù)來源,以“檔案”和“云計(jì)算”為檢索主題,通過檢查策略調(diào)整、數(shù)據(jù)清洗等多種方法和過程,最終得到了也主題高度相關(guān)的文獻(xiàn)812篇。運(yùn)用NoteExpress為分析工具進(jìn)行文獻(xiàn)計(jì)量分析,再采用文獻(xiàn)計(jì)量法和內(nèi)容分析相結(jié)合的方法對(duì)文獻(xiàn)內(nèi)容進(jìn)行分析,用管理軟件NoteExpress和Excel進(jìn)行處理。
通過對(duì)中國(guó)知網(wǎng)中“云計(jì)算檔案管理”相關(guān)論文進(jìn)行計(jì)量分析,對(duì)該領(lǐng)域的發(fā)文時(shí)間進(jìn)行年度統(tǒng)計(jì),并使用二次函數(shù)進(jìn)行回歸分析,現(xiàn)發(fā)我國(guó)云計(jì)算檔案研究始于2009年前后,2014年達(dá)到峰值,從2009年起的十年間,以2014年為分界點(diǎn),我國(guó)云計(jì)算檔案管理研究經(jīng)歷了快速發(fā)展和穩(wěn)中略降的發(fā)展趨勢(shì),總體上檔案行業(yè)對(duì)云計(jì)算技術(shù)的研究與云計(jì)算技術(shù)的發(fā)展呈正相關(guān)。
通過對(duì)文獻(xiàn)作者進(jìn)行分析,發(fā)現(xiàn)核心作者29人,占總發(fā)文量的13.30%。距普耐斯定律的結(jié)論有較大差距,說明在檔案行業(yè)還未形成有效的關(guān)注云計(jì)算的核心作者群。在對(duì)研究機(jī)構(gòu)進(jìn)行計(jì)量分析時(shí)看到,高等學(xué)校是云計(jì)算檔案管理研究的主要機(jī)構(gòu),檔案局等檔案行政管理機(jī)構(gòu)也在一定程度上參與該領(lǐng)域科學(xué)研究。在對(duì)來源期刊計(jì)量分析時(shí),發(fā)現(xiàn)核心期刊的載文量并不高。
通過閱讀文獻(xiàn)摘要和正文的方式對(duì)論文研究主題進(jìn)行分類,并從理論研究和實(shí)踐應(yīng)用兩方面概要介紹了主要研究成果,為推動(dòng)云計(jì)算在檔案行業(yè)的運(yùn)用提供支持。云計(jì)算檔案管理的理論研究和實(shí)踐應(yīng)用研究均取得了一批重要的研究成果。
參考文獻(xiàn):
[1]羅軍舟,金嘉暉,宋愛波,東 方.云計(jì)算:體系架構(gòu)與關(guān)鍵技術(shù)[J].通信學(xué)報(bào),2011
[2]張建勛,古志民,鄭 超.云計(jì)算研究進(jìn)展綜述[J].計(jì)算機(jī)應(yīng)用研究,2010
[3]朱 亮,孟憲學(xué).文獻(xiàn)計(jì)量法與內(nèi)容分析法比較研究[J].圖書館工作與研究,2013
[4]馬文峰.試析內(nèi)容分析法在社科情報(bào)學(xué)中的應(yīng)用[J].情報(bào)科學(xué),2000
[5]徐 泉,王良勇,劉長(zhǎng)鑫.工業(yè)云應(yīng)用與技術(shù)綜述[J].計(jì)算機(jī)集成制造系統(tǒng),2018
[6]姚雪,徐川平,李 杰,馮 甜,舒安琴.基于普賴斯定律和二八定律及在線投稿系統(tǒng)構(gòu)建某科技期刊核心作者用戶庫[J].編輯學(xué)報(bào),2017
[7]趙 雋.基于布拉德福定律區(qū)域法的學(xué)術(shù)論文分布研究[J].現(xiàn)代情報(bào),2007
[8]劉偉謙,李華瑩.云計(jì)算在檔案館中的應(yīng)用模式初探[J].檔案學(xué)研究,2012
[9]高晨翔,黃新榮.云計(jì)算環(huán)境下數(shù)字檔案館的安全評(píng)估體系研究[J].檔案學(xué)研究,2017
[10]趙彥昌,毛麗敏.“互聯(lián)網(wǎng)+”環(huán)境下檔案信息資源建設(shè)若干問題研究[J].檔案學(xué)研究,2017
[11]程妍妍.基于OAIS的云數(shù)字檔案館功能結(jié)構(gòu)模型研究[J].檔案學(xué)研究,2019
[12]牛 力,韓小汀.云計(jì)算環(huán)境下的檔案信息資源整合與服務(wù)模式研究[J].檔案學(xué)研究,2013
[13]薛四新,陶水龍,崔 偉.數(shù)字檔案館云計(jì)算建設(shè)模式的思考——以北京市區(qū)域性數(shù)字檔案館為例[J].檔案學(xué)研究,2012
[14]楊茜雅.中國(guó)聯(lián)通全國(guó)性數(shù)字檔案館建設(shè)實(shí)踐的理性思考[J].檔案學(xué)研究,2014
(作者單位:1湖南大學(xué)檔案館;
2中南大學(xué)檔案技術(shù)研究所)
基金項(xiàng)目:湖南省教育科學(xué)“十三五”規(guī)劃專項(xiàng)課題(PZ194099) 《檔案數(shù)據(jù)挖掘在高校助學(xué)金評(píng)定中的應(yīng)用研究》研究成果之一。
作者簡(jiǎn)介:李毅強(qiáng)(1975-),男,湖南長(zhǎng)沙人,軟件工程碩士,工程師,研究方向:檔案信息化。