朱艷華 胡良霖 高瑜蔚 于鐵強
(1.中國科學院計算機網(wǎng)絡信息中心,北京 100190;2.北京軟件和信息服務交易所有限公司,北京 100086)
數(shù)據(jù)共享已經(jīng)得到各國政府和國際組織的共識,全面公開地獲取數(shù)據(jù)不僅能使其在應用過程中增值,也是推動科學認識突破的重要條件。因此,及時關注、了解和分析科研人員在數(shù)據(jù)共享方面的研究,對于指導數(shù)據(jù)管理和共享活動具有重要的現(xiàn)實意義。本文將對數(shù)據(jù)共享研究的論文進行文獻計量分析,以揭示數(shù)據(jù)共享研究的現(xiàn)狀和發(fā)展趨勢。數(shù)據(jù)主要來自中國知網(wǎng)學術文獻總庫,以“數(shù)據(jù)共享”為檢索詞,在文章篇名中進行精確檢索,檢索時間截至2017年5月8日。選取的文獻類型包括期刊、報紙、碩士論文、博士論文、國內(nèi)會議和國際會議[1]。一共檢索得到2067篇論文,每條記錄包括題名、作者、來源、發(fā)表時間、來源數(shù)據(jù)庫、被引次數(shù)、下載次數(shù)等基本信息。本文將分別從論文的學科、發(fā)表年度、論文類型、文獻來源、作者機構、資助基金、研究層次等方面進行統(tǒng)計分析。
最早的一篇論文是《I/O重定向與管道技術及其在實現(xiàn)數(shù)據(jù)共享方面的應用》,于1986年發(fā)表在《交通與計算機》上,介紹了輸入/輸出重定向和管道技術,是UNIX操作系統(tǒng)和由其演變而來的XENIX操作系統(tǒng)中很有特色的計算機管理技術;發(fā)表論文最多的年份是2016年,共213篇。歷年的發(fā)文量,如圖1所示。
圖1 論文的年度發(fā)文量
從圖1可以看到,2002—2004年以及2014—2016年,這兩個時間段發(fā)文量有明顯的增長趨勢。首先,科學數(shù)據(jù)共享工程的啟動帶來了2002—2004年數(shù)據(jù)共享論文量快速增長的第一個階段。2001年年底,科學數(shù)據(jù)共享工程啟動第一個試點——氣象科學數(shù)據(jù)共享試點,然后在資源環(huán)境、農(nóng)業(yè)、人口與健康、基礎與前沿等領域共24個部門開展了科學數(shù)據(jù)共享工作[2]。此后3年,與科學數(shù)據(jù)共享工程相關的數(shù)據(jù)共享論文數(shù)量持續(xù)增加。其次,大數(shù)據(jù)的快速發(fā)展與相關政策密集出臺帶來了2014—2016年快速增長的第二個階段。2015年8月,國務院印發(fā)《促進大數(shù)據(jù)發(fā)展行動綱要》,提出大數(shù)據(jù)成為推動經(jīng)濟轉型發(fā)展的新動力、重塑國家競爭優(yōu)勢的新機遇以及提升政府治理能力的新途徑[3]。2016年3月,根據(jù)兩會授權,新華社在線發(fā)布了《中華人民共和國國民經(jīng)濟和社會發(fā)展第十三個五年規(guī)劃綱要》,明確提出建設包括大數(shù)據(jù)應用在內(nèi)的8項信息化重大工程[4]。隨后,國家發(fā)展改革委、工業(yè)和信息化部、科技部等相繼啟動大數(shù)據(jù)發(fā)展計劃和研究項目。國家發(fā)展改革委發(fā)布《國家發(fā)展改革委辦公廳關于組織實施促進大數(shù)據(jù)發(fā)展重大工程的通知》[5]、科技部發(fā)布云計算和大數(shù)據(jù)重點專項2016年度項目申報指南[6]、國家自然科學基金委發(fā)布大數(shù)據(jù)驅(qū)動的管理與決策研究重大研究計劃2016年度項目指南等[7]。多個省市也按照行動綱要要求公開公布相關科學數(shù)據(jù),以上海市、貴州省為代表的部分省市先后規(guī)劃、部署、實施大數(shù)據(jù)工作;阿里巴巴、百度、華為等國內(nèi)產(chǎn)業(yè)巨頭紛紛布局大數(shù)據(jù)研究和應用生態(tài)鏈建設。受到國家政策和相關資助項目的鼓勵和支持的情況下,研究數(shù)據(jù)共享的學者們給予數(shù)據(jù)共享的大數(shù)據(jù)研究充分的關注和解讀。此外,數(shù)據(jù)共享研究資助基金情況也在一定程度上體現(xiàn)了國家的數(shù)據(jù)政策導向。
在2067篇論文中,期刊論文1401篇,占論文總量的67.78 %;報紙文章343篇,占論文總量的16.59%;碩士學位論文207篇,占論文總量的10.02%;博士學位論文11篇,占論文總量的0.53%;國內(nèi)會議89篇,占論文總量的4.31%;國際會議16篇,占論文總量的0.77%。詳見圖2。
按文獻來源的發(fā)文量進行排序,排名前10的期刊和報紙分別為:科技日報(24篇,14.29%)、中國氣象報(23篇,13.69%)、中國基礎科學(23篇,13.69%)、測繪與空間地理信息(19篇,11.31%)、貴陽日報(17篇,10.12%)、電腦知識與技術(14篇,8.33%)、地球信息科學學報(14篇,8.33%)、計算機工程(12篇,7.14%)、微計算機信息(11篇,6.55%)、計算機應用與軟件(11篇,6.55%)。詳見圖3。
圖2 論文的類型分布
圖3 論文文獻來源分布
2067篇數(shù)據(jù)共享論文中,標引學科與領域的共計1944篇論文。其中,有1465篇屬于自然科學研究層次(其中,工程技術、基礎與應用基礎研究、行業(yè)技術指導、專業(yè)實用技術、政策研究、標準與質(zhì)量控制分別是976篇、368篇、68篇、33篇、18篇、2篇),占標引總量的75.36%;454篇屬于社會科學研究層次(其中,行業(yè)指導、基礎研究、政策研究、職業(yè)指導分別是207篇、144篇、75篇、28篇),占標引總量的23.35%;25篇屬于其他研究層次(其中,大眾科普、高等教育、經(jīng)濟信息、大眾文化、基礎教育與中等職業(yè)教育分別有11篇、9篇、3篇、1篇、1篇),占標引總量的1.29%。詳見圖4。
其中,發(fā)表論文最多的前10門學科的分布及文章數(shù)量分別是:計算機軟件及計算機應用(851篇,50.41%)、自然地理學和測繪學(227篇,13.45%)、互聯(lián)網(wǎng)技術(152篇,9.00%)、自動化技術(92篇,5.45%)、科學研究管理(69篇,4.08%)、圖書情報與數(shù)字圖書館(67篇,3.97%)、地球物理學(59篇,3.50%)、地質(zhì)學(58篇,3.44%)、信息經(jīng)濟與郵政經(jīng)濟(57篇,3.38%)、氣象學(56篇,3.32%)。詳見圖5。
數(shù)據(jù)共享論文排名前10的關鍵詞分別為:數(shù)據(jù)共享(624篇,52.35%)、共享(100篇,8.39%)、元數(shù)據(jù)(97篇,8.14%)、科學數(shù)據(jù)(86篇,7.21%)、XML(68篇,5.71%)、科學數(shù)據(jù)共享(53篇,4.45%)、數(shù)據(jù)庫(52篇,4.36%)、WebGIS(38篇,3.19%)、 共 享 平 臺(37篇,3.10%)、空間數(shù)據(jù)(37篇,3.10%)。這些關鍵詞涉及數(shù)據(jù)共享、元數(shù)據(jù)標準、科學數(shù)據(jù)共享、數(shù)據(jù)共享與建庫技術、領域數(shù)據(jù)共享等內(nèi)容主題。詳見圖6。
圖4 論文的學科分布
圖5 論文所屬學科前十名排名
此外,中國知網(wǎng)還對關鍵詞共同出現(xiàn)的情況進行了共現(xiàn)矩陣分析。其中,與“數(shù)據(jù)共享”同時出現(xiàn)的關鍵詞前10個分別為:元數(shù)據(jù)(46次)、科學數(shù)據(jù)(31次)、XML(30次)、數(shù)據(jù)庫(21次)、Web GIS(12次)、數(shù)據(jù)交換(13次)、GIS(13次)、空間數(shù)據(jù)(12次)、大數(shù)據(jù)(11次)、Web Service(10次)。由此可見,研究數(shù)據(jù)共享的論文主要集中在元數(shù)據(jù)標準、科學數(shù)據(jù)共享、數(shù)據(jù)共享技術、領域數(shù)據(jù)共享等方面。
根據(jù)論文第一作者所在單位的行業(yè)性質(zhì)劃分,發(fā)表數(shù)據(jù)共享論文的作者單位包括高等學校、科研機構、政府管理部門、公司企業(yè)等。其中,發(fā)表論文最多的10個單位分別為:中國科學院(56篇,25.81%)、武漢大學(43篇,19.81%)、中國農(nóng)業(yè)科學院農(nóng)業(yè)信息研究所(18篇,8.29%)、浙江大學(18篇,8.29%)、解放軍信息工程大學(16篇,7.37%)、南京大學(15篇,6.91%)、華中科技大學(14篇,6.45%)、電子科技大學(13篇,5.99%)、中國水利水電科學研究院(12篇,5.54%)、河海大學 (12篇,5.54%)。詳見圖7。
圖6 數(shù)據(jù)共享論文關鍵詞前十名分布
圖7 論文作者機構分布
2067篇論文中共得到341項基金支持。其中,國家部委基金278項,占基金總量的81.52%;地方政府基金43項,占基金總量的12.61%;高?;?0項,占基金總量的2.93%;科研院所基金8項,占基金總量的2.35%;企業(yè)基金2項,占基金總量的0.59%。詳見圖8。
本文通過中國知網(wǎng)學術文獻總庫,檢索到1986—2017年數(shù)據(jù)共享研究領域論文2067篇,對這些論文進行了文獻計量分析,得到如下分析結果。
(1)不同文獻載體關注數(shù)據(jù)共享的不同方面。數(shù)據(jù)共享論文主要發(fā)表在學術期刊上,占了論文總量的一半以上;報紙文章也在宣傳數(shù)據(jù)共享政策和共享現(xiàn)狀方面發(fā)揮了重要作用,發(fā)文量位居第二;學位論中的碩士論文和博士論文占論文總量的10.55%。針對數(shù)據(jù)共享的研究主題,3種文獻載體各有側重。期刊論文關注數(shù)據(jù)共享學術研究,如數(shù)據(jù)共享政策/模式、數(shù)據(jù)共享和管理技術、數(shù)據(jù)共享標準規(guī)范體系、數(shù)據(jù)共享服務效果評估、數(shù)據(jù)共享平臺建設和服務等。報紙文章則側重報道和宣傳國內(nèi)外數(shù)據(jù)共享政策和相關學術活動、科學數(shù)據(jù)共享平臺建設進展和成效等,如(地方)政府數(shù)據(jù)共享開放(特別是以上海市、貴州省為代表的政府數(shù)據(jù)共享開放路徑可行性探索)、政府數(shù)據(jù)與智慧城市、科研數(shù)據(jù)共享平臺、商業(yè)數(shù)據(jù)共享等。學位論文的研究重點聚焦在以下幾個專題:數(shù)據(jù)共享平臺研究與實現(xiàn)、數(shù)據(jù)查詢與交換技術、異構數(shù)據(jù)融合與集成、元數(shù)據(jù)標準與管理、數(shù)據(jù)共享機制與策略研究等方面。
(2)載文的期刊既有計算機工程、測繪與空間地理信息、中國醫(yī)藥導刊這類專業(yè)性期刊,也有中國基礎科學、電子科技大學等綜合性期刊,內(nèi)容涉及基礎科學、計算機、醫(yī)學、氣象、交通、農(nóng)業(yè)、醫(yī)學、海洋等學科領域;報紙既有科技日報、人民日報、中國信息報等全國性報紙,也有貴州日報、濟南日報、銀川日報等地方性報紙,前者主要關注全國的數(shù)據(jù)共享政策和方針,后者則重點關注當?shù)卣臄?shù)據(jù)共享進展和現(xiàn)狀。
圖8 論文支持基金類型分布
(3)數(shù)據(jù)共享研究與數(shù)據(jù)政策和資助力度呈現(xiàn)正相關性。2002—2004年以及2014—2016年兩個時間段的論文數(shù)量增長趨勢明顯,這是因為國家啟動了數(shù)據(jù)共享項目和頒布了大數(shù)據(jù)政策,以及多個省市也按照行動綱要要求公開公布了相關科學數(shù)據(jù)。此外,國家部委基金項目和各級地方政府基金的支持,也是導致論文增長的原因。從論文的資助基金分布來看,在研究數(shù)據(jù)共享論文的基金項目中,80%是通過國家部委基金項目的支持,其中,國家自然科學基金、國家科技基礎條件平臺建設計劃、國家高技術研究發(fā)展計劃排在前列。此外,各級地方政府基金也積極支持數(shù)據(jù)共享的研究,在資助基金中所占比例位居第二。
(4)論文主要集中在自然科學研究領域,將近占論文總量的80%,而社會科學研究也占了一定比例。其中,自然科學領域中占份額最多的是“工程技術”共976篇,占該研究層次的66.62%;社會科學研究中所占份額最多的是“行業(yè)指導”共207篇,占該研究層次的45.60%。論文的專業(yè)主要集中在計算機軟件及計算機應用領域、互聯(lián)網(wǎng)技術、自動化技術等學科,這些領域重點研究數(shù)據(jù)共享的技術及其應用。論文涉及的專業(yè)還聚焦在地理學和測繪學、地球物理學、地質(zhì)學、氣象學等具體學科領域,這些領域重點關注學科數(shù)據(jù)共享平臺建設、開放服務等研究主題。論文的研究熱點包括數(shù)據(jù)共享模式、元數(shù)據(jù)標準規(guī)范、科學數(shù)據(jù)共享平臺、數(shù)據(jù)共享技術和領域數(shù)據(jù)共享等方面。
(5)論文的作者機構既有研究單位、政府部門,也有公司企業(yè),體現(xiàn)了數(shù)據(jù)共享研究的核心團隊。發(fā)表論文的機構首位是中國科學院,以下依次是武漢大學、中國農(nóng)業(yè)科學院農(nóng)業(yè)信息研究所、浙江大學、解放軍信息工程大學、南京大學、華中科技大學、電子科技大學等,分別發(fā)文56篇、43篇、18篇、18篇、16篇、15篇、14篇、13篇等。這些機構的研究人員是國內(nèi)數(shù)據(jù)共享研究的核心力量。其中,中國科學院一直高度重視科學數(shù)據(jù)在科研發(fā)現(xiàn)、信息化建設中的創(chuàng)新及應用。20世紀70年代,中國科學院開始建設專業(yè)數(shù)據(jù)庫。經(jīng)過數(shù)十年的持續(xù)建設,截至“十二五”項目結束,“科技數(shù)據(jù)資源整合與共享工程”系統(tǒng)地整合了58家單位的科學數(shù)據(jù)庫,可共享數(shù)據(jù)量達655TB[8]。
(6)當前,缺乏有關數(shù)據(jù)管理的研究,而這方面的研究將是為有關部門制定數(shù)據(jù)共享政策和法規(guī)提供參考的理論基礎,還有待進一步加強。2018年1月23日,中央全面深化改革領導小組第二次會議23日審議通過了《科學數(shù)據(jù)管理辦法》,并強調(diào)加強和規(guī)范科學數(shù)據(jù)管理,要適應大數(shù)據(jù)發(fā)展形勢,積極推進科學數(shù)據(jù)資源開發(fā)利用和開放共享。該辦法的出臺和實施,將進一步加強和規(guī)范科學數(shù)據(jù)管理,保障科學數(shù)據(jù)安全,提高開放共享水平,也將極大地推動我國各領域科學數(shù)據(jù)之間、科學數(shù)據(jù)與其他領域數(shù)據(jù)之間的整合和共享,為科技創(chuàng)新和經(jīng)濟社會發(fā)展提供有力支撐,讓科研人員和普通公眾從獲取數(shù)據(jù)中獲益。