(武漢大學(xué)信息管理學(xué)院 湖北武漢 430072)
隨著數(shù)據(jù)密集型、數(shù)據(jù)驅(qū)動(dòng)的科研成為新的科研方式,科學(xué)數(shù)據(jù)的管理和共享迅速得到了國(guó)內(nèi)外圖書(shū)情報(bào)界、信息科學(xué)和其他學(xué)科領(lǐng)域的高度重視。王巧玲等從時(shí)間、主題和期刊等方面對(duì)我國(guó)科學(xué)數(shù)據(jù)共享研究的論文進(jìn)行了計(jì)量分析,〔1〕姜曉虹梳理了科學(xué)數(shù)據(jù)研究的進(jìn)程,并提出了現(xiàn)階段研究存在的問(wèn)題與不足以及未來(lái)重點(diǎn)關(guān)注的方向。〔2〕這些研究對(duì)了解科學(xué)數(shù)據(jù)研究的發(fā)展現(xiàn)狀和趨勢(shì)及其研究進(jìn)程和結(jié)構(gòu)有較大的參考價(jià)值,但他們均利用頻次對(duì)文獻(xiàn)數(shù)量、作者、主題、機(jī)構(gòu)、來(lái)源期刊等進(jìn)行統(tǒng)計(jì)描述,缺乏基于內(nèi)容的分析,在考察科學(xué)數(shù)據(jù)的研究現(xiàn)狀,尤其是對(duì)于當(dāng)前科學(xué)數(shù)據(jù)的研究主題和熱點(diǎn)的揭示存在一定的局限性。
共詞分析法屬于內(nèi)容分析方法的一種,其原理是對(duì)一組詞兩兩統(tǒng)計(jì)它們?cè)谕黄墨I(xiàn)中出現(xiàn)的次數(shù),以此為基礎(chǔ)對(duì)這些詞進(jìn)行聚類(lèi)分析,從而反映出這些詞之間的親疏關(guān)系,進(jìn)而分析這些詞所代表的學(xué)科和主題的結(jié)構(gòu)變化,鑒別某一學(xué)科或主題的主要知識(shí)結(jié)構(gòu)和研究熱點(diǎn)?!?〕研究借助SPSS統(tǒng)計(jì)分析軟件,采用共詞分析方法探討當(dāng)前科學(xué)數(shù)據(jù)的研究主題,并結(jié)合文獻(xiàn)梳理主要的研究?jī)?nèi)容,旨在更加完整、客觀地展示科學(xué)數(shù)據(jù)領(lǐng)域的研究現(xiàn)狀和結(jié)構(gòu)。
研究所使用的數(shù)據(jù)來(lái)自CNKI全文數(shù)據(jù)庫(kù),為了盡可能地保證查全率,檢索主題為“科學(xué)數(shù)據(jù)”或“科研數(shù)據(jù)”的相關(guān)文獻(xiàn) (精確匹配),時(shí)間設(shè)定為2003年至2013年(檢索時(shí)間為2014年1月13日),共獲得2221條記錄。剔除與主題不符、重復(fù)刊載的論文和會(huì)議文獻(xiàn),有效記錄為582條,下載相應(yīng)的題錄數(shù)據(jù),采用共詞分析法,分三個(gè)階段進(jìn)行研究。
2.2.1 統(tǒng)計(jì)高頻詞和構(gòu)造共詞矩陣
第一,關(guān)鍵詞的預(yù)處理。抽取題錄數(shù)據(jù)中的關(guān)鍵詞,在詞頻統(tǒng)計(jì)之前進(jìn)行關(guān)鍵詞的消歧處理,如將“data curation”中文譯名統(tǒng)一為“數(shù)據(jù)監(jiān)護(hù)”。第二,統(tǒng)計(jì)關(guān)鍵詞頻次和構(gòu)建共詞矩陣。利用EXCEL統(tǒng)計(jì)分析功能統(tǒng)計(jì)關(guān)鍵詞的出現(xiàn)頻次,并截取頻次不小于5的48個(gè)關(guān)鍵詞作為科學(xué)數(shù)據(jù)領(lǐng)域研究方向和熱點(diǎn)的高頻關(guān)鍵詞。高頻詞不足以概括該領(lǐng)域的研究主題,需要兩兩統(tǒng)計(jì)這48個(gè)高頻詞在文獻(xiàn)中出現(xiàn)的頻次,利用EXCEL構(gòu)造共詞矩陣。
2.2.2 基于共詞矩陣的因子分析
在共詞矩陣的基礎(chǔ)上,利用SPSS軟件進(jìn)行因子分析,進(jìn)而展示該領(lǐng)域的研究主題和結(jié)構(gòu)。因子分析的目標(biāo)是用盡可能少的因子去描述眾多的指標(biāo)或要素之間的聯(lián)系,根據(jù)相關(guān)性大小把研究對(duì)象的變量分組,使相關(guān)性比較密切的幾個(gè)變量歸在同一類(lèi)中,每一類(lèi)變量就成為一個(gè)因子?!?〕因子分析中,為消除共詞頻次差異的影響,首先根據(jù)相關(guān)性將48×48的共詞矩陣轉(zhuǎn)化成斯皮爾曼相關(guān)矩陣。在此基礎(chǔ)上,利用主成分分析法(Principal Components)、協(xié)方差矩陣(Covariance Matrix)和平均正交旋轉(zhuǎn)方法(Equamax)進(jìn)行因子分析,得到主成分列表,并根據(jù)各主成分內(nèi)因子載荷的分布情況結(jié)合文獻(xiàn)內(nèi)容對(duì)主成分進(jìn)行命名。
2.2.3 研究結(jié)果的分析和討論
通過(guò)因子分析獲得了國(guó)內(nèi)科學(xué)數(shù)據(jù)領(lǐng)域研究論文關(guān)鍵詞的聚類(lèi)結(jié)果,結(jié)合相關(guān)主題的文獻(xiàn)對(duì)研究結(jié)果進(jìn)行進(jìn)一步的闡釋說(shuō)明,確定我國(guó)科學(xué)數(shù)據(jù)領(lǐng)域的研究主題和結(jié)構(gòu),并深入分析相關(guān)主題的研究?jī)?nèi)容。
通過(guò)對(duì)582篇文獻(xiàn)的關(guān)鍵詞進(jìn)行詞頻統(tǒng)計(jì),共獲取1193個(gè)關(guān)鍵詞。按照詞頻由高到低進(jìn)行排序,并截取詞頻不小于5的48個(gè)高頻關(guān)鍵詞作為共詞分析的基礎(chǔ)(如表1)??梢钥闯?,科學(xué)數(shù)據(jù)共享和科學(xué)數(shù)據(jù)是出現(xiàn)最為頻繁的關(guān)鍵詞,其頻次遠(yuǎn)遠(yuǎn)高于排在第三的元數(shù)據(jù)。
表1 國(guó)內(nèi)科學(xué)數(shù)據(jù)研究論文的高頻關(guān)鍵詞(頻次>4)
將48個(gè)高頻關(guān)鍵詞兩兩組合,統(tǒng)計(jì)其在582篇文獻(xiàn)中共現(xiàn)的次數(shù),形成48×48的共詞矩陣,如表2所示(版面所限,只列出共詞矩陣的局部)。由于科學(xué)數(shù)據(jù)共享本身出現(xiàn)的頻次遠(yuǎn)遠(yuǎn)高于其他關(guān)鍵詞,因此,科學(xué)數(shù)據(jù)共享與其他關(guān)鍵詞在同一篇文獻(xiàn)中共現(xiàn)的概率也是最高的。
表2 國(guó)內(nèi)科學(xué)數(shù)據(jù)研究論文高頻詞的共詞矩陣(部分)
通過(guò)因子分析,最終可得到主成分列表(如表3)。圖1中列出了部分主成分,它們按特征根從大到小排列,放棄特征值小于1的主成分,前8個(gè)主成分解釋了總變量的89.893%,其中僅前3個(gè)主成分的信息解釋量就達(dá)到了63.914%。表3顯示了因子載荷大于0.5的關(guān)鍵詞在8個(gè)因子(主成分)中的分布情況。
表3 因子數(shù)與涵蓋的信息量
表4 因子分析確定的科學(xué)數(shù)據(jù)研究主題結(jié)構(gòu)
結(jié)合表3和表4,因子分析的結(jié)果如下:
(1)因子命名。大部分關(guān)鍵詞都?xì)w于相應(yīng)的因子,只有1個(gè)關(guān)鍵詞——云計(jì)算,由于其載荷系數(shù)小于0.5而未能參加分類(lèi),說(shuō)明這一關(guān)鍵詞代表的主題較新,還沒(méi)有很好地同其他研究方向相結(jié)合。根據(jù)因子載荷大于0.7就對(duì)因子解釋有幫助的原則,〔5〕并綜合因子中其他關(guān)鍵詞的屬性,筆者給8個(gè)因子依次命名為:科學(xué)數(shù)據(jù)共享和數(shù)據(jù)共享平臺(tái)、科學(xué)數(shù)據(jù)組織與分類(lèi)、科學(xué)數(shù)據(jù)監(jiān)護(hù)與服務(wù)、科學(xué)數(shù)據(jù)整合、科學(xué)數(shù)據(jù)政策與開(kāi)放獲取、科學(xué)數(shù)據(jù)網(wǎng)格技術(shù)、科學(xué)數(shù)據(jù)挖掘、科學(xué)數(shù)據(jù)管理(見(jiàn)表4)。
(2)關(guān)鍵詞跨區(qū)分布情況。共有4個(gè)關(guān)鍵詞跨區(qū)分布。因子1和因子7中同時(shí)出現(xiàn)了數(shù)據(jù)共享平臺(tái),因子3和因子8中同時(shí)出現(xiàn)了科學(xué)數(shù)據(jù)管理,因子1和因子3中同時(shí)出現(xiàn)了數(shù)據(jù)服務(wù),因子3和因子5中同時(shí)出現(xiàn)了關(guān)聯(lián)數(shù)據(jù)。這表明了上述的兩兩因子包含的內(nèi)容相互滲透和交叉,有一定的相關(guān)性。
(3)關(guān)鍵詞的因子載荷系數(shù)為負(fù)的分布情況。共有2個(gè)關(guān)鍵詞的因子載荷系數(shù)為負(fù),分別為“數(shù)據(jù)集成”(系數(shù)為-0.588)和“關(guān)聯(lián)規(guī)則”(系數(shù)為 -0.584),同相應(yīng)的因子構(gòu)成負(fù)相關(guān)關(guān)系,一般對(duì)此類(lèi)因子不予考慮。例如,在因子3中的“關(guān)聯(lián)規(guī)則”是負(fù)值,這表明關(guān)于科學(xué)數(shù)據(jù)監(jiān)護(hù)與服務(wù)的研究可能涉及關(guān)聯(lián)規(guī)則方面的問(wèn)題,但還是比較少。
本部分結(jié)合關(guān)鍵詞詞頻和因子分析的結(jié)果,確定了科學(xué)數(shù)據(jù)研究的8大主題。從數(shù)據(jù)庫(kù)中獲得相關(guān)主題文獻(xiàn)的全文,通過(guò)深入分析文獻(xiàn)內(nèi)容,剖析這些主題的研究?jī)?nèi)容和結(jié)構(gòu),進(jìn)而探討目前國(guó)內(nèi)科學(xué)數(shù)據(jù)研究所呈現(xiàn)出的特征。
4.1.1 科學(xué)數(shù)據(jù)共享和數(shù)據(jù)共享平臺(tái)
國(guó)內(nèi)對(duì)科學(xué)數(shù)據(jù)共享的研究主要涉及以下4方面:①科學(xué)數(shù)據(jù)共享的動(dòng)力分析。如張晉朝采用問(wèn)卷調(diào)查方法,通過(guò)結(jié)構(gòu)方程模型分析了影響我國(guó)高??蒲腥藛T科學(xué)數(shù)據(jù)共享意愿的關(guān)鍵因素?!?〕②圖書(shū)館、科研機(jī)構(gòu)等機(jī)構(gòu)參與科學(xué)數(shù)據(jù)共享。如黃筱瑾等探討了研究型圖書(shū)館與科學(xué)數(shù)據(jù)共享的關(guān)系,指出不同類(lèi)型圖書(shū)館應(yīng)根據(jù)自身的服務(wù)能力及服務(wù)對(duì)象的需求提供不同類(lèi)型的科學(xué)數(shù)據(jù)共享服務(wù)?!?〕③不同技術(shù)在科學(xué)共享中的應(yīng)用,包括本體、元數(shù)據(jù)、網(wǎng)格等。如李麗亞等構(gòu)建了基于Ontology的數(shù)據(jù)共享檢索體系,并實(shí)現(xiàn)了簡(jiǎn)單的語(yǔ)義查詢(xún)功能?!?〕④科學(xué)數(shù)據(jù)共享的模式和實(shí)踐。如左建安和陳雅提出了大數(shù)據(jù)環(huán)境下科學(xué)數(shù)據(jù)共享的4種模式:國(guó)家政策驅(qū)動(dòng)、部門(mén)之間交換、企業(yè)發(fā)展帶動(dòng)以及國(guó)際組織參與?!?〕
科技部在2002年和2003年分別啟動(dòng)的“國(guó)家科學(xué)數(shù)據(jù)共享工程”和“國(guó)家基礎(chǔ)條件平臺(tái)建設(shè)”項(xiàng)目,引發(fā)了科學(xué)數(shù)據(jù)共享平臺(tái)建設(shè)與研究的熱潮。地球、氣象、林業(yè)、水利、機(jī)械、資源環(huán)境等不同學(xué)科和專(zhuān)業(yè)領(lǐng)域的學(xué)者均探討了相應(yīng)領(lǐng)域中數(shù)據(jù)共享平臺(tái)中數(shù)據(jù)資源建設(shè)、數(shù)據(jù)資源分類(lèi)與編碼、數(shù)據(jù)安全、數(shù)據(jù)匯交、網(wǎng)站總體設(shè)計(jì)、平臺(tái)的架構(gòu)與實(shí)現(xiàn)、互操作等問(wèn)題。如諸云強(qiáng)等基于Java EE環(huán)境,研制開(kāi)發(fā)了分布式地球系統(tǒng)科學(xué)數(shù)據(jù)共享平臺(tái),能夠?qū)崿F(xiàn)跨部門(mén)、跨系統(tǒng)的部署?!?0〕
4.1.2 科學(xué)數(shù)據(jù)組織與分類(lèi)
科學(xué)數(shù)據(jù)分類(lèi)與組織是科學(xué)數(shù)據(jù)管理、集成和服務(wù)的基礎(chǔ)。早期的研究主要包括元數(shù)據(jù)和XML等數(shù)據(jù)標(biāo)引技術(shù)、分類(lèi)和編碼體系以及傳統(tǒng)的信息組織方法的應(yīng)用。如耿慶齋等提出了多維組合的水利科學(xué)數(shù)據(jù)分類(lèi)體系結(jié)構(gòu),構(gòu)建了由科學(xué)屬性、獲取方法、數(shù)據(jù)載體和時(shí)空定位組成的多維水利科學(xué)數(shù)據(jù)分類(lèi)體系,并對(duì)其進(jìn)行了規(guī)范化的編碼設(shè)計(jì)。〔11〕
隨著對(duì)語(yǔ)義網(wǎng)技術(shù)研究的深入,數(shù)據(jù)資源的組織方法不再僅僅從數(shù)據(jù)資源的表面特征入手,而是逐漸深入至數(shù)據(jù)資源的概念和語(yǔ)義,出現(xiàn)了一些基于本體、關(guān)聯(lián)數(shù)據(jù)、生命周期的數(shù)據(jù)組織的理論與方法。如房小可指出圖書(shū)館可以從實(shí)體命名、實(shí)體資源描述框架描述、實(shí)體關(guān)聯(lián)胡和實(shí)體的發(fā)布等方面構(gòu)建科學(xué)數(shù)據(jù)的組織模型。〔12〕
4.1.3 科學(xué)數(shù)據(jù)監(jiān)護(hù)與服務(wù)
國(guó)外圖書(shū)情報(bào)界對(duì)數(shù)據(jù)監(jiān)護(hù)(Data Curation,DC)的研究涉獵較廣,從其歷史背景、概念界定、戰(zhàn)略規(guī)劃的制定、數(shù)據(jù)標(biāo)準(zhǔn)、關(guān)鍵技術(shù)到相關(guān)法律制定等都作了很多探索性研究與實(shí)踐?!?3〕然而,DC在國(guó)內(nèi)圖書(shū)情報(bào)界還是一個(gè)新興的研究領(lǐng)域,目前還沒(méi)有相關(guān)實(shí)踐探索,理論研究主要集中在:①?lài)?guó)外的機(jī)構(gòu)、組織及高校圖書(shū)館等有關(guān)DC的會(huì)議、培訓(xùn)、項(xiàng)目和實(shí)踐活動(dòng)及其最新進(jìn)展。②國(guó)內(nèi)圖書(shū)館可開(kāi)展的DC服務(wù),包括數(shù)據(jù)保存、數(shù)據(jù)共享和教育培訓(xùn)等服務(wù)類(lèi)型,分析開(kāi)展此項(xiàng)服務(wù)面臨的問(wèn)題,并提出相應(yīng)的對(duì)策。〔14〕③在國(guó)內(nèi)實(shí)施DC的方法和途徑,包括制定明確的DC規(guī)劃和發(fā)展策略、培訓(xùn)數(shù)據(jù)監(jiān)護(hù)人才、完善高校圖書(shū)館數(shù)字資源長(zhǎng)期保存機(jī)制等?!?5〕
隨著科學(xué)研究逐漸向數(shù)據(jù)密集型科研轉(zhuǎn)變,科研信息服務(wù)也由傳統(tǒng)的文獻(xiàn)服務(wù)轉(zhuǎn)向科學(xué)數(shù)據(jù)服務(wù)。國(guó)內(nèi)科學(xué)數(shù)據(jù)服務(wù)研究主要關(guān)注以下3個(gè)方面:①科學(xué)數(shù)據(jù)服務(wù)的內(nèi)容與方式。主要包括數(shù)據(jù)存儲(chǔ)與發(fā)布服務(wù)、數(shù)據(jù)發(fā)現(xiàn)與獲取服務(wù)、數(shù)據(jù)管理規(guī)劃服務(wù)、數(shù)據(jù)分析服務(wù)、數(shù)據(jù)引用服務(wù)和用戶(hù)社區(qū)服務(wù)等。〔16〕②科學(xué)數(shù)據(jù)服務(wù)中技術(shù)的應(yīng)用。涉及數(shù)據(jù)共享平臺(tái)的構(gòu)建技術(shù)、數(shù)據(jù)存儲(chǔ)、訪(fǎng)問(wèn)和獲取技術(shù)、SOA技術(shù)、語(yǔ)義集成技術(shù)、云計(jì)算和虛擬化技術(shù)等。③圖書(shū)館參與科學(xué)數(shù)據(jù)服務(wù)。研究主要包括科學(xué)數(shù)據(jù)服務(wù)引發(fā)的圖書(shū)館未來(lái)發(fā)展定位、戰(zhàn)略規(guī)劃問(wèn)題、圖書(shū)館參與科學(xué)數(shù)據(jù)服務(wù)的角色定位、圖書(shū)館可提供的科學(xué)數(shù)據(jù)服務(wù)方式及基于科學(xué)數(shù)據(jù)服務(wù)的信息素養(yǎng)教育等?!?7〕
4.1.4 科學(xué)數(shù)據(jù)整合
整合集成海量與異構(gòu)的科學(xué)數(shù)據(jù)資源是實(shí)現(xiàn)科學(xué)數(shù)據(jù)管理和共享的基礎(chǔ)。目前在實(shí)際應(yīng)用中已經(jīng)形成了一些較為成熟的整合方式,主要包括基于數(shù)據(jù)倉(cāng)庫(kù)和基于中間模式的整合方式?!?8〕隨著數(shù)據(jù)倉(cāng)庫(kù)應(yīng)用和網(wǎng)絡(luò)技術(shù)的發(fā)展,基于數(shù)據(jù)倉(cāng)庫(kù)的整合方式有了一些新的發(fā)展,如整合的對(duì)象由異構(gòu)數(shù)據(jù)庫(kù)向Web數(shù)據(jù)發(fā)展、利用數(shù)據(jù)挖掘等技術(shù)實(shí)現(xiàn)決策服務(wù)等更深層次的服務(wù)?;谥薪槟J降恼戏绞街饕遣捎弥虚g件,中間件構(gòu)建方法主要有兩種:基于XML和基于語(yǔ)義模型的構(gòu)建。〔19〕基于中介模式的整合方式也有一些新的發(fā)展,如開(kāi)始利用Web Service、網(wǎng)格中間件等相關(guān)技術(shù)實(shí)現(xiàn)面向服務(wù)的集成整合。另外,為了解決數(shù)據(jù)整合中的語(yǔ)義異構(gòu)問(wèn)題,研究者開(kāi)始關(guān)注如何利用具有較強(qiáng)語(yǔ)義概念的本體來(lái)解決數(shù)據(jù)整合中的語(yǔ)義不一致的問(wèn)題。
4.1.5 科學(xué)數(shù)據(jù)政策與開(kāi)放獲取
科學(xué)數(shù)據(jù)的管理和共享需要政策的支持和引導(dǎo),國(guó)外在科學(xué)數(shù)據(jù)政策的制定和研究起步較早。國(guó)內(nèi)相關(guān)研究主要側(cè)重于對(duì)英、美和澳大利亞等發(fā)達(dá)國(guó)家科學(xué)數(shù)據(jù)政策的調(diào)查和分析。從結(jié)構(gòu)層次上看,科學(xué)數(shù)據(jù)政策體系應(yīng)該是由宏觀(國(guó)家)、中觀(科研資助機(jī)構(gòu))、微觀(科研機(jī)構(gòu)、高校、出版機(jī)構(gòu)等)層面分別制定的科學(xué)數(shù)據(jù)政策共同組成。從內(nèi)容上看,科學(xué)數(shù)據(jù)政策體系的內(nèi)容至少應(yīng)該涵蓋數(shù)據(jù)產(chǎn)生與匯交政策、數(shù)據(jù)管理與共享政策、數(shù)據(jù)保管與利用政策、技術(shù)支持政策。裴雷結(jié)合我國(guó)科學(xué)數(shù)據(jù)相關(guān)政策進(jìn)行了實(shí)證研究,構(gòu)建了上下位政策概念的一致性指標(biāo)測(cè)算框架,討論了12個(gè)領(lǐng)域數(shù)據(jù)共享政策在吸收、擴(kuò)散和創(chuàng)新過(guò)程中的政策文本質(zhì)量,并提出改進(jìn)建議?!?0〕
相關(guān)的科學(xué)數(shù)據(jù)保存和共享政策,極大地促進(jìn)了數(shù)據(jù)的開(kāi)放獲取。國(guó)內(nèi)對(duì)科學(xué)數(shù)據(jù)開(kāi)放獲取的研究主要集中在科學(xué)數(shù)據(jù)公共獲取的障礙、開(kāi)放科學(xué)數(shù)據(jù)的相關(guān)政策、科學(xué)數(shù)據(jù)的開(kāi)放注冊(cè)和引用、開(kāi)放科學(xué)數(shù)據(jù)倉(cāng)儲(chǔ)與數(shù)據(jù)共享平臺(tái)等。陳傳夫較早地關(guān)注了科學(xué)數(shù)據(jù)的公共獲取問(wèn)題,分析了科學(xué)數(shù)據(jù)獲取方面存在的障礙,提出促進(jìn)科學(xué)數(shù)據(jù)公共獲取的建議?!?1〕隨后,劉細(xì)文和熊瑞分析了英美以及眾多國(guó)際組織與研究機(jī)構(gòu)的開(kāi)放獲取政策的特點(diǎn),認(rèn)為其體現(xiàn)出圍繞科學(xué)數(shù)據(jù)交流渠道的各環(huán)節(jié)的特征。〔22〕另外,黃永文等對(duì)國(guó)外3個(gè)開(kāi)放科學(xué)數(shù)據(jù)倉(cāng)儲(chǔ)進(jìn)行了介紹和比較,指出唯一標(biāo)識(shí)符(DOI)和CC協(xié)議的采用有利于科學(xué)數(shù)據(jù)的開(kāi)放共享和再利用?!?3〕
4.1.6 科學(xué)數(shù)據(jù)網(wǎng)格技術(shù)
網(wǎng)格是一個(gè)集成的計(jì)算和資源環(huán)境,其目標(biāo)是將分布在不同地理位置上的網(wǎng)絡(luò)、數(shù)據(jù)、計(jì)算資源、存儲(chǔ)、應(yīng)用等在內(nèi)的資源整合成一個(gè)無(wú)縫的計(jì)算環(huán)境?!?4〕科學(xué)數(shù)據(jù)網(wǎng)格(SDG)是其在國(guó)內(nèi)的主要應(yīng)用。SDG是中科院科研信息化環(huán)境建設(shè)中的一個(gè)試點(diǎn)項(xiàng)目,建立在海量數(shù)據(jù)資源的基礎(chǔ)上,旨在利用網(wǎng)格技術(shù)達(dá)到大規(guī)模、分布、異構(gòu)的數(shù)據(jù)資源的集成和共享,并以網(wǎng)格服務(wù)的形式提供數(shù)據(jù)服務(wù)的發(fā)布、查找和調(diào)用?!?5〕
目前科學(xué)數(shù)據(jù)網(wǎng)格以Globus為基礎(chǔ)提供數(shù)據(jù)訪(fǎng)問(wèn)和統(tǒng)一服務(wù)接口,但本質(zhì)上還是C/S模型,在發(fā)布和發(fā)現(xiàn)服務(wù)上采用集中式模式,對(duì)海量數(shù)據(jù)訪(fǎng)問(wèn)低效,周園春等在結(jié)合P2P特點(diǎn)的基礎(chǔ)上,提出了一種新的數(shù)據(jù)訪(fǎng)問(wèn)中間件框架,具有可擴(kuò)展性、數(shù)據(jù)訪(fǎng)問(wèn)高效性等特點(diǎn)?!?6〕另外,科學(xué)數(shù)據(jù)網(wǎng)格環(huán)境下數(shù)據(jù)傳輸技術(shù)、數(shù)據(jù)資源節(jié)點(diǎn)信任評(píng)價(jià)系統(tǒng)、信息服務(wù)技術(shù)、分布式查詢(xún)處理技術(shù)的關(guān)注也不斷增加。
4.1.7 科學(xué)數(shù)據(jù)挖掘
科學(xué)數(shù)據(jù)海量增長(zhǎng)的態(tài)勢(shì),使得科學(xué)數(shù)據(jù)挖掘技術(shù)在數(shù)據(jù)分析、聚類(lèi)、關(guān)聯(lián)、知識(shí)發(fā)現(xiàn)以及趨勢(shì)預(yù)測(cè)等各項(xiàng)應(yīng)用中變得尤為重要。由于數(shù)據(jù)的高維度、時(shí)變、時(shí)空相關(guān)等特性,使得現(xiàn)有的數(shù)據(jù)挖掘技術(shù)不能夠完全適應(yīng)這些特性,很多學(xué)者探討如何將傳統(tǒng)的數(shù)據(jù)挖掘方法包括基于決策樹(shù)的方法、基于神經(jīng)網(wǎng)絡(luò)的方法、基于遺傳算法的方法、貝葉斯方法、基于粗糙集的方法等應(yīng)用在科學(xué)數(shù)據(jù)挖掘中,提高挖掘的效率與精度。另外,針對(duì)當(dāng)前對(duì)科學(xué)數(shù)據(jù)特征表示的深度不夠問(wèn)題,孫巍提出了一種基于復(fù)合文本描述的科學(xué)數(shù)據(jù)特征的表示方法,提高了科學(xué)數(shù)據(jù)聚類(lèi)的效果。〔27〕
4.1.8 科學(xué)數(shù)據(jù)管理
科學(xué)數(shù)據(jù)管理的研究主要集中在:①?lài)?guó)外科學(xué)數(shù)據(jù)管理與服務(wù)實(shí)踐。如彭建波歸納了北美人文社會(huì)科學(xué)數(shù)據(jù)管理典型案例的特點(diǎn),對(duì)我國(guó)開(kāi)展人文社會(huì)科學(xué)數(shù)據(jù)管理提出了建議?!?8〕②科學(xué)數(shù)據(jù)管理工具與模式,涉及科學(xué)數(shù)據(jù)管理系統(tǒng)與平臺(tái)、科學(xué)數(shù)據(jù)可視化分析系統(tǒng)、科學(xué)數(shù)據(jù)管理的方法與程序和科學(xué)數(shù)據(jù)管理框架等。③科學(xué)數(shù)據(jù)管理政策。主要包括宏觀和微觀兩個(gè)層面,宏觀政策為科學(xué)數(shù)據(jù)的管理和共享提供法律上的依據(jù),〔29〕微觀層面主要體現(xiàn)在組織、機(jī)構(gòu)等的數(shù)據(jù)發(fā)展與管理政策。④科學(xué)數(shù)據(jù)管理的教育與培訓(xùn)。主要是對(duì)國(guó)外培訓(xùn)項(xiàng)目的介紹,目前國(guó)內(nèi)圖書(shū)情報(bào)專(zhuān)業(yè)課程設(shè)置中還未曾見(jiàn)到與科學(xué)數(shù)據(jù)管理相關(guān)的課程?!?0〕
通過(guò)因子分析和對(duì)文獻(xiàn)內(nèi)容的研究,國(guó)內(nèi)學(xué)者對(duì)科學(xué)數(shù)據(jù)的研究已經(jīng)形成了相對(duì)集中的主題領(lǐng)域,我們可以對(duì)科學(xué)數(shù)據(jù)的研究特點(diǎn)做進(jìn)一步的探討。第一,從上述8大主題的研究深度來(lái)看,部分主題還停留在基礎(chǔ)理論的研究階段。以科學(xué)數(shù)據(jù)共享主題為例,主要探討了數(shù)據(jù)共享的方法與機(jī)制,并沒(méi)有深入探究科研人員對(duì)科學(xué)數(shù)據(jù)需求狀況、數(shù)據(jù)共享中利益平衡問(wèn)題以及科學(xué)數(shù)據(jù)共享中的障礙因素。第二,許多新興主題研究力度不夠,難以單獨(dú)形成體系。通過(guò)對(duì)關(guān)鍵詞的統(tǒng)計(jì)分析,發(fā)現(xiàn)“云計(jì)算”、“關(guān)聯(lián)數(shù)據(jù)”等主題正在逐步成長(zhǎng)為新的熱點(diǎn),但由于關(guān)注度和研究力度不夠,使得他們?cè)诠苍~分析中只能依附于其他主題。第三,部分研究主題內(nèi)容相互交叉。例如,“科學(xué)數(shù)據(jù)共享和數(shù)據(jù)共享平臺(tái)”和“科學(xué)數(shù)據(jù)監(jiān)護(hù)與服務(wù)”這兩個(gè)主題均涉及到科學(xué)數(shù)據(jù)服務(wù)的研究。
研究以近十年國(guó)內(nèi)科學(xué)數(shù)據(jù)研究的582篇文獻(xiàn)的高頻關(guān)鍵詞為數(shù)據(jù)基礎(chǔ),通過(guò)共詞分析方法對(duì)研究主題和結(jié)構(gòu)進(jìn)行了分析,揭示了國(guó)內(nèi)科學(xué)數(shù)據(jù)8大研究主題,分別為科學(xué)數(shù)據(jù)共享和數(shù)據(jù)共享平臺(tái)、科學(xué)數(shù)據(jù)組織與分類(lèi)、科學(xué)數(shù)據(jù)監(jiān)護(hù)與服務(wù)、科學(xué)數(shù)據(jù)整合、科學(xué)數(shù)據(jù)政策與開(kāi)放獲取、科學(xué)數(shù)據(jù)網(wǎng)格技術(shù)、科學(xué)數(shù)據(jù)挖掘、科學(xué)數(shù)據(jù)管理,對(duì)了解國(guó)內(nèi)科學(xué)數(shù)據(jù)研究的關(guān)注主題具有較大的參考價(jià)值。需要指出的是,研究尚處于探索性階段,還存在著一些不足。首先,在高頻詞的閾值確定方面,沒(méi)有足夠的理論支撐,閾值的確定很大程度上依賴(lài)于以往的經(jīng)驗(yàn),具有一定的主觀性。其次,所研究的文獻(xiàn)類(lèi)型為期刊論文,并沒(méi)有包括學(xué)位論文等其他文獻(xiàn),如果將其他類(lèi)型的文獻(xiàn)統(tǒng)計(jì)在內(nèi),可能會(huì)對(duì)研究結(jié)論有一定的修正作用。另外,還可以利用CiteSpace等軟件對(duì)共引作者、機(jī)構(gòu)等進(jìn)行分析,展示當(dāng)前科學(xué)數(shù)據(jù)領(lǐng)域的研究進(jìn)展和前沿。
1.王巧玲,鐘永恒,江洪.我國(guó)科學(xué)數(shù)據(jù)共享研究的文獻(xiàn)計(jì)量分析.情報(bào)雜志,2008(7):128-130
2.姜曉虹.國(guó)內(nèi)科學(xué)數(shù)據(jù)相關(guān)研究進(jìn)展分析.圖書(shū)情報(bào)工作,2009,53(13):50-53
3.李武,董偉.國(guó)內(nèi)開(kāi)放存取的研究熱點(diǎn):基于共詞分析的文獻(xiàn)計(jì)量研究.中國(guó)圖書(shū)館學(xué)報(bào),2010(6):105-115
4.陸宇杰,張鳳仙,范并思.基于共詞分析的高校圖書(shū)館核心價(jià)值研究.大學(xué)圖書(shū)館學(xué)報(bào),2012(6):34-40
5.馬費(fèi)成,望俊成,張于濤.國(guó)內(nèi)生命周期理論研究知識(shí)圖譜繪制.情報(bào)科學(xué),2010(3):334-340
6.張晉朝.我國(guó)高??蒲腥藛T科學(xué)數(shù)據(jù)共享意愿研究.情報(bào)理論與實(shí)踐,2013,36(10):25-30
7.黃筱瑾,朱江,李菁楠.研究型圖書(shū)館參與科學(xué)數(shù)據(jù)共享服務(wù)研究.圖書(shū)館論壇,2009,29(6):177-179
8.李麗亞等.基于Ontology的科學(xué)數(shù)據(jù)共享檢索體系解析.情報(bào)理論與實(shí)踐,2009(5):81-85
9.左建安,陳雅.基于大數(shù)據(jù)環(huán)境的科學(xué)數(shù)據(jù)共享模式研究.情報(bào)雜志,2013(12):151-154
10.諸云強(qiáng)等.分布式地球系統(tǒng)科學(xué)數(shù)據(jù)共享平臺(tái)研究.計(jì)算機(jī)工程與應(yīng)用,2009,45(1):245-248
11.耿慶齋,張行南,朱星明.基于多維組合的水利科學(xué)數(shù)據(jù)分類(lèi)體系及其編碼結(jié)構(gòu).河海大學(xué)學(xué)報(bào)(自然科學(xué)版),2009(3):23
12.房小可.基于關(guān)聯(lián)數(shù)據(jù)的高校圖書(shū)館科學(xué)數(shù)據(jù)組織研究.圖書(shū)館建設(shè),2013(10):31-44
13.吳敏琦.Digital Curation:圖書(shū)情報(bào)學(xué)的一個(gè)新興研究領(lǐng)域.圖書(shū)館雜志,2012(3):8-12
14.沈婷婷,盧志國(guó).?dāng)?shù)據(jù)監(jiān)管在我國(guó)高校圖書(shū)館的應(yīng)用展望.圖書(shū)情報(bào)工作,2012,56(7):54-57
15.程蓮娟.美國(guó)高校圖書(shū)館數(shù)據(jù)監(jiān)護(hù)的實(shí)踐及其啟示.圖書(shū)館雜志,2012,31(1):76-78
16.洪程.國(guó)外科學(xué)數(shù)據(jù)服務(wù)現(xiàn)狀研究.圖書(shū)館雜志,2012(10):31-34
17.肖瀟,呂俊生.E-science環(huán)境下國(guó)外圖書(shū)館科學(xué)數(shù)據(jù)服務(wù)研究進(jìn)展.圖書(shū)情報(bào)工作,2012,56(17):53-58
18.馬文峰,杜小勇.基于數(shù)據(jù)的資源整合.情報(bào)資料工作,2007(1):41-45
19.白如江,冷伏海.“大數(shù)據(jù)”時(shí)代科學(xué)數(shù)據(jù)整合研究.情報(bào)理論與實(shí)踐,2014(1):94-99
20.裴雷.我國(guó)科學(xué)數(shù)據(jù)共享政策概念一致性與政策質(zhì)量評(píng)估.情報(bào)理論與實(shí)踐,2013,36(9):28-31
21.陳傳夫.中國(guó)科學(xué)數(shù)據(jù)公共獲取機(jī)制:特點(diǎn)、障礙與優(yōu)化的建議.中國(guó)軟科學(xué),2004(2):8-13
22.劉細(xì)文,熊瑞.國(guó)外科學(xué)數(shù)據(jù)開(kāi)放獲取政策特點(diǎn)分析.情報(bào)理論與實(shí)踐,2009(9):5-9
23.黃永文等.國(guó)外開(kāi)放科學(xué)數(shù)據(jù)研究綜述.現(xiàn)代圖書(shū)情報(bào)技術(shù),2013(5):21-27
24.宋佳等.人地系統(tǒng)科學(xué)數(shù)據(jù)網(wǎng)格.科研信息化技術(shù)與應(yīng)用,2011(2):82-89
25.張西廣等.科學(xué)數(shù)據(jù)網(wǎng)格研究進(jìn)展.計(jì)算機(jī)應(yīng)用研究,2009,26(10):3601-3603,3624
26.周園春等.科學(xué)數(shù)據(jù)網(wǎng)格中數(shù)據(jù)訪(fǎng)問(wèn)中間件的研究.微電子學(xué)與計(jì)算機(jī),2006,23(11):44-46
27.孫巍.一種基于復(fù)合文本描述的科學(xué)數(shù)據(jù)特征表示方法.現(xiàn)代圖書(shū)情報(bào)技術(shù),2009(5):22-27
28.彭建波.北美人文社會(huì)科學(xué)數(shù)據(jù)管理的實(shí)踐及其啟示.大學(xué)圖書(shū)館學(xué)報(bào),2013(6):33-37
29.孟祥保,錢(qián)鵬.高校社會(huì)科學(xué)數(shù)據(jù)管理的國(guó)際經(jīng)驗(yàn)及其借鑒——以UKDA和ICPSR為例.情報(bào)資料工作,2013(2):77-80
30.司莉等.2005年以來(lái)國(guó)外科學(xué)數(shù)據(jù)管理與共享研究進(jìn)展與啟示.國(guó)家圖書(shū)館學(xué)刊,2013,22(3):40-49