楊紅梅 王正為
(北方工業(yè)大學(xué)圖書館,北京 100144)
2015年10 月,國務(wù)院印發(fā)《統(tǒng)籌推進(jìn)世界一流大學(xué)和一流學(xué)科建設(shè)總體方案》,將建設(shè)一流大學(xué)和一流學(xué)科擺在重要的戰(zhàn)略位置。方案中提出了以一流為目標(biāo)、以學(xué)科為基礎(chǔ)、以績效為杠桿、以改革為動(dòng)力的建設(shè)原則[1]。在此背景下,利用權(quán)威的科研績效評價(jià)工具,了解學(xué)科在世界所處位置以及學(xué)科發(fā)展趨勢,對于高校培育優(yōu)勢學(xué)科有著重要意義。
ESI(Essential Science Indicators,基本科學(xué)指標(biāo))[2]是科睿唯安(原湯森路透知識產(chǎn)權(quán)與科技事業(yè)部)推出的一個(gè)衡量科學(xué)研究績效、跟蹤學(xué)科發(fā)展趨勢的分析評價(jià)工具。國際上普遍認(rèn)為進(jìn)入ESI 前1%的學(xué)科屬于世界領(lǐng)先學(xué)科[3]。近年來國內(nèi)各級教育主管部門也已將ESI 作為衡量高校學(xué)科發(fā)展的重要指標(biāo),如我國教育部學(xué)位與研究生教育發(fā)展中心在第四輪學(xué)科評估中把各高校進(jìn)入ESI全球前1%學(xué)科數(shù)、ESI高被引論文數(shù)作為重要指標(biāo)[4];教育部、財(cái)政部在“高等學(xué)校創(chuàng)新能力提升計(jì)劃”實(shí)施方案中提出,申報(bào)面向科學(xué)前沿的協(xié)同創(chuàng)新中心,“牽頭高校以及主要參與高校,依托的主體學(xué)科原則上應(yīng)進(jìn)入ESI學(xué)科排名前1%”[5]。這都顯示了國內(nèi)教育主管部門對ESI 學(xué)科評價(jià)的認(rèn)可。在此背景下,各高校也紛紛將ESI學(xué)科建設(shè)列入事關(guān)學(xué)校發(fā)展的重大事項(xiàng),力爭使更多學(xué)科入圍ESI全球前1%甚至前1‰,以此推進(jìn)學(xué)科步入國際先進(jìn)水平[6]。
利用 ESI、InCites[7]、WOS[8]數(shù)據(jù)庫對有可能入圍ESI前1%的學(xué)科進(jìn)行預(yù)測,是圖書館服務(wù)ESI學(xué)科建設(shè)的重要內(nèi)容之一,在為學(xué)校的學(xué)科發(fā)展規(guī)劃和政策制定提供支持的同時(shí),也能有效提升自身在學(xué)校的地位和影響力,因而越來越受到圖書館界的關(guān)注。ESI 以“被引次數(shù)”排名作為判斷機(jī)構(gòu)入圍的唯一標(biāo)準(zhǔn),被引次數(shù)這一指標(biāo)也就成為在潛力學(xué)科識別以及入圍時(shí)間預(yù)測分析中最直觀和最重要的指標(biāo)。由于ESI只公布學(xué)科排名前1%的機(jī)構(gòu)的統(tǒng)計(jì)數(shù)據(jù),尚未進(jìn)入ESI的機(jī)構(gòu)無法直接獲取其被計(jì)入ESI 學(xué)科的被引次數(shù)以及在ESI 中排名的具體位置,已有研究往往是在WOS或在In-Cites數(shù)據(jù)庫中模擬ESI檢索,得到機(jī)構(gòu)模擬ESI的被引次數(shù)CWI據(jù)此來推斷該機(jī)構(gòu)在ESI中的被引次數(shù)CESI。一般有兩類推斷方法:第一類是直接用CWI代替CESI,如管翠中[9]等運(yùn)用曲線擬合模型預(yù)測法對清華大學(xué)藥學(xué)與毒理學(xué)學(xué)科入圍時(shí)間進(jìn)行預(yù)測時(shí),采用的就是這種方法;第二類方法是針對某一學(xué)科,選取若干家入圍機(jī)構(gòu)為樣本,計(jì)算出樣本機(jī)構(gòu)在ESI 中的被引次數(shù)與模擬ESI 檢索出的被引次數(shù)的比值,取其平均值作為誤差修正因子,然后對于未入圍機(jī)構(gòu),令即可。如程建萍[10]等針對22個(gè)ESI學(xué)科,選取各學(xué)科入圍機(jī)構(gòu)中被引次數(shù)最低的100家機(jī)構(gòu)作為樣本,計(jì)算相應(yīng)的誤差修正因子,并針對9所大陸高校的計(jì)算機(jī)學(xué)科進(jìn)行了實(shí)證分析,推測其未來入圍的可能性;王雪[11]引入了被引轉(zhuǎn)換比值,即樣本機(jī)構(gòu)在WOS中模擬ESI 檢索的被引次數(shù)與ESI 中的被引次數(shù)比值的平均值,利用生物與生物化學(xué)學(xué)科的被引轉(zhuǎn)換比值,將南京工業(yè)大學(xué)、北京化工大學(xué)的生物與生物化學(xué)學(xué)科在WOS平臺模擬ESI檢索的被引次數(shù)轉(zhuǎn)換為ESI的被引次數(shù),并在此基礎(chǔ)上對以上機(jī)構(gòu)入圍時(shí)間進(jìn)行了預(yù)測,該方法與文獻(xiàn)[10]的原理相同。第一類方法有效的前提條件是,即yi≈1,這是顯而易見的;第二類方法有效的前提條件是所討論的學(xué)科中各機(jī)構(gòu)的被引次數(shù)比值yi差別不大,其平均值具有較好的整體代表性。
對于機(jī)構(gòu)被引次數(shù)的比值yi遠(yuǎn)小于1,且各機(jī)構(gòu)之間的yi差異較大,即平均值的代表性較差的學(xué)科,情況如何呢?筆者對ESI 工程學(xué)已入圍機(jī)構(gòu)的數(shù)據(jù)進(jìn)行觀測,發(fā)現(xiàn)工程學(xué)即是屬于這種情況,不同機(jī)構(gòu)在兩個(gè)數(shù)據(jù)庫中的被引數(shù)據(jù)以及排名數(shù)據(jù)的差異性表現(xiàn)不盡相同。以2018年11 月入圍ESI 工程學(xué)的機(jī)構(gòu)為例,排名在1393和1394 的兩家機(jī)構(gòu),其在ESI 中的被引次數(shù)分別為 2374 和 2372,在 InCites 中排名分別為 1139 和1507,被引次數(shù)分別為3904 和2522,兩家機(jī)構(gòu)在ESI中的排名僅相差1名,被引次數(shù)僅相差2次,但是在InCites 中的排名以及被引次數(shù)卻相去甚遠(yuǎn),且此種現(xiàn)象并非個(gè)別現(xiàn)象。分別計(jì)算入圍的末50家機(jī)構(gòu)在ESI 中的被引次數(shù)與在InCites 中的被引次數(shù)比值,發(fā)現(xiàn)比值數(shù)據(jù)未集中在工程學(xué)的誤差修正因子0.829 附近,而是分散在0.61-0.97 之間。連續(xù)追蹤多期數(shù)據(jù),得到相似的結(jié)果??梢酝茢辔慈雵鷻C(jī)構(gòu)的該比值數(shù)據(jù)也會(huì)在這一較大的范圍內(nèi)波動(dòng)。因此,在推斷未入圍機(jī)構(gòu)ESI 被引次數(shù)時(shí),需要考慮各機(jī)構(gòu)的特殊性,而不是僅僅用平均值yi作為誤差修正因子乘以CWI。
筆者的創(chuàng)新之處在于利用WOS平臺的引文分析功能,引入反映施引文獻(xiàn)來源特點(diǎn)的“施引文獻(xiàn)量比值”這一可觀測特征變量來推斷未入圍機(jī)構(gòu)在ESI 中的被引次數(shù)。文章主要包括三部分內(nèi)容。第一部分是方案設(shè)計(jì),闡述基于WOS 平臺引文分析功能推斷未入圍機(jī)構(gòu)ESI 被引次數(shù)的思路。第二部分是實(shí)證研究,以ESI 工程學(xué)學(xué)科為例,利用線性回歸方法推演ESI 被引次數(shù)計(jì)算公式。第三部分是針對具體未入圍機(jī)構(gòu)的應(yīng)用舉例。
無論是在InCites 還是在WOS 數(shù)據(jù)庫中模擬ESI 檢索,引用數(shù)據(jù)均來自WOS 七大核心合集,而其中只有來自SCI/SSCI/A&HCI 數(shù)據(jù)庫(以下簡稱三庫)的引用才會(huì)被計(jì)入ESI被引次數(shù)的統(tǒng)計(jì)。由于檢索功能的限制,無法將不屬于ESI統(tǒng)計(jì)范圍的被引次數(shù)去除,這是模擬ESI檢索時(shí)被引次數(shù)偏差的主要來源。對于工程學(xué)、計(jì)算機(jī)科學(xué)等學(xué)科,由于會(huì)議論文較多,被引數(shù)據(jù)來自于CPCI 也相對較多,從學(xué)科整體情況來看,模擬檢索的被引次數(shù)虛高現(xiàn)象更為突出。本方案以ESI 工程學(xué)為研究對象,嘗試通過WOS 數(shù)據(jù)庫平臺上強(qiáng)大的引文分析功能來找到問題的解決方案。
在WOS 中模擬ESI 檢索,采用的是“機(jī)構(gòu)擴(kuò)展+期刊名/ISSN 號”的策略,考慮到ESI 工程學(xué)的期刊有800余種[12],且綜合交叉性期刊還未考慮在內(nèi),檢索式不易編輯。而在InCites 中模擬ESI 檢索,無需構(gòu)建復(fù)雜的檢索式,只要通過對檢索條件進(jìn)行限定即可完成。因此本研究首先在InCites中模擬ESI 檢索,再將檢索出的論文導(dǎo)入到WOS 平臺上進(jìn)行引文分析。機(jī)構(gòu)論文在導(dǎo)入WOS 之后,通過引文分析報(bào)告可以觀測到論文集合的施引文獻(xiàn),對施引文獻(xiàn)按照其來源做進(jìn)一步精煉,即可獲得來自三庫的施引文獻(xiàn),令,其中“總施引文獻(xiàn)量”是指來自WOS七大核心合集的施引文獻(xiàn)總量,“三庫施引文獻(xiàn)量”是指來自SCI/SSCI/A&HCI數(shù)據(jù)庫的施引文獻(xiàn)量。
對于同屬于一個(gè)ESI學(xué)科,作者來自于同一個(gè)機(jī)構(gòu)的論文集合,其中不乏有主題相關(guān)的論文,它們很可能同時(shí)被引用,即成為同被引文獻(xiàn)。從施引文獻(xiàn)的角度來說,一篇施引文獻(xiàn)有可能貢獻(xiàn)了兩次及以上的被引次數(shù),因而施引文獻(xiàn)量并不等同于被引次數(shù)。施引文獻(xiàn)既可能來自三庫,也可能來自WOS 核心合集中其它數(shù)據(jù)庫,施引文獻(xiàn)對被引次數(shù)的貢獻(xiàn)度主要與機(jī)構(gòu)論文集合的主題相關(guān)度有關(guān),而與其所來源的數(shù)據(jù)庫關(guān)系不大。因此,對于機(jī)構(gòu)來說,來自三庫和來自WOS七大核心合集的施引文獻(xiàn)量比值x與被引次數(shù)比值y高度相關(guān)。
針對ESI 工程學(xué)學(xué)科,選取若干家入圍ESI 前1%的機(jī)構(gòu)作為樣本,采集樣本機(jī)構(gòu)的施引文獻(xiàn)量和被引次數(shù)數(shù)據(jù),運(yùn)用回歸方法考察施引文獻(xiàn)量比值x與被引次數(shù)比值y之間的關(guān)系,據(jù)此根據(jù)未入圍機(jī)構(gòu)的施引文獻(xiàn)量比值x推斷其被引次數(shù)比值y,進(jìn)而得到未入圍機(jī)構(gòu)的ESI被引次數(shù)。
考慮到排名末位的機(jī)構(gòu)與未入圍機(jī)構(gòu)的情況相對接近,筆者選取2018 年11 月入圍ESI 工程學(xué)前1%的機(jī)構(gòu)中被引次數(shù)最低的50 家機(jī)構(gòu)作為訓(xùn)練樣本,用以擬合線性回歸模型;綜合考慮被引次數(shù)與機(jī)構(gòu)性質(zhì)(盡量為中國高校)這兩個(gè)因素,選擇另外15 家入圍機(jī)構(gòu)作為檢驗(yàn)樣本,用以檢驗(yàn)?zāi)P偷膽?yīng)用效果。
2.1.1 ESI被引次數(shù)與InCites被引次數(shù)
ESI統(tǒng)計(jì)的數(shù)據(jù)范圍是近10到11年內(nèi)的WOS數(shù)據(jù),每兩個(gè)月更新一次,每次更新增加兩個(gè)月數(shù)據(jù);InCites 統(tǒng)計(jì)的 WOS 數(shù)據(jù)是從 1980 年開始,到目前已累積有近40年的數(shù)據(jù),每月更新一次,每次更新增加一個(gè)月數(shù)據(jù)?;谝陨显?,即便在In-Cites 中按照ESI 當(dāng)前的數(shù)據(jù)年限設(shè)定檢索時(shí)間跨度,也可能因兩個(gè)數(shù)據(jù)庫涵蓋的WOS 數(shù)據(jù)范圍的不同,導(dǎo)致模擬檢出的論文數(shù)與ESI真實(shí)值之間的差異。因此要特別注意兩個(gè)數(shù)據(jù)庫幫助文檔中關(guān)于所涵蓋的WOS數(shù)據(jù)時(shí)間范圍的提示[13-14],選擇合適的模擬檢索時(shí)間。
以本文的數(shù)據(jù)采集為例,在2018 年11 月初,InCites 更新,涵蓋的 WOS 數(shù)據(jù)范圍到 2018 年 8 月31 日,而此時(shí)的 ESI 還是 2018 年第 5 期的數(shù)據(jù),涵蓋WOS的數(shù)據(jù)范圍到2018年6月30日,在InCites中檢索時(shí)按照ESI的年代范圍限定檢索時(shí)間跨度:2008—2018,檢索結(jié)果也比ESI 多出了兩個(gè)月的WOS 數(shù)據(jù)。而在 2018 年 11 月中下旬,在 ESI 更新到第6 期數(shù)據(jù),而InCites 還尚未更新時(shí),兩個(gè)數(shù)據(jù)庫涵蓋的WOS數(shù)據(jù)都截至2018年8月31日,所以應(yīng)該選擇此時(shí)在InCites 中模擬ESI 檢索并采集數(shù)據(jù)。
盡管模擬檢索時(shí)已盡可能接近ESI 的真實(shí)情形(檢索時(shí)間跨度:2008—2018,文獻(xiàn)類型限定為article 與review,研究領(lǐng)域選擇ESI 學(xué)科分類體系下的工程學(xué)),但是由于兩個(gè)數(shù)據(jù)庫由不同的部門開發(fā),在數(shù)據(jù)統(tǒng)計(jì)上存在差異,模擬檢索出的機(jī)構(gòu)論文數(shù)與ESI 真實(shí)值依然會(huì)有不一致的情況。如果機(jī)構(gòu)在兩個(gè)數(shù)據(jù)庫中論文數(shù)差別過大,應(yīng)將其作為異常數(shù)據(jù)去除,補(bǔ)充新的機(jī)構(gòu)數(shù)據(jù)。記錄最終選取的65家樣本機(jī)構(gòu)在InCites 中模擬ESI檢索出的被引次數(shù)以及在ESI 中的被引次數(shù)。因篇幅所限,僅列出其中20家訓(xùn)練樣本機(jī)構(gòu)的數(shù)據(jù)(見表1)和全部15家檢驗(yàn)樣本機(jī)構(gòu)的數(shù)據(jù)(見表2),機(jī)構(gòu)名稱采用InCites 幫助文檔[14]中提供的機(jī)構(gòu)縮寫形式。
2.1.2 總施引文獻(xiàn)量與三庫施引文獻(xiàn)量
以某機(jī)構(gòu)為例,將模擬ESI檢索得到的機(jī)構(gòu)論文從InCites 中導(dǎo)出,利用論文的入藏號在WOS 中檢索,由檢索結(jié)果頁面上的“創(chuàng)建引文報(bào)告”鏈接轉(zhuǎn)至引文報(bào)告頁面,查看綜合引文統(tǒng)計(jì)(如圖1 所示),其中2900即為本例中機(jī)構(gòu)論文集合的總施引文獻(xiàn)量。
圖1 綜合引文統(tǒng)計(jì)
在圖1 中,雖然有總被引頻次的統(tǒng)計(jì)(3406),卻無從獲得究竟有多少被引次數(shù)來自于三庫。但是可以對施引文獻(xiàn)做進(jìn)一步的分析:點(diǎn)擊圖1中“施引文獻(xiàn)”鏈接,在“精煉檢索結(jié)果”面板的多個(gè)精煉選項(xiàng)中選擇Web of Science 索引,進(jìn)而選中三庫的復(fù)選框進(jìn)行精煉(見圖2),運(yùn)行的結(jié)果數(shù)為2454 篇(自動(dòng)去重),即是本例中三庫施引文獻(xiàn)量。
圖2 精煉施引文獻(xiàn)
依此方法分別獲取65家機(jī)構(gòu)的施引文獻(xiàn)量數(shù)據(jù),部分訓(xùn)練樣本機(jī)構(gòu)的數(shù)據(jù)見表1,檢驗(yàn)樣本機(jī)構(gòu)的數(shù)據(jù)見后面的表2。
表1 部分訓(xùn)練樣本機(jī)構(gòu)的統(tǒng)計(jì)數(shù)據(jù)
續(xù)表1
由于WOS 平臺上的數(shù)據(jù)是每天更新的,圖1中的引文數(shù)據(jù)已不再是樣本機(jī)構(gòu)在InCites中檢索時(shí)截至到2018年8月31日的WOS數(shù)據(jù),而是隨著WOS 平臺更新到了數(shù)據(jù)導(dǎo)入時(shí)的2018 年11 月。筆者在不同時(shí)間將同一家機(jī)構(gòu)的論文導(dǎo)入WOS平臺進(jìn)行分析,發(fā)現(xiàn)盡管被引次數(shù)、總施引文獻(xiàn)量隨著時(shí)間的推移有所增加,但是三庫施引文獻(xiàn)量與總施引文獻(xiàn)量的比值,即x值變化不大,間隔時(shí)間越短,差別越小,因此可以將x值看作是反映機(jī)構(gòu)在某一時(shí)間段內(nèi)ESI 論文的施引文獻(xiàn)來源特點(diǎn)的指標(biāo)。
利用50 家訓(xùn)練樣本機(jī)構(gòu)的兩組比值數(shù)據(jù)(x,y)作散點(diǎn)圖,見圖3。
圖3 (x,y)散點(diǎn)圖
從散點(diǎn)圖可以看出,樣本點(diǎn)基本都在一條直線附近,說明二者之間可能存在較強(qiáng)的線性關(guān)系。進(jìn)一步擬合線性回歸方程如下:
擬合度R2=0.940。修正的R2=0.939。這說明線性回歸方程對比值數(shù)據(jù)(x,y)擬合得很好。另外,根據(jù)回歸系數(shù)顯著性檢驗(yàn),對x前面系數(shù)進(jìn)行t檢驗(yàn)的 p 值為 2e-16,接近于 0,說明x對y的線性影響非常顯著。
根據(jù)未入圍機(jī)構(gòu)的施引文獻(xiàn)量比值x,代入線性回歸方程(1)式即得到被引次數(shù)比值,y的估計(jì)值。于是,
圖4為本方法流程圖。
圖4 推算ESI被引次數(shù)方法流程圖
為考察本文所提出的方法的有效性,針對15家入圍機(jī)構(gòu)所組成的檢驗(yàn)樣本,由公式(2)推算出各機(jī)構(gòu)ESI被引次數(shù),再采用文獻(xiàn)[9]的方法。
表2 用于檢驗(yàn)的樣本機(jī)構(gòu)被引次數(shù)誤差率比較
(InCites被引次數(shù)乘以ESI工程學(xué)誤差修正因子0.829),得到各機(jī)構(gòu)均值修正法的ESI 被引次數(shù),最后利用公式(3)分別計(jì)算兩種方法推測出的各機(jī)構(gòu)被引次數(shù)的誤差率,并進(jìn)行分析比較(相關(guān)數(shù)據(jù)見表2)。
本方法的誤差率平均值為1.87%,且由表2可見,各機(jī)構(gòu)誤差率均不超過5%。而基于均值修正法的誤差率平均值為9.02%,且有5家機(jī)構(gòu)的誤差率超過10%。由此可見筆者所提出的方法因引入了施引文獻(xiàn)量比值這一機(jī)構(gòu)特征變量,亦即考慮到了機(jī)構(gòu)間的差異性,從而使得推測出的ESI被引次數(shù)誤差率明顯減小。
以北方工業(yè)大學(xué)ESI 工程學(xué)為例,推算其在ESI 中的被引次數(shù)。于2018 年11 月中下旬,在In-Cites數(shù)據(jù)庫中模擬ESI檢索,檢出該機(jī)構(gòu)工程學(xué)論文 279 篇,被引次數(shù) 2613 次,利用 279 篇論文的WOS入藏號在WOS數(shù)據(jù)庫中檢索,查看論文集合的引文報(bào)告。引文統(tǒng)計(jì)結(jié)果顯示施引文獻(xiàn)2263篇,進(jìn)一步精煉結(jié)果,得到來自三庫的施引文獻(xiàn)1589 篇。利用公式(2)由InCites 中的被引次數(shù)推算出機(jī)構(gòu)在ESI中的被引次數(shù)為1908。與本期In-Cites 數(shù)據(jù)相對應(yīng)的ESI 工程學(xué)機(jī)構(gòu)閾值為2370,該機(jī)構(gòu)在InCites中模擬檢索的被引次數(shù)達(dá)到閾值的110%(=2613/2370),經(jīng)本方法推算出的被引次數(shù)僅為閾值的80%(=1908/2370)。單純某一期的數(shù)據(jù)不能說明問題,需要連續(xù)跟蹤機(jī)構(gòu)的被引數(shù)據(jù)以及與之對應(yīng)的機(jī)構(gòu)閾值數(shù)據(jù),采用一定的數(shù)據(jù)分析方法來判斷其未來入圍的可能性以及預(yù)測入圍時(shí)間,筆者對此不再展開討論。
對潛力學(xué)科的識別以及對潛力學(xué)科入圍ESI時(shí)間的預(yù)測分析是為滿足高校決策的實(shí)際需求而提出的研究主題,有助于高校制定科學(xué)合理的學(xué)科發(fā)展規(guī)劃,優(yōu)化資源配置,聚焦工作重心,從而實(shí)現(xiàn)優(yōu)勢學(xué)科的重點(diǎn)突破[15]。
模擬ESI 檢索得到的機(jī)構(gòu)論文被引次數(shù)存在“水分”,不將這一水分去除會(huì)直接影響到機(jī)構(gòu)入圍ESI 預(yù)測分析的準(zhǔn)確性。三庫施引文獻(xiàn)量與總施引文獻(xiàn)量的比值x可以被看作是度量機(jī)構(gòu)被引次數(shù)“水分”的個(gè)性化指標(biāo)(比值越小,水分越大)。以此為基礎(chǔ)而非以入圍樣本機(jī)構(gòu)的平均表現(xiàn)為基礎(chǔ)的被引次數(shù)推算方法,更具針對性地將模擬檢索出的被引次數(shù)水分去除,有效減少模擬檢索產(chǎn)生的偏差,從而提高預(yù)測入圍分析的準(zhǔn)確性,且可操作性和普適性強(qiáng),計(jì)算方法亦并不復(fù)雜,希望能為同行在進(jìn)行機(jī)構(gòu)入圍ESI預(yù)測分析時(shí)提供參考。