■劉筱敏 孫 媛 和 婧
1)中國科學(xué)院文獻情報中心,北京中關(guān)村北四環(huán)西路33號 100190,E-mail:liuxm@mail.las.ac.cn2)日本國立情報學(xué)研究所,東京
Scopus的出現(xiàn),打破了SCI①利用引文數(shù)據(jù)提供信息發(fā)現(xiàn)、信息導(dǎo)航和數(shù)據(jù)分析的絕對地位,雖然Scopus在數(shù)據(jù)集大小、數(shù)據(jù)檢索、數(shù)據(jù)呈現(xiàn)等方面與SCI有不同之處,但在引文數(shù)據(jù)的揭示方面與SCI有相似之處,為用戶利用引文數(shù)據(jù)了解科學(xué)的研究脈絡(luò)提供了新的選擇。
自2007年開始,Scopus數(shù)據(jù)庫推出了系列特色服務(wù),在信息分析方面取得了比較大的發(fā)展,英國皇家學(xué)會利用Scopus數(shù)據(jù)做出的一系列關(guān)于國際科研動態(tài)的分析報告更是引人注目。不少文獻計量學(xué)、科學(xué)計量學(xué)者紛紛撰文對兩個數(shù)據(jù)庫的數(shù)據(jù)進行比較分析,例如Lokman I.Meho從人-機界面研究者的引用及H指數(shù)方面對Scopus與Web of Science(WoS)進行了比較分析[1],他認為僅從期刊比較研究者的引用數(shù)據(jù),Scopus與SCI沒有區(qū)別,如果考慮到會議文獻(Conference Materials)的因素則Scopus改變了某些研究者的統(tǒng)計數(shù)據(jù)。éric Archambault從國家發(fā)表論文的角度對兩者進行了比較,數(shù)據(jù)分析的結(jié)論是,對國家論文數(shù)量及論文引用統(tǒng)計,TOP25國家排名及50%的國家排名均沒有發(fā)生變化,兩個數(shù)據(jù)庫的相關(guān)系數(shù)為0.99[2]。Loet Leydesdorff從不同學(xué)科的期刊實例出發(fā),對比了兩個數(shù)據(jù)庫的特點,他認為兩個數(shù)據(jù)庫的不同在于數(shù)據(jù)處理的規(guī)范化、標準化、準確性方面,SCI由于歷史的積淀,在這個方面更為成熟,而Scopus作為新的數(shù)據(jù)庫有待于進一步發(fā)展,在來源文獻的構(gòu)成方面Scopus也正在向更為合理的結(jié)構(gòu)發(fā)展[3]。Gorraiz J發(fā)現(xiàn)在藥學(xué)領(lǐng)域,JCR中影響因子高的期刊在Scopus中也具有高影響因子,通過用戶對期刊使用數(shù)據(jù)的調(diào)查,他認為有些用戶常用的期刊沒有被SCI覆蓋,但Scopus收錄了這些期刊,同時他認為兩個數(shù)據(jù)庫應(yīng)對期刊分類有所改進[4]。
國外的學(xué)者的研究多從一個學(xué)科或選擇期刊樣本對兩個數(shù)據(jù)庫進行對比分析,解讀不同樣本量下,期刊、研究者的影響力差異。本文通過對期刊兩年被引頻次、影響因子、刊均施引頻次的比較,嘗試全面分析兩個數(shù)據(jù)庫來源期刊影響力差異化特征,以及兩個數(shù)據(jù)庫不同學(xué)科期刊指標的特征,進而說明數(shù)據(jù)庫期刊的學(xué)科特點,為數(shù)據(jù)庫的選擇利用提供一些可借鑒的信息。
根據(jù)Scopus網(wǎng)站上給出的說明文檔[5],Scopus數(shù)據(jù)庫來源出版物的構(gòu)成有以下的特點:Scopus只收錄連續(xù)出版的出版物,包括期刊(Journal)、商業(yè)期刊(Trade journal)、叢書(Book series)、會議文獻。這些出版物應(yīng)該具備有ISSN號。其中期刊,是Scopus的主要構(gòu)成,通常是各領(lǐng)域的學(xué)術(shù)性期刊。商業(yè)期刊,的最低要求是(1)至少有一頁;(2)最少有一個作者。叢書,是指有叢書名、ISSN、卷或期號的圖書,目前Scopus中有來自叢書的830000條數(shù)據(jù)。從2013年開始,Scopus圖書覆蓋將進一步擴大,包括專著、專業(yè)參考書和大學(xué)水平的課本等內(nèi)容,圖書這種覆蓋深度和廣度的提升主要是來自社會科學(xué)和人文科學(xué)的需求。會議文獻進入Scopus有兩個途徑:一個是作為常規(guī)刊物的專輯,另一個是專業(yè)會議出版物。Scopus的會議文獻只收錄有全文的會議文獻。在Scopus數(shù)據(jù)庫中超過10%的數(shù)據(jù)是來自會議論文。由此可見,Scopus收錄對象的多元化。在目前公布的根據(jù)Scopus計算的期刊引證指標,其數(shù)據(jù)統(tǒng)計范圍來自于Scopus所有的收錄對象。
從WoS的角度看,來源出版物覆蓋了期刊、會議文獻、專利、圖書等等,從學(xué)科領(lǐng)域分為自然科學(xué)、社會科學(xué)、人文藝術(shù)等學(xué)科領(lǐng)域。因此,從文獻類型到學(xué)科領(lǐng)域,基本與Scopus一致。但在數(shù)據(jù)集合的組成形式上兩者存在根本的區(qū)別。Scopus將不同的文獻類型,各個學(xué)科領(lǐng)域融合于一個數(shù)據(jù)庫中,而WoS保持學(xué)科區(qū)分,文獻類型區(qū)分的不同數(shù)據(jù)庫的特點,形成了SCI、SSCI、A&HCI、BCI、CPCI等獨立的數(shù)據(jù)庫。SCI則是以期刊為對象,覆蓋了自然科學(xué)、工程技術(shù)、醫(yī)學(xué)等領(lǐng)域的數(shù)據(jù)庫。在JCR自然科學(xué)版中展示的期刊數(shù)據(jù)僅來自于SCI,而不包括SSCI、CPCI等數(shù)據(jù)庫對SCI期刊的引用。
Scopus收錄的文獻類型呈多元化狀態(tài),而SCI僅收錄期刊,為分析對象具有可比性,本文選擇的比較對象僅限于期刊。
Scopus期刊列表來自于Elsevier網(wǎng)站提供的截止到2013年9月的來源文獻列表[6],該表中包括期刊、叢書、會議錄名稱,其中Scopus收錄的正在出版的期刊有20697種。SCI的來源期刊以2014年1月15日在其網(wǎng)站(ThomsonReuters.com)下載的Science Citation Index-Expanded期刊列表為依據(jù),品種數(shù)量為8613種。Scopus收錄期刊數(shù)量為SCI的2.4倍。
通過期刊名稱、ISSN、E-ISSN等數(shù)據(jù)特征進行SCI、Scopus來源期刊表之間進行比對,SCI來源期刊中僅有159種不包括在Scopus來源期刊集合中。Scopus、SCI來源期刊比對過程中,發(fā)現(xiàn)兩者對期刊的處理方法有些許不同,例如當一種期刊有多個分輯時,可以處理為一種期刊,也可以處理為多種期刊,例如,Journal of Geophysical Research,分為 A-G 7個分輯,在Scopus中將其處理為一種期刊,而SCI中則處理為7種期刊。對于期刊的出版狀態(tài)兩者也有不一致的情況,Scopus認為期刊已經(jīng)??蛘吒拿鳶CI中尚認為正在出版,反之,SCI認為期刊停刊或者改名,Scopus認為期刊正在出版的情況也會出現(xiàn)。由于Scopus期刊品種量大于SCI期刊品種量,因此本文期刊品種及出版狀態(tài)的認定以Scopus為準。
Scopus將期刊分為4個學(xué)科集合,27個二級類目,300多個三級類目,如果不計算社會科學(xué)、藝術(shù)與人文科學(xué)、經(jīng)濟與財經(jīng)、商業(yè)管理、心理學(xué)5個二級類目,自然科學(xué)領(lǐng)域為22個二級類目。本文選擇22個二級類目做為學(xué)科分析的基礎(chǔ),并采用Scopus的分類體系對未列入Scopus的SCI159種期刊進行分類。在Scopus中一種期刊可以屬于一個及一個以上的類目。
根據(jù)表1的數(shù)據(jù)可以計算出,醫(yī)學(xué)是Scopus、SCI兩個數(shù)據(jù)庫中期刊數(shù)量占有最高比例的學(xué)科,在Scopus中醫(yī)學(xué)期刊數(shù)量超過了1/4,達到26.91%,SCI醫(yī)學(xué)領(lǐng)域期刊占其總數(shù)的21.46%,兩者基本相當。其他學(xué)科領(lǐng)域則表現(xiàn)出比較明顯的差別。數(shù)學(xué)、物理、化學(xué)、地球科學(xué)、農(nóng)業(yè)與生物科學(xué)、材料科學(xué)、免疫學(xué)、神經(jīng)科學(xué)、獸醫(yī)學(xué)等領(lǐng)域SCI期刊分布比例明顯高于Scopus同領(lǐng)域期刊的比例。凡是SCI期刊分布比例高于Scopus的學(xué)科領(lǐng)域,兩者之間的期刊數(shù)量差別較小,反之則期刊數(shù)量差別較大,說明SCI的期刊構(gòu)成更為側(cè)重自然科學(xué)基礎(chǔ)研究領(lǐng)域。同時也說明相對應(yīng)用科學(xué)研究領(lǐng)域而言,基礎(chǔ)科學(xué)研究領(lǐng)域中兩者期刊的數(shù)量分布較為接近。(見表1)。
對Scopus與SCI的比較不能脫離具體數(shù)據(jù)的分析,本文數(shù)據(jù)分析的基礎(chǔ)是來自于SCImago和JCR。SCImago是西班牙研究團隊利用Scopus數(shù)據(jù)從2000年至今出版的年度期刊統(tǒng)計指標(數(shù)據(jù)下載網(wǎng)址為:http://www.scimagojr.com),其中包括了影響因子、論文量、三年論文被引頻次、SJR等各種文獻計量指標。JCR是SCI出品的關(guān)于期刊的年度統(tǒng)計指標數(shù)據(jù)庫,經(jīng)典的指標包括影響因子、被引頻次、論文量、H指數(shù)等。
表1 Scopus、SCI期刊分類表
本文選擇了SCImago和JCR2010-2012年三年的數(shù)據(jù)作為分析的基礎(chǔ)。需要特別說明的是,由于Scopus和SCI在三年之中期刊品種的調(diào)整,以及期刊名稱、ISSN等重要信息的變化,JCR每年因指標過于失常不公布期刊引證指標等各種因素的存在,因此,本文期刊分析的對象以2012年SCImago與JCR公布的數(shù)據(jù)為準。由于這些原因,本文來自兩個期刊指標數(shù)據(jù)庫的期刊數(shù)量與第一部分提到的Scopus與SCI的數(shù)據(jù)概況有所差異。
SCImago與JCR發(fā)布指標不盡相同,在所有發(fā)表的指標數(shù)據(jù)中,影響因子(IF)是兩個數(shù)據(jù)庫公布的唯一相同的統(tǒng)計指標。仔細對比影響因子的數(shù)據(jù)則發(fā)現(xiàn)兩者數(shù)據(jù)處理過程中差異的存在。IF的定義是論文篇均引用次數(shù),兩個數(shù)據(jù)源相同指標的可比性不僅在于指標定義的相同、計算公式的相同,而在于計算基數(shù)的一致性,IF的計算基礎(chǔ)是兩年論文的數(shù)量。通過兩個數(shù)據(jù)源的比較,我們發(fā)現(xiàn),SCImago和JCR對論文數(shù)量的認定標準不同,兩者存在一定的差異。例如著名的New England Journal of Medicine,在 SCImago中,2010-2011 年的論文量分別為1817和1816篇,而在JCR中僅有345和349篇,存在巨大的差異,這種差異直接導(dǎo)致影響因子的不可比較。為使得數(shù)據(jù)具有可比性,我們通過每個數(shù)據(jù)庫的IF,分別計算一種期刊兩年論文的被引頻次,然后再計算學(xué)科刊均施引頻次,根據(jù)學(xué)科刊均被引頻次進行比較。具體做法如下:
首先,明確統(tǒng)計期刊數(shù)量。由于SCI與Scopus收錄期刊的年度有所不同,期刊論文數(shù)出現(xiàn)年度缺失的情況,為規(guī)避因為論文量缺失帶來的計算被引頻次的失誤,因此,將兩個數(shù)據(jù)庫分別僅有一年論文數(shù)據(jù)的期刊剔除,即2010或2011年兩年論文量均不能為0,在這種情況下,SCImago期刊有17512種,JCR有7252種,兩者重復(fù)期刊7128種。
在以上條件下,兩個數(shù)據(jù)庫的期刊學(xué)科分布情況如下:
表2 2012年SCImago與JCR期刊學(xué)科分布
其次,計算期刊兩年論文被引頻次(C)。根據(jù)SCImago及JCR的IF值,及兩個數(shù)據(jù)庫分別提供的2010年,2011年兩年的論文量,計算出每種期刊前兩年論文的被引頻次,計算方法如下:
其中CJCR,CSCImago分別為 JCR和SCImago期刊兩年論文被引頻次IF和A2010,A2011均為各自數(shù)據(jù)庫的數(shù)值。
第三,計算期刊學(xué)科刊均施引頻次(T)。該指標用于觀察學(xué)科內(nèi)期刊對該學(xué)科領(lǐng)域中某種期刊被引頻次的平均貢獻度。根據(jù)Scopus對期刊的學(xué)科屬性標注,計算每種期刊所在學(xué)科刊均施引頻次。當一個期刊有多個學(xué)科類目時,每個學(xué)科類目的期刊數(shù)量不一致,因此每種期刊的學(xué)科刊均施引頻次在不同類目中的數(shù)值不相同。
其中,N是每種期刊所在學(xué)科領(lǐng)域的期刊數(shù)量當期刊屬于“General”類時,因為期刊為多學(xué)科的屬性,因此,General類期刊刊均施引頻次的計算公式為每種期刊的被引頻次除以該數(shù)據(jù)庫所有期刊數(shù)量。
一般情況下,期刊數(shù)量越多,期刊被引用頻次會隨著期刊數(shù)量的增加而增加,通過對CJCR和CSCImago的計算已經(jīng)得到驗證。但被引頻次的增加與期刊數(shù)量的增加有怎樣的關(guān)系?我們采用影響因子的算法,計算兩個數(shù)據(jù)庫期刊學(xué)科刊均施引頻次(T),用這個指標分析在某個學(xué)科中所有期刊對某種期刊影響因子的平均貢獻程度。
計算T值后,將其分為四種類型第一種類型為Tj-jcr=Tj-SCImago。當兩個數(shù)值之間差值在0~0.001時,我們認為兩個數(shù)據(jù)庫之間的學(xué)科刊均施引頻次沒有差別,視為兩者相等,在表3中,可以看出這種情況的期刊數(shù)量極少,醫(yī)學(xué)、農(nóng)業(yè)和生物科學(xué)是較為集中的兩個學(xué)科。
第二種類型為Tj-jcr>Tj-SCImago,在表3中,可以看出這種類型的期刊數(shù)量占有極大的數(shù)量,說明這些期刊被引頻次主要來自于核心期刊的引用。期刊數(shù)量的增加沒有同比增加期刊被引頻次。換言之,期刊被引頻次的增加沒有在核心期刊范圍內(nèi)增長得那么快,平均而言在SCImago中每種期刊的施引貢獻度都比較小。
第三種類型為Tj-jcr<Tj-SCImago,這種情況具有一定的期刊數(shù)量,主要集中于計算機科學(xué)、數(shù)學(xué)兩個領(lǐng)域。這種類型明顯受到期刊數(shù)量的影響,期刊數(shù)量的增加使得期刊被引頻次得到了提高的幾率。
第四種類型為兩個數(shù)據(jù)庫沒有T值的期刊。兩個數(shù)據(jù)庫都出現(xiàn)了有論文量的數(shù)值但沒有影響因子的期刊,這種情況比較復(fù)雜,有多種因素,有的期刊兩年的論文確實沒有被引用,也有的期刊屬于期刊名稱變化或者期刊被調(diào)整出數(shù)據(jù)庫,或者因為期刊的一些行為沒有計算影響因子等等,復(fù)雜的因素導(dǎo)致無法一一辨認,這種類型的期刊數(shù)量在每個學(xué)科中分布極少,因此忽略不計。
在本文采用的2012年的期刊數(shù)據(jù)中,SCImago的期刊數(shù)量為JCR期刊數(shù)量的2.41倍,綜上所述,發(fā)現(xiàn)期刊學(xué)科刊均施引頻次并沒有因為期刊數(shù)量的增加而成倍增加,這一點與核心期刊存在的特征相同,即大量的施引期刊來自于少數(shù)期刊[8]。
表3 各學(xué)科刊均施引頻次期刊數(shù)量分布表
進一步分析兩個數(shù)據(jù)庫的數(shù)據(jù)特點,利用CJCR和CSCImago數(shù)據(jù)為基礎(chǔ),計算兩組數(shù)據(jù)的差異性,希望能夠發(fā)現(xiàn)不同來源期刊數(shù)量樣本下期刊被引頻次的差異性。
利用Excel中的F檢驗與T檢驗兩個檢驗函數(shù),求各學(xué)科的CJCR和CSCImago差異。首先利用F檢驗計算每個學(xué)科方差無明顯差異的雙尾概率,計算結(jié)果各學(xué)科F檢驗(array1,array2)>=0.05,表示兩組數(shù)據(jù)的變異系數(shù)相同,則在T檢驗計算時選擇單尾分布。用T檢驗計算后,得到各學(xué)科的p值。根據(jù)統(tǒng)計中通用的解釋,當p>0.05時,表示兩組數(shù)據(jù)之間無顯著差異,反正則存在顯著,當p值<0.01時,則存在顯著差異。
在統(tǒng)計的22個學(xué)科中,除“Computer Science”、“Medicine”兩個學(xué)科以外,20個學(xué)科的p值均大于0.05(見表4),表示兩年被引頻次沒有顯著的差異,可以理解為在20個學(xué)科中,雖然兩個數(shù)據(jù)庫的學(xué)科期刊數(shù)量存在差異,但沒有對期刊兩年的被引頻次產(chǎn)生顯著影響。JCR期刊在一定的期刊范圍中已經(jīng)獲得了其影響力的地位。
表4 各學(xué)科Ttest檢驗p值列表
“Computer Science”、“Medicine”兩個學(xué)科的p值小于0.01,說明這兩個學(xué)科期刊的被引頻次在不同的數(shù)據(jù)庫中存在顯著差異。我們以這兩個學(xué)科為對象,試圖分析差異性存在的原因。
從兩個類目的期刊數(shù)量上看,在表2中可以觀察到SCImago與JCR兩者的差別不是所有類目中最大的,Computer Science類目中SCImago是JCR期刊數(shù)量的1.85倍,Medicine類目為2.22倍,而Health Professions類目中兩個數(shù)據(jù)庫期刊數(shù)量的差為2.61倍,General類目為2.59倍,顯然期刊數(shù)量的差距不是期刊被引頻次顯著差異的根本原因。
在對“Computer Science”期刊被引頻次差異性的分析過程中,我們再次審視了Scopus的數(shù)據(jù)構(gòu)成,在本文的第一部分數(shù)據(jù)庫概況中提到Scopus的構(gòu)成包括了期刊、會議錄和圖書多種文獻類型。根據(jù)Scopus的統(tǒng)計會議論文主要集中在工程技術(shù)、計算機科學(xué)和一些物理領(lǐng)域。Scopus計算機領(lǐng)域論文中的62.3%來自會議論文,工程技術(shù)領(lǐng)域的45.1%來自會議論文[4]。SCImago的數(shù)據(jù)計算是來自于Scopus所有的數(shù)據(jù),因此,不能否認在計算機領(lǐng)域中大量會議論文對期刊引用的貢獻程度。Lokman I.Meho(2008)利用Scopus和SCI兩個數(shù)據(jù)庫對22位計算機學(xué)科領(lǐng)域的學(xué)者進行引用頻次及h指數(shù)研究,他認為如果僅用期刊數(shù)據(jù)來評估,SCI與Scopus沒有重要的區(qū)別,但如果考慮到會議文獻的話,則應(yīng)該使用Scopus[1],這也說明了會議文獻的存在在一定程度上改變了研究者統(tǒng)計指標的變化。另一方面,Scopus會議錄中占有較大比例是工程技術(shù)領(lǐng)域,其p值為0.063,在22個學(xué)科中僅次于計算機科學(xué)與醫(yī)學(xué),可以看出會議論文對該類期刊的影響也是存在的。
醫(yī)學(xué)領(lǐng)域沒有大量會議論文對期刊引用的貢獻,期刊引用差異性的因素是什么呢?分析醫(yī)學(xué)領(lǐng)域以及相關(guān)領(lǐng)域,我們發(fā)現(xiàn)在醫(yī)學(xué)期刊與生物化學(xué)、免疫學(xué)、神經(jīng)科學(xué)、衛(wèi)生保健、護理學(xué)、心理學(xué)、藥學(xué)、社會科學(xué)之間存在較強的學(xué)科交叉關(guān)系,特別是醫(yī)學(xué)與社會科學(xué)、心理學(xué)之間的交叉關(guān)系表現(xiàn)的尤為突出(見表5),在SCImago22個學(xué)科中,醫(yī)學(xué)是與社會科學(xué)領(lǐng)域交叉期刊分布最多的學(xué)科。在SCImago中,醫(yī)學(xué)與社會科學(xué)、心理學(xué)交叉的期刊分別為228、258種,比JCR同類期刊數(shù)量高了近5倍,而在SCImago中社會科學(xué)期刊和心理學(xué)期刊數(shù)量分別為3615、891種,JCR同類期刊僅為202和113種,兩者數(shù)量相差懸殊,這些來自于社會科學(xué)與心理學(xué)期刊對醫(yī)學(xué)期刊、醫(yī)學(xué)交叉科學(xué)期刊的引用,使得SCImago醫(yī)學(xué)期刊的被引頻次與JCR產(chǎn)生了差異。由于JCR的數(shù)據(jù)分為自然科學(xué)與社會科學(xué)兩個版本,無法合并計算醫(yī)學(xué)期刊被自然科學(xué)和社會科學(xué)的引用,因此不能進一步對社會科學(xué)與醫(yī)學(xué)之間的論文交叉引用關(guān)系做進一步的分析,是本文的不足。
表5 醫(yī)學(xué)與其他學(xué)科交叉分布最多的期刊列表
通過計算機科學(xué)、醫(yī)學(xué)兩個領(lǐng)域期刊被引頻次的差異性分析,發(fā)現(xiàn)一個共同的特征,不論來源文獻是期刊論文、會議論文還是圖書,只要論文量到達一定差異量時,不同樣本量下的期刊被引頻次會產(chǎn)生差異,大量的數(shù)據(jù)可能會引起期刊被引頻次或者核心期刊的被引頻次有明顯的變化。Scopus中有530萬余條數(shù)據(jù)為會議論文,其中160萬余條論文刊登在期刊上,實際會議論文記錄為370萬余條數(shù)據(jù),其中的62.3%為計算機領(lǐng)域的論文,那么依據(jù)Scopus與SCI的數(shù)據(jù)計算的期刊被引頻次或者影響因子的基數(shù)有較大的差異。在醫(yī)學(xué)領(lǐng)域的期刊指標計算中,JCR自然科學(xué)版不包含人文社會科學(xué)的數(shù)據(jù),從而也產(chǎn)生了計算基礎(chǔ)的較大差異。
再對計算機科學(xué)、醫(yī)學(xué)兩個學(xué)科領(lǐng)域的期刊影響因子進行抽樣分析。試圖進一步說明期刊的差異性是來自于單純影響因子數(shù)值的大小,還是根本性地顛覆了期刊的排序地位。
為避免兩個數(shù)據(jù)庫因論文數(shù)量差異而產(chǎn)生的影響因子不可比較,在兩類期刊中選擇了兩個數(shù)據(jù)庫2010-2011年論文量之差在-1與1之間的期刊,其中計算科學(xué)類有73種,醫(yī)學(xué)領(lǐng)域有103種期刊。
將Computer Science的73種期刊,依據(jù)影響因子排序,SCImago與JCR的排名產(chǎn)生極大的跳躍。73種期刊中,影響因子排序名次變化在大于10位的就有23種期刊,其中ACM Transactions on Information and System Security在SCImago中排名第12,在JCR中排名第46,Quantum Information and Computation在SCImago中排名第13,在JCR中排名第31,兩個期刊排序位次變化最大。將73種期刊因子制圖(圖1),可以明顯地看出兩個影子因子排序的跳躍性。進一步可以說明在SCImago中會議論文對計算機學(xué)科期刊IF的影響。用同樣的方法,將Medicine的103種期刊進行影響因子的分別排序,SCImago與JCR的排名變化幅度較小,排序變化大于10位的期刊僅有5種,另有20種期刊排名沒有變化,排名變化幅度最大的是PPAR Research在SCImago中排名46,在JCR中排名19,Sports Biomechanics在SCImago中排名63,在JCR中排名74。將103種期刊的影響因子進行制圖,發(fā)現(xiàn)醫(yī)學(xué)領(lǐng)域SCImago與JCR期刊影響因子的排序位次變化不大,并且從影響因子的數(shù)值上看,兩者也非常接近,兩條曲線基本重合。雖然在本文的第二部分中說明Medicine期刊在兩個數(shù)據(jù)庫中的被引頻次存在差異,但從103種期刊的影響因子角度看,在兩個數(shù)據(jù)庫中期刊的表現(xiàn)具有一致性。
圖1 計算機科學(xué)類73種期刊影響因子比較
圖2 醫(yī)學(xué)類103種期刊影響因子比較
對Computer Science和Medicine兩個學(xué)科的73種、103種期刊的影響因子做TTest差異性計算,Computer Science的p值為0.001,小于0.05,兩組數(shù)據(jù)存在顯著差異。Medicine的p值為0.349,大于0.05,兩組數(shù)據(jù)之間不存在顯著差異。
兩個學(xué)科期刊影響因子抽樣比較,說明在Computer Science學(xué)科中,SCImago和JCR數(shù)據(jù)之間確實存在明顯的差異,使用兩個數(shù)據(jù)庫數(shù)據(jù)時,應(yīng)充分分析兩者的數(shù)據(jù)差異,從而選擇合適的數(shù)據(jù)源。在Medicine領(lǐng)域,在被引頻次的計算中存在顯著差異,但在影響因子抽樣中不存在顯著差異,這種情況有待于深入探討。但也說明該領(lǐng)域兩個數(shù)據(jù)庫期刊的數(shù)值差異沒有像Computer Science那么明顯。
通過SCImago和JCR 2012年度的統(tǒng)計數(shù)據(jù)比較,我們發(fā)現(xiàn)在22個自然科學(xué)領(lǐng)域中,20個學(xué)科的期刊引用特征在Scimago、JCR中沒有明顯差異,這些學(xué)科期刊的期刊影響力沒有因為數(shù)據(jù)庫期刊數(shù)量的多少發(fā)生本質(zhì)性的改變。
統(tǒng)計數(shù)據(jù)表明,兩個數(shù)據(jù)中的Computer Science與Medicine學(xué)科期刊特征存在顯著差異。本文嘗試分析這種差異產(chǎn)生的原因,通過分析Scopus數(shù)據(jù)構(gòu)成以及SCImago、JCR指標計算的數(shù)據(jù)基礎(chǔ),發(fā)現(xiàn)在Scopus中收錄大量的會議論文,計算機領(lǐng)域的研究者非常注重會議論文,其中的IEEE、ACM的系列會議是該學(xué)科領(lǐng)域的重要會議之一,這些會議論文被Scopus收錄后,對期刊被引頻次的構(gòu)成產(chǎn)生了極大的影響。在Computer Science中抽樣期刊影響因子分析,Computer Science期刊的影響因子排序位次產(chǎn)生極大的跳躍,影響因子的數(shù)值存在顯著的差異,進一步證明了會議論文的施引行為對期刊引用指標產(chǎn)生的影響。在Scopus在Medicine中,影響因子排序位次排序變化較小,兩個數(shù)據(jù)庫之間的影響因子的數(shù)值沒有差異,從數(shù)據(jù)構(gòu)成分析及期刊學(xué)科特征分析,我們只看到Medicine期刊可能受到人文社會科學(xué)等其他學(xué)科交叉引用的影響,但這種影響還沒有像Computer Science學(xué)科那么顯著。
從數(shù)據(jù)統(tǒng)計的角度,僅能做宏觀的比較,而期刊的施引行為具有復(fù)雜性,如果能逐一分析期刊之間的引用行為,則更能解讀影響數(shù)據(jù)差異性的原因。但由于大量期刊互引數(shù)據(jù)的不可獲得,為進一步的分析帶來了障礙。
目前ThomsonReuters升級WoS的最新版本,推出了核心產(chǎn)品集的概念,在檢索發(fā)現(xiàn)服務(wù)平臺上核心產(chǎn)品集中包括 SCI、SSCI、CPCI、A&HCI、BCI等數(shù)據(jù)庫,形成了既獨立又可以融合檢索的功能。在JCR的計算中,尚沒有看到新的產(chǎn)品。如果JCR依舊保持ThomsonReuters傳統(tǒng)的計算方法,即JCR自然科學(xué)版僅來自SCI-E的數(shù)據(jù),那么JCR與SCImago期刊的數(shù)據(jù)差異依舊存在。如果JCR中每個期刊統(tǒng)計指標的計算來自于WoS的核心集,在自然科學(xué)與社會科學(xué)交叉,期刊、會議錄、圖書多類型整合的情況下,統(tǒng)計期刊引證指標,也許會與SCImago的指標更為相近,當然,這僅是一種推測。
不可否認,不論是ThomsonReuters整合的WoS核心數(shù)據(jù)集,還是Scopus以多元化文獻、多學(xué)科數(shù)據(jù)打造的一個數(shù)據(jù)庫,都是提供信息服務(wù)、信息發(fā)現(xiàn)的工具,如何找到更為重要的信息,對科研工作者來講首要因素,這也是科學(xué)家關(guān)注核心期刊、核心團隊、核心作者的重要原因。
1 Meho L I,Rogers Y.Citation Counting,Citation Ranking,and h-Index of Human-Computer Interaction Researchers:A Comparison of Scopus and Web of Science.Journal of the Association for Information Scienceand Technology,2008,59(11):1711-1726
2 Archambaulté,Campbell D,Gingras Y,et al.Comparing Bibliometric Statistics Obtained from the Web of Science and Scopus.Journal of the Association for Information Science and Technology,2009,60(7):1320-1326
3 Leydesdorff L,de Moya-Anegón F,Guerrero-Bote V P.Journal Maps on the Basis of Scopus Data:A Comparison with the Journal Citation Reports of the ISI.Journal of the Association for Information Science and Technology,2010,61(2):352-369
4 Gorraiz J,Schloegl C.A bibliometric analysis of pharmacology and pharmacy journals:Scopus versus Web of Science.Journal of Information Science,2008,34(5):715-725
5 http://www.elsevier.com/--data/assets/pdf-file/0019/148402/contentcoverageguide-jan-2013.pdf.[EB/OL]
6 http://www.journalmetrics.com.[EB/OL]
7 尤金·加費爾德著,侯漢清譯,劉煜審校.引文索引的理論與應(yīng)用.北京:北京圖書館出版社,2004