■俞立平 李守偉
貴州財經(jīng)大學貴陽大數(shù)據(jù)金融學院,貴陽市花溪區(qū)花溪大學城 550025
2015年6月18日,湯森路透旗下的知識產(chǎn)權與科技事業(yè)部發(fā)布《期刊引證報告》(JCR2015),同時發(fā)布了兩個新的文獻計量學指標,一個是標準特征因子(Normalized Eigenfactor,NEI)),一個是期刊影響因子百分位(Journal Impact Factor Percentile,JIFP)。 標準特征因子是華盛頓大學特征因子(Eigenfactor)團隊開發(fā)的經(jīng)改進的期刊評價指標,是在特征因子基礎上設計的,計算方法是用期刊的特征因子除以同學科其他期刊特征因子的均值。如果某一期刊的標準特征因子為2,這表示該期刊的影響力兩倍于同學科領域的期刊[1]。對于標準特征因子的特點、與特征因子的區(qū)別以及與其他文獻計量指標的關系等等,學術界目前還缺乏關注,因此有必要進行深入研究,以便更準確地應用該指標。
關于特征因子的特點學術界研究比較豐富。特征因子由華盛頓大學的Bergstrom、West等[2]提出,計算時通過構建文獻引用網(wǎng)絡,考慮到不同層次期刊的引用權重,對期刊的影響力進行評價。Massimo[3]提出了采用特征因子的10個理由,認為其具有立體的數(shù)學背景、公理性的理論基礎、有趣的隨機性解釋、以及與其他文獻計量指標的有趣關系等特點。Rousseau[4]通過對165種醫(yī)學期刊的評價研究得出結論,認為H指數(shù)與特征因子相關性較強,它們之間的皮爾森系數(shù)達到0.951。Waltman等[5]對特征因子和受眾因子(audience factor)、影響力(influence weight)進行了比較,研究顯示三個指標對不同種類學科以及對影響力小的期刊具有不敏感性。Jacques[6]研究了2001—2008年間的醫(yī)學類期刊,認為影響因子與論文影響力分值間有很強的相關性。任勝利[7]介紹了特征因子的概念及其原理,比較分析了中外期刊的特征因子分值與論文影響分值,并討論了特征因子的不足之處。俞立平、隆新文等[8]基于面板數(shù)據(jù)實證研究發(fā)現(xiàn)特征因子和論文影響分值互為高度相關,特征因子與總被引頻次正相關,但與即年指標及影響因子無關。鄭雅妮、張叢[9]采用類似方法研究經(jīng)濟學期刊發(fā)現(xiàn),影響因子與特征因子之間不存在相關性,二者有不同的側重點。
從現(xiàn)有的研究看,關于特征因子原理、特點的研究比較成熟,研究視角主要放在特征因子與其他文獻計量指標的關系特點以及特征因子的應用上。由于標準特征因子2015年剛剛推出,是個新的文獻計量指標,對其進行的相關研究尚處于起步階段。本文以JCR2015中期刊數(shù)量較多的數(shù)學與經(jīng)濟學期刊為例,重點比較標準特征因子與特征因子這兩個指標的統(tǒng)計學特征,以及其與傳統(tǒng)文獻計量指標的關系差異,從而進一步了解標準特征因子的特點,并對其應用進行進一步討論。
由于特征因子與其他文獻計量指標的關系研究比較成熟,標準特征因子是在特征因子基礎上產(chǎn)生的,因此為了研究方便,本文重點研究標準特征因子與特征因子的統(tǒng)計學特征差異,以及與其他文獻計量指標關系的差異。
從統(tǒng)計學角度,一般文獻計量指標的分析視角主要基于區(qū)分度與數(shù)據(jù)分布特點,包括極小極大值比、中位數(shù)極大值比、離散系數(shù)、數(shù)據(jù)分布特點等。
從標準特征因子、特征因子兩個文獻計量指標與其他文獻計量指標關系角度,研究方法主要采用回歸分析法,鑒于很多文獻計量指標的原理均建立在期刊影響力基礎上,因此這些文獻計量指標之間往往存在著較高的相關性,比如總被引頻次、影響因子、5年影響因子、即年指標之間,均是影響力指標。這就容易產(chǎn)生多重共線性問題,使得回歸時統(tǒng)計檢驗不易通過,甚至回歸系數(shù)符號錯誤。鑒于研究目的是分析標準特征因子與其他文獻計量指標的關系,因此刪除相關度較高變量的方法是不合適的,采用面板數(shù)據(jù)模型也不合適,因為標準特征因子是2015年剛公布的新指標,根本就沒有面板數(shù)據(jù),所以最好的方法是采用嶺回歸進行分析。
Horel(1970)[10]提出了嶺回歸(Ridge Regression)估計方法,它本質(zhì)上是對傳統(tǒng)回歸最小二乘法的改進,是一種適用于相關度較高數(shù)據(jù)回歸的有偏的回歸方法。嶺回歸放棄最小二乘的無偏性,以犧牲部分精度為代價來尋求效果稍差但更符合實際的回歸結果。
傳統(tǒng)的回歸是計算:
問題是當存在多重共線性(Multicolinear)問題的時候,向量X′X幾乎是奇異(Singular)的,會導致最終估計結果方差非常大。嶺回歸通過變換向量的特征值來規(guī)避這個問題:
這樣的估計是有偏的,但是會減少估計方差,如果減少的方差遠遠大于增加的估計偏差,那么新的方法將是有效的。其實嶺回歸是一個懲罰回歸,用最小化:
來代替最小化:
本文所有數(shù)據(jù)均來自于2015 JCR數(shù)據(jù)庫,以學科期刊數(shù)量較多的數(shù)學期刊為例進行研究,并輔以經(jīng)濟學期刊進行對比。2015年JCR公布的指標中,新指標有標準特征因子、期刊影響因子百分位,其他文獻計量指標包括:總被引頻次、影響因子、他引影響因子、5年影響因子、即年指標、被引半衰期、特征因子分值、論文影響分值、載文量、引用半衰期、文獻選出率。
JCR 2015中數(shù)學期刊共312種,由于辦刊歷史較短和其他原因,部分期刊數(shù)據(jù)缺失,將其刪除后,剩余281種期刊,指標的描述統(tǒng)計如表1所示。
表1 數(shù)學學科(JCR2015)文獻計量指標描述統(tǒng)計
標準特征因子與特征因子的區(qū)分度與數(shù)據(jù)分布特點如表2所示。極小值極大值比、中位數(shù)極大值比、離散系數(shù)基本相同,從數(shù)據(jù)分布看,無論是偏度、峰度以及Jarque-Bera檢驗值也基本相同,所以標準特征因子與特征因子的區(qū)分度和數(shù)據(jù)分布基本相同,標準特征因子能夠提供的新信息較少。
281種期刊根據(jù)標準特征因子的排序結果和根據(jù)特征因子的排序結果完全一致。這也進一步驗證了標準特征因子與特征因子數(shù)據(jù)的同質(zhì)性。
表2 標準特征因子與特征因子的統(tǒng)計學特征分析
標準特征因子與其他文獻計量指標嶺回歸的結果,當嶺參數(shù)為0.2時,回歸基本穩(wěn)定,回歸系數(shù)如表3所示。繼續(xù)進行特征因子與其他文獻計量指標的嶺回歸,發(fā)現(xiàn)嶺跡圖特征幾乎一樣,嶺參數(shù)也是在0.2時回歸比較穩(wěn)定,回歸結果仍然見表3。
表3 標準特征因子、特征因子與其他文獻計量指標嶺回歸結果
對比標準特征因子、特征因子與其他文獻計量指標的嶺回歸結果,發(fā)現(xiàn)擬合優(yōu)度R2均較高,為0.964,除了他引影響因子由于無法回避的多重共線性系數(shù)為負以外,其他回歸系數(shù)均為正。標準特征因子、特征因子與其他文獻計量指標嶺回歸結果的回歸系數(shù)基本相同,其絕對值相差均小于15%,同樣說明標準特征因子提供的新信息不多。
既然統(tǒng)計學分析與嶺回歸分析的結論基本相同,下面繼續(xù)對標準特征因子的內(nèi)涵特征進行分析。標準特征因子是對特征因子做的一種特殊的標準化,其均值為1,這樣標準特征因子超過1的就說明超過了均值,比如標準特征因子為5,就說明該期刊5倍于平均值[11]。但是這種數(shù)據(jù)標準化并不是簡單的線性變換,所以導致標準特征因子的統(tǒng)計學特征以及與其他文獻計量指標的關系非常接近,但絕不相同。為了比較這種差異,本文用標準特征因子與特征因子的比值進行學科之間的比較分析,除了數(shù)學學科外,另外選取經(jīng)濟學期刊進行比較。也就是說,對特征因子轉換為標準特征因子的參照系進行比較分析,結果如表4所示。
表4 數(shù)學與經(jīng)濟學標準特征因子/特征因子結果比較
數(shù)學學科與經(jīng)濟學學科相差較大,但作為“模擬”參照系的標準特征因子與特征因子的比值的均值非常接近,由于特征因子在一定程度上可以進行跨學科比較,以上研究表明,標準特征因子可以用來進行跨學科比較。
第一,標準特征因子并沒有提高指標的區(qū)分度。標準特征因子設計的初衷,是為了展現(xiàn)學科內(nèi)某一期刊與其他期刊特征因子的差別,如果僅僅從數(shù)據(jù)大小本身看,標準特征因子差不多將特征因子放大了100倍,不像特征因子那樣幾乎永遠小于0,給人的直接感覺是區(qū)分度較大。但是標準特征因子并沒有提高評價指標的區(qū)分度,其極小值極大值比、中位數(shù)極大值比、離散系數(shù)與特征因子基本相同。
第二,標準特征因子與其他文獻計量指標關系與特征因子相似。標準特征因子與其他文獻計量學指標的回歸系數(shù)與特征因子回歸結果基本相同,并且期刊標準特征因子排序與特征因子的排序也基本一致,標準特征因子與特征因子正態(tài)分布檢驗結果也基本相同,說明其數(shù)據(jù)分布特點一致。
第三,特征因子轉換為標準特征的非線性轉換是導致以上現(xiàn)象的根本原因。由于這種非線性轉換均值為1,從而使標準特征因子更容易被理解,總體上是值得肯定的。另外這種非線性轉換總體上是一種數(shù)據(jù)標準化轉換,因此沒有破壞期刊的排序,是一種修補式的轉換,從而導致標準特征因子與特征因子的特征比較接近。
第四,在期刊評價中建議盡量選取標準特征因子指標。由于標準特征因子與特征因子的統(tǒng)計學特征及與其他文獻計量指標的關系比較接近,因此在期刊評價中不宜同時選取標準特征因子與特征因子,只能選取一個指標。標準特征因子因為具有較好的顯示度更適合進行期刊評價。
[1] Eigenfactor and normalized Eigenfactor.http://www.lib.vt.edu/research/metrics/journal/eigenfactor.htm l.[2016-3-12]
[2] Bergstrom C T,West JD,Wiseman MA.The Eigenfactor Metrics[J].The Journal of Neuroscience,2008,28(45):11433-11434.
[3] Massimo Franceschet.Ten good reasons to use the Eigenfactor(TM) metrics[J].Information Processing and Management,2010,46(5): 555-558.
[4] Ronald Rousseau.On the Relation between the WoS Impact Factor,the Eigenfactor,the SCImago Journal Rank,the Article Influence Score and the Journal h-index[J/OL].[2016-03-11].http://eprints.rclis.org/13304/1/Rousseau_Nanjing_conference_contribution.pdf.
[5] Waltman L,van Eck N J.The Relation between Eigenfactor,Audience Factor,and Influence Weight[J].Journal of the American Society for Information Science and Technology,2010,61(7) : 1476-1486.
[6] Jacques Rizkallah D D.Integrative Approach to Quality Assessment of Medical Journals Using Impact Factor,Eigenfactor,and Article Influence Scores[J].PLoS ONE,2010,5(4): 10240.
[7] 任勝利.特征因子(Eigenfactor):基于引證網(wǎng)絡分析期刊和論文的重要性[J].中國科技期刊研究,2009,20(3):415-418.
[8] 俞立平,隆新文,武夷山.特征因子與其他文獻計量指標關系研究[J].科研管理,2012(8):41-47.
[9] 鄭雅妮,張叢.影響因子、特征因子與其他計量指標的相關性研究——基于經(jīng)濟學期刊面板數(shù)據(jù)的分析[J].情報雜志,2014,33(5):96-100.
[10] Hoerl AE, Kennard RW.Ridge regression: biased estimation for nonorthogonal problems[J].Technometrics,1970,12(1) :55-67.
[11] NORMALIZED EIGENFACTOR? SCORE.http://ipsciencehelp.thomsonreuters.com/incitesLive/glossaryAZgroup/g16/9709-TRS.htm l.[2016-05-21]