陳清文 郭強 劉建國
摘 要:評估科學家學術影響力的傳統(tǒng)方法只考慮科學家的產出(論文數量、引用總數等)而不考慮科學家的投入。提出一種基于超效率DEA的科學家學術影響力模型,將合作科學家數量和合作機構數量作為產出要素,論文總數和引用總數作為投入要素。在APS數據集上的實驗結果表明,諾貝爾獎科學家的學術影響力比非諾貝爾獎科學家的學術影響力高,超效率DEA模型計算出的AUC值為0.795 6,比傳統(tǒng)指標中最高總引用量指標提高了8.75%,對評價科學家的學術影響力有十分重要的借鑒意義。
關鍵詞:學術影響力;H指數;總引用量;超效率DEA
DOI:10. 11907/rjdk. 182555
中圖分類號:TP319 文獻標識碼:A 文章編號:1672-7800(2019)005-0155-03
Abstract: The current methods of quantifying and assessing academic Influence Analysis of scientists only take into account the outputs of scientists, regardless the fact that the input factors are different for each scientist. In this paper, taking into account the input and output factors measured by the number of cooperating scientists, the number of cooperating institutions, total number of papers and total number of citations, we present a model to evaluate the performance of scientists. The method on the APS dataset can more accurately identified Nobel Prize-winning scientists than the published articles, total citations, I10 index, and H index. The AUC value of this model was 0. 7956, which was 8.75% higher than total number of citations.The work of this paper is of great significance for quantifying the academic influence of scientists.
Key Words: Academic influence; H index; total citations; super efficiency DEA
0 引言
評價科學家的學術影響力,對科學家的職稱評定、科研獎勵具有重要指導意義。計量科學家學術影響力有許多方法[1-2],如發(fā)表論文數[3]、引用量[4]等。2001年,學術信息出版機構美國科技信息所(ISI)提出一種衡量科學家、學術機構、國家/地區(qū)科研水平及影響力的重要評價方法——ESI[5-6]。2005年,Hirsch教授[7]提出了基于科學家引用論文和數量引用的H指數。2006年,Egghe[8]在H指數上進行改進,提出了G指數。2011年,谷歌提出了I10指數,I10指數表示科學家超過10次被引用的文章數量[9]。然而上述方法僅考慮科學家的產出,通常無法準確計量科研背景不同、投入資源不同的科學家。本文提出一種基于超效率DEA的科學家學術影響力模型,通過合作科學家數量、合作機構數量、論文總數和引用總數評估科學家的學術影響力。首先計算每個科學家的投入(科學家數量、合作機構數量)和產出(發(fā)表論文數和引用量),然后利用超效率DEA模型計算每個科學家的學術影響力。本文采用美國物理學會(American Physical Society,APS)的數據,以獲得諾貝爾獎的科學家為測試數據集,以非諾貝爾獎的科學家為非測試數據集,用AUC值表示算法的準確性。在APS數據集上的實驗結果表明,諾貝爾獎科學家的學術影響力比非諾貝爾獎科學家的學術影響力高,超效率DEA模型計算的AUC值為0.795 6,比傳統(tǒng)指標中最高的總引用量指標提高了8.75%。
1 科學家學術影響力模型
1.1 模型構建
3 數值實驗
3.1 數據集
本文采用美國物理學會(APS)的數據。APS數據包括美國物理學會1893-2009年248 738名科學家發(fā)表的463 348篇論文,其中包括35名獲諾貝爾物理學獎的科學家。數據集包含唯一的文章編號、文章標題、出版日期(年-月-日),科學家姓名和每位科學家的隸屬機構,另一個數據集利用文章編號提供了超過470萬條引用關系。
3.2 實驗結果
本文將科學家排名結果與傳統(tǒng)的科學家學術影響力指標排名結果進行對比分析,以驗證基于超效率DEA的學術影響力模型能更準確地從248 738名科學家中識別出獲得諾貝爾獎的35名科學家[20],結果如圖2所示。橫坐標表示排名靠前的[n]名科學家,縱坐標表示前[n]名科學家中獲諾貝爾獎的科學家數目,如前10 000名科學家中,發(fā)表文章數指標、I10指標、H指數指標、總引用量指標、學術影響力指標分別包含了25位、30位、31位、35位獲諾貝爾獎的科學家。從圖2可以看出,本文提出的超效率DEA模型對科學家排名的準確性比傳統(tǒng)指標高。
本文采用AUC(the area under a receiver operating characteristic curve)評價指標評價超效率DEA模型的準確性。將數據集中所有科學家分為兩類:測試集合和非測試集合,其中測試集合是獲得諾貝爾獎的科學家。從測試集合和非測試集合中分別隨機選取一位科學家,計算他們的學術影響力值。[n]次比較之后,從測試集合中取出學術影響力值高于非測試集合中科學家的學術影響力值,將其次數記為[n1],從測試集合中取出科學家的學術影響力值和非測試集合中科學家的學術影響力值次數相同的記為[n2],AUC值計算公式如下:
[AUC=n1+0.5×n2n] (3)
當AUC=1時,說明計算得到的所有測試集合中取出的科學家學術影響力值高于非測試集合中取出的科學家學術影響力值,當AUC=0.5則說明計算得到的科學家學術影響力是隨機的,AUC值越接近1說明計算得到的科學家學術影響力越準確。在AUC值計算中,參數[n]的值越大,AUC值越準確穩(wěn)定。實證數據取[n=105]計算結果如表1所示,超效率DEA模型計算的AUC值為0.795 6,比傳統(tǒng)指標中最高的總引用量指標提高了8.75%。
4 結語
本文提出一種基于超效率DEA的科學家學術影響力模型,該模型以科學家合作人數和合作機構數作為投入要素,以發(fā)表論文數和文章引用次數作為產出要素。綜合考慮投入和產出,對科學家的績效進行評價和排名。在APS數據集上的實驗結果表明,獲諾貝爾獎的科學家學術影響力比非諾貝爾獎科學家的學術影響力高,超效率DEA模型計算的AUC值為0.795 6,比傳統(tǒng)指標中最高的總引用量指標提高了8.75%。
盡管本文提出的模型實證結果較引用量等指標有所提升,但仍存在不足。由于APS數據集的學科領域局限性,本文提出的方法只在物理學領域得到驗證,未在其它科學領域驗證。此外,基于超效率DEA的科學家學術影響力模型取決于投入要素和產出要素的選取,還需研究更多投入要素,使科學家排名更為準確。在未來工作要考慮加入主題進行科學家學術影響力研究。
參考文獻:
[1] 曹志梅,劉偉輝,楊光. 高校 ESI 潛勢學科排名提升策略探討[J]. 情報探索, 2017 (4): 44-47.
[2] 王露, 郭強, 劉建國. 基于加權方法的節(jié)點重要性度量[J]. 計算機應用研究, 2018(5):1426-1428.
[3] PETERSEN A M, WANG F, STANLEY H E. Methods for measuring the citations and productivity of scientists across time and discipline[J]. Physical Review E, 2010, 81(3): 36-114.
[4] 楊帥,潘云濤,王海燕,等. 引用次數、相對影響力和社會網絡在論文評價中的應用[J]. 中華醫(yī)學圖書情報雜志, 2016, 25(7):1-9.
[5] FITZPATRICK R B. Essential science indicators.[J]. Medical Reference Services Quarterly, 2005, 24(4): 67-68.
[6] 曹志梅,劉偉輝,楊光. 高校 ESI 潛勢學科排名提升策略探討[J]. 情報探索,2017 (4): 44-47.
[7] HIRSCH J E. An index to quantify an individual's scientific research output[J].Proceedings of the National academy of Sciences of the United States of America, 2005, 102(46): 65-69.
[8] EGGHE L. Theory and practise of the g-index[J]. Scientometrics, 2006, 69(1): 131-152.
[9] 曹麗江. 基于Altmetrics的學者影響力綜合評價研究[D]. 蘇州:蘇州大學, 2017.
[10] CHARNES A, COOPER W W, RHODES E. Measuring the efficiency of decision making units[J]. European Journal of Operational Research, 1978, 2(6): 429-444.
[11] 馬占新. 數據包絡分析方法的研究進展[J]. 系統(tǒng)工程與電子技術, 2002, 24(3):42-46.
[12] 馬璐, 高李昊. 帶負值的Hybrid DEA模型研究及其應用[J]. 中國管理科學, 2016, 24(3):149-158.
[13] 魏權齡. 評價相對有效性的數據包絡分析模型:DEA和網絡DEA[M]. 北京:中國人民大學出版社, 2012.
[14] 李倩. 基于超效率DEA模型的高等教育效率評價[J]. 黑龍江高教研究, 2015, 36(9):153-156.
[15] 王文娟. 論文合作的效率——從合作者數量與論文發(fā)表速度角度研究[D]. 濟南:山東大學, 2016.
[16] 蘇芳荔. 科研合作對期刊論文被引頻次的影響[J]. 圖書情報工作, 2011, 55(10): 144-148.
[17] 李文聰. 國際科研合作的網絡演變及其對科研產出的影響研究[D]. 北京:中國科學院大學, 2016.
[18] 王文平. 基于科學計量的中國國際科技合作模式及影響研究[D]. 北京:北京理工大學, 2014.
[19] 張冬玲. 中國科學論文產出與合作狀況的計量研究[D]. 大連:大連理工大學, 2009.
[20] SHEN H W,BARABáSI A L. Collective credit allocation in science[J]. Proceedings of the National Academy of Sciences,2014,111(34):12325-12330.
(責任編輯:杜能鋼)