[作者單位]南京航空航天大學圖書館,江蘇 南京 211106
ESI(Essential Science Indicators)是基于SCI和SSCI的衡量科學研究績效、跟蹤科學發(fā)展趨勢的重要分析評價工具[1-2]。ESI高被引論文是各學科領(lǐng)域被引頻次最高的前1%的論文,是國內(nèi)外公認的高水平研究成果,因此ESI高被引論文數(shù)已成為一流學科的重要評估指標之一。本文以ESI高被引論文為切入點,探索近10年來全球范圍內(nèi)圖情學科的發(fā)展情況,為我國圖情學科的發(fā)展提供參考。
學術(shù)界早已認識到ESI高被引論文的研究價值,并已對材料學[3-4]、醫(yī)學[5-6]等學科的ESI高被引論文進行了計量分析。目前尚未見有學者對圖情學科的ESI高被引論文進行研究。
以往對ESI高被引論文的研究往往是從期刊、機構(gòu)、作者等文獻的外部特征入手,較少深入到論文的內(nèi)容層面。ESI高被引論文代表著各學科領(lǐng)域的研究熱點與前沿,對其內(nèi)容進行分析無疑對明確學科發(fā)展方向有重要意義。因此,本文不僅對圖情學科ESI高被引論文的數(shù)量特征進行了分析,還對其內(nèi)容特征進行深入挖掘。
本文數(shù)據(jù)來源于Web of Science(WOS)核心合集。首先在WOS核心合集中檢索圖情領(lǐng)域的研究論文,檢索式為WC=“Information Science & Library Science”,共得到405 296篇文獻;然后在檢索結(jié)果頁面中選擇“ESI精煉”,將檢索結(jié)果中的高被引論文篩選出來,共得到圖情領(lǐng)域的ESI高被引論文356篇。ESI的統(tǒng)計數(shù)據(jù)以10年為1個周期,每兩個月滾動更新一次,本文檢索時間為2016年4月20日,檢索到的ESI高被引論文時間跨度為2005-2015年。
本文從數(shù)量特征和內(nèi)容特征兩個層面對圖情學科的ESI高被引論文進行分析。
數(shù)量特征分析著眼于ESI高被引論文的被引頻次、國家分布和機構(gòu)分布,并對機構(gòu)ESI高被引論文數(shù)與h指數(shù)進行相關(guān)分析,為評估我國高校圖情學科的發(fā)展提供參照。
內(nèi)容特征分析從構(gòu)建引文網(wǎng)絡入手,提取356篇ESI高被引論文間的引用關(guān)系,利用社會網(wǎng)絡分析工具Ucinet對引文網(wǎng)絡進行可視化,然后用Pajek對引文網(wǎng)絡進行主路徑分析。主路徑分析首先計算每個研究起點(最初發(fā)表的文獻)指向每個終點(最新發(fā)表的文獻)的所有途徑,然后計算每個節(jié)點(文獻)或邊(引用關(guān)系)位于的路徑條數(shù)。這個數(shù)值被稱為遍歷計數(shù),通過歸一化處理后得到相應的權(quán)值,稱為遍歷權(quán)值。遍歷權(quán)值是每條邊在引文網(wǎng)絡中重要性的體現(xiàn),其最高的路徑即為主路徑。通過對大型網(wǎng)絡的主路徑分析可以實現(xiàn)海量數(shù)據(jù)的降維處理,從而得到領(lǐng)域演化的基本骨架[7]。董克等人[8]采用主路徑分析篩選出了對網(wǎng)絡計量學領(lǐng)域發(fā)展延續(xù)最重要的文獻,韓毅[9]利用主路徑算法識別出國外知識管理領(lǐng)域發(fā)展的脈絡。本文通過主路徑分析識別ESI高被引論文中的重要文獻,進而探索其研究內(nèi)容發(fā)展演化的骨架結(jié)構(gòu)。
2.1.1 被引頻次
對356篇ESI高被引論文的被引頻次進行統(tǒng)計,發(fā)現(xiàn)其最低被引頻次是4次,最高被引頻次是964次,平均每篇論文被引126次,50%的論文被引頻次不低于93次。圖情學科ESI高被引論文的最低被引頻次逐年下降,由2005年的142次降低到2015年的4次。
2.1.2 國家分布
對圖情學科ESI高被引論文的國家分布的分析結(jié)果顯示,美國ESI高被引論文共210篇,占總量的近60%,遙遙領(lǐng)先于其他各國;荷蘭37篇;英國33篇;加拿大22篇;我國ESI高被引論文數(shù)為19篇,數(shù)量位居全球第五。將香港和臺灣地區(qū)的高校排除后,我國大陸地區(qū)的高校圖情學科僅有7篇ESI高被引論文。
2.1.3 機構(gòu)分布
通過Incites數(shù)據(jù)庫可獲得國內(nèi)外大學在圖情學科的論文數(shù)量、總被引頻次、h指數(shù)和ESI高被引論文數(shù)。ESI高被引論文數(shù)大于6篇的高校見表1。共有272所大學擁有圖情學科的ESI高被引論文,對這272所大學的h指數(shù)和ESI高被引論文數(shù)進行相關(guān)分析,發(fā)現(xiàn)二者的Pearson相關(guān)系數(shù)r=0.671,p<0.01,二者呈顯著正相關(guān)。ESI高被引論文是機構(gòu)的高水平研究成果,h指數(shù)則反映機構(gòu)的整體研究水平,二者都是機構(gòu)科研實力的體現(xiàn),因而會有較強的相關(guān)性。
國內(nèi)共有280所高校的圖情學科論文被WOS(Web of Science)收錄,對各高校圖情學科的研究水平進行分析,發(fā)現(xiàn)有7所高校發(fā)表了ESI高被引論文,有9所高校h指數(shù)大于10(表2)。
由于ESI高被引論文數(shù)和h指數(shù)的顯著相關(guān)性,北京大學、復旦大學等高校h指數(shù)較高,在國內(nèi)處于領(lǐng)先地位,有望在未來實現(xiàn)圖情學科ESI高被引論文零的突破。
從表1和表2,可以發(fā)現(xiàn),我國高校無論是ESI高被引論文數(shù)、h指數(shù)、WOS論文總數(shù)還是總被引頻次都遠遠落后于國外頂尖高校,我國圖情學科距離世界一流水平還有較遠的距離。
表1 圖情學科ESI高被引論文>6篇的高校
表2 我國高校發(fā)表圖情學科ESI高被引論文發(fā)表情況
2.2.1 引文網(wǎng)絡的構(gòu)建
提取356篇ESI高被引論文相互間的引用關(guān)系,構(gòu)建引文網(wǎng)絡,網(wǎng)絡密度為0.004。網(wǎng)絡中共有356個節(jié)點,其中有79個節(jié)點為孤立節(jié)點,表示有79篇論文與本數(shù)據(jù)集其他論文不存在引用或被引關(guān)系。刪除孤立節(jié)點后,共得到3個規(guī)模較大的子網(wǎng),共包含277個節(jié)點(圖1)。圖1中以論文編號、論文作者、發(fā)表年份作為節(jié)點標簽,節(jié)點大小與其特征向量中心度成正比,箭頭方向從施引文獻指向被引文獻。
圖1 ESI高被引論文間的引用網(wǎng)絡
2.2.2 引文網(wǎng)絡的主路徑分析
對這3個子網(wǎng)分別進行主路徑分析,得到3條引文網(wǎng)絡主路徑(圖2),每條主路徑都代表著圖情學科的一個核心研究方向。
圖2 引文網(wǎng)絡主路徑分析
2.2.2.1 主路徑1:h指數(shù)及其擴展指標研究
子網(wǎng)1有219篇節(jié)點文獻,其中12篇構(gòu)成了該子網(wǎng)的主路徑。這一路徑由Bornmann、Egghe等專家主導,關(guān)鍵節(jié)點文獻的內(nèi)容主要集中于h指數(shù)及其擴展指標的研究。
Batista[10]2006年提出了個人h指數(shù),基于篇均作者人數(shù)對 h指數(shù)進行標準化處理,為不同學科的作者比較提供了新思路。Braun[11]2006年擴展了h指數(shù)的應用范圍,將h指數(shù)應用于對學術(shù)期刊影響力的評價。Cronin[12]2006年使用H指數(shù)測度了信息科學領(lǐng)域研究人員的學術(shù)影響力。Egghe[13]2006年建立了h指數(shù)的信息計量模型,提出了g指數(shù)[14],并于2010年對h指數(shù)的研究與應用進行了回顧[15]。 Bornmann[16]2007年回顧了學術(shù)界對h指數(shù)效度的研究,總結(jié)了h指數(shù)的優(yōu)勢和不足;2008年又對h指數(shù)做了進一步完善,提出m指數(shù)[17]。到2011年,他又對h指數(shù)及其37種擴展指標的相關(guān)性進行了Meta分析[18]。
Sidiropoulos[19]2007年指出了h指數(shù)的幾點不足,在h指數(shù)的基礎上提出了新的引用指標,并驗證了其有效性。Harzing[20]2009年提出用Google Scholar作數(shù)據(jù)源測定期刊h指數(shù),比影響因子更能準確地評估期刊的影響力。Waltman[21]2012年提出h指數(shù)不適合用于對科學家的整體學術(shù)影響力的評價,并對能替代h指數(shù)的指標進行了討論。
對學術(shù)論文、期刊和科研人員的科學評價始終是學術(shù)界關(guān)注的焦點,h指數(shù)及其擴展指標研究是圖情學科對學術(shù)界的重要貢獻,對提高本學科影響力有著重要意義。
2.2.2.2 主路徑2:臨床決策支持系統(tǒng)研究
子網(wǎng)2有24篇節(jié)點文獻,其中8篇構(gòu)成了該子網(wǎng)的主路徑,關(guān)鍵節(jié)點文獻的內(nèi)容集中于對臨床決策支持系統(tǒng)的研究。
Poissant 等人2005年分析了電子病歷對醫(yī)生和護士效率的影響[22]。Shah等人 2006年研究了電子藥物處方系統(tǒng),致力于提高該系統(tǒng)的接受度[23]。Campbell 等人2006年對臨床電子醫(yī)囑(CPOE)系統(tǒng)帶來的負面影響進行了分類,并分析了產(chǎn)生負面影響的原因[24]。Kuperman等人 2007年在文獻回顧的基礎上,為醫(yī)療機構(gòu)、知識庫供應商、政府部門和研究人員有效利用基于CPOE的臨床決策支持系統(tǒng)提出了相應的建議[25]。Schedlbauer 等人2009年對電子藥物處方系統(tǒng)的有效性進行了研究[26]。Ammenwerth 等人2008年研究了CPOE在減少用藥差錯和藥物不良事件中的作用[27]。Jaspers等人分析了臨床決策支持系統(tǒng)對醫(yī)療人員效率和病人健康產(chǎn)出的影響[28]。Bell等人研究了基于藥物遺傳學檢測的臨床決策支持系統(tǒng),對該系統(tǒng)的研發(fā)、使用和效果評估進行了介紹[29]。
2.2.2.3 主路徑3:醫(yī)學數(shù)據(jù)挖掘
子網(wǎng)3有20篇節(jié)點文獻,其中12篇構(gòu)成了該子網(wǎng)的主路徑,關(guān)鍵節(jié)點文獻的內(nèi)容集中于醫(yī)學數(shù)據(jù)挖掘。值得注意的是,這12篇文獻均為2009年及以后發(fā)表,是近幾年圖情學科新興研究熱點與前沿之一。
電子病歷(Electronic medical records, EMR)產(chǎn)生于臨床治療過程,包含了大量與患者健康狀況密切相關(guān)的醫(yī)療知識[30],因而對電子病歷的臨床數(shù)據(jù)進行分析和挖掘有著重要的應用價值。主路徑3的節(jié)點文獻主要研究對電子病歷的數(shù)據(jù)挖掘,內(nèi)容可分為兩大類,一類是設計面向電子病歷的自然語言處理系統(tǒng)和知識挖掘系統(tǒng),另一類是直接研究醫(yī)學數(shù)據(jù)挖掘的算法。
Weber等人[31]2009年提出了衛(wèi)生研究信息網(wǎng)絡標準,為面對建立臨床數(shù)據(jù)中心查詢工具的技術(shù)、管理和政策的挑戰(zhàn)提供參考。Murphy[32]2010年介紹了Informatics for integrating biology and the bedside(i2b2)項目,該項目旨在為研究者提供必要的工具,以整合醫(yī)療記錄和基因組學臨床研究數(shù)據(jù)。Hripcsak等人[33]2013年對下一代電子病歷系統(tǒng)的特征進行了展望。Uzuner[34-35]2010年對面向臨床病歷藥物信息挖掘的自然語言處理系統(tǒng)進行了統(tǒng)計分析,次年又探索了電子病歷中醫(yī)學概念的抽取,以及概念間關(guān)系的識別與聚類問題。Savova[36]、Xu Hua等人[37]2010年分別設計了臨床文本分析和知識挖掘系統(tǒng)(cTAKES)和自然語言處理系統(tǒng)——MedEx,并對系統(tǒng)的應用情況進行了評估。Nadkarni等人[38]2011年對自然語言處理技術(shù)和自然語言處理系統(tǒng)的設計進行了綜述,展望了醫(yī)療界自然語言處理的未來發(fā)展。
Kho等人[39]2012年設計了一種專門的算法,用于對不同的電子病歷系統(tǒng)進行數(shù)據(jù)挖掘,對2型糖尿病進行了全基因組關(guān)聯(lián)研究。Carroll等人[40]2012年提出了一種算法,可從不同電子病歷系統(tǒng)中快速識別類風濕性關(guān)節(jié)炎患者。Newton等人[41]2013年研發(fā)、實施并確認了13種電子病歷挖掘算法的有效性。Tate等人[42]2014年探索了面向大規(guī)模電子病歷數(shù)據(jù)的快速檢索算法和直觀檢索界面。
主路徑2和主路徑3上的所有節(jié)點文獻全部發(fā)表于JournalofTheAmericanMedicalInformaticsAssociation。在Web of Science的學科分類中,這些文獻同時屬于醫(yī)學信息學(Medical Informatics)和圖情學科(Information Science & Library Science)。
我國圖情學科的ESI高被引論文數(shù)遠遠落后于美國,大陸地區(qū)只有7所高校在圖情學科發(fā)表了ESI高被引論文(7篇),明顯少于國外一流名校,說明我國高校圖情學科離世界一流水平還相去甚遠。
武漢大學、南京大學等是已經(jīng)具備較好學科基礎的高校,有望在近年產(chǎn)出更多的ESI高被引論文。由于機構(gòu)h指數(shù)和ESI高被引論文成顯著正相關(guān),北京大學、復旦大學、中山大學等高校圖情學科的h指數(shù)均已達到10以上,顯示出較高的科研水平,有望較快實現(xiàn)ESI高被引論文零的突破。國內(nèi)高校應注重增強國際學術(shù)影響力,向世界一流學科靠近。
本文通過對引文網(wǎng)絡的主路徑分析得到了圖情學科的3個最受全球?qū)W者關(guān)注的核心研究方向——h指數(shù)及其擴展指標的研究、臨床決策支持系統(tǒng)研究、醫(yī)學數(shù)據(jù)挖掘。這3個研究方向集中了圖情學科大量高被引論文,是近10年圖情領(lǐng)域最受全球?qū)W者關(guān)注的研究方向,跟蹤其最新發(fā)展動態(tài)可為國內(nèi)圖情學科進一步凝練研究方向提供依據(jù)。Bornmann、Egghe等專家發(fā)表的多篇ESI高被引論文,對圖情學科各研究領(lǐng)域起著重要的引領(lǐng)作用,因此國內(nèi)高校應加強與國外頂尖專家的合作交流。
國外圖情研究的一個顯著特點是用圖情的視角研究醫(yī)學領(lǐng)域的信息問題。與醫(yī)學信息學的學科交叉研究成效顯著,尤其臨床決策支持系統(tǒng)、醫(yī)學數(shù)據(jù)挖掘等研究方向都是醫(yī)學信息學與圖情學科交叉形成的研究領(lǐng)域,產(chǎn)出了多篇ESI高被引論文。這些交叉學科研究極大地拓展了傳統(tǒng)圖情研究的范圍,預計在今后一段時間內(nèi)仍會成為圖情學科的增長點,為圖情學科的創(chuàng)新發(fā)展與轉(zhuǎn)型起到重要的推動作用。與國外相比,國內(nèi)圖情學科和醫(yī)學信息學的交叉融合尚未足夠深入,未來有著廣闊的發(fā)展空間。