●郭 強,趙 瑾,劉新新,王玲玉,賈光耀
(1.鄭州大學(xué) 信息管理系,鄭州 450001;2.中國人民解放軍炮兵學(xué)院 軍事運籌教研室,合肥 230031)
由于下載次數(shù)與被引次數(shù)之間的關(guān)系體現(xiàn)了同一性與差異性的對立與統(tǒng)一,那么是否可以利用這種同一性來對被引次數(shù)進行估計或是預(yù)測,畢竟與被引次數(shù)相比,下載次數(shù)能夠視為對期刊或論文等評價對象的學(xué)術(shù)價值的先期反映,由此,如果能夠從前期的下載次數(shù)得到后期的被引次數(shù),并且進一步得到后期的諸如期刊的影響因子等綜合指標,則對于科學(xué)評價的提前會有一定的意義。
如果選取期刊作為考察對象,并利用下載次數(shù)來對期刊在某一年的總的被引次數(shù)進行估計,那么需要考察期刊的下載次數(shù)與被引次數(shù)之間的相關(guān)性以及相關(guān)的程度。由于已有經(jīng)驗考察的結(jié)果往往顯示為期刊的下載次數(shù)與被引次數(shù)作為隨機變量均服從負指數(shù)分布,盡管經(jīng)驗考察在處理變量分布規(guī)律時會有其方法上的局限性,但是這種經(jīng)驗結(jié)果至少意味著,需要考慮簡單相關(guān)分析對于下載次數(shù)與被引次數(shù)的適用性,特別是在推斷統(tǒng)計考察上,畢竟簡單相關(guān)要求考察變量均服從正態(tài)分布。這樣,對于下載次數(shù)與被引次數(shù)相關(guān)程度的考察則需要采用適用于非正態(tài)分布情形的等級相關(guān),[1]或者可以更為直觀地,如果不涉及具體的推斷統(tǒng)計,則至少回歸分析中的最小二乘法以及決定系數(shù)仍然可以利用,由此來近似地考察該兩變量之間的統(tǒng)計相關(guān)性。因為CNKI鏡像站版的引文數(shù)據(jù)庫能夠提供其入庫期刊的逐年下載次數(shù)以及被引次數(shù),所以在這里將其作為數(shù)據(jù)來源,首先以《情報科學(xué)》為例,并對該期刊的前期下載次數(shù)與后期被引次數(shù)進行線性回歸,能夠得到不同時間間隔的決定系數(shù)如圖1所示,數(shù)據(jù)統(tǒng)計時間為2009年8月。
圖1 下載次數(shù)與被引次數(shù)線性回歸的決定系數(shù)隨時間間隔的變化關(guān)系
在圖1中,考察期刊的逐年下載次數(shù)列與其后期相隔n年的被引次數(shù)列,對由此形成的下載次數(shù)與被引次數(shù)對的樣本集合進行線性回歸,其中間隔時間n為正數(shù)時表示被引次數(shù)較下載次數(shù)為后期,取負時則表示被引次數(shù)為前期,考察時段為2000年至2007年,能夠注意到當n取2時決定系數(shù)為極大,達到0.9808,由于此處的決定系數(shù)反映了用線性關(guān)系進行擬合時所得回歸關(guān)系對總變異的貢獻程度,所以意味著下載次數(shù)列與后期相隔兩年的被引次數(shù)列高度線性相關(guān),且回歸方程為c=0.0613d+304.55,其中c與d分別為期刊的被引次數(shù)與下載次數(shù)。以上能夠說明對于樣本集合而言,期刊的某年度下載次數(shù)與其后年的被引次數(shù)之間的確存在顯著的直線相關(guān),而且與其他的時間間隔相比,直線相關(guān)程度會相對較高,而這些情況在研究總體中是否存在還需要進行顯著性檢驗,由于期刊某年度的下載次數(shù)或是被引次數(shù)均服從負指數(shù)分布,所以在考察總體相關(guān)系數(shù)的置信區(qū)間時不能采用適用于正態(tài)分布的估計方法,由此在這里不直接進行顯著性檢驗,而是采取近似的經(jīng)驗考察,如果能夠認為對于圖書情報專業(yè)的期刊論文,作者從其對文獻的下載到在最終成果中對該文獻的引用,所需時長為兩年較為符合經(jīng)驗認識的話,則期刊在某年度的總的下載次數(shù)與兩年后該期刊的總的被引次數(shù)之間會具有較強的正直線相關(guān)性,從而可以在一定程度上認為研究總體也具有相應(yīng)的特征,由此可以借助所得回歸方程用期刊某年度的下載次數(shù)來對兩年后的期刊被引次數(shù)進行估計,例如由2006年的期刊下載次數(shù)可以得到期刊在2008年的總的被引次數(shù)為c1=0.0613×58636+304.55=3899,這與在2009年8月時所得數(shù)據(jù)3797較為吻合。
假設(shè)期刊在某年度被引次數(shù)的年代分布規(guī)律為y(t)=C0[exp(-αt)-exp(-mt)],其中C0、m、α均為待定常數(shù),且m>α,t為距離該考察年度的時間間隔,非負且單位為年,y(t)為在t間隔時長處的期刊被引次數(shù),[2]則可以利用期刊的被引半衰期以及最大引文年限來對方程中的參數(shù)進行確定。CNKI鏡像站版的引文數(shù)據(jù)庫能夠提供逐年的期刊被引總量以及相應(yīng)的被引文獻列表,由此可以對考察年度中不同年份被引文獻的被引次數(shù)分別進行求和,將所得到的各年被引量按照文獻出版年的降序進行排列,并在此基礎(chǔ)上求得期刊在該考察年度的累積被引次數(shù)以及相應(yīng)的累積百分比,得到當累積百分比達到50%時的文獻出版年份,或者說此時對應(yīng)的累積被引次數(shù)達到了期刊在考察年度的被引總次數(shù)的一半,從而可以給出該出版年份與考察年度之間的期刊出版年數(shù),并記與考察年度對應(yīng)的期刊出版年數(shù)為1,由此得到期刊在考察年度的被引半衰期。另外,如果是以年作為時間單位來對期刊的被引次數(shù)進行統(tǒng)計,那么實際數(shù)據(jù)往往只能給出與50%的累積比重最為接近的文獻出版年,所以此時的期刊被引半衰期通常是利用該出版年與相鄰文獻出版年的累積百分比來進行線性近似得到的,例如《情報科學(xué)》期刊在2007年的被引總頻次為4051,由于在按文獻出版年份降序排列的被引次數(shù)列表中,2004年對應(yīng)的累積百分比為53.57%,與其余年份相比,此時的累積比重與50%最為接近,于是該期刊在2007年的被引半衰期為 3+(50-36.07)/(53.57-36.07)=3.80年,其中36.07%為2005年對應(yīng)的累積百分比,相類似地,能夠得到該期刊從2000年至2007年的被引半衰期如圖2所示。還需要指出,對于原始數(shù)據(jù)中出現(xiàn)的在考察年度引用其后期文獻的記錄,比如在2001年引用了2002年的期刊論文,這種情形沒有考慮在內(nèi),畢竟在這里考察的是期刊的被引半衰期。
圖2 《情報科學(xué)》期刊的逐年被引半衰期
在圖2中,從直觀上能夠注意到自2001年起期刊的被引半衰期逐漸增加并且具有線性增長的趨勢,被引半衰期的上升往往意味著出版年份更為靠前的過刊內(nèi)容會得到更多的被引次數(shù)。究其原因,一方面是由于期刊論文整體學(xué)術(shù)價值的提升,出版時間與考察年度間隔較長的過刊文獻,在考察年度仍然具有較高的參考價值或者是學(xué)術(shù)影響力,所以文獻的老化速率會有所減緩;另一方面則可能是由于期刊論文中的理論以及基礎(chǔ)應(yīng)用性研究所占比重的增加,該類型文獻與應(yīng)用或?qū)嵶C性研究相比通常會具有較長的時效性,畢竟后者往往需要建立在即時的實證數(shù)據(jù)基礎(chǔ)上,或者是對某個特定領(lǐng)域的應(yīng)用考察,由此與理論研究等相比可能并不具備更強的一般性以及適用性,從而文獻被引頻次的年代分布以及文獻的老化速率等也會受到影響;第三,更為重要的是,隨著圖書情報專業(yè)的發(fā)展,其專業(yè)期刊的影響力也在逐漸增強,特別是該領(lǐng)域中先期可能未被發(fā)現(xiàn)的學(xué)術(shù)價值如今能夠逐步得以體現(xiàn),與此相對應(yīng)地有該類文獻被引次數(shù)的增加以及老化速率的下降,從而期刊的半衰期能夠有所延長。
如果可以假設(shè)上述引起期刊被引半衰期增長的種種原因依舊存在,并且期刊文獻的學(xué)術(shù)價值隨出版時間保持平穩(wěn)上升,同時諸如偏理論文獻的比例等期刊特色能夠維持不變或者是隨時間平穩(wěn)增加(改變),進一步假設(shè)相同的文獻學(xué)術(shù)價值的增加所對應(yīng)的期刊半衰期的上升也相同,當然兩者增加的幅度會有所差異,也即假設(shè)文獻整體的學(xué)術(shù)價值與期刊被引半衰期之間為線性關(guān)系,并近似認為其余的因素對于被引半衰期也具有類似的線性影響。再假設(shè)所有因素的綜合影響為各單個因素的影響的線性疊加,則能夠認為各因素對于期刊被引半衰期的綜合影響為線性,或者是被引半衰期與所有影響因素之間的關(guān)系為多元線性關(guān)系,從而有半衰期會隨時間線性增長(變化)。需要指出,上述各假設(shè)從直觀上均具有一定的合理性。
另外,如果再考慮到期刊規(guī)模的改變對于文獻整體價值乃至對半衰期的影響,畢竟載文規(guī)模的變化可能會引起稿件刊用標準的調(diào)整,這其中既存在由于稿件數(shù)量與質(zhì)量的同時上升,則稿件錄用標準可能會相應(yīng)地維持不變甚至?xí)兴险{(diào),同時也存在著文獻整體價值下降的情形,所以從直觀上并非是隨著期刊規(guī)模的增加,期刊文獻的整體價值就會減少,兩者之間的線性關(guān)系并不顯然。并且如果能夠認為期刊載文規(guī)模以及稿件的數(shù)量與質(zhì)量同為稿件刊用標準的主要決定因素,那么這些因素之間的相互作用從直觀上可能會帶來期刊規(guī)模與刊用標準之間的非線性關(guān)系,從而期刊規(guī)模與文獻整體價值以及被引半衰期之間的聯(lián)系也非線性。由此在上述假設(shè)的基礎(chǔ)上,被引半衰期與包括期刊規(guī)模在內(nèi)的影響因素之間不成多元線性關(guān)系,這樣,即便期刊的規(guī)模會隨時間發(fā)生線性變化,期刊的半衰期與時間也為非線性關(guān)系,所以為簡單計算,可先不考慮期刊規(guī)模的影響,但前提是期刊規(guī)模在考察時段內(nèi)隨時間不會有明顯的改變,從而可以按常量來處理,保證期刊的被引半衰期隨時間的線性變化具有一定的合理性,例如在圖3中,《情報科學(xué)》期刊自2000年改為月刊后至2008年的這段時間內(nèi),期刊年度載文量隨時間的變化相對較為平穩(wěn)。
那么,在期刊半衰期與時間之間近似滿足線性關(guān)系的基礎(chǔ)上,可以對圖2中的數(shù)據(jù)進行線性擬合來對期刊的被引半衰期進行估計,自2001年起的線性回歸方程為h=0.3136t-625.66,其中h和t分別期刊的被引半衰期與考察年度,且判定系數(shù)為0.9939,由此可得2008年度的被引半衰期為4.05年,可以利用期刊在2008年的實際被引數(shù)據(jù)對該估計值進行檢驗,所得結(jié)果為4.07年,其中數(shù)據(jù)統(tǒng)計時間為2009年8月,從而能夠從側(cè)面反映上述假設(shè)具有一定的合理性。
《情報科學(xué)》期刊的最大引文年限能夠在上述確定被引半衰期的過程中直接得到,同樣利用CNKI鏡像站版所提供的該期刊在考察年度的被引文獻列表,將列表中各文獻的被引次數(shù)分別按照文獻出版年進行求和,則能夠得到該期刊的被引次數(shù)在考察年度的出版年代分布,根據(jù)被引次數(shù)最多的文獻出版年與考察年度的時間間隔,可得該期刊在各考察年度的最大引文年限如圖4所示,其中記考察年度自身所對應(yīng)的時間間隔為1年。
圖3 《情報科學(xué)》期刊的年度載文量
圖4 《情報科學(xué)》期刊的最大引文年限隨時間的變化情況
和被引半衰期相比,期刊的最大引文年限更多地是與期刊被引次數(shù)的絕對量相對應(yīng),畢竟被引半衰期是由被引次數(shù)的累積百分比來得到的,于是相對量與絕對量之間的差異會使得該兩老化指標隨時間的變化情況也會有所不同,當最大引文年限小于被引半衰期時,從直觀上會有兩指標之間的差異越大,則從被引峰值處向前回溯,被引次數(shù)的遞減速率相應(yīng)地會有所減小,所以該兩指標間的差異能夠在一定程度上反映被引峰值過后的期刊文獻老化狀況或是程度,而對于最大引文年限大于被引半衰期的情形,則意味著從被引峰值處起期刊被引次數(shù)的快速下降。在圖5中,k為對考察年度中引文峰值至被引頻次首次為零處的被引次數(shù)進行線性最小二乘擬合來得到,且各年度的決定系數(shù)均大于0.93,如果不嚴格地,能夠注意到期刊半衰期與最大引文年限的差值d和遞減斜率k的歷時變化具有一定的同步性。
既然半衰期與最大引文年限的差異能夠作為對被引峰值過后的文獻老化狀況的反映,那么如果能夠認為后者隨時間進行線性變化具有一定的合理性,并且進一步認為,由于期刊的被引半衰期從2001年起隨時間線性增長,所以被引峰值過后的文獻老化程度會隨時間線性下降,相應(yīng)地,該兩老化指標之間的差異也會隨時間線性增長。由于圖5中從2003年開始,在兩指標的差值隨時間線性增長的同時,圖4中的最大引文年限會保持不變,所以在該差值繼續(xù)維持線性增長的情況下,能夠近似認為最大引文年限也不會發(fā)生變化。
圖5 k與d隨時間的變化情況
另一方面,最大引文年限與被引半衰期相比具有較大的慣性,除了在圖2與圖5中能夠?qū)Υ擞兴w現(xiàn)之外,還可以利用被引次數(shù)的年代分布規(guī)律y(t)=C0[exp(-αt)-exp(-mt)]來進行大致的考察,其中m>α且均為正數(shù),對 y(t)求導(dǎo)可得 y'(t)=C0[(-α)exp(-αt)-(-m)exp(-mt)],則函數(shù)y(t)的駐點為t1=[ln(m/α)]/(m-α),由于
所以函數(shù)y(t)在t1處取極大值,也即t1與最大引文年限相對應(yīng),于是期刊的最大引文年限在這里僅與m與α兩個參數(shù)有關(guān)。對于期刊的被引半衰期,如果取時間為連續(xù)變量,并設(shè)期刊的被引半衰期為t2,則有
這里的t2的取值除了與m與α有關(guān)之外,還受到參數(shù)也即期刊在考察年度的被引總頻次的影響,所以從直觀上能夠近似認為最大引文年限的慣性相對較強。
考慮到以上兩點,在這里仍取2008年的期刊最大引文年限為3年,實際上根據(jù)2009年8月的期刊被引數(shù)據(jù),能夠得到2008年的k值與d值分別為-88.667以及1.07,并有期刊的最大引文年限為3年,由此,上述討論具有一定的合理性。
此時嘗試對2008年《情報科學(xué)》期刊被引次數(shù)的年代分布規(guī)律進行確定。由于該期刊在2008年的被引總次數(shù)、被引半衰期以及最大引文年限的估計值分別為3899次、4.05年以及3年,那么如果取時間為連續(xù)變量,則有
及y'(t)|t=3=0,將y(t)=C0[exp(-αt)-exp(-mt)]帶入,以確定參數(shù)C0,α以及m,由此2008年的年代分布曲線也能夠確定下來。從該方程組可以得到:與線性方程組相比,非線性方程組的解集情況會相對較為多樣,在不同的區(qū)域內(nèi),可能會有唯一解、多個解或是無窮多組解的情形出現(xiàn),因此可能會涉及到對具有實際意義的解的判別標準,同時對于非線性方程組的求解過程,在通常情況下也并不具有通用的方法。所以一方面可以注意到在上述方程組中所存在的對稱性并對其進行利用,特別是前兩個等式,分別構(gòu)造函數(shù):
對應(yīng)相同f(x)值的m與 α,如果同時滿足 g(m)=g(α),則為該非線性方程組的解,相應(yīng)地,常數(shù)C0也可以得到,或是從直觀上,f(x)與g(x)的函數(shù)曲線如圖6所示。在圖6中,以水平直線上下平移,并設(shè)在坐標原點以下該直線與函數(shù)f(x)的兩個交點分別為A'與B',如果存在這樣的兩點使得g(xA')=g(xB'),則該兩點的橫坐標即為所求得m與α,其中m>α。另外,圖6中的點A與點B為曲線f(x)與g(x)的交點,如果該兩點對應(yīng)的函數(shù)值相等,也可以有m=xB以及α=xA,但實際上xA=0.32,f(xA)=-0.7,xB=0.51,f(xB)=-0.734,函數(shù)值有一定的差距,并且經(jīng)迭代檢驗,m=0.51,α=0.32并不穩(wěn)定,所以該數(shù)對并不是最終所求。
另一方面則可以采取迭代法,將上述方程組化為迭代方程,并給定初值以及精度要求進行迭代,但是迭代的過程與迭代結(jié)果的斂散性均與初值的選取有關(guān),對于解的情況較為復(fù)雜的方程或是方程組而言,需要大致了解所求參數(shù)m,α以及C0的取值范圍,從而有可能通過迭代進行確定。由此對于上述方程組的求解還需做進一步的探討,目的是希望得到對于該類方程組的一般解法,畢竟如果文中的估計方法可行的話,則所得方程組的形式包括對稱性等都會保持不變。
圖6 函數(shù)f(x)與g(x)的曲線圖
假設(shè)能夠得到《情報科學(xué)》期刊在2008年的被引次數(shù)年代分布為y1(t),則該期刊中出版年度為2006與2007年的文獻在2008年的被引次數(shù)分別為y1(3)與y1(2),由此根據(jù)期刊影響因子的定義,可得期刊在2008年的影響因子為[y1(3)+y1(2)]/[N(2006)+N(2007)],其中N為期刊在相應(yīng)年度的載文量。這樣可以利用期刊在2007年之前(包括2007年)的下載與被引數(shù)據(jù)來對期刊在2008年度的影響因子進行估計。更進一步地,如果可以粗略地認為期刊的被引半衰期以及最大引文年限的慣性足夠大,從而使得該兩變量的變化趨勢能夠維持其后兩年近似不變,則利用2006年之前(包括2006年)的下載與被引次數(shù)也可以進行大致的估計。
圖7 《情報科學(xué)》期刊的逐年影響因子
需要指出,在這里沒有采用對期刊的過往影響因子直接進行擬合來估計其后期取值,原因是由于根據(jù)圖7中期刊影響因子的歷時變化所呈現(xiàn)出來的趨勢,采取線性擬合或是非線性擬合從直觀上并不顯然,更何況由于數(shù)據(jù)量較小,所以還需要考慮到所得數(shù)據(jù)中隨機因素的影響。實際上,按照2009年8月的被引數(shù)據(jù)能夠得到期刊在2008年的影響因子為1.465。另外,不同的數(shù)據(jù)源所提供的期刊被引次數(shù)會有差異,畢竟其入庫期刊以及引用文獻的統(tǒng)計范圍會有所不同,所以圖7中的期刊影響因子可能與其他的統(tǒng)計值會有出入,但是這并不影響文中估計方法的可行性。
對于期刊的被引次數(shù)以及影響因子的置信區(qū)間,則由于下載次數(shù)與被引次數(shù)均服從負指數(shù)分布,所以可能會涉及到負指數(shù)分布變量的平方和所服從的分布規(guī)律等,因此對置信區(qū)間的確定還需做進一步的探討。其次,由于期刊在某年度的被引次數(shù)與其兩年前的下載次數(shù)之間存在高度的正相關(guān)性,所以可以利用后者來對前者進行估計,但實際上由圖1可以注意到期刊在某年度的被引頻次與其前四年的下載次數(shù)之間都分別具有較高的線性相關(guān)性,由此對被引次數(shù)進行估計時,是否能夠建立期刊在某年度的被引次數(shù)與過往各年度下載次數(shù)的多元線性關(guān)系,而這與直觀認識也較相符合。另外,以上對被引次數(shù)以及影響因子的估計是建立在線性假設(shè)的基礎(chǔ)上,從而有其局限性,同時,數(shù)據(jù)庫的擴容與更新等往往意味著數(shù)據(jù)統(tǒng)計范圍的改變,從而使得期刊的被引數(shù)據(jù)會發(fā)生變化,所以在得到影響因子的估計值時需要指出原始數(shù)據(jù)的統(tǒng)計時間。
[1]龐景安.中文科技期刊下載計量指標與引用計量指標的比較研究[J].情報理論與實踐,2006,29(1)∶44-48.
[2] Aurel Avramescu.Actualityand obsolescenceof scientificliterature[J].Journal of the American Society for Information Science,1979,30(5):296-303.
[3] Leo Egghe.Atheory of continuous rates and applications tothe theory of growth and obsolescence rates[J].Information Processing and Management,1994,30(2):279-292.