●郭 強(qiáng),趙 瑾,劉思源,張 芳,劉新新,王玲玉
(1.鄭州大學(xué) 信息管理系,鄭州 450001;2.中國(guó)人民解放軍炮兵學(xué)院 軍事運(yùn)籌教研室,合肥 230031)
對(duì)期刊下載次數(shù)進(jìn)行研究有一定的理論及實(shí)際意義。第一,從學(xué)術(shù)價(jià)值評(píng)價(jià)的角度,引文分析作為一種評(píng)價(jià)的方法有其局限性。例如,使用但未被引用的文獻(xiàn)的學(xué)術(shù)價(jià)值應(yīng)當(dāng)如何去衡量,畢竟作者在最終成果中引用的文獻(xiàn)往往只是其科研活動(dòng)中所使用過(guò)的文獻(xiàn)的一部分,而下載次數(shù)在一定程度上能夠與文獻(xiàn)的被閱讀次數(shù)或者是受利用的程度相對(duì)應(yīng),當(dāng)然這需要在網(wǎng)絡(luò)環(huán)境下。再如,引文分析具有相對(duì)的滯后性,而利用文獻(xiàn)的下載次數(shù)則有可能使對(duì)學(xué)術(shù)價(jià)值的評(píng)價(jià)有所提前。第二,下載次數(shù)是網(wǎng)絡(luò)資源的基本屬性,對(duì)下載次數(shù)的考察是網(wǎng)絡(luò)計(jì)量學(xué)理論研究的組成部分,而且探討下載次數(shù)所服從的規(guī)律會(huì)有助于對(duì)用戶信息需求行為的理解,從而為資源配置的優(yōu)化提供定量依據(jù)。對(duì)下載次數(shù)的已有研究主要包括對(duì)期刊下載頻次在期刊中分布狀況的考察,以及下載頻次與其它評(píng)價(jià)指標(biāo)之間的比較研究和等級(jí)相關(guān)分析,[1-3]其中的原始數(shù)據(jù)均取自《中國(guó)學(xué)術(shù)期刊網(wǎng)絡(luò)計(jì)量測(cè)試報(bào)告》以及《中國(guó)學(xué)術(shù)期刊綜合引證報(bào)告》。本文則側(cè)重于隨學(xué)科屬性的不同下載次數(shù)在期刊中分布狀況的差異,需要指出在對(duì)分布狀況進(jìn)行比較的過(guò)程中會(huì)涉及到期刊下載次數(shù)的概率分布。
如果將期刊的下載次數(shù)視為隨機(jī)變量,那么考察該變量的概率分布則具有較為基礎(chǔ)的理論意義?!吨袊?guó)學(xué)術(shù)期刊網(wǎng)絡(luò)出版總庫(kù)》的鏡像站版已對(duì)其入庫(kù)期刊按照學(xué)科性質(zhì)進(jìn)行了分類,并且能夠提供各期刊的下載次數(shù),在這里我們將其作為數(shù)據(jù)來(lái)源,并得到下載次數(shù)在期刊中的頻次分布。如圖1所示,統(tǒng)計(jì)時(shí)間為2009年3月。
圖1 期刊按下載次數(shù)的分布圖
圖1對(duì)不同的學(xué)科屬性分別進(jìn)行了考察,包括理工與人文,也包括學(xué)科界限較為明晰的農(nóng)業(yè)科技以及相對(duì)模糊的信息科學(xué),目的是希望得到一些具有共性的規(guī)律。從直觀上來(lái)看,下載次數(shù)在期刊中并不服從正態(tài)分布,而是與負(fù)指數(shù)分布較為吻合,曲線擬合的結(jié)果也從側(cè)面說(shuō)明了這一點(diǎn)。比如對(duì)于基礎(chǔ)科學(xué)類,擬合曲線為y=79.637exp(-x/8.768)-0.133,且判定系數(shù)為0.978;對(duì)于社會(huì)科學(xué)類,擬合曲線為y=103.085exp(-x/6.896)+0.119,且判定系數(shù)高達(dá) 0.998,對(duì)于圖中其余的學(xué)科屬性均具有類似的情形,其中x和y分別為下載次數(shù)和相應(yīng)學(xué)科的期刊百分比。
下載次數(shù)的頻次(概率)分布是對(duì)該隨機(jī)變量進(jìn)行統(tǒng)計(jì)分析的基礎(chǔ),由此種種較為成熟的統(tǒng)計(jì)分析方法才能夠得以運(yùn)用,畢竟每種方法都有其適用范圍。例如對(duì)期刊的學(xué)術(shù)價(jià)值或是影響力等進(jìn)行綜合評(píng)價(jià),在建立評(píng)價(jià)指標(biāo)體系的過(guò)程中,不僅需要考察單個(gè)指標(biāo)自身的性質(zhì),也需要考察指標(biāo)之間的相互關(guān)系,從而對(duì)各指標(biāo)的權(quán)重進(jìn)行確定。因此需要對(duì)下載次數(shù)與其它文獻(xiàn)計(jì)量指標(biāo),比如期刊的被引次數(shù)等,進(jìn)行統(tǒng)計(jì)相關(guān)分析。一種方法是簡(jiǎn)單相關(guān)分析,但是該方法要求所考察的隨機(jī)變量需要服從正態(tài)分布,對(duì)于期刊的下載次數(shù)與被引次數(shù),盡管可以按照該方法,由所采集的期刊樣本集來(lái)得到兩個(gè)變量的樣本對(duì)集合,并進(jìn)行相應(yīng)的相關(guān)系數(shù)計(jì)算以及假設(shè)檢驗(yàn),但是期刊的下載次數(shù)與被引次數(shù)作為隨機(jī)變量未必服從正態(tài)分布。實(shí)際上,統(tǒng)計(jì)數(shù)據(jù)的經(jīng)驗(yàn)考察結(jié)果往往表現(xiàn)為,對(duì)于下載次數(shù)較高(低)的期刊,其數(shù)量相對(duì)較少(多),從直觀上頻次的分布特征是與負(fù)指數(shù)分布較為吻合的,且能夠較好地通過(guò)假設(shè)檢驗(yàn),對(duì)于期刊的被引次數(shù)同樣有類似的情形。需要指出,期刊的下載次數(shù)是諸多影響因素共同作用的結(jié)果,包括期刊自身的學(xué)術(shù)質(zhì)量、期刊所屬學(xué)科的性質(zhì)與發(fā)展?fàn)顩r、網(wǎng)絡(luò)環(huán)境的改善與數(shù)字技術(shù)的更新以及用戶的偏好等,所以下載次數(shù)的分布狀況從直觀上會(huì)有其復(fù)雜性;其次,雖然經(jīng)驗(yàn)考察具有方法上的直觀優(yōu)勢(shì),但是在對(duì)一般性規(guī)律進(jìn)行探討時(shí)會(huì)有其局限性,對(duì)經(jīng)驗(yàn)結(jié)果的深入理解以及對(duì)下載次數(shù)分布規(guī)律的本質(zhì)探求需要對(duì)下載次數(shù)進(jìn)行諸如基礎(chǔ)模型的構(gòu)建等解釋性研究。盡管經(jīng)驗(yàn)分析會(huì)有其不足,但是其結(jié)果至少能夠從側(cè)面反映,對(duì)于考察下載次數(shù)與其它文獻(xiàn)計(jì)量指標(biāo)的統(tǒng)計(jì)相關(guān)程度而言,簡(jiǎn)單相關(guān)分析會(huì)有其方法上的局限性,從而需要考慮到等級(jí)相關(guān)分析。[1,3]因?yàn)樵摲椒ㄟm用于所考察的隨機(jī)變量不服從正態(tài)分布或其分布為未知的情形。
圖1給出了在特定學(xué)科中對(duì)應(yīng)于不同下載次數(shù)的期刊數(shù)量,從另外一個(gè)角度來(lái)看,圖1也是給出了在該學(xué)科中期刊具有不同的下載次數(shù)的概率分布,從而是將期刊的下載次數(shù)視為離散型隨機(jī)變量,并給出了相應(yīng)的分布列,由此可以求得在該學(xué)科中期刊下載次數(shù)的期望值,或是對(duì)期刊的下載次數(shù)進(jìn)行估計(jì),以及對(duì)不同學(xué)科屬性的期刊下載特性進(jìn)行比較。畢竟對(duì)于圖書館而言,不同學(xué)科屬性的期刊效費(fèi)比會(huì)有所不同,電子資源的購(gòu)買與維護(hù)等成本需要與該電子資源的受利用程度相匹配,[4]而受利用的程度在不嚴(yán)格的意義下可以用下載次數(shù)來(lái)進(jìn)行表征,這也是對(duì)電子期刊的下載狀況進(jìn)行考察的另外一個(gè)原因,特別是隨著網(wǎng)絡(luò)技術(shù)以及數(shù)字技術(shù)的發(fā)展,電子期刊因其在使用上所具有的便捷優(yōu)勢(shì),使得圖書館往往會(huì)面臨到這樣的矛盾:一方面,用戶對(duì)電子資源的使用偏好會(huì)導(dǎo)致對(duì)電子資源的使用量的逐漸增加,另一方面還需要考慮到電子資源的購(gòu)置成本以及它對(duì)傳統(tǒng)期刊購(gòu)置經(jīng)費(fèi)的影響,[4]所以需要考察各類型電子期刊的效費(fèi)比,以期為電子期刊的購(gòu)置提供判據(jù),目的是為了在經(jīng)費(fèi)給定的約束條件下實(shí)現(xiàn)資源配置的最優(yōu)化。利用期刊下載次數(shù)的概率分布可以得到一些有意義的結(jié)論,諸如有80%的把握能夠保證某學(xué)科期刊的下載次數(shù)不低于某數(shù)值,由此可用來(lái)估計(jì)該學(xué)科期刊的下載次數(shù)的下限,或者是某學(xué)科期刊的下載次數(shù)不低于某個(gè)計(jì)劃數(shù)值的概率,即P(d≥a) =1-F(a),其中d為下載次數(shù),a為計(jì)劃數(shù)值,可以由該學(xué)科電子期刊的購(gòu)置成本來(lái)進(jìn)行計(jì)算,F(xiàn)為隨機(jī)變量d的分布函數(shù),具體的時(shí)間范圍則要與概率分布的統(tǒng)計(jì)時(shí)間范圍相一致。需要指出,圖1的原始數(shù)據(jù)是取自CNKI鏡像站,原始數(shù)據(jù)需要具有共同討論的基礎(chǔ)才能夠進(jìn)行相互間的比較,鏡像站所提供的下載次數(shù)是期刊從其開始提供下載到統(tǒng)計(jì)截至?xí)r間的總的下載次數(shù),但是不同期刊的入網(wǎng)時(shí)間會(huì)有差異,對(duì)于這種情形,在這里是采用統(tǒng)計(jì)對(duì)象為期刊的大樣本集合且考察時(shí)間為足夠長(zhǎng)的方法,來(lái)盡可能消除由這種差異所帶來(lái)的影響,畢竟截止于CNKI五年規(guī)劃 (1999—2004) 的結(jié)束期,[5]CNKI在期刊網(wǎng)絡(luò)出版方面的發(fā)展已經(jīng)相對(duì)較為成熟,期刊的入網(wǎng)率也相對(duì)較高,從而能夠近似保證原始數(shù)據(jù)相互之間的可比性。同時(shí),如果期刊的下載量足夠大,那么由誤操作或是由人為提升下載次數(shù)等因素所帶來(lái)的對(duì)統(tǒng)計(jì)特性的影響也可以忽略不計(jì)。另外,在圖1中是對(duì)下載次數(shù)的取值范圍進(jìn)行了分區(qū),并對(duì)各個(gè)小區(qū)間上的期刊分布狀況分別進(jìn)行了考察,因此是對(duì)下載次數(shù)進(jìn)行了離散處理,這種方法有其直觀性,但是也有其不足之處,畢竟期刊的下載次數(shù)在理論上是可以連續(xù)取值的,所以將下載次數(shù)視為連續(xù)型隨機(jī)變量會(huì)更為合適。由此可以考察相應(yīng)的連續(xù)型分布函數(shù)以及概率密度函數(shù),而且這種連續(xù)性也使得微積分等數(shù)學(xué)工具可以運(yùn)用進(jìn)來(lái),從而對(duì)下載次數(shù)的研究也可以更具可拓性。
布拉德福定律是文獻(xiàn)計(jì)量學(xué)的基本規(guī)律,描述的是論文在所屬期刊中的分布狀況,體現(xiàn)了文獻(xiàn)在相應(yīng)期刊中的集中與分散狀況的對(duì)立與統(tǒng)一。與期刊論文類似,期刊的下載次數(shù)同樣可以視為期刊的信息產(chǎn)出,由此,進(jìn)一步地,能否按照布拉德福定律來(lái)對(duì)期刊的下載次數(shù)進(jìn)行考察,目的是為了得到關(guān)于下載次數(shù)的規(guī)律性認(rèn)識(shí),同時(shí)也能夠使布拉德福定律的相關(guān)研究建立在更為寬泛的基礎(chǔ)之上,對(duì)于該定律的理解也可以更為深入。
考察下載次數(shù)在期刊中的分布狀況,如果按照布拉德福定律的分區(qū)描述,則需要考察以下命題是否成立,給定有限長(zhǎng)的考察時(shí)段,將特定學(xué)科或是主題的期刊按照在該時(shí)段內(nèi)被下載的次數(shù)降序排列;若對(duì)所得期刊列表進(jìn)行分區(qū),且使各分區(qū)對(duì)應(yīng)的累積下載頻次相同,則各分區(qū)的期刊累積數(shù)會(huì)構(gòu)成等比數(shù)列。也即若將總的下載次數(shù)p等分,則存在實(shí)數(shù)r與k使得期刊列表中的前r份期刊、其后的rk以及后續(xù)的rk2、一直到最后的rkp-1份期刊都對(duì)應(yīng)相同的累積下載頻次M/p,且r+rk+rk2+...+rkp-1=N,其中M為下載總次數(shù),k為布拉德福常數(shù),N為期刊總數(shù)。也可以對(duì)累積下載頻次與期刊累積數(shù)之間的函數(shù)關(guān)系進(jìn)行考察,并進(jìn)行相應(yīng)的曲線擬合,[1-3]在這里我們采取同樣的方法,但是更加側(cè)重于不同學(xué)科屬性之間的相互比較。
仍然利用圖1的原始數(shù)據(jù),同樣是因?yàn)檫x取期刊大樣本,且截止到2004年CNKI的期刊數(shù)字化生產(chǎn)能力能夠達(dá)到每月6000種,已經(jīng)占到了當(dāng)時(shí)期刊總量的75%,具有較高的期刊入網(wǎng)率,[5]再加上考察時(shí)間較長(zhǎng)等原因,所以在這里是忽略了期刊入網(wǎng)時(shí)間的差異所帶來(lái)的影響,從而近似認(rèn)為數(shù)據(jù)集合中各期刊的起始考察時(shí)間相同,故能夠近似滿足在布拉德福定律中針對(duì)各期刊的相同考察時(shí)段這一要求。那么,作為下載次數(shù)在相應(yīng)期刊中分布狀況的一種表現(xiàn),由圖1中的原始數(shù)據(jù)可以得到期刊的累積下載頻次與期刊累積數(shù)之間的關(guān)系如圖2所示,其中n為期刊累積數(shù)。
圖2 累積下載頻次與期刊累積數(shù)的關(guān)系圖
在圖2中,不同學(xué)科屬性的Lnn與m之間的函數(shù)關(guān)系從直觀上都能夠與傳統(tǒng)布拉德福定律的圖像描述相吻合,而且格魯斯下垂也能夠納入進(jìn)來(lái)。同時(shí)曲線擬合的結(jié)果也與布魯克斯公式相一致。例如對(duì)于基礎(chǔ)科學(xué)類期刊,在布拉德福定律的分區(qū)描述中取p為3來(lái)確定期刊的核心區(qū),所得核心以及非核心區(qū)的累計(jì)下載頻次m與期刊累積數(shù)n之間的擬合關(guān)系分別為m=1866965.344n0.647以及m=18310431.901Lnn-53447472.841,核心與非核心區(qū)擬合結(jié)果的判定系數(shù)分別是0.977與0.994,且經(jīng)F檢驗(yàn),是在顯著性水平為0.05的條件下m與n之間分別存在冪函數(shù)以及對(duì)數(shù)函數(shù)關(guān)系。類似地,對(duì)于農(nóng)業(yè)科技類期刊,核心與非核心區(qū)的擬合曲線分別為m=1108608.572n0.606以及m=12777331.067Lnn-40878815.751,且判定系數(shù)分別高達(dá)0.999與0.996,同樣能夠很好地通過(guò)假設(shè)檢驗(yàn),其它學(xué)科屬性的期刊集合具有相似的擬合情形,所以從統(tǒng)計(jì)數(shù)據(jù)上看,可以認(rèn)為下載次數(shù)在期刊中的布拉德福分布特性達(dá)到了顯著水平,而這與下載次數(shù)的已有結(jié)論是相吻合的,[1-3]這種一致性也能夠從側(cè)面反映出原始數(shù)據(jù)的選取具有一定的合理性。
圖2描述了期刊累積數(shù)與累積下載頻次之間的關(guān)系,更確切地說(shuō),是累積下載頻次隨期刊累積數(shù)的增長(zhǎng)情況,從直觀上看,圖2所顯示的函數(shù)關(guān)系有一定的聚類特征,分別是{社會(huì)科學(xué)類、農(nóng)業(yè)科技類、哲學(xué)與人文類},{基礎(chǔ)科學(xué)類、信息科學(xué)類},以及{工程科技類}。在期刊累積數(shù)偏低的區(qū)域,基礎(chǔ)科學(xué)類與信息科學(xué)類期刊的累積下載頻次相對(duì)較高,一種可能的解釋是,這兩類學(xué)科屬性往往會(huì)吸引更多的研究資源,從而產(chǎn)出的文獻(xiàn)也會(huì)相對(duì)較多,所以與學(xué)科對(duì)應(yīng)的下載頻次或是累積下載頻次亦會(huì)相對(duì)較高。而對(duì)于工程科技類期刊,盡管從其學(xué)科屬性上來(lái)看應(yīng)當(dāng)具有類似的情形,但實(shí)際上,與期刊累積數(shù)偏低區(qū)域?qū)?yīng)的累積下載次數(shù)卻相對(duì)較少,且歸屬于{社會(huì)科學(xué)類、農(nóng)業(yè)科技類、哲學(xué)與人文類}的情形,究其原因可能是由于該類學(xué)科有其自身獨(dú)特的性質(zhì)。在圖2中,期刊首先是按照下載次數(shù)降序排列,然后才是對(duì)期刊累積數(shù)以及累積下載頻次的計(jì)算,所以期刊累積數(shù)偏低的區(qū)域是與下載頻次較高的期刊相對(duì)應(yīng)的,因此對(duì)于工程科技類期刊,圖2實(shí)際上是反映了按下載次數(shù)排名靠前的期刊,對(duì)應(yīng)的論文數(shù)量相對(duì)較少。由于從直觀上看,期刊的下載頻次同樣可以作為對(duì)期刊學(xué)術(shù)價(jià)值的一種側(cè)面反映而被納入到評(píng)價(jià)指標(biāo)體系,而且按照上述的等級(jí)相關(guān)分析,對(duì)于本文所采用的鏡像站原始數(shù)據(jù)集而言,期刊的下載頻次與其被引頻次之間存在一定的正相關(guān)性,所以不妨在這里近似認(rèn)為期刊的下載頻次能夠在一定程度上與期刊的學(xué)術(shù)價(jià)值相對(duì)應(yīng)。由此,圖2也意味著對(duì)于工程科技類中評(píng)價(jià)較高的期刊,其論文數(shù)量會(huì)相對(duì)較少,一種可能的原因是:工程科技類的優(yōu)秀成果并不一定總是以論文形式來(lái)給出的,相反,專利、程序包、實(shí)驗(yàn)系統(tǒng),以及技術(shù)報(bào)告等成果形式所占的比例往往會(huì)很高,工程科技類學(xué)科屬性所具有的這種特征使得該學(xué)科的優(yōu)秀研究成果在其表現(xiàn)形式上可以有更多的選擇方式,從而會(huì)造成從論文形式中的分流;另一個(gè)原因則是與工程科技類學(xué)科屬性所可能具有的涉密性有關(guān),保密要求會(huì)限制相關(guān)成果以論文等形式來(lái)公開發(fā)表,從而進(jìn)一步增加了采取專利、內(nèi)部科研報(bào)告等非公開形式的可能性,而且優(yōu)秀的工程科技類成果往往會(huì)伴隨著較高的密級(jí)。這類科研成果僅就其自身的學(xué)術(shù)質(zhì)量而言本可以發(fā)表在評(píng)價(jià)較高的期刊上,但是實(shí)際上會(huì)受到一定的出版限制,所以對(duì)于工程科技類學(xué)科屬性,在期刊累積數(shù)偏低的區(qū)域,科研產(chǎn)出并未像基礎(chǔ)科學(xué)以及信息科學(xué)類那樣更多地以論文形式來(lái)體現(xiàn)。
類似地,由于期刊是按照下載次數(shù)降序排列的,所以期刊累積數(shù)的逐漸居中也就意味著期刊的類型是從評(píng)價(jià)較高的期刊逐漸向評(píng)價(jià)一般的期刊來(lái)進(jìn)行轉(zhuǎn)變。在圖2中期刊累積數(shù)居中的階段,工程科技類學(xué)科的累積下載頻次開始脫離{社會(huì)科學(xué)類、農(nóng)業(yè)科技類、哲學(xué)與人文類}區(qū)域,并向{基礎(chǔ)科學(xué)類、信息科學(xué)類}區(qū)域過(guò)渡,一方面的原因是由于工程科技類的階段性成果以及一般的成果采取專利、技術(shù)報(bào)告等具有總結(jié)意義的產(chǎn)出形式在通常情況下并不合適,相反以論文作為科研產(chǎn)出在此時(shí)則顯得相對(duì)較為適宜。同時(shí),階段性或是一般的成果更可能地是發(fā)表在評(píng)價(jià)相對(duì)一般的期刊上,所以此時(shí)其他成果形式的分流作用會(huì)逐漸減弱,或者說(shuō)與期刊累積數(shù)偏低的區(qū)域相比論文形式的產(chǎn)出得到了有效釋放,評(píng)價(jià)一般的期刊的論文數(shù)量也會(huì)相對(duì)較多,從而下載次數(shù)以及累積下載次數(shù)也會(huì)相應(yīng)地有所增加。另一方面的原因則是在期刊累積數(shù)居中的階段,階段性或是一般的工程科技類成果與優(yōu)秀的成果相比,其密級(jí)在通常情況下會(huì)相對(duì)較低,相應(yīng)地,這類科研成果在其產(chǎn)出形式上所受到的出版限制也會(huì)有所減弱,從而在一定程度上會(huì)造成從內(nèi)部科研報(bào)告等非公開形式向期刊論文形式的回流,由此論文的數(shù)量會(huì)相應(yīng)有所增加,對(duì)期刊的下載量也會(huì)有正面的影響。
在期刊累積數(shù)偏高的區(qū)域,工程科技類期刊的累積下載頻次已經(jīng)歸屬于{基礎(chǔ)科學(xué)類、信息科學(xué)類}所在的區(qū)域,究其原因,相類似地可能是由于論文產(chǎn)出的進(jìn)一步釋放,而另一方面則是考慮到該學(xué)科屬性自身的實(shí)際發(fā)展規(guī)模,從而所得期刊下載頻次的經(jīng)驗(yàn)表象具有一定的合理性。
另外,傳統(tǒng)的布拉德福定律描述了文獻(xiàn)在所屬期刊中的集中與分散現(xiàn)象,相類似地,期刊下載次數(shù)的布拉德福分布特性則意味著,對(duì)于特定的學(xué)科或主題,存在少部分的期刊下載頻次會(huì)相對(duì)較高,同時(shí)也存在著大量的期刊,其下載次數(shù)會(huì)相對(duì)較少。以上圖2考察的是期刊與下載頻次這兩個(gè)對(duì)象的累積數(shù),體現(xiàn)的是兩變量的絕對(duì)量之間的關(guān)系,為了更好地反映下載次數(shù)在期刊中的分布狀況,則需要考察這兩個(gè)變量的相對(duì)量,也即下載頻次累積百分比與期刊累積百分比之間的關(guān)系,如圖3所示。
圖3 下載頻次與期刊的累積百分比關(guān)系圖
從直觀上看,累積比重之間的函數(shù)關(guān)系是隨著學(xué)科屬性的不同而在較為狹窄的范圍內(nèi)變動(dòng),變動(dòng)范圍的上下界分別為農(nóng)業(yè)科技類以及哲學(xué)與人文類的情形,與圖2類似,所得累積比重之間的關(guān)系是建立在對(duì)期刊按照下載次數(shù)降序排列的基礎(chǔ)之上,所以函數(shù)關(guān)系向上彎曲的程度越高則意味著下載次數(shù)在期刊中的分布就越集中,極限的情況是圖中點(diǎn)(0,0)、(0,1)以及(1,1)的連線,對(duì)于這種情形,僅一份期刊能夠就與其所屬學(xué)科的總的下載次數(shù)相對(duì)應(yīng)。若不嚴(yán)格地,在圖3中,期刊與下載頻次累積百分比之間的關(guān)系受學(xué)科因素的影響似乎并不顯著,一種可能的原因是由于科學(xué)的統(tǒng)一性,理論與實(shí)踐共同形成的正反饋機(jī)制不僅促使著人們對(duì)自然以及社會(huì)的規(guī)律性內(nèi)容進(jìn)行探求,而且也推動(dòng)著已有規(guī)律性認(rèn)識(shí)的分化與綜合,這種認(rèn)識(shí)上的分化或是認(rèn)識(shí)精細(xì)程度的增加會(huì)孕育著相應(yīng)專門學(xué)科的產(chǎn)生,所以種種學(xué)科有其同一性的基礎(chǔ),而且專門學(xué)科的進(jìn)一步細(xì)化或是分支現(xiàn)象也不影響這種性質(zhì)。學(xué)科的發(fā)展往往會(huì)經(jīng)歷萌芽、成長(zhǎng)以及成熟等階段,學(xué)科從其獨(dú)立到最終的成熟,研究方法上的形而下學(xué)趨勢(shì)會(huì)使得研究對(duì)象更具多樣性,而研究?jī)?nèi)容的寬泛化則可能會(huì)導(dǎo)致學(xué)科的進(jìn)一步分化,以至該學(xué)科的下屬分支學(xué)科的產(chǎn)生,比如牛頓—萊布尼茨公式體現(xiàn)了微積分的基本內(nèi)涵,如果按照這種內(nèi)涵并將考察變量的取值范圍從實(shí)數(shù)域拓展到復(fù)數(shù)域,則相應(yīng)地會(huì)有復(fù)變函數(shù)的產(chǎn)生,畢竟復(fù)數(shù)域有其自身獨(dú)特的性質(zhì),而該過(guò)程的驅(qū)動(dòng)力仍然是理論與實(shí)踐所形成的正反饋機(jī)制,仍然是出自對(duì)自然規(guī)律的進(jìn)一步認(rèn)識(shí),畢竟對(duì)于復(fù)數(shù)域的連續(xù)性考察有其實(shí)際意義。較為根本地,對(duì)學(xué)科間具備同一性的認(rèn)同也是建立在對(duì)大統(tǒng)一理論存在的信仰基礎(chǔ)之上的。而對(duì)于不同的學(xué)科屬性,學(xué)科之間的同一性會(huì)使得下載次數(shù)在期刊中的分布狀況有趨于一致的傾向,最起碼地,如果考察極端的情形,即所討論的學(xué)科實(shí)為同一學(xué)科或者是具有相同的學(xué)科屬性,那么下載次數(shù)在期刊中的分布狀況當(dāng)然也會(huì)相同,累積比重之間的函數(shù)關(guān)系則相互重合。更何況,隨著學(xué)科之間交叉程度的上升,相互間的同一性趨勢(shì)也會(huì)逐漸增強(qiáng)。進(jìn)一步地,例如存在兩類屬性不同的學(xué)科,按照上文中對(duì)布拉德福定律的分區(qū)描述,如果給定分區(qū)數(shù)p,所得的參數(shù)k則可以用來(lái)對(duì)下載次數(shù)在期刊中分散或是集中的程度做近似的描述,對(duì)于這兩類學(xué)科,不妨設(shè)相應(yīng)的參數(shù)分別為k1和k2,假設(shè)存在某一學(xué)科,且該學(xué)科的期刊與下載次數(shù)為這兩類學(xué)科的并集,或者說(shuō)是將這兩類學(xué)科按照同一學(xué)科來(lái)進(jìn)行處理,則此時(shí)需要對(duì)該學(xué)科(屬性)的期刊以及相應(yīng)的下載次數(shù)重新進(jìn)行分區(qū),將初始兩學(xué)科的期刊列表合并且同樣按照下載次數(shù)降序排列。如果此時(shí)仍然服從布拉德福定律,那么可以求得該學(xué)科的k參數(shù),假設(shè)埃格希和魯索給出的k=(eγym)1/p對(duì)于下載頻次也同樣適用,其中ym相應(yīng)地為期刊的最大下載頻次,γ為歐拉常數(shù),那么在p給定的情況下該學(xué)科的k值應(yīng)取k1或是k2。由此該學(xué)科與除了初始兩學(xué)科以外的其它學(xué)科之間的k值差異沒(méi)有得到擴(kuò)大,而且初始兩學(xué)科的k值差異在該學(xué)科中也得到了消除。所以從整體上看,各學(xué)科間集中或是分散程度的區(qū)別會(huì)有所減少,從而從側(cè)面說(shuō)明了學(xué)科之間的同一性對(duì)于學(xué)科之間k值差異的縮減作用,以及同一性對(duì)于k值的變化有其約束作用。
造成圖3中下載次數(shù)在期刊中的分布狀況隨學(xué)科的不同變化相對(duì)不大的另外一個(gè)原因,則可能與期刊下載次數(shù)這個(gè)統(tǒng)計(jì)變量自身有關(guān)。隨著網(wǎng)絡(luò)與數(shù)字技術(shù)的發(fā)展,各個(gè)學(xué)科所面臨的相同下載環(huán)境使得期刊的下載特征可能會(huì)具有一定的共性;另一方面,期刊的下載次數(shù)反映的是期刊的受利用程度,由于各個(gè)學(xué)科之間的交叉與融合,期刊的使用會(huì)存在一定的聯(lián)動(dòng)性,從而與期刊的被引頻次相比,關(guān)于下載次數(shù)的累積比重之間的函數(shù)關(guān)系會(huì)有趨于一致的傾向,畢竟期刊的被引頻次是與期刊的學(xué)術(shù)價(jià)值相對(duì)應(yīng)。再者,在各類學(xué)科中,下載次數(shù)在期刊中的分散程度在一般情況下要比被引頻次的分散程度要高,究其原因,首先是因?yàn)檫@兩者分別是與期刊的利用以及學(xué)術(shù)價(jià)值兩個(gè)概念相對(duì)應(yīng),與后者相比,前一個(gè)概念自身就具有相對(duì)較強(qiáng)的期刊分散性;另一方面則是由于在網(wǎng)絡(luò)環(huán)境下評(píng)價(jià)一般的期刊的獲取便捷性、分散性的增加意味著排序靠后的期刊受到了更多的重視,而這部分期刊恰恰是多具交叉或是融合特性的期刊,而非專門面向某個(gè)學(xué)科的期刊,所以各學(xué)科期刊的受利用程度或是下載次數(shù)的聯(lián)動(dòng)性會(huì)進(jìn)一步得到增強(qiáng)。
從理論上說(shuō),期刊下載次數(shù)的概率分布對(duì)于下載次數(shù)的統(tǒng)計(jì)性質(zhì)研究會(huì)具有一定的基礎(chǔ)意義,例如這里對(duì)下載次數(shù)在期刊中的布拉德福分布所進(jìn)行的考察就會(huì)對(duì)其有所涉及。針對(duì)所選取的原始數(shù)據(jù),不同學(xué)科屬性的期刊下載次數(shù)從直觀上都能夠較為顯著地表現(xiàn)出布拉德福分布的特征,當(dāng)然具體的分布狀況也會(huì)隨著學(xué)科屬性的不同而存在一定的差異,需要對(duì)這種學(xué)科性差異進(jìn)行分析與解釋,以期對(duì)下載次數(shù)這個(gè)隨機(jī)變量可以有更為深入的認(rèn)識(shí),畢竟從直觀上看,下載次數(shù)的統(tǒng)計(jì)性質(zhì)與期刊所屬學(xué)科包括學(xué)科的類型以及學(xué)科的不同發(fā)展階段、期刊及其論文的學(xué)術(shù)價(jià)值、網(wǎng)絡(luò)以及數(shù)字技術(shù)的發(fā)展等因素具有較強(qiáng)的相關(guān)性,或者說(shuō)期刊下載次數(shù)所表現(xiàn)出來(lái)的統(tǒng)計(jì)性質(zhì)是這些影響因素所共同作用的結(jié)果,對(duì)各個(gè)自變量的變化所導(dǎo)致的因變量的改變進(jìn)行考察是為進(jìn)一步建立變量相互之間的定量關(guān)系作準(zhǔn)備。
圖4 下載頻次與期刊的累積百分比關(guān)系圖(截取自圖3)
在圖3中,盡管學(xué)科因素的影響從直觀上看并不是十分顯著,但若是更為精確地,對(duì)于期刊與下載次數(shù)的累積比重之間的函數(shù)關(guān)系,仍然需要對(duì)其所受到的學(xué)科因素的影響來(lái)進(jìn)行探討,畢竟對(duì)于不同的學(xué)科屬性,下載次數(shù)的集中或是分散的程度也會(huì)有所不同。另外,圖3中較為狹窄的變化范圍也從側(cè)面反映了學(xué)科之間統(tǒng)一性以及差異性的對(duì)立與統(tǒng)一。
在圖4中,學(xué)科屬性自上而下依次為哲學(xué)與人文類、社會(huì)科學(xué)類、基礎(chǔ)科學(xué)類、信息科學(xué)類、工程科技類以及農(nóng)業(yè)科技類,對(duì)于這種學(xué)科之間的排列關(guān)系以及從直觀上可能會(huì)存在的聚類關(guān)系等表象還需要作進(jìn)一步的探討,而且需要指出,經(jīng)驗(yàn)考察的精確度提高往往需要對(duì)原始數(shù)據(jù)進(jìn)行更為嚴(yán)格的選取,包括選取的范圍、原則以及過(guò)程等,從而使統(tǒng)計(jì)結(jié)果或是所得經(jīng)驗(yàn)表象可以更具合理性,置信度也能夠得到提高。
[1]張洋.期刊Web下載總頻次的布拉德福分布研究[J].圖書情報(bào)知識(shí),2006(6):38-42,60.
[2]萬(wàn)錦堃,等.期刊論文被引用及其Web全文下載的文獻(xiàn)計(jì)量分析[J].現(xiàn)代圖書情報(bào)技術(shù),2005(4):58-62.
[3]龐景安.中文科技期刊下載計(jì)量指標(biāo)與引用計(jì)量指標(biāo)的比較研究[J].情報(bào)理論與實(shí)踐,2006,29(1):44-48.
[4]劉麗麗編譯,強(qiáng)自力審校.利用電子期刊使用量的比較研究評(píng)價(jià)“大宗交易”[EB/OL].[2009-04-19].http://162.105.140.111/info/detail.asp?str-TypeCode=publish_73&lngID=430.
[5]王明亮,等.中國(guó)知識(shí)基礎(chǔ)設(shè)施工程五年規(guī)劃的可行性研究[C]//第二屆海峽兩岸科技資訊研討會(huì)暨第十三屆全國(guó)計(jì)算機(jī)情報(bào)管理學(xué)術(shù)研討會(huì)論文集.北京:中國(guó)科學(xué)技術(shù)情報(bào)學(xué)會(huì),1999:113-122.