• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      下載次數(shù)與被引次數(shù)的同一與差異性研究

      2011-04-26 09:06:54劉新新劉思源王玲玉路世玲
      圖書(shū)館理論與實(shí)踐 2011年6期
      關(guān)鍵詞:基尼系數(shù)方差分區(qū)

      ●郭 強(qiáng),趙 瑾,劉新新,劉思源,王玲玉,路世玲

      (1.鄭州大學(xué) 信息管理系,鄭州 450001;2.中國(guó)人民解放軍炮兵學(xué)院 軍事運(yùn)籌教研室,合肥 230031)

      與被引次數(shù)相比,下載次數(shù)能夠在一定程度上反映科研活動(dòng)中被使用但最終未被引用的文獻(xiàn)的價(jià)值,并且有其提前性,由此,如果將下載次數(shù)與被引次數(shù)共同納入到指標(biāo)體系,來(lái)對(duì)期刊、論文以及作者等對(duì)象的學(xué)術(shù)價(jià)值或是學(xué)術(shù)影響力進(jìn)行評(píng)價(jià),那么對(duì)下載次數(shù)與被引次數(shù)之間的關(guān)系進(jìn)行考察,對(duì)于指標(biāo)權(quán)重的確定會(huì)具有一定的意義。本文側(cè)重于該兩指標(biāo)在期刊中布拉德福分布的同一與差異,以及對(duì)兩者間差異的統(tǒng)計(jì)描述。

      1 下載次數(shù)與被引次數(shù)的同一性與差異性

      1.1 同一性考察

      可以對(duì)下載次數(shù)與被引次數(shù)在期刊中的布拉德福分布狀況進(jìn)行考察。由于CNKI鏡像站版能夠提供其入庫(kù)期刊的下載次數(shù)與被引次數(shù),所以在這里我們將其作為數(shù)據(jù)源并選取期刊樣本集合。將各期刊分別按下載次數(shù)與被引次數(shù)降序排列,則能夠得到期刊累積數(shù)與期刊的累積下載次數(shù)或是期刊的累積被引頻次之間的關(guān)系(如圖1所示,數(shù)據(jù)統(tǒng)計(jì)時(shí)間為2009年3月)。由于考察時(shí)段較長(zhǎng)且選取的是大樣本,再考慮到截止到2004年CNKI已經(jīng)具有較高的期刊入網(wǎng)率。[1]所以在這里認(rèn)為所得原始數(shù)據(jù)能夠近似滿足在布拉德福定律中對(duì)所有考察期刊應(yīng)具有相同考察時(shí)段的要求。

      圖1 期刊指標(biāo)的累積數(shù)與期刊累積數(shù)的關(guān)系圖

      在圖1中,n為期刊累積數(shù),坐標(biāo)縱軸為期刊評(píng)價(jià)指標(biāo)的計(jì)量單位的倍數(shù),在這里對(duì)于下載次數(shù)與被引次數(shù),計(jì)量單位分別取為50000次及3000次,計(jì)量單位的如此選取盡管會(huì)有其隨意性,但是并不影響這里對(duì)兩指標(biāo)累積量的變化趨勢(shì)所進(jìn)行的探討。直觀上,下載次數(shù)與被引次數(shù)在期刊中的分布均具有布拉德福分布的特征,假設(shè)取分區(qū)數(shù)p為3,那么對(duì)于下載次數(shù)而言,可以取其核心區(qū)的期刊數(shù)量為51,此時(shí)各個(gè)分區(qū)的累積下載頻次的平均值為21755146,并且標(biāo)準(zhǔn)差僅為117906,如果將布拉德福常數(shù)取為各個(gè)分組期刊數(shù)量的相繼比值的平均值,則可得下載次數(shù)分布的布拉德福常數(shù)為3.215,且標(biāo)準(zhǔn)差為0.082,由此能夠認(rèn)為該分布近似服從傳統(tǒng)布拉德福定律的分區(qū)描述,而被引次數(shù)在期刊中的分布在一定程度上也具有相類(lèi)似的情形。例如在分區(qū)數(shù)仍取3的條件下,相應(yīng)地可以取核心區(qū)的期刊數(shù)量為46,此時(shí)各分區(qū)的累積被引頻次的平均值為1353695,且標(biāo)準(zhǔn)差只有3727,類(lèi)似地可以得到被引次數(shù)分布的布拉德福常數(shù)為3.828,但此時(shí)的標(biāo)準(zhǔn)差高達(dá)2.001,說(shuō)明當(dāng)p=3時(shí)各分區(qū)期刊數(shù)量的相繼比值并不穩(wěn)定,而如果改變分區(qū)數(shù),則能夠注意到某種規(guī)律性的現(xiàn)象。即除了在末尾分區(qū)處,期刊數(shù)的相繼比值往往會(huì)變化得較為平穩(wěn),從而能夠認(rèn)為造成標(biāo)準(zhǔn)差偏高的原因是由于靠后的分區(qū),特別是末尾分區(qū)處的相繼比值的異常。

      需要指出,這種規(guī)律性現(xiàn)象與已有的研究結(jié)果是相一致的。[2]在末尾或是靠后分區(qū)處所表現(xiàn)出來(lái)的這種偏高比值可能是與格魯斯下垂相對(duì)應(yīng)。由于期刊是按照被引次數(shù)進(jìn)行降序排列,所以末尾分區(qū)中的期刊應(yīng)當(dāng)具有相對(duì)較低的被引頻次,而在該處明顯偏高的相繼比則意味著該分區(qū)包含明顯偏多的期刊,那么為了保證該分區(qū)具有與其他分區(qū)相同的累積被引頻次,該分區(qū)中各期刊的被引次數(shù)應(yīng)當(dāng)顯著下降,以至于累積下載次數(shù)的增長(zhǎng)率開(kāi)始隨Lnn減小,從而表現(xiàn)為格魯斯下垂。所以有理由將末尾或是靠后分區(qū)處明顯偏高的相繼比按照特異值來(lái)進(jìn)行處理,畢竟傳統(tǒng)布拉德福定律的分區(qū)描述并不包含格魯斯下垂。另外,對(duì)于此時(shí)在下載次數(shù)分布中未出現(xiàn)相繼比的異常,除了原始數(shù)據(jù)自身的隨機(jī)性之外,一種可能的解釋是由于網(wǎng)絡(luò)環(huán)境下的擴(kuò)散效應(yīng),[2]被引次數(shù)的分布會(huì)更為集中,所以這種靠后分區(qū)處偏高的相繼比值在被引次數(shù)分布中會(huì)表現(xiàn)得更為明顯。實(shí)際上,當(dāng)改變分區(qū)數(shù)時(shí),下載次數(shù)的分布也會(huì)出現(xiàn)同樣的情形??疾焐鐣?huì)科學(xué)類(lèi)期刊,假設(shè)取p等于5,則有各分區(qū)期刊數(shù)的相繼比為1.944,1.743,1.590,3.196,各分區(qū)累積下載頻次的平均值為8343664,標(biāo)準(zhǔn)差只有69645。

      更進(jìn)一步地,[2]對(duì)各指標(biāo)分布的擬合結(jié)果也能夠與布魯克斯公式相吻合。例如對(duì)于下載次數(shù),其分段擬合方程為m1=1866965.344n0.647與m1=18310431.901Ln n-53447472.841,核心區(qū)與非核心區(qū)的判定系數(shù)分別高達(dá)0.977與0.994,并且都能夠在顯著性水平為0.05的條件下很好地通過(guò)F檢驗(yàn),其中m1和n分別為累積下載次數(shù)與相應(yīng)的期刊累積數(shù),對(duì)于被引次數(shù),類(lèi)似地有擬合方程為m2=114253.923n0.649以及m2=1026106.261Lnn-2466487.864,判定系數(shù)分別為0.997與0.975,其中m2為期刊的累積被引頻次。所以從直觀上,能夠認(rèn)為下載次數(shù)與被引次數(shù)在期刊中的布拉德福分布特征均達(dá)到了顯著水平。需要指出,圖1是以基礎(chǔ)科學(xué)類(lèi)期刊為例,其期刊總數(shù)為739,為了進(jìn)一步檢驗(yàn)所得結(jié)論的一般性,還需要對(duì)鏡像站版中不同學(xué)科屬性的期刊集合分別進(jìn)行考察,包括圖像與分區(qū)描述以及曲線擬合等,考察的結(jié)果是類(lèi)似的。

      1.2 差異性考察

      下載次數(shù)與被引次數(shù)之間的關(guān)系體現(xiàn)了同一性與差異性的對(duì)立與統(tǒng)一。在圖1中,A與B分別為兩累積曲線的拐點(diǎn),可以注意到與被引次數(shù)相比,下載次數(shù)累積曲線的拐點(diǎn)對(duì)應(yīng)于更高的期刊累積數(shù),指標(biāo)的累積量隨期刊累積數(shù)的增長(zhǎng)率在累積曲線的拐點(diǎn)處達(dá)到極大,之后增長(zhǎng)率則開(kāi)始減小,由于增長(zhǎng)率等于Lnn每增加一個(gè)單位所對(duì)應(yīng)的期刊指標(biāo)累積量的增加值,而且隨著Lnn每增加一個(gè)單位,相應(yīng)的期刊累積數(shù)分別為1,e,e2,e3,……,這樣單位Lnn對(duì)應(yīng)的期刊累積數(shù)的增加為ei(e-1)>1,其中i=0,1,2,……,所以增長(zhǎng)率開(kāi)始減小會(huì)意味著當(dāng)每組期刊數(shù)量增多時(shí),相應(yīng)的指標(biāo)累積量反而會(huì)減少,由此能夠說(shuō)明此時(shí)開(kāi)始進(jìn)入低指標(biāo)期刊區(qū)域,于是在圖1中,下載次數(shù)累積曲線是靠后進(jìn)入,而被引曲線則有所提前,從而與下載次數(shù)相比,被引次數(shù)在期刊中的分布相對(duì)較為集中。由圖1可以得到指標(biāo)累積數(shù)的增長(zhǎng)率曲線(如圖2所示)。在圖2中,曲線變化的連續(xù)性仍然能夠得到保持。由于格魯斯下垂的出現(xiàn),各指標(biāo)累積量的增長(zhǎng)率均具有其峰值,且圖中各增長(zhǎng)率曲線的峰值分別與圖1中的曲線拐點(diǎn)相對(duì)應(yīng),之后指標(biāo)累積量的增長(zhǎng)率則逐漸下降,以至最終趨向于零。

      圖2 期刊指標(biāo)累積數(shù)的增長(zhǎng)率與期刊累積數(shù)的關(guān)系圖

      對(duì)于下載次數(shù)與被引次數(shù)之間的這種分布差異,還可以利用該兩變量的相對(duì)量來(lái)進(jìn)行考察,圖1反映的是指標(biāo)的累積量隨期刊累積數(shù)的變化情況,說(shuō)明了該兩指標(biāo)的絕對(duì)量相對(duì)于期刊的絕對(duì)數(shù)量都能夠呈現(xiàn)為傳統(tǒng)的布拉德福分布,而指標(biāo)累積百分比與期刊累積百分比之間的變化關(guān)系(如圖3所示)則能夠在一定程度上顯示出這種同一性中的差異,其中原始數(shù)據(jù)與圖1相同。

      圖3 期刊指標(biāo)的累積百分比與期刊累積百分比的關(guān)系圖

      在圖3中,由于期刊是按照下載次數(shù)或是被引次數(shù)分別進(jìn)行降序排列,所以由此所得到的累積百分比曲線越向上彎曲,則說(shuō)明相應(yīng)指標(biāo)在期刊中的分布會(huì)越集中。兩種極端的情況分別為,僅一份期刊就能夠與所考察的期刊集合中的總的指標(biāo)累積數(shù)相對(duì)應(yīng),以及在期刊樣本集中,各份期刊均對(duì)應(yīng)相同的下載次數(shù)或者是被引次數(shù),于是指標(biāo)的累積量與期刊的累積量之間會(huì)呈線性關(guān)系,其中的正比例系數(shù)為與每份期刊相對(duì)應(yīng)的指標(biāo)值,這樣指標(biāo)與期刊能夠始終具有相同的累積百分比,也即這兩種情況分別與圖中的點(diǎn)(0,0)、(0,1)、(1,1)的連線,以及點(diǎn)(0,0)、(1,1)的連線相對(duì)應(yīng)。

      2 差異程度的度量

      利用指標(biāo)累積量的增長(zhǎng)率以及指標(biāo)的累積百分比能夠顯現(xiàn)出下載次數(shù)與被引次數(shù)在期刊中分布狀況的不一致,進(jìn)一步地是希望能夠在一定程度上對(duì)這種不一致的程度來(lái)進(jìn)行度量,一方面是為了使這種對(duì)變量間相互關(guān)系的探討更為嚴(yán)格;另一方面則是由于在期刊評(píng)價(jià)指標(biāo)的權(quán)重確定過(guò)程中可能會(huì)涉及到該兩變量之間定量關(guān)系的建立,畢竟指標(biāo)在期刊中集中或是分散狀況的不同可能會(huì)影響到單位指標(biāo)量所能體現(xiàn)的學(xué)術(shù)價(jià)值。為此,將期刊分別按照下載次數(shù)與被引次數(shù)升序排列,能夠得到期刊累積百分比與指標(biāo)累積百分比之間的洛侖茲曲線(如圖4所示)。

      圖4 期刊下載次數(shù)與被引次數(shù)的洛侖茲曲線圖

      類(lèi)似地,在圖4中,由于期刊是按照評(píng)價(jià)指標(biāo)升序排列,所以圖中的洛侖茲曲線越向下彎曲,則說(shuō)明下載次數(shù)或是被引次數(shù)在期刊中的分布越集中,同樣存在兩種極端情況,即點(diǎn)(0,0),(1,0),(1,1)之間的連線所對(duì)應(yīng)的集中情形,以及點(diǎn)(0,0),(1,1)之間的連線,在該情形下沒(méi)有一份期刊會(huì)在指標(biāo)量的獲取上能夠更為特殊。由于對(duì)洛侖茲曲線向下彎曲的程度可以利用洛侖茲曲線和點(diǎn)(0,0),(1,1)的連線所圍成的區(qū)域面積與點(diǎn)(0,0),(1,0),(1,1)所構(gòu)成的三角形的面積的比值,也即基尼系數(shù)來(lái)進(jìn)行一定程度的反映,所以該系數(shù)也能夠用來(lái)近似衡量指標(biāo)在期刊中的分布狀況以及不同分布狀況之間的差異。例如當(dāng)指標(biāo)的分布最為集中時(shí),洛侖茲曲線退化成為點(diǎn)(0,0),(1,0),(1,1)的連線,相應(yīng)地有基尼系數(shù)等于1。

      對(duì)于洛侖茲曲線的一般情形,則需要給出該曲線的函數(shù)形式以求得曲線所圍區(qū)域的面積。既然經(jīng)驗(yàn)考察的結(jié)果顯示為下載次數(shù)與被引次數(shù)在期刊中均服從布拉德福分布,且假定傳統(tǒng)的布拉德福定律以及相關(guān)規(guī)律此時(shí)對(duì)于該兩指標(biāo)也同樣適用,那么將期刊按照下載次數(shù)或是被引次數(shù)降序排列,則由萊姆庫(kù)勒經(jīng)驗(yàn)規(guī)律可以得到 y’=aLn(1+bx’),其中 x’與 y’分別為指標(biāo)的累積量以及期刊累積數(shù),a與b均為待定常數(shù);而如果將期刊分別按照各個(gè)指標(biāo)升序排列,并假設(shè)x與y為此時(shí)的期刊累積數(shù)以及指標(biāo)累積量,則有x=c-x’以及y=d-y’,其中c與d分別為期刊總數(shù)以及指標(biāo)的累積總量,且x與x’的對(duì)應(yīng)關(guān)系是:如果x的序號(hào)在按升序排列所得到的累積量列表中為p,那么x’的序號(hào)在降序排列累積列表中為q=N-p,N為累積量列表中的最大序號(hào),無(wú)論是按升序或是降序排列,該序號(hào)會(huì)保持不變。y與y’之間也具有同樣的對(duì)應(yīng)關(guān)系,于是有y=d-aLn(B-bx),其中B=1+bc,再將x與y分別轉(zhuǎn)換為圖4所要求的累積量百分比X與Y,則有Y=1-(a/d)Ln(B-bcX)。對(duì)于給定的期刊樣本,c與d可視為已知,參數(shù)a與b則可以利用對(duì)樣本數(shù)據(jù)進(jìn)行曲線擬合來(lái)得到。

      對(duì)于下載次數(shù),洛侖茲曲線的擬合結(jié)果為Y1=1-0.262Ln(52.730-51.730X1),判定系數(shù)為 0.989,函數(shù)中各參數(shù)的取值分別為a1=17106195.565,b1=0.070,c1=739,d1=65265439;對(duì)于被引次數(shù),類(lèi)似地有擬合結(jié)果為Y2=1-0.143Ln(1418.402-1417.402X2),且判定系數(shù)與各參數(shù)的取值分別為0.970以及a2=581568.354,b2=1.918,c2=739,d2=4061086,于是能夠求得各洛侖茲曲線與坐標(biāo)橫軸所圍成的區(qū)域面積分別為0.213以及0.112,所以下載次數(shù)與被引次數(shù)的基尼系數(shù)分別為0.574以及0.776,由此能夠?qū)υ搩勺兞吭谄诳蟹稚⒒蚴羌械某潭冗M(jìn)行定量描述,由這種描述能夠得到有意義且具有一定合理性的結(jié)論,即對(duì)于給定的期刊集,與下載次數(shù)相比,被引次數(shù)的分布會(huì)更為集中,且被引次數(shù)在期刊中的集中程度要比下載次數(shù)高出35.2%。另外,當(dāng)基尼系數(shù)取零時(shí)則意味著指標(biāo)的分布最為分散,所以基尼系數(shù)的取值界于0與1之間,按照傳統(tǒng)基尼系數(shù)的劃分標(biāo)準(zhǔn),取值在0.2至0.5之間為過(guò)渡區(qū),0.2以下與0.5以上分別表示具有明顯的分散或是集中現(xiàn)象,由此下載次數(shù)與被引次數(shù)在期刊中的集中分布程度均達(dá)到了顯著水平,這與上述的經(jīng)驗(yàn)結(jié)論是相一致的。

      除了基尼系數(shù)之外,更為基本地,能夠利用布拉德福常數(shù)來(lái)對(duì)指標(biāo)分布的集中程度進(jìn)行考察。例如在前文中取分區(qū)數(shù)為3,則相應(yīng)地有下載次數(shù)與被引次數(shù)分布的布拉德福常數(shù)分別為3.215以及3.828,由于考察的是同一期刊樣本集,所以布拉德福常數(shù)越大則表示相應(yīng)的分布越集中,并且按照布拉德福常數(shù)也能夠給出諸如被引次數(shù)的集中程度會(huì)比下載次數(shù)高出19.1%,與由基尼系數(shù)得到的百分比有所不同的原因是由于描述方法相互之間的差異,畢竟基尼系數(shù)與布拉德福常數(shù)的得到是分別建立于指標(biāo)的相對(duì)量與絕對(duì)量之上。另外,還可以利用累積百分比來(lái)直接進(jìn)行比較。例如在圖3中考察與相同期刊百分比相對(duì)應(yīng)的指標(biāo)累積百分比之間的差異,由這些描述方法所得到的經(jīng)驗(yàn)結(jié)論應(yīng)當(dāng)是相互吻合的。需要指出,對(duì)于結(jié)論中所顯現(xiàn)的指標(biāo)分布差異,除了由描述方法的不同所造成的諸如以上超出比例之間的差異之外,所得布拉德福常數(shù)或是基尼系數(shù)的差別是否能夠成為對(duì)各指標(biāo)分布差異的真正體現(xiàn),或者說(shuō)對(duì)于由各種經(jīng)驗(yàn)描述方法所得到的參數(shù)差異,這種差異應(yīng)當(dāng)達(dá)到何種程度才能夠認(rèn)為這種差異是足夠顯著的。例如考慮到在基尼系數(shù)的傳統(tǒng)劃分方式中,取值大于或等于0.5意味著具有同樣的屬性,即集中現(xiàn)象的顯著性,一方面該劃分方式能夠提供對(duì)指標(biāo)之間的差異進(jìn)行判別的方法,另一方面按照該劃分方式可以得到基尼系數(shù)為0.6與0.8的指標(biāo)分布之間并無(wú)顯著差異,而系數(shù)為0.4與0.5的分布卻具有較為明顯的不同,如果再考慮到由于原始數(shù)據(jù)中的隨機(jī)因素所造成的差異,則需要考察指標(biāo)差異的顯著性,或者說(shuō)需要給出判別各指標(biāo)間差異顯著性的標(biāo)準(zhǔn)。一種方法是將下載次數(shù)與被引次數(shù)同視為隨機(jī)變量,考察隨機(jī)變量的期望值以及方差等隨機(jī)變量的特征量,并在此基礎(chǔ)上對(duì)參數(shù)之間的差異進(jìn)行顯著性檢驗(yàn)。

      首先需要對(duì)下載次數(shù)列與被引次數(shù)列分別進(jìn)行標(biāo)準(zhǔn)化處理,以使該兩變量的特征量能夠進(jìn)行相互間的比較。由于可以把期刊的下載次數(shù)或是被引次數(shù)看作是讀者整體對(duì)該期刊的打分,所以能夠考慮將這種分?jǐn)?shù)轉(zhuǎn)化為百分制來(lái)進(jìn)行指標(biāo)列的標(biāo)準(zhǔn)化,基本的做法是將各指標(biāo)列分別除以其中的最大指標(biāo)值,其優(yōu)點(diǎn)是可以不改變各指標(biāo)列原有的概率分布。設(shè)標(biāo)準(zhǔn)化后的下載次數(shù)與被引次數(shù)的樣本列分別為{d1,d2,……,dn}和{c1,c2,……,cn},此時(shí)其中所有的元素均界于0與1之間,并能夠得到各指標(biāo)列的均值與方差分別設(shè)為d,Sd2,c,Sc2,n為期刊樣本數(shù),可以取為期刊總數(shù),也可以是足夠大以致能夠體現(xiàn)出統(tǒng)計(jì)性質(zhì)??梢詫⒖疾煸搩芍笜?biāo)列的均值或者是方差之間是否存在顯著性差異,轉(zhuǎn)化為考察下載次數(shù)與被引次數(shù)這兩個(gè)隨機(jī)變量的期望值或者是方差是否相等。經(jīng)驗(yàn)考察的結(jié)果往往顯示為:下載次數(shù)與被引次數(shù)作為隨機(jī)變量具有較為明顯的負(fù)指數(shù)分布特征,例如,負(fù)指數(shù)分布的概率密度函數(shù)為,當(dāng)x>0時(shí)f(x)=λexp(-λx),當(dāng)x≤0時(shí)f(x)=0,標(biāo)的計(jì)量單位數(shù),所以指標(biāo)值界于[i-1,i]對(duì)應(yīng)的概率與已有經(jīng)驗(yàn)考察所得到的各指標(biāo)在期刊中的頻次分布相一致。

      不妨設(shè)下載次數(shù)與被引次數(shù)分別為D與C,且設(shè)下載次數(shù)與被引次數(shù)所服從的負(fù)指數(shù)分布分別為f(d)=λ1exp(-λ1d)與 g(c)=λ2exp(-λ2c),其中 d,c,λ1以及 λ2均大于零,且當(dāng)d與c非正時(shí),f(d)與g(c)均等于零,于是可得該兩隨機(jī)變量的期望值與方差分別為E(D)=1/λ1與 D(D)=1/λ12,以及 E(C)=1/λ2與 D(C)=1/λ22。對(duì)下載次數(shù)與被引次數(shù)是否具有相同的期望值或者是方差進(jìn)行假設(shè)檢驗(yàn),[3]提出原假設(shè)H0為λ1=λ2以及備擇假設(shè)H1為λ1≠λ2,可以將d1,d2,……,dn視為下載次數(shù)變量的隨機(jī)樣本,由于下載次數(shù)服從負(fù)指數(shù)分于下載次數(shù)與被引次數(shù)之間存在同一性與差異性的辯

      如果原假設(shè)H0為真,即當(dāng)λ1等于λ2時(shí),由于樣本均值d與c分別為隨機(jī)變量D與C的期望值的無(wú)偏H0為真時(shí)F值特別大或者是特別小的概率都會(huì)很小,這樣可以設(shè)H0的拒絕域?yàn)閃={F≤c1或F≥c2},也即上式中的雙側(cè)檢驗(yàn),可得c1=F1-α/2(2n,2n) 以及c2=Fα/2(2n,2n),其中 F1-α/2(2n,2n) 與 Fα/2(2n,2n) 均為F(2n,2n)分布的上側(cè)分位點(diǎn),于是H0的拒

      依然選取圖1中的期刊樣本集作為考察對(duì)象,并取n為期刊總數(shù)739,對(duì)下載次數(shù)與被引次數(shù)進(jìn)行標(biāo)準(zhǔn)化處理后可得各指標(biāo)列的均值與方差分別為d=0.070,sd2=0.010,c=0.056,以及sc2=0.007,按照上文對(duì)原假設(shè) H0:λ1=λ2進(jìn)行檢驗(yàn),并且備擇假設(shè) H1為 λ1≠λ2,如 果 選取 α=0.05,由 于 F0.025(1478,1478)=1,F(xiàn)0.975(1478,1478)=1/F0.025(1478,1478)=1,則此時(shí)必須有d/c等于1,否則拒絕假設(shè)H0,這意味著當(dāng)期刊樣本數(shù)足夠大時(shí),可以直接利用兩指標(biāo)列的均值是否相等,來(lái)判斷下載次數(shù)與被引次數(shù)作為隨機(jī)變量所具有的期望值以及方差是否相同,從而可知兩指標(biāo)列的均值或方差之間是否存在顯著性的差異,而這些與直觀認(rèn)識(shí)也是相吻合的。

      在對(duì)專(zhuān)門(mén)領(lǐng)域或者是僅與特定研究主題相關(guān)的期刊集合進(jìn)行考察時(shí),由于面臨的往往是期刊小樣本,所以如果此時(shí)考察下載次數(shù)與被引次數(shù)之間是否存在顯著性差異,那么上文中的考察過(guò)程則具有一定的意義。例如以《中文核心期刊要目總覽》2000年版中圖書(shū)情報(bào)專(zhuān)業(yè)的所有17份核心期刊為例,這樣選取的原因是由于CNKI鏡像站提供的是期刊從其開(kāi)始提供下載到現(xiàn)在的總的下載次數(shù),但是不同期刊的入庫(kù)時(shí)間以及可供用戶全文下載的起始時(shí)間都不盡相同,所以如果以CNKI鏡像站所提供的各期刊下載次數(shù)作為原始數(shù)據(jù),那么在對(duì)考察對(duì)象進(jìn)行選取的過(guò)程中就需要保證所得下載數(shù)據(jù)相互之間的可比性。為此,一方面可以取考察時(shí)段為足夠長(zhǎng);另一方面,由于該總覽2000年版中的絕大部分期刊在2003年的時(shí)候都已入庫(kù)并能提供全文下載服務(wù),所以可以忽略部分期刊的入庫(kù)較晚所造成的入庫(kù)時(shí)間差異過(guò)大的情形,這樣,統(tǒng)計(jì)起始時(shí)間的不同對(duì)期刊下載數(shù)據(jù)可比性的影響就能夠近似忽略不計(jì)。此時(shí)n取為17,標(biāo)準(zhǔn)化后的下載次數(shù)與被引次數(shù)列分別為{0.254,0.360,0.260,0.270,0.450,0.370,0.263,0.286,0.454,0.284,0.692,0.239,0.766,0.327,1,0.245,0.416}以及{0.956,0.773,0.582,0.587,0.935,0.598,0.461,0.477,0.495,0.317,1,0.364,0.803,0.410,0.790,0.273,0.495},且均值與方差分別為 d=0.408,sd2=0.047,c=0.607,以及sc2=0.053,以上數(shù)據(jù)的統(tǒng)計(jì)時(shí)間為2009年 12月。仍然取假設(shè)為 H0:λ1=λ2,以及 H1為 λ1≠λ2,類(lèi)似地可以令α=0.05,則此時(shí)有F0.025(34,34)=拒絕域,所以接受H0,即對(duì)于圖書(shū)情報(bào)專(zhuān)業(yè)的核心期刊而言,下載次數(shù)與被引次數(shù)的均值或是方差并無(wú)顯著差異。

      為了與上述結(jié)果進(jìn)行對(duì)比,若不嚴(yán)格地,還可以將CNKI鏡像站中按圖書(shū)情報(bào)專(zhuān)業(yè)歸類(lèi)的所有47份期刊作為考察對(duì)象,類(lèi)似地也能夠得到下載次數(shù)與被引次數(shù)列,且各指標(biāo)列進(jìn)行標(biāo)準(zhǔn)化后的均值與方差分別為d=0.242,sd2=0.054,c=0.306,sc2=0.086。數(shù)據(jù)統(tǒng)計(jì)時(shí)間同上,在仍取α為0.05的條件下,可得F0.025(94,94)=1.550,F(xiàn)0.975(94,94)=0.645,則相應(yīng)地有拒絕域W于是接受假設(shè)H0,所以即便是對(duì)于該類(lèi)期刊的整體,下載次數(shù)與被引次數(shù)的同一性也可以得以體現(xiàn)。與上述結(jié)果相比,此時(shí)d/c與拒絕域的邊界更為接近,究其原因,是由于對(duì)于核心期刊,其下載次數(shù)與被引次數(shù)往往具有較高的一致性,而這種同一性在非核心期刊中會(huì)有一定的弱化,畢竟下載次數(shù)更多地是與期刊的受利用程度相對(duì)應(yīng),所以被引次數(shù)偏低的期刊仍然可以具有較多的下載量。其次,在數(shù)字及網(wǎng)絡(luò)環(huán)境下,文獻(xiàn)獲取的便捷性以及文獻(xiàn)間關(guān)系的易知性使得被引次數(shù)偏低的期刊能夠獲得更多的關(guān)注,另外,作者在調(diào)研工作過(guò)程中對(duì)相關(guān)文獻(xiàn)往往會(huì)通過(guò)基礎(chǔ)文獻(xiàn)的參考文獻(xiàn)來(lái)進(jìn)行追蹤,從而可能會(huì)有部分的低被引文獻(xiàn)或是期刊處于檢索的盲區(qū),而信息檢索模式的轉(zhuǎn)變以及多樣化也可以使得對(duì)這部分資源的利用能夠更為充分,從而對(duì)于被引次數(shù)偏低的期刊,下載次數(shù)與被引次數(shù)之間的不一致能夠得以體現(xiàn)。同時(shí)這也表現(xiàn)為下載次數(shù)在期刊中的分布會(huì)更為分散,而不僅是高度集中于被引次數(shù)較高的期刊中,于是能夠從側(cè)面反映對(duì)下載次數(shù)與被引次數(shù)進(jìn)行隨機(jī)變量處理具有一定的可行性。

      3 結(jié)束語(yǔ)

      對(duì)下載次數(shù)與被引次數(shù)的差異程度進(jìn)行考察時(shí),與描述性統(tǒng)計(jì)相比,推論統(tǒng)計(jì)會(huì)使得考察更為嚴(yán)格。上文對(duì)該兩指標(biāo)之間是否存在顯著性差異進(jìn)行了探討,更進(jìn)一步地,如果存在顯著性差異,則還需要對(duì)差異的程度進(jìn)行顯著性檢驗(yàn),也即如果接受假設(shè)H1:λ1≠λ2,那么下載次數(shù)列與被引次數(shù)列的均值或是方差在多大的程度上會(huì)是顯著的不同,或者說(shuō)需要確定數(shù) β 與 γ,并對(duì) 原假 設(shè) Ho':1/λ1=1/λ2+β 以及 Ho'':1/λ12=1/λ22+γ分別進(jìn)行假設(shè)檢驗(yàn)。另外,需要指出,在對(duì)差異顯著性進(jìn)行考察的過(guò)程中,如果考慮到下載次數(shù)與被引次數(shù)之間同一性的存在,則兩卡方變量并非完全獨(dú)立,由于這是統(tǒng)計(jì)量d/c服從F分布的前提條件,[3]所以對(duì)統(tǒng)計(jì)量的選取還需做進(jìn)一步的改進(jìn),最終是希望對(duì)兩指標(biāo)間的差異程度進(jìn)行度量,以至對(duì)該兩指標(biāo)間對(duì)立與統(tǒng)一的程度進(jìn)行量化,從而能夠用于指標(biāo)權(quán)重的確定。

      [1]王明亮,等.中國(guó)知識(shí)基礎(chǔ)設(shè)施工程五年規(guī)劃的可行性研究[C]//第二屆海峽兩岸科技資訊研討會(huì)暨第十三屆全國(guó)計(jì)算機(jī)情報(bào)管理學(xué)術(shù)研討會(huì)論文集.北京:中國(guó)科學(xué)技術(shù)情報(bào)學(xué)會(huì),1999:113互122.

      [2]張洋.期刊Web下載總頻次的布拉德福分布研究[J].圖書(shū)情報(bào)知識(shí),2006(6):38互42,60.

      [3]陳萍,等.概率與統(tǒng)計(jì)[M].北京:科學(xué)出版社,2006.

      [4]鄭胡靈,劉建平.兩壽命指標(biāo)的一個(gè)假設(shè)檢驗(yàn)方法[J].昆明理工大學(xué)學(xué)報(bào),2000,25(1):140互143,148.

      猜你喜歡
      基尼系數(shù)方差分區(qū)
      方差怎么算
      上海實(shí)施“分區(qū)封控”
      概率與統(tǒng)計(jì)(2)——離散型隨機(jī)變量的期望與方差
      計(jì)算方差用哪個(gè)公式
      浪莎 分區(qū)而治
      方差生活秀
      基尼系數(shù)
      新視角下理論基尼系數(shù)的推導(dǎo)及內(nèi)涵
      全國(guó)總體基尼系數(shù)的地區(qū)特征研究
      基于SAGA聚類(lèi)分析的無(wú)功電壓控制分區(qū)
      博爱县| 华安县| 浮山县| 潜江市| 南华县| 丰镇市| 柳州市| 曲麻莱县| 平度市| 临汾市| 怀集县| 肇东市| 津市市| 东宁县| 黔东| 武威市| 久治县| 达日县| 奉化市| 绥芬河市| 大安市| 高台县| 常宁市| 修武县| 宁远县| 敦煌市| 安溪县| 巴中市| 安平县| 周口市| 商都县| 新龙县| 阳泉市| 南乐县| 平潭县| 侯马市| 喀喇| 仪征市| 万山特区| 安吉县| 平江县|