張會芳 魏東 鄭國清 齊紅志
河南省農(nóng)業(yè)科學(xué)院農(nóng)業(yè)經(jīng)濟與信息研究所 鄭州 450002
目前,國內(nèi)期刊評價機構(gòu)及評價體系呈蓬勃發(fā)展趨勢,其中定量評價最為盛行。有影響的評價機構(gòu)如中文核心期刊要目總覽(GCJC)、中國學(xué)術(shù)期刊評價研究報告(RCCSE)、中國科技論文與引文數(shù)據(jù)庫(CSTPCD)、中國科學(xué)引文數(shù)據(jù)庫(CSCD)、中國引文數(shù)據(jù)庫(中國知網(wǎng)CNKI)、中文社會科學(xué)引文索引數(shù)據(jù)庫(CSSCI)、中國人文社會科學(xué)引文數(shù)據(jù)庫(CHSSCD)、中國科學(xué)指標(biāo)數(shù)據(jù)庫(CSI)等[1],均將論文被引頻次作為評價體系中的重要的直接指標(biāo),賦予其較高的權(quán)重,而評價體系中其他指標(biāo)如影響因子等也與論文被引頻次有極大關(guān)系。期刊論文被引頻次在一定程度上反映了該刊被使用和受重視的程度,并彰顯其在學(xué)科交流中的作用及地位,通常被看作期刊質(zhì)量及影響力的重要標(biāo)志。
論文被引頻次影響因素中,論文長度被認為與論文被引頻次有關(guān)[2-10]。尤其是在受諸多因素影響,較多期刊載文量不斷下降、論文長度不斷增長[6,11-16]的大環(huán)境下,論文長度與被引頻次間一直被傾向性認為呈等關(guān)系。然而,論文長度與被引頻次間關(guān)系的研究較多,研究成果豐富,但研究結(jié)果卻是眾說紛紜,有的觀點甚至截然相反,可歸納總結(jié)如下:一是根據(jù)論文長度與被引頻次間有無關(guān)系,將研究結(jié)果分為兩大類,論文長度與被引頻次相關(guān)[2-8,9-10,17-18]、論文長度與被引頻次不相關(guān)[15,19-20]。二是根據(jù)變量的變動方向,將論文長度與被引頻次間的相關(guān)進一步分為正相關(guān)[2-4,9-10]和負相關(guān)[17-18]。認為二者相關(guān)的研究中,一是根據(jù)相關(guān)性強弱,將論文長度與被引頻次間的相關(guān)又分為顯著相關(guān)[3,5]和微弱關(guān)聯(lián)[8,20]。二是根據(jù)相關(guān)關(guān)系的復(fù)雜性,被引頻次在不同類型期刊間、不同頁數(shù)(長度)間[5]呈現(xiàn)不同特征或不同頁數(shù)文章篇均被引頻次基本呈正態(tài)分布[6]。已有關(guān)于其他類型期刊[10,15]版面與被引間的關(guān)系分析,也有綜合性農(nóng)業(yè)科學(xué)類期刊零被引論文分析[2],但未見綜合性農(nóng)業(yè)科學(xué)類期刊論文版面與被引間關(guān)系的研究。
期刊的重要功能之一是傳播,搭建產(chǎn)研學(xué)橋梁,因此,期刊傳播力是期刊綜合實力的體現(xiàn),也是期刊評價的重要考量指標(biāo)。期刊的傳播過去主要依靠紙媒和數(shù)據(jù)庫的被動檢索。近些年來,在媒體融合發(fā)展、期刊評價盛行及多部門印發(fā)《關(guān)于推動學(xué)術(shù)期刊繁榮發(fā)展的意見》關(guān)注“提升國際傳播能力”背景下,依托知網(wǎng)、維普等數(shù)據(jù)庫利用大數(shù)據(jù)技術(shù)推出的期刊推廣、精準(zhǔn)傳播服務(wù)應(yīng)運而生,無疑,這會提高期刊論文的下載量。因而,期刊的下載量與被引量間的關(guān)系需要有數(shù)據(jù)支撐。
鑒于此,基于綜合性農(nóng)業(yè)科學(xué)類期刊數(shù)據(jù),根據(jù)數(shù)據(jù)呈現(xiàn)特征采用具有一定耐受力,即結(jié)果穩(wěn)健的統(tǒng)計方法進行研究,從多個層次(表象研究、差異性分析、本質(zhì)探索)及角度對數(shù)據(jù)進行由淺入深、層層遞進的分析,對論文版面、下載頻次、被引頻次間的關(guān)系追根溯源,為編輯部及相關(guān)人員認識論文版面與被引頻次間、下載頻次與被引頻次間等的關(guān)系,從而更有效地從本質(zhì)上提升期刊的生命力和影響力提供參考。
《中國農(nóng)業(yè)科學(xué)》是綜合性、學(xué)術(shù)性期刊,在綜合性農(nóng)業(yè)科學(xué)類期刊中具有較大的影響力,同時該刊為半月刊,有較大的樣本量。另外,其2010—2019年,每年載文量依次為629、596、574、570、486、491、449、444、423、401條,每期頁碼大多在210左右,因此其文章版面表現(xiàn)為逐年上升趨勢。鑒于此,本研究以《中國農(nóng)業(yè)科學(xué)》刊發(fā)文章為研究對象,進行綜合性農(nóng)業(yè)科學(xué)類期刊論文版面與被引頻次間關(guān)系的研究。
理想引文時間窗口為5年[4],數(shù)據(jù)檢索日期為2021年1月7日。因此,選取數(shù)據(jù)檢索年往前推5年中國知網(wǎng)CNKI數(shù)據(jù)庫中《中國農(nóng)業(yè)科學(xué)》發(fā)表日期為2015年的論文(不包括增刊)作為研究對象。被引頻次為文獻檢索時中國知網(wǎng)CNKI展示的數(shù)據(jù)。
本研究從3個層次及不同角度對數(shù)據(jù)進行由淺入深、層層遞進的分析(圖1)。
圖1 論文長度與被引頻次關(guān)系之追根溯源框架
(1)表象分析:進行K–S檢驗、描述性研究,展現(xiàn)數(shù)據(jù)的分布和特征值,并將統(tǒng)計學(xué)指標(biāo)用圖表示之。
(2)差異性分析:進行差異性比較,基于專業(yè)及數(shù)據(jù)特征對論文長度分組,以獨立樣本非參數(shù)檢驗對其屬性和特征進行比較。
(3)本質(zhì)探索:從多個角度出發(fā)建模,探索論文頁數(shù)、被引頻次間關(guān)系。關(guān)系性分析也是統(tǒng)計里面最復(fù)雜的一種分析方法,本研究以模型對其進行探索,根據(jù)數(shù)據(jù)間呈現(xiàn)的關(guān)系特征及趨勢逐步確定是否進行線性回歸、曲線擬合及分段回歸。最終目的,若二者間存在較強的回歸關(guān)系,則逐步建立基于專業(yè)判斷的較優(yōu)的被引頻次回歸預(yù)測模型。
3.1.1 論文長度、被引頻次參數(shù)估計
本研究中,論文頁數(shù)均取整數(shù),不足1頁的按1頁計入。數(shù)據(jù)獲取后,對比中國知網(wǎng)CNKI高級檢索頁及期刊導(dǎo)航頁《中國農(nóng)業(yè)科學(xué)》可檢索的文獻,采取人工清洗及補錄的方式,剔除簡訊、通知等非學(xué)術(shù)性文獻,補錄遺漏的數(shù)據(jù),最終獲得不包含增刊(No.S1)的2015年1—24期刊載的學(xué)術(shù)論文480條。
本研究中,論文頁數(shù)和被引頻次非標(biāo)準(zhǔn)正態(tài)分布(P=0.000)(表1),與有研究者認為的呈正態(tài)分布[6]的結(jié)論不一致。為展示盡可能全面的數(shù)據(jù)屬性和特征,同時給出了反映標(biāo)準(zhǔn)正態(tài)分布、非標(biāo)準(zhǔn)正態(tài)分布的集中趨勢及離散趨勢參數(shù)。480篇論文中,頁數(shù)均值為10.62,中位數(shù)為10,最小為2,最大為32;被引頻次均值為22.97,中位數(shù)為15,最小為0,最大為267。其中,8~11頁的論文居多,占68.6%。
表1 變量初級分析之描述統(tǒng)計
3.1.2 不同長度論文被引頻次差異分析
為了解不同長度論文被引頻次是否存在差異,對其進行差異性分析。
首先,基于專業(yè)視角,將論文分為兩組:長論文和短論文。頁數(shù)8及以下的論文73篇,分為一組(短論文);頁數(shù)8以上的論文407篇,分為一組(長論文)。2個獨立樣本非參數(shù)檢驗結(jié)果表明,短論文、長論文被引頻次存在差異,且差異極顯著(Z=-4.078,P=0.000)。
其次,采用較常用的根據(jù)中位數(shù)的方法進行分組。本研究中論文長度中位數(shù)為10,將10頁及以下的論文分為一組(短論文),共有276篇;10頁以上的論文分為一組(長論文),共有204篇。2個獨立樣本非參數(shù)檢驗結(jié)果表明,短論文、長論文被引頻次存在差異,且差異極顯著(Z=-5.319,P=0.000)。
另外,鑒于本研究中論文頁數(shù)跨度比較大,結(jié)合專業(yè)需求,并考慮樣本量大致相等,將論文按頁數(shù)分為長、中長、短3組。將9頁及以下的論文分為一組(短論文),共有164篇,平均被引頻次為17.30次;10~11頁的論文分為一組(中長論文),共有190篇,平均被引頻次為23.26次;12頁及以上的論文分為一組(長論文),共有126篇,平均被引頻次為29.93次。k個獨立樣本非參數(shù)檢驗結(jié)果表明,不同長度論文被引頻次存在差異,且差異極顯著(χ2=–5.319,P=0.000)。進一步對其進行兩兩比較,發(fā)現(xiàn)短論文、中長論文、長論文兩兩之間均存在差異,且差異極顯著。
綜上,不論如何將論文按長度分組,不同長度論文間被引頻次均存在差異。
3.1.3 論文長度與被引頻次間關(guān)系特征
以散點圖考察論文長度、被引頻次間的相關(guān)關(guān)系及變化趨勢。本研究中頁碼只能取整數(shù),被引頻次也并非無限任意取值,易造成散點圖中大量散點重疊顯示,導(dǎo)致不同部分散點疏密不易分清。為不影響對散點圖的趨勢觀察,采用散點合并的方式顯示,散點塊越大,代表該區(qū)域散點數(shù)量越多(圖2)。論文長度、被引頻次間的散點圖(圖2和圖3)展現(xiàn)如下數(shù)據(jù)特征:
(1)被引頻次在不同頁碼(版面)上離散程度有一定差別,在樣本量較大的中間數(shù)據(jù),離散程度較大,樣本量較小的兩端,離散程度較?。▓D2)。離散程度與樣本量有關(guān),與頁碼本身無太大關(guān)聯(lián)。
圖2 不同長度論文被引頻次散點圖
(2)不同頁碼論文的平均被引頻次整體呈“M”型(圖3):0~10頁,隨著頁碼增加,平均被引頻次呈緩慢上升趨勢;10~20頁,隨著頁碼增加,平均被引頻次先是快速增加,隨后又快速下降;20頁之后,被引頻次波動較大,快速上升,之后快速下降。
(3)Loess擬合線(擬合50%的點)與線性擬合線有一定差距(圖3)。尤其版面在20頁以上的論文,被引數(shù)據(jù)Loess擬合線與線性擬合線差距隨頁碼增加逐漸變大。表明論文長度與被引頻次間如果確實存在關(guān)聯(lián),也較大概率不是簡單的線性關(guān)系。
圖3 不同長度論文平均被引頻次內(nèi)插線散點圖
綜上,不同頁碼平均被引頻次散點圖展現(xiàn)了不同頁碼波段論文平均被引頻次分布規(guī)律:數(shù)據(jù)出現(xiàn)明顯的拐點,論文長度與平均被引頻次間關(guān)聯(lián)度隨自變量(論文頁數(shù))變化其強弱也發(fā)生相應(yīng)變化。
跟直方圖一樣,箱圖可以描述連續(xù)變量的分布情況,但直方圖更注重對分布情況進行詳細考察,箱圖側(cè)重于基于百分位數(shù)勾勒具有統(tǒng)計意義的信息。不同長度論文被引頻次箱圖(圖4)展現(xiàn)了如下信息:
圖4 不同長度論文被引頻次箱圖
(1)論文被引頻次存在較大隨機性。除樣本量較少的頁碼外,其他頁碼論文被引頻次均存在異常值。異常值較多為離群值,部分為極端值。對原始數(shù)據(jù)進行核對,發(fā)現(xiàn)數(shù)據(jù)真實性不存在問題。以上表明不同頁碼論文被引頻次有較大隨機性,意即頁碼增加,被引頻次未必增加。
(2)頁碼本身對異常值個數(shù)多少影響不大。異常值較多集中在頁碼為8~13時,此波段頁碼文章數(shù)量(樣本量)也較多,尤其集中在數(shù)量(樣本量)更多的9~11頁文章上。以上表明不同頁碼論文數(shù)量(樣本量)對異常值個數(shù)有較大影響,頁碼本身對異常值個數(shù)多少影響不大。
(3)不同頁碼論文被引頻次差異較大,且被引頻次中位數(shù)較小。箱體高度表明,不同頁碼論文被引頻次離散程度相差較大。離散程度受論文數(shù)量(樣本量)影響較大,與論文長度(頁數(shù))無太大關(guān)聯(lián)。
對論文長度、下載頻次、被引頻次三者間進行皮爾遜(Pearson)相關(guān)性分析,其結(jié)果表明,論文長度與被引頻次間的相關(guān)系數(shù)為0.210(P=0.000),論文長度與下載頻次間的相關(guān)系數(shù)為0.256(P=0.000),被引頻次與下載頻次間的相關(guān)系數(shù)為0.766(P=0.000),亦即論文長度與被引頻次、論文長度與下載頻次間的相關(guān)性較低,但被引頻次與下載頻次間極顯著正相關(guān)。上述結(jié)果表明,論文長度增加,下載頻次、被引頻次不一定增加,但下載頻次增加,被引頻次會相應(yīng)增加。
3.3.1 論文長度與被引頻次線性回歸分析及曲線擬合
不同長度論文被引頻次存在顯著差異,對其進行回歸分析。論文頁數(shù)、被引頻次均不符合正態(tài)分布,采用將非正態(tài)數(shù)據(jù)轉(zhuǎn)換為正態(tài)數(shù)據(jù)的常用方法(對數(shù)變換)對其進行轉(zhuǎn)換。雙對數(shù)模型參數(shù)是線性的,但對變量的要求較寬松。將被引頻次作為因變量(y),將論文頁數(shù)作為自變量(x)進行雙對數(shù)回歸。極少量論文被引頻次為0,采用常用處理手法將被引頻次統(tǒng)一加1[10],得到回歸模型如下:
雙對數(shù)回歸結(jié)果表明,建立了有意義的回歸模型,但R2只有0.062,解釋度很低。因而進一步引入頁碼的二次項繼續(xù)回歸,得到回歸模型如下:
引入頁碼的二次項后,R2有所上升,但與1相差很遠,且1次項、2次項均未通過統(tǒng)計檢驗,表明僅用論文頁數(shù)不能很好地對論文被引頻次進行預(yù)測。
論文頁數(shù)、被引頻次的雙對數(shù)回歸擬合優(yōu)度低,散點圖展現(xiàn)的特征亦表明,論文頁數(shù)、被引頻次間關(guān)系不甚明朗。為更全面對數(shù)據(jù)進行擬合,將所有可能反映該數(shù)據(jù)趨勢的曲線模型,包括三次方曲線等模型,均考慮在內(nèi)進行擬合。這樣做會增加后期模型選擇難度,但對于將整體不明情況下數(shù)據(jù)的擬合及比較不同模型擬合優(yōu)度,并最終選擇有統(tǒng)計意義、解釋度高的較優(yōu)模型有利。擬合后,所有模型中R2最大的也僅為0.081,表明擬合優(yōu)度很低,論文頁數(shù)所能解釋的方差在總方差中所占的百分比很低。綜上,論文被引頻次不能被很好地僅以論文頁數(shù)來預(yù)測。
3.3.2 論文長度與平均被引頻次的分段回歸
被引頻數(shù)中存在強影響點(圖4),若算法限制遷就這些強影響點數(shù)據(jù),可能會導(dǎo)致模型參數(shù)估計值與總體有較大偏差。回歸擬合通常采用的方法是去掉異常值建立線性回歸模型,但本研究中被引離群點數(shù)據(jù)客觀真實存在,強制去掉會使這些數(shù)據(jù)喪失研究意義。雙對數(shù)回歸及曲線擬合也表明,論文頁數(shù)與被引頻次間不存在簡單的線性關(guān)系,且擬合優(yōu)度很低,并且變量間的非線性關(guān)系不容易用一個統(tǒng)一的函數(shù)對整體進行定義。分段線性回歸是當(dāng)因變量對自變量的回歸在自變量的某一范圍服從某種線性關(guān)系,在其他范圍又服從斜率不同的線性關(guān)系時適用的一種回歸估計方法。對于本研究而言,基于散點圖(圖3)論文平均被引頻次分布特征進行分段回歸,將有助于更全面地呈現(xiàn)不同論文長度與被引頻次間的關(guān)系。以散點圖(圖3)中的拐點作為劃分依據(jù),分段回歸邏輯表達式如下:
回歸參數(shù)檢驗的F值45.377>F(8,472),P<0.05,表明建立了有意義的論文頁數(shù)與平均被引頻次的回歸模型。但此處為非線性回歸,F(xiàn)值和P值僅有參考意義。但R2為0.054,解釋度低。綜上,即使按照樣論文平均被引頻次走勢特征進行了分段回歸,回歸模型決定系數(shù)仍然很低,再次證實不能用論文頁數(shù)預(yù)測被引頻次。
從3個層次(表象研究、差異性分析、本質(zhì)探索)及不同角度由淺入深、層層遞進對論文版面、下載與被引頻次間關(guān)系進行探索,綜合各階段數(shù)據(jù)分析呈現(xiàn)的結(jié)果,可以得出以下結(jié)論及啟示。
(1)論文長度不同,被引頻次存在顯著差異。為分析不同長度論文被引頻次是否有差異,本研究共嘗試3種方法分組:基于專業(yè)需求分類法、基于常用的中位數(shù)分類法、基于專業(yè)及考慮樣本量大致相等的分類法,將論文按長度分為2組(短論文、長論文)或3組(短論文、中長論文、長論文)。然而不論是哪種分組方法,其差異性分析結(jié)果均表明,不同長度論文被引頻次不同,且差異顯著。本研究數(shù)據(jù)來自綜合性農(nóng)業(yè)科學(xué)類期刊,因此對該類期刊更具參考價值,其他類型期刊論文長度與被引頻次的關(guān)系需基于相應(yīng)期刊數(shù)據(jù)深入研究。
(2)論文長度與被引頻次間的關(guān)系隨論文長度的變化而變化。不同頁碼論文的平均被引頻次整體呈“M”型:0~10頁,隨著頁碼增加,平均被引頻次呈緩慢上升趨勢;10~20頁,隨著頁碼增加,平均被引頻次先是快速增加,隨后又快速下降;20頁之后,被引頻次波動較大,快速上升,之后快速下降。對某一特定論文而言,被引頻次存在較大隨機性。不同頁碼論文被引頻次存在較多的離群值和極端值,即對單個樣本(論文)來講,其被引頻次存在較大隨機性,散點圖展現(xiàn)的數(shù)據(jù)特征及論文長度與被引頻次間的相關(guān)性分析結(jié)果亦支持該觀點。
期刊論文版面近些年不斷增長,一個原因是科研水平提高了,作者更注重研究的系統(tǒng)性,因此單篇論文信息容量更大,導(dǎo)致長度增加。另外,有些期刊編輯認為長論文被引頻次會更高,為提高影響因子,減小影響因子計算公式的分母(載文量),錄稿時有意選擇版面較多的論文,或者引導(dǎo)作者增加論版面。但論文被引頻次受較多因素影響,除論文的信息容量,還有論文的學(xué)術(shù)質(zhì)量、出版時效、跨學(xué)科性、作者學(xué)術(shù)能力、引文質(zhì)量及被引頻次、合作情況,以及作者所在機構(gòu)等影響。僅僅為了論文長度而人為增加文章版面不可取。論文學(xué)術(shù)質(zhì)量是期刊的生命之源,期刊應(yīng)注重提高出版時效,引導(dǎo)作者關(guān)注論文的創(chuàng)新性等學(xué)術(shù)質(zhì)量,增加必要的信息容量,從本質(zhì)上長久提升期刊的生命力和影響力。本研究以綜合性農(nóng)業(yè)科學(xué)類期刊為材料進行研究,優(yōu)點是可以規(guī)避因期刊類別不同、排版樣式不同而導(dǎo)致的頁碼差,使結(jié)果穩(wěn)健,結(jié)論亦對該類期刊有參考意義;但同時也有局限性,該結(jié)論是否適用于其他類型期刊,有待進一步研究。下一步將探索學(xué)科對上述關(guān)系的影響,綜合探討被引頻次的影響因素,嘗試構(gòu)建解釋度更高的被引頻次預(yù)測模型。
(3)被引頻次不能僅以論文長度進行預(yù)測,二者非簡單的因果關(guān)系。論文被引頻次并不能被很好地僅以論文頁數(shù)來預(yù)測。本研究每個分析階段統(tǒng)計方法均是基于上階段數(shù)據(jù)展現(xiàn)的特征研判數(shù)據(jù)可能的分布規(guī)律,多角度嘗試構(gòu)建有統(tǒng)計意義、且擬合優(yōu)度高的較優(yōu)模型。但不變彈性模型(雙對數(shù)回歸)、曲線擬合及分段回歸結(jié)果表明,構(gòu)建了有意義的模型,但擬合優(yōu)度很低,因此不能僅用論文頁數(shù)很好的預(yù)測被引頻次。論文頁數(shù)對被引頻次有較大影響,但不是主要的影響因素。論文長度不同,被引頻次不同,不是論文長度本身導(dǎo)致的,應(yīng)是較長論文包含更全面的研究信息等多因素綜合所致,二者間不是簡單的因果關(guān)系。
(4)論文下載頻次與被引頻次相關(guān)性高。被引頻次與下載頻次間顯著正相關(guān),且相關(guān)系數(shù)達0.766,表明下載頻次高的論文被引頻次較大概率也較高。因此,增加論文的下載頻次,可相應(yīng)地提高其被引頻次。如何提高論文的下載頻次,便是編輯部提升期刊的傳播力、影響力要重點思考的問題了。知網(wǎng)推廣近兩年推出了學(xué)術(shù)期刊推廣服務(wù),重慶非曉數(shù)據(jù)科技有限公司2020年推出了學(xué)術(shù)期刊精準(zhǔn)傳播服務(wù)。在期刊評價蓬勃發(fā)展之際,部分期刊編輯部設(shè)想通過該服務(wù)增加在相應(yīng)數(shù)據(jù)庫的曝光度,以提高期刊論文下載頻次、被引頻次等。本研究中,下載頻次高的論文被引頻次一般也較高。影響下載頻次的因素很多,增加論文的曝光度確實是影響下載頻次的措施之一,但下載頻次更多受論文學(xué)術(shù)水平的影響,如題目的新穎性、作者的知名度和科研能力、期刊的影響力、是否有關(guān)當(dāng)前研究熱點等。如經(jīng)費允許,編輯部可嘗試將商業(yè)數(shù)據(jù)庫提供的推廣及精準(zhǔn)傳播服務(wù)作為推動期刊發(fā)展的助力之一,比如借助精準(zhǔn)傳播通過大數(shù)據(jù)了解所辦期刊的核心作者、潛在作者,優(yōu)化期刊選題等。但期刊穩(wěn)定、向好發(fā)展,編輯部更多要注重自身改革,如可通過引導(dǎo)作者高效投稿、壓縮論文出版時滯、優(yōu)化審稿及退修流程,吸引優(yōu)質(zhì)稿源;也可通過加強微信、微博、網(wǎng)站及其他第三方平臺等精準(zhǔn)、高頻、高效進行論文的推送,加強期刊的宣傳和推廣。