文利情
(廣東省立中山圖書館 廣東廣州 510110)
在西方的格林童話中,美麗的公主因?yàn)槭艿脚椎脑{咒,接觸紡錘時陷入昏睡;百年之后一位勇敢的王子披荊斬棘找到了沉睡的公主,并用真愛之吻破除詛咒喚醒了公主。2004年,荷蘭的定量科學(xué)家Raan[1]借用睡美人童話故事,把發(fā)表后很少引用、但若干年后被引卻迅速上升的特殊引文現(xiàn)象命名為“睡美人”(sleeping beauty)。明確發(fā)表后很少被引用的論文等到其某日被某篇論文引用后才會被大量引用,并提出了相關(guān)的幾個定量標(biāo)準(zhǔn)——“沉睡”期年均被引≤2,“蘇醒”后四年內(nèi)總被引>20,即“睡美人”三大指標(biāo):沉睡時長S(length of the sleep)、沉睡深度CS(depth of sleep)、喚醒強(qiáng)度CW(awake intensity)。
“睡美人”是科學(xué)計(jì)量學(xué)中對發(fā)表后歷經(jīng)多年低被引而后轉(zhuǎn)為高被引的那些學(xué)術(shù)論文的童話浪漫的描述稱呼,也就是遲滯認(rèn)可現(xiàn)象。雖然遲滯現(xiàn)象早在20 世紀(jì)70 年代就被認(rèn)識和研究,Raan也不是第一位相關(guān)領(lǐng)域的研究者,但他第一次形象而有趣的命名,為遲滯承認(rèn)領(lǐng)域的研究注入了新的動力,激發(fā)了各國學(xué)者進(jìn)行相關(guān)研究的興趣,而Glānzel和Garfield[2]把“王子”設(shè)定為“公主”沉睡后第一次引用、被引次數(shù)相對較高、與“公主”共同被引達(dá)到一定次數(shù)的論文。依此標(biāo)準(zhǔn),他們發(fā)現(xiàn)有些“公主”先后被多位“王子”親吻,也發(fā)現(xiàn)存在一位“王子”同時親吻多位“公主”的現(xiàn)象;李江和葉鷹合作發(fā)現(xiàn)高品質(zhì)論文中存在“公主”“紡錘”“王子”同時出現(xiàn)的“全要素睡美人”(allelements-sleeping-beauty)。這些相關(guān)研究發(fā)現(xiàn),“睡美人”論文往往是具有原創(chuàng)性發(fā)現(xiàn)當(dāng)時卻未被認(rèn)識、而沉寂若干年后終被學(xué)界肯定的重要文獻(xiàn)。
“睡美人”現(xiàn)象在科學(xué)研究中是發(fā)生概率非常小的事件。有兩個數(shù)據(jù)可以部分說明這個情況:Glānzel考察了SCI數(shù)據(jù)庫1980年收錄的45萬篇論文的被引用情況,發(fā)現(xiàn)每1萬篇論文中,只有大約1.3篇論文能滿足他所定義的遲滯承認(rèn)的標(biāo)準(zhǔn)[3]。Raan發(fā)現(xiàn)1988年SCI數(shù)據(jù)庫所收錄的大約100萬篇論文中,只有41篇論文符合他提出的“睡美人”的標(biāo)準(zhǔn)。但是像Romans“睡美人”這樣比較極端的例子,只有一個。具體到上述那篇非常標(biāo)準(zhǔn)的“睡美人”案例,其發(fā)生的大背景——兩次超弦理論革命在弦理論發(fā)展史上是唯一的,在科學(xué)研究中也是非常罕見的現(xiàn)象。
除了上述學(xué)術(shù)上發(fā)生的特殊性,“睡美人”沉睡的另一個重要原因是,該文發(fā)布的是一項(xiàng)早熟的科學(xué)發(fā)現(xiàn)。實(shí)際上,表面顯示出來的時間錯位,其內(nèi)里本質(zhì)很有可能是其做出的早熟科學(xué)發(fā)現(xiàn)與當(dāng)時的科學(xué)理論和科學(xué)范式不一致,因此,不被同時代科學(xué)家理解和認(rèn)可,有時還會受到抵制,這正如愛因斯坦提出相對論,同時期能理解其意義的不過寥寥數(shù)人,而如今,引力波的發(fā)現(xiàn),完善了相對論的整個論據(jù),勢必在科學(xué)界引發(fā)巨大影響,而此時距離愛因斯坦相對論的提出,已然一個多世紀(jì)過去了。這就是Garfield所總結(jié)的,早熟發(fā)現(xiàn)和阻滯發(fā)現(xiàn)都是遲滯承認(rèn)的子集[4]。查閱相關(guān)文獻(xiàn)尚未發(fā)現(xiàn)Romans“睡美人”被超弦理論同行批評或抵制的蛛絲馬跡。因此,“睡美人”論文沉睡的原因主要是所發(fā)布的科學(xué)發(fā)現(xiàn)走在了時代前面,同時代科學(xué)家看不到其重要意義。
通過對上述現(xiàn)象的思考,另外一個層面上對于沉睡原因的解釋有:是科學(xué)新秀,而不是權(quán)威發(fā)表了超前于時代的論文,再經(jīng)過一段時間的科學(xué)發(fā)展,科學(xué)權(quán)威進(jìn)行了相似研究并發(fā)現(xiàn)了新秀之前的研究論文,這樣就喚醒了“睡美人”。
“睡美人”現(xiàn)象也有相當(dāng)深刻的學(xué)術(shù)意義,科學(xué)中的遲滯承認(rèn)現(xiàn)象應(yīng)該值得科學(xué)社會學(xué)家關(guān)注和研究。情報(bào)學(xué)家從文獻(xiàn)收藏角度提醒我們,由于“睡美人”現(xiàn)象的存在,在文獻(xiàn)收藏上不能短視,否則,等“睡美人”文獻(xiàn)蘇醒之時,相關(guān)信息儲存不當(dāng),會導(dǎo)致需要時無法找到此類文獻(xiàn)的出處以及數(shù)據(jù),對于科學(xué)研究帶來較大的損失[5]。再考察關(guān)于“睡美人”現(xiàn)象的學(xué)科差異,在李江、姜明利、李玥婷[6]的《引文曲線的分析框架研究——以諾貝爾獎得主的引文曲線為例》一文研究中表明:在自然科學(xué)界中“睡美人”的比例分別為8.0%、6.7%、4.0%,而社會科學(xué)家中“睡美人”的比例僅為1.4%。“睡美人”曲線中公主有一段沉睡期,沉睡期內(nèi)極少被引用,這被認(rèn)為是“過早的科學(xué)發(fā)現(xiàn)”,未能得到認(rèn)可。一旦被喚醒之后,狀態(tài)突變,被引次數(shù)短時間內(nèi)激增,這種現(xiàn)象在自然科學(xué)家中較常見,國外相關(guān)專家的研究也證實(shí)了這一觀點(diǎn)。社會科學(xué)家的引文曲線相對平滑,“睡美人”現(xiàn)象較罕見。
另一方面,2010年武漢大學(xué)的馬費(fèi)成、望俊成等人[7]則從信息生命周期的角度對“睡美人”被喚醒的原因作了一些探討。他們認(rèn)為,人們在同一信息的不同生命周期階段對其有著不同的需求,可以從這一角度來研究造成阻滯發(fā)現(xiàn)的原因。
對“睡美人”現(xiàn)象的承認(rèn)存在到逐步發(fā)現(xiàn)并不斷尋找其意義的過程中,各國學(xué)者都作出非常大的努力,使用了大量數(shù)據(jù)采樣和數(shù)據(jù)分析。正是由于“睡美人”的稀缺而又規(guī)律不明以及不可預(yù)測,使得此方面的研究一直都沒有停止過,還在不斷深入中。
“睡美人”現(xiàn)象是一種小概率事件,尋找“睡美人”論文需要借助大型數(shù)據(jù)庫和引文分析工具。
考慮到現(xiàn)階段“睡美人”現(xiàn)象的研究成果,決定考察物理學(xué)類論文的“睡美人”現(xiàn)象。由于物理包含很多下屬學(xué)科:應(yīng)用物理、核物理、地球物理等,按照時間和質(zhì)量的要求,選擇其中一個子分科作深入研究。
首先,從方便獲取數(shù)據(jù)的角度,筆者考察了CNKI中國引文數(shù)據(jù)庫CCD、CSCD中國科學(xué)引文數(shù)據(jù)庫,期刊選擇北京大學(xué)圖書館“中文核心期刊”中21種物理類刊物。在考察過程中,遇到了以下一些問題:筆者在比對了《物理學(xué)報(bào)》以及《發(fā)光學(xué)報(bào)》后發(fā)現(xiàn),數(shù)據(jù)誤差較大,發(fā)文數(shù)被引數(shù)無法統(tǒng)一。CSCD出現(xiàn)了由于作者標(biāo)明不清,文章計(jì)算重復(fù)的情況:例如統(tǒng)計(jì)《物理學(xué)報(bào)》2000年發(fā)布的論文,共計(jì)有452篇,查詢2000—2015年的被引情況時總文章數(shù)達(dá)到800多篇。CCD也出現(xiàn)了數(shù)據(jù)不穩(wěn)定的情況。最后為了保證數(shù)據(jù)獲取的準(zhǔn)確性及其數(shù)據(jù)意義,選擇了SCI(科學(xué)引文索引)作為數(shù)據(jù)來源。
查找SCI數(shù)據(jù),尋找物理的下級科目,考慮到論文價(jià)值,簡單直接的方式是選擇影響因子較高的學(xué)科門類,根據(jù)觀察排比,選擇PHYSICS、NUCLEAR,即核物理相關(guān)類目的期刊。此類目錄下含21種期刊,確定采樣數(shù)量,考慮工作強(qiáng)度的可控性,選取影響因子前11位的期刊(即影響因子>2的11本刊物)進(jìn)行取樣調(diào)查(如表1所示)。
表1 取樣期刊總引用量及期刊影響因子列表
第一步,設(shè)定取值范圍,利用SCI數(shù)據(jù)庫獲取以上11種期刊2000—2010年的論文被引數(shù)據(jù);第二步,從2000年開始直至2010年,通過SCI獲取這部分期刊所發(fā)表論文在其發(fā)表后第S年的CS,直到2015年末的沉睡深度。網(wǎng)站獲取數(shù)據(jù)分批量作出CS曲線;第三步,通過大量曲線分析查找、數(shù)值設(shè)定查找等各種數(shù)據(jù)處理工具進(jìn)行數(shù)據(jù)篩選,選取在S>5的情況下CS曲線前期平滑<20后期突變增大的點(diǎn)、CS-1<20而CS>20時的點(diǎn)記錄,并記錄此數(shù)據(jù)點(diǎn)CW,即喚醒強(qiáng)度。通過大量取樣分析,觀察不同的曲線情況,對于核物理類目下11本期刊2000—2010年發(fā)表的論文進(jìn)行“睡美人”現(xiàn)象判定。
圖1為Annual Review of Nuclear and Particle Science的部分引文數(shù)據(jù)樣本曲線形狀。橫坐標(biāo)為年份,縱坐標(biāo)為被引次數(shù)(也就是沉睡深度)。Var***表示論文題目,為方便閱讀,此圖做變量處理簡化命名方式。
圖1 Annual Review of Nuclear and Particle Science 的部分引文曲線圖
考察“睡美人”現(xiàn)象時,曲線種類主要有3種(如圖2-圖4所示)。
圖2 M型的引文曲線圖
圖3 倒V型的引文曲線圖
圖4 下降型的引文曲線圖
通過對11本期刊將近5萬篇論文進(jìn)行曲線分析,其中有引文數(shù)據(jù)的將近4.3萬篇。由于本次數(shù)據(jù)處理設(shè)置的喚醒強(qiáng)度>20,在數(shù)據(jù)處理中,MAX[CS]<20的數(shù)據(jù)最早刪除;S<5的情況下,CS>20的數(shù)據(jù)也一并刪除,剩下數(shù)據(jù)約為1萬條左右。按照上述篩選之后,需要處理的數(shù)據(jù)減少了80%,對于剩下的數(shù)據(jù)曲線進(jìn)一步分析,未發(fā)現(xiàn)符合“睡美人”現(xiàn)象條件的相關(guān)論文。筆者自行設(shè)計(jì)了符合此次查找要求的“睡美人”曲線以供參考,如圖5所示。
圖5 符合此次查找要求的“睡美人”曲線
在科學(xué)發(fā)現(xiàn)中,論文的遲滯承認(rèn)現(xiàn)象即“睡美人”現(xiàn)象并不多見,對此方面的研究有利于我們進(jìn)一步探討該現(xiàn)象對科學(xué)發(fā)現(xiàn)的影響。經(jīng)過一番數(shù)據(jù)收集與分析,此次計(jì)量研究,并未發(fā)現(xiàn)符合“睡美人”現(xiàn)象的論文,但是發(fā)現(xiàn)兩點(diǎn)有趣的現(xiàn)象。首先,按照之前研究者相關(guān)論文得出科研的數(shù)據(jù),1萬篇論文應(yīng)存在1.3篇符合“睡美人”現(xiàn)象的論文,將近5萬篇的取樣,理應(yīng)存在6~7篇符合三要素的“睡美人”;其次,按照諾貝爾獎得主的比例計(jì)算8%的數(shù)據(jù)結(jié)果,理應(yīng)存在更多的“睡美人”。然而,此次采樣結(jié)果分析之后并沒有發(fā)現(xiàn)“睡美人”現(xiàn)象存在。經(jīng)過筆者反復(fù)思考回顧,有以下幾點(diǎn)可能存在的問題:①采樣期刊量較少。雖然此次采樣選取總量也達(dá)到47000多篇論文,但由于睡美人現(xiàn)象本身就是罕見的科學(xué)現(xiàn)象,總量不足對于其發(fā)現(xiàn)肯定有較大的影響。②采樣時間設(shè)置較短。2010年發(fā)表的論文的相關(guān)引文數(shù)據(jù),S最大值即為6,S>5的情況下,CS>20的可考察范圍就僅限一個取值范疇,以此類推,2005年往后的論文,其引文數(shù)據(jù)考察時S都不可能>10,嚴(yán)重限制了可考察到的情況。擁有較多引文數(shù)據(jù)的論文僅限于2000—2004年發(fā)表的相關(guān)論文,此區(qū)間較為狹窄。③喚醒強(qiáng)度設(shè)置過高。本文按照Raan的設(shè)置值,將喚醒強(qiáng)度設(shè)置為>20,有可能此數(shù)值設(shè)定得較高,考察時,論文總被引量>20的論文數(shù)量都銳減到了2萬篇左右,影響到了“睡美人”現(xiàn)象的發(fā)現(xiàn)。補(bǔ)充說明一點(diǎn),自然科學(xué)類“睡美人”現(xiàn)象發(fā)生概率遠(yuǎn)大于社會科學(xué)類,其喚醒強(qiáng)度設(shè)置不適宜過低。但由于絕大多數(shù)科學(xué)家討論時設(shè)置的喚醒強(qiáng)度都較高,也應(yīng)該是考慮到了“睡美人”應(yīng)為真正的“美人”,太易于喚醒的論文,達(dá)不到其“美人”的研究價(jià)值。
對于“睡美人”現(xiàn)象的判定,將喚醒強(qiáng)度設(shè)定過高對其定義和發(fā)現(xiàn)會造成比較大的影響,相反若是設(shè)置過低,則其結(jié)果并不存在太大意義。根據(jù)大量數(shù)據(jù)觀察,筆者認(rèn)為更為有效的參考值理應(yīng)在12以上。筆者將繼續(xù)對相關(guān)數(shù)據(jù)進(jìn)行優(yōu)化處理,進(jìn)一步選取更為合適核物理類學(xué)科的沉睡深度、喚醒強(qiáng)度,以便于相關(guān)學(xué)科科研人員可以從中獲得有益結(jié)論幫助其進(jìn)行科學(xué)研究。