計(jì)算機(jī)科學(xué)中的“睡美人”文獻(xiàn)特征分析及識別方法研究

2023-01-26 20:43:06臨清市新時(shí)代文明實(shí)踐服務(wù)中心郭艷霞

內(nèi)江科技 2022年6期

◇臨清市新時(shí)代文明實(shí)踐服務(wù)中心郭艷霞

雖然絕大多數(shù)的科學(xué)出版物都是在發(fā)表后的最初幾年里被引用的，但也有一些有趣的論文—被稱為“睡美人”，在發(fā)表后的幾年里被引用的次數(shù)并不多，但隨后卻突然開始被大量引用。在這項(xiàng)工作中，我們關(guān)注在計(jì)算機(jī)科學(xué)領(lǐng)域的“睡美人”。我們選出了5000多名計(jì)算機(jī)科學(xué)中的“睡美人”，并根據(jù)他們的子領(lǐng)域和他們的引文概況來描述他們。我們還提出了一種早期識別“睡美人”的方法，該方法試圖根據(jù)出版物是否可能是“睡美人”文獻(xiàn)對其進(jìn)行分類。

1 引言

科學(xué)文獻(xiàn)是科技工作者交流的主要手段，科學(xué)引文的數(shù)量是衡量科學(xué)文獻(xiàn)的重要指標(biāo)?？茖W(xué)引文隨時(shí)間變化，呈現(xiàn)一定得特性。絕大多數(shù)論文在發(fā)表后的最初幾年被引用，然后呈指數(shù)衰減，但很少有特別受歡迎的論文能隨著時(shí)間穩(wěn)步積累被引用。人們還觀察到另一類有趣的論文—那些在發(fā)表后幾年沒有被大量引用，但突然開始被引用的論文，通常被稱為“睡美人”文獻(xiàn)[1]。

對論文的“晚喚醒”或“晚識別”現(xiàn)象早有研究。然而，幾乎所有之前的研究都集中在基礎(chǔ)科學(xué)的論文上，但在計(jì)算機(jī)科學(xué)領(lǐng)域?qū)Α八廊恕蔽墨I(xiàn)的研究非常稀少。

在這項(xiàng)工作中，我們使用從微軟學(xué)術(shù)搜索抓取的大型論文數(shù)據(jù)集，我們識別和描述了計(jì)算機(jī)科學(xué)中超過5000個(gè)“睡美人”文獻(xiàn)。我們發(fā)現(xiàn)“睡美人”文獻(xiàn)中有各種子類，它們在各個(gè)方面的行為都不同。例如，雖然一些“睡美人”文獻(xiàn)在喚醒后被引用的次數(shù)繼續(xù)增加，但許多其他“睡美人”文獻(xiàn)在幾年后被引用，然后被引用次數(shù)再次下降。研究表明，“睡美人”文獻(xiàn)的許多特性取決于計(jì)算機(jī)科學(xué)領(lǐng)域的相關(guān)子領(lǐng)域。例如，大多數(shù)“睡美人”文獻(xiàn)來自的子字段“算法和理論”和“科學(xué)計(jì)算”。這些“睡美人”文獻(xiàn)中的許多在較長的時(shí)間后蘇醒（與其他子領(lǐng)域的“睡美人”文獻(xiàn)相比）；然而，一旦他們醒來，他們經(jīng)常被計(jì)算機(jī)科學(xué)的其他子領(lǐng)域引用。相比之下，來自子領(lǐng)域“自然語言和語音”和“硬件和體系結(jié)構(gòu)學(xué)”通常只引用自他們自己的子領(lǐng)域。

2 相關(guān)工作

理解科學(xué)論文的引文增長動態(tài)一直是文獻(xiàn)計(jì)量學(xué)中一個(gè)有趣的問題[2]。在研究計(jì)算機(jī)科學(xué)論文的有效生命周期的引文動力學(xué)時(shí)，一個(gè)廣義的觀察結(jié)果[3]揭示，在發(fā)表論文之后，在最初的兩到三年內(nèi)，引文收集的頻率會有一個(gè)初始增長（增長階段），隨后是一個(gè)恒定的峰值，也就是說，進(jìn)入引用的頻率在接下來的一到兩年里變得停滯（飽和階段），然后，在文章的剩余生命周期中出現(xiàn)最終的下降（衰退階段），然后逐漸地，在某個(gè)點(diǎn)上觀察不到進(jìn)一步的活動（廢棄階段）。然而，我們本論文的動機(jī)源于Ruiz-Castillo[4]提出的一個(gè)基本問題與科學(xué)計(jì)量學(xué)相關(guān)的內(nèi)容如下:“不同科學(xué)的引文分布是非常相似還是相當(dāng)不同?”

Chakraborty[3]在早期的工作中引入了計(jì)算機(jī)科學(xué)領(lǐng)域中科學(xué)文章的各種引用分布圖的想法。他們提出了一種新的引文增長模型來模擬這些不同的引文分布。在接下來的工作中[14]，他們展示了如何使用這些概要信息來預(yù)測一篇文章在其發(fā)表時(shí)的未來被引數(shù)。其提出了一個(gè)兩階段的分層學(xué)習(xí)框架，在第一階段使用基于規(guī)則的方法將被試論文的引文輪廓映射到一個(gè)類別；然后在第二階段，對只屬于映射類別的論文進(jìn)行訓(xùn)練，預(yù)測該論文未來的被引次數(shù)。他們還通過分析論文的引文分布和上下文屬性（如關(guān)鍵詞、主題等）來量化論文（相對于領(lǐng)域）的跨學(xué)科性。

關(guān)于論文“晚醒”或“晚認(rèn)”現(xiàn)象的研究很少。Garfield[5]是第一個(gè)提供此類論文例子的研究者。后來，Glanzel[6]估計(jì)了這種延遲識別，并揭示了這種現(xiàn)象的有趣特征。Raan首先創(chuàng)造了“睡美人”這個(gè)詞，指的是識別延遲的論文。李江等人[7]分析了分析了諾貝爾獎(jiǎng)得主論文的引文曲線，發(fā)現(xiàn)了識別延遲的文章。最近，杜建等人[8]引入了一種無參數(shù)方法來識別科學(xué)中的“睡美人”文獻(xiàn)。

Li and Shi[9]提出了一套基于引證譜增長速度的新標(biāo)準(zhǔn)來從諾貝爾獎(jiǎng)得主的文章中檢測天才文章。然而，他們提出的標(biāo)準(zhǔn)也有一些特別的選擇。例如，該標(biāo)準(zhǔn)不適用于很少被引用或從未被引用的文章。一篇文章至少被引用9次，在發(fā)表10年和50年后至少被引用90次，分別滿足該準(zhǔn)則。

Li等人[10]研究了四個(gè)特殊的案例，“睡美人”似乎被紡線傷到，進(jìn)入睡眠，然后被王子喚醒。他們還選擇了一些特別的標(biāo)準(zhǔn)來鑒別“睡美人”—某段時(shí)間（至少5年）平均被引用次數(shù)少于2次，而在接下來的4年里平均被引用次數(shù)超過20次。在另一項(xiàng)研究中，Li和Ye[11]提出了三個(gè)標(biāo)準(zhǔn)—基于平均水平的標(biāo)準(zhǔn)、基于四分位數(shù)的標(biāo)準(zhǔn)和無參數(shù)的標(biāo)準(zhǔn)，以此來區(qū)分“睡美人”。van Raan[12]進(jìn)一步研究了“睡美人”的兩個(gè)重要性質(zhì)：①“睡美人”的時(shí)間依賴分布、作者特征、期刊和領(lǐng)域；②“睡美人”的認(rèn)知環(huán)境。他研究的是物理、化學(xué)和工程科學(xué)論文，并觀察到一半的“睡美人”論文是面向應(yīng)用的。從上述討論中可以明顯看出，不同的研究使用了不同的標(biāo)準(zhǔn)來識別“睡美人”文獻(xiàn)。屈文建等人[13]對高被引文章引文曲線進(jìn)行了分析。

3 “睡美人”的數(shù)據(jù)集和識別

本節(jié)描述計(jì)算機(jī)科學(xué)論文的數(shù)據(jù)集，以及我們?nèi)绾螐脑摂?shù)據(jù)集識別“睡美人”文獻(xiàn)。

3.1 計(jì)算機(jī)科學(xué)論文數(shù)據(jù)集

我們使用了一個(gè)從微軟學(xué)術(shù)機(jī)構(gòu)抓取的計(jì)算機(jī)科學(xué)論文的大數(shù)據(jù)集搜索（MAS）。具體來說，我們收集了截至2012年MAS檢索的所有計(jì)算機(jī)科學(xué)領(lǐng)域發(fā)表的論文。該數(shù)據(jù)集包含200多萬篇論文的數(shù)據(jù)。對于每一篇論文，數(shù)據(jù)集包含論文的詳細(xì)信息（例如，標(biāo)題、作者、發(fā)表地點(diǎn)和年份、關(guān)鍵詞），以及本文引用的其他論文的名稱。此外，每篇論文都映射到計(jì)算機(jī)科學(xué)的一個(gè)或多個(gè)子領(lǐng)域。計(jì)算機(jī)科學(xué)共有24個(gè)子領(lǐng)域，如“算法與理論”、“科學(xué)計(jì)算”、“人工智能”、“網(wǎng)絡(luò)與通信”等，每篇論文都會提到一個(gè)或多個(gè)子領(lǐng)域。

在這項(xiàng)研究中，我們關(guān)注的是1950年至2011年期間的引文，對此我們有近乎完整的數(shù)據(jù)。此外，我們決定把重點(diǎn)放在受歡迎的論文上，只考慮了那些至少被引用20次的178383篇論文（到2011年為止）。

3.2 標(biāo)準(zhǔn)化引文分布圖的計(jì)算

3.3 識別“睡美人”文獻(xiàn)

接下來，我們從論文的規(guī)范化引用分布圖中識別“睡美人”文獻(xiàn)。Raan于2004年提出了識別“睡美人”文獻(xiàn)的三個(gè)維度：①睡眠期間的持續(xù)時(shí)間；②睡眠深度，即睡眠期間的平均被引次數(shù)；③喚醒強(qiáng)度，即睡眠后4年的累計(jì)被引次數(shù)。在上述三個(gè)維度中，我們只考慮前兩個(gè)維度來標(biāo)識“睡美人”文獻(xiàn)。我們不考慮第三個(gè)維度，因?yàn)椤八廊恕蔽墨I(xiàn)在覺醒后的年份中可能有非常不同的引文分布圖。

具體來說，如果一篇論文在其發(fā)表后的前10年，其規(guī)范化引文分布圖中的所有數(shù)據(jù)點(diǎn)都小于0.20，我們就認(rèn)為該論文是一篇“睡美人”文獻(xiàn)。換句話說，我們關(guān)注的是睡眠期至少為10年的論文，睡眠期的平均年被引次數(shù)最多為其峰值的20%。請注意，我們從過去的一系列工作中調(diào)整了這些標(biāo)準(zhǔn)。通過這個(gè)過程，我們將5086篇論文確定為“睡美人”文獻(xiàn)（占我們數(shù)據(jù)集中所有論文的2.85%，這些論文至少被引用20次）。

值得一提的是，對于大多數(shù)情況，我們實(shí)際上考慮了一個(gè)靈活的標(biāo)準(zhǔn)。例如，前10年的標(biāo)準(zhǔn)化引用計(jì)數(shù)被認(rèn)為是。發(fā)布后的時(shí)間窗口為年。標(biāo)準(zhǔn)中的靈活性最終產(chǎn)生了與上面所述差不多的一組“睡美人”文獻(xiàn)。

有人可能會反對我們的標(biāo)準(zhǔn)化程序，如果一篇論文從發(fā)表之日起就得到越來越多的關(guān)注，隨后又被多次引用，那么在最初幾年的比例就會變得相對較小，通過我們的方法，它可能會被誤認(rèn)為是“睡美人”文獻(xiàn)（這類論文通常被稱為“常青”論文，而不是“睡美人”）。為了交叉驗(yàn)證已確定的5086篇“睡美人”文獻(xiàn)中是否存在此類論文，我們進(jìn)一步測量了每個(gè)已確定的“睡美人”文獻(xiàn)在其休眠時(shí)間（發(fā)表后的前10年）的原始引用計(jì)數(shù)。我們沒有發(fā)現(xiàn)任何“睡美人”文獻(xiàn)在睡眠時(shí)間被引用超過50次。因此，我們得出結(jié)論，我們的歸一化方法沒有錯(cuò)誤地將普通文獻(xiàn)甚至是常青的文章檢測為“睡美人”文獻(xiàn)。

4 “睡美人”文獻(xiàn)特征描述

在本部分中，我們將根據(jù)前面所述的方法來描述“睡美人”文獻(xiàn)的特征。

4.1 “睡美人”文獻(xiàn)與計(jì)算機(jī)科學(xué)子領(lǐng)域關(guān)系分析

如前所述，數(shù)據(jù)集中的每篇論文都映射到的一個(gè)或多個(gè)子字段計(jì)算機(jī)科學(xué)。我們統(tǒng)計(jì)了識別的5086個(gè)“睡美人”文獻(xiàn)在不同子字段中的分布情況。在“睡美人”文獻(xiàn)中，“算法與理論”和“科學(xué)計(jì)算”的子領(lǐng)域占50%以上，而“人工智能”和“科學(xué)計(jì)算”的子領(lǐng)域占50%以上，“自然語言和言語”占了另外22%。我們還注意到，對于“睡美人”文獻(xiàn)的三個(gè)子類中的每個(gè)子類，跨不同子字段的分布幾乎保持相同。

我們統(tǒng)計(jì)了某一子領(lǐng)域（包括在我們的數(shù)據(jù)集中）的所有論文中有多少部分是“睡美人”文獻(xiàn)。同樣，來自“算法與理論”和“科學(xué)計(jì)算”子領(lǐng)域有更高比例的論文成為“睡美人”文獻(xiàn)，這可能是因?yàn)檫@些論文貢獻(xiàn)的算法/方法后來在計(jì)算機(jī)科學(xué)的不同子領(lǐng)域中得到了應(yīng)用。有趣的是，盡管“信息檢索”這一子領(lǐng)域的“睡美人”文獻(xiàn)比許多其他子領(lǐng)域少，但這一子領(lǐng)域的論文成為“睡美人”文獻(xiàn)的比例高于許多其他子領(lǐng)域。

4.2 基于喚醒后引文分布圖的“睡美人”文獻(xiàn)類型分析

我們首先檢查不同“睡美人”文獻(xiàn)的引用分布圖在它們被喚醒后看起來是否相似或不同。為此，我們應(yīng)用以下啟發(fā)式方法檢測“睡美人”的引文分布圖中的峰值：①高峰應(yīng)該是一個(gè)局部最大值，兩側(cè)的高度比最多（或等于）小峰高；②峰值的高度應(yīng)該是至少70%的全球最大峰高；③連續(xù)兩個(gè)峰應(yīng)該相隔2年以上，否則，他們被視為一個(gè)峰值。有趣的是，我們根據(jù)喚醒后引文分布圖的峰值數(shù)量觀察到“睡美人”文獻(xiàn)的三個(gè)不同子類。

（1）單峰特征。這些“睡美人”文獻(xiàn)在蘇醒后逐漸積累被引次數(shù)，導(dǎo)致被引輪廓出現(xiàn)峰值，隨后被引次數(shù)下降。這個(gè)子類占所有已識別“睡美人”文獻(xiàn)的43.8%。

（2）多峰特征。這些“睡美人”文獻(xiàn)的引文輪廓有多個(gè)峰，峰間間隔為幾年（占全部“睡美人”文獻(xiàn)的37.9%）。

（3）這些“睡美人”文獻(xiàn)的被引分布隨時(shí)間持續(xù)上升，至少持續(xù)到2011年（直到我們有完整的被引數(shù)據(jù)為止）。這個(gè)子類包含18.3%的“睡美人”文獻(xiàn)。

4.3 “睡美人”文獻(xiàn)最終被引用的次數(shù)與其他類型的論文比較分析

我們比較了“睡美人”文獻(xiàn)的總被引次數(shù)（從至少被引20次的論文中選出）和在我們的數(shù)據(jù)庫里的178383篇論文中，至少有20引用的文章。一般來說，“睡美人”文獻(xiàn)最終比其他類型的論文獲得更多的引用。例如，25%的“睡美人”文獻(xiàn)被引用100次或100次以上，而在所有論文中這一比例不到11%。因此，“睡美人”文獻(xiàn)雖然得到認(rèn)可的時(shí)間較晚，但比其他論文更受歡迎。

我們還比較了三類“睡美人”文獻(xiàn)的總被引頻次。在“睡美人”文獻(xiàn)中，單調(diào)遞增的子類通常被引次數(shù)最多，其次是多峰，然后是單峰。

5 結(jié)束語

我們對大量的計(jì)算機(jī)科學(xué)出版物數(shù)據(jù)集進(jìn)行了實(shí)證分析，以理解和預(yù)測“睡美人”文獻(xiàn)。我們發(fā)現(xiàn)了跨越計(jì)算機(jī)科學(xué)的各個(gè)子領(lǐng)域的5000多個(gè)“睡美人”文獻(xiàn)，并根據(jù)他們醒來后的被引分布圖，以及他們被引的不同子領(lǐng)域的數(shù)量，描述了這些“睡美人”文獻(xiàn)的特征。后期，我們將繼續(xù)探究識別“睡美人”文獻(xiàn)的新方法，更大限度地挖掘“睡美人”文獻(xiàn)的價(jià)值。