• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      計(jì)算機(jī)科學(xué)中的“睡美人”文獻(xiàn)特征分析及識別方法研究

      2023-01-26 20:43:06臨清市新時(shí)代文明實(shí)踐服務(wù)中心郭艷霞
      內(nèi)江科技 2022年6期
      關(guān)鍵詞:睡美人子類計(jì)算機(jī)科學(xué)

      ◇臨清市新時(shí)代文明實(shí)踐服務(wù)中心 郭艷霞

      雖然絕大多數(shù)的科學(xué)出版物都是在發(fā)表后的最初幾年里被引用的,但也有一些有趣的論文—被稱為“睡美人”,在發(fā)表后的幾年里被引用的次數(shù)并不多,但隨后卻突然開始被大量引用。在這項(xiàng)工作中,我們關(guān)注在計(jì)算機(jī)科學(xué)領(lǐng)域的“睡美人”。我們選出了5000多名計(jì)算機(jī)科學(xué)中的“睡美人”,并根據(jù)他們的子領(lǐng)域和他們的引文概況來描述他們。我們還提出了一種早期識別“睡美人”的方法,該方法試圖根據(jù)出版物是否可能是“睡美人”文獻(xiàn)對其進(jìn)行分類。

      1 引言

      科學(xué)文獻(xiàn)是科技工作者交流的主要手段,科學(xué)引文的數(shù)量是衡量科學(xué)文獻(xiàn)的重要指標(biāo)??茖W(xué)引文隨時(shí)間變化,呈現(xiàn)一定得特性。絕大多數(shù)論文在發(fā)表后的最初幾年被引用,然后呈指數(shù)衰減,但很少有特別受歡迎的論文能隨著時(shí)間穩(wěn)步積累被引用。人們還觀察到另一類有趣的論文—那些在發(fā)表后幾年沒有被大量引用,但突然開始被引用的論文,通常被稱為“睡美人”文獻(xiàn)[1]。

      對論文的“晚喚醒”或“晚識別”現(xiàn)象早有研究。然而,幾乎所有之前的研究都集中在基礎(chǔ)科學(xué)的論文上,但在計(jì)算機(jī)科學(xué)領(lǐng)域?qū)Α八廊恕蔽墨I(xiàn)的研究非常稀少。

      在這項(xiàng)工作中,我們使用從微軟學(xué)術(shù)搜索抓取的大型論文數(shù)據(jù)集,我們識別和描述了計(jì)算機(jī)科學(xué)中超過5000個(gè)“睡美人”文獻(xiàn)。我們發(fā)現(xiàn)“睡美人”文獻(xiàn)中有各種子類,它們在各個(gè)方面的行為都不同。例如,雖然一些“睡美人”文獻(xiàn)在喚醒后被引用的次數(shù)繼續(xù)增加,但許多其他“睡美人”文獻(xiàn)在幾年后被引用,然后被引用次數(shù)再次下降。研究表明,“睡美人”文獻(xiàn)的許多特性取決于計(jì)算機(jī)科學(xué)領(lǐng)域的相關(guān)子領(lǐng)域。例如,大多數(shù)“睡美人”文獻(xiàn)來自的子字段“算法和理論”和“科學(xué)計(jì)算”。這些“睡美人”文獻(xiàn)中的許多在較長的時(shí)間后蘇醒(與其他子領(lǐng)域的“睡美人”文獻(xiàn)相比);然而,一旦他們醒來,他們經(jīng)常被計(jì)算機(jī)科學(xué)的其他子領(lǐng)域引用。相比之下,來自子領(lǐng)域“自然語言和語音”和“硬件和體系結(jié)構(gòu)學(xué)”通常只引用自他們自己的子領(lǐng)域。

      2 相關(guān)工作

      理解科學(xué)論文的引文增長動態(tài)一直是文獻(xiàn)計(jì)量學(xué)中一個(gè)有趣的問題[2]。在研究計(jì)算機(jī)科學(xué)論文的有效生命周期的引文動力學(xué)時(shí),一個(gè)廣義的觀察結(jié)果[3]揭示,在發(fā)表論文之后,在最初的兩到三年內(nèi),引文收集的頻率會有一個(gè)初始增長(增長階段),隨后是一個(gè)恒定的峰值,也就是說,進(jìn)入引用的頻率在接下來的一到兩年里變得停滯(飽和階段),然后,在文章的剩余生命周期中出現(xiàn)最終的下降(衰退階段),然后逐漸地,在某個(gè)點(diǎn)上觀察不到進(jìn)一步的活動(廢棄階段)。然而,我們本論文的動機(jī)源于Ruiz-Castillo[4]提出的一個(gè)基本問題與科學(xué)計(jì)量學(xué)相關(guān)的內(nèi)容如下:“不同科學(xué)的引文分布是非常相似還是相當(dāng)不同?”

      Chakraborty[3]在早期的工作中引入了計(jì)算機(jī)科學(xué)領(lǐng)域中科學(xué)文章的各種引用分布圖的想法。他們提出了一種新的引文增長模型來模擬這些不同的引文分布。在接下來的工作中[14],他們展示了如何使用這些概要信息來預(yù)測一篇文章在其發(fā)表時(shí)的未來被引數(shù)。其提出了一個(gè)兩階段的分層學(xué)習(xí)框架,在第一階段使用基于規(guī)則的方法將被試論文的引文輪廓映射到一個(gè)類別;然后在第二階段,對只屬于映射類別的論文進(jìn)行訓(xùn)練,預(yù)測該論文未來的被引次數(shù)。他們還通過分析論文的引文分布和上下文屬性(如關(guān)鍵詞、主題等)來量化論文(相對于領(lǐng)域)的跨學(xué)科性。

      關(guān)于論文“晚醒”或“晚認(rèn)”現(xiàn)象的研究很少。Garfield[5]是第一個(gè)提供此類論文例子的研究者。后來,Glanzel[6]估計(jì)了這種延遲識別,并揭示了這種現(xiàn)象的有趣特征。Raan首先創(chuàng)造了“睡美人”這個(gè)詞,指的是識別延遲的論文。李江等人[7]分析了分析了諾貝爾獎(jiǎng)得主論文的引文曲線,發(fā)現(xiàn)了識別延遲的文章。最近,杜建等人[8]引入了一種無參數(shù)方法來識別科學(xué)中的“睡美人”文獻(xiàn)。

      Li and Shi[9]提出了一套基于引證譜增長速度的新標(biāo)準(zhǔn)來從諾貝爾獎(jiǎng)得主的文章中檢測天才文章。然而,他們提出的標(biāo)準(zhǔn)也有一些特別的選擇。例如,該標(biāo)準(zhǔn)不適用于很少被引用或從未被引用的文章。一篇文章至少被引用9次,在發(fā)表10年和50年后至少被引用90次,分別滿足該準(zhǔn)則。

      Li等人[10]研究了四個(gè)特殊的案例,“睡美人”似乎被紡線傷到,進(jìn)入睡眠,然后被王子喚醒。他們還選擇了一些特別的標(biāo)準(zhǔn)來鑒別“睡美人”—某段時(shí)間(至少5年)平均被引用次數(shù)少于2次,而在接下來的4年里平均被引用次數(shù)超過20次。在另一項(xiàng)研究中,Li和Ye[11]提出了三個(gè)標(biāo)準(zhǔn)—基于平均水平的標(biāo)準(zhǔn)、基于四分位數(shù)的標(biāo)準(zhǔn)和無參數(shù)的標(biāo)準(zhǔn),以此來區(qū)分“睡美人”。van Raan[12]進(jìn)一步研究了“睡美人”的兩個(gè)重要性質(zhì):①“睡美人”的時(shí)間依賴分布、作者特征、期刊和領(lǐng)域;②“睡美人”的認(rèn)知環(huán)境。他研究的是物理、化學(xué)和工程科學(xué)論文,并觀察到一半的“睡美人”論文是面向應(yīng)用的。從上述討論中可以明顯看出,不同的研究使用了不同的標(biāo)準(zhǔn)來識別“睡美人”文獻(xiàn)。屈文建等人[13]對高被引文章引文曲線進(jìn)行了分析。

      3 “睡美人”的數(shù)據(jù)集和識別

      本節(jié)描述計(jì)算機(jī)科學(xué)論文的數(shù)據(jù)集,以及我們?nèi)绾螐脑摂?shù)據(jù)集識別“睡美人”文獻(xiàn)。

      3.1 計(jì)算機(jī)科學(xué)論文數(shù)據(jù)集

      我們使用了一個(gè)從微軟學(xué)術(shù)機(jī)構(gòu)抓取的計(jì)算機(jī)科學(xué)論文的大數(shù)據(jù)集搜索(MAS)。具體來說,我們收集了截至2012年MAS檢索的所有計(jì)算機(jī)科學(xué)領(lǐng)域發(fā)表的論文。該數(shù)據(jù)集包含200多萬篇論文的數(shù)據(jù)。對于每一篇論文,數(shù)據(jù)集包含論文的詳細(xì)信息(例如,標(biāo)題、作者、發(fā)表地點(diǎn)和年份、關(guān)鍵詞),以及本文引用的其他論文的名稱。此外,每篇論文都映射到計(jì)算機(jī)科學(xué)的一個(gè)或多個(gè)子領(lǐng)域。計(jì)算機(jī)科學(xué)共有24個(gè)子領(lǐng)域,如“算法與理論”、“科學(xué)計(jì)算”、“人工智能”、“網(wǎng)絡(luò)與通信”等,每篇論文都會提到一個(gè)或多個(gè)子領(lǐng)域。

      在這項(xiàng)研究中,我們關(guān)注的是1950年至2011年期間的引文,對此我們有近乎完整的數(shù)據(jù)。此外,我們決定把重點(diǎn)放在受歡迎的論文上,只考慮了那些至少被引用20次的178383篇論文(到2011年為止)。

      3.2 標(biāo)準(zhǔn)化引文分布圖的計(jì)算

      3.3 識別“睡美人”文獻(xiàn)

      接下來,我們從論文的規(guī)范化引用分布圖中識別“睡美人”文獻(xiàn)。Raan于2004年提出了識別“睡美人”文獻(xiàn)的三個(gè)維度:①睡眠期間的持續(xù)時(shí)間;②睡眠深度,即睡眠期間的平均被引次數(shù);③喚醒強(qiáng)度,即睡眠后4年的累計(jì)被引次數(shù)。在上述三個(gè)維度中,我們只考慮前兩個(gè)維度來標(biāo)識“睡美人”文獻(xiàn)。我們不考慮第三個(gè)維度,因?yàn)椤八廊恕蔽墨I(xiàn)在覺醒后的年份中可能有非常不同的引文分布圖。

      具體來說,如果一篇論文在其發(fā)表后的前10年,其規(guī)范化引文分布圖中的所有數(shù)據(jù)點(diǎn)都小于0.20,我們就認(rèn)為該論文是一篇“睡美人”文獻(xiàn)。換句話說,我們關(guān)注的是睡眠期至少為10年的論文,睡眠期的平均年被引次數(shù)最多為其峰值的20%。請注意,我們從過去的一系列工作中調(diào)整了這些標(biāo)準(zhǔn)。通過這個(gè)過程,我們將5086篇論文確定為“睡美人”文獻(xiàn)(占我們數(shù)據(jù)集中所有論文的2.85%,這些論文至少被引用20次)。

      值得一提的是,對于大多數(shù)情況,我們實(shí)際上考慮了一個(gè)靈活的標(biāo)準(zhǔn)。例如,前10年的標(biāo)準(zhǔn)化引用計(jì)數(shù)被認(rèn)為是。發(fā)布后的時(shí)間窗口為年。標(biāo)準(zhǔn)中的靈活性最終產(chǎn)生了與上面所述差不多的一組“睡美人”文獻(xiàn)。

      有人可能會反對我們的標(biāo)準(zhǔn)化程序,如果一篇論文從發(fā)表之日起就得到越來越多的關(guān)注,隨后又被多次引用,那么在最初幾年的比例就會變得相對較小,通過我們的方法,它可能會被誤認(rèn)為是“睡美人”文獻(xiàn)(這類論文通常被稱為“常青”論文,而不是“睡美人”)。為了交叉驗(yàn)證已確定的5086篇“睡美人”文獻(xiàn)中是否存在此類論文,我們進(jìn)一步測量了每個(gè)已確定的“睡美人”文獻(xiàn)在其休眠時(shí)間(發(fā)表后的前10年)的原始引用計(jì)數(shù)。我們沒有發(fā)現(xiàn)任何“睡美人”文獻(xiàn)在睡眠時(shí)間被引用超過50次。因此,我們得出結(jié)論,我們的歸一化方法沒有錯(cuò)誤地將普通文獻(xiàn)甚至是常青的文章檢測為“睡美人”文獻(xiàn)。

      4 “睡美人”文獻(xiàn)特征描述

      在本部分中,我們將根據(jù)前面所述的方法來描述“睡美人”文獻(xiàn)的特征。

      4.1 “睡美人”文獻(xiàn)與計(jì)算機(jī)科學(xué)子領(lǐng)域關(guān)系分析

      如前所述,數(shù)據(jù)集中的每篇論文都映射到的一個(gè)或多個(gè)子字段計(jì)算機(jī)科學(xué)。我們統(tǒng)計(jì)了識別的5086個(gè)“睡美人”文獻(xiàn)在不同子字段中的分布情況。在“睡美人”文獻(xiàn)中,“算法與理論”和“科學(xué)計(jì)算”的子領(lǐng)域占50%以上,而“人工智能”和“科學(xué)計(jì)算”的子領(lǐng)域占50%以上,“自然語言和言語”占了另外22%。我們還注意到,對于“睡美人”文獻(xiàn)的三個(gè)子類中的每個(gè)子類,跨不同子字段的分布幾乎保持相同。

      我們統(tǒng)計(jì)了某一子領(lǐng)域(包括在我們的數(shù)據(jù)集中)的所有論文中有多少部分是“睡美人”文獻(xiàn)。同樣,來自“算法與理論”和“科學(xué)計(jì)算”子領(lǐng)域有更高比例的論文成為“睡美人”文獻(xiàn),這可能是因?yàn)檫@些論文貢獻(xiàn)的算法/方法后來在計(jì)算機(jī)科學(xué)的不同子領(lǐng)域中得到了應(yīng)用。有趣的是,盡管“信息檢索”這一子領(lǐng)域的“睡美人”文獻(xiàn)比許多其他子領(lǐng)域少,但這一子領(lǐng)域的論文成為“睡美人”文獻(xiàn)的比例高于許多其他子領(lǐng)域。

      4.2 基于喚醒后引文分布圖的“睡美人”文獻(xiàn)類型分析

      我們首先檢查不同“睡美人”文獻(xiàn)的引用分布圖在它們被喚醒后看起來是否相似或不同。為此,我們應(yīng)用以下啟發(fā)式方法檢測“睡美人”的引文分布圖中的峰值:①高峰應(yīng)該是一個(gè)局部最大值,兩側(cè)的高度比最多(或等于)小峰高;②峰值的高度應(yīng)該是至少70%的全球最大峰高;③連續(xù)兩個(gè)峰應(yīng)該相隔2年以上,否則,他們被視為一個(gè)峰值。有趣的是,我們根據(jù)喚醒后引文分布圖的峰值數(shù)量觀察到“睡美人”文獻(xiàn)的三個(gè)不同子類。

      (1)單峰特征。這些“睡美人”文獻(xiàn)在蘇醒后逐漸積累被引次數(shù),導(dǎo)致被引輪廓出現(xiàn)峰值,隨后被引次數(shù)下降。這個(gè)子類占所有已識別“睡美人”文獻(xiàn)的43.8%。

      (2)多峰特征。這些“睡美人”文獻(xiàn)的引文輪廓有多個(gè)峰,峰間間隔為幾年(占全部“睡美人”文獻(xiàn)的37.9%)。

      (3)這些“睡美人”文獻(xiàn)的被引分布隨時(shí)間持續(xù)上升,至少持續(xù)到2011年(直到我們有完整的被引數(shù)據(jù)為止)。這個(gè)子類包含18.3%的“睡美人”文獻(xiàn)。

      4.3 “睡美人”文獻(xiàn)最終被引用的次數(shù)與其他類型的論文比較分析

      我們比較了“睡美人”文獻(xiàn)的總被引次數(shù)(從至少被引20次的論文中選出)和在我們的數(shù)據(jù)庫里的178383篇論文中,至少有20引用的文章。一般來說,“睡美人”文獻(xiàn)最終比其他類型的論文獲得更多的引用。例如,25%的“睡美人”文獻(xiàn)被引用100次或100次以上,而在所有論文中這一比例不到11%。因此,“睡美人”文獻(xiàn)雖然得到認(rèn)可的時(shí)間較晚,但比其他論文更受歡迎。

      我們還比較了三類“睡美人”文獻(xiàn)的總被引頻次。在“睡美人”文獻(xiàn)中,單調(diào)遞增的子類通常被引次數(shù)最多,其次是多峰,然后是單峰。

      5 結(jié)束語

      我們對大量的計(jì)算機(jī)科學(xué)出版物數(shù)據(jù)集進(jìn)行了實(shí)證分析,以理解和預(yù)測“睡美人”文獻(xiàn)。我們發(fā)現(xiàn)了跨越計(jì)算機(jī)科學(xué)的各個(gè)子領(lǐng)域的5000多個(gè)“睡美人”文獻(xiàn),并根據(jù)他們醒來后的被引分布圖,以及他們被引的不同子領(lǐng)域的數(shù)量,描述了這些“睡美人”文獻(xiàn)的特征。后期,我們將繼續(xù)探究識別“睡美人”文獻(xiàn)的新方法,更大限度地挖掘“睡美人”文獻(xiàn)的價(jià)值。

      猜你喜歡
      睡美人子類計(jì)算機(jī)科學(xué)
      《睡美人》
      工會博覽(2023年3期)2023-04-06 15:52:34
      水中睡美人
      卷入Hohlov算子的某解析雙單葉函數(shù)子類的系數(shù)估計(jì)
      探討計(jì)算機(jī)科學(xué)與技術(shù)跨越式發(fā)展
      睡美人
      關(guān)于對稱共軛點(diǎn)的倒星象函數(shù)某些子類的系數(shù)估計(jì)
      淺談計(jì)算機(jī)科學(xué)與技術(shù)的現(xiàn)代化運(yùn)用
      電子制作(2017年2期)2017-05-17 03:55:01
      重慶第二師范學(xué)院計(jì)算機(jī)科學(xué)與技術(shù)專業(yè)簡介
      淺談在計(jì)算機(jī)科學(xué)中的創(chuàng)新精神
      河南科技(2014年23期)2014-02-27 14:19:15
      《睡美人怕什么》等
      明光市| 怀柔区| 当阳市| 肇州县| 林州市| 红桥区| 桦川县| 连平县| 娱乐| 大城县| 克东县| 灌云县| 肥东县| 永城市| 靖边县| 宝鸡市| 甘泉县| 鄱阳县| 祁门县| 浪卡子县| 五指山市| 西和县| 潮安县| 苍梧县| 凤山县| 雷州市| 封丘县| 京山县| 泌阳县| 安远县| 尼勒克县| 新邵县| 确山县| 枝江市| 六枝特区| 湘潭市| 黔西县| 梓潼县| 乡城县| 拉孜县| 法库县|