• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      通往AI時代的科研文獻數(shù)據(jù)集:特征規(guī)律與發(fā)展方向

      2023-10-28 13:40:38張彤陽王楚涵俞超徐健
      圖書情報知識 2023年5期
      關(guān)鍵詞:消歧學(xué)術(shù)文獻

      張彤陽 王楚涵 俞超 徐健

      1 引言

      隨著數(shù)字化信息技術(shù)的迅速發(fā)展,日益增長的可用數(shù)據(jù)為各領(lǐng)域的科學(xué)研究帶來了挑戰(zhàn)與機遇[1]。白春禮院士在呼吁推動科學(xué)大數(shù)據(jù)國家發(fā)展戰(zhàn)略時,提出系統(tǒng)分析大數(shù)據(jù)能夠掌握管制信息的權(quán)力,促進對科學(xué)新現(xiàn)象的發(fā)現(xiàn)與對科學(xué)新規(guī)律的掌握[2]。而運用數(shù)學(xué)方法量化科學(xué)活動大數(shù)據(jù)中各變量,揭示科學(xué)發(fā)展進程、指導(dǎo)制定科學(xué)管理決策的科學(xué)計量學(xué)研究[3]是發(fā)揮出大數(shù)據(jù)價值的重要應(yīng)用方向。數(shù)據(jù)集作為大數(shù)據(jù)的管理基本單位,其多元價值在滿足科學(xué)計量學(xué)研究需求中的重要作用需要被全面理解。

      數(shù)據(jù)集(dataset)是指人類在不同社會活動中收集、整理和加工后的有一定范圍、可形成完整描述的結(jié)構(gòu)化數(shù)據(jù)集合[4]。隨著數(shù)據(jù)集的不斷完善和發(fā)展,科學(xué)計量學(xué)研究也得到了更好的支持。由于數(shù)據(jù)集是特定領(lǐng)域綜合數(shù)據(jù)的集成[5],使用正確的數(shù)據(jù)集可以提升數(shù)據(jù)選擇的準確性、數(shù)據(jù)獲取的效率、適應(yīng)各種科學(xué)計量方法與指標在大樣本數(shù)據(jù)中的使用,從而更加全面深刻地評價研究對象的科學(xué)活動規(guī)律。近年來,用于支撐科學(xué)計量學(xué)各階段量化分析和模型構(gòu)建的各類數(shù)據(jù)集大量涌現(xiàn)。隨著功能的不斷改進完善,其可用性與受重視程度也在日益增高[1],已成為科學(xué)研究過程中的重要支撐條件。

      人工智能(Artificial Intelligence, AI)是一門研究如何利用自動化系統(tǒng)執(zhí)行人類智能任務(wù)的新興技術(shù)科學(xué)[6]。自AI繁榮發(fā)展以來,人類智力與計算機技術(shù)相結(jié)合的算法模型實現(xiàn)了突破性地發(fā)展,機器學(xué)習(xí)、專家系統(tǒng)、自然語言處理等技術(shù)迭代興起。其中,大數(shù)據(jù)在AI技術(shù)蓬勃發(fā)展過程中釋放著基礎(chǔ)支撐價值,是推動人工智能系統(tǒng)性能提升的核心因素。隨著海量數(shù)據(jù)的加速聚集,新一代大數(shù)據(jù)技術(shù)的快速演進,構(gòu)筑在大數(shù)據(jù)之上的人工智能也由此汲取到發(fā)展進步的內(nèi)驅(qū)力量,而人工智能服務(wù)在轉(zhuǎn)型升級的歷程中也日益驅(qū)動著數(shù)據(jù)集發(fā)展創(chuàng)新的全過程,催生出數(shù)據(jù)集的新價值、新特征與新服務(wù)模式。這引導(dǎo)我們高瞻遠矚,在AI背景下進一步提升對數(shù)據(jù)集最新發(fā)展現(xiàn)狀的認知,為數(shù)字學(xué)術(shù)基礎(chǔ)設(shè)施的發(fā)展融入人工智能的新興探測視角,為未來數(shù)據(jù)集的優(yōu)化升級探索新的路徑。

      科學(xué)計量研究的開展離不開高質(zhì)量的數(shù)據(jù)作為支撐,而人工智能在賦能數(shù)據(jù)集智能升級的過程中也進一步推動著科學(xué)計量研究的發(fā)展。本文通過采集和分析近五年科學(xué)計量學(xué)相關(guān)科研文獻中的數(shù)據(jù)集實際使用記錄,首先對數(shù)據(jù)集的被使用概況做整體統(tǒng)計分析,其次測定不同類型數(shù)據(jù)集的使用情況,并針對典型數(shù)據(jù)集具體測度分析相關(guān)功能指標,最后從學(xué)科視角出發(fā),展望AI技術(shù)支撐下未來數(shù)據(jù)集的建設(shè)與應(yīng)用方向。本文有助于理解數(shù)據(jù)集在科學(xué)計量研究過程中的重要作用,為開展科學(xué)計量研究提供數(shù)據(jù)集的選用依據(jù),為未來數(shù)據(jù)集發(fā)展方向提供指引。

      2 數(shù)據(jù)來源及數(shù)據(jù)集使用概況

      2.1 數(shù)據(jù)來源

      本文選取期刊《科學(xué)計量學(xué)》(Scientometrics)[7]作為數(shù)據(jù)源, 考慮到此期刊具有顯著的學(xué)科權(quán)威性,其收錄的論文能夠在一定程度上反映國際科學(xué)計量學(xué)的發(fā)展狀況[8]。作者于2021年1月27日在WoS(Web of Science)[9]數(shù)據(jù)庫中以出版物名稱為線索進行信息檢索,出版時間選擇2016至2020年,最終檢索到文獻2,009篇。作者逐一閱讀文獻正文中與研究數(shù)據(jù)收集相關(guān)的內(nèi)容,并人工識別、記錄文獻所使用數(shù)據(jù)集的名稱。其中,1,522篇(占比約75.8%)論文所使用的數(shù)據(jù)集來源于公開可獲得數(shù)據(jù)集,被選為研究的分析樣本。

      2.2 數(shù)據(jù)集使用概況

      2016至2020年Scientometrics發(fā)表的論文總共用到了311種數(shù)據(jù)集,且數(shù)據(jù)集使用頻次達到2,089次。由圖1可見,以特定數(shù)據(jù)集為基礎(chǔ)數(shù)據(jù)來源的發(fā)文量大體呈低速增長態(tài)勢。特別地,2020年的發(fā)文量較前一年增長87%,且每年平均每篇文章使用的數(shù)據(jù)集數(shù)量維持在1以上,每一年使用了數(shù)據(jù)集的文章數(shù)量占當年總發(fā)文量的百分比維持在60%以上。上述數(shù)據(jù)不僅從文獻數(shù)量上體現(xiàn)數(shù)據(jù)集在科學(xué)計量學(xué)領(lǐng)域的重要性在增強,也反映出近五年同一篇論文交叉使用多個數(shù)據(jù)集的研究現(xiàn)狀。

      圖1 不同年份發(fā)文量、使用數(shù)據(jù)集的文章數(shù)以及篇均數(shù)據(jù)集使用種數(shù)Fig.1 The Number of Articles Published in Different Years, the Number of Articles Using the Data Sets in Different Years, and the Average Number of Data Sets Used in Per Article in Different Years

      為對AI相關(guān)研究在科學(xué)計量領(lǐng)域的研究態(tài)勢進行概括分析,本文進一步采用“主題”字段對2016至2020年間Scientometrics發(fā)表的所有AI相關(guān)文獻進行檢索。依據(jù)AI在計算機以及計量領(lǐng)域應(yīng)用的相關(guān)核心技術(shù)[10-11],采用“artificial intelligence” “AI”“natural language processing”“machine learning”等檢索詞在“主題”字段下進行檢索。檢索式形如:TS=(檢索詞名稱),各個檢索詞之間用邏輯或“OR”連接。由圖1可知,人工智能相關(guān)的文獻從2017年開始初步增長。由此看出,隨著時間的遷移,科學(xué)計量研究與人工智能技術(shù)之間的關(guān)系日益緊密。

      3 數(shù)據(jù)集使用熱度分析

      3.1 數(shù)據(jù)集的使用頻次與文獻數(shù)量概覽

      本文首先針對數(shù)據(jù)集的被使用頻次與期刊論文容量的關(guān)聯(lián)關(guān)系展開分析研究。為了排除極端值影響,本文剔除了部分被使用次數(shù)小于2以及數(shù)量級在8以上的數(shù)據(jù)集,最終挑選出有代表性的47種學(xué)術(shù)文獻類數(shù)據(jù)集為研究對象。當使用頻次過大的數(shù)據(jù)集與其他個體被放在同一尺度下進行比較時,呈現(xiàn)的畫面是除此之外的其他個體都堆積在局部空間中而無法被清晰辨識。因此,為了盡可能在有限空間里顯示出不同數(shù)據(jù)集之間的差異,這里去掉了原圖中距離其它數(shù)據(jù)集較遠的WoS[9]與Scopus[12]。圖2顯示,數(shù)據(jù)集的被使用頻次與所包含文獻數(shù)量散點圖的趨勢線(圖中虛線)斜率為正數(shù),存在一定的正相關(guān)性特征。這表示數(shù)據(jù)量作為大數(shù)據(jù)的關(guān)鍵屬性之一,是科學(xué)計量學(xué)研究選用數(shù)據(jù)集的重要考量因素。

      圖2 學(xué)術(shù)文獻類數(shù)據(jù)集被使用頻次-文獻數(shù)量氣泡圖Fig.2 Usage Frequency-Article Volume Bubble Diagram of Academic Literature Data Sets

      圖2右上部主要以數(shù)據(jù)規(guī)模大且使用量高的數(shù)據(jù)集為主,而左上部以數(shù)據(jù)規(guī)模大但使用量低的數(shù)據(jù)集為主。由圖看出,即使是數(shù)據(jù)規(guī)模大的數(shù)據(jù)集,其使用頻次依然存在明顯差異。數(shù)據(jù)規(guī)模小且使用量低的數(shù)據(jù)集分布于空間左下方,例如ACL Anthology[13]、PsycINFO[14]等。這部分數(shù)據(jù)集雖然因為在學(xué)科覆蓋范圍、文獻數(shù)量方面存有局限性而不被廣泛使用,但“術(shù)業(yè)有專攻”,他們常在特定領(lǐng)域的科學(xué)計量研究中與主流的綜合學(xué)科類數(shù)據(jù)集搭配使用,對特定學(xué)科領(lǐng)域文獻起到補充作用??臻g右下方少有數(shù)據(jù)集分布,這表明科學(xué)計量研究更傾向于使用數(shù)據(jù)規(guī)模大的數(shù)據(jù)集。

      圖2中文獻數(shù)量大于平均數(shù)( ≈3.98*106篇)的數(shù)據(jù)集共26種,其中使用頻次大于平均數(shù)( ≈5.78次)的數(shù)據(jù)集占61%。為了探討在數(shù)據(jù)容量都偏大的情況下可能影響數(shù)據(jù)集被選用的特征項,這里比較這26種規(guī)模較大的數(shù)據(jù)集中,使用頻次較多(高于平均數(shù))與較少(低于平均數(shù))的數(shù)據(jù)集在各方面的特征表現(xiàn)差異。參考相關(guān)研究[15]常作比較的數(shù)據(jù)集特征以及科學(xué)計量研究在選擇數(shù)據(jù)源時??紤]的數(shù)據(jù)集功能,本文選取“支持完整數(shù)據(jù)集下載”“覆蓋多種學(xué)科”“含作者消歧功能”“含引文信息”作為特征項對大規(guī)模數(shù)據(jù)集進行比較。

      由圖3可知,大規(guī)模數(shù)據(jù)集中使用頻次較大的一方在各特征項中均表現(xiàn)出了優(yōu)勢。以上各方面優(yōu)勢特征是科學(xué)計量研究在選用數(shù)據(jù)集時的重要考量因素,也成就了大規(guī)模數(shù)據(jù)集的使用熱度高點。

      3.2 不同類型數(shù)據(jù)集使用熱度排名

      本文按數(shù)據(jù)的信息內(nèi)容類型對2016至2020年Scientometrics論文的數(shù)據(jù)集進行人工分類標記,用于對比不同類型數(shù)據(jù)集的使用情況。表1為不同類型數(shù)據(jù)集在Scientometrics論文中的使用頻次排名情況(僅展示前五)。

      表1 不同類型數(shù)據(jù)集使用頻次排名Table 1 Usage Frequency Ranking List of Different Categories of Data Sets

      經(jīng)統(tǒng)計,Scientometrics2016至2020年所發(fā)表論文共使用數(shù)據(jù)集311種。本文按信息內(nèi)容類型將數(shù)據(jù)集分類為學(xué)術(shù)文獻類數(shù)據(jù)集、百科工具類數(shù)據(jù)集、專利類數(shù)據(jù)集以及社交類數(shù)據(jù)集。

      3.2.1 學(xué)術(shù)文獻類數(shù)據(jù)集

      學(xué)術(shù)文獻類數(shù)據(jù)集是保存學(xué)術(shù)論文及其元數(shù)據(jù)的數(shù)據(jù)集合,具有顯著的學(xué)術(shù)性。學(xué)術(shù)文獻類數(shù)據(jù)集的使用頻次約占總頻次的80%,數(shù)量約占總量的48%。因其直接面向科學(xué)研究成果保存數(shù)據(jù),集合中可以采集到科學(xué)本身可以被計量研究的各種基本要素,所以是使用量最高的一種數(shù)據(jù)集。

      在使用頻次較高的學(xué)術(shù)文獻類數(shù)據(jù)集中,數(shù)據(jù)容量大、覆蓋學(xué)科多的綜合性數(shù)據(jù)集WoS[9]與Scopus[12]排名最為靠前。綜合性數(shù)據(jù)集常對學(xué)術(shù)資源進行精準鑒別、篩選與學(xué)科定位,為在海量文獻數(shù)據(jù)中梳理不同學(xué)科之間錯綜復(fù)雜的關(guān)系提供了便利。Woolcott[34]等利用Scopus[12]全面的學(xué)科分類體系劃分教育學(xué)與其他學(xué)科文獻的引用次序,歸納出教育學(xué)在綜合學(xué)科體系中發(fā)揮著知識動員的作用。此外,大型數(shù)據(jù)集中包含的各項指標常被廣泛應(yīng)用于科研成果評價[35]。WoS[9]中包含的影響因子(Impactor Factor, IF)數(shù)據(jù)作為評價學(xué)術(shù)成果影響力的國際通用指標,不僅能有效評價期刊的顯示度與有用性,也能反映論文的學(xué)術(shù)水平,是科研評價的強力工具。

      隨著數(shù)據(jù)挖掘與社會網(wǎng)絡(luò)分析技術(shù)的發(fā)展,能夠進行文獻內(nèi)容分析與關(guān)聯(lián)揭示的新一代文獻數(shù)據(jù)集也在不斷發(fā)展。他們旨在提供一個系統(tǒng)的建模方法,探測社會網(wǎng)絡(luò)的各種特征,以深入了解由作者、論文、期刊等元素所組成的大型異構(gòu)網(wǎng)絡(luò),所提供的功能也更為豐富。例如,DataBase systems and Logic Programming(DBLP)[18]提供文獻元數(shù)據(jù)之間多種類型的關(guān)聯(lián)關(guān)系,包括作者協(xié)作關(guān)系、引用關(guān)系等[36];ArnetMiner Academic Social Network(AMiner)[37]提供了許多以研究人員為中心的功能,包括作者社會影響力分析、協(xié)作推薦、社區(qū)演變等[38]。

      學(xué)術(shù)文獻類數(shù)據(jù)集不僅是展示科學(xué)研究成果的重要載體,也是評價科研成果質(zhì)量的首要工具,更是深層次研究成果的內(nèi)容及關(guān)聯(lián)關(guān)系的基石,對用戶學(xué)習(xí)領(lǐng)域知識、了解學(xué)術(shù)動態(tài)、開啟科研思路具有重要意義。

      3.2.2 工具資料類數(shù)據(jù)集

      工具資料類數(shù)據(jù)集是保存原始客觀事實數(shù)據(jù)的集合,包括網(wǎng)絡(luò)百科全書、年鑒、排名記錄等類型。工具資料類數(shù)據(jù)集的使用頻次約占總頻次的10%,數(shù)量約占總量的41%,二者在所有類型數(shù)據(jù)集中均位居第二。他們提供的信息資源內(nèi)容貼近客觀事實,憑借其高度的權(quán)威性、實用性和開放性而廣受歡迎。

      政府和企業(yè)在做科研項目資金分配時,準確全面地衡量被評判對象的科研水平對榮譽與資金分配至關(guān)重要,這同時也是科學(xué)計量研究的焦點問題。因此,面向期刊、機構(gòu)與國家層面的排名統(tǒng)計類資料型數(shù)據(jù)集也備受關(guān)注。例如,Hugo Horta[39]利用SIR[29]中各國家科研實力在不同領(lǐng)域的排名數(shù)據(jù),分析香港與新加坡在學(xué)術(shù)和研究上的發(fā)展趨勢。Feiheng Luo[40]結(jié)合QS[32]機構(gòu)排名與 WoS[9]引文數(shù)據(jù)探討作者單位的名譽對引文數(shù)量造成的影響。

      工具資料類數(shù)據(jù)集提供的信息內(nèi)容非體系完整的科研成果作品,而是分散且碎片化的信息片段。我們可將其中靈活度高且適應(yīng)性強的信息片段作為輔助工具與傳統(tǒng)文獻數(shù)據(jù)集配合使用,保證計量體系的完整性與豐富性。

      3.2.3 專利文獻類數(shù)據(jù)集

      專利類數(shù)據(jù)集是儲存專利數(shù)據(jù)的集合,大多對專利的法律狀態(tài)、同族信息、引用記錄等字段進行了深度加工,以便用戶開展多維度的專利分析與情報挖掘工作。專利文獻類數(shù)據(jù)集的使用頻次與數(shù)量均占總體的7%左右。雖然使用量相較于其他數(shù)據(jù)集并不突出,但它在發(fā)明技術(shù)創(chuàng)造成果方面提供的強有力的信息支撐作用不可小視。

      地域覆蓋范圍較廣的專利數(shù)據(jù)庫(e.g., USPTO[24]、WIPO Innovation Index、PATSTAT等)已成為科學(xué)計量學(xué)研究的主要專利檢索工具。該類數(shù)據(jù)集常被用于技術(shù)發(fā)展方向預(yù)測與技術(shù)發(fā)明者的特征研究,或與學(xué)術(shù)產(chǎn)出相關(guān)的統(tǒng)計數(shù)據(jù)關(guān)聯(lián)來探究學(xué)術(shù)界與工業(yè)界的合作推動關(guān)系。例如,Wang[41]等從SIPO[27]中獲取高校和產(chǎn)業(yè)組織的合作記錄后,再結(jié)合高校研究績效的統(tǒng)計數(shù)據(jù)探討產(chǎn)學(xué)研合作對高校教學(xué)的推進作用。

      專利類數(shù)據(jù)集在經(jīng)過對專利信息數(shù)據(jù)的深度挖掘后使用戶能夠便捷全面地洞悉每一項技術(shù)發(fā)明的詳細信息?;趯@臄?shù)據(jù)及時跟蹤技術(shù)的前沿動態(tài),或與學(xué)術(shù)統(tǒng)計數(shù)據(jù)連接,認識學(xué)術(shù)理論研究與應(yīng)用技術(shù)的互動關(guān)系,可幫助科學(xué)計量研究獲取技術(shù)情報、分析科學(xué)技術(shù)發(fā)展的態(tài)勢和規(guī)律。

      3.2.4 社交類數(shù)據(jù)集

      社交類數(shù)據(jù)集是保存用戶社交記錄的數(shù)據(jù)集合,包含用戶對科研成果的同行評議記錄、用戶之間的社交記錄或用戶的其他行為軌跡記錄,具有大眾性和社交性。社交類數(shù)據(jù)集的使用頻次約占總頻次的2%,數(shù)量約占總數(shù)的5%。雖然社交類數(shù)據(jù)集不能直接為科學(xué)計量研究提供完整的學(xué)術(shù)文獻數(shù)據(jù),使用量相對較少,但它為科學(xué)計量研究提供了文獻以外的、以人為中心的計量信息來源,其重要性不可忽略。

      社交類數(shù)據(jù)集提供了作者與同行自由分享與交流科研成果的記錄。因此,許多研究直接通過這類數(shù)據(jù)集獲取文章在社交網(wǎng)絡(luò)中的流通情況,從而衡量文章影響力、豐富文章的評價內(nèi)涵。例如,Buttlier[42]從Mendeley[20]的保存記錄中獲悉文章的受歡迎程度,進而評價研究人員的學(xué)術(shù)水平。此外,基于同行評議記錄剖析文章被負面評價的原因,為提高科研產(chǎn)出質(zhì)量提供建議也是當前研究的焦點問題。例如,Horbach[43]基于Retraction Watch[22]獲取文章撤稿記錄,并探索問題文章被滯后發(fā)現(xiàn)的原因。

      隨著科學(xué)交流形式的多樣化發(fā)展,傳統(tǒng)基于數(shù)據(jù)引證的淺層學(xué)術(shù)評估已不能充分捕捉學(xué)術(shù)交流的動態(tài)特性。為綜合計算科研成果在不同信息源影響力提供不同評價指標的社交類數(shù)據(jù)集對影響力的評估場景進行了有益補充,提升了影響力評估的可信度。

      4 數(shù)據(jù)集特征指標分析

      考慮到學(xué)術(shù)文獻類數(shù)據(jù)的使用量遠大于其他類型的數(shù)據(jù)集,本文以該類型數(shù)據(jù)集為比較對象,對比使用頻次在學(xué)術(shù)文獻類數(shù)據(jù)集中居于前8位的學(xué)術(shù)文獻類數(shù)據(jù)集特征。

      由表2可以看到, 1993年至今科學(xué)文獻數(shù)據(jù)集的發(fā)展顯著,得益于大數(shù)據(jù)收集、實體抽取、機器學(xué)習(xí)等技術(shù)為數(shù)據(jù)集深度建設(shè)提供的強大支撐。總體來看,大多數(shù)據(jù)集在語言覆蓋范圍、含引文信息、實體抽取、作者消歧、支持完整數(shù)據(jù)集下載方面體現(xiàn)出優(yōu)勢。其中,非綜合類專業(yè)學(xué)科數(shù)據(jù)集所收錄文獻內(nèi)容偏向計算機科學(xué)與醫(yī)學(xué)。計算機科學(xué)與醫(yī)學(xué)是科學(xué)計量學(xué)重點關(guān)注的學(xué)科領(lǐng)域。

      表2 典型數(shù)據(jù)集特征指標對比Table 2 Comparing Characteristic Indexes of Typical Data Sets

      4.1 姓名消歧

      作者姓名消歧(Author Name Disambiguation,AND)旨在對姓名相同的不同作者實例及其與發(fā)表文章的對應(yīng)關(guān)系進行識別與區(qū)分[51]。在本次調(diào)研的學(xué)術(shù)文獻類數(shù)據(jù)集中,約27%的數(shù)據(jù)集具有作者姓名消歧功能, 且常用數(shù)據(jù)集普遍包含作者姓名消歧結(jié)果。作為數(shù)據(jù)集建設(shè)過程中數(shù)據(jù)清洗的關(guān)鍵環(huán)節(jié),作者姓名消歧問題的典型解決方法主要有如下三種類型:

      (1)基于人工匹配的姓名消歧

      基于人工匹配的姓名消歧通過從互聯(lián)網(wǎng)上收集作者相關(guān)信息來手動匹配文章及其對應(yīng)的作者,且常應(yīng)用于規(guī)模較小的自建數(shù)據(jù)集中。雖然這種方法保證了較高的消歧準確性,但是需要投入大量的人力來收集和編碼數(shù)據(jù),這對于龐大的數(shù)據(jù)集來說是不切實際的。

      (2)基于作者注冊平臺的姓名消歧

      基于作者注冊平臺的消歧依靠第三方公共注冊平臺提供的作者身份消歧服務(wù)解決AND問題。用戶若點開平臺提供的作者姓名超鏈接,往往可以直接跳轉(zhuǎn)到作者個人成果主頁,一站式了解研究人員的科研動向。通過成果主頁,作者可以在數(shù)據(jù)集自動聚合而成的學(xué)術(shù)產(chǎn)出內(nèi)容基礎(chǔ)上認領(lǐng)、補充、修訂、展示個人學(xué)術(shù)成果[52-53]。除了引入全球應(yīng)用最廣泛的科研人員身份識別碼ORCID ID(Open Researcher and Contributor ID)之外,許多數(shù)據(jù)集也建立了專屬于自己的姓名標識符,例如WoS Researcher ID、MAG Author ID、CNKI PCNI等。雖然基于作者注冊平臺的姓名消歧準確度高且成本低,但不足之處在于注冊平臺無法完全覆蓋全部的科研人員。

      (3)基于機器學(xué)習(xí)的姓名消歧

      基于機器學(xué)習(xí)的姓名消歧通過全局衡量作者實例相關(guān)的特征之間的相關(guān)程度對相同作者名是否指向同一位作者進行自動化評估。對比前兩種方法,該方法能有效規(guī)避部分科研人員無法被覆蓋的缺點,對于大規(guī)模數(shù)據(jù)集也適用。典型數(shù)據(jù)集AMiner[37]通過全局度量相同作者名下論文中不同實體之間的相關(guān)性來衡量論文與作者名的相關(guān)性實現(xiàn)消歧。對于具有相同作者名稱的不同論文,DBLP[18]根據(jù)不同論文中的其他作者是否處于同一學(xué)術(shù)合作網(wǎng)絡(luò)判斷相同作者名稱是否指向同一作者。

      作者姓名消歧是數(shù)據(jù)集建設(shè)的基礎(chǔ)問題。消歧結(jié)果越準確,作者與其他實體之間的關(guān)聯(lián)越正確[54],這對學(xué)者的學(xué)術(shù)水平評估、學(xué)術(shù)成果追溯、職業(yè)流動、科研合作、項目資助等科學(xué)計量相關(guān)研究具有重要意義。

      4.2 實體抽取特征

      實體抽?。‥ntity Extraction),又稱為命名實體識別(Named Entity Extraction),指從文本數(shù)據(jù)中抽取預(yù)先定義的實體信息[55]。實體關(guān)系抽取則是對實體之間的語義關(guān)系進行自動識別[56]。初步分析數(shù)據(jù)結(jié)果發(fā)現(xiàn),約29%的學(xué)術(shù)文獻類數(shù)據(jù)集提供實體或?qū)嶓w關(guān)系抽取功能。典型實體抽取方法主要有如下兩種類型:

      (1)基于受控詞表標引的實體抽取

      基于受控詞表標引的實體抽取將文獻內(nèi)容中的關(guān)鍵詞與受控詞表中的專業(yè)術(shù)語相匹配,進而抽取并規(guī)范化文章主題知識概念[57]。例如PubMed[16]從文獻中提取與《醫(yī)學(xué)主題詞表》(Medical Subject Headings,MeSH)相匹配的規(guī)范化知識概念。當用戶在輸入關(guān)鍵詞檢索文獻時,輸入詞將與文獻的受控主題詞自行匹配,而用戶得以快速高效地找到專指性強的高質(zhì)量文獻資料。

      (2)基于機器學(xué)習(xí)的實體抽取

      基于機器學(xué)習(xí)的實體抽取依靠自然語言處理技術(shù)中的統(tǒng)計語言模型,自動對文本中的實體信息或?qū)嶓w關(guān)系進行預(yù)測[58]。例如,PKG(PubMed Knowledge Graph)應(yīng)用生物醫(yī)學(xué)領(lǐng)域的預(yù)訓(xùn)練語言模型BioBert[59]從 PubMed標題和摘要中提取出命名實體[60]; Microsoft Academic Graph(MAG)[50]基于自然語言處理層次主題模型,按照不同學(xué)科主題文章之間的引用頻次關(guān)系抽取學(xué)科主題之間的等級關(guān)系。

      目前,實體及實體關(guān)系的抽取在各種知識描述領(lǐng)域得到廣泛應(yīng)用。被抽取的實體被加以概念化和規(guī)范化后可以作為推薦系統(tǒng)或搜索引擎的主題提示詞,優(yōu)化用戶體驗度;也常被應(yīng)用于知識圖譜的構(gòu)建,提升實體之間復(fù)雜語義關(guān)系的可解釋性,為知識服務(wù)提供更貼近于文獻實質(zhì)知識內(nèi)容的微觀數(shù)據(jù)基礎(chǔ)。針對當前命名實體抽取方法,基于受控詞表匹配的方法不僅依賴于高質(zhì)量的領(lǐng)域詞表和有效的抽取規(guī)則,還需要考慮詞表的更新和維護問題,抽取效果難以保證;而基于機器學(xué)習(xí)的方法需要大量的標注數(shù)據(jù)、工程復(fù)雜度高,對于一般用戶而言具有較高的使用門檻。面對上述問題,應(yīng)用經(jīng)大量文本數(shù)據(jù)訓(xùn)練后的AI大語言模型處理實體抽取任務(wù)能提升語言模型的領(lǐng)域適應(yīng)性與易用性,有潛力成為未來數(shù)據(jù)集進行實體抽取的主流技術(shù)支柱。

      4.3 復(fù)用特征

      數(shù)據(jù)復(fù)用(Data Reuse)指數(shù)據(jù)集支持數(shù)據(jù)的批量開放下載,從而允許科研人員以新的研究目標為導(dǎo)向?qū)?shù)據(jù)集的原始數(shù)據(jù)進行多次使用的特性[61]。數(shù)據(jù)集中批量的文獻數(shù)據(jù)常被轉(zhuǎn)化成XML、txt、csc等可下載格式,供用戶下載到本地復(fù)用,為科研人員開展原創(chuàng)性研究提供基礎(chǔ)數(shù)據(jù)資源。

      學(xué)術(shù)文獻類數(shù)據(jù)集中約11%的個體具有可復(fù)用性的特征。為了更好地減輕數(shù)據(jù)下載任務(wù),部分數(shù)據(jù)集被封裝成了獨立的數(shù)據(jù)包供用戶按需下載或提供應(yīng)用程序編程接口(Application Programming Interface, API)實現(xiàn)數(shù)據(jù)共享。例如,DBLP[18]以xml的形式發(fā)布數(shù)據(jù)集,且同時提供了完整下載與API數(shù)據(jù)共享兩種選擇供用戶訪問數(shù)據(jù);AMiner[37]按數(shù)據(jù)的信息內(nèi)容將數(shù)據(jù)集分裝為不同主題的數(shù)據(jù)包供用戶按需下載。

      對原始數(shù)據(jù)的復(fù)用可以方便用戶以研究目標為導(dǎo)向在現(xiàn)有數(shù)據(jù)集上進行功能的定制與拓展。這令自建數(shù)據(jù)集的工作變得更為簡單可行,也令原始數(shù)據(jù)在新生成的數(shù)據(jù)集中得到更廣泛的應(yīng)用,擴充了數(shù)據(jù)的應(yīng)用場景[62]。科研人員多根據(jù)研究需求對數(shù)據(jù)進行復(fù)用,數(shù)據(jù)復(fù)用效果局限于特定研究領(lǐng)域。然而,數(shù)據(jù)復(fù)用也可以為人工智能模型的訓(xùn)練提供可用的訓(xùn)練集,進一步為論文摘要、智能問答、自動翻譯、知識挖掘等任務(wù)提供語料,幫助我們深度分析、產(chǎn)生更具創(chuàng)新性的知識并做出合理的決策。

      4.4 多源融合特征

      除了單一來源外,數(shù)據(jù)集也可以由多種來源數(shù)據(jù)關(guān)聯(lián)融合構(gòu)成,從而使該數(shù)據(jù)集具有更完善的內(nèi)容和功能特征。常見融合方式主要包括資源融合與功能融合兩種類型。

      (1)資源融合

      資源融合指新的數(shù)據(jù)集對不同來源數(shù)據(jù)集的不同信息資源內(nèi)容進行有機融合的過程,融合后的資源近乎為融合前不同來源數(shù)據(jù)集資源的完整疊加。例如,Aminer[37]數(shù)據(jù)來源包含DBLP[18]、ACM[48]、Citeseer[49]等,這使Aminer[37]全面集合了計算機領(lǐng)域來自多個數(shù)據(jù)源的文獻發(fā)表數(shù)據(jù),為構(gòu)建科研人員描述頁面、合作者推薦、學(xué)術(shù)評估等上層服務(wù)奠定堅實而又廣闊的數(shù)據(jù)基礎(chǔ)。

      (2)功能融合

      多源數(shù)據(jù)集的功能融合指將不同來源數(shù)據(jù)集中描述同一研究對象不同屬性的數(shù)據(jù)整合為信息完善的整體。DBLP[18]憑借自身以作者為核心集成文獻的特質(zhì)常被用來與引文數(shù)據(jù)庫搭配使用,開展以學(xué)者為中心的相關(guān)科學(xué)計量研究。例如, Liu[63]等將Aminer[37]與DBLP[18]配合使用自建數(shù)據(jù)集advisor-advisee,從而彌補DBLP[18]因缺乏對文獻被引數(shù)量的記錄而無法評估作者學(xué)術(shù)影響力的不足。Sugiyama等[64]在基于DBLP[18]構(gòu)建用戶學(xué)術(shù)畫像之后,利用ACM[48]中的文獻引文關(guān)系推算符合學(xué)者研究興趣的潛在文獻。

      使用多源數(shù)據(jù)融合構(gòu)建更為完善的數(shù)據(jù)集特征體系,可以很好地利用不同數(shù)據(jù)集的優(yōu)點,獲取比單一數(shù)據(jù)集更豐富的信息。不同數(shù)據(jù)集之間的差異不僅體現(xiàn)在文獻收錄范圍上,還存在于相關(guān)功能指標,例如作者消歧或引文信息標注等。因此,對于交互式融合的數(shù)據(jù)集,其融合意義不僅在于擴展單一數(shù)據(jù)集的文獻收錄范圍,更為重要的是充分利用多源數(shù)據(jù)集功能方面的互補性,增加了數(shù)據(jù)集的多元性發(fā)展,實現(xiàn)1+1>2的綜合效用。

      4.5 元數(shù)據(jù)關(guān)聯(lián)特征

      在圖書情報領(lǐng)域中,元數(shù)據(jù)是指用來描述數(shù)據(jù)資源內(nèi)容特征或外部特征的數(shù)據(jù)[65]。由于元數(shù)據(jù)通常按照特定的規(guī)范著錄且不同標準的元數(shù)據(jù)之間可以相互映射[66-67],不同信息資源中的相同元數(shù)據(jù)使資源之間的關(guān)聯(lián)成為可能。

      元數(shù)據(jù)作為記錄信息資源客觀屬性的編目信息[68],其關(guān)聯(lián)關(guān)系為追蹤與記錄學(xué)術(shù)動態(tài)服務(wù)。以Aminer[37]、DBLP[18]、MAG[50]為代表的第二代檢索系統(tǒng)衍生物?;跀?shù)據(jù)挖掘與社會網(wǎng)絡(luò)分析等技術(shù),抽取研究者相關(guān)描述性元數(shù)據(jù)的關(guān)聯(lián)信息。如圖4,用戶可以通過MAG[50]數(shù)據(jù)表之間的關(guān)聯(lián)關(guān)系,由已知元數(shù)據(jù)字段的取值查詢未知元數(shù)據(jù)字段的取值,進而構(gòu)建元數(shù)據(jù)的動態(tài)關(guān)聯(lián)網(wǎng)絡(luò),開展更多維度的數(shù)據(jù)分析。例如,Huang[69]等以研究領(lǐng)域的屬性標簽為線索關(guān)聯(lián)到MAG[50]收錄的所有計算機學(xué)科文章引文數(shù)據(jù),再由引文數(shù)據(jù)揭示領(lǐng)域內(nèi)引文網(wǎng)絡(luò)的結(jié)構(gòu)化信息。

      圖4 MAG 元數(shù)據(jù)關(guān)系樣例Fig.4 Example of MAG Metadata Relationships

      在信息技術(shù)與用戶需求的雙重驅(qū)動下,數(shù)據(jù)集中對象屬性的描述不再局限于對象本身特征的描述,而是擴展到描述相同對象間及不同對象間的關(guān)系,進而輔助科學(xué)計量研究構(gòu)建科學(xué)活動網(wǎng)絡(luò),揭示科學(xué)發(fā)展的時空規(guī)律。隨著科學(xué)交流形式愈發(fā)多樣,數(shù)據(jù)集的元數(shù)據(jù)信息內(nèi)容類型會更加多元。針對多類型元數(shù)據(jù)之間的相互關(guān)系進行相似度計算與協(xié)同分析可以挖掘文獻背后隱藏的豐富信息,對有效組織網(wǎng)絡(luò)學(xué)術(shù)資源、關(guān)聯(lián)關(guān)系檢索、專家推薦等方面具有重大意義。

      5 智能技術(shù)與數(shù)據(jù)集的進步對科學(xué)計量研究的推動意義

      在未來的發(fā)展中,數(shù)據(jù)集將為人工智能的發(fā)展提供堅實的數(shù)據(jù)支撐,而人工智能推動著數(shù)據(jù)集的智慧升級。當大數(shù)據(jù)與人工智能緊密結(jié)合,數(shù)據(jù)的管理更加智能,數(shù)據(jù)的價值被深入挖掘,這為數(shù)據(jù)集應(yīng)用于科學(xué)計量各種研究場景提供了新的可能。展望未來,應(yīng)用AI技術(shù)進行數(shù)據(jù)集構(gòu)建,能夠為科學(xué)計量研究以下幾個方向提供助力。

      5.1 研究者特征分析

      研究者的特征分析依賴于各類評測指標的精確計算結(jié)果,而作者姓名消歧對于準確追溯科研人員的職業(yè)流動路徑、學(xué)術(shù)成果產(chǎn)出、科研合作動向等特征表現(xiàn)至關(guān)重要。本文調(diào)研的學(xué)術(shù)文獻類數(shù)據(jù)集中,僅約27%的數(shù)據(jù)集具有作者姓名消歧功能。這反映了作者消歧功能在現(xiàn)有數(shù)據(jù)集中普及度不足的問題。此外,對于不同類型的消歧方式,基于人工匹配的姓名消歧存在“人力成本大”的問題,基于作者注冊平臺的姓名消歧存在作者覆蓋不完全的問題。目前已有研究基于機器學(xué)習(xí)技術(shù),通過全局衡量作者實例相關(guān)特征之間的相關(guān)程度進行作者消歧。未來數(shù)據(jù)集可以進一步應(yīng)用自然語言處理人工智能技術(shù),通過擴大語料庫訓(xùn)練規(guī)模、交叉驗證多來源信息、充分挖掘文獻內(nèi)部的語義信息、拓展作者特征的選擇范圍,從而進一步優(yōu)化姓名實體消歧的效果。具有更高質(zhì)量消歧效果的數(shù)據(jù)集將為準確關(guān)聯(lián)研究者與其科研行為特征提供重要的技術(shù)保障,也為科研人員評價、專家匹配、合作者推薦等一系列以研究者特征分析為依據(jù)的研究奠定了堅實的數(shù)據(jù)基礎(chǔ)。

      5.2 學(xué)術(shù)推薦

      學(xué)術(shù)推薦不僅應(yīng)滿足用戶已知的知識需求,還應(yīng)突破局限,深入感知用戶所在領(lǐng)域之外的未知需求。當前數(shù)據(jù)集主要依據(jù)檢索詞和受控詞表的匹配或領(lǐng)域知識圖譜的知識推理進行文獻推薦。然而,詞表和知識圖譜的不完備性會導(dǎo)致推薦內(nèi)容被局限于既定的知識領(lǐng)域,使用戶難以發(fā)現(xiàn)未知領(lǐng)域的問題、制約用戶的科研創(chuàng)造力。未來可以對不同領(lǐng)域的數(shù)據(jù)集進行智能融合,從而開展跨學(xué)科學(xué)術(shù)推薦,使用戶能在融合了廣泛領(lǐng)域知識的數(shù)據(jù)集上挖掘出認知邊界之外的有用資源。

      5.3 科研評價

      構(gòu)建科學(xué)全面的學(xué)術(shù)評價體系應(yīng)當與時俱進地圍繞現(xiàn)實需求,順應(yīng)科學(xué)交流形式的多樣化發(fā)展,建立多元、有效的綜合評價體系。當前科研成果的學(xué)術(shù)質(zhì)量主要基于文獻類數(shù)據(jù)集中的引文數(shù)據(jù)構(gòu)建定量指標評定。然而,隨著學(xué)術(shù)生產(chǎn)的形式日趨多樣化,局限于文獻被引數(shù)據(jù)的科研評價策略忽略了研究人員在論文創(chuàng)作之外所從事的工作對科研創(chuàng)新帶來的影響力。未來可以對不同類型的數(shù)據(jù)集進行智能融合,一站式綜合文獻類數(shù)據(jù)集中的引文數(shù)據(jù)、工具資料類數(shù)據(jù)集中的排名統(tǒng)計數(shù)據(jù)、專利類數(shù)據(jù)集中的工業(yè)生產(chǎn)數(shù)據(jù)、社交類數(shù)據(jù)集中的社會傳播數(shù)據(jù)構(gòu)建定量指標評價科研成果,從而為公平合理地進行科研人才評價奠定可靠的數(shù)據(jù)基礎(chǔ),促進科研評價體系的完善健全。

      隨著人工智能與數(shù)據(jù)集技術(shù)的互相促進,信息資源管理也正在經(jīng)歷著全方位的變革,主要體現(xiàn)在信息處理、信息分析、信息預(yù)測三方面的智能化轉(zhuǎn)型。信息處理方面,信息資源系統(tǒng)具備了智能識別數(shù)據(jù)內(nèi)容、組織融合數(shù)據(jù)的能力,主要應(yīng)用包括細粒度的文本內(nèi)容識別、異構(gòu)大數(shù)據(jù)管理和領(lǐng)域知識庫構(gòu)建等領(lǐng)域;信息分析方面,人工智能旨在基于自然語言分析技術(shù),從海量數(shù)據(jù)中理解信息的本質(zhì)規(guī)律,從而以人工智能回答、趨勢描述、網(wǎng)絡(luò)信息檢索等方式助力決策分析;信息預(yù)測的關(guān)鍵在于人工智能在學(xué)習(xí)的過程中,利用已有的知識預(yù)測新的知識,從而把更多的知識輸送到數(shù)據(jù)集中以優(yōu)化其使用。其中,已掌握的知識可以是對數(shù)據(jù)資源本身特征的學(xué)習(xí),也可以是對用戶行為特征的學(xué)習(xí)。由此,數(shù)據(jù)集在與用戶交互的過程中就可以根據(jù)歷史行為數(shù)據(jù)主動預(yù)測信息需求,以實現(xiàn)以用戶為中心的智慧服務(wù)目標,包括智能信息推薦、用戶認知分析、知識發(fā)現(xiàn)等。

      未來人工智能技術(shù)與數(shù)據(jù)集的結(jié)合將與信息資源管理的學(xué)科發(fā)展緊密相關(guān)、共同繁榮。為了切實地解決真實世界中的底層問題、促進信息資源的高效利用,我們應(yīng)加強產(chǎn)學(xué)研的相互結(jié)合,提高人工智能與大數(shù)據(jù)技術(shù)向產(chǎn)業(yè)服務(wù)邁進的腳步,在人工智能促進數(shù)據(jù)集智慧升級的過程中實現(xiàn)信息增值。

      作者貢獻說明

      張彤陽:收集、整理和分析數(shù)據(jù),撰寫論文;

      王楚涵,俞超:收集和整理數(shù)據(jù);

      徐?。禾岢稣撐淖珜懣蚣?,設(shè)計研究方案。

      支撐數(shù)據(jù)

      支撐數(shù)據(jù)可開放獲取,獲取地址為:

      1.學(xué)術(shù)文獻類數(shù)據(jù)集整理. https://figshare.com/articles/dataset/__xlsx/16834831.

      2.百科工具類數(shù)據(jù)集整理. https://doi.org/10.6084/m9.figshare.16834840.v2.

      3.專利類數(shù)據(jù)集整理. https://doi.org/10.6084/m9.figshare.16834858.v2.

      4.社交類數(shù)據(jù)集整理. https://doi.org/10.6084/m9.figshare.16834846.v3.

      猜你喜歡
      消歧學(xué)術(shù)文獻
      基于關(guān)聯(lián)圖和文本相似度的實體消歧技術(shù)研究*
      Hostile takeovers in China and Japan
      速讀·下旬(2021年11期)2021-10-12 01:10:43
      基于半監(jiān)督集成學(xué)習(xí)的詞義消歧
      如何理解“Curator”:一個由翻譯引發(fā)的學(xué)術(shù)思考
      中國博物館(2019年2期)2019-12-07 05:40:44
      Cultural and Religious Context of the Two Ancient Egyptian Stelae An Opening Paragraph
      大東方(2019年12期)2019-10-20 13:12:49
      對學(xué)術(shù)造假重拳出擊
      商周刊(2019年2期)2019-02-20 01:14:22
      藏文歷史文獻識別過程中藏文自由虛詞的自動識別及消歧算法的研究
      The Application of the Situational Teaching Method in English Classroom Teaching at Vocational Colleges
      The Role and Significant of Professional Ethics in Accounting and Auditing
      商情(2017年1期)2017-03-22 16:56:36
      學(xué)術(shù)
      页游| 宜兴市| 谷城县| 新丰县| 鲁甸县| 岳阳市| 清苑县| 天峨县| 文安县| 阿克苏市| 金寨县| 平湖市| 濉溪县| 弥渡县| 安仁县| 开封市| 东方市| 安新县| 疏勒县| 焦作市| 清原| 呼玛县| 九龙城区| 滦南县| 福州市| 德令哈市| 盈江县| 新源县| 临夏市| 芒康县| 綦江县| 即墨市| 嘉鱼县| 正安县| 尉氏县| 芦溪县| 华安县| 龙泉市| 平乐县| 沂水县| 五原县|