張麗華,張康寧,趙迎光,張志強(qiáng)
(1. 山西財(cái)經(jīng)大學(xué)信息學(xué)院,太原 030006;2. 北京交通大學(xué)圖書館,北京 100044;3. 中國(guó)科學(xué)院成都文獻(xiàn)情報(bào)中心,成都 610041;4. 中國(guó)科學(xué)院大學(xué)經(jīng)濟(jì)與管理學(xué)院圖書情報(bào)與檔案管理系,北京 100190)
在科研人員的職業(yè)生涯中,如何不斷調(diào)整、選擇乃至轉(zhuǎn)移最佳研究主題是每個(gè)科研人員都非常關(guān)注的問(wèn)題。針對(duì)這一問(wèn)題,學(xué)界主要存在兩種主張。一種主張認(rèn)為,科學(xué)家的研究興趣并非一成不變,而是可能發(fā)生學(xué)科間或跨學(xué)科的主題轉(zhuǎn)移。經(jīng)觀察和調(diào)研發(fā)現(xiàn),美國(guó)的科研人員7~8 年更換一次研究主題[1]。另一種主張認(rèn)為,研究主題不能隨意轉(zhuǎn)移。科研工作不是簡(jiǎn)單重復(fù)勞動(dòng),需要高度專注、深度思考與長(zhǎng)期積淀[2]。一支青蒿素,諾貝爾獎(jiǎng)得主屠呦呦試過(guò)380 多種提取方法,又做了191次試驗(yàn)才發(fā)現(xiàn)有效成分。
那么,科研人員在職業(yè)生涯中是否要轉(zhuǎn)移研究主題?適時(shí)轉(zhuǎn)移研究主題還是專注于同一個(gè)研究主題更有利于創(chuàng)新??jī)煞N主張都有成功的案例。我們關(guān)心的研究問(wèn)題是,在同一個(gè)學(xué)科內(nèi)部,科研人員更傾向于堅(jiān)守還是適時(shí)轉(zhuǎn)移研究主題?這兩種不同選擇對(duì)科研人員論文被引頻次會(huì)有什么樣的影響?
針對(duì)該問(wèn)題學(xué)界進(jìn)行了一些有益探索。部分研究表明,研究主題轉(zhuǎn)移有利于提高科研人員論文的被引頻次:研究主題變化較大的科研人員與以往相比更可能產(chǎn)生有影響力的成果[3],且研究主題發(fā)生轉(zhuǎn)移之后,其發(fā)表的論文數(shù)量和質(zhì)量都更高[4];不斷探索新的研究主題、有較高研究自由度的科研人員與從事既定任務(wù)、審查周期短、可交付成果不可變的研究人員相比,更容易產(chǎn)生高影響力成果[5]。同時(shí),高風(fēng)險(xiǎn)的研究更有可能產(chǎn)生高影響力,獲得更大的認(rèn)可[6]。當(dāng)然,還有一些研究持有不同觀點(diǎn):Amjad 等[7]發(fā)現(xiàn),持續(xù)研究同一主題的科研人員會(huì)產(chǎn)生更高的影響力,獲得更多的關(guān)注;Zeng等[8]的研究表明,科學(xué)家的研究主題分布很窄,在科研人員的整個(gè)職業(yè)生涯中,篇均被引頻次指標(biāo)均與研究主題的轉(zhuǎn)移概率呈負(fù)相關(guān),研究主題的轉(zhuǎn)移概率越高,篇均被引頻次越低。
已有研究多是從群體層面,選擇某一科研人員群體為研究對(duì)象,通過(guò)設(shè)置對(duì)照組來(lái)對(duì)比科研人員研究主題轉(zhuǎn)移與論文被引頻次的關(guān)系。較少有研究從科研人員個(gè)人層面,通過(guò)比較其職業(yè)生涯初期與末期研究主題的相似程度,探討研究主題轉(zhuǎn)移對(duì)其論文被引頻次的影響。因此,本文主要關(guān)注以下兩個(gè)問(wèn)題:
(1)科研人員職業(yè)生涯初期和末期學(xué)術(shù)論文研究主題是否相似?
(2)科研人員職業(yè)生涯中學(xué)術(shù)論文相似度是否會(huì)對(duì)其論文被引頻次產(chǎn)生影響?
為了回答上述問(wèn)題,本文以兩個(gè)學(xué)科的科研人員為研究對(duì)象,測(cè)度不同人員的學(xué)術(shù)論文相似度、論文被引頻次等指標(biāo),設(shè)置控制變量排除可能的干擾因素,在此基礎(chǔ)上通過(guò)相關(guān)性、負(fù)二項(xiàng)回歸分析學(xué)術(shù)論文相似度與論文被引頻次的關(guān)系,為更深入地了解科研人員個(gè)人成長(zhǎng)規(guī)律并輔助制定科研人員管理與評(píng)價(jià)政策提供參考。
本文選擇Web of Science (WoS) 數(shù)據(jù)庫(kù)中的“計(jì)算機(jī)科學(xué)與人工智能”和“商業(yè)與經(jīng)濟(jì)”作為分析學(xué)科,以WC=“Computer Science, Artificial In‐telligence”和WC=“Business & Economics”為檢索式,檢索兩個(gè)學(xué)科發(fā)表時(shí)間為1975—2017 年(因涉及3 年引文時(shí)間窗問(wèn)題,故將數(shù)據(jù)截止日期設(shè)為2017 年)、文獻(xiàn)類型為Article 的所有論文,檢索時(shí)間為2021 年1 月5 日,獲得計(jì)算機(jī)科學(xué)與人工智能學(xué)科的222449 篇論文,以及商業(yè)與經(jīng)濟(jì)學(xué)科的235375 篇論文。
接下來(lái),從兩個(gè)學(xué)科中抽取滿足條件的科研人員。抽取標(biāo)準(zhǔn)為:
第 一, 科 研 人 員 擁 有ResearcherID。 Re‐searcherID 是WoS 數(shù)據(jù)庫(kù)為科研人員提供的專屬身份識(shí)別號(hào)碼,能夠有效解決科研人員姓名歧義問(wèn)題。
第二,科研人員在職業(yè)生涯中至少以第一作者身份發(fā)表4 篇論文。非第一作者論文將使科研人員在研究團(tuán)隊(duì)中處于支持者的角色[9],其研究主題可能更多受論文主要貢獻(xiàn)者(如第一作者)的影響,而第一作者論文能夠較準(zhǔn)確地反映科研人員的研究主題。同時(shí),為了計(jì)算不同時(shí)期研究主題的相似度,選擇科研人員職業(yè)生涯最開(kāi)始和結(jié)束時(shí)各2 篇論文進(jìn)行對(duì)比,因此,至少以第一作者身份發(fā)表4篇論文的科研人員才能納入本文的數(shù)據(jù)集。
第三,科研人員職業(yè)生涯長(zhǎng)度大于2 年且小于等于20 年。職業(yè)生涯的長(zhǎng)短,對(duì)科研人員學(xué)術(shù)論文相似度有非常重要的影響。職業(yè)生涯越短,其論文相似度可能越高;反之,職業(yè)生涯越長(zhǎng),科研人員的論文相似度可能越低。為了盡可能消除職業(yè)生涯長(zhǎng)短對(duì)論文相似度的影響,在選擇科研人員時(shí),需要去掉職業(yè)生涯太長(zhǎng)與太短的科研人員。首先,我們剔除職業(yè)生涯長(zhǎng)度為1 年和2 年的科研人員。胡志剛等[10]在研究期刊作者群的新陳代謝規(guī)律時(shí),提出“如果想走科研之路,請(qǐng)先堅(jiān)持到第二年”[11]的觀點(diǎn)。據(jù)此我們認(rèn)為,職業(yè)生涯超過(guò)2 年的科研人員留在學(xué)術(shù)界的概率更高,因此,剔除職業(yè)生涯長(zhǎng)度僅為1 年和2 年的科研人員。其次,我們剔除職業(yè)生涯超過(guò)20 年的科 研人員。Milojevi? 等[12]將科研人員職業(yè)生涯分為5 種典型形態(tài),其中長(zhǎng)期活躍者(從事所在領(lǐng)域研究超過(guò)20 年)的比例在不斷下降。我們認(rèn)為,長(zhǎng)期活躍者的研究主題在職業(yè)生涯中更可能發(fā)生變化,為了盡可能消除職業(yè)生涯太長(zhǎng)對(duì)成果相似度的影響,本文將職業(yè)生涯超過(guò)20年的科研人員剔除掉。
經(jīng)過(guò)篩選,計(jì)算機(jī)科學(xué)與人工智能領(lǐng)域共1788名科研人員、商業(yè)與經(jīng)濟(jì)領(lǐng)域共958 名科研人員滿足上述要求,這些科研人員及其發(fā)表的論文信息構(gòu)成本文的最終數(shù)據(jù)集。
2.2.1 學(xué)術(shù)論文相似度
本文主要關(guān)注科研人員個(gè)人層面的學(xué)術(shù)論文相似度,即數(shù)據(jù)集中每個(gè)作者在其職業(yè)生涯中研究主題的轉(zhuǎn)移程度,可以使用科研人員在職業(yè)生涯初期與末期研究主題的相似程度來(lái)衡量。研究主題通常使用以下3 種方式來(lái)測(cè)度:①使用文獻(xiàn)關(guān)鍵詞、題名、摘要或者全文進(jìn)行自然語(yǔ)言分析;②使用主題建模方法;③使用數(shù)據(jù)庫(kù)提供的分類號(hào)[11]。本文使用第①種方式,并借鑒Jia 等[13]的做法,選取1975—2017 年兩個(gè)學(xué)科滿足要求的科研人員職業(yè)生涯最開(kāi)始的兩篇和最末的兩篇論文,計(jì)算這兩組論文標(biāo)題的語(yǔ)義相似度,以此反映科研人員職業(yè)生涯中的學(xué)術(shù)論文相似度。
選擇論文標(biāo)題而非關(guān)鍵詞、文摘等常用字段進(jìn)行相似度分析主要基于以下考慮:①標(biāo)題是一篇科學(xué)論文最重要的組成要素,能夠直觀揭示論文研究主題。Jamali 等[14]的研究表明,標(biāo)題與論文的下載次數(shù)和被引次數(shù)呈正相關(guān)關(guān)系。②在部分論文關(guān)鍵詞缺失、文摘具有較多干擾詞的情況下,論文標(biāo)題是一個(gè)不錯(cuò)的選擇。
語(yǔ)義相似度計(jì)算選擇2019 年提出的sentence-BERT(bidirectional encoder representations from trans‐formers)模型(簡(jiǎn)稱SBERT)[15]。SBERT 采用雙重或三重BERT 網(wǎng)絡(luò)結(jié)構(gòu)來(lái)獲取的句子嵌入,可以更充分地從語(yǔ)義上表征一個(gè)句子,使語(yǔ)義越相似的句子在向量空間中的嵌入向量距離越近。在文本的語(yǔ)義相似性任務(wù)上,SBERT 已全面超越流行的BERT模型,達(dá)到了更高水平。本文選擇了all-MiniLML6-v2 的SBERT 預(yù)訓(xùn)練模型來(lái)進(jìn)行語(yǔ)義相似度計(jì)算,該模型使用超過(guò)10 億對(duì)句子進(jìn)行訓(xùn)練,在英文相似度任務(wù)方面表現(xiàn)優(yōu)異。
2.2.2 論文被引頻次
科研人員的研究主題轉(zhuǎn)移服從“海邊漫步”(seashore walk)模型[13],可能發(fā)生在職業(yè)生涯中的任何一個(gè)階段;與此同時(shí),科研人員做出重大創(chuàng)新性成果的巔峰期在其職業(yè)生涯中呈隨機(jī)分布[16]。在計(jì)算科研人員論文被引頻次指標(biāo)時(shí),如果僅選擇職業(yè)生涯最初期與最末期的兩篇論文的被引頻次代表該名科研人員職業(yè)生涯中所有論文被引頻次,可能具有很大偶然性。因此,為了更全面地反映科研人員的學(xué)術(shù)影響力,我們使用其職業(yè)生涯中所有論文的平均影響力指標(biāo)來(lái)代表其論文被引頻次。
本文選擇6 個(gè)指標(biāo)測(cè)度科研人員職業(yè)生涯的平均影響力,分別是不固定時(shí)間窗與固定3 年引文時(shí)間窗的總被引次數(shù)、篇均被引次數(shù)以及領(lǐng)域標(biāo)準(zhǔn)化引用分?jǐn)?shù)(表1)。
表1 論文被引頻次指標(biāo)
下文將以一個(gè)虛擬的例子說(shuō)明論文被引頻次指標(biāo)的計(jì)算過(guò)程。假設(shè)一個(gè)學(xué)科共有2 名作者au_1 和au_2,共發(fā)表了5 篇論文(表2),各指標(biāo)的計(jì)算方法如下。
總被引次數(shù)與篇均被引次數(shù)指標(biāo)計(jì)算較簡(jiǎn)單。作者au_1 發(fā)表2 篇論文,其總被引次數(shù)為10+8=18次。篇均被引次數(shù)為18/2=9 次。作者au_2 發(fā)表3 篇論文,總被引次數(shù)為7+6+4=17 篇,篇均被引次數(shù)為
表2 論文被引頻次指標(biāo)計(jì)算方法示例
領(lǐng)域標(biāo)準(zhǔn)化引用分?jǐn)?shù)需要同時(shí)考慮論文層面與作者層面。從論文層面來(lái)看,一篇論文的領(lǐng)域標(biāo)準(zhǔn)化引用分?jǐn)?shù)等于該篇論文的被引用次數(shù)除以論文發(fā)表當(dāng)年,同學(xué)科、同文獻(xiàn)類型的論文被引用次數(shù)的平均值e。首先,分別計(jì)算每年學(xué)科內(nèi)所有論文被引用次數(shù)的平均值。2005 年發(fā)表了3 篇論文,e2005=(10+7+4)/3=7;2006 年發(fā)表了2 篇論文,e2006=(8+6)/2=7。其次,用每篇論文的被引用次數(shù)除以發(fā)表當(dāng)年的e值,5 篇論文的領(lǐng)域標(biāo)準(zhǔn)化引用分?jǐn)?shù)分別等于
從作者層面來(lái)看,一名作者的領(lǐng)域標(biāo)準(zhǔn)化引用分?jǐn)?shù)等于他/她發(fā)表所有論文的標(biāo)準(zhǔn)化引用分?jǐn)?shù)的平均值。作者au_1 發(fā)表2 篇論文,其領(lǐng)域標(biāo)準(zhǔn)化引用分?jǐn)?shù)為同理,作者au_2 發(fā)表3 篇論文,領(lǐng)域標(biāo)準(zhǔn)化引用分?jǐn)?shù)為
與此同時(shí),為了消除論文發(fā)表時(shí)間對(duì)被引用次數(shù)的影響,本文還計(jì)算了每名科研人員3 年引文時(shí)間窗的總被引次數(shù)(3_YEAR_TCC)、3 年引文時(shí)間窗的篇均被引次數(shù)(3_YEAR_ACCP) 以及3 年引文時(shí)間窗的領(lǐng)域標(biāo)準(zhǔn)化引用分?jǐn)?shù)(3_YEAR_FNCC)。以作者au_1 為例,其總被引次數(shù)為6+4=10 次,篇均被引用次數(shù)為10/2=5 次。e2005=(6+5+2)/3=作者au_1 的領(lǐng)域標(biāo)準(zhǔn)化引用分?jǐn)?shù)等于
2.2.3 學(xué)術(shù)論文相似度與論文被引頻次關(guān)系1)分析方法
在考察學(xué)術(shù)論文相似度與論文被引頻次關(guān)系時(shí),本文主要采用兩種方式。第一,相關(guān)性分析:分別計(jì)算學(xué)術(shù)論文相似度指標(biāo)與論文被引頻次不同指標(biāo)之間的相關(guān)系數(shù),并進(jìn)行顯著性檢驗(yàn),以分析兩個(gè)變量之間的關(guān)系;第二,多元回歸分析:除了論文相似度,可能存在其他影響論文被引頻次的干擾因素,本文通過(guò)控制變量排除干擾因素的影響,使用多元回歸模型分析多個(gè)變量之間的關(guān)系。
2)控制變量
謝娟等[17]證實(shí)了影響論文被引頻次的因素有作者數(shù)、論文篇幅、期刊影響因子、參考文獻(xiàn)數(shù)、文獻(xiàn)類型和作者年齡。本文使用的文獻(xiàn)類型均為Arti‐cle,不需要對(duì)文獻(xiàn)類型進(jìn)行控制。因此,借鑒謝娟等[17]的研究,我們選擇了5 個(gè)控制變量:①作者數(shù)(Num_of_author)。每篇論文包含的作者數(shù)量。②論文篇幅(Pages)。用論文頁(yè)數(shù)表示。③期刊影響因子(IF)。使用一本期刊2010—2020 年期刊影響因子的均值表示。因計(jì)算機(jī)科學(xué)與人工智能領(lǐng)域期刊影響因子缺失值較多,在后續(xù)回歸分析時(shí)刪除期刊影響因子這一控制變量。④參考文獻(xiàn)數(shù)(NR)。⑤作者學(xué)術(shù)年齡(Age)。作者學(xué)術(shù)年齡等于其在職業(yè)生涯中發(fā)表第一篇論文的年份與發(fā)表最后一篇論文年份的差值加1。
除作者學(xué)術(shù)年齡指標(biāo)外,其余4 個(gè)指標(biāo)作者數(shù)、論文篇幅、期刊影響因子、參考文獻(xiàn)數(shù)的分析對(duì)象均為論文而非作者。后續(xù)指標(biāo)需要以作者為單位進(jìn)行分析,因此,在計(jì)算某一位科研人員的某個(gè)指標(biāo)(如作者數(shù))時(shí),等于其發(fā)表所有論文某個(gè)指標(biāo)值(如作者數(shù))的平均值。例如,作者A 以第一作者身份發(fā)表了4 篇論文,每篇論文的作者數(shù)依次為4、3、4、5 人,則作者A 的作者數(shù)為(4+3+4+5)/4=4 人。
同時(shí),考慮到5 個(gè)控制變量彼此間的極值差距較大,擬對(duì)這些變量的指標(biāo)值進(jìn)行歸一化處理。歸一化方法選擇最常見(jiàn)的最大最小標(biāo)準(zhǔn)化(min-max normalization)方法。這種方法簡(jiǎn)單易理解,不改變數(shù)據(jù)分布,采用的公式為
其中,Y是指標(biāo)的標(biāo)準(zhǔn)化值;X為指標(biāo)的原始值;X_max 與X_min 分別對(duì)應(yīng)于指標(biāo)的最大值和最小值。
3)回歸模型
論文被引頻次服從偏態(tài)分布,負(fù)二項(xiàng)回歸模型被認(rèn)為是偏態(tài)分布數(shù)據(jù)的標(biāo)準(zhǔn)回歸模型[18]。因此,我們選擇負(fù)二項(xiàng)回歸模型探討自變量(學(xué)術(shù)論文相似度)及控制變量(作者數(shù)、論文篇幅、期刊影響因子、作者學(xué)術(shù)年齡、參考文獻(xiàn)數(shù))對(duì)因變量(論文被引頻次)的影響。
為TCC、ACCP 等6 個(gè)因變量指標(biāo)分別構(gòu)建兩個(gè)模型。首先,利用5 個(gè)控制變量指標(biāo)構(gòu)建模型1,對(duì)模型1 進(jìn)行檢驗(yàn),并計(jì)算對(duì)數(shù)似然值log-likeli‐hood1;然后,增加學(xué)術(shù)論文相似度指標(biāo)構(gòu)建模型2,對(duì)模型2 進(jìn)行檢驗(yàn)并計(jì)算新的對(duì)數(shù)似然值loglikelihood2。對(duì)兩個(gè)模型進(jìn)行似然比檢驗(yàn),χ2統(tǒng)計(jì)量等于模型1 和模型2 對(duì)數(shù)似然值差值的2 倍。若χ2≥則拒絕原假設(shè),說(shuō)明科研人員的學(xué)術(shù)論文相似度對(duì)論文被引頻次有影響;反之,則說(shuō)明沒(méi)有影響。
進(jìn)行負(fù)二項(xiàng)回歸模型時(shí)使用python 的statsmod‐els 模塊,操作步驟借鑒馬薩諸塞大學(xué)阿默斯特分校 (University of Massachusetts, Amherst) Sachin Date 的研究:https://timeseriesreasoning.com/contents/negative-binomial-regression-model/。
(1)商業(yè)與經(jīng)濟(jì)領(lǐng)域科研人員的學(xué)術(shù)論文相似度分析。
商業(yè)與經(jīng)濟(jì)領(lǐng)域958 名科研人員的學(xué)術(shù)論文相似度如圖1 所示。從圖1 可以看出,商業(yè)與經(jīng)濟(jì)領(lǐng)域科研人員的學(xué)術(shù)論文相似度呈現(xiàn)出“中間高、兩邊低”的分布形態(tài)。相似度介于[0.4,0.5)的科研人員數(shù)量最多,為255 名,占商業(yè)與經(jīng)濟(jì)領(lǐng)域所有科研人員的26.6%。相似度小于0.4 或大于等于0.5 的科研人員數(shù)量依次減少。如果我們將學(xué)術(shù)論文相似度小于0.4 定義為科研人員研究主題發(fā)生轉(zhuǎn)移,那么商業(yè)與經(jīng)濟(jì)領(lǐng)域有39.5%的科研人員研究主題發(fā)生轉(zhuǎn)移。
圖1 商業(yè)與經(jīng)濟(jì)領(lǐng)域科研人員群體學(xué)術(shù)論文相似度
(2)計(jì)算機(jī)科學(xué)與人工智能領(lǐng)域科研人員的學(xué)術(shù)論文相似度分析。
計(jì)算機(jī)科學(xué)與人工智能領(lǐng)域1788 名科研人員群體的學(xué)術(shù)論文相似度如圖2 所示。從圖2 可以看出,計(jì)算機(jī)與人工智能領(lǐng)域科研人員的學(xué)術(shù)論文相似度同樣呈現(xiàn)出“中間高、兩邊低”的分布形態(tài)。相似度介于[0.4,0.5)的科研人員數(shù)量最多,為376 名,占計(jì)算機(jī)科學(xué)與人工智能領(lǐng)域科研人員的21.0%。相似度小于0.4 或大于等于0.5 的科研人員數(shù)量依次減少。如果我們將學(xué)術(shù)論文相似度小于0.4 定義為科研人員研究主題發(fā)生轉(zhuǎn)移,那么計(jì)算機(jī)科學(xué)與人工智能領(lǐng)域有45.6%的科研人員研究主題發(fā)生轉(zhuǎn)移。
圖2 計(jì)算機(jī)科學(xué)與人工智能領(lǐng)域科研人員群體學(xué)術(shù)論文相似度
3.2.1 相關(guān)性分析
(1)商業(yè)與經(jīng)濟(jì)領(lǐng)域科研人員學(xué)術(shù)論文相似度與論文被引頻次相關(guān)性分析。
商業(yè)與經(jīng)濟(jì)領(lǐng)域科研人員學(xué)術(shù)論文相似度指標(biāo)(Similarity)與不同的論文被引頻次指標(biāo)相關(guān)性分析結(jié)果如表3 所示。從表3 可以看出,F(xiàn)NCC 與Sim‐ilarity 相關(guān)系數(shù)的P值小于0.05,通過(guò)了顯著性檢驗(yàn),但Pearson 相關(guān)系數(shù)較小,只有不到0.1,可以認(rèn)為不相關(guān)。其余5 個(gè)被引頻次指標(biāo)與Similarity 相關(guān)系數(shù)的P值均大于0.05,未通過(guò)顯著性檢驗(yàn)。因此,從相關(guān)性分析結(jié)果來(lái)看,商業(yè)與經(jīng)濟(jì)領(lǐng)域科研人員群體的學(xué)術(shù)論文相似度與論文被引頻次不存在線性相關(guān)關(guān)系。
表3 商業(yè)與經(jīng)濟(jì)領(lǐng)域科研人員學(xué)術(shù)論文相似度與論文被引頻次的相關(guān)性分析
(2)計(jì)算機(jī)科學(xué)與人工智能領(lǐng)域科研人員學(xué)術(shù)論文相似度與論文被引頻次相關(guān)性分析。
計(jì)算機(jī)科學(xué)與人工智能領(lǐng)域科研人員6 個(gè)論文被引頻次指標(biāo)與學(xué)術(shù)論文相似度指標(biāo)的相關(guān)性分析結(jié)果如表4 所示。從表4 可以看出,TCC 指標(biāo)未通過(guò)顯著性檢驗(yàn),而其余5 個(gè)指標(biāo)雖通過(guò)了顯著性檢驗(yàn),但Pearson 相關(guān)系數(shù)值均小于0.2,可以認(rèn)為不相關(guān),因此,計(jì)算機(jī)科學(xué)與人工智能領(lǐng)域科研人員群體的學(xué)術(shù)論文相似度與論文被引頻次同樣不存在線性相關(guān)關(guān)系。
表4 計(jì)算機(jī)科學(xué)與人工智能領(lǐng)域科研人員學(xué)術(shù)論文相似度與論文被引頻次的相關(guān)性分析
3.2.2 回歸分析
(1)商業(yè)與經(jīng)濟(jì)領(lǐng)域科研人員學(xué)術(shù)論文相似度與論文被引頻次負(fù)二項(xiàng)回歸分析。
商業(yè)與經(jīng)濟(jì)領(lǐng)域科研人員學(xué)術(shù)論文相似度與論文被引頻次負(fù)二項(xiàng)回歸分析結(jié)果如表5 所示。
從表5 可以發(fā)現(xiàn):
表5 商業(yè)與經(jīng)濟(jì)領(lǐng)域科研人員群體學(xué)術(shù)論文相似度與論文被引頻次負(fù)二項(xiàng)回歸分析
第一,商業(yè)與經(jīng)濟(jì)領(lǐng)域科研人員學(xué)術(shù)論文相似度未對(duì)論文被引頻次產(chǎn)生影響。在模型2 中,以
TCC、 ACCP、 FNCC、 3_YEAR_TCC、 3_YEAR_ACCP 和3_YEAR_FNCC 為因變量的回歸模型中,自變量Similarity 均未通過(guò)顯著性檢驗(yàn),即在商業(yè)與經(jīng)濟(jì)領(lǐng)域,科研人員的學(xué)術(shù)論文相似度未對(duì)其被引用頻次產(chǎn)生影響。
第二,不同控制變量對(duì)論文被引頻次的影響不同。若控制變量能夠通過(guò)顯著性檢驗(yàn),則說(shuō)明其會(huì)對(duì)論文被引頻次產(chǎn)生影響。①以TCC 和ACCP 為因變量時(shí),IF、NR、Age 通過(guò)顯著性檢驗(yàn);②以FNCC 為因變量時(shí),IF、NR 通過(guò)顯著性檢驗(yàn);③以3_YEAR_TCC 和3_YEAR_ACCP 為 因 變 量 時(shí),5 個(gè)控制變量均通過(guò)顯著性檢驗(yàn);④以3_YEAR_FNCC為因變量時(shí),Pages、IF 通過(guò)顯著性檢驗(yàn)。
第三,當(dāng)因變量為不固定時(shí)間窗的論文被引頻次指標(biāo)時(shí),模型2 的擬合度優(yōu)于模型1。對(duì)模型1 和模型2 進(jìn)行對(duì)數(shù)似然比檢驗(yàn)發(fā)現(xiàn),當(dāng)論文被引頻次用TCC、ACCP 和FNCC 指標(biāo)衡量時(shí),說(shuō)明學(xué)術(shù)論文相似度對(duì)論文被引頻次產(chǎn)生了影響;當(dāng)論文被引頻次用3_YEAR_TCC 和3_YEAR_ACCP 指標(biāo)衡量時(shí),相似度未對(duì)論文被引頻次產(chǎn)生影響;當(dāng)論文被引頻次使用3_YEAR_FNCC 指標(biāo)衡量時(shí),未得出卡方檢驗(yàn)結(jié)果,因此,學(xué)術(shù)論文相似度是否對(duì)論文被引頻次產(chǎn)生影響未知。
(2)計(jì)算機(jī)科學(xué)與人工智能領(lǐng)域科研人員學(xué)術(shù)論文相似度與論文被引頻次負(fù)二項(xiàng)回歸分析。
計(jì)算機(jī)科學(xué)與人工智能領(lǐng)域科研人員學(xué)術(shù)論文相似度與論文被引頻次負(fù)二項(xiàng)回歸分析結(jié)果如表6所示。
從表6 可以發(fā)現(xiàn):
表6 計(jì)算機(jī)科學(xué)與人工智能領(lǐng)域科研人員群體學(xué)術(shù)論文相似度與論文被引頻次負(fù)二項(xiàng)回歸分析
第一,計(jì)算機(jī)科學(xué)與人工智能領(lǐng)域?qū)W術(shù)論文相似度會(huì)對(duì)論文被引頻次產(chǎn)生影響。這表現(xiàn)在以6 個(gè)被引頻次指標(biāo)為因變量的回歸模型中,Similarity 指標(biāo)均通過(guò)顯著性檢驗(yàn)。而在商業(yè)與經(jīng)濟(jì)領(lǐng)域中,Similarity 指標(biāo)均未通過(guò)顯著性檢驗(yàn),這說(shuō)明學(xué)術(shù)論文相似度是否會(huì)其對(duì)被引頻次產(chǎn)生影響可能具有學(xué)科特異性。
第二,不同控制變量對(duì)論文被引頻次的影響不同。通過(guò)顯著性檢驗(yàn)可證明該控制變量會(huì)對(duì)論文被引頻次產(chǎn)生影響。①以TCC 為因變量時(shí),NR、Age通過(guò)顯著性檢驗(yàn)。②以ACCP 為因變量時(shí),NR 通過(guò)顯著性檢驗(yàn)。③以FNCC 和3_YEAR_FNCC 為因變量時(shí),Num_of_author、NR 通過(guò)顯著性檢驗(yàn)。④以3_YEAR_TCC 為因變量時(shí),Pages、NR、Age 通過(guò)了顯著性檢驗(yàn)。⑤以3_YEAR_ACCP 為因變量時(shí),4 個(gè)控制變量均通過(guò)了顯著性檢驗(yàn)。
第三,模型2 擬合度均優(yōu)于模型1。對(duì)模型1 和模型2 進(jìn)行對(duì)數(shù)似然比檢驗(yàn)發(fā)現(xiàn),當(dāng)論文被引頻次用6 個(gè)指標(biāo)衡量時(shí),χ2≥21.4;自由度為1 時(shí),臨界卡方值說(shuō)明學(xué)術(shù)論文相似度對(duì)論文被引頻次產(chǎn)生了影響。
本文旨在探討科研人員職業(yè)生涯學(xué)術(shù)論文相似度及其對(duì)被引頻次的影響。選擇商業(yè)與經(jīng)濟(jì)領(lǐng)域958 名科研人員、計(jì)算機(jī)科學(xué)與人工智能領(lǐng)域1788名科研人員為研究對(duì)象,使用相關(guān)系數(shù)和負(fù)二項(xiàng)回歸模型進(jìn)行分析,主要結(jié)論如下。
(1)在學(xué)術(shù)論文相似度方面,兩個(gè)學(xué)科科研人員的學(xué)術(shù)論文相似度呈現(xiàn)出“中間高、兩邊低”的分布形態(tài),相似度介于[0.4,0.5)的科研人員數(shù)量最多。商業(yè)與經(jīng)濟(jì)領(lǐng)域有39.5%的科研人員研究主題發(fā)生轉(zhuǎn)移,而計(jì)算機(jī)科學(xué)與人工智能領(lǐng)域這一比例為45.6%。
(2)在學(xué)術(shù)論文相似度與論文被引頻次的相關(guān)性分析方面,商業(yè)與經(jīng)濟(jì)領(lǐng)域中Similarity 與FNCC相關(guān),計(jì)算機(jī)科學(xué)與人工智能領(lǐng)域中Similarity 與ACCP、FNCC、3_YEAR_TCC、3_YEAR_ACCP 和3_YEAR_FNCC 相關(guān),但相關(guān)系數(shù)均小于0.2,可以認(rèn)為兩個(gè)學(xué)科科研人員職業(yè)生涯中學(xué)術(shù)論文相似度與論文被引頻次之間不存在線性相關(guān)關(guān)系。
(3)在學(xué)術(shù)論文相似度與論文被引頻次的回歸模型方面,商業(yè)與經(jīng)濟(jì)領(lǐng)域以TCC、ACCP、FNCC、3_YEAR_TCC、 3_YEAR_ACCP 和3_YEAR_FNCC為因變量的回歸模型中,自變量Similarity 均未通過(guò)顯著性檢驗(yàn),即在商業(yè)與經(jīng)濟(jì)領(lǐng)域,科研人員的學(xué)術(shù)論文相似度未對(duì)其被引用頻次產(chǎn)生影響。計(jì)算機(jī)科學(xué)與人工智能領(lǐng)域以上述6 個(gè)被引頻次指標(biāo)為因變量的回歸模型中,Similarity 指標(biāo)均通過(guò)顯著性檢驗(yàn)。說(shuō)明學(xué)術(shù)論文相似度是否會(huì)對(duì)其被引頻次產(chǎn)生影響可能具有學(xué)科特異性。
(4)在控制變量方面,商業(yè)與經(jīng)濟(jì)領(lǐng)域影響論文被引頻次的控制變量主要是IF。以6 個(gè)被引頻次指標(biāo)為因變量構(gòu)建的回歸模型中,IF 均通過(guò)顯著性檢驗(yàn),且回歸系數(shù)與其他控制變量相比較大,說(shuō)明期刊影響因子對(duì)論文被引頻次的影響較大。計(jì)算機(jī)科學(xué)與人工智能領(lǐng)域影響論文被引頻次的控制變量主要是NR。無(wú)論論文被引頻次使用何種指標(biāo)測(cè)度,NR 均通過(guò)顯著性檢驗(yàn),且回歸系數(shù)較大,說(shuō)明當(dāng)論文被引頻次提高時(shí),論文參考文獻(xiàn)數(shù)能夠較大程度地解釋這種提升效應(yīng)。
(1)科研人員職業(yè)生涯中研究主題是否發(fā)生了轉(zhuǎn)移?
本文發(fā)現(xiàn),在2~20 年的職業(yè)生涯中,研究主題非常相似或非常不相似的科研人員數(shù)量都較少,大部分科研人員的研究主題會(huì)發(fā)生一定程度的轉(zhuǎn)移。那么,科研人員研究主題轉(zhuǎn)移是否有規(guī)律可循?Jia等[13]使用“海邊漫步”模型來(lái)解釋科學(xué)家的研究興趣的演化。在這一模型中,“海灘”上有著某一數(shù)量的點(diǎn),某些點(diǎn)上存在一定數(shù)量的、多種類型的貝殼,每種類型代表一種研究話題,貝殼數(shù)量在各點(diǎn)上的概率分布為P(q),有可能某些點(diǎn)上不存在任何種類的貝殼。科學(xué)家隨機(jī)從“海灘”上選擇一個(gè)點(diǎn),然后向左或者向右隨機(jī)行走,向左和向右的概率均為0.5;他有可能在某些點(diǎn)上經(jīng)過(guò)兩次或兩次以上;若走到的點(diǎn)上有貝殼,則代表他發(fā)表了一篇某種研究話題的論文??茖W(xué)家每走一步代表過(guò)去了一個(gè)單位的時(shí)間,他所走的總步數(shù)等于其科學(xué)職業(yè)生涯的總時(shí)間[11]。
(2)科研人員職業(yè)生涯中學(xué)術(shù)論文相似度是否會(huì)影響論文被引頻次?
學(xué)術(shù)論文相似度是否會(huì)影響論文被引頻次的問(wèn)題在學(xué)界一直存有爭(zhēng)議。部分研究證明兩者存在正相關(guān)關(guān)系,研究主題變化較大的科學(xué)家更可能產(chǎn)生高影響力的成果[3]。另外一種觀點(diǎn)則認(rèn)為“頻繁轉(zhuǎn)移話題在整個(gè)職業(yè)生涯對(duì)科學(xué)家的影響力都有損害”[8]。
從本文結(jié)論來(lái)看,學(xué)術(shù)論文相似度與論文被引頻次之間不存在線性相關(guān)關(guān)系;根據(jù)負(fù)二項(xiàng)回歸結(jié)果,兩者關(guān)系可能具有學(xué)科特異性。計(jì)算機(jī)科學(xué)與人工智能領(lǐng)域科研人員的學(xué)術(shù)論文相似度會(huì)對(duì)被引頻次產(chǎn)生影響,而商業(yè)與經(jīng)濟(jì)領(lǐng)域則恰好相反?;貧w系數(shù)可以用來(lái)解釋論文相似度如何影響論文被引頻次,以計(jì)算機(jī)科學(xué)與人工智能領(lǐng)域3_YEAR_AC‐CP 指標(biāo)為例,學(xué)術(shù)論文相似度的回歸系數(shù)為0.7789,即論文相似度每變動(dòng)1 個(gè)單位,平均而言,3_YEAR_ACCP 將 變 動(dòng)0.7789 個(gè) 單位。
學(xué)術(shù)論文相似度與論文被引頻次之間呈現(xiàn)的復(fù)雜關(guān)系可能是馬太效應(yīng)與論文適應(yīng)度(fitness)[19]共同作用的結(jié)果。職業(yè)生涯中從事相似的研究課題有助于提升作者聲望,累積起來(lái)的作者聲望不僅使資深作者的論文被引用可能性是年輕作者的4 倍,而且能使其早期的研究成果產(chǎn)生溢出效應(yīng)。比如,針對(duì)124 名諾貝爾獎(jiǎng)獲得者的分析表明,一項(xiàng)重要科學(xué)發(fā)現(xiàn)的公布連帶增加了作者以前發(fā)表的論文的引用量,即使早期論文與新發(fā)現(xiàn)的課題并不一定相關(guān)[20]。
與此同時(shí),論文被引頻次又受到論文適應(yīng)度的影響。適應(yīng)度是指論文獲得引用的內(nèi)在能力的差異,用一組論文的內(nèi)在屬性來(lái)表示,如發(fā)表渠道、讀者規(guī)模以及貢獻(xiàn)性質(zhì)(如綜述論文和方法論文往往比常規(guī)研究論文更易被引用)。如果考慮論文適應(yīng)度,那么當(dāng)前引用量相同的兩篇論文,適應(yīng)度高的那篇未來(lái)會(huì)有更高的概率獲得更多的引用。不同的學(xué)科領(lǐng)域論文具有不同的適應(yīng)度。馬太效應(yīng)和論文適應(yīng)度的協(xié)同作用最終導(dǎo)致了論文被引頻次呈現(xiàn)不同的形態(tài)。
對(duì)于論文相似度與論文被引頻次背后的作用機(jī)理,未來(lái)還需進(jìn)一步探索以得出更具參考價(jià)值的結(jié)論。
(3)控制變量是否會(huì)影響論文被引頻次?
不可否認(rèn),論文被引頻次受多種因素共同作用。其中就包括本文涉及的控制變量:期刊影響因子、作者數(shù)、參考文獻(xiàn)數(shù)、論文篇幅以及作者學(xué)術(shù)年齡。在商業(yè)與經(jīng)濟(jì)領(lǐng)域,期刊影響因子對(duì)論文被引頻次的作用較大,而在計(jì)算機(jī)科學(xué)與人工智能領(lǐng)域,參考文獻(xiàn)數(shù)對(duì)論文被引頻次的作用較大。
期刊影響因子在商業(yè)與經(jīng)濟(jì)領(lǐng)域確實(shí)對(duì)科研人員職業(yè)生涯的論文被引頻次起到非常重要的作用。研究表明,聲望較高的期刊能夠吸引高質(zhì)量論文,這就意味著高質(zhì)量論文提交到核心期刊,而較低質(zhì)量論文提交到二流期刊,核心期刊論文與二流期刊論文相比被引用次數(shù)更高[21]。期刊影響因子與論文被引頻次之間的天然聯(lián)系,使得在科研人員評(píng)價(jià)中,雖然期刊影響因子不適用于評(píng)價(jià)科研人員個(gè)人或單篇論文,卻可以用作論文被引頻次評(píng)價(jià)的重要參考。
參考文獻(xiàn)數(shù)在計(jì)算機(jī)科學(xué)與人工智能領(lǐng)域?qū)蒲腥藛T職業(yè)生涯的論文被引頻次起到較大作用。參考文獻(xiàn)數(shù)量以及參考文獻(xiàn)的其他特征是論文被引頻次強(qiáng)有力的預(yù)測(cè)因子[22]。研究發(fā)現(xiàn),論文的參考文獻(xiàn)數(shù)量越多,其被引的可能性越大[18]。計(jì)算機(jī)科學(xué)與人工智能領(lǐng)域222449 篇論文的平均參考文獻(xiàn)數(shù)量為28.8 篇。
科研人員職業(yè)生涯中學(xué)術(shù)論文相似度與論文被引頻次關(guān)系的研究,可以為科研人員研究主題轉(zhuǎn)移提供一定的參考。當(dāng)然,本文還存在一些不足:①學(xué)術(shù)論文相似度局限于學(xué)科內(nèi),不涉及跨學(xué)科性問(wèn)題。本文采用“先確定學(xué)科再確定科研人員”的策略,計(jì)算科研人員在學(xué)科內(nèi)部論文的相似度,并未考慮科研人員在其他學(xué)科領(lǐng)域發(fā)表的論文。②學(xué)術(shù)論文相似度使用論文標(biāo)題的語(yǔ)義相似性來(lái)度量,這種方法一方面容易受作者選詞傾向的影響,比如,選擇新詞匯以突出論文新穎性,吸引讀者、審稿人的關(guān)注;另一方面容易受學(xué)科詞匯演化的影響,學(xué)科在發(fā)展中會(huì)不斷出現(xiàn)新術(shù)語(yǔ)、新概念。我們會(huì)在后續(xù)研究中通過(guò)關(guān)注跨學(xué)科科研人員群體、使用更完善的相似度計(jì)算方法以彌補(bǔ)以上不足。