朱丹浩,黃肖宇
(1.江蘇警官學(xué)院刑事科學(xué)技術(shù)系,南京 210031;2.江蘇警官學(xué)院計(jì)算機(jī)信息與網(wǎng)絡(luò)安全系,南京 210031)
被引頻次是最具代表性、最簡單、最標(biāo)準(zhǔn)和最客觀的度量學(xué)術(shù)影響力的指標(biāo)[1],貫穿了科研活動的始終。例如,文獻(xiàn)搜索引擎會根據(jù)被引次數(shù)調(diào)整檢索結(jié)果的排序,科技期刊的分區(qū)主要依據(jù)所載論文的平均被引次數(shù),學(xué)科熱點(diǎn)的發(fā)現(xiàn)常常依賴于對引用網(wǎng)絡(luò)進(jìn)行聚類分析。然而,引用行為具有較長的滯后性,影響了各類下游任務(wù)的應(yīng)用范圍和性能。為解決這一問題,研究者嘗試通過機(jī)器學(xué)習(xí)算法來預(yù)測論文的未來被引情況。例如,Ibá?ez等[2]使用多元線性回歸方法,基于摘要等文本特征預(yù)測了論文發(fā)表后4年內(nèi)的引用次數(shù);耿騫等[3]嘗試了樸素貝葉斯和邏輯回歸方法等。近年來,隨著深度學(xué)習(xí)的發(fā)展,循環(huán)神經(jīng)網(wǎng)絡(luò)及前饋神經(jīng)網(wǎng)絡(luò)[4-5]也被引入論文被引預(yù)測算法中,預(yù)測精度取得了一定的提高。論文引用預(yù)測任務(wù)的一大特點(diǎn)是,存在大量的、形態(tài)各異的論文被引影響因素可作為輸入特征,但單一影響因素的預(yù)測能力極弱,在具體論文上常常是稀疏的。例如,一經(jīng)發(fā)表就被引用的論文常會被引更多,但一方面,也存在大量的“睡美人”文獻(xiàn)[6],在發(fā)表后多年才突然被喚醒,成為研究的熱點(diǎn);另一方面,對于剛發(fā)表的新論文,并不存在早期被引,基于該特征的預(yù)測方法自然也就失效了。因此,如何充分利用異構(gòu)特征,挖掘其中蘊(yùn)含的復(fù)雜關(guān)聯(lián)關(guān)系是建立論文引用預(yù)測方法的關(guān)鍵?,F(xiàn)有的研究大多只能利用單一類型的特征,這不僅阻礙了預(yù)測精度的進(jìn)一步提高,也限制了預(yù)測方法的適用范圍。
基于以上考慮,本文提出了基于異構(gòu)特征融合的論文引用預(yù)測方法。首先,本文針對論文引用預(yù)測任務(wù)定義了引文屬性網(wǎng)絡(luò),對3類異構(gòu)特征進(jìn)行建模;其次,提出了面向異構(gòu)特征融合的論文引用預(yù)測方法,使用圖神經(jīng)網(wǎng)絡(luò)處理定長特征和引文網(wǎng)絡(luò)特征,使用循環(huán)神經(jīng)網(wǎng)絡(luò)處理引文時序特征,基于多頭注意力機(jī)制對提取到的異構(gòu)特征進(jìn)行融合并預(yù)測被引次數(shù)。本文在基于CSSCI真實(shí)數(shù)據(jù)集的實(shí)驗(yàn)證明了所提出方法的有效性,可以有效緩解數(shù)據(jù)稀疏問題。
從使用特征的形態(tài)來看,當(dāng)前的論文被引預(yù)測算法大體可分為3類:基于定長特征向量的方法、基于不定長引文時序特征的方法以及基于引文網(wǎng)絡(luò)特征的方法。
定長的特征向量,主要是論文發(fā)表時即存在的特征,包括論文本身相關(guān)、期刊相關(guān)和作者相關(guān)3類[7]。例如,論文的摘要或標(biāo)題中的關(guān)鍵詞[8]、語言風(fēng)格[9];載文期刊的影響因子[10]、載文量[11]、引用半衰期[12];作者之前的被引頻次[13]以及是否獲得諾貝爾獎等[14]。最常見的預(yù)測方法當(dāng)屬多元線性回歸[2,15],其優(yōu)點(diǎn)是可解釋性較強(qiáng),可以比較不同特征對論文被引的解釋能力。但如果以提高預(yù)測精度為目標(biāo),該類方法有些力不從心,并不能挖掘因素間的非線性關(guān)系。耿騫等[3]嘗試了樸素貝葉斯、邏輯回歸、支持向量機(jī)、梯度提升決策樹、XGBoost、AdaBoost和隨機(jī)森林7種算法,發(fā)現(xiàn)XGBoost和隨機(jī)森林可以取得最好的預(yù)測結(jié)果。
基于不定長引用時序特征的方法以論文發(fā)表后前若干年的逐年被引次數(shù)為輸入,預(yù)測其后的被引次數(shù)。對于這一類特征,面向時間序列的序列化學(xué)習(xí)算法是自然的解決思路。Abrishami等[4]基于循環(huán)神經(jīng)網(wǎng)絡(luò),以論文前若干年的被引次數(shù)為每一步的輸入,預(yù)測論文在數(shù)年之后的被引次數(shù)。Liu等[5]結(jié)合了連續(xù)長短期記憶循環(huán)網(wǎng)絡(luò)(Continuous-time long short-term memory,cLSTM)和神經(jīng)霍克斯過程進(jìn)行引用預(yù)測,他們認(rèn)為該方法更能識別“睡美人”現(xiàn)象。
基于引用網(wǎng)絡(luò)特征的方法將待預(yù)測論文看作引文網(wǎng)絡(luò)中的節(jié)點(diǎn),目前主要基于無監(jiān)督的學(xué)習(xí)模式進(jìn)行學(xué)習(xí),不同于之前的分類或回歸算法,這一類算法基于論文在引文網(wǎng)絡(luò)中的拓?fù)湫畔ⅲ赑agerank或相近算法判斷其在網(wǎng)絡(luò)中的重要性,假設(shè)重要性更高的重要節(jié)點(diǎn)的引文排名會更高。相應(yīng)的研究包括Walker等[16]、劉大有等[17]和Davletov等[18]。
現(xiàn)有的方法大多只能利用單一類型的特征,主要出于兩個原因:(1)非經(jīng)專門設(shè)計(jì),多種類型的特征很難兼容彼此。例如,引文網(wǎng)絡(luò)特征是非歐幾里得空間的數(shù)據(jù),難以直接轉(zhuǎn)化為定長特征。(2)方法本身只適用于單一類型的特征。例如,基于無監(jiān)督網(wǎng)絡(luò)學(xué)習(xí)的算法只能利用引文網(wǎng)絡(luò)特征,無法建模其他兩種特征類型。
盡管種類繁多,但對于具體的論文,特征常常是稀疏的。新發(fā)表的論文不存在被引網(wǎng)絡(luò)和引用時序特征,大多數(shù)論文也不發(fā)表在重點(diǎn)期刊,或由知名學(xué)者發(fā)表。因此,建立能夠同時利用多種特征的論文被引預(yù)測算法,可以有效緩解數(shù)據(jù)稀疏問題,提高預(yù)測精度。
本文定義了屬性引文網(wǎng)絡(luò),可同時兼容定長特征、引文網(wǎng)絡(luò)特征和引用時序特征,具體定義如下。
定義1(屬 性 引文 網(wǎng) 絡(luò))令G=(V,W,Xf,Xc),其 中,G為 屬性 引 文 網(wǎng) 絡(luò),V為 網(wǎng) 絡(luò) 中節(jié) 點(diǎn)v1,v2,…,vn的集合,節(jié)點(diǎn)vi為第i篇論文,n=|V|為論文的數(shù)量。W∈Rn×n為節(jié)點(diǎn)的鄰接矩陣,存儲了論文之間的引用關(guān)系,其中的元素只能為0或1,如果為Wi,j=1,表示論文vi引用了vj。Xf∈Rn×f和Xc∈Rn×c是節(jié)點(diǎn)的兩類屬性矩陣,分別為定長特征矩陣和引用時序特征矩陣,各自存儲了論文本身的特征和歷年被引用的次數(shù)。兩個矩陣中,第i行表示論文vi對應(yīng)的屬性向量,f和c分別為兩類屬性的維度。盡管引用時序特征本身是不定長的,發(fā)表年份越久的論文特征維度越大,但本文使用填充技術(shù)將統(tǒng)一轉(zhuǎn)換為同一長度,可提升定義的簡潔性。
本文所使用的特征和編碼方式見表1。此處重點(diǎn)對“期刊名稱”“論文關(guān)鍵詞”和“歷年被引次數(shù)”進(jìn)行介紹。“期刊名稱”表示為單熱點(diǎn)向量,即每個期刊對應(yīng)于1個編號,在后續(xù)的圖神經(jīng)網(wǎng)絡(luò)中,該編號將隱式地轉(zhuǎn)換為稠密的期刊特征向量。由于每個期刊均會出現(xiàn)在多篇論文的Xf中,通過訓(xùn)練該期刊特征向量將會反映期刊本身的特性。“論文關(guān)鍵詞”也是單熱點(diǎn)向量,如果出現(xiàn)多個關(guān)鍵詞,則多個維度的對應(yīng)位置都被設(shè)為1?!皻v年被引次數(shù)”是論文發(fā)表后的逐年被引次數(shù),本文根據(jù)所用數(shù)據(jù)設(shè)置長度為18,即對應(yīng)于論文在1998—2015年的逐年被引次數(shù)。如果1篇論文是2014年發(fā)表的,則其對應(yīng)向量在1998—2013年的維度上的值都設(shè)為0。
表1 本文所使用的特征和編碼方式Table 1 Features and coding methods used in the paper
3種形式的特征對應(yīng)于屬性引文網(wǎng)絡(luò)的位置如下:(1)定長特征,包括論文內(nèi)容、期刊和作者等,存儲于在內(nèi)容屬性矩陣Xf中;(2)引文網(wǎng)絡(luò)特征,本文中即為W;(3)不定長引用時序特征,對應(yīng)于引用屬性矩陣Xc。
值得一提的是,限于篇幅、工作量和本文所使用數(shù)據(jù)集的特點(diǎn),本文并未設(shè)計(jì)和使用更多的特征。屬性引文網(wǎng)絡(luò)具有良好的擴(kuò)展性,足以編碼絕大部分論文被引影響因素。例如,如果數(shù)據(jù)集中包含了學(xué)術(shù)全文本信息,則可在通過自然語言處理技術(shù)提取具體的引用行為特征后,編碼至Xc中;期刊的影響因子、作者的H指數(shù)以及標(biāo)題摘要等文本特征等也可直接附加至Xf中。
本文對論文引用預(yù)測任務(wù)定義如下。
定義2(論文引用預(yù)測任務(wù))對于屬性引文網(wǎng)絡(luò)G,每一個節(jié)點(diǎn)vi對應(yīng)一個標(biāo)簽yi∈Y,Y是標(biāo)簽的集合。已知屬性引文網(wǎng)絡(luò)G和一部分節(jié)點(diǎn)的標(biāo)簽yi∈Ytrain,Ytrain指訓(xùn)練集的標(biāo)簽,論文引用預(yù)測的目標(biāo)是學(xué)習(xí)出1個模型M,使得M(vi)=yi,yi∈Ytest,Ytest指測試集的標(biāo)簽。
標(biāo)簽Y如果是離散的,例如高被引/低被引,論文引用預(yù)測可歸類為分類任務(wù);反之,如果Y直接是連續(xù)的被引次數(shù),則可歸類為回歸任務(wù)。Dong等[19]則認(rèn)為論文引用頻次是長尾分布,不適用于回歸預(yù)測。耿騫等[3]認(rèn)為,將引用預(yù)測定義為分類問題,可以使預(yù)測粒度變粗,可利用更符合真實(shí)分布的數(shù)據(jù),模型泛化能力更強(qiáng),研究更有價值。但從機(jī)器學(xué)習(xí)模型的角度來看,分類方法是在回歸預(yù)測目標(biāo)后多加了一層分類層,對構(gòu)建預(yù)測算法本身影響并不大。因此,本文直接以論文的被引次數(shù)為預(yù)測目標(biāo),即Y∈R+。
算法總體框架見圖1。首先,以圖的鄰接矩陣和定長特征矩陣為輸入,使用圖神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)出論文的網(wǎng)絡(luò)特征表示;其次,以引用時序特征矩陣為輸入,基于循環(huán)神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)出論文的逐年引用特征表示;最后,基于多頭注意力模型,融合網(wǎng)絡(luò)特征表示和逐年引用特征表示,并預(yù)測論文的引用次數(shù)。
圖1 本文方法總體框架圖Fig.1 Framework of the proposed method
圖神經(jīng)網(wǎng)絡(luò)系列算法是目前屬性網(wǎng)絡(luò)上最為強(qiáng)大的學(xué)習(xí)算法,其中最為經(jīng)典的是圖卷積神經(jīng)網(wǎng)絡(luò)(Graph convolution network,GCN)[20]。本文基于GCN,面向?qū)傩砸木W(wǎng)絡(luò)的特性進(jìn)行了針對性的特征學(xué)習(xí)。整個GCN的輸入為引文屬性網(wǎng)絡(luò)的鄰接矩陣W和定長特征Xf,輸出為所有論文的網(wǎng)絡(luò)特征表示S∈Rn×g,第i行對應(yīng)于論文vi的網(wǎng)絡(luò)特征表示向量,維度為g。
整個算法可看作多層神經(jīng)網(wǎng)絡(luò),在第k層中輸入的節(jié)點(diǎn)屬性矩陣為,第i行對應(yīng)于論文vi在第k層的特征表示,維度為hk。最初始的第0層被定義為輸入層,即:H(0)=Xf。每一層中,每一個節(jié)點(diǎn)都從其周圍的鄰接節(jié)點(diǎn)中搜集信息,并更新到下一層的節(jié)點(diǎn)屬性特征向量中去。為了更好地利用節(jié)點(diǎn)本身的信息,需要首先對鄰接矩陣增加自連接,使得節(jié)點(diǎn)可以直接利用上一層自己的信息,即
式中In為對角線為1、其余位置均為0的方陣。再進(jìn)行矩陣行和列的歸一化處理,有
式中D為對角矩陣,元素為節(jié)點(diǎn)的度,有
第k層的GCN函數(shù)為
式中:T(k)∈Rn×hk為線性轉(zhuǎn)換矩陣;ReLU為非線性激活函數(shù)。
一般GCN多為2層,過多的層數(shù)會引起過平滑現(xiàn)象,從而導(dǎo)致性能下降。所以對于2層的GCN,論文的網(wǎng)絡(luò)特征表示矩陣S可由式(1)求得。S的每一行對應(yīng)于一篇論文的網(wǎng)絡(luò)特征表示向量,有
論文的引用特征Xc,反映了學(xué)術(shù)界對工作的認(rèn)同程度和引文曲線的形態(tài)。本文使用循環(huán)神經(jīng)網(wǎng)絡(luò)對時間序列進(jìn)行建模,為解決循環(huán)神經(jīng)網(wǎng)絡(luò)的梯度爆炸和梯度消失問題,使用了長短期記憶單元(Long-short term memory unit,LSTM)[21]。為簡化標(biāo)記,此處令x為某篇論文的逐年被引次數(shù),對應(yīng)于的1行,xt表示論文第t年的被引次數(shù)。
首先,利用門函數(shù)計(jì)算遺忘門向量ft、輸入門it、輸出門ot,以及單元狀態(tài)更新值有
式中:σ為sigmoid函數(shù);ht-1為論文在第t-1年的隱藏層向量;Wf、Wi、Wo、Wc為線性轉(zhuǎn)換矩陣;bf、bf、bo、bc為偏置向量。
其次,基于上述4個向量對單元狀態(tài)ct進(jìn)行更新,并得到新的隱藏層向量ht,有
式中tanh為激活函數(shù),即
式中初始的c0和h0都設(shè)置為0向量。
每篇論文得到一個逐年的隱藏層向量ht,按行堆疊,即可得到其逐年的隱藏層矩陣H∈Rc×dh,dh表示LSTM的隱藏層維度。常見的LSTM常以H的最后一列作為輸出。而對于引用次數(shù)預(yù)測任務(wù),由于“睡美人“等形態(tài)引用曲線的存在,中間步數(shù)的輸出也可能具有重要的預(yù)測意義,本文將序列的每一步輸出都保留下來,用于下一步針對性的特征融合。
注意力機(jī)制被廣泛應(yīng)用于機(jī)器翻譯[22]、知識圖譜[23]和目標(biāo)識別[24]等領(lǐng)域,可以動態(tài)地聚焦于復(fù)雜特征的重要部分。本文使用多頭注意力模型,基于論文的網(wǎng)絡(luò)特征對其不同年份的引文時序特征進(jìn)行注意力加權(quán),從而實(shí)現(xiàn)不同類型特征的深度融合。
對于論文vi,其網(wǎng)絡(luò)特征表示向量記為s,即為在2.2節(jié)所得的網(wǎng)絡(luò)特征表示矩陣S中的對應(yīng)行數(shù);對應(yīng)的時序特征矩陣為H,由2.3節(jié)得出。由于H中包含了不同年份的論文引用時序特征,本文基于多頭注意力機(jī)制,以s為查詢式,對不同年份的特征,也就是H的不同列,賦予不同的權(quán)重,聚焦于對未來被引最具預(yù)測能力的時序特征。
首先,通過線性轉(zhuǎn)換Wq、Wk、Wv,將s和H轉(zhuǎn)換為查詢向量q、鍵矩陣K和值矩陣V,有
其次,對查詢向量和鍵矩陣進(jìn)行按列點(diǎn)乘,再通過softmax函數(shù)歸一化后求每一列的權(quán)值,有
最后,不同時序的論文引用特征進(jìn)行加權(quán)求和,其中V:,i表示V的第i列,即有
由于不同的時序特征中包含著不同方面的信息,此處采用多頭注意力特征機(jī)制,具體流程圖見圖2。即使用多組不同的Wq、Wk、Wv,計(jì)算出不同的v,記為v1,v2,…,vm,m為多頭注意力的個數(shù)。
圖2 多頭注意力計(jì)算流程圖Fig.2 Flow chart of multi-head attention calculation
對多頭注意力和s進(jìn)行拼接,再經(jīng)過向量點(diǎn)乘后,得到了最終的預(yù)測結(jié)果
式中:uT為權(quán)重向量為論文vi的預(yù)測被引次數(shù);concat是拼接函數(shù);ReLU激活函數(shù)除了可以提供非線性轉(zhuǎn)換,還能保證預(yù)測的被引次數(shù)大于等于0。
本文使用均方根誤差(Root mean square error,RMSE)計(jì)算損失函數(shù)為
再使用反向傳播算法優(yōu)化模型中的所有參數(shù),包括GCN、LSTM和特征融合模塊中的所有參數(shù)。
在特征融合時,為何要區(qū)分Xf和Xc,對其分別使用GCN和FNN進(jìn)行特征表示學(xué)習(xí);而不是直接合并Xf和Xc輸入到1個GCN中進(jìn)行預(yù)測?這是由論文被引預(yù)測本身的性質(zhì)決定的。在GCN中,屬性通過鄰接邊傳遞到相鄰的節(jié)點(diǎn)上去,相鄰的節(jié)點(diǎn)常常會學(xué)習(xí)出相近的屬性和標(biāo)簽。因此,使用GCN預(yù)測論文的學(xué)科時很容易取得成功[20]。而在預(yù)測論文被引時,相鄰的2個論文節(jié)點(diǎn)的引用差距極大是常見的現(xiàn)象,比如一篇經(jīng)典論文發(fā)表10年,被引數(shù)百次,而另一篇論文剛剛發(fā)表,尚未獲得被引,經(jīng)典論文的被引屬性傳遞到新論文上,會嚴(yán)重高估新論文的預(yù)測被引次數(shù)?;谝陨峡紤],本文對兩類特征進(jìn)行區(qū)分學(xué)習(xí),避免上述的信息傳播問題。
本文使用的數(shù)據(jù)庫為中文社會科學(xué)引文索引(Chinese social sciences citation index,CSSCI)1998—2020年的數(shù)據(jù),該數(shù)據(jù)庫包含了中文核心期刊論文的題錄和引文信息。本文以1998—2015年的數(shù)據(jù)構(gòu)建了引文屬性網(wǎng)絡(luò),并預(yù)測網(wǎng)絡(luò)中論文在16~20年間的被引次數(shù)。按5∶1∶4的比例隨機(jī)設(shè)置了訓(xùn)練節(jié)點(diǎn)、驗(yàn)證節(jié)點(diǎn)和測試節(jié)點(diǎn)。需要強(qiáng)調(diào)的是,本文采用的是半監(jiān)督的學(xué)習(xí)模式,也就是說,整個網(wǎng)絡(luò)在訓(xùn)練階段對于模型都是可見的,但隱去了驗(yàn)證節(jié)點(diǎn)和測試節(jié)點(diǎn)的標(biāo)簽。表2給出了引文屬性網(wǎng)絡(luò)的總體統(tǒng)計(jì)信息。其中節(jié)點(diǎn)的屬性由16 601維關(guān)鍵詞的稀疏向量、672維期刊的稀疏向量、1維的作者歷史被引次數(shù)和1維的作者歷史平均被引組成。本文只保留了出現(xiàn)頻次20以上的關(guān)鍵詞。
圖3給出了屬性和標(biāo)簽的分布。第1行的3張和第2行的第1張是節(jié)點(diǎn)的屬性,總體上呈現(xiàn)明顯的長尾分布,但其中期刊的分布較為平滑。第2行的第2張給出了引文的間隔,第0年的引用較少,第1、2年的引用達(dá)到高峰,之后逐年下降。第2行的第3張是待預(yù)測的標(biāo)簽,也就是2016—2000年的被引次數(shù),大部分的論文被引次數(shù)均是0次,引用次數(shù)在9次以下的占了絕大部分,極少數(shù)論文會被引更多次。本文使用在測試集上的RMSE來評測算法的精準(zhǔn)度,該指標(biāo)越低,表示預(yù)測的精準(zhǔn)度越高。
圖3 屬性和標(biāo)簽的分布圖Fig.3 Distribution of attributes and labels
4.2.1 基準(zhǔn)方法
本文對比了在論文被引預(yù)測中常用的3種算法,這些方法基于不同類型的特征進(jìn)行學(xué)習(xí)。本文的數(shù)據(jù)集遠(yuǎn)大于之前的研究,例如本文的訓(xùn)練集包含了34萬篇論文,而耿騫等[3]的訓(xùn)練數(shù)據(jù)約包含2.6萬篇論文。因此,在小數(shù)據(jù)集上常用的算法,如支持向量機(jī)、隨機(jī)森林等,因內(nèi)存和訓(xùn)練時間的限制不再適用,故本文主要選擇了在大數(shù)據(jù)集上性能和表現(xiàn)優(yōu)秀的神經(jīng)網(wǎng)絡(luò)系列算法作為基準(zhǔn)。
隨機(jī)猜測:選取測試集上所有標(biāo)簽的平均值作為預(yù)測結(jié)果,經(jīng)統(tǒng)計(jì)為1.31次,該方法忽略了所有輸入特征的作用。所有其他方法的結(jié)果均應(yīng)優(yōu)于隨機(jī)猜測。
前饋神經(jīng)網(wǎng)絡(luò)(Feed-forward neural network,F(xiàn)NN):前饋神經(jīng)網(wǎng)絡(luò)是經(jīng)典的神經(jīng)網(wǎng)絡(luò)。深度為2層,隱藏層的單元數(shù)為512,使用Adam梯度下降[25]進(jìn)行優(yōu)化,初始值設(shè)為0.01,使用Dropout[26]技術(shù)避免過擬合,概率值設(shè)為0.3,批大小為1 000,在測試集上反復(fù)訓(xùn)練,最多50個Epoch。
循環(huán)神經(jīng)網(wǎng)絡(luò)(Recurrent neural network,RNN):循環(huán)神經(jīng)網(wǎng)絡(luò)適用于不定長的特征序列,常在論文引用預(yù)測任務(wù)中被用來建模引用時序特征。本文基于Abrishami等[4]的設(shè)置進(jìn)行了實(shí)驗(yàn),使用LSTM為基本單元。深度為1層,隱藏層的單元數(shù)為512,使用Adam梯度下降進(jìn)行優(yōu)化,初始值設(shè)為0.01,Dropout技概率設(shè)為0.3,批大小為1 000,在測試集上反復(fù)訓(xùn)練,最多50個Epoch。
圖卷積神經(jīng)網(wǎng)絡(luò)[20]:標(biāo)準(zhǔn)的圖神經(jīng)網(wǎng)絡(luò),層數(shù)為2,隱藏層單元數(shù)為32,Dropout概率設(shè)為0.5,使用Adam優(yōu)化,初始學(xué)習(xí)率為0.01,訓(xùn)練了200輪。
4.2.2 實(shí)驗(yàn)細(xì)節(jié)
實(shí)驗(yàn)環(huán)境:全部代碼基于Python 3.6實(shí)現(xiàn),使用Pytorch深度學(xué)習(xí)框架。實(shí)驗(yàn)運(yùn)行在2核的Intel(R)Xeon(R)Silver 4214R CPU@2.40 GHz服務(wù)器上,整個模型訓(xùn)練時間大約為1.5 h。GCN模塊基于DGI①https://docs.dgl.ai/,目前流行的圖神經(jīng)網(wǎng)絡(luò)框架實(shí)現(xiàn)。
評測指標(biāo):本文使用RMSE作為評測指標(biāo),可以看作是預(yù)測被引次數(shù)和實(shí)際被引次數(shù)的平均偏差次數(shù),該指標(biāo)越小,表示預(yù)測越為精確。如果不經(jīng)訓(xùn)練,直接隨機(jī)猜測的話,最低偏差為4.99次。
預(yù)測和訓(xùn)練過程:基于Early stop技術(shù),在驗(yàn)證集上選取RMSE最小的模型作為最終模型,并匯報該模型在測試集上的結(jié)果。
具體參數(shù)設(shè)置:深度學(xué)習(xí)的結(jié)果和超參數(shù)、實(shí)驗(yàn)設(shè)置密切相關(guān),表3中詳述了本文的實(shí)驗(yàn)參數(shù)。
表3 本文方法的主要參數(shù)配置Table 3 Main configure parameters of the proposed method
4.3.1 總體比較
實(shí)驗(yàn)結(jié)果見表4。RNN、FNN方法以論文的歷史逐年被引次數(shù)Xc為特征時,平均偏差為3.49次和3.44次,取得了較大提升。在結(jié)合Xc和Xf后,兩種方法都取得了進(jìn)一步提升,平均偏差分別下降到了3.21次和3.16次。經(jīng)典的圖神經(jīng)網(wǎng)絡(luò)方法GCN以W、Xf為輸入時RMSE為3.89次,但在引入Xc后,預(yù)測精度未見明顯提高。本文方法綜合使用了所有的3種特征,取得了最好的預(yù)測精度2.85次,偏差比第二名,使用了Xf、Xc特征的FNN,下降了0.31次。
表4 不同方法的預(yù)測結(jié)果Table 4 Prediction results of different methods
綜上,可以得到3點(diǎn)結(jié)論:(1)本文方法能夠利用多種異構(gòu)特征,取得了最好的預(yù)測精度;(2)引用特征Xc對于預(yù)測引用次數(shù)極為關(guān)鍵,僅基于該特征的RNN和FNN方法都取得了很好的預(yù)測精度;(3)本文的特征融合方法是有必要的,更能適應(yīng)引用預(yù)測任務(wù)的特性。相比而言,使用全部特征的GCN方法和本文方法在輸入特征上是公平的,但并未比僅使用W、Xf的GCN有大幅度提升,這表明GCN并不能很好地利用好引用特征Xc。
4.3.2 有效性分析
通過比較不同年份上本文方法和基準(zhǔn)方法的表現(xiàn),驗(yàn)證了異構(gòu)特征融合方法的有效性。圖4(a)比較了發(fā)表年份不同時GCN方法和本文方法的結(jié)果,其中GCN方法的特征是Xf和Xc的拼接。也就是說,此時的GCN方法和本文方法輸入的特征是完全一致的。GCN方法在1~2年時和本文方法結(jié)果很接近,此時引用特征Xc的信息還較為稀疏,當(dāng)年份增加時,GCN方法的RMSE的下降趨勢并沒有本文方法明顯,這表明GCN并不能很好地利用引用特征,也驗(yàn)證了3.5節(jié)中的討論。圖4(b)比較了不同發(fā)表年份下RNN方法和本文方法的對比??梢钥闯觯l(fā)表年份越大時,預(yù)測的精度越好(RMSE越?。?。而論文剛發(fā)表的1~2年之間,引用數(shù)據(jù)極為稀疏,此時預(yù)測的偏差較大,但本文方法的RMSE相對提高較大。這表明,本文方法可以較好地應(yīng)對數(shù)據(jù)稀疏問題。
圖4 不同年份下基準(zhǔn)方法和本文方法的RMSE對比Fig.4 Comparison on RMSE between the benchmark method and the proposed method
4.3.3 參數(shù)敏感性分析
圖5給出了不同超參數(shù)設(shè)置下本文方法的性能。圖5(a)顯示,LSTM的隱藏層維度在16時,取得了最低的RMSE值,隨著維度值增加,模型的誤差上升較慢。圖5(b)顯示,GCN的隱藏層維度在16時,RMSE最低。圖5(c)給出,隨著多頭注意力個數(shù)的上升,模型誤差下降,到4時取得最好結(jié)果,再提升注意力個數(shù)會導(dǎo)致誤差急速上升。
圖5 參數(shù)敏感性分析Fig.5 Parameter sensitivity analysis
在選擇超參數(shù)時,本文方法的預(yù)測誤差對GCN的隱藏層維度不太敏感,對LSTM的隱藏層維度較為敏感。選擇多頭注意力的個數(shù)要格外小心,會明顯影響最終結(jié)果的精度。
4.3.4 多頭注意力的可視化
圖6給出了2篇典型論文的多頭注意力熱力圖。顏色越深表示權(quán)重越高,橫 坐 標(biāo) 中1對 應(yīng)1998年,18對 應(yīng)2015年。從圖6(a)可知:(1)越靠后的年份對未來的被引次數(shù)預(yù)測越重要;(2)不同的注意力聚焦了不同年份的信息,例如,第1行和第2行相比,更注重于中間靠后部分的年份,第3行選中了第6年的引文信息用于預(yù)測。從圖6(b)中可以看出,由于該論文發(fā)表于2013年,橫軸編號16之前的年份不存在被引信息,注意力模型基本上不再聚焦于這些年份,這表明注意力模型可以有效聚焦于部分重要年份。
圖6 多頭注意力的熱力圖Fig.6 Heat map of multi-head attention mechanism
本文提出了一種融合異構(gòu)特征的論文引用預(yù)測方法,可以有效利用定長特征、引用時序特征和引文網(wǎng)絡(luò)特征進(jìn)行被引預(yù)測。在CSSCI數(shù)據(jù)庫18年的大規(guī)模數(shù)據(jù)上的實(shí)驗(yàn)證明,本文方法可以有效解決數(shù)據(jù)稀疏問題,提高預(yù)測精度,RMSE比最好的基準(zhǔn)方法降低了0.31。盡管本文所提出的預(yù)測框架可以涵蓋多種異構(gòu)特征,但還不足以建模引文上下文信息。早期引文上下文中蘊(yùn)含了學(xué)者對論文的初步評價,對未來被引具有重要指征意義。下一步工作探索使用具有邊屬性的引文網(wǎng)絡(luò)來組織數(shù)據(jù),將引文上下文信息放置邊上,并設(shè)計(jì)針對性的預(yù)測方法。