• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      基于鏈路分析的作者合著關(guān)系預測研究

      2018-01-07 09:41王衛(wèi)李曉娜閆帥
      現(xiàn)代情報 2018年11期
      關(guān)鍵詞:隨機森林

      王衛(wèi) 李曉娜 閆帥

      〔摘要〕作者合著關(guān)系的預測對于提高科研合作效率和有效的科研管理具有重要的意義。本文以中國知網(wǎng)中圖書情報領(lǐng)域核心期刊作為信息來源,獲取15年(2001-2015)的文獻信息。通過計算指標方差和指標性質(zhì)確定對合著關(guān)系預測的指標體系,同時對比基于單指標的無監(jiān)督方法和基于分類算法的監(jiān)督式機器學習方法(邏輯回歸、支持向量機和隨機森林)的預測效果,本文最終確定基于隨機森林和指標體系所構(gòu)造的合著關(guān)系預測模型。通過實例應用證明該模型具有較好的準確性和穩(wěn)定性。

      〔關(guān)鍵詞〕合著關(guān)系;鏈路分析;隨機森林

      DOI:10.3969/j.issn.1008-0821.2018.11.019

      〔中圖分類號〕G250252〔文獻標識碼〕A〔文章編號〕1008-0821(2018)11-0109-07

      Study on Co-authorship Prediction Based on Link Analysis

      ——Taking LIS Field as ExampleWang Wei1Li Xiaona1Yan Shuai2

      (1.School of Government,Beijing Normal University,Beijing 100875,China;

      2.Department of Public Security of Henan Province,Zhengzhou 450003,China)

      〔Abstract〕The prediction of co-authorship is of great significance to improve scientific research cooperation efficiency and manage scientific research more effectively. Using CNKI as the data resource,this paper selected co-authorship in the core journals between 2001 and 2015.The co-authorship prediction index system was determined by index properties and index variance.By comparing the prediction effect of the unsupervised method based on single index and supervised machine learning method based on classification algorithm which contained logistic regression,support vector machines and random forests,this paper finally confirmed the prediction model of the relationship based on the index system and random forests.

      〔Key words〕co-authorship;link analysis;random forests

      隨著科學技術(shù)的發(fā)展和科學研究的深入,科研活動中的知識交流與共享行為日趨頻繁,作者合著行為呈明顯上升趨勢,合作機制也愈發(fā)有律可循。通過對作者合著關(guān)系產(chǎn)生和發(fā)展機理進行研究,理解科研合著網(wǎng)絡(luò)的關(guān)系行為模式,發(fā)現(xiàn)并模擬科研合著網(wǎng)絡(luò)的動態(tài)演化過程,對于提高合作效率和有效的科研管理具有重要的意義。已有研究發(fā)現(xiàn)影響作者合著行為的因素主要有:自身的合作傾向、合作能力、研究興趣等個體因素,地理位置等情境因素以及學科性質(zhì)。但前人研究缺乏對作者合著行為模式系統(tǒng)化、定量化的描述與揭示。本文假設(shè)合著行為的產(chǎn)生與所在合著網(wǎng)絡(luò)中網(wǎng)絡(luò)結(jié)構(gòu)特征以及作者個體屬性特征有關(guān),從合著網(wǎng)絡(luò)的適用性和預測方法的可解釋性等角度出發(fā),選取了基于分類模型的機器學習方法,通過構(gòu)建指標體系,對多種預測方法進行對比,分析合著網(wǎng)絡(luò)的形成機制,并進一步預測合著網(wǎng)絡(luò)。

      1相關(guān)理論基礎(chǔ)

      鏈路預測是通過已知的網(wǎng)絡(luò)節(jié)點以及一些網(wǎng)絡(luò)結(jié)構(gòu)信息,預測網(wǎng)絡(luò)中尚未產(chǎn)生連邊的兩個節(jié)點之間產(chǎn)生連接的可能性。它是網(wǎng)絡(luò)研究的重要方法之一,尤其對鏈接關(guān)系預測與推薦等方面具有較高的應用價值[1-2]。

      目前鏈路預測主要采用基于相似性的方法和基于學習的方法,其中基于相似性的方法是通過基于鄰居信息、路徑或隨機游走的相似性指標等,根據(jù)已知網(wǎng)絡(luò)中的節(jié)點結(jié)構(gòu)和節(jié)點屬性,通過某項指標計算每一對未連接節(jié)點的相似程度,相似程度越高,其存在鏈接的概率越大[3];而基于學習的方法是將鏈路問題看作一分為二的問題,即兩個節(jié)點存在連接或不存在連接,該方法也是根據(jù)已知網(wǎng)絡(luò)中的節(jié)點結(jié)構(gòu)和節(jié)點屬性,通過無監(jiān)督或有監(jiān)督的機器學習算法或概率模型等來預測未知節(jié)點對的連接屬于正類或負類的概率[4]。

      在機器學習算法上,根據(jù)不同的鏈路預測問題,可分為非監(jiān)督式方法和監(jiān)督式方法?;诜潜O(jiān)督方法,可通過K近鄰算法判斷節(jié)點對連接與否。K近鄰算法[5]是通過給定的訓練數(shù)據(jù)集,判斷新入樣本在該訓練數(shù)據(jù)集中最臨近的K個實例,并將該樣本歸入K個實例中多數(shù)實例所屬的類中?;诒O(jiān)督式方法,主要是選擇合適的分類算法。目前該領(lǐng)域有較多的分類算法[5],如邏輯回歸利用邏輯函數(shù)計算節(jié)點對之間產(chǎn)生連接的概率值;支持向量機是尋找特征空間上最大間隔面的線性分類器,通過間隔最大化,最終轉(zhuǎn)化為一個凸二次規(guī)劃問題的求解;隨機森林算法通過反復二分數(shù)據(jù)進行分類或回歸,隨機使用變量和數(shù)據(jù),按照純度最小原則分裂,對生成的多棵獨立決策樹選擇出最優(yōu)的分類結(jié)果,每一棵決策樹最大限度地生長,不做任何修剪,將生成的多棵決策樹組成隨機森林,用分類器對決策樹的分類結(jié)果投票,以票數(shù)多少確定分類結(jié)果。

      針對鏈路預測效果進行評價,可對應預測方法選擇不同的評價方法?;谙嗨菩苑椒ǖ逆溌奉A測問題,可以選擇Accuracy的評價方法,它指相似度排序靠前的k個預測邊的預測準確率,預測正確的邊的數(shù)量越多,準確率越高;基于學習方法的鏈路預測問題,可以使用經(jīng)典分類算法的評價標準,即Precision、Recall、F1、AUC值。其中Precision度量其精確性,表示被劃分為正類樣本的數(shù)量中實際為正類樣本數(shù)量的比例。Recall度量其覆蓋面,表示被劃分為正類樣本的數(shù)量在所有正類樣本集合中的比例。F1是正確率與召回率的調(diào)和平均值,數(shù)值越大,效果越好,其計算公式為F1=Precision*Recall*2Precision+Recall;如果采用AUC值進行鏈路預測評價,需要建立一個縱坐標為召回率橫坐標為偽正率的二維坐標系,即實際為負類集合中被劃分為正類的樣本數(shù)比例,形成一條ROC曲線,AUC則為曲線下的面積,AUC值越大,預測效果越好,如果值大于05說明模型的分類效果好于隨機預測效果。

      2018年11月第38卷第11期現(xiàn)代情報Journal of Modern InformationNov.,2018Vol38No112018年11月第38卷第11期基于鏈路分析的作者合著關(guān)系預測研究Nov.,2018Vol38No112合著關(guān)系預測指標體系

      21研究假設(shè)

      本文指標構(gòu)建的相關(guān)研究假設(shè)如下:

      1)合著網(wǎng)絡(luò)中網(wǎng)絡(luò)結(jié)構(gòu)相似的節(jié)點(作者)對更易產(chǎn)生合著;

      2)合著網(wǎng)絡(luò)中介中心度差異大的節(jié)點(作者)對更易產(chǎn)生合著;

      3)合著網(wǎng)絡(luò)中聚類系數(shù)差異大的節(jié)點(作者)對更易產(chǎn)生合著;

      4)合著網(wǎng)絡(luò)中節(jié)點(作者)傾向于和合作度大的節(jié)點(作者)合著;

      5)合著網(wǎng)絡(luò)中合作率差異大的節(jié)點(作者)對更易產(chǎn)生合著;

      6)合著網(wǎng)絡(luò)中節(jié)點(作者)傾向于和論文數(shù)多的節(jié)點(作者)合著;

      7)同一機構(gòu)的作者更易產(chǎn)生合著;

      8)研究興趣點相似或相近的作者更易產(chǎn)生合著;

      9)兩個有較多共同合作過機構(gòu)的作者更易產(chǎn)生合著。

      22網(wǎng)絡(luò)結(jié)構(gòu)特征指標

      在作者合著網(wǎng)絡(luò)中,既往研究使用的指標如表1所示。表1既往研究作者合著網(wǎng)絡(luò)使用指標

      既往研究使用的指標Yan E等[6]CN、Jaccard、AA、PA、SimRank、PageRank等AI Hasan M等[7]CN、Shortest Path、Sum of Neighbors、

      Sum of keyword Count等Guns R等[8]CN、Jaccard、AA、weighted Katz等Pavlov M等[9]Shortest Path、CN、Jaccard、AA、PA、

      Weighted Katz、Link Value等Zhang J等[10]CN、Common Keyword、Common Journal等

      在作者合著關(guān)系的網(wǎng)絡(luò)結(jié)構(gòu)特征指標中,本文主要用到了CN(Common Neighbors)指標、Jaccard指標、AA(Adamic Adar)指標、PA(Preferential Attachment)指標、中介中心度之差、聚類系數(shù)之差。以下分別對其進行說明:

      CN指標是指節(jié)點對的共同合作作者數(shù),認為共同作者數(shù)越多,這兩個節(jié)點產(chǎn)生鏈接的概率越大。

      Jaccard指標是在節(jié)點對中,兩者的共同合作者數(shù)量占兩者合作者總數(shù)量的比重。

      AA指標[3]是根據(jù)節(jié)點對共同鄰居的度信息,度小的共同鄰居節(jié)點的貢獻大于度大的共同鄰居節(jié)點,因此根據(jù)共同鄰居節(jié)點的度,為每一個節(jié)點賦予該節(jié)點的度的對數(shù)分之一的權(quán)重值,即1/lg k。

      PA指標[11]針對無標度的網(wǎng)絡(luò)結(jié)構(gòu)特性,認為網(wǎng)絡(luò)中節(jié)點中心度數(shù)小的節(jié)點更傾向于與網(wǎng)絡(luò)中度數(shù)大的節(jié)點產(chǎn)生連接,因此在合作網(wǎng)絡(luò)中該值等于節(jié)點對度數(shù)的乘積。

      中介中心度在作者合作網(wǎng)絡(luò)中表示網(wǎng)絡(luò)中某位作者出現(xiàn)在其他作者對最短路徑上的程度,中介中心度越大,表明該作者促進其他作者對形成合作關(guān)系的能力越強。中介中心度之差,則是指兩個作者的中介中心度的差異程度。

      聚類系數(shù)之差是考察節(jié)點之間存在的密集連接程度的差異,即作者對之間聚類系數(shù)的差異程度。

      23個體屬性指標

      本文多考慮了個體屬性指標和作者的合作計量指標,其中個體屬性指標包括論文數(shù)之積、是否同一機構(gòu)、研究興趣匹配度和合作機構(gòu)相似度。以下分別對其進行說明:

      論文數(shù)之積,由于論文數(shù)量在一定程度上可反映作者的科研水平,在基于網(wǎng)絡(luò)結(jié)構(gòu)的指標中我們考慮了作者合作者數(shù)量的優(yōu)先連接,這里通過計算合著網(wǎng)絡(luò)中任意作者對歷史發(fā)文數(shù)量的乘積,來考察該值是否會影響作者合著關(guān)系的形成。此處統(tǒng)計的作者發(fā)文數(shù)是指每位作者在5年內(nèi)的全部發(fā)文數(shù)量,包含獨立發(fā)文數(shù)與合作發(fā)文數(shù),使用Nx表示作者x5年內(nèi)的發(fā)文篇數(shù),該值計算如下式所示:

      Preferpaper=N(x)×N(y)

      是否同一機構(gòu),從學術(shù)交流的便捷性和工作情感角度,同一機構(gòu)的科研工作者更容易形成合作關(guān)系。

      研究興趣匹配度,研究興趣相似是促成合作關(guān)系的常見原因,我們提取每位作者歷史發(fā)文中的關(guān)鍵詞信息,用于表示每位作者的研究興趣,隨機組配作者對,以作者對歷史發(fā)文的關(guān)鍵詞集合的交集的數(shù)量作為匹配度。

      合作機構(gòu)相似度,我們通過考察每位作者既往合作過的機構(gòu)作為合作機構(gòu)集合,通過計算作者對之間合作機構(gòu)集合的交集的數(shù)量,作為作者對合作機構(gòu)相似度。

      24合作計量指標

      合作計量指標是對作者歷史合作行為的刻畫,融入該指標有助于更好地理解合著行為。它是由合作率之差和合作度之積構(gòu)成,以下分別對其進行說明:

      合作度之積,其中合作度是指作者所發(fā)表論文的篇均作者數(shù),合作度越高論文篇均合作者越多,沒有合作行為的獨立研究人員的合作度最小,取值為1,我們通過計算兩個作者的合作度的乘積,進而判斷作者對是否存在合作度的優(yōu)先連接。這里用Nx表示作者x的發(fā)文總數(shù),fxj表示作者x的所有論文中作者數(shù)為j的論文數(shù)量,q表示單篇文獻的最大作者數(shù)量。具體公式如下:

      PreferDC=∑qj=1jfxjNx*∑qj=1jfyjNy

      合作率之差,其中合作率反映作者科研合作的深度,指作者合作論文數(shù)占全部產(chǎn)出論文的比率,通過考察兩個作者在合作率上的差異是否會對作者之間的合著產(chǎn)生影響。這里用Nx表示作者x的發(fā)文總數(shù),fx表示作者x的合作發(fā)文數(shù),并提出了合作率差異指標如下式所示:

      difCI=fxNx-fyNy

      25指標體系

      通過上述研究可發(fā)現(xiàn),指標體系中主要以網(wǎng)絡(luò)結(jié)構(gòu)特征為主,因此在初步形成的鏈路預測指標集合的基礎(chǔ)上,我們對各指標做二次篩選,一方面通過指標的方差大小進行篩選,因為方差較小的指標所具有的區(qū)分度較小,所以去除方差較小的指標;另一方面通過指標性質(zhì),去除一些不適用于合著網(wǎng)絡(luò)的指標以及已經(jīng)被相關(guān)研究證明效果較差的指標。

      在綜合考慮作者合著網(wǎng)絡(luò)結(jié)構(gòu)特征和主流的鏈路預測指標基礎(chǔ)上,最終確定如下的指標體系,見圖1。

      3預測模型分析

      31數(shù)據(jù)獲取與處理

      本文以2014-2015年中文核心期刊目錄(CSSCI)圖情領(lǐng)域17種刊物作為文獻信息來源,并選擇CNKI作為研究數(shù)據(jù)采集平臺,從該平臺獲取上述期刊15年(2001-2015)的文獻信息,共79 715條記錄,通過Python編程對數(shù)據(jù)預處理,去除期刊簡訊、會議信息、通告、活動報道等無關(guān)記錄4 813條,保留有效記錄74 902條。

      以5年為一個階段,將上述15年的數(shù)據(jù)分為2001-2005年、2006-2010年、2011-2015年3個階段。

      32預測實驗設(shè)計

      作者合著關(guān)系預測,即未來連邊預測,是指在合著網(wǎng)絡(luò)的演化過程中,判斷在前一階段合著網(wǎng)絡(luò)中不存在合著關(guān)系的作者在后一階段是產(chǎn)生合著關(guān)系還是仍然不存在合著關(guān)系。

      為了便于分析,本文引入一些記號和概念。用Eold表示前一階段(old)合著網(wǎng)絡(luò)中邊(合著關(guān)系)的集合;用Enew表示后一階段(new)合著網(wǎng)絡(luò)中邊(合著關(guān)系)的集合。在前一階段如果作者對(u,v)不存在合著關(guān)系,即(u,v)Eold,則稱(u,v)是潛在連邊。合著關(guān)系預測是針對潛在連邊(u,v)預測其未來連邊情況,實際上只有兩種情況:(u,v)∈Enew(產(chǎn)生合著關(guān)系)和(u,v)Enew(仍不存在合著關(guān)系),分別稱之為新連邊和缺失連邊。這樣,合著關(guān)系預測就轉(zhuǎn)化為一個二分類問題:負類類標為0(缺失連邊)或正類類標為1(新連邊)。

      本文將2001-2005年作為前一階段,2006-2010年作為后一階段。由于在潛在連邊中缺失連邊的數(shù)量遠大于新連邊的數(shù)量,導致分類中正負樣本比例嚴重失調(diào),其中在2006-2010年合著網(wǎng)絡(luò)中存在合著關(guān)系的新連邊數(shù)量為731,缺失連邊數(shù)量為5 364 112,所以我們對缺失連邊進行隨機抽樣,與新連邊形成1∶1的正負樣本比例,構(gòu)成實驗數(shù)據(jù)集。通過統(tǒng)計2001-2005年合著網(wǎng)絡(luò)上各個指標值,預測在2006-2010年合著網(wǎng)絡(luò)中的未來連邊。

      33預測方法選擇

      根據(jù)相關(guān)研究[4,12],在鏈路預測的預測方法上,本文可選擇基于單指標的無監(jiān)督方法和基于分類算法的監(jiān)督式機器學習方法進行實驗。

      根據(jù)上述實驗設(shè)計內(nèi)容,將2001-2005年合著網(wǎng)絡(luò)和2006-2010年合著網(wǎng)絡(luò)作為數(shù)據(jù)集1,通過2006-2010年的合著網(wǎng)絡(luò)來判斷各方法對2001-2005年合著網(wǎng)絡(luò)的潛在連邊的預測效果;同樣,將2006-2010年合著網(wǎng)絡(luò)和2011-2015年合著網(wǎng)絡(luò)作為數(shù)據(jù)集2,通過2011-2015年的合著網(wǎng)絡(luò)判斷各方法對2006-2010年合著網(wǎng)絡(luò)的潛在連邊的預測效果。同時在一定程度上了解預測方法的穩(wěn)定性。

      331基于單指標的預測

      通過計算指標體系中每一個指標在數(shù)據(jù)集中的得分,采用Accuracy評價方法,獲得指標預測正確率。需要說明的是,由于同一機構(gòu)指標為類別變量,所以未參與預測。預測結(jié)果如圖2所示:

      由圖2可知,多數(shù)指標在數(shù)據(jù)集1和數(shù)據(jù)集2上的準確率都較為接近,表明所選指標具有較好的穩(wěn)定性和可靠性。從各指標在指標體系中所屬的3個大類來看,整體預測效果最好的是基于作者個體屬性指標,其次為合作計量指標,最差的為基于網(wǎng)絡(luò)結(jié)構(gòu)特征的指標。單個指標預測準確率最高的指標是合作機構(gòu)的相似度,其次為網(wǎng)絡(luò)結(jié)構(gòu)特征的PA指標、中介中心之差、研究興趣匹配度和論文數(shù)之積以及聚類系數(shù)之差。由于多數(shù)作者對的共同鄰居作者較少且Jaccard、AA兩個指標都是基于CN所構(gòu)造,使得CN、Jaccard、AA指標的預測準確率均較低且比較接近。

      332基于分類算法的預測

      結(jié)合各種分類算法自身的優(yōu)缺點及適用條件,同時根據(jù)分類算法對比的相關(guān)研究[13],支持向量機和隨機森林在多數(shù)分類實驗中均能取得較好的預測效果,在預測性能的穩(wěn)定性方面優(yōu)于多數(shù)算法;而邏輯回歸算法因模型簡單易理解、運算速度快、預測效果相對較好而被廣泛使用。本文選擇這3種分類算法構(gòu)建合著關(guān)系預測模型。

      對數(shù)據(jù)集1和數(shù)據(jù)集2分別采用十階交叉驗證,使用3種分類算法在訓練集上進行預測,在測試集上驗證,通過選用準確率、精度、召回率、F1值和AUC面積評價3類分類算法的預測效果。3種分類算法均通過Python中的機器學習包Sklearn實現(xiàn)。算法參數(shù)設(shè)置上,邏輯回歸采用L2型正則化(解決指標多重共線性問題);支持向量機采用線性核函數(shù),懲罰系數(shù)10;隨機森林種樹50棵,其他參數(shù)值為默認值。具體預測效果見表2所示。

      從縱向來看,數(shù)據(jù)集1三個指標的預測效果普遍要略好于數(shù)據(jù)集2,由于數(shù)據(jù)集1演化時期要早于數(shù)據(jù)集2,因此我們認為早期的合著關(guān)系的形成更有規(guī)律性,使得其預測性也更好。

      34預測模型中指標體系的選擇

      通過上述分析,本文使用隨機森林分類算法分別得到了指標體系中3種類型指標集的預測效果,同時我們還實驗了Mohammad[7]、Raf Guns[8]的合著關(guān)系預測模型,用于和本文所構(gòu)建的預測模型進行比較,如表3所示。

      從表3可以看出,3種類型的指標集合在合著關(guān)系預測上的準確率幾乎都好于單個指標。另外,在3種類型指標集之間,預測效果最好的是個體屬性指標(與單個指標預測的結(jié)論相同),其次是網(wǎng)絡(luò)結(jié)構(gòu)指標,最差的為合作計量指標。而融合3種指標集的指標體系的預測效果則明顯好于任意一種指標集,表明考慮多種情況的指標體系更適用合著關(guān)系預測。同時,通過比較發(fā)現(xiàn),基于本文構(gòu)建的指標體系以及隨機森林算法所形成的合著關(guān)系預測模型要好于Mohammad、Raf Guns的合著關(guān)系預測模型,進一步驗證了本文指標體系的可靠性和合著模型的有效性。

      通過上述比較本文認為基于隨機森林和指標體系所構(gòu)造的合著關(guān)系預測模型能有效地預測合著網(wǎng)絡(luò)中合著關(guān)系的未來連邊情況。因此利用該預測模型與數(shù)據(jù)集1形成合著關(guān)系預測模型M1,與數(shù)據(jù)集2形成合著關(guān)系預測模型M2,分別通過上一階段合著網(wǎng)絡(luò)預測下一階段合著情況。以下分別對兩個預測模型的預測效果進行分析。

      圖3為M1模型對2001-2005年和2006-2010年兩個階段潛在連邊的預測效果,從圖中可知,在各項評價指標上M1模型對2001-2005年潛在連邊的預測均好于對2006-2010年潛在連邊的預測。引起上述結(jié)果的主要原因為,該模型是基于第一階段的合著關(guān)系數(shù)據(jù)預測其潛在連邊哪些會在第二階段的合著網(wǎng)絡(luò)中產(chǎn)生合著,因而該模型對2001-2005年合著網(wǎng)絡(luò)的數(shù)據(jù)擬合效果自然要好于對新的、未擬合過的2006-2010年的合著關(guān)系數(shù)據(jù),而且在合著網(wǎng)絡(luò)的演化過程中難免會新增或丟失一些信息或特征,進而影響預測效果。但從圖中可以看到M1模型對2006-2010年合著關(guān)系的預測效果好于很多331節(jié)提到的指標。究其原因,我們認為是模型所使用的指標體系中的指標確實在一定程度上刻畫了合著關(guān)系形成的機理,從而能在下一時期的合著關(guān)系數(shù)據(jù)集提供關(guān)于合著關(guān)系存在有否的信息。

      隨機森林算法能確定每個指標的gini系數(shù)分布,gini系數(shù)表示節(jié)點的純度,gini系數(shù)越大純度越低,因此gini系數(shù)可度量變量的重要程度。我們基于預測模型中的隨機森林算法,得到了模型中各指標重要性的大小及排序,如圖4所示。

      另外對M1模型中2006-2010年合著網(wǎng)絡(luò)關(guān)系預測結(jié)果進行探討。按模型預測概率值的大小降序排序,并選取了排在前10位的作者對,如表4所示。表中第2列類標表示作者對在2011-2015年實際合著網(wǎng)絡(luò)中是否合著,1代表合著,0代表沒合著;而第3列預測概率表示M1模型預測作者對是否合著的概率值,該值大于05代表合著,小于05表示沒合著。從表4可見前10位的作者對預測均準確。而概率值排名前50的作者對中,模型預測準確率仍為100%,在概率值前100的作者對中,模型預測的準確率為94%。上述結(jié)果表明M1模型具備較強的可靠性,當模型預測作者對產(chǎn)生合著的預測概率值高時,意味著作者對實際存在的合著關(guān)系的可能性越大。表4按模型預測概率排序的前10位預測結(jié)果

      作者對類標預測概率(王英,王政)11(吳鋼,彭敏惠)11(王菲菲,趙蓉英)11(劉佳,王馨)11(趙楊,張李義)11(余以勝,趙蓉英)11(易明,毛進)11(王靜,郭太敏)11(李春明,薩蕾)11(張志強,張智雄)11

      綜上分析,我們認為基于前一階段合著網(wǎng)絡(luò)和當前網(wǎng)絡(luò)產(chǎn)生的合著關(guān)系預測模型,可用于預測當前合著網(wǎng)絡(luò)中潛在連邊在下一階段的連邊情況,如果模型給出的預測概率值越高,其預測正確的可能性也越大。我們根據(jù)數(shù)據(jù)集2得到合著關(guān)系預測模型M2,用于預測2011-2015年的潛在連邊中有哪些將在未來產(chǎn)生合著關(guān)系。通過對M2預測概率值進行排序,類標為1、預測概率為1的作者對數(shù)量共1 149對,以下列出部分可靠性較高的預測結(jié)果,如表5所示。

      圖5是M2模型中各指標重要性大小及其排序。對比圖4可知,模型M1和M2在指標重要性方面既有相同之處,又有不同。首先,兩個模型中最顯著的指標都是合作度之積,說明該指標具有較強的重要性,由于合作度表示作者篇均合著者數(shù),意味著合著網(wǎng)絡(luò)中的作者傾向于和合作度高的作者合著。而合作機構(gòu)的相似性、中介中心性之差兩個指標分別是對作者合著對象來源范圍和合著網(wǎng)絡(luò)中心結(jié)構(gòu)的刻畫,也分別是模型前后兩組預測的第二重要指標,從整體上來看它們在合著關(guān)系預測模型中的重要性高于大多數(shù)指標,意味著合著網(wǎng)絡(luò)中的作者傾向于與自己有相似合作單位的作者或資源占據(jù)多的作者合作。另外,論文數(shù)之積和合作率之差在合著關(guān)系預測模型中的重要性非常穩(wěn)定,表示這兩種指標能預測合著關(guān)系的可靠性強。在模型前后兩組預測中,研究興趣匹配度的重要性都很低,表明作者并不把研究興趣的相似度看作選擇合著者的重要的優(yōu)先條件。合著網(wǎng)絡(luò)中的作者更多是與網(wǎng)絡(luò)中心度高或合作度高的作者合著,這一方面能提高作者的科研合著產(chǎn)出或降低時間等成本;另一方面通過與他們的合著能借助他們的人脈等資源更好地拓展自身學術(shù)圈。其他指標在重要程度上也存在一定的變化,但它們整體重要性并不高,對合著關(guān)系預測整體的影響力也一般。

      5問題與討論

      前面我們從合著關(guān)系預測實驗、預測效果分析等角度探討了基于鏈路預測方法的合著關(guān)系預測的主要問題。但是除上述問題外,我們對模型的改進需進一步探討,以及在合著關(guān)系預測上還需要注意實驗數(shù)據(jù)集的選擇、網(wǎng)絡(luò)新增節(jié)點等問題。

      51基于時間序列的預測

      在上述討論中,我們構(gòu)建的預測模型是利用前一階段

      合著網(wǎng)絡(luò)中合著關(guān)系的數(shù)據(jù)來預測下一階段的合著關(guān)系的未來連邊情況。但是合著網(wǎng)絡(luò)是一個動態(tài)變化的過程,缺乏穩(wěn)定性,應該對模型不斷地改進。通過對模型進行修正可以讓預測模型最大程度捕捉到合著關(guān)系形成的一般規(guī)律,使模型具有更好的泛化能力。因此我們借鑒時間序列預測的思想對上述預測模型進行擴展。

      如圖6所示,假設(shè)已知過去5個階段合著網(wǎng)絡(luò)中合著關(guān)系的連接情況,預測第6個階段合著網(wǎng)絡(luò)中的合著關(guān)系。首先,在相鄰的兩個階段上,從前一階段數(shù)據(jù)集上得到合著關(guān)系數(shù)據(jù),通過后一階段的數(shù)據(jù)集獲取合著關(guān)系連接與否的類標,并生成一個預測模型,基于前4個已知階段產(chǎn)生3個預測模型。其次,我們可以對相鄰模型(如模型1和模型2)的預測效果和各指標的GINI系數(shù)等進行比較,通過調(diào)整指標權(quán)重或新增修正因子指標等方式得到修正模圖6基于時間序列的預測模型

      型(如修正模型2),而對修正模型可行性或效果的驗證則需根據(jù)更后兩階段的數(shù)據(jù)集(如數(shù)據(jù)集3和數(shù)據(jù)集4,這里我們是使用修正模型2預測數(shù)據(jù)集3上的潛在連邊,并通過數(shù)據(jù)集4的合著關(guān)系連接情況進行效果驗證,以考察修正模型對新數(shù)據(jù)預測的有效性和可行性)。依次類推,直到得到最終的修正模型,并基于該修正模型對未來的合著關(guān)系情況進行預測。

      52數(shù)據(jù)集的選擇

      在32節(jié)合著關(guān)系預測實驗設(shè)計中,我們提到合著網(wǎng)絡(luò)的潛在連邊中存在較為明顯的正負樣本失衡現(xiàn)象,即較少的新連邊和較多的缺失連邊,但我們?nèi)藶榈膶?shù)據(jù)集中新連邊和缺失連邊的比重設(shè)為1∶1,本節(jié)通過增大缺失連邊的比重探究抽取數(shù)據(jù)樣本對合著關(guān)系預測模型的影響。

      首先將新連邊和缺失連邊的比例設(shè)為1∶1、1∶10、1∶20、1∶30、1∶40、1∶50共6檔,通過增大上述實驗數(shù)據(jù)集1、數(shù)據(jù)集2中缺失連邊的數(shù)量,使用隨機森林方法,對6檔比重分別進行預測,并觀察其預測效果。具體結(jié)果見圖7所示。圖7不同比重數(shù)據(jù)集的預測效果比較

      由圖7可知,兩個數(shù)據(jù)集中隨著缺失連邊比重的增加,F(xiàn)1值和AUC值不斷下降,說明提高缺失連邊的比重,合著關(guān)系預測模型的預測呈下降趨勢。但是隨著缺失連邊比重的不斷增加,準確率呈上升趨勢,預測精度出現(xiàn)上下波動,而召回比重呈逐步下降趨勢。準確率的上升是由于隨著缺失邊的不斷增加,合著關(guān)系預測模型預測對的缺失連邊的數(shù)量也隨之增加,從而降低對新連邊預測錯誤的比重,但這里準確率增加的意義不大,因為研究目的是預測哪些邊會是新邊,而非預測缺失邊。由于精度考察的是預測模型判定為合著關(guān)系的作者對中真正存在合著的比例,該值的上下波動變化反映出數(shù)據(jù)正負樣本比例的不平衡,降低了預測模型的穩(wěn)定性。召回則考察預測模型對實際存在合著關(guān)系的作者對預測正確的比例,該值在數(shù)據(jù)負樣本比例逐步增加的情況下呈現(xiàn)不斷下降的現(xiàn)象,說明數(shù)據(jù)正負樣本的不平衡將導致預測模型對實際存在合著關(guān)系作者對的發(fā)現(xiàn)能力變?nèi)酢?/p>

      通過對圖7的分析可知,用于生成合著關(guān)系預測模型的數(shù)據(jù)集中正負樣本比例的不平衡將降低模型的整體預測效果。因此,如何合理的抽取數(shù)據(jù)樣本對構(gòu)建合著關(guān)系預測模型就顯得尤為重要。

      53合著網(wǎng)絡(luò)新進作者的處理

      在合著網(wǎng)絡(luò)演化過程中存在著一類特殊作者,這類作者在當前合著網(wǎng)絡(luò)中不存在,但在下一階段合著網(wǎng)絡(luò)中新加入的作者,統(tǒng)稱為新進作者。

      由于這類作者不存在于前一階段的合著網(wǎng)絡(luò)中,因此沒有網(wǎng)絡(luò)結(jié)構(gòu)信息,個體屬性信息也不甚完備,我們無法基于指標體系獲取該節(jié)點的相關(guān)指標度量值,所以我們不能直接使用本文所構(gòu)建的模型對這類新進作者的合著關(guān)系進行預測。針對這一問題,我們首先對指標體系中涉及到的相關(guān)基礎(chǔ)指標,根據(jù)需要為其賦值基礎(chǔ)指標在數(shù)據(jù)集上的平均數(shù))。然后,計算出指標體系中的指標值,從而使用合著關(guān)系預測模型進行預測。

      6結(jié)論

      本文綜合作者網(wǎng)絡(luò)結(jié)構(gòu)特性、作者屬性特征和合作計量指標構(gòu)建指標體系,抽取圖情領(lǐng)域核心作者的合作網(wǎng)絡(luò)數(shù)據(jù)建立數(shù)據(jù)集,通過實例驗證了預測模型的可行性,并基于預測模型所得到的指標重要性系數(shù)發(fā)現(xiàn),基于作者合作計量的指標對于預測哪些合著網(wǎng)絡(luò)未來會產(chǎn)生連邊有較強的重要程度,而論文數(shù)之積、合作過機構(gòu)的相似度、是否同一機構(gòu)3個個體屬性指標對預測的重要性也較高,研究興趣相似度的重要性則偏低。另外,在網(wǎng)絡(luò)結(jié)構(gòu)指標中,只有中介中心性之差和PA指標的重要性較高,而基于共同鄰居思想而產(chǎn)生的CN指標、Jaccard指標、AA指標的重要性都比較低。

      合著關(guān)系受到多種因素的影響,在未來的研究中,應盡可能的收集更多的信息,構(gòu)造更有價值的指標,比如在作者屬性上可增添年齡、性別等屬性;在研究興趣的相似性上,可通過算法對全文進行自動摘要,進而再通過對比文獻摘要實現(xiàn)更好的研究興趣匹配度測量;在合著網(wǎng)絡(luò)構(gòu)建時可選擇更粗的細粒度篩選作者等。期望本文的研究有助于科研人員更好的理解科研合著網(wǎng)絡(luò)的關(guān)系行為模式,也為相關(guān)作者或論文推薦系統(tǒng)提供借鑒。

      參考文獻

      [1]張斌,馬費成.科學知識網(wǎng)絡(luò)中的鏈路預測研究述評[J].中國圖書館學報.2015,41(217):99-113.

      [2]Lü L,Zhou T.Link Prediction in Complex Networks:A Survey[J].Physica A:Statistical Mechanics and its Applications,2011,390(6):1150-1170.

      [3]呂琳媛.復雜網(wǎng)絡(luò)鏈路預測[J].電子科學大學學報,2010,39(5):651-661.

      [4]Wang P,Xu B W,Wu Y R,et al.Link Prediction in Social Networks:The State-of-the-art[J].Sciece China Information Sciences,2014,58(1):1-38.

      [5]哈林頓,李銳,等.機器學習實戰(zhàn)[M].北京:人民郵電出版社,2013.

      [6]Yan E,Guns R.Predicting and Recommending Collaborations:An Author-institution and Country-level analysis[J].Journal of Infometrics,2014,8(2):295-309.

      [7]Al Hasan M,Chaoji V,Salem S,et al.Link Prediction Using Supervised Learning[C]//SDM06:Workshop on Link Analysis,Counter-terrorism and Security,2006.

      [8]Guns R,Rousseau R.Recommending Research Collaborations Using Link Prediction and Random Forest Classifiers[J].Scientometrics,2014,101(2):1461-1473.

      [9]Pavlov M,Ichise R.Finding Experts by Link Prediction in Co-authorship Networks[C]// International Conference on Finding Experts on the Web with Semantics.CEUR-WS.org,2007:42-55.

      [10]Zhang J.Uncovering Mechanisms of Co-authorship Evolution by Multirelations-based Link Prediction[J].Information Processing & Management,2016.

      [11]Uddin S,Hossain L,Rasmussen K.Network Effects on Scientific Collaborations[J].PLoS ONE,2013,8(2):1-12.

      [12]Liben-Norwell D Kleinberg J.The Link-prediction Problem for Social Networks[J].Journal of the American Society for Information Science and Technology,2007,58(7):1019-1031.

      [13]Ndez-Delgado M,Cernadas E,Barro S,et al.Do we Need Hundreds of Classifiers to Solve Real World Classification Problems?[J].Journal of Machine Learning Research,2014,15(1):3133-3181.

      (責任編輯:陳媛)2018年11月第38卷第11期現(xiàn)代情報Journal of Modern InformationNov.,2018Vol38No112018年11月第38卷第11期交互記憶系統(tǒng)及其在信息系統(tǒng)研究中的應用與展望Nov.,2018Vol38No11

      收稿日期:2018-08-11

      猜你喜歡
      隨機森林
      拱壩變形監(jiān)測預報的隨機森林模型及應用
      基于隨機森林算法的B2B客戶分級系統(tǒng)的設(shè)計
      基于多視角特征融合與隨機森林的蛋白質(zhì)結(jié)晶預測
      基于TM影像的土地覆蓋分類比較研究
      浦县| 三门峡市| 南木林县| 股票| 蒲城县| 新民市| 长阳| 石泉县| 天水市| 迁安市| 皮山县| 大新县| 界首市| 古田县| 军事| 东光县| 万源市| 乐清市| 汉中市| 丹巴县| 郴州市| 福建省| 晴隆县| 香河县| 拉萨市| 南靖县| 长宁县| 昌吉市| 桑植县| 梅河口市| 宁波市| 英山县| 吉木萨尔县| 鲁甸县| 阿合奇县| 甘南县| 开封市| 巫山县| 武乡县| 浦北县| 南江县|