• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      潛在科研合作機會識別方法研究進展

      2023-06-23 10:11:16張雪張志強
      圖書與情報 2023年2期
      關鍵詞:研究內(nèi)容機器學習

      張雪 張志強

      摘? ?要:文章梳理了國內(nèi)外潛在科研合作機會識別相關成果,歸納總結(jié)現(xiàn)有識別方法及存在的問題,為學科領域進行前瞻性合作推薦提供參考借鑒。首先對潛在科研合作機會識別的必要性進行歸納總結(jié),其次對相關概念及研究主體類型進行界定,再次在調(diào)研國內(nèi)外相關研究基礎上對潛在科研合作機會識別方法進行歸納整理,最后指出現(xiàn)有研究不足并對未來發(fā)展提出展望。研究發(fā)現(xiàn):就研究主體類型而言,根據(jù)研究目的、研究層次的不同,將研究主體劃分為微觀、中觀、宏觀三個維度。就識別方法而言,外部屬性信息是潛在科研合作機會識別方法中最直接、最通俗易懂的方法;鏈路預測是使用最多、應用最為成熟的方法;比較而言,網(wǎng)絡學習和機器學習是潛在科研合作機會識別的新方向和新思路。在以上分析基礎上,總結(jié)了不同方法的不足以及存在的普適性問題,并對未來研究重點進行展望。

      關鍵詞:潛在合作機會;外部屬性特征;研究內(nèi)容;鏈路預測;網(wǎng)絡表示學習;機器學習

      中圖分類號:G304? ?文獻標識碼:A? ?DOI:10.11968/tsyqb.1003-6938.2023022

      Abstract This Paper sorting out the relevant achievements in the identification of potential cooperation opportunities, this paper summarizes the existing identification methods and problems, providing reference for forward-looking cooperation recommendations in the discipline field. Firstly, this paper summarizes the necessity of identifying potential cooperation opportunities. Secondly, it defines the relevant concepts and entity object types. Thirdly, it summarizes the identification methods of potential cooperation opportunities. Finally, it points out the existing research deficiencies and puts forward prospects for future development. As for the types of entity objects, according to the different research purposes and research levels, entity objects are divided into three dimensions: microscopic, mesoscopic and macroscopic. As for the identification methods, external attribute information is the most direct and easy method in the identification of potential cooperation opportunities; link prediction is the most widely used and most mature method; in comparison, network representation learning and machine learning are new directions and new ideas for identifying potential cooperation opportunities. Based on the above analysis, the deficiencies and universal problems of different types of potential cooperation opportunities identification methods are summarized, and the future research priorities are prospected.

      Key words potential cooperation opportunities; external attribute information; research topic; link prediction; network representation learning; machine learning

      發(fā)現(xiàn)和把握科研合作機會是促進和開展科研合作的基礎。隨著解決復雜性和挑戰(zhàn)性不斷提高的綜合性、高難度科研任務或科技問題的需求持續(xù)增加,跨國家(地區(qū))、跨機構(gòu)、跨學科等多種形式的合作研究成為科學研究和科技發(fā)展的重要途徑。為此,從浩瀚資源中快速定位并識別潛在科研合作機會的理論方法研究,就成為了一個前沿性和戰(zhàn)略性研究課題。

      發(fā)現(xiàn)和把握潛在合作機會需要發(fā)展和完善(定性和定量相結(jié)合的)識別方法。本研究主要關注如何識別不同研究主體間的潛在合作機會,即從方法論的角度出發(fā)探討采用何種方法、手段從研究主體已有的合作模式中進一步挖掘未合作對象間的潛在合作機會。目前學者在該方面已有一些初步探索,其中定性研究方面,領域?qū)<彝ǔ⑴c不同對象間潛在合作機會的預判。但隨著數(shù)據(jù)密集型科研范式的到來,技術領域高度分散,通過人工精準追蹤學科領域合作機會的關聯(lián)與傳遞,這一傳統(tǒng)知識發(fā)現(xiàn)模式的可靠性、及時性逐漸降低。定量研究方面,現(xiàn)有研究大多考察了已存在關聯(lián)關系的合作對象間網(wǎng)絡結(jié)構(gòu)演變趨勢。對于科技政策制定者或企業(yè)來說,雖然衡量過去某個時間段內(nèi)研究主體間已有合作模式十分重要,但無法提前為潛在合作帶來的新挑戰(zhàn)做好準備,也無法提前預判未來科學技術變革將在哪些國家、機構(gòu)、學科間發(fā)生,比較而言,挖掘研究主體間潛在合作機會的模式更為關鍵。整體來看:首先,現(xiàn)有潛在合作機會識別研究多以定性分析為主,定量研究大多分析了目前已產(chǎn)生合作關系的對象間網(wǎng)絡結(jié)構(gòu)演化趨勢,對尚未產(chǎn)生關聯(lián)的對象間潛在合作模式的提前識別研究相對較少;其次,對于潛在合作機會識別中所涉及的概念內(nèi)涵、研究方法等的梳理尚存在清晰性、系統(tǒng)性不足等問題。

      基于此,本研究首先對潛在合作機會識別的概念進行界定,進一步從宏觀、中觀、微觀三個維度對研究主體類型進行歸納,以便明晰合作機會識別的服務主體;其次對已有潛在合作機會識別方法進行梳理和總結(jié),以期全面揭示潛在合作機會識別的方法體系,為科研人員根據(jù)研究對象、網(wǎng)絡拓撲結(jié)構(gòu)特征等從不同層面切入尋找精度最優(yōu)模型提供參考借鑒。

      1? ?潛在科研合作機會識別概念及研究主體

      潛在合作機會識別以研究主體合作網(wǎng)絡為基礎,節(jié)點為不同研究主體,連邊為主體間合作關系,其是在學習大量歷史資源網(wǎng)絡拓撲結(jié)構(gòu)或網(wǎng)絡屬性特征的基礎上挖掘研究主體間可能產(chǎn)生新連邊的可能性,進而識別主體間的潛在合作機會。

      根據(jù)研究目的、研究層次的不同,研究主體可進一步劃分為基于微觀層面的科研人員或關鍵詞合作機會識別、基于中觀層面的機構(gòu)或?qū)W科領域合作機會識別、基于宏觀層面的國家或地區(qū)合作機會識別(各研究主體間關聯(lián)關系見圖1),具體分析如下:

      (1)微觀層面的分析。這方面的研究一方面?zhèn)戎赜跒檠芯咳藛T選擇潛在合作對象。如張金柱和韓濤選用12個共同鄰居及其改進指標分析圖書情報領域潛在合作關系[1];丁敬達和郭杰綜合運用作者研究內(nèi)容相似度和合作網(wǎng)絡結(jié)構(gòu)相似性分析我國生物醫(yī)學領域潛在合作關系[2];另一方面?zhèn)戎赜趶年P鍵詞共現(xiàn)角度剖析未來可能產(chǎn)生聯(lián)系的關鍵詞,進而挖掘潛在主題。如黃璐等運用鏈路預測指標識別鈣鈦礦材料領域技術術語加權(quán)共現(xiàn)網(wǎng)絡中的潛在共現(xiàn)關鍵詞,以期得到未來新興技術主題[3];Duan和Guan以太陽能領域論文文獻關鍵詞共現(xiàn)網(wǎng)絡為基礎,綜合運用鏈路預測、關鍵詞中介中心性等指標分析關鍵詞潛在融合模式,以期得到未來需關注的主題[4]。微觀層面分析中,科研人員潛在合作機會發(fā)現(xiàn)研究已較為成熟,而關鍵詞間的預測分析還處于初級階段,與同詞異義、異詞同義等問題有關。

      (2)中觀層面的分析。相關研究一方面?zhèn)戎赜诜治霾煌芯繖C構(gòu)間潛在合作趨勢。如余傳明等基于特征融合的鏈路預測方法對金融領域機構(gòu)、區(qū)域間潛在合作機會進行識別[4];李魯瑩綜合考慮高校的合作機構(gòu)、學科分布、研究興趣等屬性,挖掘卓越大學聯(lián)盟與國內(nèi)外高校潛在合作機會[6]。另一方面?zhèn)戎赜诜治霾煌瑢W科潛在交叉融合趨勢,根據(jù)選用數(shù)據(jù)源的不同,又可將其分為:其一,基于論文文獻的潛在學科合作機會識別。如岳增慧等以學科引證知識擴散時序演化網(wǎng)絡結(jié)構(gòu)信息為基礎,采用無權(quán)及加權(quán)鏈路預測指標分析社會網(wǎng)絡領域潛在學科合作關系[7]。其二,基于專利文獻的潛在學科合作機會識別。如Cho等以化學工程領域?qū)@鸌PC分類號共線網(wǎng)絡為基礎,采用隨機森林模型預測潛在學科合作關系[8];Kwon等結(jié)合專利IPC分類號共線網(wǎng)絡、網(wǎng)絡中心性指標等分析潛在學科合作關系[9];唐影基于圖神經(jīng)網(wǎng)絡的鏈路預測模型預測3D打印技術的潛在學科合作關系[10]。因Web of Science、Scopus等主流數(shù)據(jù)庫目前均并沒有對單篇文獻進行學科歸類,一般通過文獻所屬期刊學科類別間接表征文獻學科分類,但一篇文獻對應一個期刊,一個期刊一般歸至1-2個學科類別,數(shù)據(jù)體量過少,故基于論文文獻的學科共現(xiàn)網(wǎng)絡數(shù)據(jù)不適用于鏈路預測等潛在合作機會識別方法。與論文文獻相比,每個專利自帶多個IPC分類號,有效克服了論文文獻的局限性,因此目前以專利文獻為數(shù)據(jù)源分析潛在技術合作機會研究相對較多。

      (3)宏觀層面的分析。與中觀、微觀層面分析相比,國家這一對象間潛在合作機會識別研究相對較少,主要研究包括Guan等以國家間原油貿(mào)易網(wǎng)絡拓撲結(jié)構(gòu)為基礎,以每個國家對共同貿(mào)易伙伴數(shù)量為潛在合作動機,探索國家間潛在貿(mào)易合作伙伴關系[11];Guns和Rousseau結(jié)合鏈路預測和機器學習方法挖掘非洲、中東和南亞城市在瘧疾和結(jié)核病領域潛在合作關系[12]。這方面研究較少的原因是與基于科研人員合作關系網(wǎng)絡拓撲結(jié)構(gòu)相比,同樣的數(shù)據(jù)集中,捕捉到的國家或地區(qū)節(jié)點數(shù)量會大量減少,而已有合作機會識別方法主要是學習網(wǎng)絡中節(jié)點間關聯(lián)關系,因而節(jié)點數(shù)量是算法表現(xiàn)優(yōu)劣的基礎。

      (4)多層面綜合分析??蒲腥藛T層面的挖掘有助于發(fā)現(xiàn)具有相同研究主題的學者,揭示影響合作的因素如師承關系等;機構(gòu)層面的挖掘有助于發(fā)現(xiàn)對相關主題共同感興趣或合作密切的科研團體,揭示地理位置等因素是否對合作關系產(chǎn)生影響;國家層面的挖掘則更多聚焦宏觀層面,有助于發(fā)現(xiàn)國際間潛在合作趨勢,揭示國家發(fā)展戰(zhàn)略規(guī)劃、經(jīng)濟發(fā)展差異等因素對合作的影響。這些研究層次并不是彼此孤立,而是互相關聯(lián),若將以上不同層面的研究主體綜合分析,則能挖掘出更加豐富的信息。目前學者在該方面研究有一些初步探索,如林原等融合科研人員、機構(gòu)、關鍵詞3個層面的異質(zhì)信息構(gòu)建科研合作網(wǎng)絡,采用網(wǎng)絡表示學習模型將網(wǎng)絡中每個節(jié)點表示為低維向量,通過余弦相似度計算向量相似度進而為作者推薦潛在合作者、合作機構(gòu)、研究主題等[13]。不過融合多種異質(zhì)信息的研究較少,更多研究在一模網(wǎng)絡基礎上探究二模合作關系,如分析潛在合作作者及其合作主題、潛在合作機構(gòu)及其合作者等,該方面研究仍是未來研究方向和重點。

      2? ?潛在科研合作機會識別方法研究

      研究主體蘊含豐富的信息,對象間的路徑長度也一定程度上反映了節(jié)點間的緊密關系,基于這些信息,學者從不同的分析角度探索性地提出一些分析方法,并在實踐中得到一定的驗證。根據(jù)分析方法所基于的研究主體信息不同,本研究將其分為外部屬性、研究內(nèi)容、鏈路預測、網(wǎng)絡表示學習、機器學習共五種方法類型,其中外部屬性信息是研究主體最基本的信息,也是合作機會識別方法中最直接、最通俗易懂的方法;鏈路預測是使用最多、應用最為成熟的方法;網(wǎng)絡表示學習和機器學習是合作機會識別的新方向和新思路。

      2.1? ? 基于外部屬性特征的合作機會識別方法

      該方法主要基于節(jié)點的外部屬性特征來刻畫節(jié)點間相似性。若節(jié)點為作者,則其外部屬性特征包括年齡、性別、職業(yè)、愛好、所屬機構(gòu)、研究興趣等;若節(jié)點為機構(gòu),則其外部屬性特征包括機構(gòu)的類型、地理位置、排名、研究主題等;若節(jié)點為具體學科領域,則其外部屬性特征包括學科的研究主題、主要發(fā)文機構(gòu)、主要發(fā)文作者等?;谕獠繉傩蕴卣鞯暮献鳈C會識別研究一般基于以上信息構(gòu)建節(jié)點向量,然后通過計算向量間余弦相似度分析節(jié)點對在合作選擇偏好方面的相似程度。運用節(jié)點屬性特征等外部信息可提高預測結(jié)果,但這些信息獲取困難,如用戶信息涉及隱私問題,因此現(xiàn)有研究很少單獨使用節(jié)點外部屬性特征進行合作機會識別,一般將其與鏈路預測、機器學習等方法聯(lián)合使用。如Liben-Nowell和Kleinberg將論文標題、作者機構(gòu)、地理位置信息等外部屬性特征加入作者合作網(wǎng)絡中對潛在合作機會識別結(jié)果進行微調(diào)[14];Ahmed和Elkorany以社交網(wǎng)絡Twitter為研究對象,首先抽取出不同類型用戶的屬性信息和多種網(wǎng)絡結(jié)構(gòu)特征,基于此對用戶間聯(lián)系強度關系建模,結(jié)果表明結(jié)合用戶屬性相似度可有效提高鏈路預測效果[15];Abu-Salih等以Twitter用戶外部屬性特征為研究對象,結(jié)合機器學習方法識別用戶潛在感興趣的研究領域[16];汪志兵等融合作者合作網(wǎng)絡拓撲結(jié)構(gòu)信息和作者機構(gòu)屬性特征構(gòu)建潛在合作機會識別模型[17];林原等以“高?!灿袡C構(gòu)合作網(wǎng)絡”和“機構(gòu)—發(fā)文主題網(wǎng)絡”為數(shù)據(jù)基礎,構(gòu)建綜合考量路徑相似性和研究主題相似性的加和指標體系,以識別卓越大學聯(lián)盟與國內(nèi)外高校潛在合作機會[18]。

      該方法與鏈路預測等方法結(jié)合使用可有效提高算法精確度,但外部屬性信息的真實性、可靠性常難以保證。更進一步,假若能獲得并保證節(jié)點信息準確度較高,但如何鑒別哪些信息對鏈路預測有用,有多大用處,是需要進一步探索的問題。

      2.2? ? 基于研究內(nèi)容相似度的合作機會識別方法

      Morris和Yen指出,通過共同的詞語聯(lián)系到一起的文獻可能表示共同的研究主題,同理,作者關鍵詞表征作者研究主題,通過挖掘作者關鍵詞耦合強度可測度作者研究主題相似度,從而挖掘潛在合作關系[19]。具體分析步驟為:首先,建立“作者—關鍵詞”二模矩陣,采用TF-IDF等方法計算關鍵詞權(quán)重;其次,根據(jù)“作者—關鍵詞”矩陣,通過作者間共有關鍵詞耦合強度構(gòu)建作者相似度矩陣;最后,將作者對相似度值降序排列,過濾已產(chǎn)生合作關系的作者對,剩余即為潛在作者合作關系。若將上述過程中作者替換為機構(gòu)、國家、學科等主體,則可挖掘出潛在合作機構(gòu)、合作國家等;若將關鍵詞耦合強度關系替換為作者發(fā)文同被引或文獻耦合關系,則可從引文角度挖掘潛在合作關系。已有研究包括劉志輝和張志強對比分析作者關鍵詞耦合網(wǎng)絡與作者同被引網(wǎng)絡,結(jié)果表明作者關鍵詞耦合網(wǎng)絡能揭示作者之間的隱含關系[20];陳衛(wèi)靜和鄭穎基于作者關鍵詞耦合分析法挖掘作者之間潛在合作關系[21];宋艷輝和武夷山對比分析作者文獻耦合網(wǎng)絡和作者關鍵詞耦合網(wǎng)絡在揭示學科領域知識結(jié)構(gòu)方面的異同,結(jié)果表明二者不可互相替代,結(jié)合分析是探尋學科知識結(jié)構(gòu)的理想方法[22]。

      該方法自提出以來推廣應用程度并不高,究其原因:一方面只是從內(nèi)容角度揭示了作者間合作的可能性,而關鍵詞存在很高的主觀性,兩個不同的詞可能蘊含相同詞意,相同的詞在不同文章中可能表達不同研究內(nèi)容;另一方面主要依靠人工定性判讀識別結(jié)果是否可靠,并沒有數(shù)據(jù)支撐識別結(jié)果與真實合作關系之間的差異。因此該方面的研究主要與鏈路預測、機器學習等方法結(jié)合使用。

      2.3? ? 基于鏈路預測的合作機會識別方法

      鏈路預測基于馬爾可夫鏈和機器學習,其主要通過對大量網(wǎng)絡節(jié)點屬性特征和網(wǎng)絡拓撲結(jié)構(gòu)信息的學習來預測尚未產(chǎn)生連接的兩節(jié)點間產(chǎn)生連邊的可能性。這種預測既包含實際網(wǎng)絡中未出現(xiàn)但未來很有可能產(chǎn)生的連接關系,也涵蓋實際網(wǎng)絡中已存在但尚未被觀測到的未知連接。因其易理解、易實施、可量化評估等優(yōu)點是目前合作機會識別中使用最多的方法,最新出現(xiàn)的網(wǎng)絡表示學習、機器學習等方法也大多在其基礎上優(yōu)化改進,故研究著重對該方法的詳細分析流程進行介紹。

      第一步:根據(jù)網(wǎng)絡結(jié)構(gòu)特點確定預測指標。

      Liben-Nowell和Kleinberg最早基于網(wǎng)絡結(jié)構(gòu)特征引入鏈路預測指標[14],隨后呂琳媛將鏈路預測的相關研究方法引入國內(nèi)[23]。有研究表明,目前共有30余種不同鏈路預測指標[24],根據(jù)各指標內(nèi)涵的不同,可將其分為基于網(wǎng)絡結(jié)構(gòu)相似性的鏈路預測指標及基于似然分析的鏈路預測指標。其中基于結(jié)構(gòu)相似性的鏈路預測指標計算復雜度低,適用于大規(guī)模網(wǎng)絡,進一步地,根據(jù)各指標依附的網(wǎng)絡結(jié)構(gòu)信息的不同,又可將其分為基于節(jié)點信息、基于路徑信息、基于隨機游走三種類型,梳理歸納每種鏈路預測類型對應的指標及計算方法,具體如下:

      (1)基于節(jié)點信息的相似性指標。基于節(jié)點相似性的鏈路預測指標構(gòu)建原則為兩個節(jié)點間的相似性程度越高,則它們之間產(chǎn)生連接的可能性越大。其中計算最簡單、使用頻率最高的經(jīng)典指標為共同鄰居指標(Common Neighbor,CN),它指兩個節(jié)點的共同鄰居節(jié)點數(shù)目,若節(jié)點x和節(jié)點y未連接,但其共同鄰居節(jié)點數(shù)目越多,則兩節(jié)點間的相關性越高[25]。為了進一步增強指標的魯棒性,學者們基于CN指標進行了許多探索工作,改進指標可分為兩類:一類是在共同鄰居節(jié)點基礎上納入考量未連接的兩節(jié)點度的影響,改進指標包括Salton指標[26]、Jaccard指標[27]、Srensen指標[28]、HPI指標[29]、HDI指標[30]、LHI-I指標[31]等;另一類是在共同鄰居節(jié)點基礎上納入考量共同鄰居節(jié)點度的影響,改進指標包括AA指標[32]、RA指標[30]、PA指標[33]等。此外,一些學者認為,處于中心位置的節(jié)點可能具有更強的信息傳播能力,故利用節(jié)點聚類系數(shù)、中介中心度、特征向量中心度等信息對經(jīng)典指標進行改進[34-36](各指標的計算方法及含義見表1)。此類指標在簡單高效基礎上充分運用網(wǎng)絡中節(jié)點信息,網(wǎng)絡適用范圍廣,預測精度較高,是目前使用最為廣泛的一類指標。

      (2)基于路徑信息的相似性指標。CN類指標計算復雜度低,但使用信息有限,因而預測精度受到限制?;诖?,學者嘗試利用節(jié)點間路徑信息,從另一角度切入提出一系列相似性指標。基于路徑相似性的鏈路預測算法從整體網(wǎng)絡出發(fā),其構(gòu)建原則為考慮所有長度路徑的影響,若兩節(jié)點間最短路徑長度越短,只需經(jīng)過較少節(jié)點就能相互訪問,說明節(jié)點間關系相對密切[36]。經(jīng)典指標具體如下:局部路徑指標(Local Path,LP)在共同鄰居的基礎上考慮三階路徑的因素[37];Katz指標則在LP指標基礎上考慮網(wǎng)絡中所有路徑對節(jié)點、對相似性貢獻程度[38];LHI-II指標基于一般等價原理[31](各指標的計算方法及含義見表2)。該類指標以完整的或近似完整的網(wǎng)絡拓撲結(jié)構(gòu)信息為基礎,雖準確率有普遍提升,但計算復雜度過高,計算耗時,不適合應用于大規(guī)模數(shù)據(jù)集;且往往無法獲得完整的網(wǎng)絡拓撲結(jié)構(gòu)信息。

      (3)基于隨機游走的相似性指標。隨機游走用來表示任何不規(guī)則運動而形成的軌跡[39],基于隨機游走的相似性指標根據(jù)隨機游走模型定義,得到一系列節(jié)點對間的概率值,進而將其作為不相鄰節(jié)點對的相似性得分,得分值越高,則兩節(jié)點間產(chǎn)生連邊的可能性越大。經(jīng)典指標具體如下:平均通勤時間(Average Commute Time,ACT)通過比較隨機游走粒子在節(jié)點對間來回游走的平均時間來衡量兩個節(jié)點間的相似性[40];基于隨機游走的余弦相似度(Cos+)在ACT指標基礎上計算兩節(jié)點間余弦相似度[41];有重啟的隨機游走指標(Random Walk with Restart,RWR)基于谷歌PageRank算法[42];SimRank指標旨在刻畫從不相鄰節(jié)點出發(fā)的兩個粒子平均花費多長時間相遇[43]。上述指標基于全局網(wǎng)絡信息,計算復雜度高,難以推廣應用。為了提高模型泛化能力,學者摒棄網(wǎng)絡中無用或用途不大的信息,提出基于局部網(wǎng)絡信息的指標,如Liu和lü提出只考慮有限步數(shù)的局部隨機游走指標(Local Random Walk,LRW),接著在LRW指標基礎上,將t步及其以前結(jié)果加總得到有疊加效應的局部隨機游走指標(Superposed Random Walk,SRW)[44](各指標的計算方法及含義見表3)。該類指標對網(wǎng)絡拓撲結(jié)構(gòu)和演化機制依賴程度較高,若算法恰好能抓住網(wǎng)絡拓撲結(jié)構(gòu)特征,則預測準確率較高;但計算復雜度相較于路徑信息指標更高,同樣不適用規(guī)模較大網(wǎng)絡。

      基于似然分析的鏈路預測方法通過計算網(wǎng)絡中未連接節(jié)點間存在鏈路的似然值或觀察一條鏈路的加入和移除對網(wǎng)絡自身似然的影響來判別該條連接是否存在。該方法新穎性強,但算法復雜,晦澀難懂;另一方面應用性不高,即使是精巧實現(xiàn)的算法,處理幾千個節(jié)點的網(wǎng)絡也會感到吃力。有研究表明,基于節(jié)點相似性的鏈路預測方法優(yōu)于該方法,同時顯示出強大的計算優(yōu)勢[45]。

      在真實網(wǎng)絡中,首先,有的節(jié)點對聯(lián)系緊密,有的則較為疏遠;其次,節(jié)點對間關系不是完全對等,如引用關系網(wǎng)絡,存在施引文獻和參考文獻的區(qū)別;最后,網(wǎng)絡可能由不同類型節(jié)點組成,如機構(gòu)-關鍵詞、作者-主題等。因此基于無權(quán)無向同類型節(jié)點,又衍生出加權(quán)網(wǎng)絡、有向網(wǎng)絡、二模異構(gòu)網(wǎng)絡或多種關系集成網(wǎng)絡,具體的鏈路預測指標是在上述指標基礎上進行推廣和改進,此處不再贅述。

      第二步:將已有數(shù)據(jù)集劃分為訓練集和測試集。

      為了比較上述鏈路預測指標效果優(yōu)劣,首先將已知連邊集合E劃分為訓練集ET和測試集EP滿足條件E=ET∪EP且ET∩EP =■,同時將屬于U但不屬于E的邊稱為不存在的邊,屬于U但不屬于ET的邊稱為未知邊。劃分數(shù)據(jù)集的方法包括隨機抽樣、滾雪球抽樣、k-折疊交叉檢驗等,劃分的不同方式代表了鏈路預測的兩種類型:靜態(tài)鏈路預測和動態(tài)鏈路預測。其中靜態(tài)鏈路預測用來挖掘網(wǎng)絡中實際存在但被遺漏或尚未被發(fā)現(xiàn)的節(jié)點關系,動態(tài)鏈路預測用來發(fā)掘當下網(wǎng)絡中不存在,但未來可能存在連接的節(jié)點關系。

      第三步:分別計算測試集和不存在邊對應的指標數(shù)值。

      對鏈路預測算法的計算過程進行梳理(見圖2),可以發(fā)現(xiàn)網(wǎng)絡中節(jié)點總數(shù)V=5,E=8,網(wǎng)絡中可能的連接數(shù)U=5*(5-1)/2=10。為了測試指標的精確性,選擇邊{AB,AE,AC,BE,BC,CD}為訓練集,邊{EC,BD}為測試集,分別采用不同指標為每對沒有連邊的節(jié)點對{EC,BD,AD,ED}賦值,將所有未連邊的節(jié)點對按照分數(shù)值從大到小排列。若模型能更多地將測試邊{EC,BD}排在不存在的邊{AD,ED}之前,則表明模型的預測精度越高。

      第四步:衡量鏈路預測算法精確度。

      通過將鏈路預測算法預測結(jié)果與測試邊進行對比分析,進而評價算法的優(yōu)劣。目前常用的評價指標主要包括是三類:

      (1)AUC值(Area Under the receiver operation characteristic Curve):該指標從整體上衡量鏈路預測算法精度,其基本思想可解釋為從測試集EP中隨機選取一條連接邊的預測概率高于不存在邊的預測概率的可能性[46]。因從整體上衡量算法的精確度,故區(qū)分度比較低,可能出現(xiàn)兩個算法準確率相差很大,但AUC值差異很小,甚至可能持平[47]。

      (2)精確度(Precision):根據(jù)排序結(jié)果,有時只關心前L個預測節(jié)點對中預測準確的比例,若L個預測節(jié)點對中有m個節(jié)點對預測準確,則精確度Precision=m/L。該指標大小與參數(shù)L有關,為了避免參數(shù)L取值主觀性過高影響對比結(jié)果,一般與AUC值結(jié)合使用。

      (3)排序分(Ranking Score):該指標主要考慮測試集中節(jié)點對在最終排序中的位置。計算公式為:RS=1/|EP|*■■,其中EP是測試集集合,ri是測試邊i∈EP在排序中的排名,H=U-ET為測試集中節(jié)點對和不存在的節(jié)點對集合。

      第五步:選擇精確度較高指標應用于整個數(shù)據(jù)集,進行潛在合作機會識別。

      任何單一指標所考慮的信息相對有限,不能適應所有網(wǎng)絡拓撲結(jié)構(gòu)特征,故不能在所有網(wǎng)絡類型中均有較好的準確率。因此一般將多種不同指標應用于訓練集和測試集,選擇預測精確度最高的指標應用于整個網(wǎng)絡,進而分析那些潛在的合作組合。

      鏈路預測方法可用來揭示和預測隱含對象間關系,在合作機會識別領域有很好的應用價值。但在實際應用中也存在部分局限:其一,只能預測訓練網(wǎng)絡中未連接節(jié)點間產(chǎn)生連邊的概率,不能預測連接到新增節(jié)點的概率。而現(xiàn)實網(wǎng)絡中隨著時間演進,已有節(jié)點間不僅可能產(chǎn)生連接,而且會出現(xiàn)新節(jié)點;其二,在動態(tài)鏈路預測中,網(wǎng)絡處于不斷演化狀態(tài),但為了有一個相對較為公平的比較環(huán)境,需將待分析節(jié)點限定在訓練集和測試集共有的節(jié)點范圍內(nèi),忽略新增節(jié)點的作用;其三,某個指標在目標網(wǎng)絡中表現(xiàn)出較高的預測準確率,但在其它網(wǎng)絡中可能表現(xiàn)不佳,故如何吸收各指標不同或互補特征,以提高指標適用性是未來研究的新方向;其四,一方面網(wǎng)絡拓撲結(jié)構(gòu)會影響網(wǎng)絡演化趨勢,另一方面政策干預等外部因素也對鏈路預測結(jié)果產(chǎn)生影響,故該方面仍難以全面捕捉對象間關系及其未來趨勢走向。

      2.4? ? 基于網(wǎng)絡表示學習的合作機會識別方法

      隨著數(shù)據(jù)體量激增,鏈路預測等傳統(tǒng)方法應用于網(wǎng)絡中大規(guī)模節(jié)點關系挖掘顯得力不從心,因此基于深度學習的網(wǎng)絡中節(jié)點向量自動表示學習成為研究熱點。網(wǎng)絡表示學習屬于深度學習的范疇,其具體做法為:以包含節(jié)點上下文信息的語料為數(shù)據(jù)基礎,首先,結(jié)合文本上下文語義信息,通過設計多層神經(jīng)網(wǎng)絡結(jié)構(gòu),將原始網(wǎng)絡中每個節(jié)點映射為低維稠密實值向量,且使得該向量形式可在向量空間中具有表示以及推理能力,進而實現(xiàn)數(shù)據(jù)輸入至任務輸出的目標;其次,計算節(jié)點間的向量空間相似度值并將計算結(jié)果降序排列,通過對尚未產(chǎn)生合作關系但相似度較高的節(jié)點的進一步挖掘以識別潛在合作關系;最后,若將節(jié)點的向量表示結(jié)果作為機器學習模型的特征輸入,則通過二元運算等方法將單個節(jié)點特征向量轉(zhuǎn)換為任意兩個節(jié)點間的向量表示,接著采用不同機器學習模型對節(jié)點間關系進行再次學習。通過上述流程,使得知識發(fā)現(xiàn)和知識推理性能顯著提升。通過對已有研究梳理,可將目前合作機會識別研究中采用的經(jīng)典的網(wǎng)絡表示學習方法分為兩類:一類是基于網(wǎng)絡結(jié)構(gòu)信息,一類是融合節(jié)點內(nèi)容特征的局部網(wǎng)絡結(jié)構(gòu)信息(具體研究內(nèi)容見表4)。

      網(wǎng)絡表示學習方法可降低噪聲和冗余信息影響,將網(wǎng)絡中節(jié)點表示為低維稠密連續(xù)向量,有效彌補傳統(tǒng)方法高計算復雜度、低并行速度等缺陷。已有網(wǎng)絡表示學習方法基于網(wǎng)絡結(jié)構(gòu)、節(jié)點文本等信息開發(fā)出不同算法,但其適用性仍有許多可思考的地方:其一,大多算法未考量高階網(wǎng)絡結(jié)構(gòu)信息,但現(xiàn)實網(wǎng)絡中多數(shù)節(jié)點存在較少連接,如何通過有限信息挖掘這些弱連接節(jié)點間的關系需進一步深究;其二,現(xiàn)有研究假設節(jié)點文本信息與網(wǎng)絡結(jié)構(gòu)信息之間存在聯(lián)系且二者的融合可提高算法性能,有些情況下確有較高預測精度,但計算復雜度過高。但某些情況下節(jié)點文本信息的嵌入反而會降低算法精確度,故對二者融合機制及特征互補性的探究可能會對算法性能提升有顯著作用;其三,網(wǎng)絡是動態(tài)變化的,但現(xiàn)有算法主要針對靜態(tài)網(wǎng)絡拓撲結(jié)構(gòu)信息,或?qū)討B(tài)網(wǎng)絡劃分為不同時間片,在每個時間片上仍使用靜態(tài)網(wǎng)絡表示方法,雖有一定改進,但缺乏對其動態(tài)特征本質(zhì)挖掘,如何捕捉網(wǎng)絡后續(xù)應用場景仍是重要挑戰(zhàn);其四,網(wǎng)絡中往往不僅存在一種類型節(jié)點,如何將網(wǎng)絡表示學習方法應用到異質(zhì)網(wǎng)絡中也是未來需進一步改進的地方。

      2.5? ? 基于機器學習的合作機會識別方法

      與機器學習相關的合作機會識別研究主要利用機器學習中的集成學習算法,通過將多種不同鏈路預測指標、節(jié)點屬性特征、網(wǎng)絡表示向量等融合在一起,能夠有效解決單一算法適用性較差這一局限,進一步提高合作機會識別的推薦準確度[24]。具體做法為:首先,將基于節(jié)點屬性特征、鏈路預測等方法得到的兩個節(jié)點之間相似度分值作為該節(jié)點對的一個或多個拓撲結(jié)構(gòu)屬性特征,再加上節(jié)點的度、聚類系數(shù)、最短路徑等結(jié)構(gòu)特征,共同構(gòu)成該節(jié)點對的輸入特征向量,輸出特征為節(jié)點間是否存在連接,以0、1表征;其次,采用不同的機器學習方法對模型輸入、輸出特征進行訓練學習;最后,遴選性能最優(yōu)模型并將其應用于尚未產(chǎn)生關聯(lián)的節(jié)點間潛在合作機會識別。如張金柱等采用邏輯回歸分類模型學習不同路徑權(quán)重對于潛在合作關系識別的貢獻;謝奕希等以CN、RA、AA、PA指標為基礎,提出基于改進邏輯回歸模型的鏈路預測指標融合方法,結(jié)果表明融合算法精度高于所有基準指標[56];Guns等采用隨機森林算法綜合基于節(jié)點相似性的鏈路預測指標,以識別潛在國家合作關系[12,57];Behrouzi等將Jaccard、RA等鏈路預測指標與聚類系數(shù)、特征向量中心度等網(wǎng)絡指標共同作為節(jié)點間是否存在連接的特征向量,綜合采用隨機森林、樸素貝葉斯等五種機器學習算法比較識別結(jié)果精確度,結(jié)果表明機器學習算法均顯示出比單一指標更好的性能[58]。通過對已有研究的梳理總結(jié),潛在合作機會識別研究中常用的機器學習算法包括人工神經(jīng)網(wǎng)絡(ANNs)、決策樹(DTs)、隨機森林(RF)、支持向量機(SVMs)、k近鄰算法(KNN)、高斯樸素貝葉斯(GNB)、多項式樸素貝葉斯(MNB)、邏輯回歸(LR)等,但并沒有研究明確表明何種算法在合作機會識別研究中性能最優(yōu),需綜合考量具體應用場景具體判別。

      因每種單一方法均不能適應所有網(wǎng)絡結(jié)構(gòu)特征,故基于機器學習算法集成外部屬性特征、鏈路預測等算法優(yōu)缺點挖掘潛在合作機會是當下和未來研究的重點方向之一,但機器學習算法種類繁多,如何在眾多指標中選擇能有效捕捉網(wǎng)絡拓撲結(jié)構(gòu)的指標并將其集成新的分析指標是該方法的難點,因此也要求研究者對具體應用場景網(wǎng)絡結(jié)構(gòu)進行剖析,以選擇最能合理表達網(wǎng)絡結(jié)構(gòu)的集成算法。

      3? ?總結(jié)與展望

      在對潛在合作機會識別概念厘定的基礎上,從宏觀、中觀、微觀等層面對研究主體類型進行劃分和梳理,再從不同方法的內(nèi)涵、原理等視角對潛在合作機會識別方法進行系統(tǒng)歸納總結(jié)。未來需要從以下方面進一步展開深入研究:

      3.1? ? 明晰不同識別方法的適用性

      不同方法均有其優(yōu)勢和局限性,如外部屬性特征能反映節(jié)點真實信息,但獲取難度較大且多為非結(jié)構(gòu)化文本信息;研究內(nèi)容相似度一般以關鍵詞共現(xiàn)網(wǎng)絡來表征,未能融合作者、機構(gòu)等多種異質(zhì)信息;鏈路預測方法指標眾多,但單一指標只能捕捉網(wǎng)絡拓撲結(jié)構(gòu)中的某些信息,且某些指標計算復雜度過高,推廣應用價值低;網(wǎng)絡表示學習方法雖有效彌補了傳統(tǒng)方法高計算復雜度、低并行速度等缺陷,但其原理類似黑箱,可解釋性差;比較而言,機器學習方法的機制為集成學習,可整合上述各方法的優(yōu)點,但集成算法種類繁多,具體選用何種機器學習算法也需深究。綜上,已有方法眾多,但不可能在實際研究中窮盡所有方法,因此需根據(jù)具體應用場景、研究目的、以及對算法復雜度、時間復雜度、算法準確率的要求等選擇有針對性的識別方法。

      3.2? ? 優(yōu)化多維識別方法的可擴展性、有效性

      首先,已有方法不論是挖掘網(wǎng)絡中實際存在,而尚未監(jiān)測到的連接,還是目前不存在,但未來有很大概率存在的連接,均是對網(wǎng)絡中已有節(jié)點潛在關系的挖掘。網(wǎng)絡是動態(tài)變化的,不斷有新的節(jié)點加入,或舊的節(jié)點退出,若將研究對象圈定在不同時間窗口內(nèi)共有節(jié)點范圍內(nèi),只能預測未連接節(jié)點間產(chǎn)生連邊的概率,并不能捕捉連接到新增節(jié)點的概率。因此開發(fā)考量節(jié)點動態(tài)演化趨勢方法是未來的新課題;其次,已有方法往往不能適用網(wǎng)絡中大規(guī)模節(jié)點數(shù)目,因此學者通常篩選高被引作者或TOP機構(gòu)等為研究對象,然而發(fā)表文獻較少的作者或機構(gòu)可能更希望得到合作推薦,進而找到潛在合作對象,以提高其學術影響力,故優(yōu)化已有方法使其可作用于網(wǎng)絡中低頻節(jié)點或邊緣節(jié)點是未來研究的方向之一;最后,在方法的有效性方面,除了鏈路預測和機器學習方法將數(shù)據(jù)集劃分為訓練集和測試集,從量化角度評估方法的精確度,其余方法更多傾向領域?qū)<叶ㄐ苑治鼋Y(jié)果的有效性,但隨著定量方法挖掘出的潛在合作關系越來越多,人工解讀費時費力,可操作性低,因此借鑒定量評估方法首先篩選高價值關系,再輔之專家知識是未來需進一步完善的方法流程。

      3.3? ? 擴展合作主體對象的多樣性

      研究對象方面,科研人員被視為合作的主體,且與其它研究主體相比,由個體組成的科研合作網(wǎng)絡節(jié)點數(shù)目多,更符合已有識別方法對網(wǎng)絡結(jié)構(gòu)的要求,因此潛在合作機會識別研究中更多聚焦于挖掘科研人員潛在合作對象,即該方面研究最多,最為成熟。但國家、機構(gòu)等多層面、多形式的科研合作關系識別從不同維度刻畫了合作的形式,同樣是合作研究中的重要組成部分。因此,未來可遷移并調(diào)整已有識別方法使其助力于國家、機構(gòu)等研究主體深層合作發(fā)展。數(shù)據(jù)來源方面,現(xiàn)有研究主要以論文數(shù)據(jù)為載體,部分研究通過專利數(shù)據(jù)分析技術融合模式。不同數(shù)據(jù)源具有不同的數(shù)據(jù)特色,如國家級基金項目在一定程度上更能體現(xiàn)學科領域的最高水平,也較論文數(shù)據(jù)更能預先捕捉領域發(fā)展態(tài)勢。因此,未來可針對同一研究對象挖掘不同數(shù)據(jù)源潛在合作機會識別結(jié)果的異同,進而分析差異背后的原因,更好輔助于合作推薦。

      3.4? ? 挖掘潛在合作機會的動機

      以往研究大多將重心聚焦于提高預測方法的準確率、增加節(jié)點類型的異質(zhì)性等方面,對潛在合作機會產(chǎn)生的動力學機制少有探討,如為什么這些研究主體在未來有潛在合作傾向?這種潛在合作的穩(wěn)定性、影響力會怎樣演變?一方面網(wǎng)絡拓撲結(jié)構(gòu)會影響網(wǎng)絡演化趨勢,另一方面政策干預、人員流動等外部因素也會導致合作傾向性發(fā)生轉(zhuǎn)變,因此在識別出潛在合作關系的基礎上需要進一步將識別結(jié)果與研究主體背景知識相結(jié)合,挖掘可解釋的合作動因和合作模式,從而為機構(gòu)或個人等更好開展合作提供有價值的參考意義。更進一步,研究主體潛在合作機會產(chǎn)生與否和政策干預、人員流動等因素之間的具體因果關系值得深究和探討。因此,在定性分析合作機會產(chǎn)生的動因基礎上采用因果推斷方法從定量角度剖析二者具體的因果關系,即不僅要基于數(shù)據(jù)和方法得出結(jié)論,更要重視影響因素和結(jié)論之間的因果邏輯關系,只有經(jīng)過嚴謹?shù)囊蚬治?,推薦的合作模式才更有說服力和影響力。

      *本文系四川省科技計劃項目“適應新科技革命趨勢和規(guī)律的科技創(chuàng)新政策與四川科技創(chuàng)新治理機制研究”(項目編號:23RKX0302)研究成果之一。

      參考文獻:

      [1]? 張金柱,韓濤.數(shù)據(jù)規(guī)模對合著關系預測的影響研究[J].情報雜志,2016,35(9):80-85.

      [2]? 丁敬達,郭杰.融合內(nèi)容相似度和路徑相似性的潛在作者合作關系挖掘[J].情報理論與實踐,2021,44(1):124-128,123.

      [3]? 黃璐,朱一鶴,張嶷.基于加權(quán)網(wǎng)絡鏈路預測的新興技術主題識別研究[J].情報學報,2019,38(4):335-341.

      [4]? Duan Y,Guan Q.Predicting Potential Knowledge Convergence of Solar Energy:Bibliometric Analysis Based on Link Prediction Model[J].Scientometrics,2021,126(5):3749-3773.

      [5]? 余傳明,龔雨田,趙曉莉,等.基于多特征融合的金融領域科研合作推薦研究[J].數(shù)據(jù)分析與知識發(fā)現(xiàn),2017,1(8):39-47.

      [6]? 李魯瑩.基于SSCI的卓越大學聯(lián)盟社會科學領域合作機會發(fā)現(xiàn)研究[D].大連:大連理工大學,2019.

      [7]? 岳增慧,許海云,王倩飛.基于局部信息相似性的學科引證知識擴散動態(tài)鏈路預測研究[J].情報理論與實踐,2020,43(2):84-91,99.

      [8]? Cho J H,Lee J,Sohn S Y.Predicting Future Technological Convergence Patterns Based on Machine Learning Using Link Prediction[J].Scientometrics,2021,126(7):1-17.

      [9]? Kwon O,An Y,Kim M,et al.Anticipating Technology-driven Industry Convergence: Evidence From Large-scale Patent Analysis[J].Technology Analysis & Strategic Management,2020,32(4):363-378.

      [10]? 唐影.基于圖神經(jīng)網(wǎng)絡的鏈路預測的技術融合預見研究[D].西安:西安郵電大學,2020.

      [11]? Guan Q,An H,Gao X,et al.Estimating Potential Trade Links in the International Crude Oil Trade: A Link Prediction Approach[J].Energy,2016,102(102):406-415.

      [12]? Guns R,Rousseau R.Recommending Research Collaborations Using Link Prediction and Random Forest Classifiers[J].Scientometrics,2014,101(2):1461-1473.

      [13]? 林原,王凱巧,劉海峰,等.網(wǎng)絡表示學習在學者科研合作預測中的應用研究[J].情報學報,2020,39(4):367-373.

      [14]? Liben Nowell D,Kleinberg J.The Link Prediction Problem for Social Networks[J].Journal of the American Society for Information Science and Technology,2007,58(7):1019-1031.

      [15]? Ahmed C,ElKorany A.Enhancing Link Prediction in Twitter Using Semantic User Attributes[A].Proceedings of the 2015 IEEE/ACM International Conference on Advances in Social Networks Analysis and Mining[C].2015:1155-1161.

      [16]? Abu-Salih B,Wongthongtham P,Chan K Y.Twitter Mining for Ontology-based Domain Discovery Incorporating Machine Learning[J].Journal of Knowledge Management,2018,22(5):949-981.

      [17]? 汪志兵,韓文民,孫竹梅,等.基于網(wǎng)絡拓撲結(jié)構(gòu)與節(jié)點屬性特征融合的科研合作預測研究[J].情報理論與實踐,2019,42(8):116-120,109.

      [18]? 林原,謝張,李魯瑩,等.卓越大學聯(lián)盟國內(nèi)外高??蒲泻献鳈C會發(fā)現(xiàn)[J].情報雜志,2020,39(3):81-86,114.

      [19]? Morris S A,Yen G G.Crossmaps:Visualization of Overlapping Relationships in Collections of Journal Papers[J].Proceedings of the National Academy of Sciences,2004,101(Suppl 1):5291-5296.

      [20]? 劉志輝,張志強.作者關鍵詞耦合分析方法及實證研究[J].情報學報,2010,29(2):268-275.

      [21]? 陳衛(wèi)靜,鄭穎.基于作者關鍵詞耦合的潛在合作關系挖掘[J].情報雜志,2013,32(5):127-131.

      [22]? 宋艷輝,武夷山.作者文獻耦合分析與作者關鍵詞耦合分析比較研究:Scientometrics實證分析[J].中國圖書館學報,2014,40(1):25-38.

      [23]? 呂琳媛.復雜網(wǎng)絡鏈路預測[J].電子科技大學學報,2010,39(5):651-661.

      [24]? 呂偉民,王小梅,韓濤.結(jié)合鏈路預測和ET機器學習的科研合作推薦方法研究[J].數(shù)據(jù)分析與知識發(fā)現(xiàn),2017,1(4):38-45.

      [25]? Lorrain F,White H C.Structural Equivalence of Individuals in Social Networks[J].The Journal of Mathematical Sociology,1971,1(1):49-80.

      [26]? Salton G,Mcgill M J.Introduction to Modern Information Retrieval[M].Auckland:MuGraw-Hill,1986.

      [27]? Jaccard P.tude Comparative De La Distribution Florale Dans Une Portion Des Alpes Et Des Jura[J].Bulletin of the Torrey Botanical Club,1901,37:547-579.

      [28]? Srensen T.A Method of Establishing Groups of Equal Amplitude in Plant Sociology Based on Similarity of Species Content and Its Application to Analyses of the Vegetation on Danish Commons[J].Biologiske Skrifter,1948,5(4):1-34.

      [29]? Ravasz E,Somera A L,Mongru D A,et al.Hierarchical Organization of Modularity in Metabolic Networks[J].Science,2002,297(5586):1551-1555.

      [30]? Zhou T,Lü L,Zhang Y C.Predicting Missing Links Via Local Information[J].The European Physical Journal B,2009,71(4):623-630.

      [31]? Leicht E A,Holme P,Newman M E J.Vertex Similarity in Networks[J].Physical Review E,2006,73(2):1-10.

      [32]? Adamic L A,Adar E.Friends and Neighbors on the Web[J].Social Networks,2003,25(3):211-230.

      [33]? Barabási A L,Albert R.Emergence of Scaling in Random Networks[J].Science,1999,286(5439):509-512.

      [34]? Valverde-Rebaza J C,Roche M,Poncelet P,et al.The Role of Location and Social Strength for Friendship Prediction in Location-based Social Networks[J].Information Processing & Management,2018,54(4):475-489.

      [35]? 高楊,張燕平,錢付蘭,等.結(jié)合節(jié)點度和節(jié)點聚類系數(shù)的鏈路預測算法[J].小型微型計算機系統(tǒng),2017,38(7):1436-1441.

      [36]? 陳嘉穎,于炯,楊興耀,等.基于復雜網(wǎng)絡節(jié)點重要性的鏈路預測算法[J].計算機應用,2016,36(12):3251-3255,3268.

      [37]? Lü L,Jin C H,Zhou T.Similarity Index Based on Local Paths for Link Prediction of Complex Networks[J].Physical Review E,2009,80(4):1-9.

      [38]? Katz L.A New Status Index Derived From Sociometric Analysis[J].Psychometrika,1953,18(1):39-43.

      [39]? 呂亞楠.基于網(wǎng)絡結(jié)構(gòu)和隨機游走理論的鏈路預測算法研究[D].武漢:武漢理工大學,2019.

      [40]? Klein D J,Randi?M.Resistance Distance[J].Journal of Mathematical Chemistry,1993,12(1):81-95.

      [41]? Fouss F,Pirotte A,Renders J M,et al.Random-Walk Computation of Similarities Between Nodes of a Graph with Application to Collaborative Recommendation[A].IEEE Transactions on Knowledge and Data Engineering[C].2007,19(3):355-369.

      [42]? Brin S,Page L.The Anatomy of a Large-scale Hypertextual Web Search Engine[J].Computer Networks and ISDN Systems,1998,30(1-7):107-117.

      [43]? Jeh G,Widom J.Simrank:A Measure of Structural-Context Similarity[A].Proceedings of the Eighth ACM SIGKDD International Conference on Knowledge Discovery and Data Mining[C].2002:538-543.

      [44]? Liu W,Lü L.Link Prediction Based on Local Random Walk[J].Europhysics Letters,2010,89(5):1-6.

      [45]? Kim H,Hong S,Kwon O,et al.Concentric Diversification Based on Technological Capabilities:Link Analysis of Products and Technologies[J].Technological Forecasting and Social Change,2017,118:246-257.

      [46]? 劉海峰.社交網(wǎng)絡用戶交互模型及行為偏好預測研究[D].北京:北京郵電大學,2014.

      [47]? 張金柱,胡一鳴.利用鏈路預測揭示合著網(wǎng)絡演化機制[J].情報科學,2017,35(7):75-81.

      [48]? Perozzi B,Al-Rfou R,Skiena S.Deepwalk:Online Learning of Social Representations[A].Proceedings of the 20th ACM SIGKDD International Conference on Knowledge Discovery and Data mining[C].ACM,2014:701-710.

      [49]? Tang J,Qu M,Wang M,et al.Line:Large-scale Information Network Embedding[A].Proceedings of the 24th International Conference on World Wide Web[C].2015:1067-1077.

      [50]? Cao S,Lu W,Xu Q.Grarep:Learning Graph Representations with Global Structural Information[A].Proceedings of the 24th ACM International on Conference on Information and Knowledge Management[C].ACM,2015:891-900.

      [51]? Grover A,Leskovec J.Node2vec:Scalable Feature Learning for Networks[A].Proceedings of the 22nd ACM SIGKDD International Conference on Knowledge Discovery and Data Mining[C].ACM,2016:855-864.

      [52]? Wang D,Cui P,Zhu W.Structural Deep Network Embedding[A].Proceedings of the 22nd ACM SIGKDD International Conference on Knowledge Discovery and Data Mining[C].ACM,2016:1225-1234.

      [53]? Yang C,Liu Z,Zhao D,et al.Network Representation Learning with Rich Text Information[A].Twenty-Fourth International Joint Conference on Artificial Intelligence[C].IJCAI,2015:2111-2117.

      [54]? Tu C,Zhang W,Liu Z,et al.Max-Margin Deepwalk:Discriminative Learning of Network Representation[A].Twenty-Fifth International Joint Conference on Artificial Intelligence[C].IJCAI,2016:3889-3895.

      [55]? Li J,Dani H,Hu X,et al.Attributed Network Embedding for Learning in a Dynamic Environment[A].Proceedings of the 2017 ACM on Conference on Information and Knowledge Management[C].ACM,2017:387-396.

      [56]? 謝奕希,陳鴻昶,黃瑞陽,等.一種基于改進Logistic模型的鏈路預測指標融合方法[J].信息工程大學學報,2017,18(6):703-707.

      [57]? Guns R,Wang L.Detecting the Emergence of New Scientific Collaboration Links in Africa:A Comparison of Expected and Realized Collaboration Intensities[J].Journal of Informetrics,2017,11(3):892-903.

      [58]? Behrouzi S,Sarmoor Z S,Hajsadeghi K,et al.Predicting Scientific Research Trends Based on Link Prediction in Keyword Networks[J].Journal of Informetrics,2020,14(4):1-16.

      作者簡介:張雪,女,西安電子科技大學經(jīng)濟與管理學院講師,研究方向:學科信息學與領域知識發(fā)現(xiàn)、科學計量與科技評價;張志強,男,中國科學院成都文獻情報中心研究員,中國科學院大學經(jīng)濟與管理學院信息資源管理系教授,博士生導師,研究方向:科技戰(zhàn)略與規(guī)劃、科技政策與管理、科學學、科學計量與科技評價等。

      猜你喜歡
      研究內(nèi)容機器學習
      獨立學院創(chuàng)新創(chuàng)業(yè)教育體系的研究
      考試周刊(2016年103期)2017-01-23 17:21:15
      基于詞典與機器學習的中文微博情感分析
      中國企業(yè)管理研究的著力點應該放在哪
      人民論壇(2016年31期)2016-12-06 11:06:09
      基于機器學習的圖像特征提取技術在圖像版權(quán)保護中的應用
      我國會展物流研究綜述
      智富時代(2016年12期)2016-12-01 14:06:52
      基于網(wǎng)絡搜索數(shù)據(jù)的平遙旅游客流量預測分析
      時代金融(2016年27期)2016-11-25 17:51:36
      前綴字母為特征在維吾爾語文本情感分類中的研究
      科教導刊(2016年26期)2016-11-15 20:19:33
      近三十年《詩經(jīng)·周頌》的研究綜述
      基于支持向量機的金融數(shù)據(jù)分析研究
      關于圖像處理中幾個關鍵算法的研究
      科技視界(2016年20期)2016-09-29 12:39:02
      时尚| 凌云县| 清远市| 通城县| 惠水县| 合阳县| 方城县| 礼泉县| 容城县| 定兴县| 云和县| 抚宁县| 通榆县| 襄城县| 阿拉尔市| 天门市| 普兰店市| 鱼台县| 澄江县| 建阳市| 黄石市| 五指山市| 扎赉特旗| 兴国县| 鲁山县| 简阳市| 东兴市| 来宾市| 黄平县| 宣汉县| 开平市| 江永县| 垦利县| 涡阳县| 乌海市| 阿克陶县| 绵竹市| 汶上县| 滕州市| 陆河县| 杭锦旗|