基于深度圖神經(jīng)網(wǎng)絡(luò)方法的領(lǐng)域知識(shí)結(jié)構(gòu)探測(cè)

2021-11-25 09:32:06劉非凡羅雙玲夏昊翔

情報(bào)學(xué)報(bào) 2021年11期

關(guān)鍵詞：深度圖知識(shí)結(jié)構(gòu)神經(jīng)網(wǎng)絡(luò)

劉非凡，張爽，羅雙玲，夏昊翔

（1.大連理工大學(xué)系統(tǒng)工程研究所，大連 116024；2.大連理工大學(xué)大數(shù)據(jù)與智能決策研究中心，大連 116024；3.大連海事大學(xué)航運(yùn)經(jīng)濟(jì)與管理學(xué)院，大連 116026）

1 引言

結(jié)構(gòu)化的學(xué)科領(lǐng)域知識(shí)反映出科學(xué)的內(nèi)在邏輯與聯(lián)系。如何客觀準(zhǔn)確地度量出學(xué)科領(lǐng)域主題是情報(bào)工程研究人員試圖解決的基礎(chǔ)問題。清晰的學(xué)科領(lǐng)域知識(shí)結(jié)構(gòu)有助于研究者把握領(lǐng)域研究的發(fā)展態(tài)勢(shì)、支持科技管理活動(dòng)以及完善科技政策的制定。自20世紀(jì)以來，科學(xué)界各個(gè)學(xué)科領(lǐng)域都取得了前所未有的蓬勃發(fā)展，新興研究領(lǐng)域?qū)映霾桓F。從數(shù)量上來看，科學(xué)文獻(xiàn)發(fā)表量自1900年起呈現(xiàn)出指數(shù)型增長(zhǎng)的趨勢(shì)，文獻(xiàn)涉及的學(xué)科領(lǐng)域知識(shí)單元也呈現(xiàn)出線性增長(zhǎng)的趨勢(shì)[1]；從Web of Science科學(xué)文獻(xiàn)數(shù)據(jù)庫(kù)的統(tǒng)計(jì)結(jié)果來看，至2015年前后，日益增長(zhǎng)的科學(xué)文獻(xiàn)所涌現(xiàn)出的新詞匯規(guī)模已達(dá)到了每年4萬個(gè)[2]。另外，大科學(xué)時(shí)代領(lǐng)域知識(shí)結(jié)構(gòu)呈現(xiàn)出三個(gè)重要特征：學(xué)科領(lǐng)域知識(shí)網(wǎng)絡(luò)規(guī)模持續(xù)擴(kuò)展、維度高速膨脹以及結(jié)構(gòu)動(dòng)態(tài)多變[3]。學(xué)科體系日益復(fù)雜、交叉學(xué)科領(lǐng)域不斷涌現(xiàn)為厘清領(lǐng)域知識(shí)結(jié)構(gòu)帶來了巨大挑戰(zhàn)[4]。

領(lǐng)域知識(shí)結(jié)構(gòu)探測(cè)的核心任務(wù)是準(zhǔn)確、全面地識(shí)別領(lǐng)域科學(xué)文獻(xiàn)中所涵蓋的知識(shí)單元實(shí)體，并挖掘出這些知識(shí)單元之間的關(guān)聯(lián)程度。信息技術(shù)的發(fā)展、網(wǎng)絡(luò)科學(xué)的興起以及大規(guī)?？色@取的科學(xué)文獻(xiàn)數(shù)據(jù)為科技情報(bào)人員解決該問題提供了重要的理論指導(dǎo)與研究基礎(chǔ)。首先，大規(guī)模可獲取的文獻(xiàn)數(shù)據(jù)使得更加全面、系統(tǒng)和完整地識(shí)別和探測(cè)學(xué)科領(lǐng)域的知識(shí)結(jié)構(gòu)成為可能。其次，網(wǎng)絡(luò)科學(xué)的興起，特別是引文網(wǎng)絡(luò)分析、社會(huì)網(wǎng)絡(luò)分析以及復(fù)雜網(wǎng)絡(luò)分析理論，豐富了領(lǐng)域知識(shí)結(jié)構(gòu)探測(cè)研究的內(nèi)涵。最后，計(jì)算機(jī)學(xué)科的發(fā)展，尤其是圍繞大數(shù)據(jù)與機(jī)器學(xué)習(xí)的相關(guān)軟硬件及人工智能算法研究，為領(lǐng)域知識(shí)實(shí)體識(shí)別與結(jié)構(gòu)分析提供了重要的技術(shù)支撐。

當(dāng)前，圍繞領(lǐng)域知識(shí)結(jié)構(gòu)的識(shí)別與探測(cè)問題，國(guó)內(nèi)外網(wǎng)絡(luò)科學(xué)、計(jì)算機(jī)科學(xué)、科學(xué)學(xué)以及情報(bào)學(xué)等各領(lǐng)域的學(xué)者都開展了諸多研究。網(wǎng)絡(luò)科學(xué)研究人員主要聚焦于普適視角下的網(wǎng)絡(luò)構(gòu)建方式、凝聚子群的識(shí)別，以及網(wǎng)絡(luò)社區(qū)的劃分[5]。計(jì)算機(jī)學(xué)科研究人員憑借機(jī)器學(xué)習(xí)、統(tǒng)計(jì)學(xué)習(xí)以及神經(jīng)網(wǎng)絡(luò)等新興研究領(lǐng)域的發(fā)展，開發(fā)了更先進(jìn)的自然語言處理工具與主題抽取模型[6]，對(duì)文檔內(nèi)容的挖掘與分析日趨深入。科學(xué)學(xué)研究人員則重視從科研活動(dòng)視角探討領(lǐng)域知識(shí)的交叉融合模式[7]。情報(bào)學(xué)研究人員則廣泛吸收和借鑒了不同學(xué)科的理論與方法工具，研究范圍涵蓋了科技文獻(xiàn)引證分析、期刊分群、文本內(nèi)容特征提取、主題詞共現(xiàn)網(wǎng)絡(luò)結(jié)構(gòu)探測(cè)以及文檔全文挖掘等主題[8-10]。近年來，也有學(xué)者利用深度學(xué)習(xí)等先進(jìn)的文本語義分析手段測(cè)度學(xué)科知識(shí)結(jié)構(gòu)[11]。

人工神經(jīng)網(wǎng)絡(luò)領(lǐng)域的快速發(fā)展加速了自然語言處理技術(shù)的更新迭代，并且為網(wǎng)絡(luò)科學(xué)的研究帶來了新的研究范式。在文本內(nèi)容分析領(lǐng)域，相較于傳統(tǒng)的主題發(fā)現(xiàn)方法，深度學(xué)習(xí)技術(shù)展現(xiàn)出了語義捕獲更準(zhǔn)確和結(jié)果更具解釋性的特點(diǎn)。在情報(bào)工程應(yīng)用上，傳統(tǒng)的文本內(nèi)容分析手段，如TF-IDF（Term Frequency-Inverse Document Frequency）[12]、共詞[13]、LDA（Latent Dirichlet Allocation）及其衍生方法[14-15]，正在被新型研究手段所取代[11]。在網(wǎng)絡(luò)分析研究領(lǐng)域，已經(jīng)出現(xiàn)了利用流形學(xué)習(xí)方法對(duì)高維文本特征數(shù)據(jù)降維可視化的研究，如t-SNE（t-Distributed Stochastic Neighbor Embedding）算法[16]。另外，有學(xué)者利用淺層圖網(wǎng)絡(luò)表示學(xué)習(xí)方法來解決學(xué)者科研合作預(yù)測(cè)的問題[17]。

總體而言，領(lǐng)域知識(shí)結(jié)構(gòu)探測(cè)問題是一個(gè)典型的跨學(xué)科研究問題，不同學(xué)科的研究人員借助自身的學(xué)科優(yōu)勢(shì)對(duì)該問題開展了廣泛探索。領(lǐng)域知識(shí)結(jié)構(gòu)探測(cè)的基本思路可以歸納為兩個(gè)方面：一方面是文本內(nèi)容分析，利用自然語言處理方法直接抽取科技文獻(xiàn)的文本內(nèi)容，通過度量文本之間的相似性識(shí)別出領(lǐng)域知識(shí)結(jié)構(gòu)；另一方面是引文網(wǎng)絡(luò)分析，通過領(lǐng)域文獻(xiàn)之間的直接引用、耦合引用或共被引關(guān)系構(gòu)建引文網(wǎng)絡(luò)，利用文獻(xiàn)聚類算法挖掘出領(lǐng)域知識(shí)關(guān)聯(lián)。這兩種方法在目前的領(lǐng)域知識(shí)結(jié)構(gòu)探測(cè)中均取得了良好的效果。文本內(nèi)容分析方法（簡(jiǎn)稱“內(nèi)容分析法”）的優(yōu)勢(shì)在于直接從文獻(xiàn)的文本內(nèi)容中抽取主題，或者利用文本特征表示方法轉(zhuǎn)化為低維主題向量，進(jìn)而通過向量相似度度量出文本之間的差異度。內(nèi)容分析法的效果直接取決于文本的預(yù)處理過程是否完善以及主題模型的選擇與應(yīng)用是否適當(dāng)。引文網(wǎng)絡(luò)分析方法（簡(jiǎn)稱“引文分析法”）的有效性源則自研究人員的引用動(dòng)機(jī)，即假設(shè)研究人員總傾向于將與自己論文主題相近的文獻(xiàn)選入?yún)⒖嘉墨I(xiàn)列表中。

然而，這兩類方法都存在一定的局限。圖1以vi和vj兩個(gè)節(jié)點(diǎn)在兩類方法中的不同分類結(jié)果反映了引文分析法與內(nèi)容分析法的缺點(diǎn)。其中，vi是高被引文獻(xiàn)，vj是文本內(nèi)容缺失或者與主題1和主題2的內(nèi)容相似度均接近的文獻(xiàn)。在這兩種分析方法下，vi由于擁有極高的引用關(guān)系，會(huì)吸引來自不同子領(lǐng)域的引用關(guān)系，導(dǎo)致該文獻(xiàn)及其具有施引關(guān)系的其他相關(guān)文獻(xiàn)出現(xiàn)“內(nèi)容差異大，但被分到同類別”的情況。對(duì)于vj來說，文本內(nèi)容缺失或者與其他多個(gè)主題之間區(qū)分度過小都會(huì)導(dǎo)致其無法被準(zhǔn)確分類。而如果vi具有可區(qū)分的文本內(nèi)容，那么vi通過內(nèi)容關(guān)聯(lián)就可以獲得正確分類；vj則可以依據(jù)引用關(guān)聯(lián)得到更為恰當(dāng)?shù)姆诸惤Y(jié)果。也就是說，這兩種方法的有效融合有望解決上述單一方法存在的問題，即文本挖掘往往受制于“一詞多義”現(xiàn)象以及領(lǐng)域語料庫(kù)的缺乏；而引文分析則受限于高被引文獻(xiàn)對(duì)領(lǐng)域?qū)W科網(wǎng)絡(luò)結(jié)構(gòu)的影響，可能會(huì)造成將不同主題的文獻(xiàn)匯總到同一主題下的情況。

圖1 引文分析法與內(nèi)容分析法的局限示意圖

盡管也有學(xué)者將兩類研究方法試圖結(jié)合起來[18-20]，但多局限于啟發(fā)式地混合兩者的相似度矩陣，未實(shí)現(xiàn)文獻(xiàn)的內(nèi)容特征以及引用關(guān)系特征的直接融合。同時(shí)，這些方法無法結(jié)合傳統(tǒng)的專家分類方法，在研究范圍、規(guī)模擴(kuò)展性以及預(yù)測(cè)性等方面也存在先天缺陷。因此，本文擬引入近年來在機(jī)器學(xué)習(xí)領(lǐng)域中新涌現(xiàn)的深度圖表示學(xué)習(xí)方法，通過直接融合文獻(xiàn)的內(nèi)容特征以及引用網(wǎng)絡(luò)的結(jié)構(gòu)特征，以期獲得更準(zhǔn)確的領(lǐng)域知識(shí)結(jié)構(gòu)探測(cè)與識(shí)別結(jié)果。

2 研究框架

2.1 基于深度圖神經(jīng)網(wǎng)絡(luò)方法的領(lǐng)域知識(shí)結(jié)構(gòu)探測(cè)研究框架

鑒于目前研究方法的局限，為了準(zhǔn)確探測(cè)和識(shí)別領(lǐng)域知識(shí)結(jié)構(gòu)特征，本文提出了基于深度圖神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)表示方法的研究框架，具體研究流程如圖2所示。

圖2 基于深度圖神經(jīng)網(wǎng)絡(luò)模型的領(lǐng)域知識(shí)結(jié)構(gòu)探測(cè)研究框架

本文所提出的研究框架由數(shù)據(jù)預(yù)處理模塊、特征抽取模塊、圖網(wǎng)絡(luò)模型模塊以及領(lǐng)域知識(shí)結(jié)構(gòu)可視化模塊4部分組成。

（1）在數(shù)據(jù)預(yù)處理階段，搜集整理所要分析領(lǐng)域的文獻(xiàn)題錄信息及文獻(xiàn)之間的相互引用關(guān)系信息。本文以文獻(xiàn)的標(biāo)題以及摘要作為文獻(xiàn)的核心內(nèi)容表征信息，并對(duì)文本進(jìn)行合并、轉(zhuǎn)換大小寫、去除符號(hào)標(biāo)點(diǎn)數(shù)字、剔除學(xué)術(shù)停用詞以及版權(quán)聲明等預(yù)處理。

（2）特征抽取階段可分為文檔表示學(xué)習(xí)和文獻(xiàn)引用網(wǎng)絡(luò)構(gòu)建兩個(gè)步驟。具體來說，運(yùn)用文檔表示學(xué)習(xí)算法Doc2Vec獲得表征文本內(nèi)容特征信息的高維向量。根據(jù)領(lǐng)域內(nèi)文獻(xiàn)之間的施引關(guān)系，構(gòu)建直接引用網(wǎng)絡(luò)，并篩選出最大的連通子圖，利用Lou‐vain社區(qū)劃分算法得到文獻(xiàn)節(jié)點(diǎn)的社區(qū)標(biāo)記。

（3）圖網(wǎng)絡(luò)模型學(xué)習(xí)階段是本文框架的主要?jiǎng)?chuàng)新點(diǎn)。深度圖神經(jīng)網(wǎng)絡(luò)模型具有既可以嵌入節(jié)點(diǎn)屬性特征，又可以學(xué)習(xí)節(jié)點(diǎn)結(jié)構(gòu)特征的優(yōu)勢(shì)。因此，在該階段將特征抽取模塊得到的文本向量特征以及直接引文網(wǎng)絡(luò)結(jié)構(gòu)信息作為深度圖神經(jīng)網(wǎng)絡(luò)的輸入。通過模型的學(xué)習(xí)訓(xùn)練，得到融合了文本內(nèi)容特征和網(wǎng)絡(luò)結(jié)構(gòu)特征的文獻(xiàn)節(jié)點(diǎn)表征向量。

（4）在最后的領(lǐng)域知識(shí)結(jié)構(gòu)可視化階段，運(yùn)用流形學(xué)習(xí)算法UMAP（Uniform Manifold Approxima‐tion and Projection）對(duì)節(jié)點(diǎn)高維向量實(shí)施降維轉(zhuǎn)換，并實(shí)現(xiàn)可視化。

經(jīng)過上述4個(gè)階段，可測(cè)度并繪制出融合文獻(xiàn)內(nèi)容主題特征及引用關(guān)系的領(lǐng)域結(jié)構(gòu)知識(shí)圖譜。第2.2節(jié)和第2.3節(jié)將對(duì)本文研究框架中涉及的幾類深度學(xué)習(xí)表示算法和引文網(wǎng)絡(luò)社區(qū)劃分方法加以簡(jiǎn)要介紹和說明。

2.2 深度學(xué)習(xí)表示方法

2.2.1 文檔表示學(xué)習(xí)

文檔表示學(xué)習(xí)是指通過人工神經(jīng)網(wǎng)絡(luò)方法，對(duì)文本進(jìn)行數(shù)值化處理的手段。相比于傳統(tǒng)的詞袋模型、TF-IDF以及LDA等方法，文檔表示學(xué)習(xí)由于考慮了詞與詞之間、短語與短語之間以及句子中語義語序等綜合信息，表現(xiàn)出了更加準(zhǔn)確且易解釋的文檔表示結(jié)果[21]。本文具體使用的文檔表示學(xué)習(xí)方法是Doc2Vec[22]，該方法是Mikolov等[21]基于Word2Vec模型提出的一種神經(jīng)網(wǎng)絡(luò)語言模型。它可以將句子、段落或者文檔表示為一種低維的、實(shí)值的向量形式，且向量中的每一維度對(duì)應(yīng)特定的語義信息。Doc2Vec有兩種訓(xùn)練架構(gòu)：PV-DM（Distributed Mem‐ory Model of Paragraph Vectors）和PV-DBOW（Dis‐tributed Bag of Words of Paragraph Vector）。對(duì)于大多數(shù)任務(wù)，PV-DM表現(xiàn)較好，所以本文選擇PV-DM法進(jìn)行訓(xùn)練。訓(xùn)練模型的構(gòu)建主要依賴基于Python語言的主題相似度測(cè)度包Gensim[23]，該方法已被廣泛應(yīng)用于文本的特征提取、文本相似度度量以及文本主題聚類等領(lǐng)域。

2.2.2 圖網(wǎng)絡(luò)表示學(xué)習(xí)

圖網(wǎng)絡(luò)表示學(xué)習(xí)是近年來在人工神經(jīng)網(wǎng)絡(luò)領(lǐng)域異軍突起的前沿領(lǐng)域。不同于以往機(jī)器學(xué)習(xí)領(lǐng)域研究對(duì)象主要集中在文本、圖像、音頻以及視頻等類型，圖網(wǎng)絡(luò)表示學(xué)習(xí)將研究對(duì)象從序列數(shù)據(jù)和二維化數(shù)據(jù)擴(kuò)展到了網(wǎng)絡(luò)數(shù)據(jù)類型上。其研究任務(wù)旨在試圖將大規(guī)模高維度的動(dòng)態(tài)網(wǎng)絡(luò)化數(shù)據(jù)編碼到低維向量空間中，并盡可能地保留原始數(shù)據(jù)中的重要特征。

本文所采用的淺層圖卷積神經(jīng)網(wǎng)絡(luò)模型是Node2Vec[24]，四種深度圖卷積神經(jīng)網(wǎng)絡(luò)模型分別是GCN（Graph Convolutional Network）[25]、GAT（Graph Attention Network）[26]、GIN（Graph Isomorphism Network）[27]和GNNEXPLAINER（Graph Neural Net‐work Explainer）[28]。Node2Vec是由斯坦福大學(xué)Les‐kovec教授團(tuán)隊(duì)提出并被廣泛應(yīng)用的淺層節(jié)點(diǎn)嵌入神經(jīng)網(wǎng)絡(luò)模型算法。該算法將文檔表示學(xué)習(xí)模型Word2Vec的基本思想遷移到網(wǎng)絡(luò)節(jié)點(diǎn)表示中，利用帶偏的隨機(jī)游走原理平衡了網(wǎng)絡(luò)中的同質(zhì)性以及結(jié)構(gòu)均衡性兩種特征，實(shí)現(xiàn)了網(wǎng)絡(luò)節(jié)點(diǎn)的低維度表征。同類型的淺層圖網(wǎng)絡(luò)神經(jīng)算法還有Deep‐Walk[29]、TADW（Text-Associated DeepWalk）[30]和LINE（Large-scale Information Network Embedding）[31]等。2017年前后，Kipf等[25]借鑒CNN（Convolu‐tional Neural Network）模型，將卷積與池化等概念引入圖神經(jīng)網(wǎng)絡(luò)模型中，被稱作圖卷積神經(jīng)網(wǎng)絡(luò)模型（GCN）。相比于淺層圖神經(jīng)網(wǎng)絡(luò)模型，GCN在多項(xiàng)分類任務(wù)中表現(xiàn)出了更高的準(zhǔn)確度。同時(shí)，此類卷積模型在訓(xùn)練過程中實(shí)現(xiàn)了不同層級(jí)神經(jīng)元之間的參數(shù)共享與層數(shù)拓展。因此，GCN縮短了網(wǎng)絡(luò)表示學(xué)習(xí)模型的訓(xùn)練時(shí)間，提升了算法的效率。隨后，有學(xué)者將自然語言處理中已被驗(yàn)證有效的注意力機(jī)制引入圖神經(jīng)網(wǎng)絡(luò)模型中，并稱之為圖注意力網(wǎng)絡(luò)模型（GAT）。此類處理序列數(shù)據(jù)的算法思想在表征網(wǎng)絡(luò)節(jié)點(diǎn)特征時(shí)同樣取得了良好的效果，并且GAT被認(rèn)為比GCN在基于半監(jiān)督學(xué)習(xí)的節(jié)點(diǎn)分類、邊預(yù)測(cè)等問題上性能更佳。2019年，盡管圖神經(jīng)網(wǎng)絡(luò)算法已經(jīng)在圖表征學(xué)習(xí)方面取得了突破性進(jìn)展，但Xu等[27]認(rèn)為，先前的深度圖神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)算法并沒有深入考慮區(qū)分潛在的網(wǎng)絡(luò)同構(gòu)現(xiàn)象，因此，提出了圖同構(gòu)網(wǎng)絡(luò)模型（GIN）解決了該問題，并提出了分析GNN模型表征力的理論框架。GNNEXPLAINER的提出，則是試圖解決由于GNN同時(shí)融合了節(jié)點(diǎn)結(jié)構(gòu)和屬性特征信息，導(dǎo)致無法區(qū)分兩種節(jié)點(diǎn)特征信息在網(wǎng)絡(luò)中的實(shí)際影響力差異的問題。這幾項(xiàng)研究將節(jié)點(diǎn)嵌入研究從之前淺層的表示方法推向了更具表征能力的深度圖卷積神經(jīng)網(wǎng)絡(luò)方法。

本文選擇上述算法的理由：①Node2Vec作為代表性淺層網(wǎng)絡(luò)節(jié)點(diǎn)表示學(xué)習(xí)算法，在本文中用于與其他深度圖表示學(xué)習(xí)算法得到的結(jié)果加以比較對(duì)照分析；②GCN和GAT經(jīng)過近年來的發(fā)展已逐漸成為了該領(lǐng)域的兩大類典型算法，GIN算法的獨(dú)特之處在于能夠避免網(wǎng)絡(luò)中存在的同構(gòu)問題；③深度圖神經(jīng)網(wǎng)絡(luò)架構(gòu)的核心優(yōu)勢(shì)是模型通過融合節(jié)點(diǎn)的屬性特征以及結(jié)構(gòu)特征，能夠更好地反映出一個(gè)現(xiàn)實(shí)網(wǎng)絡(luò)特征的真實(shí)情況，并同時(shí)顯著提高模型的運(yùn)算效率。

2.2.3 流形學(xué)習(xí)算法

傳統(tǒng)的網(wǎng)絡(luò)分析軟件，如NetDraw[32-33]或Gephi等[34]，往往難以清晰地呈現(xiàn)出規(guī)模龐大的網(wǎng)絡(luò)結(jié)構(gòu)。流形學(xué)習(xí)，又稱作非線性數(shù)據(jù)降維算法，其主要目的是將高維數(shù)據(jù)轉(zhuǎn)換到低維空間中，以便于發(fā)現(xiàn)和挖掘出高維數(shù)據(jù)的淺層語義信息，同時(shí)盡可能地在數(shù)據(jù)轉(zhuǎn)換過程中保留數(shù)據(jù)中蘊(yùn)含的核心特征信息。因此，本文將流形學(xué)習(xí)算法UMAP應(yīng)用于高維網(wǎng)絡(luò)節(jié)點(diǎn)向量的降維可視化過程中[35]，以契合本文關(guān)于領(lǐng)域知識(shí)結(jié)構(gòu)可視化的研究需求。該算法的優(yōu)點(diǎn)在于運(yùn)算速度快、計(jì)算資源耗費(fèi)低以及據(jù)稱能夠保留高維數(shù)據(jù)中的全局信息[36]。

2.3 引用網(wǎng)絡(luò)構(gòu)建與社區(qū)劃分

本文在分析領(lǐng)域知識(shí)結(jié)構(gòu)時(shí)選擇了文獻(xiàn)之間的直接引用關(guān)系構(gòu)建網(wǎng)絡(luò)。相比于文獻(xiàn)耦合網(wǎng)絡(luò)和同被引網(wǎng)絡(luò)，直接引用網(wǎng)絡(luò)的優(yōu)勢(shì)在于：這兩類網(wǎng)絡(luò)實(shí)質(zhì)上是從引文網(wǎng)絡(luò)映射衍生出來的網(wǎng)絡(luò)形式，不是文獻(xiàn)之間的一級(jí)信息關(guān)系的表征。通過共同施引關(guān)系構(gòu)建的網(wǎng)絡(luò)會(huì)很大程度上受到高被引文獻(xiàn)的影響，而通過同被引關(guān)系構(gòu)建的網(wǎng)絡(luò)則在文獻(xiàn)選擇方面具有一定的時(shí)滯性[37]。

現(xiàn)實(shí)世界中的網(wǎng)絡(luò)常常具有模塊化特征，即社區(qū)內(nèi)節(jié)點(diǎn)相互連接緊密，但社區(qū)間節(jié)點(diǎn)相互連接稀疏，領(lǐng)域知識(shí)結(jié)構(gòu)網(wǎng)絡(luò)也不例外。為了有效劃分出網(wǎng)絡(luò)的社區(qū)結(jié)構(gòu)，復(fù)雜網(wǎng)絡(luò)科學(xué)研究學(xué)者提出了基于模塊度計(jì)算的劃分算法[38]和基于生成模型推斷的SBM（Stochastic Block Model）算法[39]。本文對(duì) 網(wǎng)絡(luò)的結(jié)構(gòu)劃分選擇了基于模塊度優(yōu)化的Louvain社區(qū)劃分算法。模塊度優(yōu)化是NP-Hard（Non-deter‐ministic Polynomial Hard）問題，因此，學(xué)者們?yōu)榻鉀Q該問題提出了許多啟發(fā)式算法，如層級(jí)集聚、極值優(yōu)化、模擬退火等算法。最終脫穎而出并廣為復(fù)雜網(wǎng)絡(luò)研究人員所應(yīng)用的是Louvain算法。通過多種社區(qū)劃分算法的比較分析，其被認(rèn)為是耗時(shí)最短、性能最好的算法之一[40-41]，并且提出該算法的論文[38]也成為了網(wǎng)絡(luò)科學(xué)領(lǐng)域中的高被引文獻(xiàn)。需要注意的是，本文運(yùn)用社區(qū)識(shí)別算法劃分出網(wǎng)絡(luò)的模塊化結(jié)構(gòu)有兩個(gè)目的：①作為與其他文檔表示學(xué)習(xí)算法結(jié)果，以及圖神經(jīng)網(wǎng)絡(luò)模型學(xué)習(xí)表征結(jié)果進(jìn)行比較的基準(zhǔn)；②便于清晰地展示運(yùn)用流形學(xué)習(xí)算法降維后得到的領(lǐng)域知識(shí)結(jié)構(gòu)可視化結(jié)果。

3 實(shí)證研究

3.1 數(shù)據(jù)集

為了驗(yàn)證本文所提出的研究框架在不同學(xué)科領(lǐng)域的普適性和有效性，分別選擇了基礎(chǔ)學(xué)科領(lǐng)域的代表“物理學(xué)”和新興研究領(lǐng)域“區(qū)塊鏈”。由于相對(duì)更為成熟的基礎(chǔ)學(xué)科與新涌現(xiàn)的研究領(lǐng)域知識(shí)單元的匯聚程度不同，本文選取了兩個(gè)處于不同發(fā)展階段的領(lǐng)域，通過對(duì)比或許可以揭示不同演化時(shí)期領(lǐng)域知識(shí)結(jié)構(gòu)的形態(tài)差異。

物理學(xué)學(xué)科：選取1985—2009年美國(guó)物理學(xué)會(huì)（American Physical Society，APS）期刊文獻(xiàn)，并剔除《現(xiàn)代物理評(píng)論》600余篇綜述性文章，最終獲得17.4萬篇論文，以及其相互之間產(chǎn)生的65.1萬條直接引用關(guān)系。已有研究表明[42]，物理學(xué)科的各個(gè)子領(lǐng)域在這一時(shí)間階段保持了較為穩(wěn)定的發(fā)展，學(xué)科結(jié)構(gòu)總體上呈現(xiàn)出以“凝聚態(tài)”和“理論物理”子領(lǐng)域?yàn)楹诵牡闹醒?邊緣結(jié)構(gòu)特征，處于相對(duì)邊緣位置的子領(lǐng)域包括“聲學(xué)”“光學(xué)”“核物理”“天文物理”以及“交叉物理領(lǐng)域”等。文獻(xiàn)題錄元數(shù)據(jù)和引用關(guān)系數(shù)據(jù)均從微軟MAG（Microsoft Academic Graph）學(xué)術(shù)數(shù)據(jù)中抽取獲得[43]。

“區(qū)塊鏈”領(lǐng)域：以Web of Science核心數(shù)據(jù)庫(kù)為數(shù)據(jù)源，設(shè)置檢索式TS=(“blockchain”or“block chain”or“block-chain”)，檢索時(shí)間跨度為2008年至2020年6月5日。去除掉化學(xué)領(lǐng)域同樣使用blockchain作為關(guān)鍵詞的無關(guān)文獻(xiàn)、題錄信息缺失的文獻(xiàn)以及不在引文網(wǎng)絡(luò)最大連通子圖中的文獻(xiàn)后，共剩余3624篇論文及其之間的12549條直接引用關(guān)系。從高頻關(guān)鍵詞來看，該領(lǐng)域的研究熱點(diǎn)主要有“Smart Contract”（智能合約）、“Bitcoin”（比特幣）、“Internet of Things”（物聯(lián)網(wǎng)）和“Distrib‐uted Ledger”（分布式賬本）等。

3.2 實(shí)驗(yàn)環(huán)境和參數(shù)設(shè)置

本文實(shí)驗(yàn)環(huán)節(jié)主要涉及引文網(wǎng)絡(luò)社區(qū)劃分、文檔表示學(xué)習(xí)算法以及圖神經(jīng)網(wǎng)絡(luò)模型的訓(xùn)練。實(shí)驗(yàn)環(huán)境：?jiǎn)螜C(jī)，8核，CPU@3.4 GHz，內(nèi)存36 GB；編程環(huán)境：PyTorch[44]。主要實(shí)驗(yàn)參數(shù)的設(shè)置參照各類模型和算法的通用設(shè)置方法，具體參數(shù)如表1所示。

表1 實(shí)驗(yàn)參數(shù)設(shè)置

3.3 實(shí)驗(yàn)結(jié)果

為了探究深度圖神經(jīng)網(wǎng)絡(luò)模型在領(lǐng)域知識(shí)結(jié)構(gòu)探測(cè)方面的特點(diǎn)，本文開展了多組對(duì)照試驗(yàn)。采用具體的樣本案例分析了模型學(xué)習(xí)結(jié)果，以體現(xiàn)出該方法融合文獻(xiàn)內(nèi)容特征以及文獻(xiàn)知識(shí)結(jié)構(gòu)特征的核心優(yōu)勢(shì)。

3.3.1 領(lǐng)域文獻(xiàn)內(nèi)容特征及引用網(wǎng)絡(luò)結(jié)構(gòu)特征抽取

本文按照?qǐng)D2中的研究框架思路，首先以文獻(xiàn)引用關(guān)系構(gòu)建直接引文網(wǎng)絡(luò)，采用Louvain算法劃分引文網(wǎng)絡(luò)社區(qū)，并將引文關(guān)系及所得的文獻(xiàn)社區(qū)結(jié)果用于后續(xù)圖神經(jīng)網(wǎng)絡(luò)節(jié)點(diǎn)分類任務(wù)。然后，利用文檔表示學(xué)習(xí)算法Doc2Vec將預(yù)處理后的文獻(xiàn)標(biāo)題、摘要和關(guān)鍵詞數(shù)據(jù)轉(zhuǎn)化成為高維向量，以此表征領(lǐng)域文獻(xiàn)集的內(nèi)容特征。所獲文檔向量也將作為文獻(xiàn)的內(nèi)容屬性特征嵌入到深度圖神經(jīng)網(wǎng)絡(luò)模型的訓(xùn)練中。最后，利用網(wǎng)絡(luò)分析軟件Gephi和UMAP降維算法分別可視化引文網(wǎng)絡(luò)和高維領(lǐng)域文本特征。具體結(jié)果如圖3和圖4所示，其中，節(jié)點(diǎn)代表文獻(xiàn)，顏色表示所屬社區(qū)。

圖3 物理學(xué)科(a)和“區(qū)塊鏈”(b)領(lǐng)域直接引用網(wǎng)絡(luò)社區(qū)劃分結(jié)果(彩圖請(qǐng)見http://qbxb.istic.ac.cn/CN/volumn/home.shtml)

圖4 基于UMAP降維的物理學(xué)科(a)和“區(qū)塊鏈”(b)領(lǐng)域文本內(nèi)容可視化結(jié)果(彩圖請(qǐng)見http://qbxb.istic.ac.cn/CN/volumn/home.shtml)

由圖3可以看出，物理學(xué)科和“區(qū)塊鏈”領(lǐng)域的引用網(wǎng)絡(luò)均展示出了較為清晰的模塊化結(jié)構(gòu)。具體來說，物理學(xué)科直接引用網(wǎng)絡(luò)結(jié)構(gòu)的模塊度是0.81，最終劃分出了12個(gè)社區(qū)；區(qū)塊鏈領(lǐng)域引文網(wǎng)絡(luò)模塊度是0.46，劃分出8個(gè)社區(qū)。需要注意的是，后續(xù)文檔表示學(xué)習(xí)模型以及神經(jīng)網(wǎng)絡(luò)模型的結(jié)果都將以引文網(wǎng)絡(luò)社區(qū)劃分的結(jié)果作為基準(zhǔn)。領(lǐng)域知識(shí)網(wǎng)絡(luò)結(jié)構(gòu)可視化階段的著色以及圖神經(jīng)網(wǎng)絡(luò)模型中的標(biāo)簽，都將以文獻(xiàn)節(jié)點(diǎn)的引文關(guān)系社區(qū)劃分結(jié)果作為參照?；谖臋n表示學(xué)習(xí)和流形學(xué)習(xí)算法得到的領(lǐng)域文本內(nèi)容分析結(jié)果如圖4所示。

對(duì)比兩者可視化結(jié)果發(fā)現(xiàn)，物理學(xué)科的引文社區(qū)呈現(xiàn)出更好的聚集特征，而“區(qū)塊鏈”領(lǐng)域的內(nèi)容分析結(jié)果與引文網(wǎng)絡(luò)社區(qū)結(jié)果更加不一致，表現(xiàn)為同類引文社區(qū)在內(nèi)容上聚集程度較低。按照引文網(wǎng)絡(luò)社區(qū)著色后能夠更加明顯地發(fā)現(xiàn)，文檔表示學(xué)習(xí)的確可以對(duì)較為成熟的物理學(xué)科知識(shí)結(jié)構(gòu)進(jìn)行良好的表征和度量。但對(duì)于新興“區(qū)塊鏈”領(lǐng)域來說，文檔表示學(xué)習(xí)與引文網(wǎng)絡(luò)結(jié)構(gòu)社區(qū)劃分方法得到的結(jié)果差異相對(duì)較大。其原因或在于，新興領(lǐng)域處于早期探索階段，與其他領(lǐng)域相融合的態(tài)勢(shì)初步顯露但尚未形成明晰的主題或子領(lǐng)域，不同研究?jī)?nèi)容的論文被該領(lǐng)域?qū)W者選入?yún)⒖嘉墨I(xiàn)列表中，從而導(dǎo)致同一引文社區(qū)內(nèi)文獻(xiàn)的實(shí)際研究主題并不高度相似。

總而言之，上述結(jié)果顯示，一方面，這兩個(gè)領(lǐng)域知識(shí)結(jié)構(gòu)呈現(xiàn)出相近知識(shí)單元互相匯聚、相異知識(shí)單元彼此分離，但不同主題的知識(shí)單元之間的由跨主題知識(shí)單元橋接串聯(lián)的基本結(jié)構(gòu)特征。另一方面，從模塊化程度的差異也看到，相對(duì)更為成熟的基礎(chǔ)學(xué)科要比新涌現(xiàn)的研究領(lǐng)域其模塊化程度顯著更高，反映出不同學(xué)科領(lǐng)域的發(fā)展階段和科研活動(dòng)的差異性。

3.3.2 多層感知機(jī)與淺層圖神經(jīng)網(wǎng)絡(luò)模型結(jié)果

為了對(duì)比僅嵌入文獻(xiàn)內(nèi)容特征、僅學(xué)習(xí)表征文獻(xiàn)引用網(wǎng)絡(luò)結(jié)構(gòu)特征以及融合兩者特征信息的神經(jīng)網(wǎng)絡(luò)模型結(jié)果，本文以嵌入了文獻(xiàn)文本主題特征的多層感知機(jī)（Multi-Layer Perceptron，MLP）和淺層圖神經(jīng)網(wǎng)絡(luò)模型Node2Vec開展了領(lǐng)域知識(shí)結(jié)構(gòu)探測(cè)實(shí)驗(yàn)。需要注意的是，MLP的局限在于模型中神經(jīng)元無法通過訓(xùn)練迭代學(xué)習(xí)到文獻(xiàn)網(wǎng)絡(luò)的引用結(jié)構(gòu)信息；Node2Vec模型則無法嵌入文本的內(nèi)容特征信息。具體來說，將上一階段用文本學(xué)習(xí)算法獲得的文本特征嵌入MLP作為輸入層，500輪訓(xùn)練后，MLP測(cè)試準(zhǔn)確度趨于穩(wěn)定，不再顯著提升。以引文網(wǎng)絡(luò)的社區(qū)劃分結(jié)果作為基準(zhǔn)，MLP的測(cè)試集精度維持在0.63（物理）附近，Node2Vec圖神經(jīng)網(wǎng)絡(luò)模型的測(cè)試集精度結(jié)果大約在0.84（物理）。兩類神經(jīng)網(wǎng)絡(luò)模型對(duì)領(lǐng)域知識(shí)結(jié)構(gòu)的探測(cè)可視化結(jié)果如圖5和圖6所示，其中，節(jié)點(diǎn)代表文獻(xiàn)，顏色表示所屬社區(qū)。

圖5 和圖6的實(shí)驗(yàn)結(jié)果表明，嵌入了文本內(nèi)容主題特征的多層感知機(jī)和能夠?qū)W習(xí)表征引用關(guān)系特征的淺層圖神經(jīng)網(wǎng)絡(luò)模型均可以在一定程度上探測(cè)識(shí)別出文獻(xiàn)知識(shí)單元之間的匯聚特征。相較而言，淺層圖神經(jīng)網(wǎng)絡(luò)模型已經(jīng)比多層感知機(jī)模型取得了更好的表征效果。但是，這兩類模型共同的缺點(diǎn)是無法同時(shí)綜合文本內(nèi)容和引用結(jié)構(gòu)信息，因此，本文引入了深度圖神經(jīng)網(wǎng)絡(luò)模型，以更加精準(zhǔn)地探測(cè)出學(xué)科的領(lǐng)域知識(shí)結(jié)構(gòu)。

圖5 僅嵌入文獻(xiàn)主題特征的物理學(xué)(a)和“區(qū)塊鏈”(b)MLP模型結(jié)果(彩圖請(qǐng)見http://qbxb.istic.ac.cn/CN/volumn/home.shtml)

圖6 僅表征文獻(xiàn)引用網(wǎng)絡(luò)結(jié)構(gòu)特征的物理學(xué)(a)和“區(qū)塊鏈”(b)Node2Vec模型結(jié)果(彩圖請(qǐng)見http://qbxb.istic.ac.cn/CN/volumn/home.shtml)

3.3.3 深度圖神經(jīng)網(wǎng)絡(luò)模型結(jié)果

本文將運(yùn)用三種代表性的新型深度圖神經(jīng)網(wǎng)絡(luò)模型對(duì)物理學(xué)和“區(qū)塊鏈”領(lǐng)域的知識(shí)結(jié)構(gòu)開展探測(cè)實(shí)驗(yàn)，包括GCN（圖卷積神經(jīng)網(wǎng)絡(luò)）模型、GAT（圖注意力神經(jīng)網(wǎng)絡(luò)）模型以及GIN（圖同構(gòu)神經(jīng)網(wǎng)絡(luò)）模型。主要實(shí)驗(yàn)步驟如下：首先，準(zhǔn)備深度圖神經(jīng)網(wǎng)絡(luò)輸入層和訓(xùn)練過程所需的三類數(shù)據(jù)，即預(yù)先訓(xùn)練完成的文獻(xiàn)內(nèi)容表征數(shù)據(jù)、文獻(xiàn)之間的引用關(guān)系數(shù)據(jù)以及作為預(yù)測(cè)標(biāo)簽的引文網(wǎng)絡(luò)社區(qū)數(shù)據(jù)。其次，搭建和設(shè)計(jì)神經(jīng)網(wǎng)絡(luò)。本文三組實(shí)驗(yàn)均采用了1層輸入層、2層隱藏層、1層輸出層的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)。在模型初始化過程中，設(shè)置每個(gè)節(jié)點(diǎn)的屬性維度及擬輸出的節(jié)點(diǎn)嵌入向量維度。實(shí)驗(yàn)具體涉及的激活函數(shù)、優(yōu)化器和損失函數(shù)等參照了現(xiàn)有模型中的常規(guī)參數(shù)配置方式。最后，500輪次學(xué)習(xí)訓(xùn)練后，三種類型的GNN模型精度不再顯著提高，保持在了相對(duì)穩(wěn)定的水平，模型訓(xùn)練終止。仍然以引文網(wǎng)絡(luò)社區(qū)劃分結(jié)果作為節(jié)點(diǎn)標(biāo)簽空間來看，GCN、GAT以及GIN在精度上分別達(dá)到了0.869（物理）和0.819（區(qū)塊鏈）、0.848（物理）和0.728（區(qū)塊鏈）、0.885（物理）和0.780（區(qū)塊鏈）。將三種不同模型訓(xùn)練學(xué)習(xí)后得到的節(jié)點(diǎn)向量利用UMAP降維后，得到的領(lǐng)域知識(shí)結(jié)構(gòu)可視化結(jié)果如圖7所示。其中，節(jié)點(diǎn)代表文獻(xiàn)，顏色表示所屬社區(qū)。

圖7 融合文獻(xiàn)內(nèi)容特征和引用網(wǎng)絡(luò)結(jié)構(gòu)特征的物理學(xué)和“區(qū)塊鏈”深度神經(jīng)網(wǎng)絡(luò)模型結(jié)果(彩圖請(qǐng)見http://qbxb.istic.ac.cn/CN/volumn/home.shtml)

由圖7可以看出，與圖5和圖6中的實(shí)驗(yàn)結(jié)果相比，融合了文獻(xiàn)內(nèi)容和網(wǎng)絡(luò)結(jié)構(gòu)特征的領(lǐng)域知識(shí)結(jié)構(gòu)分類結(jié)果更加清晰、噪音節(jié)點(diǎn)或隨機(jī)分布節(jié)點(diǎn)更少。相比于其他方法，其計(jì)算資源耗費(fèi)更少，計(jì)算時(shí)長(zhǎng)更短。以物理學(xué)數(shù)據(jù)集為例，在第3.2節(jié)所述的實(shí)驗(yàn)環(huán)境下，同等規(guī)模采用Node2Vec模型實(shí)驗(yàn)500次訓(xùn)練耗時(shí)48小時(shí)，而GCN模型訓(xùn)練耗時(shí)僅為52分鐘，GAT訓(xùn) 練耗時(shí)2小時(shí)23分鐘，GIN訓(xùn) 練耗時(shí)2小時(shí)3分鐘，并且后三種GNN模型的節(jié)點(diǎn)可以同時(shí)融入文獻(xiàn)特征信息進(jìn)行訓(xùn)練，表征學(xué)習(xí)能力更強(qiáng)。

但是，由于兩種類型的網(wǎng)絡(luò)規(guī)模過大，即便從宏觀層面上領(lǐng)域整體知識(shí)結(jié)構(gòu)已經(jīng)被清晰地可視化，但微觀視角下節(jié)點(diǎn)層面的分類結(jié)果，即同時(shí)融合內(nèi)容特征和結(jié)構(gòu)特征的特點(diǎn)尚未得到明確顯現(xiàn)。因此，有必要選取文獻(xiàn)樣例，以具體地展現(xiàn)深度圖神經(jīng)網(wǎng)絡(luò)模型的優(yōu)勢(shì)。本文選擇了“區(qū)塊鏈”領(lǐng)域具有代表性的兩篇文獻(xiàn)，考察了在深度圖神經(jīng)網(wǎng)絡(luò)模型學(xué)習(xí)過程中，與這兩篇關(guān)系最緊密的相鄰節(jié)點(diǎn)子圖結(jié)構(gòu)。選擇這兩篇論文的依據(jù)是：第一篇文獻(xiàn)雖然在引文網(wǎng)絡(luò)社區(qū)中被劃分到了同一個(gè)類別，但在文檔表示學(xué)習(xí)實(shí)驗(yàn)中，文本內(nèi)容向量與同網(wǎng)絡(luò)類別的其他文獻(xiàn)差異顯著；第二篇文獻(xiàn)雖然在文檔表示結(jié)果中向量距離相近，但在引文網(wǎng)絡(luò)中是跨社區(qū)節(jié)點(diǎn)。這兩篇文獻(xiàn)分別代表了前文提到的單一的文本內(nèi)容表征學(xué)習(xí)和引文網(wǎng)絡(luò)結(jié)構(gòu)探測(cè)領(lǐng)域知識(shí)結(jié)果潛在的問題和方法局限。借助GNNEXPLAINER模型，得以呈現(xiàn)出GNN模型具體學(xué)習(xí)到的相鄰節(jié)點(diǎn)屬性特征以及結(jié)構(gòu)特征。

圖8 和圖9展示了上述兩篇文獻(xiàn)在深度圖網(wǎng)絡(luò)模型學(xué)習(xí)過程中影響最大的節(jié)點(diǎn)的子圖，其中節(jié)點(diǎn)顏色區(qū)分引文社區(qū)，邊顏色的透明程度反映鄰居節(jié)點(diǎn)對(duì)該節(jié)點(diǎn)的影響程度。與節(jié)點(diǎn)的原始引文網(wǎng)絡(luò)關(guān)系子圖所不同的是，圖8和圖9中的文獻(xiàn)關(guān)聯(lián)子圖是節(jié)點(diǎn)同時(shí)融合了內(nèi)容特征和引文關(guān)系特征的子圖。因此，對(duì)于特定的文獻(xiàn)來說，由于深度圖神經(jīng)網(wǎng)絡(luò)會(huì)同時(shí)考慮到相鄰文獻(xiàn)之間的內(nèi)容特征差異程度，盡管存在多條施引或者被引關(guān)系，但不一定所有的引用關(guān)系都在影響該文獻(xiàn)的知識(shí)單元分類結(jié)果。

圖8 同一引文社區(qū)中文本內(nèi)容差異顯著的文獻(xiàn)在GNN中的核心關(guān)聯(lián)節(jié)點(diǎn)(ID:1438)

圖9 文本內(nèi)容相近但所屬不同引文社區(qū)的文獻(xiàn)在GNN中的核心關(guān)聯(lián)節(jié)點(diǎn)(ID:1032)

3.4 討論

從研究結(jié)果來看，本文所提出的領(lǐng)域知識(shí)結(jié)構(gòu)探測(cè)研究方法既考慮了文獻(xiàn)的內(nèi)容特征，又融合了文獻(xiàn)之間的引用關(guān)系特征，可以更加準(zhǔn)確地探測(cè)學(xué)科領(lǐng)域的知識(shí)結(jié)構(gòu)，以應(yīng)對(duì)和解決當(dāng)前大數(shù)據(jù)時(shí)代背景下復(fù)雜網(wǎng)絡(luò)信息的規(guī)模性、高維性和動(dòng)態(tài)性等問題。基于深度圖神經(jīng)網(wǎng)絡(luò)模型的探測(cè)手段要比傳統(tǒng)的領(lǐng)域知識(shí)結(jié)構(gòu)方法具備三個(gè)方面的優(yōu)勢(shì)：可預(yù)測(cè)性、規(guī)?？蓴U(kuò)展性以及更強(qiáng)的適應(yīng)性。

可預(yù)測(cè)性是指深度圖神經(jīng)網(wǎng)絡(luò)模型不需要所有節(jié)點(diǎn)的標(biāo)簽特征就可取得更好的節(jié)點(diǎn)分類結(jié)果。盡管在本研究中，所有節(jié)點(diǎn)的標(biāo)簽都是以引文網(wǎng)絡(luò)社區(qū)劃分的結(jié)果作為基準(zhǔn)，但已有研究表明，圖神經(jīng)網(wǎng)絡(luò)實(shí)際上只需5%~20%的真實(shí)節(jié)點(diǎn)標(biāo)簽，通過學(xué)習(xí)就能夠使節(jié)點(diǎn)分類任務(wù)精度高達(dá)80%左右[45]。這為與領(lǐng)域知識(shí)探測(cè)相關(guān)的其他研究提供了更廣闊的探索空間。例如，在文獻(xiàn)分類問題上，可以與專家分析法相結(jié)合，通過專家標(biāo)注少量子領(lǐng)域文獻(xiàn)完成對(duì)整個(gè)更大領(lǐng)域的關(guān)聯(lián)文獻(xiàn)分類的任務(wù)。

規(guī)模可擴(kuò)展性是指在同等計(jì)算資源條件下，深度圖神經(jīng)網(wǎng)絡(luò)模型比傳統(tǒng)的基于引文網(wǎng)絡(luò)的領(lǐng)域知識(shí)探測(cè)算法以及淺層圖神經(jīng)網(wǎng)絡(luò)模型更適合處理大規(guī)模的領(lǐng)域知識(shí)網(wǎng)絡(luò)；并且，模型學(xué)到的大規(guī)模高維節(jié)點(diǎn)特征可以通過流形學(xué)習(xí)算法降維轉(zhuǎn)化為低維向量，進(jìn)而用于可視化處理分析，其聚類結(jié)果也更易理解且具備解釋性。

適應(yīng)性是指盡管領(lǐng)域知識(shí)結(jié)構(gòu)網(wǎng)絡(luò)往往是動(dòng)態(tài)變化的，但深度圖神經(jīng)網(wǎng)絡(luò)模型無需因?yàn)樯倭抗?jié)點(diǎn)和邊關(guān)系的調(diào)整變化就重復(fù)學(xué)習(xí)整個(gè)網(wǎng)絡(luò)。傳統(tǒng)的網(wǎng)絡(luò)聚類或者文本分析方法，由于其研究對(duì)象基本上只停留在靜態(tài)網(wǎng)絡(luò)結(jié)構(gòu)分析中，而無法適應(yīng)現(xiàn)實(shí)領(lǐng)域知識(shí)網(wǎng)絡(luò)中文獻(xiàn)內(nèi)容和引用關(guān)系動(dòng)態(tài)變化的情況。深度圖網(wǎng)絡(luò)模型具有半監(jiān)督學(xué)習(xí)的特征，因此，有學(xué)者提出了時(shí)序圖神經(jīng)網(wǎng)絡(luò)模型[46]，適用于預(yù)測(cè)變動(dòng)的領(lǐng)域知識(shí)單元及其關(guān)聯(lián)關(guān)系特征。

總之，在識(shí)別領(lǐng)域知識(shí)結(jié)構(gòu)方面，借助深度圖神經(jīng)網(wǎng)絡(luò)的網(wǎng)絡(luò)表示學(xué)習(xí)方法是更具前景、更順應(yīng)大數(shù)據(jù)及人工智能時(shí)代發(fā)展的研究范式和研究手段。

4 結(jié)論

針對(duì)目前領(lǐng)域知識(shí)結(jié)構(gòu)探測(cè)方法中，文本內(nèi)容分析方法和引文網(wǎng)絡(luò)分析方法存在的局限性，本文提出了基于深度圖網(wǎng)絡(luò)學(xué)習(xí)方法的研究框架，融合了兩類主流方法的各自優(yōu)勢(shì)。為了驗(yàn)證本文所提方法的有效性，分別選擇了代表基礎(chǔ)學(xué)科的物理學(xué)和代表新興學(xué)科的區(qū)塊鏈領(lǐng)域進(jìn)行實(shí)證分析。實(shí)驗(yàn)結(jié)果表明，深度圖網(wǎng)絡(luò)學(xué)習(xí)方法能夠更清晰地識(shí)別出領(lǐng)域知識(shí)結(jié)構(gòu)?；谏疃葓D神經(jīng)網(wǎng)絡(luò)算法的結(jié)構(gòu)探測(cè)思路或許是更適應(yīng)當(dāng)前大規(guī)模復(fù)雜網(wǎng)絡(luò)信息時(shí)代的新興研究范式。受個(gè)人機(jī)計(jì)算資源的限制，本文僅驗(yàn)證了兩個(gè)學(xué)科領(lǐng)域，后續(xù)研究擬借助超算平臺(tái)，將該方法思路拓展到更大范圍的學(xué)科領(lǐng)域，例如，對(duì)整個(gè)自然學(xué)科的文獻(xiàn)進(jìn)行學(xué)科領(lǐng)域識(shí)別及其可視化，以充分發(fā)揮出該研究思路的特點(diǎn)和優(yōu)勢(shì)。同時(shí)，后續(xù)考慮進(jìn)一步拓展和豐富基于領(lǐng)域知識(shí)度量的科研活動(dòng)模式與規(guī)律的探索和研究。由于本文結(jié)合多種深度學(xué)習(xí)模型方法，未來工作將通過多組消融實(shí)驗(yàn)，如調(diào)整隱藏層層數(shù)、神經(jīng)元數(shù)量、文本特征向量維度、訓(xùn)練輪次等，以進(jìn)一步提高模型的精度。

99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看