基于MuGNN模型的互聯(lián)網(wǎng)醫(yī)療知識融合研究

2022-01-26 08:23:22廖開際

河南科學(xué) 2021年12期

廖開際，王瑩

（華南理工大學(xué)工商管理學(xué)院，廣州 510641）

隨著人們健康意識的不斷提高，現(xiàn)有醫(yī)療服務(wù)水平已不能滿足人們的需求，醫(yī)療系統(tǒng)智能化刻不容緩.智能醫(yī)療的建立需要科學(xué)強(qiáng)大的知識體系來支撐，于是醫(yī)療知識庫應(yīng)運(yùn)而生. 醫(yī)療知識庫的應(yīng)用使得非結(jié)構(gòu)化的知識被有效地管理和利用，簡化了患者看病的流程，減輕了醫(yī)生的工作量，提高了醫(yī)生的工作效率.醫(yī)療知識庫常用于疾病診斷決策、醫(yī)療知識檢索等. 由于醫(yī)療知識分布廣泛，且不同數(shù)據(jù)源所獲取的知識也是有差異的，因此多來源醫(yī)療知識庫中的知識冗余問題比較嚴(yán)重. 為了減少醫(yī)療知識庫中的知識冗余，知識融合工作不可或缺.

知識融合是將來自多個(gè)數(shù)據(jù)源的屬于同一實(shí)體或者概念的描述信息融合起來，以獲得較單一數(shù)據(jù)源更加完全、準(zhǔn)確、可靠的知識庫. 知識融合目前已在各個(gè)領(lǐng)域得到應(yīng)用，如Freebase［1］、Google知識圖譜［2］等，它們通過知識的鏈接和融合來實(shí)現(xiàn)知識庫的大規(guī)?；?，從而使知識發(fā)揮最大的價(jià)值.

知識圖譜是一個(gè)結(jié)構(gòu)化存儲知識的知識庫，其保存的知識是以三元組的形式存在的. 知識圖譜KG由實(shí)體E、關(guān)系R、關(guān)系三元組Tr構(gòu)成，即KG=(E,R,Tr)，其中Tr=(h,r,t)，h和t代表實(shí)體，r代表實(shí)體間的關(guān)系. 對來自多個(gè)數(shù)據(jù)源的知識圖譜進(jìn)行實(shí)體對齊的目的是找出多個(gè)知識圖譜中所有語義相同的實(shí)體，即為KG生成實(shí)體修剪后的鄰接矩陣A，其中A=(ei,ej)，ei∈KG1，ej∈KG2，ei=ej，ei和ej分別代表KG1和KG2中的實(shí)體.

實(shí)體對齊是指從異構(gòu)數(shù)據(jù)源的知識圖譜中，找出表述不同但對應(yīng)現(xiàn)實(shí)世界同一指代的實(shí)體，是知識融合最主要的工作. 現(xiàn)有的實(shí)體對齊方法分為以下三種：一是基于概率模糊匹配的方法，如支持向量機(jī)SVM［3］；二是基于距離度量的方法，如計(jì)算字符串余弦相似度［4］；三是基于嵌入式的方法，如2013年Bordes等［5］提出的將實(shí)體關(guān)系看作頭實(shí)體到尾實(shí)體間翻譯的TransE模型.

早期實(shí)體對齊方法主要是以概率匹配和字符串相似度作為對齊依據(jù). Monge 和Elkan［6］在2014年提出了通過計(jì)算實(shí)體對字符的編輯距離來判斷兩者是否為同一實(shí)體的方法. Volz等［4］在2009年制定了一套計(jì)算相似度的度量標(biāo)準(zhǔn)，包括數(shù)字相似度、字符串相似度、URL相似度等. 但是這類方法都需要依賴人工定義的標(biāo)簽，應(yīng)用場景范圍狹窄，無法遷移至其他場景，而隨著數(shù)據(jù)的大規(guī)?；?，其準(zhǔn)確率及效率都逐漸下降.

目前，基于嵌入式的實(shí)體對齊方法已成為研究主流，其主要思想是將不同的知識圖譜的實(shí)體和關(guān)系均映射到同一向量空間后計(jì)算實(shí)體間的距離. 除了基礎(chǔ)的翻譯模型TransE外，IPTransE模型［7］和BootEA模型［8］都是采用迭代的方式來提高對齊效果，前者是對置信度較低的對齊實(shí)體賦予低權(quán)重，后者是對可能錯(cuò)誤的對齊實(shí)體標(biāo)簽進(jìn)行重新編輯標(biāo)記. JAPE 模型［9］則是通過引入屬性三元組填補(bǔ)信息來增強(qiáng)實(shí)體表示的. 雖然以上這些翻譯模型的性能都不錯(cuò)，但是超參數(shù)過多，訓(xùn)練過程較繁瑣.

隨著圖神經(jīng)網(wǎng)絡(luò)（Graph Neural Network，GNN）的興起，許多學(xué)者開始根據(jù)GNN模型進(jìn)行實(shí)體結(jié)構(gòu)建模.圖神經(jīng)網(wǎng)絡(luò)（Graph Neural Network，GNN）模型是由Scarselli等［10］提出的一種作用于圖結(jié)構(gòu)的神經(jīng)網(wǎng)絡(luò)，該模型通過迭代更新節(jié)點(diǎn)的隱藏狀態(tài)來捕捉圖中每個(gè)鄰居節(jié)點(diǎn)的狀態(tài). 為了增強(qiáng)GNN模型對結(jié)構(gòu)特征提取的能力，Thomas和Kipf［11］提出了利用卷積核抽取特征的圖卷積神經(jīng)網(wǎng)絡(luò)（Graph Convolutional Network，GCN）模型，該模型將卷積操作定義在節(jié)點(diǎn)的連接關(guān)系上. 為了放大圖結(jié)構(gòu)中最重要部分的作用，Veliokovie等［12］在2018年首次提出圖注意力網(wǎng)絡(luò)（Graph Attention Network，GAN）模型，現(xiàn)已被廣泛應(yīng)用在眾多領(lǐng)域. 基于圖神經(jīng)網(wǎng)絡(luò)的方法在利用圖神經(jīng)網(wǎng)絡(luò)進(jìn)行實(shí)體表示的同時(shí)可直接進(jìn)行實(shí)體對齊. Wang等［13］提出的GCN-Align模型是應(yīng)用圖卷積神經(jīng)網(wǎng)絡(luò)對實(shí)體之間的等價(jià)關(guān)系進(jìn)行建模，在利用關(guān)系三元組的基礎(chǔ)上加入實(shí)體屬性特征信息生成實(shí)體嵌入. GMNN模型［14］是將初始化矩陣定義為實(shí)體名稱的詞向量矩陣，而不是隨機(jī)進(jìn)行初始化，因此該模型的性能大大提升. HMAN模型［15］則是將實(shí)體的多個(gè)視圖進(jìn)行統(tǒng)一并提出新的框架來進(jìn)行實(shí)體表示.

嵌入式的實(shí)體對齊方法通常是假設(shè)兩個(gè)知識圖譜的同種實(shí)體具有相同或相似的鄰居結(jié)構(gòu)，然而現(xiàn)實(shí)生活中它們是存在結(jié)構(gòu)異質(zhì)性的，這就給實(shí)體對齊帶來了一定的難度. 另外，嵌入式的實(shí)體對齊方法認(rèn)為實(shí)體的所有關(guān)系鄰居在對齊過程中都發(fā)揮著同樣的作用，但是在知識圖譜中某些實(shí)體的共有鄰居的區(qū)別并不夠大，因此這些方法可能會忽略對對齊真正有影響的實(shí)體.

有部分學(xué)者對圖結(jié)構(gòu)的異質(zhì)性問題進(jìn)行了深入研究并提出了一些新的模型，如MuGNN模型、AliNet模型、NMN模型. MuGNN模型［16］利用AMIE+誘導(dǎo)出規(guī)則增加關(guān)系三元組以補(bǔ)全圖結(jié)構(gòu)，同時(shí)還引入了跨圖注意力機(jī)制以修剪圖結(jié)構(gòu). AliNet 模型［17］通過引入遠(yuǎn)距離鄰居對實(shí)體鄰居結(jié)構(gòu)的重疊部分進(jìn)行擴(kuò)展，并使用門機(jī)制對直接鄰居和遠(yuǎn)距離鄰居信息進(jìn)行聚合. NMN 模型［18］先采用圖采樣方法為實(shí)體提取有判別力的鄰居，然后采用基于注意力的交叉圖鄰居匹配模塊對實(shí)體子圖進(jìn)行魯棒對齊，最終取得了較好的實(shí)體對齊效果.

本研究首先構(gòu)建了基于不同醫(yī)療網(wǎng)站的乳腺疾病實(shí)體關(guān)系庫，然后采用MuGNN模型進(jìn)行實(shí)體對齊，并與JAPE模型、GCN-Align模型的實(shí)體對齊效果進(jìn)行了對比，之后完成了互聯(lián)網(wǎng)醫(yī)療實(shí)體關(guān)系庫的知識融合，最后通過Neo4j圖數(shù)據(jù)庫對融合后的互聯(lián)網(wǎng)醫(yī)療知識圖譜進(jìn)行可視化處理. 本研究可為多源知識圖譜的構(gòu)建與補(bǔ)全提供一定的參考.

1 互聯(lián)網(wǎng)醫(yī)療知識融合的流程

互聯(lián)網(wǎng)醫(yī)療知識融合的流程如圖1所示，具體分為以下兩個(gè)階段：

圖1 互聯(lián)網(wǎng)醫(yī)療知識融合的流程Fig.1 Process of internet medical knowledge fusion

1）實(shí)體對齊階段. 首先從不同醫(yī)療網(wǎng)站中爬取并抽取得到實(shí)體，然后構(gòu)建基于不同醫(yī)療網(wǎng)站的實(shí)體關(guān)系庫，最后采用實(shí)體對齊模型進(jìn)行實(shí)體對齊.

2）知識融合階段. 首先將基于不同醫(yī)療網(wǎng)站構(gòu)建的實(shí)體關(guān)系庫進(jìn)行知識融合，然后通過Neo4j圖數(shù)據(jù)庫對融合后的互聯(lián)網(wǎng)醫(yī)療知識圖譜進(jìn)行可視化處理，以知識圖譜的形式將疾病、癥狀、藥物等實(shí)體類別及其關(guān)系進(jìn)行關(guān)聯(lián).

2 實(shí)體對齊階段

2.1 實(shí)體對齊模型

本研究采用的實(shí)體對齊模型為MuGNN 模型，實(shí)體對齊步驟如下：首先，將跨圖注意力引入到圖卷積神經(jīng)網(wǎng)絡(luò)中以修剪多余的實(shí)體；然后，為區(qū)分鄰居實(shí)體的重要性，采用圖注意力網(wǎng)絡(luò)對實(shí)體關(guān)系進(jìn)行賦權(quán)；最后，將進(jìn)行上述處理后的兩種實(shí)體進(jìn)行嵌入聚合，并基于對齊種子訓(xùn)練對齊. MuGNN模型由輸入層、跨圖注意力GCN層、圖注意力網(wǎng)絡(luò)GAT層、池化層和對齊層五個(gè)部分組成，該模型的整體結(jié)構(gòu)如圖2所示.

圖2 MuGNN模型的結(jié)構(gòu)示意圖Fig.2 Structure diagram of MuGNN model

2.1.1 輸入層輸入層主要負(fù)責(zé)將多個(gè)不同數(shù)據(jù)來源的知識圖譜輸入到模型中.

2.1.2 跨圖注意力GCN層跨圖注意力GCN層主要負(fù)責(zé)將使用跨圖注意力機(jī)制進(jìn)行實(shí)體修剪后的圖譜輸入到圖卷積神經(jīng)網(wǎng)絡(luò)中以得到增強(qiáng)的實(shí)體嵌入. 受人類視覺注意力機(jī)制（即當(dāng)人類觀察某事物時(shí)，通常不會觀察該事物的整體而是把目光聚焦在其重要的部分）的啟發(fā)，許多學(xué)者開始對注意力機(jī)制進(jìn)行研究. 注意力機(jī)制允許模型動態(tài)地去關(guān)注對決策更有幫助的信息，可降低模型對其余信息的關(guān)注、忽略噪聲信息，從而使模型更為高效地完成任務(wù). 注意力機(jī)制最早被應(yīng)用于圖像識別領(lǐng)域［19］，隨著自然語言處理的興起，其相關(guān)模型被大量應(yīng)用于機(jī)器翻譯、情感分析問題當(dāng)中［20］.

由于結(jié)構(gòu)異質(zhì)性的存在，兩個(gè)不同數(shù)據(jù)來源的知識圖譜的對齊實(shí)體不一定具有相似的鄰居結(jié)構(gòu). 以實(shí)體“乳腺癌”為例，圖3分別給出了來自醫(yī)療網(wǎng)站“39健康網(wǎng)”（http://www.39.net/）和“尋醫(yī)問藥網(wǎng)”（https://www.xywy.com/）的部分關(guān)系子圖，可以看到KG1和KG2擁有不同的鄰居實(shí)體以及關(guān)系結(jié)構(gòu). 結(jié)構(gòu)異質(zhì)性的存在會給實(shí)體對齊過程引入大量噪聲實(shí)體，降低對齊效果. 但是通過使用跨圖注意力機(jī)制［16］，選取兩個(gè)圖譜中具有公共部分的關(guān)系子圖就可以忽略對對齊任務(wù)有負(fù)面影響的噪聲鄰居，最終可為KG生成實(shí)體修剪后的鄰接矩陣A1，實(shí)現(xiàn)結(jié)構(gòu)調(diào)節(jié). 鄰接矩陣A1的計(jì)算公式如式（1）所示.

圖3 從兩個(gè)不同醫(yī)療網(wǎng)站獲得的部分關(guān)系子圖的結(jié)構(gòu)差異Fig.3 Structural differences of partial relationship subgraphs obtained from two different medical websites

圖卷積神經(jīng)網(wǎng)絡(luò)（GCN）由多層圖卷積層堆積而成（圖4），其作用是從圖中提取特征后得到圖嵌入表示.GCN模型通過級聯(lián)的層來感知鄰居的特征，層與層之間的參數(shù)共享. GCN 模型以圖的節(jié)點(diǎn)特征矩陣XN×D和圖的結(jié)構(gòu)特征鄰接矩陣A1作為輸入，N代表圖中的節(jié)點(diǎn)數(shù)量，D代表特征維度. 與GNN 模型相比，GCN 模型通過增加單位矩陣來將節(jié)點(diǎn)對自己的作用考慮進(jìn)去，并通過引入拉普拉斯矩陣對鄰接矩陣A1進(jìn)行歸一化. GCN模型中l(wèi)+1層的輸出公式如下：

圖4 圖卷積神經(jīng)網(wǎng)絡(luò)的結(jié)構(gòu)示意圖Fig.4 Structure diagram of graph convolutional neural network

2.1.3 圖注意力網(wǎng)絡(luò)GAT層圖注意力網(wǎng)絡(luò)GAT層主要負(fù)責(zé)使用GAT模型進(jìn)行圖譜結(jié)構(gòu)的構(gòu)建，并為每個(gè)實(shí)體關(guān)系賦予權(quán)重. 實(shí)體對齊中每個(gè)鄰居節(jié)點(diǎn)的重要性不同，比如治療“乳腺癌”的藥物“枸櫞酸他莫昔芬”同樣對疾病“乳腺增生”起作用，但與專門治療“乳腺癌”的藥物在實(shí)體對齊中的作用是不一樣的. 為了更好地區(qū)別各個(gè)實(shí)體在實(shí)體對齊中的作用，MuGNN模型采用圖注意力網(wǎng)絡(luò)賦予每個(gè)實(shí)體關(guān)系不同的權(quán)重值，并為每個(gè)實(shí)體捕獲到信息最豐富、最有判別力的鄰居.

GAT模型是在GCN模型的基礎(chǔ)上引入帶有掩碼的隱藏自注意力層對圖結(jié)構(gòu)進(jìn)行處理，它由多層圖注意力層堆積而成，通過計(jì)算鄰居節(jié)點(diǎn)的特征對當(dāng)前節(jié)點(diǎn)的影響來為每個(gè)實(shí)體關(guān)系分配權(quán)重. 與GCN 模型相比，GAT模型對不同的鄰居節(jié)點(diǎn)的重要性進(jìn)行預(yù)測，它不依賴對全局圖結(jié)構(gòu)的預(yù)先訪問，不需要對其進(jìn)行人工先驗(yàn)，也無需繁瑣的矩陣計(jì)算，降低了算法的復(fù)雜度，因此它可使MuGNN模型具有更好的性能.

GAT 模型中鄰接矩陣A2的計(jì)算方式如式（4）所示. 為了使注意力互相關(guān)系數(shù)易于計(jì)算和比較，引入softmax函數(shù)對所有節(jié)點(diǎn)i的鄰居節(jié)點(diǎn)j進(jìn)行正則化.

為了防止過擬合現(xiàn)象的產(chǎn)生，利用GAT模型計(jì)算多個(gè)相互獨(dú)立的注意力后進(jìn)行集成. GAT模型中l(wèi)+1層的輸出計(jì)算公式如下：

2.1.4 池化層池化層主要負(fù)責(zé)將通過跨圖注意力GCN層和圖注意力網(wǎng)絡(luò)GAT層建模得到的增強(qiáng)實(shí)體嵌入分別進(jìn)行平均池化聚合. MuGNN 模型通過跨圖注意力GCN 層和圖注意力網(wǎng)絡(luò)GAT 層進(jìn)行圖結(jié)構(gòu)的構(gòu)建，為了降低卷積層（跨圖注意力GCN層、圖注意力網(wǎng)絡(luò)GAT層）輸出的特征向量維度，防止過擬合現(xiàn)象的發(fā)生，采用平均池化將跨圖注意力GCN 層和圖注意力網(wǎng)絡(luò)GAT 層建模得到的增強(qiáng)實(shí)體嵌入進(jìn)行聚合.MuGNN模型中l(wèi)+1層的聚合實(shí)體嵌入的計(jì)算公式如下：

2.1.5 實(shí)體對齊層實(shí)體對齊層負(fù)責(zé)通過對齊種子和最小化代價(jià)函數(shù)將兩個(gè)知識圖譜嵌入同一空間進(jìn)行訓(xùn)練. 首先利用對齊種子將兩個(gè)知識圖譜（KG1和KG2）的實(shí)體和關(guān)系嵌入到同一個(gè)低維度的向量空間中并計(jì)算實(shí)體之間的距離，然后利用最小化等價(jià)實(shí)體距離、最大化非等價(jià)實(shí)體距離的思想來訓(xùn)練模型.采用L2范數(shù)計(jì)算實(shí)體之間的距離，計(jì)算公式如下：

式中：ei和ej分別代表兩個(gè)圖譜（KG1和KG2）中的實(shí)體；h(ei)和h(ej)分別代表實(shí)體ei和ej的特征向量，D(ei,ej)代表實(shí)體ei和ej之間的距離.

采用最小化實(shí)體對齊損失函數(shù)來訓(xùn)練模型，最小化實(shí)體對齊損失函數(shù)計(jì)算公式如下：

式中：L代表損失函數(shù)，當(dāng)損失函數(shù)趨近于0時(shí)，模型性能最優(yōu)；e′i和e′j是隨機(jī)替換ei和ej得到的負(fù)樣例；ε代表正樣例與負(fù)樣例間的最小間隔.

2.2 互聯(lián)網(wǎng)醫(yī)療知識實(shí)體關(guān)系庫的構(gòu)建及實(shí)體對齊

2.2.1 互聯(lián)網(wǎng)醫(yī)療知識實(shí)體關(guān)系庫的構(gòu)建首先對互聯(lián)網(wǎng)醫(yī)療知識的文本特點(diǎn)進(jìn)行分析，然后根據(jù)文獻(xiàn)［21］中的分類規(guī)則，將互聯(lián)網(wǎng)醫(yī)療知識的實(shí)體類別分為7 大類（表1），實(shí)體關(guān)系類別分為14 大類（表2）. 由于互聯(lián)網(wǎng)醫(yī)療知識包含的疾病種類很多，為了能簡單地說明問題，本研究僅選取與乳腺疾病相關(guān)的互聯(lián)網(wǎng)醫(yī)療知識進(jìn)行研究. 首先從醫(yī)療網(wǎng)站“39 健康網(wǎng)（http：//www.39.net/）”和“尋醫(yī)問藥網(wǎng)（https：//www.xywy.com/）”的乳腺疾病板塊中對文本進(jìn)行爬取清洗，然后依次進(jìn)行實(shí)體識別和關(guān)系抽取操作，最后得到兩個(gè)網(wǎng)站中與乳腺疾病相關(guān)的實(shí)體集和實(shí)體關(guān)系集，并構(gòu)建來源于兩個(gè)不同醫(yī)療網(wǎng)站的乳腺疾病實(shí)體關(guān)系庫.

表1 互聯(lián)網(wǎng)醫(yī)療知識的實(shí)體類別Tab.1 Entity categories of internet medical knowledge

表2 互聯(lián)網(wǎng)醫(yī)療知識的實(shí)體關(guān)系類別Tab.2 Entity relationship categories of internet medical knowledge

2.2.2 互聯(lián)網(wǎng)醫(yī)療知識實(shí)體關(guān)系庫的實(shí)體對齊對本文2.2.1 小節(jié)構(gòu)建的乳腺疾病實(shí)體關(guān)系庫進(jìn)行數(shù)據(jù)統(tǒng)計(jì)，如表3 所示. 分別采用MuGNN 模型、JAPE 模型和GCN-Align 模型對構(gòu)建的兩個(gè)乳腺疾病實(shí)體關(guān)系庫進(jìn)行實(shí)體對齊. 首先以比例seeds_ratio 抽取部分已對齊實(shí)體作為對齊種子，然后隨機(jī)生成錯(cuò)誤的對齊實(shí)體和關(guān)系三元組以更好地訓(xùn)練模型，最后隨機(jī)選取70%的對齊實(shí)體作為訓(xùn)練集，其余30%的對齊實(shí)體作為測試集.

表3 乳腺疾病實(shí)體關(guān)系庫的數(shù)據(jù)統(tǒng)計(jì)Tab.3 Data statistics of entity relationship databases of breast diseases

在Windows10平臺下使用Python3.7.9語言在pytorch1.6.0深度學(xué)習(xí)框架下進(jìn)行實(shí)體對齊. 三種實(shí)體對齊模型均采用相同的參數(shù)，模型的主要參數(shù)設(shè)置如表4所示.

表4 實(shí)體對齊模型的參數(shù)設(shè)置Tab.4 Parameter setting of entity alignment model

采用前n項(xiàng)命中率Hits@n和平均倒數(shù)排名MRR 作為評價(jià)指標(biāo)，計(jì)算公式如下：

式中：Hits@n表示目標(biāo)實(shí)體排在前n位的比例，Hits@n的值越大表示命中率越高；MRR 表示目標(biāo)實(shí)體排名倒數(shù)和的平均值，MRR 的值越大表示實(shí)體對齊效果越好；Ranki表示第i個(gè)目標(biāo)實(shí)體在結(jié)果列表中的排位；I(?)代表指示函數(shù)，當(dāng)輸入為True時(shí)，I(?)=1，當(dāng)輸入為False時(shí)，I(?)=0；N表示目標(biāo)實(shí)體數(shù)量.

根據(jù)式（9）和式（10）求得測試集在各模型上的Hits@1、Hits@10、Hits@50、MRR，結(jié)果如表5所示.

表5 測試集在各模型上的Hits@1、Hits@10、Hits@50和MRRTab.5 Hits@1，Hits@10，Hits@50 and MRR of the test set on each model

由表5 可知，測試集在MuGNN 模型上的Hits@n和MRR 的值均比在JAPE 模型和GCN-Align 模型上的大，其中測試集在MuGNN 模型上的Hits@1 的值分別比在JAPE 模型和在GCN-Align 模型上的高16.43%和8.51%. 以上結(jié)果表明，無論是以前n項(xiàng)命中率Hits@n作為評價(jià)指標(biāo)，還是以平均倒數(shù)排名MRR作為評價(jià)指標(biāo)，綜合多種注意力機(jī)制和圖卷積神經(jīng)網(wǎng)絡(luò)的MuGNN模型的實(shí)體對齊效果均優(yōu)于JAPE模型和GCN-Align模型的實(shí)體對齊效果.

圖5為通過MuGNN 模型得到的乳腺疾病各實(shí)體類別的Hits@n和MRR. 由圖5可知，疾病Disease 和藥物Medicine這兩個(gè)實(shí)體類別的Hits@n和MRR均相對較低，分析原因可能是實(shí)驗(yàn)數(shù)據(jù)中這兩個(gè)實(shí)體類別的數(shù)量相對較少，關(guān)系矩陣較為稀疏，給實(shí)體對齊效果帶來了一定的負(fù)面影響.

圖5 通過MuGNN模型得到的乳腺疾病各實(shí)體類別的Hits@n和MRRFig.5 Hits@n and MRR of entity categories of breast diseases obtained by MuGNN model

3 知識融合階段

3.1 知識融合及知識圖譜的可視化

知識融合是將多數(shù)據(jù)源中指向同一實(shí)體或者概念的描述融合起來的過程，是在實(shí)體對齊的基礎(chǔ)上，通過沖突檢測以及沖突消解對知識進(jìn)行關(guān)聯(lián)和合并，最終形成一個(gè)完整一致的知識庫. 知識融合過程具體分為數(shù)據(jù)層融合和數(shù)據(jù)模式層融合兩部分. 數(shù)據(jù)層融合多指實(shí)體間的知識融合；數(shù)據(jù)模式層融合則包括概念和屬性的融合. 知識融合可豐富完善已有的語義信息、挖掘更多圖譜知識、提高知識表示的性能，進(jìn)而可以提供更優(yōu)質(zhì)的知識服務(wù). 通過Neo4j圖數(shù)據(jù)庫對知識圖譜進(jìn)行可視化處理后，可將知識庫中的實(shí)體和關(guān)系以圖形化的方式展示出來，用戶則可通過簡單的查詢語句來獲得具體實(shí)體之間的關(guān)系，可增強(qiáng)知識庫的可理解性.

3.2 互聯(lián)網(wǎng)醫(yī)療知識實(shí)體關(guān)系庫的知識融合及知識圖譜的可視化

為了研究MuGNN 模型對互聯(lián)網(wǎng)醫(yī)療知識融合的效果，對本文2.2 小節(jié)中構(gòu)建的乳腺疾病實(shí)體關(guān)系庫（已完成實(shí)體對齊）進(jìn)行知識融合. 為了提升融合的準(zhǔn)確率，在實(shí)體對齊的基礎(chǔ)上加以人工校正，消除語義重復(fù)的實(shí)體及對應(yīng)的關(guān)系三元組，實(shí)現(xiàn)多源知識的融合. 同時(shí)，使用Java語言將融合后得到的實(shí)體集和關(guān)系三元組集輸入到Neo4j圖數(shù)據(jù)庫中，以實(shí)現(xiàn)乳腺疾病知識圖譜的可視化.

圖6a 是在Neo4j 圖數(shù)據(jù)庫中通過match 語句查詢疾病“乳腺癌”所得到的癥狀，圖6b是在Neo4j 圖數(shù)據(jù)庫中通過match語句查詢檢查項(xiàng)目“乳腺B超”所得到的疾病. 其中，不同顏色代表不同類別的實(shí)體，如紅色代表“疾病Disease”，黃色代表“癥狀Symptom”，藍(lán)色代表“檢查項(xiàng)目Check”. 通過知識圖譜的可視化，我們可以清晰簡明地看到實(shí)體之間一對一以及一對多的聯(lián)系.

圖6 乳腺疾病知識圖譜可視化結(jié)果的示例Fig.6 Example of visualization results of breast disease knowledge map

通過Neo4j圖數(shù)據(jù)庫結(jié)構(gòu)化存儲乳腺疾病的實(shí)體及關(guān)系，不僅可以使用戶高效快速地了解與乳腺疾病預(yù)防和飲食習(xí)慣等相關(guān)的知識，也可以使用戶根據(jù)癥狀查詢自己可能患有的疾病以及對應(yīng)的檢查方式，同時(shí)還可以為用戶的初步自我診斷提供輔助手段.

4 結(jié)論

以乳腺疾病為例，首先構(gòu)建了基于不同醫(yī)療網(wǎng)站的乳腺疾病實(shí)體關(guān)系庫，然后利用MuGNN模型完成了實(shí)體對齊，同時(shí)與JAPE模型和GCN-Align模型的實(shí)體對齊效果進(jìn)行了對比，最后通過Neo4j圖數(shù)據(jù)庫對融合后的互聯(lián)網(wǎng)醫(yī)療知識圖譜進(jìn)行可視化處理，得出結(jié)論如下：

1）綜合多種注意力機(jī)制和圖卷積神經(jīng)網(wǎng)絡(luò)的MuGNN模型首先利用跨圖注意力機(jī)制和GCN模型對圖結(jié)構(gòu)進(jìn)行表示學(xué)習(xí)，然后利用GAT模型對實(shí)體關(guān)系進(jìn)行賦權(quán)，最后將實(shí)體嵌入進(jìn)行聚合后對齊. MuGNN模型不僅可以有效解決圖結(jié)構(gòu)的異質(zhì)性問題，還可以為每個(gè)實(shí)體捕獲到信息最豐富、最有判別力的鄰居.2）無論是以前n項(xiàng)命中率Hits@n作為評價(jià)指標(biāo)，還是以平均倒數(shù)排名MRR作為評價(jià)指標(biāo)，綜合多種注意力機(jī)制和圖卷積神經(jīng)網(wǎng)絡(luò)的MuGNN 模型的實(shí)體對齊效果均優(yōu)于JAPE 模型和GCN-Align 模型的實(shí)體對齊效果.3）通過MuGNN模型成功實(shí)現(xiàn)了基于不同醫(yī)療網(wǎng)站的乳腺疾病實(shí)體關(guān)系庫的知識融合，并利用Neo4j圖數(shù)據(jù)庫對融合后的知識圖譜進(jìn)行了可視化處理. 知識圖譜的可視化可將實(shí)體類別和實(shí)體關(guān)系以圖形化的方式展示出來，通過簡單的查詢語句即可獲得具體實(shí)體之間的關(guān)系，可增強(qiáng)知識庫的可理解性，有助于提供更優(yōu)質(zhì)的知識服務(wù).本研究雖然取得了一定的成果，但是也存在一些不足之處，如僅選取了與乳腺疾病有關(guān)的互聯(lián)網(wǎng)醫(yī)療知識作為實(shí)驗(yàn)數(shù)據(jù)進(jìn)行研究，其關(guān)系三元組不夠多，存在一定的數(shù)據(jù)稀疏問題. 下一步研究可以考慮擴(kuò)大疾病的選取范圍，同時(shí)可以嘗試?yán)迷~向量作為神經(jīng)網(wǎng)絡(luò)的初始矩陣，以進(jìn)一步提高M(jìn)uGNN模型的性能.