• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      基于MuGNN模型的互聯(lián)網(wǎng)醫(yī)療知識融合研究

      2022-01-26 08:23:22廖開際
      河南科學(xué) 2021年12期
      關(guān)鍵詞:圖譜注意力實(shí)體

      廖開際, 王 瑩

      (華南理工大學(xué)工商管理學(xué)院,廣州 510641)

      隨著人們健康意識的不斷提高,現(xiàn)有醫(yī)療服務(wù)水平已不能滿足人們的需求,醫(yī)療系統(tǒng)智能化刻不容緩.智能醫(yī)療的建立需要科學(xué)強(qiáng)大的知識體系來支撐,于是醫(yī)療知識庫應(yīng)運(yùn)而生. 醫(yī)療知識庫的應(yīng)用使得非結(jié)構(gòu)化的知識被有效地管理和利用,簡化了患者看病的流程,減輕了醫(yī)生的工作量,提高了醫(yī)生的工作效率.醫(yī)療知識庫常用于疾病診斷決策、醫(yī)療知識檢索等. 由于醫(yī)療知識分布廣泛,且不同數(shù)據(jù)源所獲取的知識也是有差異的,因此多來源醫(yī)療知識庫中的知識冗余問題比較嚴(yán)重. 為了減少醫(yī)療知識庫中的知識冗余,知識融合工作不可或缺.

      知識融合是將來自多個(gè)數(shù)據(jù)源的屬于同一實(shí)體或者概念的描述信息融合起來,以獲得較單一數(shù)據(jù)源更加完全、準(zhǔn)確、可靠的知識庫. 知識融合目前已在各個(gè)領(lǐng)域得到應(yīng)用,如Freebase[1]、Google知識圖譜[2]等,它們通過知識的鏈接和融合來實(shí)現(xiàn)知識庫的大規(guī)?;?,從而使知識發(fā)揮最大的價(jià)值.

      知識圖譜是一個(gè)結(jié)構(gòu)化存儲知識的知識庫,其保存的知識是以三元組的形式存在的. 知識圖譜KG由實(shí)體E、關(guān)系R、關(guān)系三元組Tr構(gòu)成,即KG=(E,R,Tr),其中Tr=(h,r,t),h和t代表實(shí)體,r代表實(shí)體間的關(guān)系. 對來自多個(gè)數(shù)據(jù)源的知識圖譜進(jìn)行實(shí)體對齊的目的是找出多個(gè)知識圖譜中所有語義相同的實(shí)體,即為KG生成實(shí)體修剪后的鄰接矩陣A,其中A=(ei,ej),ei∈KG1,ej∈KG2,ei=ej,ei和ej分別代表KG1和KG2中的實(shí)體.

      實(shí)體對齊是指從異構(gòu)數(shù)據(jù)源的知識圖譜中,找出表述不同但對應(yīng)現(xiàn)實(shí)世界同一指代的實(shí)體,是知識融合最主要的工作. 現(xiàn)有的實(shí)體對齊方法分為以下三種:一是基于概率模糊匹配的方法,如支持向量機(jī)SVM[3];二是基于距離度量的方法,如計(jì)算字符串余弦相似度[4];三是基于嵌入式的方法,如2013年Bordes等[5]提出的將實(shí)體關(guān)系看作頭實(shí)體到尾實(shí)體間翻譯的TransE模型.

      早期實(shí)體對齊方法主要是以概率匹配和字符串相似度作為對齊依據(jù). Monge 和Elkan[6]在2014年提出了通過計(jì)算實(shí)體對字符的編輯距離來判斷兩者是否為同一實(shí)體的方法. Volz等[4]在2009年制定了一套計(jì)算相似度的度量標(biāo)準(zhǔn),包括數(shù)字相似度、字符串相似度、URL相似度等. 但是這類方法都需要依賴人工定義的標(biāo)簽,應(yīng)用場景范圍狹窄,無法遷移至其他場景,而隨著數(shù)據(jù)的大規(guī)?;?,其準(zhǔn)確率及效率都逐漸下降.

      目前,基于嵌入式的實(shí)體對齊方法已成為研究主流,其主要思想是將不同的知識圖譜的實(shí)體和關(guān)系均映射到同一向量空間后計(jì)算實(shí)體間的距離. 除了基礎(chǔ)的翻譯模型TransE外,IPTransE模型[7]和BootEA模型[8]都是采用迭代的方式來提高對齊效果,前者是對置信度較低的對齊實(shí)體賦予低權(quán)重,后者是對可能錯(cuò)誤的對齊實(shí)體標(biāo)簽進(jìn)行重新編輯標(biāo)記. JAPE 模型[9]則是通過引入屬性三元組填補(bǔ)信息來增強(qiáng)實(shí)體表示的. 雖然以上這些翻譯模型的性能都不錯(cuò),但是超參數(shù)過多,訓(xùn)練過程較繁瑣.

      隨著圖神經(jīng)網(wǎng)絡(luò)(Graph Neural Network,GNN)的興起,許多學(xué)者開始根據(jù)GNN模型進(jìn)行實(shí)體結(jié)構(gòu)建模.圖神經(jīng)網(wǎng)絡(luò)(Graph Neural Network,GNN)模型是由Scarselli等[10]提出的一種作用于圖結(jié)構(gòu)的神經(jīng)網(wǎng)絡(luò),該模型通過迭代更新節(jié)點(diǎn)的隱藏狀態(tài)來捕捉圖中每個(gè)鄰居節(jié)點(diǎn)的狀態(tài). 為了增強(qiáng)GNN模型對結(jié)構(gòu)特征提取的能力,Thomas和Kipf[11]提出了利用卷積核抽取特征的圖卷積神經(jīng)網(wǎng)絡(luò)(Graph Convolutional Network,GCN)模型,該模型將卷積操作定義在節(jié)點(diǎn)的連接關(guān)系上. 為了放大圖結(jié)構(gòu)中最重要部分的作用,Veliokovie等[12]在2018年首次提出圖注意力網(wǎng)絡(luò)(Graph Attention Network,GAN)模型,現(xiàn)已被廣泛應(yīng)用在眾多領(lǐng)域. 基于圖神經(jīng)網(wǎng)絡(luò)的方法在利用圖神經(jīng)網(wǎng)絡(luò)進(jìn)行實(shí)體表示的同時(shí)可直接進(jìn)行實(shí)體對齊. Wang等[13]提出的GCN-Align模型是應(yīng)用圖卷積神經(jīng)網(wǎng)絡(luò)對實(shí)體之間的等價(jià)關(guān)系進(jìn)行建模,在利用關(guān)系三元組的基礎(chǔ)上加入實(shí)體屬性特征信息生成實(shí)體嵌入. GMNN模型[14]是將初始化矩陣定義為實(shí)體名稱的詞向量矩陣,而不是隨機(jī)進(jìn)行初始化,因此該模型的性能大大提升. HMAN模型[15]則是將實(shí)體的多個(gè)視圖進(jìn)行統(tǒng)一并提出新的框架來進(jìn)行實(shí)體表示.

      嵌入式的實(shí)體對齊方法通常是假設(shè)兩個(gè)知識圖譜的同種實(shí)體具有相同或相似的鄰居結(jié)構(gòu),然而現(xiàn)實(shí)生活中它們是存在結(jié)構(gòu)異質(zhì)性的,這就給實(shí)體對齊帶來了一定的難度. 另外,嵌入式的實(shí)體對齊方法認(rèn)為實(shí)體的所有關(guān)系鄰居在對齊過程中都發(fā)揮著同樣的作用,但是在知識圖譜中某些實(shí)體的共有鄰居的區(qū)別并不夠大,因此這些方法可能會忽略對對齊真正有影響的實(shí)體.

      有部分學(xué)者對圖結(jié)構(gòu)的異質(zhì)性問題進(jìn)行了深入研究并提出了一些新的模型,如MuGNN模型、AliNet模型、NMN模型. MuGNN模型[16]利用AMIE+誘導(dǎo)出規(guī)則增加關(guān)系三元組以補(bǔ)全圖結(jié)構(gòu),同時(shí)還引入了跨圖注意力機(jī)制以修剪圖結(jié)構(gòu). AliNet 模型[17]通過引入遠(yuǎn)距離鄰居對實(shí)體鄰居結(jié)構(gòu)的重疊部分進(jìn)行擴(kuò)展,并使用門機(jī)制對直接鄰居和遠(yuǎn)距離鄰居信息進(jìn)行聚合. NMN 模型[18]先采用圖采樣方法為實(shí)體提取有判別力的鄰居,然后采用基于注意力的交叉圖鄰居匹配模塊對實(shí)體子圖進(jìn)行魯棒對齊,最終取得了較好的實(shí)體對齊效果.

      本研究首先構(gòu)建了基于不同醫(yī)療網(wǎng)站的乳腺疾病實(shí)體關(guān)系庫,然后采用MuGNN模型進(jìn)行實(shí)體對齊,并與JAPE模型、GCN-Align模型的實(shí)體對齊效果進(jìn)行了對比,之后完成了互聯(lián)網(wǎng)醫(yī)療實(shí)體關(guān)系庫的知識融合,最后通過Neo4j圖數(shù)據(jù)庫對融合后的互聯(lián)網(wǎng)醫(yī)療知識圖譜進(jìn)行可視化處理. 本研究可為多源知識圖譜的構(gòu)建與補(bǔ)全提供一定的參考.

      1 互聯(lián)網(wǎng)醫(yī)療知識融合的流程

      互聯(lián)網(wǎng)醫(yī)療知識融合的流程如圖1所示,具體分為以下兩個(gè)階段:

      圖1 互聯(lián)網(wǎng)醫(yī)療知識融合的流程Fig.1 Process of internet medical knowledge fusion

      1)實(shí)體對齊階段. 首先從不同醫(yī)療網(wǎng)站中爬取并抽取得到實(shí)體,然后構(gòu)建基于不同醫(yī)療網(wǎng)站的實(shí)體關(guān)系庫,最后采用實(shí)體對齊模型進(jìn)行實(shí)體對齊.

      2)知識融合階段. 首先將基于不同醫(yī)療網(wǎng)站構(gòu)建的實(shí)體關(guān)系庫進(jìn)行知識融合,然后通過Neo4j圖數(shù)據(jù)庫對融合后的互聯(lián)網(wǎng)醫(yī)療知識圖譜進(jìn)行可視化處理,以知識圖譜的形式將疾病、癥狀、藥物等實(shí)體類別及其關(guān)系進(jìn)行關(guān)聯(lián).

      2 實(shí)體對齊階段

      2.1 實(shí)體對齊模型

      本研究采用的實(shí)體對齊模型為MuGNN 模型,實(shí)體對齊步驟如下:首先,將跨圖注意力引入到圖卷積神經(jīng)網(wǎng)絡(luò)中以修剪多余的實(shí)體;然后,為區(qū)分鄰居實(shí)體的重要性,采用圖注意力網(wǎng)絡(luò)對實(shí)體關(guān)系進(jìn)行賦權(quán);最后,將進(jìn)行上述處理后的兩種實(shí)體進(jìn)行嵌入聚合,并基于對齊種子訓(xùn)練對齊. MuGNN模型由輸入層、跨圖注意力GCN層、圖注意力網(wǎng)絡(luò)GAT層、池化層和對齊層五個(gè)部分組成,該模型的整體結(jié)構(gòu)如圖2所示.

      圖2 MuGNN模型的結(jié)構(gòu)示意圖Fig.2 Structure diagram of MuGNN model

      2.1.1 輸入層 輸入層主要負(fù)責(zé)將多個(gè)不同數(shù)據(jù)來源的知識圖譜輸入到模型中.

      2.1.2 跨圖注意力GCN層 跨圖注意力GCN層主要負(fù)責(zé)將使用跨圖注意力機(jī)制進(jìn)行實(shí)體修剪后的圖譜輸入到圖卷積神經(jīng)網(wǎng)絡(luò)中以得到增強(qiáng)的實(shí)體嵌入. 受人類視覺注意力機(jī)制(即當(dāng)人類觀察某事物時(shí),通常不會觀察該事物的整體而是把目光聚焦在其重要的部分)的啟發(fā),許多學(xué)者開始對注意力機(jī)制進(jìn)行研究. 注意力機(jī)制允許模型動態(tài)地去關(guān)注對決策更有幫助的信息,可降低模型對其余信息的關(guān)注、忽略噪聲信息,從而使模型更為高效地完成任務(wù). 注意力機(jī)制最早被應(yīng)用于圖像識別領(lǐng)域[19],隨著自然語言處理的興起,其相關(guān)模型被大量應(yīng)用于機(jī)器翻譯、情感分析問題當(dāng)中[20].

      由于結(jié)構(gòu)異質(zhì)性的存在,兩個(gè)不同數(shù)據(jù)來源的知識圖譜的對齊實(shí)體不一定具有相似的鄰居結(jié)構(gòu). 以實(shí)體“乳腺癌”為例,圖3分別給出了來自醫(yī)療網(wǎng)站“39健康網(wǎng)”(http://www.39.net/)和“尋醫(yī)問藥網(wǎng)”(https://www.xywy.com/)的部分關(guān)系子圖,可以看到KG1和KG2擁有不同的鄰居實(shí)體以及關(guān)系結(jié)構(gòu). 結(jié)構(gòu)異質(zhì)性的存在會給實(shí)體對齊過程引入大量噪聲實(shí)體,降低對齊效果. 但是通過使用跨圖注意力機(jī)制[16],選取兩個(gè)圖譜中具有公共部分的關(guān)系子圖就可以忽略對對齊任務(wù)有負(fù)面影響的噪聲鄰居,最終可為KG生成實(shí)體修剪后的鄰接矩陣A1,實(shí)現(xiàn)結(jié)構(gòu)調(diào)節(jié). 鄰接矩陣A1的計(jì)算公式如式(1)所示.

      圖3 從兩個(gè)不同醫(yī)療網(wǎng)站獲得的部分關(guān)系子圖的結(jié)構(gòu)差異Fig.3 Structural differences of partial relationship subgraphs obtained from two different medical websites

      圖卷積神經(jīng)網(wǎng)絡(luò)(GCN)由多層圖卷積層堆積而成(圖4),其作用是從圖中提取特征后得到圖嵌入表示.GCN模型通過級聯(lián)的層來感知鄰居的特征,層與層之間的參數(shù)共享. GCN 模型以圖的節(jié)點(diǎn)特征矩陣XN×D和圖的結(jié)構(gòu)特征鄰接矩陣A1作為輸入,N代表圖中的節(jié)點(diǎn)數(shù)量,D代表特征維度. 與GNN 模型相比,GCN 模型通過增加單位矩陣來將節(jié)點(diǎn)對自己的作用考慮進(jìn)去,并通過引入拉普拉斯矩陣對鄰接矩陣A1進(jìn)行歸一化. GCN模型中l(wèi)+1層的輸出公式如下:

      圖4 圖卷積神經(jīng)網(wǎng)絡(luò)的結(jié)構(gòu)示意圖Fig.4 Structure diagram of graph convolutional neural network

      2.1.3 圖注意力網(wǎng)絡(luò)GAT層 圖注意力網(wǎng)絡(luò)GAT層主要負(fù)責(zé)使用GAT模型進(jìn)行圖譜結(jié)構(gòu)的構(gòu)建,并為每個(gè)實(shí)體關(guān)系賦予權(quán)重. 實(shí)體對齊中每個(gè)鄰居節(jié)點(diǎn)的重要性不同,比如治療“乳腺癌”的藥物“枸櫞酸他莫昔芬”同樣對疾病“乳腺增生”起作用,但與專門治療“乳腺癌”的藥物在實(shí)體對齊中的作用是不一樣的. 為了更好地區(qū)別各個(gè)實(shí)體在實(shí)體對齊中的作用,MuGNN模型采用圖注意力網(wǎng)絡(luò)賦予每個(gè)實(shí)體關(guān)系不同的權(quán)重值,并為每個(gè)實(shí)體捕獲到信息最豐富、最有判別力的鄰居.

      GAT模型是在GCN模型的基礎(chǔ)上引入帶有掩碼的隱藏自注意力層對圖結(jié)構(gòu)進(jìn)行處理,它由多層圖注意力層堆積而成,通過計(jì)算鄰居節(jié)點(diǎn)的特征對當(dāng)前節(jié)點(diǎn)的影響來為每個(gè)實(shí)體關(guān)系分配權(quán)重. 與GCN 模型相比,GAT模型對不同的鄰居節(jié)點(diǎn)的重要性進(jìn)行預(yù)測,它不依賴對全局圖結(jié)構(gòu)的預(yù)先訪問,不需要對其進(jìn)行人工先驗(yàn),也無需繁瑣的矩陣計(jì)算,降低了算法的復(fù)雜度,因此它可使MuGNN模型具有更好的性能.

      GAT 模型中鄰接矩陣A2的計(jì)算方式如式(4)所示. 為了使注意力互相關(guān)系數(shù)易于計(jì)算和比較,引入softmax函數(shù)對所有節(jié)點(diǎn)i的鄰居節(jié)點(diǎn)j進(jìn)行正則化.

      為了防止過擬合現(xiàn)象的產(chǎn)生,利用GAT模型計(jì)算多個(gè)相互獨(dú)立的注意力后進(jìn)行集成. GAT模型中l(wèi)+1層的輸出計(jì)算公式如下:

      2.1.4 池化層 池化層主要負(fù)責(zé)將通過跨圖注意力GCN層和圖注意力網(wǎng)絡(luò)GAT層建模得到的增強(qiáng)實(shí)體嵌入分別進(jìn)行平均池化聚合. MuGNN 模型通過跨圖注意力GCN 層和圖注意力網(wǎng)絡(luò)GAT 層進(jìn)行圖結(jié)構(gòu)的構(gòu)建,為了降低卷積層(跨圖注意力GCN層、圖注意力網(wǎng)絡(luò)GAT層)輸出的特征向量維度,防止過擬合現(xiàn)象的發(fā)生,采用平均池化將跨圖注意力GCN 層和圖注意力網(wǎng)絡(luò)GAT 層建模得到的增強(qiáng)實(shí)體嵌入進(jìn)行聚合.MuGNN模型中l(wèi)+1層的聚合實(shí)體嵌入的計(jì)算公式如下:

      2.1.5 實(shí)體對齊層 實(shí)體對齊層負(fù)責(zé)通過對齊種子和最小化代價(jià)函數(shù)將兩個(gè)知識圖譜嵌入同一空間進(jìn)行訓(xùn)練. 首先利用對齊種子將兩個(gè)知識圖譜(KG1和KG2)的實(shí)體和關(guān)系嵌入到同一個(gè)低維度的向量空間中并計(jì)算實(shí)體之間的距離,然后利用最小化等價(jià)實(shí)體距離、最大化非等價(jià)實(shí)體距離的思想來訓(xùn)練模型.采用L2范數(shù)計(jì)算實(shí)體之間的距離,計(jì)算公式如下:

      式中:ei和ej分別代表兩個(gè)圖譜(KG1和KG2)中的實(shí)體;h(ei)和h(ej)分別代表實(shí)體ei和ej的特征向量,D(ei,ej)代表實(shí)體ei和ej之間的距離.

      采用最小化實(shí)體對齊損失函數(shù)來訓(xùn)練模型,最小化實(shí)體對齊損失函數(shù)計(jì)算公式如下:

      式中:L代表損失函數(shù),當(dāng)損失函數(shù)趨近于0時(shí),模型性能最優(yōu);e′i和e′j是隨機(jī)替換ei和ej得到的負(fù)樣例;ε代表正樣例與負(fù)樣例間的最小間隔.

      2.2 互聯(lián)網(wǎng)醫(yī)療知識實(shí)體關(guān)系庫的構(gòu)建及實(shí)體對齊

      2.2.1 互聯(lián)網(wǎng)醫(yī)療知識實(shí)體關(guān)系庫的構(gòu)建 首先對互聯(lián)網(wǎng)醫(yī)療知識的文本特點(diǎn)進(jìn)行分析,然后根據(jù)文獻(xiàn)[21]中的分類規(guī)則,將互聯(lián)網(wǎng)醫(yī)療知識的實(shí)體類別分為7 大類(表1),實(shí)體關(guān)系類別分為14 大類(表2). 由于互聯(lián)網(wǎng)醫(yī)療知識包含的疾病種類很多,為了能簡單地說明問題,本研究僅選取與乳腺疾病相關(guān)的互聯(lián)網(wǎng)醫(yī)療知識進(jìn)行研究. 首先從醫(yī)療網(wǎng)站“39 健康網(wǎng)(http://www.39.net/)”和“尋醫(yī)問藥網(wǎng)(https://www.xywy.com/)”的乳腺疾病板塊中對文本進(jìn)行爬取清洗,然后依次進(jìn)行實(shí)體識別和關(guān)系抽取操作,最后得到兩個(gè)網(wǎng)站中與乳腺疾病相關(guān)的實(shí)體集和實(shí)體關(guān)系集,并構(gòu)建來源于兩個(gè)不同醫(yī)療網(wǎng)站的乳腺疾病實(shí)體關(guān)系庫.

      表1 互聯(lián)網(wǎng)醫(yī)療知識的實(shí)體類別Tab.1 Entity categories of internet medical knowledge

      表2 互聯(lián)網(wǎng)醫(yī)療知識的實(shí)體關(guān)系類別Tab.2 Entity relationship categories of internet medical knowledge

      2.2.2 互聯(lián)網(wǎng)醫(yī)療知識實(shí)體關(guān)系庫的實(shí)體對齊 對本文2.2.1 小節(jié)構(gòu)建的乳腺疾病實(shí)體關(guān)系庫進(jìn)行數(shù)據(jù)統(tǒng)計(jì),如表3 所示. 分別采用MuGNN 模型、JAPE 模型和GCN-Align 模型對構(gòu)建的兩個(gè)乳腺疾病實(shí)體關(guān)系庫進(jìn)行實(shí)體對齊. 首先以比例seeds_ratio 抽取部分已對齊實(shí)體作為對齊種子,然后隨機(jī)生成錯(cuò)誤的對齊實(shí)體和關(guān)系三元組以更好地訓(xùn)練模型,最后隨機(jī)選取70%的對齊實(shí)體作為訓(xùn)練集,其余30%的對齊實(shí)體作為測試集.

      表3 乳腺疾病實(shí)體關(guān)系庫的數(shù)據(jù)統(tǒng)計(jì)Tab.3 Data statistics of entity relationship databases of breast diseases

      在Windows10平臺下使用Python3.7.9語言在pytorch1.6.0深度學(xué)習(xí)框架下進(jìn)行實(shí)體對齊. 三種實(shí)體對齊模型均采用相同的參數(shù),模型的主要參數(shù)設(shè)置如表4所示.

      表4 實(shí)體對齊模型的參數(shù)設(shè)置Tab.4 Parameter setting of entity alignment model

      采用前n項(xiàng)命中率Hits@n和平均倒數(shù)排名MRR 作為評價(jià)指標(biāo),計(jì)算公式如下:

      式中:Hits@n表示目標(biāo)實(shí)體排在前n位的比例,Hits@n的值越大表示命中率越高;MRR 表示目標(biāo)實(shí)體排名倒數(shù)和的平均值,MRR 的值越大表示實(shí)體對齊效果越好;Ranki表示第i個(gè)目標(biāo)實(shí)體在結(jié)果列表中的排位;I(?)代表指示函數(shù),當(dāng)輸入為True時(shí),I(?)=1,當(dāng)輸入為False時(shí),I(?)=0;N表示目標(biāo)實(shí)體數(shù)量.

      根據(jù)式(9)和式(10)求得測試集在各模型上的Hits@1、Hits@10、Hits@50、MRR,結(jié)果如表5所示.

      表5 測試集在各模型上的Hits@1、Hits@10、Hits@50和MRRTab.5 Hits@1,Hits@10,Hits@50 and MRR of the test set on each model

      由表5 可知,測試集在MuGNN 模型上的Hits@n和MRR 的值均比在JAPE 模型和GCN-Align 模型上的大,其中測試集在MuGNN 模型上的Hits@1 的值分別比在JAPE 模型和在GCN-Align 模型上的高16.43%和8.51%. 以上結(jié)果表明,無論是以前n項(xiàng)命中率Hits@n作為評價(jià)指標(biāo),還是以平均倒數(shù)排名MRR作為評價(jià)指標(biāo),綜合多種注意力機(jī)制和圖卷積神經(jīng)網(wǎng)絡(luò)的MuGNN模型的實(shí)體對齊效果均優(yōu)于JAPE模型和GCN-Align模型的實(shí)體對齊效果.

      圖5為通過MuGNN 模型得到的乳腺疾病各實(shí)體類別的Hits@n和MRR. 由圖5可知,疾病Disease 和藥物Medicine這兩個(gè)實(shí)體類別的Hits@n和MRR均相對較低,分析原因可能是實(shí)驗(yàn)數(shù)據(jù)中這兩個(gè)實(shí)體類別的數(shù)量相對較少,關(guān)系矩陣較為稀疏,給實(shí)體對齊效果帶來了一定的負(fù)面影響.

      圖5 通過MuGNN模型得到的乳腺疾病各實(shí)體類別的Hits@n和MRRFig.5 Hits@n and MRR of entity categories of breast diseases obtained by MuGNN model

      3 知識融合階段

      3.1 知識融合及知識圖譜的可視化

      知識融合是將多數(shù)據(jù)源中指向同一實(shí)體或者概念的描述融合起來的過程,是在實(shí)體對齊的基礎(chǔ)上,通過沖突檢測以及沖突消解對知識進(jìn)行關(guān)聯(lián)和合并,最終形成一個(gè)完整一致的知識庫. 知識融合過程具體分為數(shù)據(jù)層融合和數(shù)據(jù)模式層融合兩部分. 數(shù)據(jù)層融合多指實(shí)體間的知識融合;數(shù)據(jù)模式層融合則包括概念和屬性的融合. 知識融合可豐富完善已有的語義信息、挖掘更多圖譜知識、提高知識表示的性能,進(jìn)而可以提供更優(yōu)質(zhì)的知識服務(wù). 通過Neo4j圖數(shù)據(jù)庫對知識圖譜進(jìn)行可視化處理后,可將知識庫中的實(shí)體和關(guān)系以圖形化的方式展示出來,用戶則可通過簡單的查詢語句來獲得具體實(shí)體之間的關(guān)系,可增強(qiáng)知識庫的可理解性.

      3.2 互聯(lián)網(wǎng)醫(yī)療知識實(shí)體關(guān)系庫的知識融合及知識圖譜的可視化

      為了研究MuGNN 模型對互聯(lián)網(wǎng)醫(yī)療知識融合的效果,對本文2.2 小節(jié)中構(gòu)建的乳腺疾病實(shí)體關(guān)系庫(已完成實(shí)體對齊)進(jìn)行知識融合. 為了提升融合的準(zhǔn)確率,在實(shí)體對齊的基礎(chǔ)上加以人工校正,消除語義重復(fù)的實(shí)體及對應(yīng)的關(guān)系三元組,實(shí)現(xiàn)多源知識的融合. 同時(shí),使用Java語言將融合后得到的實(shí)體集和關(guān)系三元組集輸入到Neo4j圖數(shù)據(jù)庫中,以實(shí)現(xiàn)乳腺疾病知識圖譜的可視化.

      圖6a 是在Neo4j 圖數(shù)據(jù)庫中通過match 語句查詢疾病“乳腺癌”所得到的癥狀,圖6b是在Neo4j 圖數(shù)據(jù)庫中通過match語句查詢檢查項(xiàng)目“乳腺B超”所得到的疾病. 其中,不同顏色代表不同類別的實(shí)體,如紅色代表“疾病Disease”,黃色代表“癥狀Symptom”,藍(lán)色代表“檢查項(xiàng)目Check”. 通過知識圖譜的可視化,我們可以清晰簡明地看到實(shí)體之間一對一以及一對多的聯(lián)系.

      圖6 乳腺疾病知識圖譜可視化結(jié)果的示例Fig.6 Example of visualization results of breast disease knowledge map

      通過Neo4j圖數(shù)據(jù)庫結(jié)構(gòu)化存儲乳腺疾病的實(shí)體及關(guān)系,不僅可以使用戶高效快速地了解與乳腺疾病預(yù)防和飲食習(xí)慣等相關(guān)的知識,也可以使用戶根據(jù)癥狀查詢自己可能患有的疾病以及對應(yīng)的檢查方式,同時(shí)還可以為用戶的初步自我診斷提供輔助手段.

      4 結(jié)論

      以乳腺疾病為例,首先構(gòu)建了基于不同醫(yī)療網(wǎng)站的乳腺疾病實(shí)體關(guān)系庫,然后利用MuGNN模型完成了實(shí)體對齊,同時(shí)與JAPE模型和GCN-Align模型的實(shí)體對齊效果進(jìn)行了對比,最后通過Neo4j圖數(shù)據(jù)庫對融合后的互聯(lián)網(wǎng)醫(yī)療知識圖譜進(jìn)行可視化處理,得出結(jié)論如下:

      1)綜合多種注意力機(jī)制和圖卷積神經(jīng)網(wǎng)絡(luò)的MuGNN模型首先利用跨圖注意力機(jī)制和GCN模型對圖結(jié)構(gòu)進(jìn)行表示學(xué)習(xí),然后利用GAT模型對實(shí)體關(guān)系進(jìn)行賦權(quán),最后將實(shí)體嵌入進(jìn)行聚合后對齊. MuGNN模型不僅可以有效解決圖結(jié)構(gòu)的異質(zhì)性問題,還可以為每個(gè)實(shí)體捕獲到信息最豐富、最有判別力的鄰居.2)無論是以前n項(xiàng)命中率Hits@n作為評價(jià)指標(biāo),還是以平均倒數(shù)排名MRR作為評價(jià)指標(biāo),綜合多種注意力機(jī)制和圖卷積神經(jīng)網(wǎng)絡(luò)的MuGNN 模型的實(shí)體對齊效果均優(yōu)于JAPE 模型和GCN-Align 模型的實(shí)體對齊效果.3)通過MuGNN模型成功實(shí)現(xiàn)了基于不同醫(yī)療網(wǎng)站的乳腺疾病實(shí)體關(guān)系庫的知識融合,并利用Neo4j圖數(shù)據(jù)庫對融合后的知識圖譜進(jìn)行了可視化處理. 知識圖譜的可視化可將實(shí)體類別和實(shí)體關(guān)系以圖形化的方式展示出來,通過簡單的查詢語句即可獲得具體實(shí)體之間的關(guān)系,可增強(qiáng)知識庫的可理解性,有助于提供更優(yōu)質(zhì)的知識服務(wù).本研究雖然取得了一定的成果,但是也存在一些不足之處,如僅選取了與乳腺疾病有關(guān)的互聯(lián)網(wǎng)醫(yī)療知識作為實(shí)驗(yàn)數(shù)據(jù)進(jìn)行研究,其關(guān)系三元組不夠多,存在一定的數(shù)據(jù)稀疏問題. 下一步研究可以考慮擴(kuò)大疾病的選取范圍,同時(shí)可以嘗試?yán)迷~向量作為神經(jīng)網(wǎng)絡(luò)的初始矩陣,以進(jìn)一步提高M(jìn)uGNN模型的性能.

      猜你喜歡
      圖譜注意力實(shí)體
      讓注意力“飛”回來
      繪一張成長圖譜
      前海自貿(mào)區(qū):金融服務(wù)實(shí)體
      中國外匯(2019年18期)2019-11-25 01:41:54
      實(shí)體的可感部分與實(shí)體——兼論亞里士多德分析實(shí)體的兩種模式
      “揚(yáng)眼”APP:讓注意力“變現(xiàn)”
      傳媒評論(2017年3期)2017-06-13 09:18:10
      補(bǔ)腎強(qiáng)身片UPLC指紋圖譜
      中成藥(2017年3期)2017-05-17 06:09:01
      兩會進(jìn)行時(shí):緊扣實(shí)體經(jīng)濟(jì)“釘釘子”
      振興實(shí)體經(jīng)濟(jì)地方如何“釘釘子”
      A Beautiful Way Of Looking At Things
      主動對接你思維的知識圖譜
      会东县| 吴桥县| 呼伦贝尔市| 宁武县| 昔阳县| 陕西省| 杭锦后旗| 喀喇沁旗| 大余县| 长垣县| 重庆市| 富阳市| 皮山县| 湘阴县| 佛教| 封丘县| 新泰市| 台东县| 桐乡市| 舞阳县| 工布江达县| 永川市| 墨江| 嘉兴市| 乌拉特中旗| 湘西| 浏阳市| 丰顺县| 长泰县| 黑水县| 象州县| 米脂县| 北流市| 喀喇沁旗| 三亚市| 河北省| 从化市| 吉首市| 特克斯县| 封开县| 正蓝旗|