李彥柯,祁志衛(wèi),李劍宇,胡 礦
(云南大學(xué) 信息學(xué)院,昆明 650500)
貝葉斯網(wǎng)(Bayesian Network,BN)是一種表示和推理不確定性知識(shí)的有效模型,被廣泛應(yīng)用于故障診斷[1]、金融投資決策[2],以及疾病風(fēng)險(xiǎn)評(píng)估[3]等領(lǐng)域.BN通過(guò)一個(gè)有向無(wú)環(huán)圖(Directed Acyclic Graph,DAG)以及條件概率表(Conditional Probability Table,CPT)量化變量之間依賴(lài)的不確定性,為多變量間復(fù)雜的不確定性依賴(lài)關(guān)系的表示和概率推理提供了統(tǒng)一框架[4].給定證據(jù)節(jié)點(diǎn)集合,基于BN計(jì)算查詢(xún)節(jié)點(diǎn)的條件概率、后驗(yàn)概率或邊緣概率,是BN推理的基本任務(wù).例如,基于圖1(a)所示的疾病評(píng)估BN,可推斷用戶(hù)因“營(yíng)養(yǎng)不良”而患“淋巴炎”的概率為60%,以此判斷用戶(hù)罹患淋巴炎的可能性.然而,BN推理在具有高效需求的應(yīng)用場(chǎng)景中有待進(jìn)一步擴(kuò)展.一方面,受領(lǐng)域知識(shí)專(zhuān)業(yè)性強(qiáng)、知識(shí)體系龐大等因素影響,實(shí)際應(yīng)用中的BN規(guī)模都較為龐大.例如,Onisko[5]等開(kāi)發(fā)的用于肝臟疾病診斷的大型BN系統(tǒng),用于輔導(dǎo)學(xué)生解決物理學(xué)問(wèn)題的ANDES系統(tǒng)[6],都具有上百個(gè)節(jié)點(diǎn),并且BN中CPT參數(shù)數(shù)目與父節(jié)點(diǎn)及節(jié)點(diǎn)的狀態(tài)數(shù)目呈指數(shù)級(jí)數(shù)量關(guān)系.在基于BN的概率推理算法中,以變量消元[7](Variable Elimination,VE)為代表的精確推理算法和以吉布斯采樣[8](Gibbs Sampling,GS)、前向采樣[9](Forward Sampling,F(xiàn)S)為代表的近似推理方法均為NP困難問(wèn)題.另一方面,由于缺乏節(jié)點(diǎn)間潛在的關(guān)聯(lián)信息,節(jié)點(diǎn)在推理任務(wù)中的重要性無(wú)從判斷,因此,產(chǎn)生了許多與推理任務(wù)無(wú)關(guān)的節(jié)點(diǎn)計(jì)算,導(dǎo)致推理效率低下.例如,針對(duì)圖1(a)中的推理任務(wù),在已知“營(yíng)養(yǎng)不良”的情況下,推斷罹患“淋巴炎”的可能性,在領(lǐng)域知識(shí)中已知“骨髓造血功能異?!币约啊鞍疽埂辈皇钱?dāng)前推理任務(wù)的重要因素[10],因?yàn)槎吲c“淋巴炎”的潛在關(guān)聯(lián)強(qiáng)度弱,所以在推理計(jì)算過(guò)程中不予考慮.為此,針對(duì)BN推理任務(wù),本文旨在引入外部領(lǐng)域知識(shí),以提高BN推理任務(wù)的效率.
圖1 疾病風(fēng)險(xiǎn)評(píng)估BN、BN節(jié)點(diǎn)與KG實(shí)體的映射示例
近年來(lái),研究人員提出了許多提高BN推理效率的近似推理方法,主要分為基于隨機(jī)抽樣的近似推理方法和基于BN子圖抽取的近似推理方法.
基于隨機(jī)抽樣的近似推理是基于BN的結(jié)構(gòu)及其節(jié)點(diǎn)參數(shù),隨機(jī)抽取BN中每個(gè)節(jié)點(diǎn)的取值并生成數(shù)據(jù)樣本,基于滿(mǎn)足條件的樣本統(tǒng)計(jì)數(shù)近似地模擬BN的概率.GS算法是在BN所有變量的聯(lián)合狀態(tài)空間中與證據(jù)節(jié)點(diǎn)一致的子空間里隨機(jī)采樣的一種近似推理方法.Qi等[11]通過(guò)在BN中隨機(jī)采樣生成采樣樣本,以此將BN表示為點(diǎn)互信息矩陣,保留了BN中的CPT及DAG信息,并進(jìn)一步基于奇異值分解方法將點(diǎn)互信息矩陣分解生成節(jié)點(diǎn)的嵌入來(lái)支持BN推理.然而,上述基于隨機(jī)游走的BN推理方法收斂都較為緩慢.
基于BN子圖抽取的近似推理方法利用BN的結(jié)構(gòu)和節(jié)點(diǎn)間的依賴(lài)關(guān)系對(duì)查詢(xún)節(jié)點(diǎn)進(jìn)行近似推理,以加快推理速度[12].Draper等[13]提出局部偏序評(píng)估算法,該算法聚焦于與查詢(xún)節(jié)點(diǎn)最相關(guān)的節(jié)點(diǎn)集合進(jìn)行推理,與查詢(xún)節(jié)點(diǎn)最相關(guān)的節(jié)點(diǎn)集被稱(chēng)為活動(dòng)集,每次計(jì)算都通過(guò)增加一些節(jié)點(diǎn)和邊來(lái)擴(kuò)大活動(dòng)集以提高精度.Sarkar等[14]通過(guò)找到最近似BN結(jié)構(gòu)的最優(yōu)聯(lián)結(jié)樹(shù)來(lái)對(duì)BN進(jìn)行近似推理.Nicholson等[15]提出局部聯(lián)結(jié)樹(shù)算法,該算法以已知的查詢(xún)節(jié)點(diǎn)為中心,基于互信息構(gòu)建帶權(quán)BN子圖,并將該子圖轉(zhuǎn)換為小規(guī)模的聯(lián)結(jié)樹(shù)來(lái)實(shí)現(xiàn)推理.上述方法均是基于一定機(jī)制抽取BN子圖用于推理,未考慮BN節(jié)點(diǎn)間潛在的關(guān)聯(lián)信息,與推理任務(wù)無(wú)關(guān)的節(jié)點(diǎn)參與計(jì)算導(dǎo)致推理效率不佳的問(wèn)題依然存在.
因此,如何引入BN外部的領(lǐng)域知識(shí)來(lái)補(bǔ)充BN節(jié)點(diǎn)間潛在的關(guān)聯(lián)信息,合理抽取BN子圖用于計(jì)算,以提高BN推理效率,是本文研究的重點(diǎn).為此,擬解決以下3個(gè)問(wèn)題:
1)如何在BN推理過(guò)程中引入外部領(lǐng)域知識(shí)?
2)如何抽取BN子圖以提高BN推理效率?
3)如何在引入領(lǐng)域知識(shí)后實(shí)現(xiàn)概率推理?
知識(shí)圖譜(Knowledge Graph,KG)通過(guò)將現(xiàn)實(shí)中的事實(shí)建模為<頭實(shí)體,關(guān)系,尾實(shí)體>三元組,使知識(shí)得到結(jié)構(gòu)化表示,被廣泛運(yùn)用于信息檢索[16]、智能問(wèn)答[17]等領(lǐng)域.為此,本文將KG中的領(lǐng)域知識(shí)作為BN推理的知識(shí)補(bǔ)充,以抽取BN的子圖結(jié)構(gòu).具體而言,我們首先建立KG實(shí)體與BN節(jié)點(diǎn)之間的映射,然后,利用TransE模型[18]將KG中的實(shí)體嵌入到低維向量空間,最后,通過(guò)余弦相似度計(jì)算得到KG中不同實(shí)體之間的相似度,以此作為BN節(jié)點(diǎn)之間依賴(lài)關(guān)系的補(bǔ)充.
為了抽取BN子圖,首先按KG實(shí)體間相似度在BN結(jié)構(gòu)中選擇從查詢(xún)節(jié)點(diǎn)到證據(jù)節(jié)點(diǎn)集合的最大實(shí)體相似度的最短路徑,路徑構(gòu)成用于支持BN推理的節(jié)點(diǎn)關(guān)聯(lián)圖(Node Correlation Graph,NCG).選擇最大相似度的最短路徑的過(guò)程演變?yōu)樗阉饕圆樵?xún)節(jié)點(diǎn)為根節(jié)點(diǎn)的生成樹(shù)問(wèn)題.基于Prim算法思想[19]提出NCG構(gòu)建算法.與此同時(shí),本文為了保證BN推理結(jié)果的有效性,給出基于KG實(shí)體相似度與BN節(jié)點(diǎn)參數(shù)的NCG權(quán)值計(jì)算方法.
為了在引入領(lǐng)域知識(shí)后實(shí)現(xiàn)BN的推理計(jì)算,本文通過(guò)圖嵌入方法,將BN中的高度復(fù)雜計(jì)算任務(wù)轉(zhuǎn)化為NCG節(jié)點(diǎn)嵌入后的證據(jù)節(jié)點(diǎn)向量與查詢(xún)節(jié)點(diǎn)向量間的關(guān)聯(lián)度強(qiáng)度計(jì)算.采用Node2vec[20]的可調(diào)偏置隨機(jī)采樣策略準(zhǔn)確捕捉NCG節(jié)點(diǎn)鄰居信息及其全局結(jié)構(gòu)的特征,以獲取節(jié)點(diǎn)序列樣本,基于Skip-Gram模型對(duì)生成的節(jié)點(diǎn)序列樣本進(jìn)行嵌入[21],并進(jìn)一步通過(guò)NCG節(jié)點(diǎn)向量計(jì)算證據(jù)節(jié)點(diǎn)與查詢(xún)節(jié)點(diǎn)之間的關(guān)聯(lián)強(qiáng)度在NCG中所有節(jié)點(diǎn)與查詢(xún)節(jié)點(diǎn)關(guān)聯(lián)強(qiáng)度總和中所占的比重,從而得到推理結(jié)果.
在不同規(guī)模BN上的實(shí)驗(yàn)結(jié)果表明,本文方法的效率高于經(jīng)典的Gibbs采樣和前向采樣方法,且能得到準(zhǔn)確的推理結(jié)果.
定義1.KG表示為K=(E,R),其中E={e1,e2,…,en}是KG實(shí)體集合,R表示實(shí)體間的關(guān)系集合.
定義2.BN表示為B=(G,P),其中G=(X,ε)是一個(gè)有向無(wú)環(huán)圖,X={x1,x2,…,xm}是BN的節(jié)點(diǎn)集合,且BN中所有節(jié)點(diǎn)X均在E中具有對(duì)應(yīng)實(shí)體,即ei?xi(1≤i≤m,m≤n).ε表示BN中有向邊的集合,P為CPT的集合.
為了有效融合B與K,基于B的子圖結(jié)構(gòu)構(gòu)建如圖1(c)所示的NCG,其節(jié)點(diǎn)及邊都是B的節(jié)點(diǎn)集合與K邊集合的子集,并基于中節(jié)點(diǎn)的參數(shù)與中實(shí)體相似度計(jì)算NCG節(jié)點(diǎn)間的權(quán)值.
定義3.NCG為帶權(quán)無(wú)向圖,表示為T(mén)=(N,M,W),N(N?V))為NCG節(jié)點(diǎn)集合;M(M?ε)為NCG邊的集合,W表示邊的權(quán)重集合.
給定一個(gè)BN、一個(gè)與BN描述領(lǐng)域知識(shí)一致的KG、查詢(xún)節(jié)點(diǎn)xq以及證據(jù)節(jié)點(diǎn)集合Xs={x1,x2,…,xn}(Xs?X).基于查詢(xún)節(jié)點(diǎn)xq與證據(jù)節(jié)點(diǎn)xi(1≤i≤n)得到NCG,并以NCG為依據(jù)計(jì)算xq與xi之間的條件概率值P(xq|xi),或查詢(xún)節(jié)點(diǎn)xq與證據(jù)節(jié)點(diǎn)集合Xs的條件概率值P(xq|Xs).
給定一個(gè)BN B和KG K,為了從B中抽取子圖構(gòu)建NCG T的結(jié)構(gòu),首先,從K中查詢(xún)與B節(jié)點(diǎn)vi相對(duì)應(yīng)的實(shí)體ei,例如圖1(b)所示,B中節(jié)點(diǎn)“A1:淋巴炎”表示當(dāng)“A:淋巴炎”節(jié)點(diǎn)狀態(tài)取值為1時(shí),“淋巴炎”節(jié)點(diǎn)狀態(tài)為“存在”與中的“淋巴炎”實(shí)體相對(duì)應(yīng),以此得到與B節(jié)點(diǎn)集合對(duì)應(yīng)的K的部分實(shí)體集合Es(Es?E).然后,計(jì)算Es的實(shí)體間相似度.最后,將實(shí)體相似度作為B中節(jié)點(diǎn)之間依賴(lài)的領(lǐng)域知識(shí)補(bǔ)充,并以此為依據(jù)抽取B的子圖.
(1)
上述思想見(jiàn)算法1.
算法1.構(gòu)建NCG結(jié)構(gòu)
輸入:B:一個(gè)BN,B=(G,P),G=(X,ε);
xq:查詢(xún)節(jié)點(diǎn);
Xs:證據(jù)節(jié)點(diǎn)集合{x1,x2,…,xn}(1≤n 變量:cand:候選節(jié)點(diǎn)集合 輸出:NCG結(jié)構(gòu)T=(N,M,W) 1.N←?,M←?,X←? 2.while{xq,Xs}N//當(dāng)N包含xq與Xs時(shí)結(jié)束 3.N←xq//xq作為起始節(jié)點(diǎn) 4.fori=1to|N|do 5.cand←{X-xq}//遍歷候選節(jié)點(diǎn)集合 6.forj←1to|cand|do 7.ifMij←inεthen//若邊Mij在邊集合ε中 9.endif 10.endfor 11.forMijinsorted(W(Mij))do//根據(jù)權(quán)重對(duì)M降序排序 12.N←N∪{xi,xj}//取排序第一的邊的首節(jié)點(diǎn)xi與尾節(jié)點(diǎn)xj添加到N 13.M←Mij 14.cand.remove{xi,xj}//將xi與xj從候選節(jié)點(diǎn)集合中移除 15.endfor 16.endfor 17.endwhile 18.returnT=(N,M,W) 例1.針對(duì)圖1(a)所示的BN,依據(jù)推理任務(wù)P(A:淋巴炎|D:營(yíng)養(yǎng)不良)獲取NCG的結(jié)構(gòu).首先以查詢(xún)節(jié)點(diǎn)“A:淋巴炎”為起點(diǎn),在B中查找節(jié)點(diǎn)“A:淋巴炎”的一階鄰居集合{“E:抵抗力下降”、“B:貧血”},由式(1)計(jì)算“A:淋巴炎”與其鄰居節(jié)點(diǎn)的實(shí)體相似度分別為0.35、0.75.然后選取實(shí)體相似度最大節(jié)點(diǎn)“B:貧血”加入節(jié)點(diǎn)集合N,同時(shí),將邊MAB加入M邊集合.繼續(xù)將節(jié)點(diǎn)“B:貧血”作為起點(diǎn)重復(fù)上述步驟,當(dāng)證據(jù)節(jié)點(diǎn)“D:營(yíng)養(yǎng)不良”在已選節(jié)點(diǎn)集合N中時(shí)結(jié)束算法,最終得到如圖1(c)所示的NCG結(jié)構(gòu). (2) 通過(guò)實(shí)體相似度計(jì)算T的每條邊的權(quán)重Wij,進(jìn)而得到帶權(quán)無(wú)向圖T. 為了將復(fù)雜的推理計(jì)算任務(wù)轉(zhuǎn)化為簡(jiǎn)單靈活的NCG節(jié)點(diǎn)向量計(jì)算,采用Node2vec[20]圖嵌入方法將節(jié)點(diǎn)嵌入到低維向量中.具體而言,給定T=(N,M,W),通過(guò)隨機(jī)采樣及Skip-gram兩個(gè)步驟實(shí)現(xiàn)對(duì)的嵌入. 首先,在隨機(jī)采樣T的節(jié)點(diǎn)序列樣本過(guò)程中,采用可調(diào)偏置的隨機(jī)采樣策略,以T中包含領(lǐng)域知識(shí)的W為引導(dǎo)進(jìn)行隨機(jī)采樣.設(shè)x0∈N為起始節(jié)點(diǎn),xi為隨機(jī)采樣的第i個(gè)節(jié)點(diǎn).計(jì)算xi到xi+1的轉(zhuǎn)移概率π(xi,xi+1): π(xi,xi+1)=αφη(xi-1,xi+1)×Wxi,xx+1 (3) 其中,Wxi,xx+1為T(mén)中節(jié)點(diǎn)xi與xi+1之間邊的權(quán)重.αφη(xi-1,xi+1)是由xi-1與xi+1之間最短距離確定的超參數(shù),xi-1為xi的另一個(gè)鄰居節(jié)點(diǎn).φ和η是用于控制隨機(jī)采樣偏置的參數(shù). 然后,采樣得到多個(gè)節(jié)點(diǎn)序列樣本之后,基于Skip-gram模型將節(jié)點(diǎn)序列樣本嵌入.具體而言,將節(jié)點(diǎn)xi的獨(dú)熱向量,以及由W引導(dǎo)獲得的節(jié)點(diǎn)序列樣本中,xi鄰居節(jié)點(diǎn)的獨(dú)熱向量組成的集合Nb(xi)作為輸入,目標(biāo)是在權(quán)值W的引導(dǎo)下最大化xi周?chē)従拥母怕蔖ro(Nb(xi)|f(xi)),即最大化對(duì)數(shù)似然函數(shù): maxf∑xi∈Xlog[Pro(Nb(xi)|f(xi)) (4) 其中,Nb(xi)是由包含領(lǐng)域知識(shí)的轉(zhuǎn)移概率π(xi,xi+1)引導(dǎo)隨機(jī)采樣得到的xi鄰居節(jié)點(diǎn)集合. (5) 采用3個(gè)醫(yī)療領(lǐng)域的BN,包括CancerNeapolitan(1)https://www.norsys.com/netlibrary/index.htm、HEPARⅡ(2)https://www.bnlearn.com/bnrepository/discrete-large.html#hepar2以及PathFinder(3)https://www.bnlearn.com/bnrepository/discrete-verylarge.html#pathfinder作為實(shí)驗(yàn)數(shù)據(jù).其中,CancerNeapolitan是用于診斷癌癥的BN,HEPARⅡ是用于診斷肝臟疾病的BN,PathFinder是協(xié)助診斷淋巴結(jié)疾病的BN.數(shù)據(jù)集信息如表1所示. 表1 BN數(shù)據(jù)集信息 此外,采用公開(kāi)的醫(yī)療領(lǐng)域的KG數(shù)據(jù)作為BN的外部知識(shí),KG數(shù)據(jù)的基本信息如表2所示. 表2 醫(yī)療KG的實(shí)體與關(guān)系類(lèi)型 為了評(píng)估本文提出的推理方法的效率以及有效性,將NCG與VE[7]、GS[8]、FS[9]3個(gè)經(jīng)典的BN推理方法進(jìn)行比較. 為了評(píng)估模型推理效率,對(duì)NCG、VE、GS、FS的執(zhí)行時(shí)間進(jìn)行比較. 為了評(píng)估NCG推理的有效性,采用均方誤差(Mean Square Error,MSE)、準(zhǔn)確率(Precision)、精確率(Accuracy)、召回率(Recall)以及F1值(F1-score)作為評(píng)估指標(biāo). MSE用于評(píng)估NCG、GS、FS生成的結(jié)果值與真實(shí)值之間的誤差,本文以精確推理方法VE的推理結(jié)果作為真實(shí)值,計(jì)算NCG推理得到的結(jié)果偏離真實(shí)值的平方和的平均數(shù),MSE公式如下: (6) 準(zhǔn)確率、精確率、召回率以及F1值用于評(píng)估模型推理結(jié)果的偏向與真實(shí)值是否一致.將VE推理結(jié)果作為真實(shí)值,設(shè)定閾值為0.5,推理結(jié)果大于等于0.5為正偏向,反之為負(fù)偏向.推理結(jié)果為正偏向則歸入正例,推理結(jié)果為負(fù)偏向則歸入負(fù)例.準(zhǔn)確率(Precision)、精確率(Accuracy)、召回率(Recall)和F1值(F1-score)分別定義如下: (7) (8) (9) (10) 其中,TP表示待測(cè)模型的推理結(jié)果為正例,同時(shí)真實(shí)值也為正例的數(shù)量;FP表示待測(cè)模型推理結(jié)果為正例,真實(shí)值為負(fù)例的數(shù)量;TN表示待測(cè)模型推理結(jié)果為負(fù)例且真實(shí)值也為負(fù)例的數(shù)量;FN表示待測(cè)模型推理結(jié)果為負(fù)例,真實(shí)值為正例的數(shù)量. Intel(R)Core(TM)i5-8265U CPU @1.60GHz處理器,8GB內(nèi)存,Windows 10(64位)操作系統(tǒng),使用Python 3.6作為編程語(yǔ)言. 為了平衡NCG推理的效率及有效性,將TransE的學(xué)習(xí)率設(shè)置為0.0001,KG嵌入維度設(shè)置為100.另外,在CancerNeapolitan上將Node2vec的嵌入維度、游走步長(zhǎng)、游走次數(shù)分別設(shè)置為10、3、50,在HEPARⅡ上分別設(shè)置為50、10、100,在PathFinder上分別設(shè)置為50、20、100.另外,將Node2vec中用于控制游走策略的參數(shù)和分別設(shè)置為1和20. 為了評(píng)估不同BN規(guī)模對(duì)NCG的推理效率的影響,首先,在不同規(guī)模的BN數(shù)據(jù)集上分別基于NCG、GS、FS、VE執(zhí)行100次隨機(jī)推理任務(wù),記錄NCG、GS、FS以及VE的平均執(zhí)行時(shí)間并進(jìn)行比較,結(jié)果如圖2所示.結(jié)果表明,各模型推理時(shí)間隨BN規(guī)模的擴(kuò)大而增加,其中NCG在不同規(guī)模的BN上實(shí)現(xiàn)推理的平均時(shí)間比GS快53%,比FS快65.3%,比VE快66.9%,這是因?yàn)镹CG在推理過(guò)程中基于KG中的實(shí)體相似度補(bǔ)充了BN節(jié)點(diǎn)間潛在的關(guān)聯(lián)信息,合理精簡(jiǎn)地抽取用于推理的BN子圖,減少了因BN節(jié)點(diǎn)以及參數(shù)數(shù)量過(guò)多導(dǎo)致的大量計(jì)算步驟,從而提高了BN推理效率. 圖2 不同BN對(duì)各推理方法推理效率的影響 然后,為了測(cè)試證據(jù)節(jié)點(diǎn)數(shù)量對(duì)NCG推理時(shí)間的影響,通過(guò)改變證據(jù)節(jié)點(diǎn)的數(shù)量來(lái)比較NCG與VE、GS、FS的執(zhí)行時(shí)間,如圖3所示.結(jié)果表明,隨著證據(jù)節(jié)點(diǎn)數(shù)量增多,NCG推理時(shí)間趨于穩(wěn)定,得出NCG的推理效率對(duì)證據(jù)節(jié)點(diǎn)數(shù)量不敏感的結(jié)論.這是因?yàn)樵跇?gòu)建NCG的過(guò)程中,以查詢(xún)節(jié)點(diǎn)為中心,向外擴(kuò)散到證據(jù)節(jié)點(diǎn),推理效率只與查詢(xún)節(jié)點(diǎn)與證據(jù)節(jié)點(diǎn)之間的路徑長(zhǎng)度有關(guān). 圖3 不同推理方法的執(zhí)行時(shí)間 為了測(cè)試NCG推理的有效性,采用VE精確推理結(jié)果作為真實(shí)值,通過(guò)MSE來(lái)評(píng)估推理的準(zhǔn)確性,使用精確率、準(zhǔn)確率、召回率、F1值來(lái)評(píng)估NCG模型推理結(jié)果的偏向與真實(shí)值偏向的一致性. 首先,測(cè)試NCG在不同規(guī)模BN中執(zhí)行100次隨機(jī)推理的精度,結(jié)果如表3所示.可以看出,在PathFinder數(shù)據(jù)集中證據(jù)節(jié)點(diǎn)數(shù)量不大于7時(shí),NCG的誤差比GS和FS都小,這表明隨著B(niǎo)N規(guī)模的擴(kuò)大,NCG的推理結(jié)果越精確. 表3 不同推理方法的MSE比較 然后,測(cè)試NCG在3個(gè)不同規(guī)模BN中分別執(zhí)行100次隨機(jī)推理,并計(jì)算精確率、準(zhǔn)確率、召回率、F1值,結(jié)果如表4所示.可以看出,隨著B(niǎo)N規(guī)模的擴(kuò)大,NCG的精確率和準(zhǔn)確率與GS和FS的測(cè)試結(jié)果接近,在PathFinder中NCG的精確率、準(zhǔn)確率均超過(guò)GS與FS的測(cè)試結(jié)果.另外,召回率和F1值隨BN規(guī)模擴(kuò)大而減小,NCG在不同規(guī)模測(cè)試集上推理的F1值均高于80%,不僅說(shuō)明KG中的領(lǐng)域知識(shí)與BN中的推理邏輯相符,且進(jìn)一步反映了KG引導(dǎo)BN概率推理的有效性. 表4 不同推理方法的推理效果對(duì)比 本文提出基于KG引導(dǎo)的BN推理方法,在BN的小范圍內(nèi)實(shí)現(xiàn)推理.基于KG實(shí)體相似度抽取BN子圖得到NCG結(jié)構(gòu),并給出BN節(jié)點(diǎn)參數(shù)與KG實(shí)體相似度的疊加方法,最終得到帶權(quán)無(wú)向圖NCG用于推理.實(shí)驗(yàn)結(jié)果表明,本文的方法在BN推理效率方面有較大提升,在推理的有效性方面與GS和FS的推理結(jié)果接近.在未來(lái)的工作中將進(jìn)一步學(xué)習(xí)KG中實(shí)體間的其他特征,更好地表征KG中的領(lǐng)域知識(shí),使知識(shí)引導(dǎo)的BN推理效果得到進(jìn)一步的提升.3.2 NCG權(quán)重計(jì)算
3.3 NCG嵌入
3.4 基于NCG的推理
4 實(shí)驗(yàn)設(shè)置
4.1 實(shí)驗(yàn)數(shù)據(jù)
4.2 對(duì)比模型
4.3 測(cè)試指標(biāo)
4.4 實(shí)驗(yàn)環(huán)境
4.5 參數(shù)設(shè)置
4.6 推理效率測(cè)試
4.7 有效性測(cè)試
5 總 結(jié)