知識(shí)圖譜引導(dǎo)的貝葉斯網(wǎng)概率推理

2022-05-27 00:41:38李彥柯祁志衛(wèi)李劍宇

小型微型計(jì)算機(jī)系統(tǒng) 2022年6期

李彥柯，祁志衛(wèi)，李劍宇，胡礦

(云南大學(xué) 信息學(xué)院，昆明 650500)

1 引言

貝葉斯網(wǎng)(Bayesian Network，BN)是一種表示和推理不確定性知識(shí)的有效模型，被廣泛應(yīng)用于故障診斷[1]、金融投資決策[2]，以及疾病風(fēng)險(xiǎn)評(píng)估[3]等領(lǐng)域.BN通過(guò)一個(gè)有向無(wú)環(huán)圖(Directed Acyclic Graph，DAG)以及條件概率表(Conditional Probability Table，CPT)量化變量之間依賴(lài)的不確定性，為多變量間復(fù)雜的不確定性依賴(lài)關(guān)系的表示和概率推理提供了統(tǒng)一框架[4].給定證據(jù)節(jié)點(diǎn)集合，基于BN計(jì)算查詢(xún)節(jié)點(diǎn)的條件概率、后驗(yàn)概率或邊緣概率，是BN推理的基本任務(wù).例如，基于圖1(a)所示的疾病評(píng)估BN，可推斷用戶(hù)因“營(yíng)養(yǎng)不良”而患“淋巴炎”的概率為60%，以此判斷用戶(hù)罹患淋巴炎的可能性.然而，BN推理在具有高效需求的應(yīng)用場(chǎng)景中有待進(jìn)一步擴(kuò)展.一方面，受領(lǐng)域知識(shí)專(zhuān)業(yè)性強(qiáng)、知識(shí)體系龐大等因素影響，實(shí)際應(yīng)用中的BN規(guī)模都較為龐大.例如，Onisko[5]等開(kāi)發(fā)的用于肝臟疾病診斷的大型BN系統(tǒng)，用于輔導(dǎo)學(xué)生解決物理學(xué)問(wèn)題的ANDES系統(tǒng)[6]，都具有上百個(gè)節(jié)點(diǎn)，并且BN中CPT參數(shù)數(shù)目與父節(jié)點(diǎn)及節(jié)點(diǎn)的狀態(tài)數(shù)目呈指數(shù)級(jí)數(shù)量關(guān)系.在基于BN的概率推理算法中，以變量消元[7](Variable Elimination，VE)為代表的精確推理算法和以吉布斯采樣[8](Gibbs Sampling，GS)、前向采樣[9](Forward Sampling，F(xiàn)S)為代表的近似推理方法均為NP困難問(wèn)題.另一方面，由于缺乏節(jié)點(diǎn)間潛在的關(guān)聯(lián)信息，節(jié)點(diǎn)在推理任務(wù)中的重要性無(wú)從判斷，因此，產(chǎn)生了許多與推理任務(wù)無(wú)關(guān)的節(jié)點(diǎn)計(jì)算，導(dǎo)致推理效率低下.例如，針對(duì)圖1(a)中的推理任務(wù)，在已知“營(yíng)養(yǎng)不良”的情況下，推斷罹患“淋巴炎”的可能性，在領(lǐng)域知識(shí)中已知“骨髓造血功能異?！币约啊鞍疽埂辈皇钱?dāng)前推理任務(wù)的重要因素[10]，因?yàn)槎吲c“淋巴炎”的潛在關(guān)聯(lián)強(qiáng)度弱，所以在推理計(jì)算過(guò)程中不予考慮.為此，針對(duì)BN推理任務(wù)，本文旨在引入外部領(lǐng)域知識(shí)，以提高BN推理任務(wù)的效率.

圖1 疾病風(fēng)險(xiǎn)評(píng)估BN、BN節(jié)點(diǎn)與KG實(shí)體的映射示例

近年來(lái)，研究人員提出了許多提高BN推理效率的近似推理方法，主要分為基于隨機(jī)抽樣的近似推理方法和基于BN子圖抽取的近似推理方法.

基于隨機(jī)抽樣的近似推理是基于BN的結(jié)構(gòu)及其節(jié)點(diǎn)參數(shù)，隨機(jī)抽取BN中每個(gè)節(jié)點(diǎn)的取值并生成數(shù)據(jù)樣本，基于滿(mǎn)足條件的樣本統(tǒng)計(jì)數(shù)近似地模擬BN的概率.GS算法是在BN所有變量的聯(lián)合狀態(tài)空間中與證據(jù)節(jié)點(diǎn)一致的子空間里隨機(jī)采樣的一種近似推理方法.Qi等[11]通過(guò)在BN中隨機(jī)采樣生成采樣樣本，以此將BN表示為點(diǎn)互信息矩陣，保留了BN中的CPT及DAG信息，并進(jìn)一步基于奇異值分解方法將點(diǎn)互信息矩陣分解生成節(jié)點(diǎn)的嵌入來(lái)支持BN推理.然而，上述基于隨機(jī)游走的BN推理方法收斂都較為緩慢.

基于BN子圖抽取的近似推理方法利用BN的結(jié)構(gòu)和節(jié)點(diǎn)間的依賴(lài)關(guān)系對(duì)查詢(xún)節(jié)點(diǎn)進(jìn)行近似推理，以加快推理速度[12].Draper等[13]提出局部偏序評(píng)估算法，該算法聚焦于與查詢(xún)節(jié)點(diǎn)最相關(guān)的節(jié)點(diǎn)集合進(jìn)行推理，與查詢(xún)節(jié)點(diǎn)最相關(guān)的節(jié)點(diǎn)集被稱(chēng)為活動(dòng)集，每次計(jì)算都通過(guò)增加一些節(jié)點(diǎn)和邊來(lái)擴(kuò)大活動(dòng)集以提高精度.Sarkar等[14]通過(guò)找到最近似BN結(jié)構(gòu)的最優(yōu)聯(lián)結(jié)樹(shù)來(lái)對(duì)BN進(jìn)行近似推理.Nicholson等[15]提出局部聯(lián)結(jié)樹(shù)算法，該算法以已知的查詢(xún)節(jié)點(diǎn)為中心，基于互信息構(gòu)建帶權(quán)BN子圖，并將該子圖轉(zhuǎn)換為小規(guī)模的聯(lián)結(jié)樹(shù)來(lái)實(shí)現(xiàn)推理.上述方法均是基于一定機(jī)制抽取BN子圖用于推理，未考慮BN節(jié)點(diǎn)間潛在的關(guān)聯(lián)信息，與推理任務(wù)無(wú)關(guān)的節(jié)點(diǎn)參與計(jì)算導(dǎo)致推理效率不佳的問(wèn)題依然存在.

因此，如何引入BN外部的領(lǐng)域知識(shí)來(lái)補(bǔ)充BN節(jié)點(diǎn)間潛在的關(guān)聯(lián)信息，合理抽取BN子圖用于計(jì)算，以提高BN推理效率，是本文研究的重點(diǎn).為此，擬解決以下3個(gè)問(wèn)題：

1)如何在BN推理過(guò)程中引入外部領(lǐng)域知識(shí)？

2)如何抽取BN子圖以提高BN推理效率？

3)如何在引入領(lǐng)域知識(shí)后實(shí)現(xiàn)概率推理？

知識(shí)圖譜(Knowledge Graph，KG)通過(guò)將現(xiàn)實(shí)中的事實(shí)建模為<頭實(shí)體，關(guān)系，尾實(shí)體>三元組，使知識(shí)得到結(jié)構(gòu)化表示，被廣泛運(yùn)用于信息檢索[16]、智能問(wèn)答[17]等領(lǐng)域.為此，本文將KG中的領(lǐng)域知識(shí)作為BN推理的知識(shí)補(bǔ)充，以抽取BN的子圖結(jié)構(gòu).具體而言，我們首先建立KG實(shí)體與BN節(jié)點(diǎn)之間的映射，然后，利用TransE模型[18]將KG中的實(shí)體嵌入到低維向量空間，最后，通過(guò)余弦相似度計(jì)算得到KG中不同實(shí)體之間的相似度，以此作為BN節(jié)點(diǎn)之間依賴(lài)關(guān)系的補(bǔ)充.

為了抽取BN子圖，首先按KG實(shí)體間相似度在BN結(jié)構(gòu)中選擇從查詢(xún)節(jié)點(diǎn)到證據(jù)節(jié)點(diǎn)集合的最大實(shí)體相似度的最短路徑，路徑構(gòu)成用于支持BN推理的節(jié)點(diǎn)關(guān)聯(lián)圖(Node Correlation Graph，NCG).選擇最大相似度的最短路徑的過(guò)程演變?yōu)樗阉饕圆樵?xún)節(jié)點(diǎn)為根節(jié)點(diǎn)的生成樹(shù)問(wèn)題.基于Prim算法思想[19]提出NCG構(gòu)建算法.與此同時(shí)，本文為了保證BN推理結(jié)果的有效性，給出基于KG實(shí)體相似度與BN節(jié)點(diǎn)參數(shù)的NCG權(quán)值計(jì)算方法.

為了在引入領(lǐng)域知識(shí)后實(shí)現(xiàn)BN的推理計(jì)算，本文通過(guò)圖嵌入方法，將BN中的高度復(fù)雜計(jì)算任務(wù)轉(zhuǎn)化為NCG節(jié)點(diǎn)嵌入后的證據(jù)節(jié)點(diǎn)向量與查詢(xún)節(jié)點(diǎn)向量間的關(guān)聯(lián)度強(qiáng)度計(jì)算.采用Node2vec[20]的可調(diào)偏置隨機(jī)采樣策略準(zhǔn)確捕捉NCG節(jié)點(diǎn)鄰居信息及其全局結(jié)構(gòu)的特征，以獲取節(jié)點(diǎn)序列樣本，基于Skip-Gram模型對(duì)生成的節(jié)點(diǎn)序列樣本進(jìn)行嵌入[21]，并進(jìn)一步通過(guò)NCG節(jié)點(diǎn)向量計(jì)算證據(jù)節(jié)點(diǎn)與查詢(xún)節(jié)點(diǎn)之間的關(guān)聯(lián)強(qiáng)度在NCG中所有節(jié)點(diǎn)與查詢(xún)節(jié)點(diǎn)關(guān)聯(lián)強(qiáng)度總和中所占的比重，從而得到推理結(jié)果.

在不同規(guī)模BN上的實(shí)驗(yàn)結(jié)果表明，本文方法的效率高于經(jīng)典的Gibbs采樣和前向采樣方法，且能得到準(zhǔn)確的推理結(jié)果.

2 相關(guān)定義及問(wèn)題陳述

2.1 相關(guān)定義

定義1.KG表示為K=(E,R)，其中E={e1,e2,…,en}是KG實(shí)體集合，R表示實(shí)體間的關(guān)系集合.

定義2.BN表示為B=(G,P)，其中G=(X,ε)是一個(gè)有向無(wú)環(huán)圖，X={x1,x2,…,xm}是BN的節(jié)點(diǎn)集合，且BN中所有節(jié)點(diǎn)X均在E中具有對(duì)應(yīng)實(shí)體，即ei?xi(1≤i≤m,m≤n).ε表示BN中有向邊的集合，P為CPT的集合.

為了有效融合B與K，基于B的子圖結(jié)構(gòu)構(gòu)建如圖1(c)所示的NCG，其節(jié)點(diǎn)及邊都是B的節(jié)點(diǎn)集合與K邊集合的子集，并基于中節(jié)點(diǎn)的參數(shù)與中實(shí)體相似度計(jì)算NCG節(jié)點(diǎn)間的權(quán)值.

定義3.NCG為帶權(quán)無(wú)向圖，表示為T(mén)=(N，M，W)，N(N?V))為NCG節(jié)點(diǎn)集合；M(M?ε)為NCG邊的集合，W表示邊的權(quán)重集合.

2.2 問(wèn)題陳述

給定一個(gè)BN、一個(gè)與BN描述領(lǐng)域知識(shí)一致的KG、查詢(xún)節(jié)點(diǎn)xq以及證據(jù)節(jié)點(diǎn)集合Xs={x1,x2,…,xn}(Xs?X).基于查詢(xún)節(jié)點(diǎn)xq與證據(jù)節(jié)點(diǎn)xi(1≤i≤n)得到NCG，并以NCG為依據(jù)計(jì)算xq與xi之間的條件概率值P(xq|xi)，或查詢(xún)節(jié)點(diǎn)xq與證據(jù)節(jié)點(diǎn)集合Xs的條件概率值P(xq|Xs).

3 NCG的構(gòu)建

3.1 NCG的結(jié)構(gòu)構(gòu)建

給定一個(gè)BN B和KG K，為了從B中抽取子圖構(gòu)建NCG T的結(jié)構(gòu)，首先，從K中查詢(xún)與B節(jié)點(diǎn)vi相對(duì)應(yīng)的實(shí)體ei，例如圖1(b)所示，B中節(jié)點(diǎn)“A1：淋巴炎”表示當(dāng)“A：淋巴炎”節(jié)點(diǎn)狀態(tài)取值為1時(shí)，“淋巴炎”節(jié)點(diǎn)狀態(tài)為“存在”與中的“淋巴炎”實(shí)體相對(duì)應(yīng)，以此得到與B節(jié)點(diǎn)集合對(duì)應(yīng)的K的部分實(shí)體集合Es(Es?E).然后，計(jì)算Es的實(shí)體間相似度.最后，將實(shí)體相似度作為B中節(jié)點(diǎn)之間依賴(lài)的領(lǐng)域知識(shí)補(bǔ)充，并以此為依據(jù)抽取B的子圖.

(1)

上述思想見(jiàn)算法1.

算法1.構(gòu)建NCG結(jié)構(gòu)

輸入：B：一個(gè)BN，B=(G,P),G=(X,ε)；

xq：查詢(xún)節(jié)點(diǎn)；

Xs：證據(jù)節(jié)點(diǎn)集合{x1,x2,…,xn}(1≤n

變量：cand：候選節(jié)點(diǎn)集合

輸出：NCG結(jié)構(gòu)T=(N,M,W)

1.N←?，M←?，X←?

2.while{xq,Xs}N//當(dāng)N包含xq與Xs時(shí)結(jié)束

3.N←xq//xq作為起始節(jié)點(diǎn)

4.fori=1to|N|do

5.cand←{X-xq}//遍歷候選節(jié)點(diǎn)集合

6.forj←1to|cand|do

7.ifMij←inεthen//若邊Mij在邊集合ε中

9.endif

10.endfor

11.forMijinsorted(W(Mij))do//根據(jù)權(quán)重對(duì)M降序排序

12.N←N∪{xi,xj}//取排序第一的邊的首節(jié)點(diǎn)xi與尾節(jié)點(diǎn)xj添加到N

13.M←Mij

14.cand.remove{xi,xj}//將xi與xj從候選節(jié)點(diǎn)集合中移除

15.endfor

16.endfor

17.endwhile

18.returnT=(N，M，W)

例1.針對(duì)圖1(a)所示的BN，依據(jù)推理任務(wù)P(A：淋巴炎|D：營(yíng)養(yǎng)不良)獲取NCG的結(jié)構(gòu).首先以查詢(xún)節(jié)點(diǎn)“A：淋巴炎”為起點(diǎn)，在B中查找節(jié)點(diǎn)“A：淋巴炎”的一階鄰居集合{“E：抵抗力下降”、“B：貧血”}，由式(1)計(jì)算“A：淋巴炎”與其鄰居節(jié)點(diǎn)的實(shí)體相似度分別為0.35、0.75.然后選取實(shí)體相似度最大節(jié)點(diǎn)“B：貧血”加入節(jié)點(diǎn)集合N，同時(shí)，將邊MAB加入M邊集合.繼續(xù)將節(jié)點(diǎn)“B：貧血”作為起點(diǎn)重復(fù)上述步驟，當(dāng)證據(jù)節(jié)點(diǎn)“D：營(yíng)養(yǎng)不良”在已選節(jié)點(diǎn)集合N中時(shí)結(jié)束算法，最終得到如圖1(c)所示的NCG結(jié)構(gòu).

3.2 NCG權(quán)重計(jì)算

(2)

通過(guò)實(shí)體相似度計(jì)算T的每條邊的權(quán)重Wij，進(jìn)而得到帶權(quán)無(wú)向圖T.

3.3 NCG嵌入

為了將復(fù)雜的推理計(jì)算任務(wù)轉(zhuǎn)化為簡(jiǎn)單靈活的NCG節(jié)點(diǎn)向量計(jì)算，采用Node2vec[20]圖嵌入方法將節(jié)點(diǎn)嵌入到低維向量中.具體而言，給定T=(N,M,W)，通過(guò)隨機(jī)采樣及Skip-gram兩個(gè)步驟實(shí)現(xiàn)對(duì)的嵌入.

首先，在隨機(jī)采樣T的節(jié)點(diǎn)序列樣本過(guò)程中，采用可調(diào)偏置的隨機(jī)采樣策略，以T中包含領(lǐng)域知識(shí)的W為引導(dǎo)進(jìn)行隨機(jī)采樣.設(shè)x0∈N為起始節(jié)點(diǎn)，xi為隨機(jī)采樣的第i個(gè)節(jié)點(diǎn).計(jì)算xi到xi+1的轉(zhuǎn)移概率π(xi,xi+1)：

π(xi,xi+1)=αφη(xi-1,xi+1)×Wxi,xx+1

(3)

其中，Wxi,xx+1為T(mén)中節(jié)點(diǎn)xi與xi+1之間邊的權(quán)重.αφη(xi-1,xi+1)是由xi-1與xi+1之間最短距離確定的超參數(shù)，xi-1為xi的另一個(gè)鄰居節(jié)點(diǎn).φ和η是用于控制隨機(jī)采樣偏置的參數(shù).

然后，采樣得到多個(gè)節(jié)點(diǎn)序列樣本之后，基于Skip-gram模型將節(jié)點(diǎn)序列樣本嵌入.具體而言，將節(jié)點(diǎn)xi的獨(dú)熱向量，以及由W引導(dǎo)獲得的節(jié)點(diǎn)序列樣本中，xi鄰居節(jié)點(diǎn)的獨(dú)熱向量組成的集合Nb(xi)作為輸入，目標(biāo)是在權(quán)值W的引導(dǎo)下最大化xi周?chē)従拥母怕蔖ro(Nb(xi)|f(xi))，即最大化對(duì)數(shù)似然函數(shù)：

maxf∑xi∈Xlog[Pro(Nb(xi)|f(xi))

(4)

其中，Nb(xi)是由包含領(lǐng)域知識(shí)的轉(zhuǎn)移概率π(xi,xi+1)引導(dǎo)隨機(jī)采樣得到的xi鄰居節(jié)點(diǎn)集合.

3.4 基于NCG的推理

(5)

4 實(shí)驗(yàn)設(shè)置

4.1 實(shí)驗(yàn)數(shù)據(jù)

采用3個(gè)醫(yī)療領(lǐng)域的BN，包括CancerNeapolitan(1)https://www.norsys.com/netlibrary/index.htm、HEPARⅡ(2)https://www.bnlearn.com/bnrepository/discrete-large.html#hepar2以及PathFinder(3)https://www.bnlearn.com/bnrepository/discrete-verylarge.html#pathfinder作為實(shí)驗(yàn)數(shù)據(jù).其中，CancerNeapolitan是用于診斷癌癥的BN，HEPARⅡ是用于診斷肝臟疾病的BN，PathFinder是協(xié)助診斷淋巴結(jié)疾病的BN.數(shù)據(jù)集信息如表1所示.

表1 BN數(shù)據(jù)集信息

此外，采用公開(kāi)的醫(yī)療領(lǐng)域的KG數(shù)據(jù)作為BN的外部知識(shí)，KG數(shù)據(jù)的基本信息如表2所示.

表2 醫(yī)療KG的實(shí)體與關(guān)系類(lèi)型

4.2 對(duì)比模型

為了評(píng)估本文提出的推理方法的效率以及有效性，將NCG與VE[7]、GS[8]、FS[9]3個(gè)經(jīng)典的BN推理方法進(jìn)行比較.

4.3 測(cè)試指標(biāo)

為了評(píng)估模型推理效率，對(duì)NCG、VE、GS、FS的執(zhí)行時(shí)間進(jìn)行比較.

為了評(píng)估NCG推理的有效性，采用均方誤差(Mean Square Error，MSE)、準(zhǔn)確率(Precision)、精確率(Accuracy)、召回率(Recall)以及F1值(F1-score)作為評(píng)估指標(biāo).

MSE用于評(píng)估NCG、GS、FS生成的結(jié)果值與真實(shí)值之間的誤差，本文以精確推理方法VE的推理結(jié)果作為真實(shí)值，計(jì)算NCG推理得到的結(jié)果偏離真實(shí)值的平方和的平均數(shù)，MSE公式如下：

(6)

準(zhǔn)確率、精確率、召回率以及F1值用于評(píng)估模型推理結(jié)果的偏向與真實(shí)值是否一致.將VE推理結(jié)果作為真實(shí)值，設(shè)定閾值為0.5，推理結(jié)果大于等于0.5為正偏向，反之為負(fù)偏向.推理結(jié)果為正偏向則歸入正例，推理結(jié)果為負(fù)偏向則歸入負(fù)例.準(zhǔn)確率(Precision)、精確率(Accuracy)、召回率(Recall)和F1值(F1-score)分別定義如下：

(7)

(8)

(9)

(10)

其中，TP表示待測(cè)模型的推理結(jié)果為正例，同時(shí)真實(shí)值也為正例的數(shù)量；FP表示待測(cè)模型推理結(jié)果為正例，真實(shí)值為負(fù)例的數(shù)量；TN表示待測(cè)模型推理結(jié)果為負(fù)例且真實(shí)值也為負(fù)例的數(shù)量；FN表示待測(cè)模型推理結(jié)果為負(fù)例，真實(shí)值為正例的數(shù)量.

4.4 實(shí)驗(yàn)環(huán)境

Intel(R)Core(TM)i5-8265U CPU @1.60GHz處理器，8GB內(nèi)存，Windows 10(64位)操作系統(tǒng)，使用Python 3.6作為編程語(yǔ)言.

4.5 參數(shù)設(shè)置

為了平衡NCG推理的效率及有效性，將TransE的學(xué)習(xí)率設(shè)置為0.0001，KG嵌入維度設(shè)置為100.另外，在CancerNeapolitan上將Node2vec的嵌入維度、游走步長(zhǎng)、游走次數(shù)分別設(shè)置為10、3、50，在HEPARⅡ上分別設(shè)置為50、10、100，在PathFinder上分別設(shè)置為50、20、100.另外，將Node2vec中用于控制游走策略的參數(shù)和分別設(shè)置為1和20.

4.6 推理效率測(cè)試

為了評(píng)估不同BN規(guī)模對(duì)NCG的推理效率的影響，首先，在不同規(guī)模的BN數(shù)據(jù)集上分別基于NCG、GS、FS、VE執(zhí)行100次隨機(jī)推理任務(wù)，記錄NCG、GS、FS以及VE的平均執(zhí)行時(shí)間并進(jìn)行比較，結(jié)果如圖2所示.結(jié)果表明，各模型推理時(shí)間隨BN規(guī)模的擴(kuò)大而增加，其中NCG在不同規(guī)模的BN上實(shí)現(xiàn)推理的平均時(shí)間比GS快53%，比FS快65.3%，比VE快66.9%，這是因?yàn)镹CG在推理過(guò)程中基于KG中的實(shí)體相似度補(bǔ)充了BN節(jié)點(diǎn)間潛在的關(guān)聯(lián)信息，合理精簡(jiǎn)地抽取用于推理的BN子圖，減少了因BN節(jié)點(diǎn)以及參數(shù)數(shù)量過(guò)多導(dǎo)致的大量計(jì)算步驟，從而提高了BN推理效率.

圖2 不同BN對(duì)各推理方法推理效率的影響

然后，為了測(cè)試證據(jù)節(jié)點(diǎn)數(shù)量對(duì)NCG推理時(shí)間的影響，通過(guò)改變證據(jù)節(jié)點(diǎn)的數(shù)量來(lái)比較NCG與VE、GS、FS的執(zhí)行時(shí)間，如圖3所示.結(jié)果表明，隨著證據(jù)節(jié)點(diǎn)數(shù)量增多，NCG推理時(shí)間趨于穩(wěn)定，得出NCG的推理效率對(duì)證據(jù)節(jié)點(diǎn)數(shù)量不敏感的結(jié)論.這是因?yàn)樵跇?gòu)建NCG的過(guò)程中，以查詢(xún)節(jié)點(diǎn)為中心，向外擴(kuò)散到證據(jù)節(jié)點(diǎn)，推理效率只與查詢(xún)節(jié)點(diǎn)與證據(jù)節(jié)點(diǎn)之間的路徑長(zhǎng)度有關(guān).

圖3 不同推理方法的執(zhí)行時(shí)間

4.7 有效性測(cè)試

為了測(cè)試NCG推理的有效性，采用VE精確推理結(jié)果作為真實(shí)值，通過(guò)MSE來(lái)評(píng)估推理的準(zhǔn)確性，使用精確率、準(zhǔn)確率、召回率、F1值來(lái)評(píng)估NCG模型推理結(jié)果的偏向與真實(shí)值偏向的一致性.

首先，測(cè)試NCG在不同規(guī)模BN中執(zhí)行100次隨機(jī)推理的精度，結(jié)果如表3所示.可以看出，在PathFinder數(shù)據(jù)集中證據(jù)節(jié)點(diǎn)數(shù)量不大于7時(shí)，NCG的誤差比GS和FS都小，這表明隨著B(niǎo)N規(guī)模的擴(kuò)大，NCG的推理結(jié)果越精確.

表3 不同推理方法的MSE比較

然后，測(cè)試NCG在3個(gè)不同規(guī)模BN中分別執(zhí)行100次隨機(jī)推理，并計(jì)算精確率、準(zhǔn)確率、召回率、F1值，結(jié)果如表4所示.可以看出，隨著B(niǎo)N規(guī)模的擴(kuò)大，NCG的精確率和準(zhǔn)確率與GS和FS的測(cè)試結(jié)果接近，在PathFinder中NCG的精確率、準(zhǔn)確率均超過(guò)GS與FS的測(cè)試結(jié)果.另外，召回率和F1值隨BN規(guī)模擴(kuò)大而減小，NCG在不同規(guī)模測(cè)試集上推理的F1值均高于80%，不僅說(shuō)明KG中的領(lǐng)域知識(shí)與BN中的推理邏輯相符，且進(jìn)一步反映了KG引導(dǎo)BN概率推理的有效性.

表4 不同推理方法的推理效果對(duì)比

5 總結(jié)

本文提出基于KG引導(dǎo)的BN推理方法，在BN的小范圍內(nèi)實(shí)現(xiàn)推理.基于KG實(shí)體相似度抽取BN子圖得到NCG結(jié)構(gòu)，并給出BN節(jié)點(diǎn)參數(shù)與KG實(shí)體相似度的疊加方法，最終得到帶權(quán)無(wú)向圖NCG用于推理.實(shí)驗(yàn)結(jié)果表明，本文的方法在BN推理效率方面有較大提升，在推理的有效性方面與GS和FS的推理結(jié)果接近.在未來(lái)的工作中將進(jìn)一步學(xué)習(xí)KG中實(shí)體間的其他特征，更好地表征KG中的領(lǐng)域知識(shí)，使知識(shí)引導(dǎo)的BN推理效果得到進(jìn)一步的提升.