• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      噪聲知識圖譜表示學(xué)習(xí):一種規(guī)則增強的方法

      2023-12-08 11:49:12邵天陽肖衛(wèi)東
      計算機與生活 2023年12期
      關(guān)鍵詞:三元組集上圖譜

      邵天陽,肖衛(wèi)東,趙 翔

      國防科技大學(xué) 信息系統(tǒng)工程重點實驗室,長沙 410073

      近年來,人工智能在各個領(lǐng)域蓬勃發(fā)展,如問題回答[1]和推薦系統(tǒng)[2]等,它對人們的日常生活產(chǎn)生了廣泛的影響。在這些領(lǐng)域中,人們希望人工智能智能體能夠具有理解、推理和解決問題的能力。而知識圖譜(knowledge graph,KG)可以為這種能力的實現(xiàn)提供堅實的基礎(chǔ)。知識圖譜旨在描述現(xiàn)實世界中存在的各種事物(實體)以及它們之間的關(guān)系,它通常以三元組(頭實體,關(guān)系,尾實體)的形式存儲知識,記作(h,r,t)。

      盡管知識圖譜在現(xiàn)實世界中被廣泛使用,但如Yago[3]、WordNet[4]和Freebase[5]等包含了數(shù)十億三元組的大規(guī)模知識圖譜仍然受到不完整問題的困擾。具體來說,在Freebase中,300萬人中有75%缺失國籍[6]。不完整問題會對某些知識圖譜應(yīng)用場景產(chǎn)生負面影響。例如,對于問題回答系統(tǒng)而言,不完整的知識圖譜會導(dǎo)致錯誤答案。因此,知識構(gòu)建和知識補全對于下游的應(yīng)用場景是必要的。

      對于知識構(gòu)建,目前自動機制和眾包發(fā)揮著越來越大的作用,但缺點是會引入噪聲,一些研究工作已經(jīng)發(fā)現(xiàn)了知識圖譜中存在的噪聲[7-8]。例如,在Benchmark 上開放的信息抽取模型在67%的召回率下只達到了24%的準確率[8]。對于知識補全,目前主流方法之一是知識表示學(xué)習(xí)[9-17],即將實體和關(guān)系投射到一個連續(xù)的低維空間,以獲得其表示(特征)。然而這些方法大都假設(shè)知識圖譜中沒有噪聲,這顯然不符合事實。忽略知識圖譜中的噪聲得到的知識表示將包含不正確的信息,這會對下游的應(yīng)用產(chǎn)生不利影響,因此考慮噪聲的存在是必要的。

      最近,Xie等人[12]提出了一個名為CKRL(confidenceaware knowledge representation learning)的模型,該模型利用三元組置信度來進行噪聲檢測,同時構(gòu)建知識表示。為了判斷一個三元組是否可信,其借鑒PTransE[13]模型并根據(jù)結(jié)構(gòu)信息和關(guān)系路徑信息獲得一個置信度分數(shù)。然而,CKRL中的三元組置信度估計模塊忽略了輔助信息,這些輔助信息會使得獲得的知識表示更為全面。Xie 等人提到,在噪聲檢測的實驗中PTransE[13]的效果遠不如TransE[14],實驗結(jié)果也證明了這一點。經(jīng)過文獻[15]和研究分析發(fā)現(xiàn),因為路徑表示完全是基于嵌入空間的數(shù)值計算來實現(xiàn)的,這導(dǎo)致了誤差傳播進而使得路徑嵌入的準確性受限,最后影響了整個表示的學(xué)習(xí),而這個問題在噪聲知識圖譜上會變得更加嚴重。因此,盡管利用路徑信息來擴展三元組的結(jié)構(gòu)信息是可行的,但噪聲三元組的存在使得通過關(guān)系路徑進行推理的誤差增大且缺乏可解釋性。

      為了解決上述問題,本研究提出了一個邏輯規(guī)則和關(guān)系路徑信息相結(jié)合的知識表示學(xué)習(xí)框架RPKRL(logic rules and relation path information knowledge representation learning framework),以檢測知識圖譜中的噪聲并構(gòu)造無噪的知識表示。該模型考慮引入邏輯規(guī)則來提高關(guān)系路徑推理的精度和可解釋性,同時利用三元組可信度對三元組質(zhì)量進行判斷。圖1 顯示了RPKRL 模型框架的簡要說明,在進行知識抽取和自動知識構(gòu)建之后,知識圖譜中包含噪聲且存在不完整的問題。該模型可以在檢測圖譜中存在的噪聲的同時生成無噪知識表示以進行知識補全。

      具體來說,RPKRL可分為兩部分:三元組嵌入模塊和三元組可信度估計模塊。在三元組嵌入模塊中,引入邏輯規(guī)則來指導(dǎo)路徑的構(gòu)成,從而提高其精確性和可解釋性,該模塊相比PTransE[13]而言構(gòu)造了更為完善的知識表示。在三元組可信度估計模塊中,進一步利用關(guān)系路徑信息和邏輯規(guī)則信息得到三元組可信度從而對三元組可信度進行判斷。通過結(jié)合這兩部分,該模型能夠檢測到知識圖譜中可能存在的噪聲,并構(gòu)建無噪的知識表示。在三個數(shù)據(jù)集上評估了模型,結(jié)果顯示與基線相比,該模型具有較好的有效性和穩(wěn)健性。

      這項工作的主要貢獻可總結(jié)如下:

      (1)針對路徑推理在噪聲知識圖譜中存在的問題,提出了一個新穎的RPKRL框架,用于同時進行知識圖譜噪聲檢測和知識表示學(xué)習(xí),該框架大幅度提高了使用路徑信息進行噪聲檢測和知識圖譜補全的效果。

      (2)引入了邏輯規(guī)則,以便能夠在噪聲檢測中區(qū)分噪聲。由于路徑推理會導(dǎo)致誤差的傳播,而這個問題在有噪聲的知識圖譜上會更加嚴重。因此,試圖通過邏輯規(guī)則的準確性來解決這個問題。

      (3)邏輯規(guī)則可以增強關(guān)系路徑的可解釋性。關(guān)系路徑推理得到的關(guān)系通常通過關(guān)系的表示之間的運算,例如相加和相乘等,缺乏可解釋性,邏輯規(guī)則具有的可解釋性很好地補足了這一缺陷。

      1 相關(guān)工作

      1.1 知識圖譜噪聲檢測

      盡管近年來知識圖譜在許多領(lǐng)域得到了廣泛的應(yīng)用,但噪音問題的存在對知識的獲取產(chǎn)生了負面的影響[16]。最近,一項名為“針對知識庫中的破壞性檢測”的任務(wù)引起了廣泛的關(guān)注,它的目的在于解決故意破壞知識圖譜的問題[17]。人們逐漸意識到噪聲檢測對于知識獲取和知識應(yīng)用的重要性越來越高。大多數(shù)知識圖譜的噪聲檢測工作是在知識圖譜構(gòu)建時完成的[7,18]。例如,YAGO2[19]是人們在人工監(jiān)督下從維基百科中提取知識所形成的數(shù)據(jù)集,因此可以評估這些知識的正確性。Wikidata 也是通過眾包的人力管理軟件提取的數(shù)據(jù)集,軟件使用者可以審核數(shù)據(jù)以刪除錯誤的信息[20]。小型知識圖譜上或許可以進行人工噪音檢測,但在大規(guī)模的知識圖譜上,這將是耗時耗力的。

      近年來,研究人員開始關(guān)注知識圖譜噪聲的自動檢測[21-22]。Dong 等人[23]利用知識圖譜的先驗知識構(gòu)建了一個概率知識庫,并將其與網(wǎng)絡(luò)內(nèi)容相結(jié)合,以共同判斷三元組的質(zhì)量。然而,這種方法是為某個知識圖譜構(gòu)建量身定做的,并不具備泛化能力。Li等人[24]使用神經(jīng)網(wǎng)絡(luò)方法為不可見的三元組提供置信度分數(shù)以進行知識庫補全,但這種方法忽略了知識庫中的其他信息。Xie等人[12]介紹了進行噪聲檢測和構(gòu)建知識表示的三元組置信度框架,它結(jié)合了三元組結(jié)構(gòu)信息和關(guān)系路徑信息來判斷三元組質(zhì)量。然而,這種方法忽略了其他有用的信息,而且利用路徑進行推理也存在可解釋性的問題。

      相比之下,RPKRL 模型在三元組結(jié)構(gòu)信息的基礎(chǔ)上引入邏輯規(guī)則信息來增強關(guān)系路徑的推理表達能力和模型的可解釋性,進而提高模型的噪聲檢測能力。

      1.2 知識表示學(xué)習(xí)模型

      近年來,知識表示學(xué)習(xí)受到越來越多的關(guān)注,許多研究人員在知識表示學(xué)習(xí)方面做了大量的工作[25-26],主要可以分為三種類型:(1)基于平移的模型,這類模型源自詞嵌入的平移不變原理[27],TransE[14]是最具代表性的基于平移的模型,它將實體和關(guān)系投影到同一空間,并將關(guān)系視為頭實體和尾實體之間的平移,后續(xù)基于TransE 模型,又衍生出了許多擴展模型。(2)張量分解模型,RESCAL[28]利用張量分解,將關(guān)系表示為矩陣,將實體表示為向量。在此基礎(chǔ)上,DisMult[29]將關(guān)系矩陣簡化為對角矩陣,ComplEx[30]引入了復(fù)數(shù)以擴展DisMult,以便更好地對非對稱關(guān)系進行建模。此時,實體和關(guān)系都在復(fù)數(shù)空間。(3)神經(jīng)網(wǎng)絡(luò)模型,NTN(neural tensor network)[31]首先將實體的向量作為神經(jīng)網(wǎng)絡(luò)的輸入,然后將這兩個實體由關(guān)系特有的關(guān)系張量(以及其他參數(shù))組合,并映射到一個非線性隱藏層,最后一個特定于關(guān)系的線性輸出層給出了三元組的評分。此外,還有ConvE[32]和ConvKB[33]等神經(jīng)網(wǎng)絡(luò)模型。在這三類模型中,基于平移的模型既簡單又有效,同時還能夠達到最好的性能。這類模型將實體和關(guān)系都投影到一個連續(xù)的低維向量空間中,并根據(jù)基于距離的評分函數(shù)進行建模,從而獲得知識表示。與其他方法相比,TransE能夠?qū)崿F(xiàn)簡單性和有效性的平衡。然而,由于其結(jié)構(gòu)簡單,在處理1-N、N-1 和N-N這樣的復(fù)雜關(guān)系時,它的效果并不理想。對于此,人們提出了許多改進的知識表示方法[34-35]。例如,DualE[36]在對偶四元數(shù)空間建模,Nayyeri 等人[15]引入了復(fù)平面上的莫比烏斯變換。

      平移假設(shè)只集中在三元組上,這可能會忽略其他有效信息。PTransE[13]提出實體對之間的路徑嵌入可以通過多步驟的關(guān)系推理得到。AutoETER[37]提出將關(guān)系看作實體類型之間的轉(zhuǎn)換操作,進而學(xué)習(xí)實體的表示。此外,還有許多其他類型的信息可以利用,如視覺信息、屬性信息、邏輯規(guī)則等。

      大多數(shù)傳統(tǒng)方法都假設(shè)知識圖譜中的所有三元組都是完全正確的,因此,它們無法檢測到知識圖譜中可能存在的噪聲。與它們不同,RPKRL 引入了三元組可信度的概念來區(qū)分含有噪聲的三元組和正例三元組。

      2 方法

      本章將詳細介紹模型RPKRL,由三元組嵌入模塊和三元組可信度估計模塊組成。首先給出文中使用的符號:給定一個正例三元組(h,r,t),考慮頭部和尾部實體h,t∈E和r∈R,其中E和R是實體和關(guān)系的集合。T表示包含噪聲三元組的所有訓(xùn)練三元組。下面詳細介紹整體模型結(jié)構(gòu)及其組成部分結(jié)構(gòu)。

      2.1 背景知識

      基于平移的模型有很多,其中,TransE[14]是最基礎(chǔ)的也是最具代表性的基于平移的模型之一。它將知識圖譜中的實體和關(guān)系投影到同一個低維連續(xù)向量空間中。具體而言,對于一個正例三元組(h,r,t),TransE[14]認為其實體向量和關(guān)系向量應(yīng)滿足h+r≈t,因此,TransE[14]的模型框架如下:

      其中,h、r和t分別代表頭實體、關(guān)系和尾實體的向量。若三元組(h,r,t)為正例三元組時,則分數(shù)E(h,r,t)較低,若三元組(h,r,t) 為負例三元組時,則分數(shù)E(h,r,t)較高。

      2.2 模型框架

      RPKRL模型可以在檢測知識圖譜中噪聲的同時構(gòu)建無噪的知識表示。首先給出模型公式如下:

      其中,RP(h,r,t)是三元組嵌入函數(shù),而LTT(h,r,t)是三元組可信度函數(shù)。它們利用結(jié)構(gòu)信息作為主體。此外,添加了關(guān)系路徑信息和邏輯規(guī)則信息。較低的RP(h,r,t)分數(shù)表示實體和關(guān)系在三元組更適合嵌入框架。與傳統(tǒng)的嵌入式模型不同,該模型考慮了知識圖譜中的噪聲,針對于此引入了三元組可信度衡量。一個更高的三元組可信度得分意味著三元組更可靠,即越有可能是正例。將在下面的兩部分介紹三元組嵌入模塊和三元組可信度估計模塊。

      2.3 三元組嵌入模塊

      傳統(tǒng)的路徑推理方法利用的路徑表示是由基于嵌入空間的數(shù)值計算得到,這會導(dǎo)致誤差的傳播,從而影響整個表示學(xué)習(xí)。此外,這些方法在路徑表示的獲取過程中缺乏可解釋性。受RPJE(rule and pathbased joint embedding)[38]模型的啟發(fā),引入邏輯規(guī)則及其置信度μ∈[0,1](Horn 規(guī)則),并將其與路徑相結(jié)合,以提高路徑推理的精度和可解釋性(任何知識圖譜規(guī)則提取算法或工具都可以自動挖掘Horn 規(guī)則)。

      這些規(guī)則可以分為長度為1 和長度為2 的兩種類型,分別命名為R1 和R2。圖2 顯示了規(guī)則指導(dǎo)路徑中關(guān)系的合成進行推理的過程。規(guī)則R1通過規(guī)則主體和規(guī)則頭部將兩個關(guān)系聯(lián)系起來,規(guī)則R2 則可以用來指導(dǎo)路徑中關(guān)系的合成。對于規(guī)則R1 來說,當(dāng)?x,y:r2(x,y) ?r1(x,y)成立時,關(guān)系R1 和關(guān)系R2在訓(xùn)練過程中具有較高相似性。對于規(guī)則R2,必須使規(guī)則主體的組成部分形成順序路徑,從而可以組成關(guān)系路徑。因此,如表1 所示,共總結(jié)了8 種不同類型的規(guī)則轉(zhuǎn)換模式,然后對它們進行編碼以與路徑組合。在進行路徑中關(guān)系的合成時,嘗試用規(guī)則指導(dǎo)合成,直到不能合成為任何關(guān)系為止。特別的,將由規(guī)則指導(dǎo)關(guān)系的合成稱為R(p),這也是路徑p的嵌入表示。利用規(guī)則R2 對路徑進行建模,其計算公式如下:

      表1 規(guī)則R2的轉(zhuǎn)換模式列表Table 1 List of rules R2 conversion mode

      圖2 規(guī)則指導(dǎo)路徑中的關(guān)系的合成示例Fig.2 Example of relations composition in rule-guided path

      其中,R(p|h,t)是給定實體對(h,t)間關(guān)系路徑p的可靠度,該可靠度可以由路徑約束資源分配機制(pathconstraint resource allocation,PCRA)[13]計算得到,μ(p)={μ1,μ2,…,μn}是規(guī)則R2的置信度的集合。

      對于邏輯規(guī)則的可解釋性,表2 展示了一些例子。表中前面部分為規(guī)則,后面部分為規(guī)則置信度。原本的關(guān)系路徑推理中,關(guān)系的合成通過關(guān)系向量間的計算,如加、減、乘和除得到,關(guān)系的推理則通過關(guān)系向量間的相似度計算等方法得到,由于是數(shù)值間的計算,可解釋性較差,而規(guī)則的引入則補足了這一點。由規(guī)則來指導(dǎo)路徑中關(guān)系的合成及關(guān)系推理,不僅增加了其正確性,也提高了其可解釋性。

      表2 規(guī)則R1和R2的例子Table 2 Examples of rules R1 and R2

      最后,設(shè)計了一種新的結(jié)合關(guān)系路徑信息和邏輯規(guī)則信息的三元組嵌入模型。模型公式如下:

      其中,E1(h,r,t)=||h+r-t||是TransE 模型的評分函數(shù)。這里使用TransE 模型的評分函數(shù)作為主嵌入函數(shù),使得可以將其替換為其他優(yōu)化后的翻譯模型或者引入輔助信息的翻譯模型。

      2.4 三元組可信度模塊

      受CKRL[12]和DSKRL(dissimilarity-support-aware knowledge representation learning)[39]模型的啟發(fā),在三元組可信度模塊中,對三元組的質(zhì)量進行判斷,計算三元組質(zhì)量的公式如下:

      在訓(xùn)練開始時,將所有三元組的局部三元組可信度LTT(h,r,t)初始化為1。在訓(xùn)練過程中,數(shù)值會發(fā)生變化。形式上,局部三元組可信度LTT(h,r,t)隨其三重質(zhì)量Q(h,r,t)變化如下:

      其中,η是確保LTT(h,r,t) >0和LTT(h,r,t) <1的超參數(shù)。LTT(h,r,t) 的值將以線性速率減小,因為當(dāng)Q(h,r,t) ≤0 時,這個三元組更可能包含噪聲,所以應(yīng)該具有較低的三元組可信度。

      此外,引入邏輯規(guī)則以加強對三元組質(zhì)量的判斷效果。具體的,利用規(guī)則R1 找到關(guān)系r的相似關(guān)系rR,然后將三元組(h,r,t)替換為(h,rR,t),進行質(zhì)量計算:

      其中,μ是規(guī)則R1的置信度。

      通過進一步計算三元組(h,r,t)的質(zhì)量后,三元組可信度LTT(h,r,t)也將隨之變化:

      其中,α是確保LTT(h,r,t) >0 和LTT(h,r,t) <1 的超參數(shù)。

      2.5 損失函數(shù)及優(yōu)化

      根據(jù)TransE[14]可以將RPKRL 的損失函數(shù)形式化為一組成對得分函數(shù)的和,該損失函數(shù)會使得正例三元組的得分低于負例三元組,損失函數(shù)公式如下:

      其中,λ是超參數(shù),T′表示負例三元組的集合,L1(h,r,t)、L2(p,r)是關(guān)于三元組(h,r,t)和路徑對(p,r)的損失函數(shù):

      其中,γ1和γ2是超參數(shù)。

      在訓(xùn)練過程中,由于知識圖譜中沒有顯式的負例三元組,將訓(xùn)練三元組中的實體或關(guān)系進行隨機替換,且替換后得到的負例三元組不在訓(xùn)練三元組集合中,負三元組采樣規(guī)則如下:

      對于優(yōu)化,使用小批量隨機梯度下降(stochastic gradient descent,SGD)來最小化損失函數(shù)。

      2.6 復(fù)雜度分析

      首先給出所使用的符號。NT是訓(xùn)練三元組的數(shù)量,NP是關(guān)系路徑的數(shù)量,NL是關(guān)系路徑的長度,Nr是規(guī)則的數(shù)量,K是實體和關(guān)系向量的維度。參考PTransE[13]給出的復(fù)雜度分析,在每個迭代循環(huán)中,TransE 的復(fù)雜度為O(NTK),PTransE 的復(fù)雜度為O(NTKNPNL)。RPKRL 模型使用了規(guī)則信息和關(guān)系路徑信息,復(fù)雜度為O(KNrNL)。

      3 實驗

      為驗證模型及其各部分的有效性,在公開數(shù)據(jù)集上進行了充分評測。

      3.1 數(shù)據(jù)集

      實驗驗證在FB15K 數(shù)據(jù)集上進行,F(xiàn)B15K 數(shù)據(jù)集是一個典型的基準知識圖譜,它是從現(xiàn)實世界中廣泛使用的大規(guī)模知識圖譜Freebase中提取出來的。在FB15K 數(shù)據(jù)集中,有14 951 個實體和1 345 個關(guān)系,以及對應(yīng)的592 213 個三元組。其中訓(xùn)練集含有483 142個三元組,驗證集含有50 000個三元組,測試集含有59 071 個三元組。大多數(shù)現(xiàn)實世界的知識圖都包含噪聲,但FB15K 中沒有明顯標記的噪聲,為此,使用了CKRL[14]的3個公開可用的數(shù)據(jù)集。3個數(shù)據(jù)集分別命名為FB15K-N1、FB15K-N2 和FB15KN3。它們之間的不同之處在于含有不同的噪聲率,分別為10%、20%和30%。

      事實上,現(xiàn)實世界知識圖譜中的許多噪音都源于同類實體之間的誤解[14]。它表明,在現(xiàn)實世界的知識圖譜中,噪聲(姚明,出生地,加拿大)比(姚明,出生地,足球)更有可能發(fā)生。具體來說,給定知識圖譜中的一個正例三元組(h,r,t),隨機地將相同類型的頭或尾實體與后者替換以形成負例三元組(h′,r,t)或(h,r,t′)。例如,正例三元組(姚明,出生地,中國)將被負例三元組(姚明,出生地,澳大利亞)或(姚明,出生地,英國)所替換。3 個含有噪聲的數(shù)據(jù)集與FB15K共享相同的實體、關(guān)系、驗證集和測試集。具體的數(shù)據(jù)如表3所示。

      表3 噪聲數(shù)據(jù)集統(tǒng)計Table 3 Statistics of noise datasets

      3.2 實驗設(shè)置

      選 擇TransE[14]、PTransE[13]、TransH[33]、TransR[34]、CKRL[12]和RPJE[38]作為不同實驗比較的基線。使用小批量SGD 訓(xùn)練RPKRL 模型。邊際γ1和γ2均被設(shè)置為1。將學(xué)習(xí)率δ設(shè)置為動態(tài),并在開始時從{0.001,0.002,0.003,0.004} 中選擇,最后在{0.000 1,0.000 2}中選擇。對于三元組可信度,下降控制速率η和α分別設(shè)置在{0.80,0.85,0.90} 和{0.10,0.01}之間。該模型的最優(yōu)配置是:δ以0.001 開始,以0.000 1 結(jié)尾,η=0.9,α=0.01,在驗證集上進行了優(yōu)化。為了進行公平比較,所有模型中實體和關(guān)系嵌入的維度均設(shè)置為50。

      3.3 知識圖譜噪聲檢測

      為了驗證RPKRL模型在檢測知識圖譜中存在的噪聲的性能,進行了知識圖譜噪聲檢測任務(wù)。該任務(wù)旨在基于三元組得分來檢測知識圖譜中可能存在的噪聲。

      3.3.1 評測準則

      使用TransE 的能量函數(shù)作為RPKRL 模型和基線模型的評分函數(shù),然后根據(jù)評分對訓(xùn)練集中所有的三元組進行排序。如果一個三元組得分較高,那么它更有可能是一個噪聲三元組。根據(jù)排名計算并繪制準確率和召回率曲線,以顯示RPKRL 模型和基線模型的噪聲檢測能力。

      3.3.2 實驗結(jié)果

      圖3~圖5 分別展示了模型在3 個數(shù)據(jù)集上的噪聲檢測性能結(jié)果,從中可以觀察到:(1)本研究模型RPKRL 在不同噪聲率(10%、20%、40%)的所有3 個數(shù)據(jù)集上都獲得了最好的性能。這有力地證明了其檢測知識圖譜中的噪聲的能力。(2)單純的路徑推理PTransE在噪聲檢測任務(wù)上表現(xiàn)非常差,RPKRL模型針對于此做出了改進,通過引入邏輯規(guī)則信息來指導(dǎo)關(guān)系路徑中關(guān)系的合成,實驗證明改進是有效的且實驗效果提升較大。

      圖3 FB15K-N1數(shù)據(jù)集上噪聲檢測結(jié)果Fig.3 Noise detection results on FB15K-N1 dataset

      圖4 FB15K-N2數(shù)據(jù)集上噪聲檢測結(jié)果Fig.4 Noise detection results on FB15K-N2 dataset

      圖5 FB15K-N3數(shù)據(jù)集上噪聲檢測結(jié)果Fig.5 Noise detection results on FB15K-N3 dataset

      3.4 知識圖譜補全

      知識圖譜補全注重于知識表示學(xué)習(xí)的質(zhì)量,其目標是在h、r和t中缺失任意一個的情況下補全三元組。

      3.4.1 評測準則

      本文主要關(guān)注實體預(yù)測。遵循TransE[14]中相同的設(shè)置,進行了兩個典型的度量:(1)正確答案的平均排名;(2)Hits@10 表示正確答案排在前10 位的實體。此外,遵循TransE[14]中使用的不同的評估設(shè)置“Raw”和“Filter”。

      3.4.2 實驗結(jié)果

      表4和表5展示了模型在3個數(shù)據(jù)集上的實體預(yù)測結(jié)果,可以發(fā)現(xiàn):在所有3個噪聲數(shù)據(jù)集上,RPKRL模型在所有評估指標上都優(yōu)于所有的基線模型,尤其是平均排名(Mean Rank)的提升幅度很大。與CKRL(LT+PP+AP)相比,RPKRL 平均提高55。這證實了RPKRL 模型所獲得的知識表示的質(zhì)量,因為它不僅可以檢測知識圖中的噪聲,在知識圖譜補全方面也具有更好的性能。

      表4 實體Mean Rank預(yù)測結(jié)果Table 4 Results of entity prediction on Mean Rank

      表5 實體Hits@10預(yù)測結(jié)果Table 5 Results of entity prediction on Hits@10 單位:%

      3.5 消融實驗

      為了衡量模型各個組件的影響,比較了當(dāng)模型處于不同子模塊設(shè)置時兩個任務(wù)的性能。RPKRL(RP)表示只考慮三元組嵌入而不考慮三元組可信度的策略。RPKRL(E1)表示在三元組嵌入模塊中只利用三元組本身結(jié)構(gòu)信息的策略。評測準則的執(zhí)行方式與以前相同。

      3.5.1 知識圖譜噪聲檢測結(jié)果

      圖6~圖8 分別展示了模型在3 個數(shù)據(jù)集上的噪聲檢測性能結(jié)果,從中可以觀察到:(1)RPKRL 在3個數(shù)據(jù)集上都取得了不錯的結(jié)果,這證實了模型中各個子模塊的有效性。(2)RPKRL 與RPKRL(E1)的效果差異隨著數(shù)據(jù)集噪聲率的增加,先增加后減少,這意味著模型需要隨著噪聲率的變化而進行調(diào)整。(3)RPKRL和RPKRL(E1)比RPKRL(RP)具有更好的性能,這在實際的噪聲檢測系統(tǒng)中更為重要,這意味著雖然僅僅靠三元組嵌入模塊已經(jīng)可以進行噪聲檢測,但三元組可信度模型的引入將大大提升這一效果。

      圖6 消融實驗:FB15K-N1數(shù)據(jù)集上噪聲檢測結(jié)果Fig.6 Ablation study:noise detection results on FB15K-N1 dataset

      圖7 消融實驗:FB15K-N2數(shù)據(jù)集上噪聲檢測結(jié)果Fig.7 Ablation study:noise detection results on FB15K-N2 dataset

      圖8 消融實驗:FB15K-N3數(shù)據(jù)集上噪聲檢測結(jié)果Fig.8 Ablation study:noise detection results on FB15K-N3 dataset

      3.5.2 知識圖譜補全結(jié)果

      表6和表7展示了模型在3個數(shù)據(jù)集上的實體預(yù)測結(jié)果,從中可以觀察到:(1)在所有3 個數(shù)據(jù)集上,RPKRL 都獲得了最佳的Hits@10,這意味著模型的每個子模塊都是有效的。(2)從表中看出,三元組可信度模塊的加入對于模型效果的提升是巨大的,這說明在進行補全預(yù)測時,多重判斷的設(shè)置極大地提升了路徑推理的準確性。

      表6 消融實驗-Mean RankTable 6 Ablation study-Mean Rank

      表7 消融實驗-Hits@10Table 7 Ablation study-Hits@10 單位:%

      3.6 案例分析

      本節(jié)給出一個具體的案例以顯示RPKRL模型在噪聲檢測方面的優(yōu)越性。遵循3.3.1 小節(jié)評測準則,在10%噪聲率的數(shù)據(jù)集(噪聲三元組共46 408 個,正例三元組共483 142 個,共529 550 個三元組)中選取一個噪聲三元組(The Motorcycle Diaries(film),/film/film/release_date_s./film/film_regional_release_date/film_release_region,Italy)。其中,The Motorcycle Diaries(film)是一部電影的名字,Italy 為一個國家的名字,該電影是在美國上映的,而不是意大利,因此這是一個噪聲三元組。

      采用TransE 的能量函數(shù)E(h,r,t)=|h+r-t|對該三元組進行判斷,RPKRL 模型得分為5.738 02,在噪聲檢測排名中為38 607 名;PTransE 模型得分為4.993 4,在噪聲檢測中排名為249 547;CKRL 模型得分為4.514 21,在噪聲檢測中排名為327 618??梢钥闯? 個模型中只有RPKRL 將其判斷為噪聲三元組,而后兩個模型將其判斷為正例三元組,且排名較為靠后,即后兩個模型認為該三元組是正例三元組的可能性很大。

      4 結(jié)束語

      本文提出了一種新的RPKRL 模型,旨在檢測知識圖譜中的噪聲,同時學(xué)習(xí)無噪聲的知識表示。該模型利用三元組的結(jié)構(gòu)信息和輔助信息(關(guān)系路徑信息和邏輯規(guī)則信息)來估計三元組的可信度得分。針對知識圖譜中的知識補全任務(wù)和噪聲檢測任務(wù),對模型進行了評估實驗。在三個公開數(shù)據(jù)集上的實驗結(jié)果表明,RPKRL 能夠很好地利用結(jié)構(gòu)信息和輔助信息來度量三元組可信度,這對噪聲檢測和表示學(xué)習(xí)具有重要意義。三元組可信度的利用對于真實世界中知識的構(gòu)建和噪聲檢測也是有用的。

      未來將探索以下研究方向:(1)增加更多的外部支持信息,以獲得更好的實體和關(guān)系的嵌入,這對知識驅(qū)動的任務(wù)有積極的影響;(2)將可信度應(yīng)用于知識構(gòu)建中的噪聲檢測,以從根源降低噪聲。

      猜你喜歡
      三元組集上圖譜
      基于帶噪聲數(shù)據(jù)集的強魯棒性隱含三元組質(zhì)檢算法*
      特征標三元組的本原誘導(dǎo)子
      繪一張成長圖譜
      Cookie-Cutter集上的Gibbs測度
      鏈完備偏序集上廣義向量均衡問題解映射的保序性
      關(guān)于余撓三元組的periodic-模
      復(fù)扇形指標集上的分布混沌
      補腎強身片UPLC指紋圖譜
      中成藥(2017年3期)2017-05-17 06:09:01
      主動對接你思維的知識圖譜
      三元組輻射場的建模與仿真
      永城市| 广平县| 化隆| 尼木县| 阳朔县| 抚州市| 延寿县| 巩留县| 长顺县| 芜湖市| 广南县| 嵊泗县| 丰都县| 墨脱县| 崇仁县| 岢岚县| 平阴县| 霍邱县| 景谷| 石台县| 新蔡县| 布尔津县| 沈丘县| 东乌| 阿尔山市| 临潭县| 清徐县| 湘潭市| 观塘区| 武宁县| 科技| 泾阳县| 东山县| 兰溪市| 合水县| 鹿邑县| 铜梁县| 比如县| 上饶市| 凉山| 皮山县|