張釗 吉建民 陳小平
摘 要:知識(shí)表示學(xué)習(xí)目的是將知識(shí)圖譜中符號(hào)化表示的關(guān)系與實(shí)體嵌入到低維連續(xù)向量空間。知識(shí)表示模型在訓(xùn)練過(guò)程中需要大量負(fù)樣本,但多數(shù)知識(shí)圖譜只以三元組的形式存儲(chǔ)正樣本。傳統(tǒng)知識(shí)表示學(xué)習(xí)方法中通常使用負(fù)采樣方法,這種方法生成的負(fù)樣本很容易被模型判別,隨著訓(xùn)練的進(jìn)行對(duì)性能提升的貢獻(xiàn)也會(huì)越來(lái)越小。為了解決這個(gè)問(wèn)題,提出了對(duì)抗式負(fù)樣本生成器(ANG)模型。生成器采用編碼解碼架構(gòu),編碼器讀入頭或尾實(shí)體被替換的正樣本作為上下文信息,然后解碼器利用編碼器提供的編碼信息為三元組填充被替換的實(shí)體,從而構(gòu)建負(fù)樣本。訓(xùn)練過(guò)程采用已有的知識(shí)表示學(xué)習(xí)模型與生成器進(jìn)行對(duì)抗訓(xùn)練以優(yōu)化知識(shí)表示向量。在鏈接預(yù)測(cè)和三元組分類任務(wù)上評(píng)估了該方法,實(shí)驗(yàn)結(jié)果表明該方法對(duì)已有知識(shí)表示學(xué)習(xí)模型在FB15K237、WN18和WN18RR數(shù)據(jù)集上的鏈接預(yù)測(cè)平均排名與三元組分類準(zhǔn)確度都有提升。
關(guān)鍵詞:知識(shí)表示學(xué)習(xí);知識(shí)圖譜;生成對(duì)抗網(wǎng)絡(luò);深度學(xué)習(xí);知識(shí)圖譜嵌入
中圖分類號(hào):TP391.1
文獻(xiàn)標(biāo)志碼:A
Adversarial negative sample generation for knowledge representation learning
ZHANG Zhao, JI Jianmin*, CHEN Xiaoping
School of Computer Science and Technology, University of Science and Technology of China, Hefei Anhui 230027, China
Abstract:
Knowledge graph embedding is to embed symbolic relations and entities of the knowledge graph into low dimensional continuous vector space. Despite the requirement of negative samples for training knowledge graph embedding models, only positive examples are stored in the form of triplets in most knowledge graphs. Moreover, negative samples generated by negative sampling of conventional knowledge graph embedding methods are easy to be discriminated by the model and contribute less and less as the training going on. To address this problem, an Adversarial Negative Generator (ANG) model was proposed. The generator applied the encoder-decoder pipeline, the encoder readed in positive triplets whose head or tail entities were replaced as context information,
and then the decoder filled in the triplets of the replaced entities coding information provided by the encoder,
and then the decoder filled the replaced entity with the triplet using the encoding information provided by the encoder,
and then the decoder filled the triplets of the replaced entities coding information provided by the encoder,
so as to generate negative samples. Several existing knowledge graph embedding models were used to play an adversarial game with the proposed generator to optimize the knowledge representation vectors. By comparing with existing knowledge graph embedding models, it can be seen that the proposed method has better mean ranking of link prediction and more accurate triple classification result on FB15K237, WN18 and WN18RR datasets.
Key words:
knowledge representation learning; knowledge graph; generative adversarial network; deep learning; knowledge graph embedding
0 引言
知識(shí)圖譜(Knowledge Graph, KG)是由一系列相互關(guān)聯(lián)的實(shí)體節(jié)點(diǎn)組成的網(wǎng)絡(luò),通常以三元組(頭實(shí)體,關(guān)系,尾實(shí)體)的形式表示,表示頭實(shí)體和尾實(shí)體之間存在一條關(guān)系。近年來(lái)有很多大型知識(shí)圖譜被構(gòu)建出來(lái),比如 WordNet[1]、DBpedia[2]、Freebase[3]。而大型知識(shí)圖譜面臨的一個(gè)主要問(wèn)題就是由知識(shí)圖譜中稀疏離散表示的知識(shí)導(dǎo)致的高計(jì)算復(fù)雜性,同時(shí)也很難衡量知識(shí)的相似性與相關(guān)性。所以近年來(lái)有大量工作關(guān)注知識(shí)表示學(xué)習(xí)(如TransE[4]、TransH[5]、TransD[6]、DistMult[7]、ComplEx[8]等),這些工作為知識(shí)圖譜補(bǔ)全和關(guān)系抽取等任務(wù)提供了大量便利。知識(shí)表示學(xué)習(xí)目標(biāo)是將知識(shí)圖譜中的實(shí)體和關(guān)系嵌入到低維連續(xù)向量空間,同時(shí)由分值函數(shù)計(jì)算知識(shí)的可信度。在訓(xùn)練模型時(shí),需要正樣本和負(fù)樣本進(jìn)行判別訓(xùn)練并對(duì)結(jié)果進(jìn)行排序。然而考慮到存儲(chǔ)空間利用率,大部分知識(shí)圖譜僅存儲(chǔ)正樣本,所以傳統(tǒng)的知識(shí)表示學(xué)習(xí)模型多數(shù)采用負(fù)采樣[4]的方式構(gòu)建負(fù)樣本。在這種方法下,三元組的頭實(shí)體或者尾實(shí)體被從實(shí)體集合中隨機(jī)采樣得到的新實(shí)體替換,從而構(gòu)成負(fù)樣本。采樣過(guò)程一般遵循實(shí)體集合上的均勻分布或者伯努利分布。這種方法簡(jiǎn)單而高效,但是由于知識(shí)圖譜的稀疏性問(wèn)題,隨機(jī)采樣得到的絕大部分實(shí)體很難與正樣本中的關(guān)系與實(shí)體組成一個(gè)可信樣本,比如對(duì)正樣本(合肥,位于,安徽)通過(guò)負(fù)采樣得到的負(fù)樣本可以是(合肥,位于,香蕉),這些低質(zhì)量的三元組可以很容易被模型判別,導(dǎo)致代價(jià)函數(shù)快速收斂甚至隨著訓(xùn)練過(guò)程的進(jìn)行無(wú)法對(duì)提升模型性能提供幫助。
近年來(lái)在生成對(duì)抗網(wǎng)絡(luò)(Generative Adversarial Network, GAN)[9]的啟發(fā)下,部分工作開始使用對(duì)抗式訓(xùn)練框架生成負(fù)樣本。KBGAN[10]使用兩個(gè)不同的知識(shí)表示模型作為生成器與判別器進(jìn)行對(duì)抗訓(xùn)練來(lái)優(yōu)化知識(shí)表示。用于負(fù)采樣的生成式對(duì)抗網(wǎng)絡(luò)(Generative Adversarial Net For NEGative sampling, GAN4NEG)[11]關(guān)注基于翻譯距離的知識(shí)表示學(xué)習(xí)模型中零損失的問(wèn)題。本文提出了一種對(duì)抗式負(fù)樣本生成器(Adversarial Negative Generator, ANG)用于生成負(fù)樣本,同時(shí)使用已有知識(shí)表示學(xué)習(xí)模型作判別器在對(duì)抗式訓(xùn)練框架下進(jìn)行對(duì)抗訓(xùn)練。針對(duì)鏈接預(yù)測(cè)和三元組分類兩個(gè)任務(wù)在FB15K237[12]、WN18[4]、WN18RR[13]三個(gè)數(shù)據(jù)集上進(jìn)行了實(shí)驗(yàn),結(jié)果表明本文方法在鏈接預(yù)測(cè)(Link prediction)平均排名(Mean Ranking, MR)和三元組分類(Triple Classification)準(zhǔn)確度上有明顯提升。
1 知識(shí)表示學(xué)習(xí)相關(guān)工作
知識(shí)表示學(xué)習(xí)目標(biāo)是為知識(shí)圖譜中以三元組(h,r,t) 表示的知識(shí)建模,將其實(shí)體與關(guān)系嵌入到低維連續(xù)向量空間中。在知識(shí)表示模型中,關(guān)系被定義為頭實(shí)體和尾實(shí)體之間的映射,通過(guò)一個(gè)分值函數(shù)f(h,r,t)對(duì)每個(gè)三元組計(jì)算可信度分值,存在于知識(shí)圖譜中的三元組(正樣本)會(huì)比不存在的三元組(負(fù)樣本)分值高。
目前主要有兩類知識(shí)表示學(xué)習(xí)模型:翻譯距離(Translation Distance)模型和語(yǔ)義匹配(Semantic Matching)模型。TransE首先引入了基于翻譯距離的分值函數(shù),在這種模型下,關(guān)系向量r被視作從頭實(shí)體h到尾實(shí)體t的翻譯,當(dāng)h+r與t距離越小時(shí),三元組可信度越高。TransH在其基礎(chǔ)上作了擴(kuò)展,使其更適用于一對(duì)多,多對(duì)多等復(fù)雜關(guān)系建模。另外還有很多TransE模型的變體在不同方面提升了性能,比如TransD、TransR[14]。RESCAL[15]是比較早期使用基于語(yǔ)義匹配的分值函數(shù)的工作之一,這類模型也被稱作矩陣分解模型。在這類模型中,關(guān)系向量被視為頭實(shí)體與尾實(shí)體之間的映射矩陣,用h Mr t矩陣乘積來(lái)衡量三元組可信度,ComplEx、DistMult和HolE[16]是這一類方法的變體。同時(shí)也有許多其他類型的模型使用神經(jīng)網(wǎng)絡(luò)來(lái)擬合分值函數(shù)比如NTN[17]和ConvE[18]等。
在知識(shí)表示模型訓(xùn)練過(guò)程中需要正樣本和負(fù)樣本,模型通過(guò)對(duì)正樣本和負(fù)樣本打分并排序計(jì)算代價(jià)函數(shù),同時(shí)優(yōu)化知識(shí)表示向量。由于大多數(shù)知識(shí)圖譜不提供負(fù)樣本,上述模型都是采用負(fù)采樣方法生成,但是這一方法很難生成高質(zhì)量的負(fù)樣本。KBGAN首先提出使用生成對(duì)抗網(wǎng)絡(luò)進(jìn)行知識(shí)表示模型訓(xùn)練。在KBGAN中,用預(yù)訓(xùn)練的語(yǔ)義匹配模型作為生成器,用預(yù)訓(xùn)練的翻譯距離模型作為判別器進(jìn)行對(duì)抗式訓(xùn)練,最終采用判別器中的知識(shí)表示向量進(jìn)行評(píng)估。在GAN4NEG中,作者提出翻譯距離模型中使用負(fù)采樣方法會(huì)導(dǎo)致零損失問(wèn)題,也就是隨著訓(xùn)練的進(jìn)行,由于分值較差的負(fù)樣本很快被排到正確的位置,正負(fù)樣本之間的區(qū)別幾乎與負(fù)樣本無(wú)關(guān),導(dǎo)致?lián)p失函數(shù)降為零。他們使用一個(gè)兩層全連接神經(jīng)網(wǎng)絡(luò)作為生成器為正樣本生成相應(yīng)負(fù)樣本?;陬愃频南敕ǎ珹CE(Adversarial Constrastive Estimation)[19]為自然語(yǔ)言處理中常用的噪聲對(duì)比估計(jì)方法,提出了一個(gè)更通用的對(duì)抗式負(fù)采樣方法。但是由于經(jīng)典生成對(duì)抗網(wǎng)絡(luò)是為生成連續(xù)的數(shù)據(jù)設(shè)計(jì)的,在梯度反向傳播時(shí)要求完全可微分,而生成實(shí)體時(shí)采樣過(guò)程阻斷了梯度的反向傳播。為了將生成對(duì)抗網(wǎng)絡(luò)擴(kuò)展為支持生成離散自然語(yǔ)言詞組,很多自然語(yǔ)言生成工作[19-21]以及上述模型都使用REINFORCE[22]方法來(lái)完成梯度反向傳播。
2 對(duì)抗式知識(shí)表示學(xué)習(xí)
2.1 符號(hào)約定
本文中使用E代表知識(shí)圖譜中的實(shí)體集合,R代表關(guān)系集合,ξ和ξ′代表正樣本(h,r,t)和對(duì)應(yīng)的負(fù)樣本。S代表一組三元組ξ,其中h,t∈E, r∈R,S中ξ對(duì)應(yīng)的負(fù)樣本集合表示如下:
S′ξ={(h′,r,t)|h′∈E}∪{(h,r,t′)|t′∈E}
2.2 目標(biāo)知識(shí)表示模型
為了檢驗(yàn)對(duì)抗式負(fù)樣本生成器的性能,本文實(shí)現(xiàn)了幾個(gè)代表性的基于翻譯距離的模型(TransE[4],TransH[5],TransD[6])和基于語(yǔ)義匹配的模型(ComplEx[8], DistMult[7])作為判別器,也作為知識(shí)表示目標(biāo)模型。判別器內(nèi)部的知識(shí)表示向量用于模型的評(píng)估。它們的分值函數(shù)在表1中說(shuō)明。
翻譯距離模型使用基于距離的分值函數(shù)來(lái)估計(jì)三元組的置信度。在這類模型中關(guān)系作為頭實(shí)體和尾實(shí)體之間的翻譯向量,分值函數(shù)越小意味著置信度越高,同時(shí)使用Margin Ranking Loss作為損失函數(shù):
LD=∑ξ∈S∑ξ′∈S′ξ[f(ξ)-f(ξ′)+γ]+(1)
其中:[x]+ 表示x的絕對(duì)值,γ表示間隔(margin)距離。
語(yǔ)義匹配模型使用基于語(yǔ)義相似度的分值函數(shù)。在這類模型中關(guān)系被表示為一個(gè)矩陣,代表了頭實(shí)體與尾實(shí)體之間的相互關(guān)系。這類模型使用Logistic Loss作為損失函數(shù):
LD=∑ξ∈S∑ξ′∈S′ξ[l(+1, f(ξ))+l(-1, (ξ′))](2)
其中l(wèi)(β,x)是Softplus激活函數(shù):
l(β,x)=1β*ln(1+exp(β*x)) (3)
在這兩類模型的原始實(shí)現(xiàn)中,S′ξ都是使用負(fù)采樣方法構(gòu)建的;而在本文的對(duì)抗式訓(xùn)練框架中,S′ξ是由生成器提供的,這一生成器可以更好地利用正樣本中的信息來(lái)生成置信度更高的負(fù)樣本。使用上述模型作為判別器,通過(guò)對(duì)抗訓(xùn)練優(yōu)化LD,同時(shí)使用分值函數(shù)來(lái)估計(jì)ξ′的回報(bào):
RD=-f(ξ′)(4)
2.3 對(duì)抗式負(fù)樣本生成器
為了給判別器提供高質(zhì)量的負(fù)樣本,生成器需要使用對(duì)應(yīng)的正樣本作為額外信息。在MaskGAN[21]的啟發(fā)下,本文的生成器采用了一個(gè)基于Seq2Seq[23]的編碼解碼架構(gòu),如圖1。示例中實(shí)體到解碼器(decoder)表示的是采樣過(guò)程,是補(bǔ)全的尾實(shí)體,〈s〉表示的是開始解碼的標(biāo)志。
訓(xùn)練過(guò)程中,對(duì)每一批正樣本中的三元組,用〈m〉標(biāo)記以相同的概率替換其頭或者尾實(shí)體(非同時(shí)替換),表示為m(ξ′)。m(ξ′)作為一個(gè)由雙向GRU[24]組成的編碼器(encoder)的輸入,編碼成正樣本的向量表示。解碼器(decoder)的目的是根據(jù)標(biāo)記補(bǔ)全m(ξ′)中缺失的部分,其為由一個(gè)單層GRU單元和一個(gè)全連接層組成的神經(jīng)網(wǎng)絡(luò),輸入是編碼器編碼得到的正樣本隱藏表示向量以及上一個(gè)時(shí)間步中編碼器輸出的實(shí)體或關(guān)系標(biāo)記。編碼器按順序在頭實(shí)體,關(guān)系與尾實(shí)體上解構(gòu)其條件分布,經(jīng)過(guò)softmax激活函數(shù)后,解碼器根據(jù)輸出的概率分布采樣得到正樣本中以〈m〉表示的缺失的實(shí)體t,補(bǔ)全的實(shí)體在圖1中用表示,然后補(bǔ)全的三元組ξ′作為負(fù)樣本。然而,由于采樣過(guò)程會(huì)導(dǎo)致輸出不可微,從而無(wú)法進(jìn)行梯度反向傳播,所以需要使用策略梯度[25](Policy Gradients)方法進(jìn)行訓(xùn)練。訓(xùn)練目標(biāo)定義為最大化生成實(shí)體填充的負(fù)樣本對(duì)應(yīng)的回報(bào)(Reward)期望,如下:
EG[RD]=Eξ′~G(m(ξ;θ))RD(ξ′)
θEG[RD]=RD(ξ′)θ ln p(ξ′|ξ;θ)=
-f(ξ′)θ ln p(ξ′|ξ;θ)
(5)
在標(biāo)準(zhǔn)的強(qiáng)化學(xué)習(xí)算法中,本文的生成器可以看作其中的策略網(wǎng)絡(luò),判別器可以看作值網(wǎng)絡(luò),生成器內(nèi)部表示策略分布,輸入的正樣本可以看作強(qiáng)化學(xué)習(xí)中的狀態(tài)(state),輸出補(bǔ)全的負(fù)樣本可以看作策略網(wǎng)絡(luò)輸出的動(dòng)作(action)。判別器為選擇的動(dòng)作進(jìn)行評(píng)估,給出回報(bào)(reward),然后通過(guò)策略梯度方式進(jìn)行反向傳播。整個(gè)訓(xùn)練過(guò)程優(yōu)化目標(biāo)是最大化策略網(wǎng)絡(luò)輸出動(dòng)作的分值期望。
2.4 對(duì)抗式訓(xùn)練框架
首先對(duì)生成器使用極大似然估計(jì)進(jìn)行預(yù)訓(xùn)練,即最大化生成器還原輸入正樣本的概率。然后使用對(duì)抗式訓(xùn)練框架對(duì)生成器和目標(biāo)知識(shí)表示學(xué)習(xí)模型進(jìn)行訓(xùn)練,訓(xùn)練算法如算法 1所示。
算法1 用于知識(shí)表示學(xué)習(xí)的生成式對(duì)抗訓(xùn)練算法。
輸入:預(yù)訓(xùn)練的生成器G,判別器D,訓(xùn)練集S={(h,r,t)} ;
輸出:從D中學(xué)習(xí)得到的知識(shí)表示向量。
有序號(hào)的程序——————————Shift+Alt+Y
程序前
1)
Loop
2)
For G steps do
3)
從S中采樣一批正樣本Spos
4)
For each ξ∈Spos
5)
通過(guò)用〈m〉替換ξ中的h或t構(gòu)建m(ξ)
6)
生成器G通過(guò)編碼m(ξ),生成負(fù)樣本ξ′加入到負(fù)樣本集合Sneg中
7)
End for
8)
判別器D用式(4)計(jì)算Rξ′
9)
用式(5)更新Gθ
10)
End for
11)
判別器D用Spos和Sneg通過(guò)式(1)和式(2)計(jì)算LD
12)
通過(guò)DθLD 更新Dθ
13)
End loop
程序后
由于生成器在整個(gè)知識(shí)庫(kù)實(shí)體集合上估計(jì)條件概率分布,生成的負(fù)樣本可能仍存在于知識(shí)庫(kù)三元組集合中,這類負(fù)樣本不能被視為錯(cuò)誤的三元組,否則會(huì)誤導(dǎo)目標(biāo)知識(shí)表示模型的訓(xùn)練。在傳統(tǒng)的負(fù)采樣算法中,為了避免這種情況是通過(guò)重采樣來(lái)過(guò)濾錯(cuò)誤的負(fù)樣本的,由于知識(shí)庫(kù)的稀疏性,隨機(jī)重采樣得到的負(fù)樣本為正樣本的概率很小。然而在本文的方法中,由于生成負(fù)樣本時(shí)考慮了正樣本作為額外信息,采樣得到的負(fù)樣本實(shí)際為正樣本的概率不可忽略,因?yàn)檎龢颖痉种岛瘮?shù)更高,也意味著其回報(bào)更高。所以本文在訓(xùn)練時(shí)給此類假負(fù)樣本一個(gè)較大的負(fù)的回報(bào)作為懲罰,并強(qiáng)制其不參與目標(biāo)知識(shí)表示模型的訓(xùn)練。
同時(shí)模式崩潰也是生成對(duì)抗網(wǎng)絡(luò)中常見的問(wèn)題。模式崩潰的意思是隨著訓(xùn)練的進(jìn)行,生成器所生成的候選實(shí)體很快集中到很少的幾個(gè)樣本,在這種情況下由于負(fù)采樣方法可以采樣到更大范圍的樣本,本文的方法可能會(huì)弱于負(fù)采樣方法。為了避免這種問(wèn)題,本文使用了 ε-greedy[26]策略來(lái)平衡生成器探索與利用負(fù)樣本的過(guò)程。
3 實(shí)驗(yàn)方案與結(jié)果分析
在鏈接預(yù)測(cè)(Link Prediction)和三元組分類(Triple Classification)任務(wù)上評(píng)估了本文方法,在實(shí)驗(yàn)中使用了三個(gè)翻譯距離模型和兩個(gè)語(yǔ)義匹配模型與生成器進(jìn)行對(duì)抗式訓(xùn)練,實(shí)驗(yàn)使用判別器的實(shí)體關(guān)系表示向量進(jìn)行評(píng)估。
3.1 數(shù)據(jù)集
在實(shí)驗(yàn)中使用了3個(gè)知識(shí)表示學(xué)習(xí)中的常用數(shù)據(jù)集:FB15K237、WN18和WN18RR,數(shù)據(jù)集詳細(xì)數(shù)據(jù)如表2。
3.2 實(shí)現(xiàn)細(xì)節(jié)
在預(yù)訓(xùn)練階段使用極大似然法(Maximum Likelihood Estimation, MLE)訓(xùn)練生成器,根據(jù)在驗(yàn)證集上的三元組預(yù)測(cè)準(zhǔn)確率選擇最佳模型,在WN18和WN18RR數(shù)據(jù)集上實(shí)體和關(guān)系向量維度為50,在FB15K237上維度為100,優(yōu)化器使用Adam[27]。
在對(duì)抗式訓(xùn)練環(huán)節(jié),ε范圍是1.0到0.4,間隔γ在FB15K237上為1.0,在WN18和WN18RR上為3.0,生成器優(yōu)化器為SGD,學(xué)習(xí)率為0.01。判別器的優(yōu)化器翻譯距離模型選擇Adam,使用默認(rèn)參數(shù),語(yǔ)義匹配模型選擇Adagrad[28],WN18和WN18RR的學(xué)習(xí)率為0.1,F(xiàn)B15K237的學(xué)習(xí)率為0.01。實(shí)驗(yàn)運(yùn)行了1000輪,每一輪將訓(xùn)練集劃分為100個(gè)批次訓(xùn)練。
3.3 實(shí)驗(yàn)結(jié)果
3.3.1 鏈接預(yù)測(cè)
鏈接預(yù)測(cè)(Link Prediction)是知識(shí)庫(kù)補(bǔ)全中的一項(xiàng)主要任務(wù),其目的是為給定的三元組預(yù)測(cè)缺失的頭或尾實(shí)體。鏈接預(yù)測(cè)主要是通過(guò)為一系列從知識(shí)庫(kù)取出的候選實(shí)體評(píng)分并進(jìn)行排序來(lái)評(píng)價(jià)模型性能。
實(shí)驗(yàn)中,首先輪流將測(cè)試集三元組的頭實(shí)體替換為E中的所有實(shí)體,然后為每一個(gè)生成的三元組評(píng)分并降序排列,然后在尾實(shí)體上實(shí)施相同的過(guò)程。每一組排序結(jié)果中正確的三元組被記錄下來(lái),測(cè)試完成后將正確三元組的平均排名(Mean Rank, MR)以及正確三元組排序在前10%的比例(HIts@10)作為評(píng)價(jià)標(biāo)準(zhǔn)。由于某些生成的三元組可能也是正確的三元組(存在于S),這會(huì)導(dǎo)致某些生成的三元組會(huì)比所預(yù)測(cè)的三元組排名要高,而實(shí)際上這種情況不能說(shuō)生成的三元組應(yīng)該比所預(yù)測(cè)的三元組置信度更高,所以將排名中的正確三元組過(guò)濾掉作為最終結(jié)果。
表3列出了本文模型與基準(zhǔn)模型和相關(guān)方法(KBGAN、GAN4NEG)在鏈接預(yù)測(cè)任務(wù)上不同數(shù)據(jù)集的性能對(duì)比。粗體表示的是對(duì)比實(shí)驗(yàn)中的最優(yōu)結(jié)果,下劃線表示的是次優(yōu)結(jié)果。
表中表3中原始基準(zhǔn)模型在WN18數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果都是從原始論文中獲得,在FB15K237和WN18RR上的結(jié)果是使用OpenKE[29]工具包在與本實(shí)驗(yàn)相同的參數(shù)設(shè)置下得到,相關(guān)模型KBGAN的結(jié)果是用作者提供的代碼在其預(yù)設(shè)參數(shù)下訓(xùn)練得到,GAN4NEG作者沒有提供代碼,所以僅列出其在WN18上的實(shí)驗(yàn)結(jié)果。KBGAN和GAN4NEG實(shí)驗(yàn)結(jié)果都是在有預(yù)訓(xùn)練的情況下得到。從結(jié)果可以看出,ANG模型在平均排名(MR)評(píng)價(jià)標(biāo)準(zhǔn)上超過(guò)了大部分基準(zhǔn)模型與相關(guān)方法,Hits@10評(píng)價(jià)標(biāo)準(zhǔn)也在大部分實(shí)驗(yàn)設(shè)置中比基準(zhǔn)模型表現(xiàn)好。在Hits@10標(biāo)準(zhǔn)中,由于本模型中生成器輸出的采樣空間為整個(gè)知識(shí)庫(kù)實(shí)體集合,而KBGAN和GAN4NEG中都是在生成器輸入前從實(shí)體集合中隨機(jī)挑選一個(gè)較小的候選實(shí)體集合,然后生成器在候選集合中挑選條件概率最大的實(shí)體,所以其在訓(xùn)練過(guò)程中可以更好地對(duì)排名相近的三元組進(jìn)行判別,而本文方法采樣空間更大,所以對(duì)最終正樣本平均排名(MR)優(yōu)化效果更好。
3.3.2 三元組分類
三元組分類(Triple Classification)目的是判斷給定三元組(h,r,t)是正樣本還是負(fù)樣本,也即是否存在于知識(shí)圖譜中。由于標(biāo)準(zhǔn)測(cè)試集中不存在負(fù)樣本,所以本文使用了與NTN[15]中相同的方法來(lái)構(gòu)建測(cè)試集中的負(fù)樣本。首先將測(cè)試集中三元組的頭尾交換,然后根據(jù)交換后的實(shí)體是否在數(shù)據(jù)集中相應(yīng)位置上出現(xiàn)過(guò)進(jìn)行過(guò)濾,得到的三元組作為負(fù)樣本,然后為驗(yàn)證集進(jìn)行同樣操作得到驗(yàn)證集中的負(fù)樣本。進(jìn)行三元組分類測(cè)試時(shí),首先在驗(yàn)證集上進(jìn)行分類測(cè)試,為每個(gè)關(guān)系r最大化分類準(zhǔn)確率得到分類閾值δr,測(cè)試三元組(h,r,t)分值大于閾值δr時(shí)分類為正,否則為負(fù)。訓(xùn)練過(guò)程中使用驗(yàn)證集測(cè)試模型效果,然后在測(cè)試集上給出三元組分類準(zhǔn)確率。
表4列出了本文模型和基準(zhǔn)模型在三元組分類任務(wù)上的結(jié)果對(duì)比。由于相關(guān)方法KBGAN和GAN4NEG中沒有給出在這三個(gè)數(shù)據(jù)集上三元組分類的結(jié)果,在此不作比較。實(shí)驗(yàn)表明,在大多數(shù)數(shù)據(jù)集上,ANG的表現(xiàn)都要明顯好于基準(zhǔn)模型。
4 結(jié)語(yǔ)
本文提出了一種用于知識(shí)表示學(xué)習(xí)的對(duì)抗式負(fù)樣本生成器(ANG),ANG可以在傳統(tǒng)知識(shí)表示學(xué)習(xí)模型訓(xùn)練過(guò)程中提供高質(zhì)量的負(fù)樣本,避免了負(fù)采樣方法導(dǎo)致的模型快速收斂、模型難以優(yōu)化的問(wèn)題,同時(shí)實(shí)現(xiàn)了對(duì)抗式訓(xùn)練框架用于訓(xùn)練傳統(tǒng)知識(shí)表示學(xué)習(xí)模型,通過(guò)生成器與目標(biāo)模型的對(duì)抗式訓(xùn)練提升模型性能。由于訓(xùn)練框架與模型無(wú)關(guān),本文提出的生成器與訓(xùn)練框架也可擴(kuò)展用于其他知識(shí)表示學(xué)習(xí)模型的訓(xùn)練。在鏈接預(yù)測(cè)和三元組分類任務(wù)上評(píng)估了本文模型,實(shí)驗(yàn)結(jié)果表明通過(guò)在生成負(fù)樣本時(shí)使用正樣本提供的信息可以有效提高負(fù)樣本生成的質(zhì)量,為模型優(yōu)化提供更好的負(fù)樣本數(shù)據(jù)。
目前本文方法在鏈接預(yù)測(cè)Hits@10評(píng)價(jià)標(biāo)準(zhǔn)上弱于同類生成式算法,主要由于生成器采樣空間較大,采樣效率較低,為提高這一指標(biāo)可以考慮壓縮生成器實(shí)體采樣空間,或者使用深度強(qiáng)化學(xué)習(xí)中經(jīng)驗(yàn)池的方法對(duì)生成空間進(jìn)行多次采樣以加速優(yōu)化生成器實(shí)體概率分布。
參考文獻(xiàn)
[1]MILLER G A. WordNet: a lexical database for English [J]. Communications of the ACM, 1995, 38(11): 39-41.
[2]AUER S, BIZER C, KOBILAROV G, et al. DBpedia: a nucleus for a Web of open data [C]// Proceedings of the 2007 International Semantic Web Conference, LNCS 4825. Berlin: Springer, 2007: 722-735.
[3]BOLLACKER K, EVANS C, PARITOSH P, et al. Freebase: a collaboratively created graph database for structuring human knowledge [C]// Proceedings of the 2008 ACM SIGMOD International Conference on Management of Data. New York: ACM, 2008: 1247-1250.
[4]BORDES A, USUNIER N, GARCIA-DURAN A, et al. Translating embeddings for modeling multi-relational data [C]// Proceedings of the 2013 Advances in Neural Information Processing Systems. 2013: 2787-2795.
BORDES A, USUNIER N, GARCIA-DURN A, et al. Translating embeddings for modeling multi-relational data [EB/OL]. [2019-01-06]. http://citeseerx.ist.psu.edu/viewdoc/download?doi=10.1.1.447.6132&rep=rep1&type=pdf.
[5]WANG Z, ZHANG J, FENG J, et al. Knowledge graph embedding by translating on hyperplanes [C]// AAAI ‘14: Proceedings of the 28th AAAI Conference on Artificial Intelligence. Menlo Park, CA: AAAI Press, 2014: 1112-1119.
[6]JI G, HE S, XU L, et al. Knowledge graph embedding via dynamic mapping matrix [C]// Proceedings of the 53rd Annual Meeting of the Association for Computational Linguistics and the 7th International Joint Conference on Natural Language Processing. Stroudsburg, PA: Association for Computational Linguistics, 2015, 1: 687-696.
[7]YANG B, YIH W, HE X, et al. Embedding entities and relations for learning and inference in knowledge bases [J]. arXiv preprint arXiv:1412.6575, 2014.
YANG B, YIH W, HE X, et al. Embedding entities and relations for learning and inference in knowledge bases [EB/OL]. [2019-01-06]. https://arxiv.org/pdf/1412.6575.pdf.
[8]TROUILLON T, WELBL J, RIEDEL S, et al. Complex embeddings for simple link prediction [C]// International Conference on Machine Learning. 2016: 2071-2080.
TROUILLON T, WELBL J, RIEDEL S, et al. Complex embeddings for simple link prediction [EB/OL]. [2019-01-06]. https://arxiv.org/pdf/1606.06357.pdf.
[9]GOODFELLOW I, POUGET-ABADIE J, MIRZA M, et al. Generative adversarial nets [C]// NIPS ‘14: Proceedings of the 27th International Conference on Neural Information Processing Systems. Cambridge, MA: MIT Press, 2014, 2: 2672-2680.
[10]CAI L, WANG W Y. KBGAN: adversarial learning for knowledge graph embeddings [C]// Proceedings of the 2018 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies, Volume 1 (Long Papers). 2018: 1470-1480.
CAI L, WANG W Y. KBGAN: adversarial learning for knowledge graph embeddings [EB/OL]. [2019-01-08]. https://arxiv.org/pdf/1711.04071.pdf.
[11]WANG P, LI S, PAN R. Incorporating GAN for negative sampling in knowledge representation learning [C]// Thirty-Second AAAI Conference on Artificial Intelligence. 2018.
WANG P, LI S, PAN R. Incorporating GAN for negative sampling in knowledge representation learning [EB/OL]. [2019-01-08]. https://arxiv.org/pdf/1809.11017.pdf.
[12]TOUTANOVA K, CHEN D. Observed versus latent features for knowledge base and text inference [C]// Proceedings of the 3rd Workshop on Continuous Vector Space Models and their Compositionality. 2015: 57-66.
TOUTANOVA K, CHEN D. Observed versus latent features for knowledge base and text inference [EB/OL]. [2019-01-08]. http://citeseerx.ist.psu.edu/viewdoc/download;jsessionid=332E017631F63128927CF06ABF216792?doi=10.1.1.709.9449&rep=rep1&type=pdf.
[13]DETTMERS T, MINERVINI P, STENETORP P, et al. Convolutional 2D knowledge graph embeddings [C]// Thirty-Second AAAI Conference on Artificial Intelligence. 2018.
DETTMERS T, MINERVINI P, STENETORP P, et al. Convolutional 2D knowledge graph embeddings [EB/OL]. [2019-01-08]. https://arxiv.org/pdf/1707.01476.pdf.
[14]LIN Y, LIU Z, SUN M, et al. Learning entity and relation embeddings for knowledge graph completion [C]// AAAI ‘15: Proceedings of the 29th AAAI Conference on Artificial Intelligence. Menlo Park, CA: AAAI Press, 2015: 2181-2187.
[15]NICKEL M, TRESP V, KRIEGEL H P. A three-way model for collective learning on multi-relational data [C]// ICML ‘11: Proceedings of the 28th International Conference on International Conference on Machine Learning. Bellevue, Washington: Omnipress, 2011: 809-816.
[16]NICKEL M, ROSASCO L, POGGIO T. Holographic embeddings of knowledge graphs [C]// Thirtieth Aaai conference on artificial intelligence. 2016.
NICKEL M, ROSASCO L, POGGIO T. Holographic embeddings of knowledge graphs [EB/OL]. [2018-12-25]. https://arxiv.org/pdf/1510.04935v2.pdf.
[17]SOCHER R, CHEN D, MANNING C D, et al. Reasoning with neural tensor networks for knowledge base completion [C]//NIPS ‘13: Proceedings of the 26th International Conference on Neural Information Processing Systems. Lake Tahoe, Nevada: Curran Associates, 2013: 926-934.
[18]BOSE A J, LING H, CAO Y. Adversarial Contrastive Estimation [C]// Proceedings of the 56th Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers). 2018: 1021-1032.
BOSE A J, LING H, CAO Y. Adversarial contrastive estimation [EB/OL]. [2019-01-09]. https://arxiv.org/pdf/1805.03642.pdf.
[19]YU L, ZHANG W, WANG J, et al. SeqGAN: sequence generative adversarial nets with policy gradient [C]// Proceedings of the 31st AAAI Conference on Artificial Intelligence. 2017.
YU L, ZHANG W, WANG J, et al. SeqGAN: sequence generative adversarial nets with policy gradient [EB/OL]. [2019-01-09]. https://arxiv.org/pdf/1609.05473.pdf.
[20]WANG J, YU L, ZHANG W, et al. IRGAN: a minimax game for unifying generative and discriminative information retrieval models [C]// Proceedings of the 40th International ACM SIGIR Conference on Research and Development in Information Retrieval. New York: ACM, 2017: 515-524.
[21]FEDUS W, GOODFELLOW I, DAI A M. MaskGAN: better text generation via filling in the_[J]. arXiv preprint arXiv:1801.07736, 2018.
FEDUS W, GOODFELLOW I, DAI A M. MaskGAN: better text generation via filling in the_? [EB/OL]. [2019-01-09]. http://export.arxiv.org/pdf/1801.07736.
[22]SUTTON R S, BARTO A G. Reinforcement learning: an introduction [EB/OL]. [2019-01-08]. http://users.umiacs.umd.edu/~hal/courses/2016F_RL/RL9.pdf.
[23]SUTSKEVER I, VINYALS O, LE Q V. Sequence to sequence learning with neural networks [C]// Advances in neural information processing systems. 2014: 3104-3112.
SUTSKEVER I, VINYALS O, LE Q V. Sequence to sequence learning with neural networks [EB/OL]. [2019-01-08]. https://arxiv.org/pdf/1409.3215.pdf.
[24]CHO K, van MERRIENBOER B, GULCEHRE C, et al. Learning phrase representations using RNN encoder-decoder for statistical machine translation [C]// Proceedings of the 2014 Conference on Empirical Methods in Natural Language Processing (EMNLP). 2014: 1724-1734.
CHO K, van MERRIENBOER B, GULCEHRE C, et al. Learning phrase representations using RNN encoder-decoder for statistical machine translation [EB/OL]. [2019-01-08]. https://arxiv.org/pdf/1406.1078.pdf.
[25]SUTTON R S, MCALLESTER D A, SINGH S P, et al. Policy gradient methods for reinforcement learning with function approximation [C]// Advances in neural information processing systems. 2000: 1057-1063.
SUTTON R S, MCALLESTER D A, SINGH S P, et al. Policy gradient methods for reinforcement learning with function approximation [EB/OL]. [2019-01-09]. https://www.docin.com/p-1195188340.html.
[26]WATKINS C J C H. Learning from delayed rewards [D]. Cambridge: Kings College, 1989.
[27]KINGMA D P, BA J. Adam: a method for stochastic optimization[J]. arXiv preprint arXiv:1412.6980, 2014.
KINGMA D P, BA J L. Adam: a method for stochastic optimization [EB/OL]. [2019-01-09]. https://arxiv.org/pdf/1412.6980.pdf.
[28]DUCHI J, HAZAN E, SINGER Y. Adaptive subgradient methods for online learning and stochastic optimization [J]. Journal of Machine Learning Research, 2011, 12: 2121-2159.
[29]HAN X, CAO S, LV X, et al. OpenKE: an open toolkit for knowledge embedding [C]// Proceedings of the 2018 Conference on Empirical Methods in Natural Language Processing: System Demonstrations. 2018: 139-144.
HAN X, CAO S, LV X, et al. OpenKE: an open toolkit for knowledge embedding [EB/OL]. [2019-01-09]. http://nlp.csai.tsinghua.edu.cn/~lzy/publications/emnlp2018_openke.pdf.
This work is partially supported by the National Natural Science Foundation of China (U1613216, 61573386), the Science and Technology Planning Project of Guangdong Province (2017B010110011).
ZHANG Zhao, born in 1994, M.S. candidate. His research interests include knowledge representation learning, knowledge graph, natural language processing.
JI Jianmin, born in 1984, Ph. D., associate professor. His research interests include cognitive robot, knowledge representation and reasoning.
CHEN Xiaoping, born in 1955, Ph. D., professor. His research interests include logic based artificial intelligence, multi-agent system, intelligent robot.