何 鵬 周 剛 陳 靜 章夢禮 寧原隆
1 (戰(zhàn)略支援部隊信息工程大學(xué) 鄭州 450001)2 (鄭州工程技術(shù)學(xué)院 鄭州 450044)
(helen830209@163.com)
知識圖譜(knowledge graph)以多關(guān)系有向圖的形式組織和存儲現(xiàn)實世界的知識. 其中,節(jié)點表示實體(人名、地名、機構(gòu)名、概念等),邊表示實體間的語義關(guān)系. 因此,知識圖譜又可以看成是結(jié)構(gòu)化三元組的集合,對應(yīng)有向圖中的邊(關(guān)系)及其相連的2個節(jié)點(實體). 自從2012 年,谷歌首次提出知識圖譜的概念并將其成功應(yīng)用于信息檢索領(lǐng)域以來,知識圖譜在學(xué)術(shù)界和工業(yè)界得到了廣泛的關(guān)注和研究.現(xiàn)有的知識圖譜包括Freebase[1]、Dbpedia[2]、WordNet[3]等,已經(jīng)在許多人工智能相關(guān)的應(yīng)用中起到了巨大的推動和支撐作用,如個性化推薦[4]、智能問答[5]、信息檢索[6]以及自然語言處理[7]等.
現(xiàn)有的知識圖譜規(guī)模龐大,往往包含上億條事實三元組,不可避免的存在由數(shù)據(jù)缺失造成的不完整性問題. 為了解決此問題,人們提出了各種知識圖譜補全方法,通過基于已有的事實來推理和預(yù)測知識圖譜中缺失的鏈接. 知識圖譜表示學(xué)習(xí)(knowledge graph representation learning)是一種有效的知識圖譜補全方法,它可以自動預(yù)測缺失的知識,同時解決知識圖譜中的數(shù)據(jù)稀疏性和計算效率問題,為基于知識圖譜的深度學(xué)習(xí)工作提供了極大的便利.
知識圖譜表示學(xué)習(xí)又稱為知識圖譜嵌入(knowledge graph embedding),旨在將知識圖譜中的元素(實體和關(guān)系)映射到低維的連續(xù)向量空間中,學(xué)習(xí)實體和關(guān)系的嵌入表示,同時保持知識圖譜的內(nèi)在結(jié)構(gòu)和語義信息,即將知識圖譜的符號化表示形式轉(zhuǎn)換成數(shù)值化表示形式,從而實現(xiàn)高效的語義計算. 現(xiàn)有的知識圖譜表示學(xué)習(xí)模型通常是靜態(tài)的,忽略了事實的時間動態(tài)性和時序依賴性. 而在現(xiàn)實世界中,時間是實體和關(guān)系所具有的重要屬性,事實往往隨時間的變化而發(fā)生動態(tài)的演化. 常見的知識圖譜Wikidata[8]和YAGO[9]都包含了知識的時間信息. ICEWS[10]和GDELT[11]是2 個帶有時間信息的事件知識圖譜. 將知識圖譜中可提供的時間信息引入三元組中,構(gòu)成的帶有時間戳的四元組集合稱為時態(tài)知識圖譜(temporal knowledge graph). 如圖1 所示,連接實體的關(guān)系帶有時間戳,表明該事實發(fā)生的具體時間,比如(美國,總統(tǒng),奧巴馬, [2009—2017])只在2009—2017 年間有效. 當(dāng)采用靜態(tài)的知識圖譜表示學(xué)習(xí)模型對時態(tài)知識圖譜進行補全時,很容易混淆相似實體的語義信息. 比如,當(dāng)對缺失實體的事實(美國,總統(tǒng),?,[1993—2001])進行鏈接預(yù)測時,如果忽略了給定的時間戳[1993—2001],則可能會混淆“克林頓”和其他歷屆美國總統(tǒng),給出錯誤的答案. 時態(tài)知識圖譜表示學(xué)習(xí)模型通過將可提供的時間信息顯式或隱式的融合到知識圖譜表示學(xué)習(xí)過程中,使得鏈接預(yù)測的結(jié)果隨時間不同而產(chǎn)生不同的排序,從而有效地區(qū)分相似語義的實體,提高時態(tài)知識圖譜補全的準(zhǔn)確性.
Fig.1 An example of temporal knowledge subgraph extracted from the Wikidata圖1 從Wikidata 抽取的時態(tài)知識圖譜子圖示例
由于上述優(yōu)點,最近幾年時態(tài)知識圖譜表示學(xué)習(xí)迅速成為知識圖譜領(lǐng)域的研究熱點. 已經(jīng)有一些時態(tài)知識圖譜表示學(xué)習(xí)模型通過利用時間信息來改善表示學(xué)習(xí)的效果,但它們普遍存在一個或多個問題:1)不具備完全表達性,即不能準(zhǔn)確的區(qū)分事實(比如,“2009—2017 年間的美國總統(tǒng)是奧巴馬”)與非事實(如“2009—2017 年間的美國總統(tǒng)是希拉里”)[12],從而限制了模型的表示能力. 2)只考慮時間點形式的時間戳(如[2014-07-16]),而沒有考慮時間段形式的時間戳(如[2009—2017]). 比如,在Wikidata 和YAGO這2 個著名的時態(tài)知識圖譜中,事實通常帶有時間段形式的時間戳,由于時間的連續(xù)性,建模時間段形式的時間戳是一項具有挑戰(zhàn)性的工作. 3)存在冗余計算和時空復(fù)雜度高的問題. 4)沒有充分利用類型兼容性. 類型兼容性是指知識圖譜中的實體除了表示個體語義信息外,還隱含了一般的類型語義信息,且一個特定關(guān)系總是連接具有相同類型的實體. 比如(美國,總統(tǒng),?)中,“總統(tǒng)”這一關(guān)系總是連接“國家”類型和“人”類型的實體. 在推理缺失信息時,利用類型兼容性這一先驗知識可以判斷缺失實體的類型應(yīng)該是“人”,它在向量空間中應(yīng)該與其他“人”類型的實體位置接近,從而可以更好地限制和優(yōu)化實體嵌入.
為了解決這些問題,本文提出一種類型增強的時態(tài)知識圖譜表示學(xué)習(xí)模型(type-enhanced temporal knowledge graph representation learning model, T-Temp),用于解決時態(tài)知識圖譜中的知識補全和語義計算問題. 模型基于張量分解技術(shù),將時態(tài)知識圖譜看成3 階張量,語義關(guān)系和時間信息聯(lián)合索引其中的一個模式向量. 同時,設(shè)計一種類型兼容性函數(shù),自動捕獲實體的類型特征并優(yōu)化實體表示. 此外,模型具有完全表達性,且可以建模時態(tài)知識圖譜中常見的時間點形式和時間段形式的時間信息,具有普遍適用性.
本文的主要貢獻包括3 個方面:
1)提出了一種基于張量分解的時態(tài)知識圖譜表示學(xué)習(xí)模型T-Temp,將時間信息顯式地編碼到表示學(xué)習(xí)過程中,并利用實體和關(guān)系的類型兼容性,學(xué)習(xí)實體、關(guān)系、時間和類型的嵌入表示,提升表示學(xué)習(xí)的有效性.
2)理論上證明T-Temp 模型具有完全表達性,并與現(xiàn)有的同類模型做對比分析,說明其具有較低的時間和空間復(fù)雜度.
3)在真實的時態(tài)知識圖譜ICEWS、Wikidata、YAGO 中抽取出來的4 個公開數(shù)據(jù)集上開展廣泛的實驗. 在鏈接預(yù)測任務(wù)上的結(jié)果表明T-Temp 模型的性能較其他先進模型有顯著提升,類型嵌入的可視化聚簇結(jié)果也表明T-Temp 模型能夠有效地捕獲實體的類型特征.
本節(jié)主要介紹與本文工作相關(guān)的知識圖譜表示學(xué)習(xí)模型,包括靜態(tài)知識圖譜表示學(xué)習(xí)模型、時態(tài)知識圖譜表示學(xué)習(xí)模型和類型增強的知識圖譜表示學(xué)習(xí)模型,具體可參考綜述文獻[13?16].
現(xiàn)有的大多數(shù)知識圖譜表示學(xué)習(xí)模型基于靜態(tài)事實進行建模,大體上可分為2 類:基于平移距離的模型和基于張量分解的模型.
基于平移距離的模型通常將關(guān)系建模成向量空間中的平移或旋轉(zhuǎn)操作,用關(guān)系操作后的實體間距離度量事實的真實性. 著名的基于平移距離的模型TransE[17]及其變體模型TransH[18]、TransR[19]、TransD[20]等均將關(guān)系建模為實數(shù)向量空間中的平移操作. 而最近的RotatE[21]和HAKE[22]模型則將關(guān)系建模為復(fù)數(shù)向量空間中的旋轉(zhuǎn)操作,從而推理知識圖譜中的各種關(guān)系模式,提高模型的關(guān)系建模能力. 然而,大部分平移距離模型不具備完全表達性[12],限制了其表示能力,基于張量分解的SimplE[12]模型能夠克服這一缺點. SimplE 模型受到經(jīng)典張量分解技術(shù)——典 范多元(CANDECOMP/PARAFAC, CP)分 解[23]——的啟發(fā),將每個事實三元組對應(yīng)3 階張量中的1 個元素,其中,實體和關(guān)系分別索引該張量的一個模式向量,同時構(gòu)建反向關(guān)系來統(tǒng)一不同位置的實體嵌入.Lacroix 等人[24]也提出了類似的基于CP 分解的模型.ComplEx[25]模型是另一個基于張量分解的模型,它通過將實體映射到復(fù)數(shù)向量空間而非實數(shù)向量來建模實體間的關(guān)系. ComplEx 和SimplE 都具有完全表達性[12,24],但與SimplE 相比,ComplEx 存在冗余計算問題. 此外,Yang 等人[26]提出一個簡化版的張量分解模型DistMult,王培妍等人[27]提出一種基于張量分解的知識超圖模型Typer.
盡管靜態(tài)知識圖譜表示學(xué)習(xí)模型取得了較好的表現(xiàn),但它們沒有考慮知識的時態(tài)演化性,容易造成相似語義實體的混淆.
最近,一些研究者通過對靜態(tài)模型進行時態(tài)擴展,提出了時態(tài)知識圖譜表示學(xué)習(xí)模型. 比如,TTransE[28]、TA-TransE[29]、HyTE[30]、Duration-HyTE[31]模型是對經(jīng)典靜態(tài)模型TransE 的時態(tài)擴展,和TransE 一樣,這些動態(tài)模型不具備完全表達性. 受到靜態(tài)模型RotatE的啟發(fā),TeRo[32]模型將時間信息建模成復(fù)數(shù)空間中的旋轉(zhuǎn)操作,實體通過沿不同角度的時間旋轉(zhuǎn)來體現(xiàn)不同時期的時間特征. ChronoR[33]模型同樣受到靜態(tài)模型RotatE 的啟發(fā),但實體的旋轉(zhuǎn)變換由時間和關(guān)系共同決定,且采用向量間的角度而非距離來度量事實的真實性. DE-SimplE[34]模型在靜態(tài)模型SimplE的基礎(chǔ)上,通過引入DE(diachronic embedding)函數(shù)[35]來學(xué)習(xí)實體的時間演化特性. ConT[36]模型可以看成是靜態(tài)模型Tucker[37]的擴展,它用特定時間張量代替Tucker 分解[38]中的核張量. 由于其時間嵌入需要大量的參數(shù),在訓(xùn)練過程中效率較低且容易產(chǎn)生過擬合. ChronoR、DE-SimplE、ConT 模型都只能處理離散的時間點信息,而沒有考慮連續(xù)的時間段信息.TComplEx 和TNTComplEx[39]模型將時態(tài)知識圖譜表示成一個4 階張量,并添加一個時態(tài)模式向量來擴展靜態(tài)模型ComplEx. 同樣,TComplEx 和TNTComplEx模型也存在冗余計算問題.
實體的類型特征體現(xiàn)了實體的一般語義和類別,相關(guān)工作利用這一特征進一步優(yōu)化知識表示的學(xué)習(xí)效果. TKRL[40]模型首次引入顯式的實體類型來增強TransE. JOIE[41]模型將知識圖譜表示為本體視圖(即類型信息)和實例視圖(即實體信息),并聯(lián)合編碼這2 個視圖. TaRP[42]模型根據(jù)實體類型定義關(guān)系類型,并采用貝葉斯規(guī)則擬合關(guān)系類型和實體類型間的語義相似性. 上述模型均需要提供額外的類型信息. 最近,Jain 等人[43]認(rèn)為實體類型普遍隱含在知識圖譜中的實體和實體間的復(fù)雜語義關(guān)系中,并提出TypeDM和TypeComplEx 模型,通過建模實體和關(guān)系間的類型兼容性擴展DistMult 和ComplEx 模型,自動學(xué)習(xí)實體的類型嵌入,不需要額外的類型信息. 然而,所有這些類型增強模型都沒有考慮知識的時間動態(tài)性.
與上述工作相比,本文工作主要致力于解決時態(tài)知識圖譜中的知識補全問題. 本文提出的類型增強的時態(tài)知識圖譜表示學(xué)習(xí)模型T-Temp 屬于張量分解模型. 在表示學(xué)習(xí)過程中,T-Temp 模型可以以較低的時空消耗,充分利用各種形式的時間信息,并自動學(xué)習(xí)和表示實體的類型特征,不需要提供額外的類型信息. 此外,據(jù)我們所知,T-Temp 模型是為數(shù)不多的具有完全表達性的時態(tài)模型.
本節(jié)首先對時態(tài)知識圖譜表示學(xué)習(xí)中的相關(guān)問題進行形式化定義,并對一些基本的概念和符號進行解釋;然后詳細(xì)介紹所提出的T-Temp 模型.
定義1.時態(tài)知識圖譜. 時態(tài)知識圖譜表示成一個帶有時間信息的多關(guān)系有向圖G=(E,R,T),其中E是節(jié)點(實體)集,R是邊(關(guān)系)集,T是時間戳集. 因此,時態(tài)知識圖譜又可以看成是四元組(h,r,t,τ)∈G或(h,r,t,[τs,τe])∈G的集合,其中h,t∈E分別稱為頭實體和尾實體,r∈R是它們之間的關(guān)系,τ ∈T或[τs,τe]∈T是與事實相關(guān)聯(lián)的時間戳. 具體來說,τ表示事實發(fā)生在一個特定的時間點,[τs,τe]表示事實在一個開始時間為 τs、結(jié)束時間為 τe的持續(xù)時間段內(nèi)均有效.
定義2.時態(tài)知識圖譜存在不完整性問題. 本文用W?E×R×E×T表示現(xiàn)實世界中的全部事實,時態(tài)知識圖譜G是W的子集(即G?W),時態(tài)知識圖譜補全是一個根據(jù)G推理W的問題.
定義3.知識圖譜表示學(xué)習(xí)模型通常定義3 件事:
1)嵌入函數(shù)——將知識圖譜中的元素映射為向量、矩陣或張量等嵌入表示;
2)得分函數(shù)——將上述嵌入表示作為輸入,通過數(shù)值運算獲得輸出,作為評估事實真實性的得分;
3)損失函數(shù)——通過最大化所有已知事實的得分來學(xué)習(xí)和優(yōu)化各元素的嵌入表示.
本文基于張量分解的模型,學(xué)習(xí)實體、關(guān)系和時間戳的向量化嵌入. 同時,利用實體和關(guān)系的類型兼容性,自動學(xué)習(xí)實體的類型嵌入,進一步優(yōu)化實體表示. 圖2 展示了模型的整體架構(gòu),按照知識圖譜表示學(xué)習(xí)的過程,首先,我們提出將已知四元組嵌入到實數(shù)向量空間中的嵌入函數(shù);接著,定義基于CP 分解的得分函數(shù)以及基于語義相似性的類型兼容性函數(shù),并將兩者結(jié)合,形成最終的得分函數(shù);最后,設(shè)計一個帶有正則化的交叉熵?fù)p失函數(shù)作為優(yōu)化目標(biāo),學(xué)習(xí)各元素的嵌入表示.
嵌入函數(shù)又稱為編碼器. 本文將時態(tài)知識圖譜中的實體、關(guān)系和時間戳元素顯式的編碼到維度為d的實數(shù)向量空間. 如圖2 所示,對于給定四元組(h,r,t,τ),向量h,t∈Rd分別是頭實體h和尾實體t經(jīng)過嵌入函數(shù)映射后得到的嵌入表示,代表頭/尾實體的個體語義特征,向量分別是關(guān)系r和時間戳 τ經(jīng)過嵌入函數(shù)映射后得到的嵌入表示,代表關(guān)系和時間戳的語義特征,其中rd+τd=d.
Fig.2 T-Temp architecture圖2 T-Temp 架構(gòu)
為了學(xué)習(xí)實體所隱含的類型特征并建模實體與關(guān)系間的類型兼容性,嵌入函數(shù)進一步將實體所屬的類型信息編碼到維度為k的實數(shù)向量空間中. 具體來說,向量yh,yt∈Rk分別表示頭實體h和尾實體t的類型嵌入,代表頭/尾實體的類型特征. 此外,構(gòu)建關(guān)系的類型屬性,根據(jù)一個特定關(guān)系總是連接具有相同類型的頭實體和尾實體,令關(guān)系r期望連接的頭實體類型為關(guān)系的頭類型,關(guān)系r期望連接的尾實體類型為關(guān)系的尾類型. 并定義向量xh∈Rk為關(guān)系r的頭類型嵌入,表示關(guān)系的頭類型特征;向量xt∈Rk為關(guān)系r的尾類型嵌入,表示關(guān)系的尾類型特征. 實體類型體現(xiàn)了多個實體的一般語義信息,往往沒有實體的語義豐富,因此通常情況下k?d.
本文定義基于CP 分解的得分函數(shù),將時態(tài)知識圖譜G看成一個3 階張量X∈R|E|×|R||T|×|E|,其中 |E|是實體的個數(shù),|R||T|是關(guān)系個數(shù) |R|和時間戳個數(shù) |T|的乘積. 頭/尾實體分別索引模式-1 和模式-3 向量,關(guān)系和時間戳聯(lián)合索引模式-2 向量. 根據(jù)定義4 所描述的CP 分解方法,頭實體向量、尾實體向量、關(guān)系向量和時間戳向量組成的多線性乘積可以用來估計張量X中的各個元素,即四元組(h,r,t,τ)的得分函數(shù)為
其中h表示頭實體向量,t表示尾實體向量,[r|τ]表示關(guān)系向量r和時間戳向量 τ的級聯(lián). 該得分函數(shù)的值越大,說明四元組越真實. 需要指出的是,這種原始的基于CP 分解的方法存在同一實體位于頭/尾不同位置時的嵌入向量不一致問題,為了解決這個問題,本文在訓(xùn)練時采用與靜態(tài)模型SimplE 類似的,構(gòu)建反向關(guān)系的方法統(tǒng)一實體的嵌入.
另一方面,考慮到本文所提出的模型不需要提供額外的類型信息,實體和關(guān)系的語義關(guān)聯(lián)中其實隱含了它們的類型特征. 為了可以自動學(xué)習(xí)和挖掘這些類型特征,根據(jù)實體和關(guān)系的類型兼容性這一先驗知識,我們定義基于語義相似度的類型兼容性函數(shù)來建模實體和關(guān)系間的類型兼容性,采用與余弦相似度的計算成比例的向量內(nèi)積形式. 對于關(guān)系與其相連的頭實體,類型兼容性函數(shù)為
其中yh表示頭實體的類型向量,xh表示關(guān)系r期望連接的頭類型向量,σ是sigmoid 函數(shù). 類似地,對于關(guān)系與其相連的尾實體,類型兼容性函數(shù)為
其中yt表示尾實體的類型向量,xt表示關(guān)系r期望連接的尾類型向量.(h,r,t,τ)
將式(3)與式(4)(5)相結(jié)合,得到四元組的最終得分函數(shù):
式(6)中2 個類型兼容性函數(shù)可以看成是CP 分解得分函數(shù)的系數(shù),即根據(jù)四元組的類型兼容性調(diào)節(jié)該得分函數(shù)的結(jié)果.
除此之外,常見的時態(tài)知識圖譜通常是異構(gòu)的,也就是說,除了時態(tài)感知關(guān)系,還包含大量的非時態(tài)感知關(guān)系. 比如Wikidata 中的三元組(奧巴馬,出生地,夏威夷州),其關(guān)系“出生地”就是一個非時態(tài)感知關(guān)系,即奧巴馬的出生地永遠(yuǎn)是夏威夷州,不會隨時間發(fā)生變化. 為了能更好地處理這種既包含時態(tài)關(guān)系,又包含非時態(tài)關(guān)系的異構(gòu)型時態(tài)知識圖譜,本文在得分函數(shù)中增加了一個非時態(tài)組件,相應(yīng)的得分函數(shù)變?yōu)?/p>
其中rs∈Rd表示關(guān)系r的非時態(tài)向量,而r又稱為關(guān)系的時態(tài)向量表示. 對于時態(tài)感知關(guān)系來說,由于其通常出現(xiàn)在含有時間信息的四元組中,因此,該關(guān)系對應(yīng)的時態(tài)向量r應(yīng)該使正四元組得分較高,負(fù)四元組得分較低;而其對應(yīng)的非時態(tài)向量rs應(yīng)該使大部分不含有時間信息的三元組得分較低. 相反,對于非時態(tài)感知關(guān)系來說,其對應(yīng)的非時態(tài)向量rs應(yīng)該使正三元組得分較高,負(fù)三元組得分較低;而其對應(yīng)的時態(tài)向量r應(yīng)該使大部分含有時間信息的四元組得分較低.
在2.4 節(jié)定義的得分函數(shù)基礎(chǔ)上,對于缺失尾實體的四元組(h,r,?,τ),我們可以估計任意候選實體ti∈E的真實性:
對于缺失頭實體的四元組(?,r,t,τ)也類似. 進而,本文采用交叉熵?fù)p失函數(shù)來學(xué)習(xí)和優(yōu)化各元素的向量化嵌入:
此外,考慮到參數(shù)正則化可以提升模型的泛化能力,避免對訓(xùn)練數(shù)據(jù)的過擬合,本文采用類似于文獻[37]中的張量核范數(shù)?p(θ)和基于先驗知識的時間戳平滑 ?p作為模型的正則化項:
其中||·||p表示向量的p-范數(shù),τi和τi+1表示任意2 個相鄰的時間戳嵌入表示. 模型的最終優(yōu)化目標(biāo)是最小化帶有正則化項的損失函數(shù):
其中λ1和 λ2是加權(quán)超參.
在模型進行訓(xùn)練之前,需要考慮如何處理時態(tài)知識圖譜中常見的2 種時間信息形式,即時間點時間戳和時間段時間戳. 在事件知識圖譜ICEWS 和GDELT 中,事實(事件)帶有時間點形式的時間戳 τ,用來表示該事件發(fā)生的具體時間. 由于時間點的離散性特點,這種形式的時間信息可以直接適用于TTemp 模 型. 而 在時態(tài)知識圖譜YAGO 和Wikidata 中,與事實相關(guān)聯(lián)的往往是時間段形式的時間戳[τs,τe],如何建模這種連續(xù)性時間信息是一項具有挑戰(zhàn)性的任務(wù). 與TComplEx 和TNTComplEx 模型中 采用的 在時間段范圍內(nèi)均勻采樣的方法不同,我們直接用時間段的開始時間和結(jié)束時間作為新的時間戳來代替原有的時間戳,從而將持續(xù)性時間信息做離散化處理. 本質(zhì)上是利用擴充數(shù)據(jù)量的方法盡可能多地采集連續(xù)性時間信息,形成模型可處理的四元組形式.算法1 給出了T-Temp 模型的偽代碼.
算法1.T-Temp 模型.
輸入:訓(xùn)練集Strain,實體集E,關(guān)系集R,時間戳集T,訓(xùn)練總輪數(shù)N,批次大小 β,嵌入維度k,d和rd,τd,加權(quán)超參 λ1和 λ2;
輸出:所有實體的嵌入向量e∈{h,t}和類型嵌入向量ye,所有關(guān)系的嵌入向量r,rs和頭/尾類型嵌入向量xe,所有時間戳的嵌入向量 τ.
完全表達性是知識圖譜表示學(xué)習(xí)模型的一個重要屬性,現(xiàn)有工作[12,34,38]已經(jīng)證明,基于張量分解的靜態(tài)模型ComplEx、SimplE、Tucker 具有完全表達性,最近提出的DE-SimplE 模型是第1 個具有完全表達性的時態(tài)模型. 本文從理論上分析T-Temp 模型的完全表達性.
定義5.知識圖譜表示學(xué)習(xí)模型具有完全表達性,當(dāng)且僅當(dāng)給定知識圖譜中的已知事實(真事實)集合,存在一種嵌入表示,能夠正確區(qū)分真事實與假事實.
Kruskal[44]將N階張量的秩定義為能夠進行CP分解的最小R值. 雖然確定給定張量的秩是個NP 難問題[45],但Kruskal[46]已經(jīng)證明3 階張量的秩存在一個弱上界. 受到此證明啟發(fā),本文證明T-Temp 模型具有完全表達性,并給出嵌入表示的邊界.
定理1.給定實體集E、關(guān)系集R和時間戳集T上的已知事實集合G,存在維度為|E|×|R|×|T|的嵌入表示,使得T-Temp 模型具有完全表達性.
證明. T-Temp 模型具備完全表達性的充分條件是,真事實和假事實的得分永不相交,即得分函數(shù)能夠正確劃分所有真事實與假事實. 由于得分函數(shù)中的Ch和Ct取值位于0~1 之間,不影響總體函數(shù)值的正負(fù),為了簡化證明,我們只關(guān)注得分函數(shù)的第1 部分f′.
大小為|E|×|R|×|T|的嵌入向量可以看成是 |E|個大小為|R|×|T|的塊. 對于頭實體ei,令其嵌入向量ei∈R|E|×|R|×|T|第i塊中的所有元素值為1,其余塊中的元素值均為0. 于是,只有第i塊中的元素值對四元組(ei,rk,ej,tl)的得分有影響. 接下來,進一步分析嵌入向量的第i塊.
在大小為|R|×|T|的第i塊中,令關(guān)系rk和時間戳tl的嵌入向量級聯(lián)[rk|tl]∈R|E|×|R|×|T|的第i塊第(k×|T|+l)個元素值為1,其余為0. 因此,嵌入向量ei與[rk|tl]的哈達瑪積中,只有第i塊第(k×|T|+l)個元素為1,其余為0. 基于以上嵌入向量的元素值設(shè)置,如果四元組(ei,rk,ej,tl)為真事實,只需要令尾實體嵌入向量ej∈R|E|×|R|×|T|的第i塊第(k×|T|+l)個元素值為1,否則值為?1,即可得到真事實的得分〈ei,[rk|tl],ej〉為1,假事實為?1,互不相交. 證畢.
時間和空間復(fù)雜度是知識圖譜表示學(xué)習(xí)模型的另一個重要屬性,會直接影響模型的訓(xùn)練效率和可擴展性. 如表1 所示,本文根據(jù)嵌入函數(shù)和得分函數(shù)分析比較T-Temp 模型和幾個現(xiàn)有的時態(tài)模型所需的參數(shù)量和時間消耗,其中 γ為調(diào)整時態(tài)特征權(quán)重的超參[34]. 在時間復(fù)雜度方面,除ConT 模型外,所有模型都消耗與嵌入維度呈線性的時間復(fù)雜度O(d). 由于ConT 模型涉及3 階張量運算,其時間復(fù)雜度為O(d3).在參數(shù)個數(shù)方面,除了DE-SimplE 模型,其他模型的參數(shù)個數(shù)均與時間戳的個數(shù)相關(guān). 由于本文所提出的T-Temp 模型可以自動學(xué)習(xí)類型特征,模型需要與類型表示相關(guān)的參數(shù)量k(2|E|+4|R|). 而通常情況下k?d(比如第3 節(jié)實驗中,d=2000,k=20),因此該部分參數(shù)量可忽略不計. 又因為rd+τd=d,所以TTemp 模型所需的參數(shù)個數(shù)總體上與最先進的ChronoR,TeRo,TNTComplEx 等模型相當(dāng)甚至更少.
鏈接預(yù)測是標(biāo)準(zhǔn)的知識圖譜補全任務(wù),本節(jié)通過時態(tài)知識圖譜上的鏈接預(yù)測任務(wù)對T-Temp 模型進行有效性驗證. 首先對實驗中所采用的數(shù)據(jù)集、評價指標(biāo)和基線模型等進行說明. 然后將實驗分為5 組以達到不同的實驗?zāi)康模?/p>
1)在4 個通用的數(shù)據(jù)集上對T-Temp 模型進行鏈接預(yù)測實驗,并將實驗結(jié)果與之前的先進模型進行對比分析,以評估T-Temp 模型的有效性;
Table 1 Comparison of Our proposed models and State-ofthe-Art Temporal KGE Models on Time Complexity and Space Complexity表1 本文模型與現(xiàn)有時態(tài)知識圖譜表示學(xué)習(xí)模型的時間復(fù)雜度和空間復(fù)雜度對比
2)通過消融實驗分析類型兼容性和時間段時間戳的處理方法對T-Temp 模型性能的影響;
3)對學(xué)習(xí)到的實體和類型嵌入進行聚簇實驗,并將聚簇結(jié)果進行可視化展示,以驗證T-Temp 模型能夠自動捕獲實體的類型特征.
4)進行超參的敏感性分析實驗,以驗證模型的性能對于超參設(shè)置的敏感度.
5)鏈接預(yù)測任務(wù)上的案例研究實驗,更細(xì)粒度地展示T-Temp 模型如何提升鏈接預(yù)測結(jié)果的準(zhǔn)確性.
本文在4 個抽取自真實時態(tài)知識圖譜的公開數(shù)據(jù)集上對T-Temp 模型進行評估,包括:ICEWS14[29]、ICEWS05-15[29]、YAGO11k[30]、Wikidata12k[30].其中,ICEWS14 和ICEWS05-15是Garcia-Duran 等人[29]從事件知識圖譜ICEWS中抽取的2個子集. ICEWS包含從1995—2015年發(fā)生的政治事件,通過頭/尾實體(比如“國家”“總統(tǒng)”)和相連關(guān)系(比如“進行訪問”“表達會面或談判的意圖”)以及時間點形式的時間戳(如[2014-05-23])來表示. ICEWS14 和ICEWS05-15 分別對應(yīng)2005—2015年間發(fā)生的政治事件. YAGO11k和Wikidata12k 是時態(tài)知識圖譜YAGO和Wikidata 的子集,與事實相關(guān)聯(lián)的是時間段形式的時間戳(如[2006-11-18], [2012-08-20]). 通過YAGO11k 和Wikidata-12k 數(shù)據(jù)集,可以證明T-Temp 模型能夠有效地處理連續(xù)性時間信息. 表2 列出了4 個數(shù)據(jù)集的詳細(xì)統(tǒng)計信息,需要說明的是,表中YAGO11k 和Wikidata12k數(shù)據(jù)集的時間戳個數(shù)是經(jīng)過2.5 節(jié)中介紹的離散化預(yù)處理后的值.
Table 2 Statistics of Datasets表2 數(shù)據(jù)集的統(tǒng)計信息
為了準(zhǔn)確評估模型在鏈接預(yù)測任務(wù)上的性能,本文采用2 個廣泛使用的評價指標(biāo):平均倒數(shù)排名MRR(mean reciprocal rank)和擊中率Hits@N[21-22,30-34,37].首先,用所有已知實體e∈E分別替換測試集中每個四元組(h,r,t,τ)的頭實體h和尾實體t,從而為每個四元組創(chuàng)建2 個候選元組集合(h′,r,t,τ)和(h,r,t′,τ). 然后,用學(xué)到的嵌入表示和得分函數(shù)為所有候選元組計算得分,并按照得分進行降序排名. 與文獻[17]中的設(shè)置一樣,只對訓(xùn)練集和驗證集中均未出現(xiàn)過的候選元組進行排名. 根據(jù)此排名,MRR為測試集元組在候選元組集合中排名倒數(shù)的平均值:
其中rankh和rankt分別表示測試元組在替換頭/尾實體組成的候選元組集合中的排名.Hits@N為排在前N名的測試集元組的平均個數(shù):
其中,C(·)是條件函數(shù),當(dāng)條件成立時值為1,否則為0.MRR和Hits@N的值越大,說明模型在鏈接預(yù)測任務(wù)上的性能越好.
本文選取了當(dāng)前被應(yīng)用較多的靜態(tài)和時態(tài)知識圖譜表示學(xué)習(xí)模型作為基線模型. 靜態(tài)模型包括:基于平移距離的TransE 和RotatE 模型,基于CP 分解的DistMult、ComplEx、SimplE 模型;時態(tài)模型包括:TransE 的時態(tài)擴展模型TTransE、TA-TransE、HyTE.
基于Tucker 分解的時態(tài)模型ConT 以及基于CP 分解的時態(tài)模型DE-SimplE、TComplEx、TNTComplEx、TeRo、ChronoR. 這些模型均已在第1 節(jié)中進行了詳細(xì)介紹.
為公平起見,本文在單個NVIDIA Geforce RTX 2080Ti GPU 上運行T-Temp 和部分基線模型,使 用Ubuntu 16.04 LTS 操作系統(tǒng),配置Intel Core i7-7700 3.60GHz CPU,128GB 內(nèi)存. 本文利用PyTorch[47]實現(xiàn)T-Temp 模型,Adam[48]作為優(yōu) 化器. 訓(xùn)練批次大小為1 000,訓(xùn)練總輪數(shù)為50,且每5 輪驗證1 次模型,選擇驗證集上MRR值最高的模型參數(shù)進行測試. 對于ICEWS14 和ICEWS05-15 數(shù)據(jù)集,最佳參數(shù)設(shè)置為d=2000,k=20,λ1=λ2=0.01,rd/τd=0.25,學(xué)習(xí)率為0.2;對于YAGO11k 數(shù)據(jù)集,最佳參數(shù)設(shè)置為d=1800,k=30,λ1=0.1,λ2=1,rd/τd=0.6,學(xué)習(xí)率為0.1;對于Wikidata12k 數(shù)據(jù)集,最佳參數(shù)設(shè)置為d=2000,k=30,λ1=λ2=0.01,rd/τd=0.6,學(xué)習(xí)率為0.1.
鑒于部分基線模型與本文采用的數(shù)據(jù)集和評價指標(biāo)相同,直接引用其公開報告的實驗結(jié)果[32-33]. 對于其他基線模型[36-37],按照其公開論文中的最佳實驗設(shè)置進行模型復(fù)現(xiàn).
表3 和表4 給出了T-Temp 模型和其他先進模型在4 個數(shù)據(jù)集上的鏈接預(yù)測結(jié)果對比. 總體來說,時態(tài)模型在評價指標(biāo)上優(yōu)于靜態(tài)模型,說明在知識圖譜表示學(xué)習(xí)過程中引入時間信息能夠顯著提升模型性能. 本文提出的T-Temp 模型在所有數(shù)據(jù)集上的結(jié)果均超過最先進的時態(tài)模型,表明T-Temp 模型能夠有效完成時態(tài)知識圖譜補全任務(wù).
具體來說,在ICEWS14 和ICEWS05-15 這2 個帶有時間點形式時間戳的數(shù)據(jù)集上,T-Temp 模型的MRR指標(biāo)結(jié)果比最先進的時態(tài)模型ChronoR 分別提升了3.9%和1.8%,比同樣基于CP 分解的時態(tài)模型TNTComplEx 分別提升了8.5%和16%. 這是因為TTemp 模型不僅利用事實的時間信息,還充分挖掘?qū)嶓w的類型特征,從而進一步優(yōu)化實體嵌入. 而ChronoR和TNTComplEx 模型僅僅融合了時間信息,忽略了隱含在實體關(guān)系中的類型信息,因此無法取得更優(yōu)的結(jié)果. 此外,由于ConT 模型中的每個時間戳需要大量參數(shù)來表示,容易過擬合,所以ConT 性能欠佳,而且大量參數(shù)也使其訓(xùn)練速度尤其緩慢.
YAGO11k 和Wikidata12k 是2 個帶有時間段形式時間戳的數(shù)據(jù)集,ChronoR、DE-SimplE 和ConT 模型不能處理這種連續(xù)性時間信息,因此它們在YAGO11k和Wikidata12k 這2 個數(shù)據(jù)集上沒有結(jié)果. 盡管TeRo模型采用與本文模型相同的方法來處理持續(xù)性時間信息,但T-Temp 模型的結(jié)果仍然比TeRo 更優(yōu). 一方面是因為TeRo 只考慮通過時間的旋轉(zhuǎn)操作來建模實體的時態(tài)演化性,而忽略了關(guān)系和整個事實的時間變化屬性;另一方面也進一步驗證了本文的模型自動挖掘并利用實體類型特征的優(yōu)點.
Table 3 Link Prediction Results on ICEWS14 and ICEWS05-15表3 在ICEWS14 和ICEWS05-15 上的鏈接預(yù)測結(jié)果
Table 4 Link Prediction Results on YAGO11k and Wikidata12k表4 在YAGO11k 和Wikidata12k 上的鏈接預(yù)測結(jié)果
為了分析類型兼容性和連續(xù)性時間信息的處理方法對模型性能的影響,本文基于T-Temp 模型設(shè)計了2 個變體模型,T-Temp-Type 和T-Temp-Type(Unif),分別表示從T-Temp 的得分函數(shù)中移除類型兼容性函數(shù),以及在該變體模型基礎(chǔ)上進一步將連續(xù)性時間信息的處理方法變?yōu)門ComplEx 和TNTComplEx模型中采用的均勻采樣方法. T-Temp 模型及其變體模型在YAGO11k 數(shù)據(jù)集上的鏈接預(yù)測結(jié)果如表5所示.
Table 5 Results of Ablation Experiments on YAGO11k表5 YAGO11k 上的消融實驗結(jié)果
從表5 中可以看出,T-Temp 模型比變體模型TTemp-Type 在MRR評價指標(biāo)上高2.4%,說明建模類型兼容性并自動學(xué)習(xí)實體的類型特征確實能提升模型效果. 而變體模型T-Temp-Type(Unif)的結(jié)果則進一步退化成與TNTComplEx 相當(dāng). 驗證了我們設(shè)計的連續(xù)性時間信息的處理方法可以更多地采集時間的語義信息,有效改進模型性能.
為了評估T-Temp 模型能否有效捕獲實體的類型特征,本部分實驗對T-Temp 模型在ICEWS14 和YAGO11k 數(shù)據(jù)集上學(xué)習(xí)到的實體和類型嵌入進行聚簇,并將聚簇結(jié)果可視化. 具體來說,我們采用k-means[49]算法進行聚簇,采用t-SNE[50]方法對實體和類型嵌入進行降維(原來的維度分別是d和k),方便可視化. 圖3分別展示了在不同數(shù)據(jù)集上的聚簇結(jié)果,不同的簇用不同顏色標(biāo)識.
Fig.3 The visualization of entity and type embedding clustering圖3 實體和類型嵌入聚簇的可視化
從圖3 中可以看出,類型嵌入的簇比實體嵌入的簇更緊湊,且簇與簇之間的區(qū)分更明顯,而實體嵌入?yún)s沒有這種明顯的聚簇現(xiàn)象. 說明類型嵌入確實能夠有效捕獲實體的一般語義特征,學(xué)習(xí)實體中隱含的類型信息.
為了研究T-Temp 模型中的參數(shù)對其性能的影響,本文在ICEWS14 數(shù)據(jù)集上對一些重要的超參進行了細(xì)粒度的分析和比較,包括2 個嵌入向量空間的維度d和k以及訓(xùn)練總輪數(shù)N. 令嵌入向量空間的維度分別為d∈{1 600,1 800,2 000,2 200,2 400,2 600,2 800}和k∈{10,15,20,25,30,35,40},訓(xùn)練總輪數(shù)為N∈{30,40,50,60,70,80,90,100}. 為了實驗公平,除了當(dāng)前研究的超參外,其余超參的設(shè)置與3.3 節(jié)中的相同,實驗結(jié)果如圖4 所示.
圖4(a)顯式了當(dāng)維度為d的嵌入向量空間取不同維度值時T-Temp 模型的各項評價指標(biāo)變化趨勢.從圖4(a)中可以看出,當(dāng)維度小于2 000 時,各項指標(biāo)隨維度的增加呈上升趨勢,并在維度取值為2 000時達到最大;當(dāng)維度大于2 000 后,各項指標(biāo)隨維度的增加呈緩慢下降趨勢. 維度為d的嵌入向量空間用來表示實體的個體語義信息,實驗結(jié)果說明該向量空間的維度是個敏感參數(shù),當(dāng)維度取值過小時,可能造成欠擬合問題,即向量空間無法充分表達所有實體的豐富語義信息;而當(dāng)維度取值過大時,則可能出現(xiàn)過擬合現(xiàn)象,從而導(dǎo)致性能變差.
圖4(b)顯式了當(dāng)維度為k的嵌入向量空間取不同維度值時,T-Temp 模型的各項評價指標(biāo)變化趨勢.從圖中4(b)可以看出,模型的各項指標(biāo)同樣隨維度的增加先呈上升趨勢,然后在維度為20 時達到最大值,隨后開始緩慢下降. 維度為k的嵌入向量空間用來表示實體所屬的類型信息,實驗結(jié)果同樣說明該向量空間的維度是個敏感參數(shù),其取值過小或過大可能造成模型的欠擬合或過擬合問題. 此外,實體的類型特征所包含的一般語義信息通常沒有實體的個體語義信息豐富,因此實驗中2 個嵌入向量空間的最佳取值維度有k?d.
圖4(c)顯式了當(dāng)訓(xùn)練總輪數(shù)N取不同值時,TTemp 模型的各項評價指標(biāo)變化趨勢. 從圖4(c)中可以看出,當(dāng)訓(xùn)練輪數(shù)增加時,模型的各評價指標(biāo)均有所提升. 而當(dāng)訓(xùn)練輪數(shù)進一步增加時,各項指標(biāo)逐漸趨于平穩(wěn),模型達到一個相對穩(wěn)定的狀態(tài).
Fig.4 The sensitivity analysis of parameters圖4 參數(shù)敏感性分析
為了更細(xì)致地展示T-Temp 模型確實可以利用時間信息來提高鏈接預(yù)測任務(wù)的準(zhǔn)確性,本文從YAGO11k 數(shù)據(jù)集中抽取出一些帶有時間信息的四元組作為典型案例進行研究,包括:(Ashley Cole, plays for, Arsenal, [1999—2006])(Ashley Cole, plays for, Chelsea,[2006—2014])(Ashley Cole, plays for, A.S. Roma,[2014—2016])(Ashley Cole, plays for, LA Galaxy,[2016—2019]) . 這些四元組的頭實體和關(guān)系均是“Ashley Cole”和“Playsfor”,而尾實體則隨著時間的不同而有所不同,說明該球員在不同時期曾服務(wù)于不同的足球俱樂部.
實驗分為2 種情況進行對比:1)掩去四元組中的尾實體,在已知頭實體、關(guān)系和時間戳的情況下通過模型來預(yù)測尾實體,即回答問題:(Ashley Cole, plays for, ?, [1999—2006])(Ashley Cole, plays for, ?,[2006—2014])(Ashley Cole, plays for, ?, [2014—2016])(Ashley Cole, plays for, ?, [2016-2019]);2)是將四元組中的尾實體和時間戳均掩去,通過訓(xùn)練好的模型來預(yù)測尾實體,即回答問題(Ashley Cole, plays for, ?). 模型根據(jù)得分函數(shù)對所有候選實體組成的元組計算得分,并按照得分高低依次進行排序,實驗結(jié)果如表6所示.
Table 6 Comparison of Link Prediction表6 鏈接預(yù)測對比
從表6 中可以看出,在回答有具體時間范圍限制的問題時,模型預(yù)測結(jié)果排名第一的候選實體均為正確答案,說明T-Temp 模型確實可以利用可提供的時間信息實現(xiàn)更精準(zhǔn)的鏈接預(yù)測. 而回答不帶有時間戳的三元組問題時,模型則給出了若干個候選實體作為答案. 這些候選實體雖然無法給出用戶精準(zhǔn)的答案,但得益于T-Temp 模型的類型限制作用,他們都屬于“足球俱樂部”這一類型,一定程度上滿足了用戶的需求.
時態(tài)知識圖譜表示學(xué)習(xí)是近幾年的研究熱點之一. 本文基于張量的典范多元分解技術(shù),提出了一種類型增強的時態(tài)知識圖譜表示學(xué)習(xí)模型T-Temp,用于解決時態(tài)知識圖譜補全和語義計算問題,并證明了該模型在理論上具有完全表達性和較低的時空消耗. T-Temp 模型在表示學(xué)習(xí)的過程中不僅可以利用可提供的各種形式的時間信息,還可以利用實體和關(guān)系間的類型兼容性,自動學(xué)習(xí)實體、關(guān)系、時間和類型的嵌入表示,不需要提供額外的類型信息. 在4個公開的時態(tài)知識圖譜數(shù)據(jù)集上進行的大量實驗結(jié)果證明了T-Temp 模型的有效性.
鑒于現(xiàn)有的時態(tài)知識圖譜中,與事實相關(guān)聯(lián)的時間戳存在大量的缺失現(xiàn)象,下一步,計劃探索TTemp 模型對缺失的時間戳進行預(yù)測和補全的問題.另外,如何將T-Temp 模型擴展到開放世界假設(shè)[51],實現(xiàn)對未來事件的推理和預(yù)測,也是值得深入研究的方向.
作者貢獻聲明:何鵬提出了算法思路,完成實驗并撰寫論文;周剛、陳靜、章夢禮、寧原隆提出指導(dǎo)意見并修改論文.