陳華鈞,張文,黃志文,葉橄強,文博,張偉2,
1. 浙江大學(xué)計算機科學(xué)與技術(shù)學(xué)院,浙江 杭州 310007;
2. 阿里巴巴-浙江大學(xué)前沿技術(shù)聯(lián)合研究中心,浙江 杭州 311121;
3. 浙江大學(xué)軟件學(xué)院,浙江 杭州 310007;4. 阿里巴巴集團,浙江 杭州 311121
知識廣泛存在于文本、結(jié)構(gòu)化及多種模態(tài)的數(shù)據(jù)中。除了通過抽取技術(shù)[1]將知識從原始數(shù)據(jù)中萃取出來以支持搜索、問答、推理、分析等應(yīng)用,另外一種思路是利用數(shù)據(jù)中本身存在的基本信號對隱藏的知識進(jìn)行預(yù)訓(xùn)練(pre-training)。隨著GPT[2]、BERT[3]、XLNet[4]等預(yù)訓(xùn)練語言模型在多項自然語言處理領(lǐng)域任務(wù)上刷新了之前的最好效果,預(yù)訓(xùn)練受到了各界的廣泛關(guān)注。預(yù)訓(xùn)練的核心思想是預(yù)訓(xùn)練和微調(diào),例如文本預(yù)訓(xùn)練一般包含兩個步驟:首先利用大量的自然語言數(shù)據(jù)訓(xùn)練一個語言模型,獲取文本中包含的通用知識信息;然后在下游任務(wù)微調(diào)階段,針對不同的下游任務(wù)設(shè)計相應(yīng)的目標(biāo)函數(shù),基于相對較少的監(jiān)督數(shù)據(jù)進(jìn)行微調(diào),即可得到不錯的效果。
受預(yù)訓(xùn)練語言模型的啟發(fā),筆者將預(yù)訓(xùn)練和微調(diào)的思想應(yīng)用到大規(guī)模商品知識圖譜的表示學(xué)習(xí)與業(yè)務(wù)應(yīng)用中。在阿里巴巴電商平臺,包含千億級三元組和300多萬條規(guī)則的商品知識圖譜被構(gòu)建起來,并為語義搜索、智能問答、商品推薦等眾多下游業(yè)務(wù)任務(wù)提供知識圖譜服務(wù)。通常知識圖譜提供服務(wù)的方式是直接給出原始的三元組數(shù)據(jù),這會導(dǎo)致以下問題:①針對不同任務(wù)反復(fù)地進(jìn)行數(shù)據(jù)選擇和查詢,存在大量重復(fù)性工作;②下游任務(wù)需要針對自己的任務(wù)重新設(shè)計知識圖譜算法,從頭訓(xùn)練模型,由于圖譜規(guī)模龐大,業(yè)務(wù)應(yīng)用迭代周期過長,導(dǎo)致效率低下;③商品知識圖譜本身的不完整性風(fēng)險會導(dǎo)致誤差傳導(dǎo);④直接提供原始三元組存在數(shù)據(jù)公平性風(fēng)險和隱私風(fēng)險。
為了避免這個問題,使商品知識圖譜更方便、更有效地為下游任務(wù)提供服務(wù),筆者提出了“預(yù)訓(xùn)練+知識向量服務(wù)”的模式,并設(shè)計了知識圖譜預(yù)訓(xùn)練模型(pre-trained knowledge graph model,PKGM),在不直接訪問商品知識圖譜中三元組數(shù)據(jù)的情況下,以知識向量的方式為下游任務(wù)提供知識圖譜服務(wù)。在商品分類、同款商品對齊以及商品推薦等多個下游任務(wù)上,驗證了PKGM的有效性,其中在推薦任務(wù)上達(dá)到了平均6%的提升,同時還證明了在困難數(shù)據(jù)尤其是樣本較少的數(shù)據(jù)上提升效果更明顯。此外,在電商業(yè)務(wù)的真實實踐中,知識圖譜預(yù)訓(xùn)練模型進(jìn)一步被應(yīng)用到商品圖片分類、用戶點擊預(yù)測等任務(wù)中,任務(wù)效果均獲得了提升。知識圖譜預(yù)訓(xùn)練對于具有億級別節(jié)點量級的阿里巴巴商品知識圖譜而言極為重要,因為這能夠避免對龐大的商品知識圖譜進(jìn)行重復(fù)訓(xùn)練,從而更高效快速地為下游任務(wù)場景提供服務(wù)。
本文首先介紹了背景知識,包括預(yù)訓(xùn)練語言模型和結(jié)構(gòu)化上下文信息等;然后分別介紹了商品知識圖譜靜態(tài)預(yù)訓(xùn)練模型和動態(tài)預(yù)訓(xùn)練模型,詳細(xì)闡述了這兩者的模型結(jié)構(gòu)和具體的先預(yù)訓(xùn)練再微調(diào)模式;之后介紹了知識圖譜預(yù)訓(xùn)練模型在阿里巴巴電商場景的各種知識圖譜任務(wù)中的實驗結(jié)果和具體應(yīng)用,包括商品分類、同款商品對齊和商品推薦等任務(wù);最后對本文的工作進(jìn)行了總結(jié)。
人類的語言是高度抽象且富含知識的,文本數(shù)據(jù)只是人類大腦進(jìn)行信息處理后的一個載體,因此沉淀的文本數(shù)據(jù)本身具有大量有價值的信息。互聯(lián)網(wǎng)上沉淀了大規(guī)模的自然文本數(shù)據(jù),基于這些海量文本,可以設(shè)計自監(jiān)督訓(xùn)練任務(wù),學(xué)習(xí)好的表示模型,然后將這些表示模型用于其他任務(wù)?;谶@樣的思想,最近幾年提出的預(yù)訓(xùn)練語言模型(pre-trained language model)[2-4]在許多自然語言處理任務(wù)上被證明是有效的,并且能夠顯著提升相關(guān)任務(wù)的實驗結(jié)果。
預(yù)訓(xùn)練語言模型可以學(xué)習(xí)通用的語言表示,捕捉語言中內(nèi)含的結(jié)構(gòu)知識,特別是針對下游任務(wù)標(biāo)注數(shù)據(jù)量少的低資源場景,采用預(yù)訓(xùn)練+微調(diào)的模式,能夠帶來顯著的提升效果。預(yù)訓(xùn)練語言模型的輸入通常是一個文本序列片段,神經(jīng)編碼器會編碼輸入序列,每個輸入單元都會編碼得到對應(yīng)的向量表示。區(qū)別于傳統(tǒng)的word2vec詞向量[5],預(yù)訓(xùn)練得到的向量表示是上下文相關(guān)的,因為向量是編碼器根據(jù)輸入動態(tài)計算得到的,所以能夠捕捉上下文語義信息。
以BERT模型[3]為例,預(yù)訓(xùn)練語言模型首先在大型數(shù)據(jù)集上根據(jù)一些無監(jiān)督任務(wù)進(jìn)行訓(xùn)練,包括下一個語句預(yù)測(next sentence prediction,NSP)任務(wù)和掩碼語言模型(masked language model)任務(wù),這個部分被稱作預(yù)訓(xùn)練。接著在微調(diào)階段,針對后續(xù)下游任務(wù),例如文本分類、詞性標(biāo)注、問答系統(tǒng)等,基于預(yù)訓(xùn)練好的語言模型進(jìn)行微調(diào),使得BERT模型只需調(diào)整輸入輸出數(shù)據(jù)和訓(xùn)練部分參數(shù),就可以在不同的任務(wù)上達(dá)到很好的效果。圖1展示了BERT模型的預(yù)訓(xùn)練階段的結(jié)構(gòu),以及在多個不同數(shù)據(jù)集和任務(wù)上進(jìn)行微調(diào)的結(jié)構(gòu)。BERT模型具有很好的兼容性、擴展性,并在多種自然語言處理下游任務(wù)上達(dá)到頂尖的實驗效果。
預(yù)訓(xùn)練語言模型的優(yōu)點總結(jié)如下:
● 對龐大的文本語料庫進(jìn)行預(yù)訓(xùn)練,學(xué)習(xí)通用語言表示形式,并幫助完成下游任務(wù);
● 預(yù)訓(xùn)練提供了更好的模型初始化,通常可以帶來更好的泛化性能,并加快目標(biāo)任務(wù)的收斂速度;
● 可以將預(yù)訓(xùn)練視為一種正則化,以避免對小數(shù)據(jù)過度擬合。
圖1 BERT模型的預(yù)訓(xùn)練和微調(diào)過程的模型結(jié)構(gòu)示意圖
對于某個實體而言,包含了其若干個三元組的集合往往隱含這個實體豐富的結(jié)構(gòu)和語義特征,例如(姚明,性別,男性)、(姚明,職業(yè),籃球運動員)、(中國籃球協(xié)會,主席,姚明)等三元組能很好地刻畫“姚明”這個實體。類似地,對于某個特定的關(guān)系,知識圖譜中也擁有豐富的包含了該關(guān)系的三元組集合。在此,可以將其定義為結(jié)構(gòu)化上下文三元組(structure contextual triple)集合,簡稱為上下文三元組,并用表示,其中x表示某個實體或者某個關(guān)系。因此不難看出,在知識圖譜中有兩種類型的上下文三元組:實體上下文三元組和關(guān)系上下文三元組
為了更直觀地展示上下文三元組在知識圖譜中的結(jié)構(gòu),筆者畫了一張簡單的示意圖來描述,如圖2所示。圖2中的圓代表實體,圓之間的短線代表關(guān)系。虛線框中的藍(lán)色圓、橙色圓和粉色短線構(gòu)成了一個特定三元組,分別代表頭實體、尾實體和關(guān)系。對于頭實體h(藍(lán)色圓)來說,其上下文三元組C (h)就是與藍(lán)色圓相連的三元組,即圖2中用藍(lán)色短線連接起來的兩兩實體對組成的三元組再加上虛線框中的三元組得到的三元組集合。同理,尾實體t的上下文三元組C (t)即圖2中用橙色短線連接起來的三元組再加上虛線框中的三元組得到的三元組集合。而對于關(guān)系r的上下文三元組C(r),圖2中用平行的、粉色的短線來表示同一種關(guān)系r,那么用這些粉色短線相連的三元組集合就是所期望的關(guān)系上下文三元組C(r)。
PKGM是基于預(yù)訓(xùn)練+知識向量服務(wù)的思路提出的,目的是在連續(xù)向量空間中提供服務(wù),使下游任務(wù)通過嵌入計算得到必要的事實知識,而不需要訪問知識圖譜中的三元組。PKGM主要包含兩個步驟,首先是商品知識圖譜預(yù)訓(xùn)練,目標(biāo)是使預(yù)訓(xùn)練后的模型具有進(jìn)行完整知識圖譜服務(wù)的能力,其次是以統(tǒng)一的方式為下游任務(wù)提供知識向量服務(wù)。
具體來說,利用知識圖譜中的結(jié)構(gòu)化上下文信息進(jìn)行預(yù)訓(xùn)練,從而為下游任務(wù)提供知識向量,利用知識圖譜增強下游任務(wù)的效果。知識圖譜靜態(tài)預(yù)訓(xùn)練模型的靜態(tài)體現(xiàn)在為下游任務(wù)提供預(yù)訓(xùn)練好的知識圖譜嵌入向量表(embedding table),通過實體或者關(guān)系的ID能夠直接查詢并獲取其對應(yīng)的知識向量,該向量可以直接在下游任務(wù)中運用和參與計算。將預(yù)訓(xùn)練好的商品知識圖譜模型作為知識增強任務(wù)的知識提供者,既能避免煩瑣的數(shù)據(jù)選擇和模型設(shè)計,又能解決商品知識圖譜的不完整性問題。
預(yù)訓(xùn)練知識圖譜模型中有兩種常見的查詢方式。
(1)三元組查詢(triple query)
在給定頭實體h、關(guān)系r的條件下,查詢預(yù)測缺失的尾實體,于是該查詢?nèi)蝿?wù)可以簡寫為。具體地,這個查詢?nèi)蝿?wù)用SPARQL可以表示為:
SELECT ?x
WHERE {h r ?x}
(2)關(guān)系查詢(relation query)
關(guān)系查詢被用于查詢一個項目是否具有給定的關(guān)系或?qū)傩浴jP(guān)系查詢?nèi)蝿?wù)是針對給定的某個實體h,查詢某個關(guān)系r是否與該實體相連,可以簡寫為。該查詢?nèi)蝿?wù)用SPARQL可以表示為:
SELECT ?x
WHERE {h ?x ?y}
因此,考慮到商品知識圖譜的不完整性問題,預(yù)訓(xùn)練知識圖譜模型應(yīng)該具有以下能力:
● 對于某一實體,顯示該實體與其他實體之間是否存在某指定關(guān)系;
圖2 知識圖譜中的上下文三元組
● 給定頭實體和關(guān)系,查詢對應(yīng)的尾實體;
● 給定頭實體和關(guān)系,如果查詢不到尾實體,那么預(yù)測缺失的尾實體。
經(jīng)過預(yù)訓(xùn)練,三元組查詢模塊和關(guān)系查詢模塊可以為任意給定的目標(biāo)實體提供知識服務(wù)向量。更具體地說,一方面,關(guān)系查詢模塊可為目標(biāo)實體提供包含不同關(guān)系信息的服務(wù)向量,如果目標(biāo)實體具有或應(yīng)該具有關(guān)系,則服務(wù)向量將趨于零向量;另一方面,三元組查詢模塊可為目標(biāo)實體提供包含不同關(guān)系的尾實體信息的服務(wù)向量。
對于PKGM,在預(yù)訓(xùn)練知識圖譜模型預(yù)訓(xùn)練好的基礎(chǔ)上,通過向量空間計算為其他任務(wù)提供向量知識服務(wù),具體如圖3所示。在預(yù)訓(xùn)練階段,首先會在10億規(guī)模的商品知識圖譜上對模型進(jìn)行預(yù)訓(xùn)練,使預(yù)訓(xùn)練模型具備為三元組查詢和關(guān)系查詢提供知識信息的能力。在服務(wù)階段,對于需要實體知識的任務(wù),PKGM提供包含其三元組信息的嵌入向量,然后將其應(yīng)用于基于嵌入的知識增強任務(wù)模型中。
圖3 知識圖譜靜態(tài)預(yù)訓(xùn)練模型
基于上述的關(guān)系查詢和三元組查詢兩種查詢方式,可以構(gòu)建對應(yīng)的模塊和評分函數(shù)用于模型預(yù)訓(xùn)練,因此PKGM主要包含兩個查詢模塊:三元組查詢模塊和關(guān)系查詢模塊。
自從知識圖譜表示學(xué)習(xí)方法被提出,將實體和關(guān)系映射到向量空間的方法被大量的實驗證明是有效的,因此在三元組查詢模塊中,采用了表示學(xué)習(xí)中相對簡單而有效的TransE模型[6]。每個實體e∈E和每個關(guān)系被編碼為嵌入向量,那么頭實體h、關(guān)系r和尾實體t對應(yīng)的嵌入向量可以表示為h、r和t。根據(jù)轉(zhuǎn)換模型的假設(shè),對于每個正確的三元組,存在這樣的關(guān)系,其中這些嵌入向量都是d維的向量,表示為和。于是它們的評分函數(shù)可以表示為:
其中,表示向量x的L1范式[7]。對于正確的三元組,h+r的和向量越接近t越好;對于錯誤的三元組,h+r要盡可能遠(yuǎn)離t。
設(shè)置關(guān)系查詢模塊主要是為了編碼某個實體h是否存在與之相連的某種關(guān)系r,評分函數(shù)可以寫為,并且用零向量0表示存在這樣的關(guān)系。如果實體h與關(guān)系r相連,函數(shù)frel(h,r)接近零向量0,即frel(h,r)≈0;如果該實體h與關(guān)系r不存在相連的情況,那么函數(shù)frel(h,r)盡可能遠(yuǎn)離零向量0。在細(xì)節(jié)上,對于每一個關(guān)系r,還定義了轉(zhuǎn)化矩陣Mr,可以將向量h轉(zhuǎn)化為向量r,這樣的方式可以使得正確的三元組中的Mrh盡可能接近r,即。于是,評分函數(shù)可以表示為:
經(jīng)過上述兩個查詢模塊的訓(xùn)練后,可以利用知識圖譜預(yù)訓(xùn)練模型中已經(jīng)訓(xùn)練好的模型參數(shù)(包括頭實體h、關(guān)系r和尾實體t的嵌入向量、轉(zhuǎn)化矩陣Mr等),為特定任務(wù)提供兩類對應(yīng)的知識服務(wù)。
(1)三元組查詢服務(wù)Striple
給定頭實體h和關(guān)系r,三元組查詢服務(wù)Striple可以給出預(yù)測的候選尾實體:
(2)關(guān)系查詢服務(wù)Srel
類似于上述的三元組查詢服務(wù),關(guān)系查詢服務(wù)Srel能夠提供一個向量來表示實體h是否存在包含關(guān)系r的三元組:
這里會有以下3種情況:一是實體h顯式地與關(guān)系r相連,即存在同時包含h和r的三元組,那么此時Srel會接近0;二是實體h隱式地與關(guān)系r相連,即不存在直接包含h和r的三元組,但是在真實情況中實體h能夠與關(guān)系r相連,此時Srel仍然接近0;三是實體h與關(guān)系r不相連,數(shù)據(jù)集中不包含這樣的三元組,真實世界中也不存在,那么Srel應(yīng)該遠(yuǎn)離0。
上述三元組查詢模塊和關(guān)系查詢模塊各自的預(yù)訓(xùn)練和服務(wù)階段的函數(shù)見表1。從表1可以更清晰地看出它們的差別和聯(lián)系。
給定頭實體h和關(guān)系r,通過知識圖譜靜態(tài)預(yù)訓(xùn)練模型的查詢服務(wù)得到的知識有著非常顯著的優(yōu)勢:一方面,可以通過向量空間的運算間接地得到對應(yīng)的尾實體t,這使得查詢服務(wù)能夠獨立于數(shù)據(jù)本身,從而更好地保護(hù)數(shù)據(jù),尤其是隱私數(shù)據(jù);另一方面,通過給定的頭實體h和關(guān)系r輸入對,經(jīng)過兩個查詢服務(wù)能夠分別得到兩個向量,而不是未經(jīng)處理的三元組數(shù)據(jù)本身,能夠以更簡單的方式應(yīng)用在多種特定任務(wù)上。除此以外,這兩個查詢服務(wù)模塊還能夠通過推理計算得到知識圖譜數(shù)據(jù)集暫未包含的、但真實情況中存在的三元組,能夠有效地解決知識圖譜不完整性[9]的問題。
表1 知識圖譜靜態(tài)預(yù)訓(xùn)練模型的預(yù)訓(xùn)練階段和服務(wù)階段的函數(shù)
在知識圖譜中,通過某個給定的實體的上下文信息,可以生成來自三元組查詢模塊和關(guān)系查詢模塊的服務(wù)向量序列,分別表示為和,其類似于自然語言處理領(lǐng)域中描述文本或者特征標(biāo)簽的單詞嵌入向量序列。其中,從某個實體e的上下文三元組(h,r,t)中抽取出所有關(guān)系r,并組成核心關(guān)系集合 Re,k表示核心關(guān)系集合Re中的第k個關(guān)系。
基于目標(biāo)實體生成包含知識圖譜結(jié)構(gòu)化信息的兩種服務(wù)向量位于同一個統(tǒng)一的、連續(xù)的向量空間中,便于滿足后續(xù)多種知識增強任務(wù)的應(yīng)用需求。根據(jù)目標(biāo)實體輸入模型的嵌入向量個數(shù),可以將下游基于嵌入向量的模型分為兩類,分別是輸入嵌入向量序列的模型和輸入單個嵌入向量的模型。
(1)嵌入向量序列模型的輸入是多個向量,往往包含較多的信息,例如由某個實體的文本描述或者標(biāo)簽特征生成的向量序列,可以表示為考慮到序列模塊能夠自動捕捉元素之間的交互信息,類似于BERT模型中使用的雙向Transformer[10]模塊,因此可以將基于某個實體e得到的和這兩種服務(wù)向量序列,直接拼接到原輸入序列的尾部,從而讓原先的文本單詞信息與知識圖譜信息自動融合、充分交互學(xué)習(xí)。此時,模型的輸入就變?yōu)榧聪燃尤肴M查詢模塊的服務(wù)向量再加入關(guān)系查詢模塊的服務(wù)向量序列如圖4所示。
(2)單個嵌入向量模型是指只輸入一個有關(guān)目標(biāo)實體e的嵌入向量的模型。這里的單個向量指的是實體e在潛在向量空間中對應(yīng)的向量,并將其表示為Ee,如圖4的原始模型部分所示。
考慮到整個原始模型的輸入只有一個向量,需要在模型原始的輸入向量和融合了知識的服務(wù)向量之間取一個平衡,因此這里將和融合為一個向量。具體來說,需要將基于相同關(guān)系但來源于不同模塊的兩個向量和一起考慮,這里直接將它們拼接成新的向量
其中,i是1到k之間的一個整數(shù),即而[x;y]表示由向量x和向量y拼接成的新的服務(wù)整合向量。
然后,將生成的向量序列進(jìn)一步整合、平均池化為單個向量:
圖4 將服務(wù)向量添加到嵌入向量序列模型尾部的示意圖
最后將充分融合了結(jié)構(gòu)化知識信息的向量Se和原始的嵌入向量Ee拼接成一個向量,如圖5所示。
相對于靜態(tài)預(yù)訓(xùn)練模型僅能為下游任務(wù)提供已經(jīng)包含了結(jié)構(gòu)化信息的嵌入向量表,知識圖譜動態(tài)預(yù)訓(xùn)練模型能夠根據(jù)下游任務(wù)的特征動態(tài)調(diào)整模型結(jié)構(gòu)和模型參數(shù),并根據(jù)下游任務(wù)對知識圖譜中某些特征的傾向性進(jìn)行微調(diào)和適配,具有更好的兼容性和擴展性。
整個知識圖譜動態(tài)預(yù)訓(xùn)練模型主要由上下文模塊(contextual module,C-Mod)和整合模塊(aggregation module,A-Mod)兩部分構(gòu)成。前者獲取目標(biāo)三元組的上下文三元組序列,并將每個上下文三元組的3個嵌入向量融合為一個向量;后者主要整合、交互學(xué)習(xí)上下文三元組向量序列,挖掘潛在的結(jié)構(gòu)性特征,利用得分函數(shù)計算三元組分類任務(wù)的效果并用于訓(xùn)練。
(1)上下文模塊
然后,對于每一個上下文三元組c,例如目標(biāo)三元組的第x個上下文三元組,需要將原本對應(yīng)的3個嵌入向量hx、rx和tx編碼成一個向量cx:
對于C-Mod中的具體編碼方式,可以有多種選擇,比如簡單的單層前饋神經(jīng)網(wǎng)絡(luò)。這里選擇通過Transformer對向量序列進(jìn)行學(xué)習(xí)和融合編碼。將上下文三元組向量序列輸入Transformer之前,需要在序列前端加入特殊的標(biāo)記[TRI],生成得到一個新的序列,該序列對應(yīng)的向量表示為,其中表示標(biāo)記[TRI]對應(yīng)的向量。在Transformer的最后一層,標(biāo)記[TRI]對應(yīng)位置上的向量為充分交互學(xué)習(xí)后融合了該三元組所有特征的向量,即向量cx。那么,頭實體h、關(guān)系r和尾實體t各自的上下文三元組特征向量序列seq可以表示為:
(2)整合模塊
整合模塊將目標(biāo)三元組(h,r,t)的上下文三元組向量序列seq整合編碼輸出為對應(yīng)的整合向量a,即:
為了增強目標(biāo)三元組(h,r,t)中每個元素對應(yīng)的上下文三元組在訓(xùn)練過程中的獨立性,給每個三元組特征向量都加上一個段向量。具體地,總共有3種段向量:sh表示頭實體h對應(yīng)的上下文三元組的段向量,類似地,關(guān)系r和尾實體t對應(yīng)的段向量為sr和st。將上下文三元組特征向量加上段向量后生成新的特征向量:
圖5 將服務(wù)向量添加到單個嵌入向量模型的示意圖
在將h、r、t的更新后的上下文三元組拼接特征向量序列輸入整合模塊之前,還需加入特定的標(biāo)記來進(jìn)一步區(qū)分它們。類似于上下文模塊的[TRI]標(biāo)簽,這里引入[HEA]、[REL]和[TAI]標(biāo)簽,而它們對應(yīng)的向量表示為和,將這3個向量分別加入頭實體h、關(guān)系r、尾實體t的更新后的上下文三元組特征向量序列中,得到更新后的輸入向量序列i:
整合模塊用另一個不同參數(shù)的多層雙向Transformer來編碼學(xué)習(xí)輸入的向量序列i,并在訓(xùn)練結(jié)束后,取出Transformer最后一層中[HEA]、[REL]和[TAI]對應(yīng)的向量ah、ar和at,這些向量表示經(jīng)過充分整合交互學(xué)習(xí)后包含了豐富的知識圖譜結(jié)構(gòu)化信息的特征向量。
最后,將這3個向量拼接在一起,經(jīng)過一個全連接層,融合為一個統(tǒng)一的整合向量:
(3)評分函數(shù)和損失函數(shù)
類似于自然語言處理中的預(yù)訓(xùn)練模型,知識圖譜動態(tài)預(yù)訓(xùn)練模型也包括預(yù)訓(xùn)練和微調(diào)兩個階段。預(yù)訓(xùn)練階段會對海量的數(shù)據(jù)進(jìn)行無監(jiān)督學(xué)習(xí),而微調(diào)階段就相對輕量,一方面根據(jù)特定任務(wù)的輸入輸出等要求調(diào)整模型結(jié)構(gòu)并進(jìn)行適配,另一方面基于相對較小的特定數(shù)據(jù)集,在預(yù)訓(xùn)練階段模型參數(shù)的基礎(chǔ)上再次訓(xùn)練和微調(diào),使之在特定任務(wù)上能更快地獲得更好的效果。
(1)預(yù)訓(xùn)練階段
在預(yù)訓(xùn)練階段,動態(tài)預(yù)訓(xùn)練模型利用三元組分類任務(wù)進(jìn)行訓(xùn)練。三元組分類任務(wù)是無監(jiān)督任務(wù),將數(shù)據(jù)庫中存在的三元組視為正樣本,同時通過隨機替換實體或者關(guān)系生成原本數(shù)據(jù)集中不存在的三元組,并將這些三元組作為負(fù)樣本,訓(xùn)練目標(biāo)為二分類任務(wù),即判斷該三元組是否正確。對于每一個輸入的三元組,預(yù)訓(xùn)練模型都獲取其上下文三元組并進(jìn)行采樣、聚合,通過三元組分類任務(wù)訓(xùn)練學(xué)習(xí)得到其中的結(jié)構(gòu)化信息。預(yù)訓(xùn)練階段輸入的是三元組,而用輸出的嵌入向量來判斷三元組是正確的還是錯誤的。如圖6所示,給定一個目標(biāo)三元組(h,r,t),找到它的上下文三元組并通過上下文模塊和整合模塊將它們輸入知識圖譜動態(tài)預(yù)訓(xùn)練模型中,最后得到聚合輸出表示向量。
預(yù)訓(xùn)練階段需要用到盡可能大的甚至全量的知識圖譜數(shù)據(jù)集,這樣才能更好地學(xué)習(xí)到知識圖譜中的深層次結(jié)構(gòu)化信息,才真正能夠幫助下游任務(wù)。例如,BERT模型[3]使用了包含8億個單詞的BooksCorpus[11]數(shù)據(jù)集和25億個單詞的Wikipedia[12]數(shù)據(jù)集進(jìn)行預(yù)訓(xùn)練,然后兩個大小不同的模型(包括1.1億個參數(shù)的BERTBASE模型和3.4億個參數(shù)的BERTLARGE模型)分別在16個張量處理單元(tensor processing unit,TPU)上訓(xùn)練了4天才完成。
圖6 動態(tài)預(yù)訓(xùn)練模型結(jié)構(gòu)示意圖
對于知識圖譜的數(shù)據(jù)集,難以構(gòu)造橫跨多個不同知識圖譜數(shù)據(jù)集的全量數(shù)據(jù)集,比如FB15k[6]、WN18、YAGO[13]等,甚至基于它們各自最原始的數(shù)據(jù)集Freebase[14]和WordNet[15]等都難以直接合并成一個數(shù)據(jù)集。這是因為每個數(shù)據(jù)集中的實體和關(guān)系都是以不同的文本和組織方式構(gòu)建的,很難直接建立起不同數(shù)據(jù)集之間的聯(lián)系。然而,筆者還是找到了合適的方法去間接構(gòu)造一個足夠大且豐富的知識圖譜預(yù)訓(xùn)練數(shù)據(jù)集:利用包含真實世界描述的WordNet數(shù)據(jù)集(其中包含了名詞、動詞、形容詞和副詞等詞性的單個詞語,最大程度地反映了真實場景和語言習(xí)慣),建立不同知識圖譜數(shù)據(jù)集關(guān)聯(lián)的橋梁。而其他知識圖譜數(shù)據(jù)集中的實體或者關(guān)系往往是由多個單詞構(gòu)成的,可以利用類似于短語包含某些單詞的關(guān)系構(gòu)建起實體與實體之間的聯(lián)系。而在阿里巴巴電商知識圖譜上,可以直接利用海量商品的屬性和屬性值等三元組,用預(yù)訓(xùn)練模型學(xué)習(xí)商品知識圖譜的結(jié)構(gòu)化信息。商品知識圖譜足夠大,具有10億節(jié)點級別的商品和千億級別的三元組,可以支撐預(yù)訓(xùn)練的數(shù)據(jù)需求,并且能夠在下游任務(wù)中很好地發(fā)揮出預(yù)訓(xùn)練模型的作用。
(2)微調(diào)階段
在微調(diào)階段,模型的輸入輸出結(jié)構(gòu)會根據(jù)具體的任務(wù)和數(shù)據(jù)集特性進(jìn)行調(diào)整,同時將調(diào)整后的模型在特定數(shù)據(jù)集上進(jìn)行微調(diào)訓(xùn)練,最后得到符合該特定任務(wù)需求并有不錯效果的模型,如圖7所示。
例如,實體對齊任務(wù)的目標(biāo)是在真實世界中找到本質(zhì)上是同一個事物或者事件而在輸入的知識圖譜數(shù)據(jù)集中有兩種或者多種表示的實體,比如中文語義下的實體對(漂亮的,美麗的)、(睡覺,睡眠)和(狗,犬)等,表達(dá)的是相同含義卻有不同的文字描述。在這個實體對齊任務(wù)上,模型的輸入從原來的三元組(h,r,t)變?yōu)轭^尾實體對(h,t),即刪除了關(guān)系r這一項元素,剩下前后兩個實體,進(jìn)一步來說,這兩個實體就是判斷是否具有相同含義的實體對(e1,e2)。相應(yīng)地,模型的輸出部分也需要替換為描述兩個實體是否對齊的訓(xùn)練函數(shù),具體如圖7(c)所示。
又如實體類型預(yù)測任務(wù),需要找到某個實體所屬的類別,而這個類別是存在于知識圖譜中的另一個實體,即預(yù)測(實體,實體類型)中缺失的實體類型,比如(老虎,貓科動物)、(中文,語言)和(T細(xì)胞,淋巴細(xì)胞)等實體類型對。類似于上述的實體對齊任務(wù),實體類型預(yù)測任務(wù)中的模型輸入也變?yōu)橐粋€實體對,而輸出部分是判斷這個實體類型對是否正確的評分函數(shù),如圖7(b)所示。
在刪除了出現(xiàn)次數(shù)較低的實體后的商品知識圖譜上對PKGM進(jìn)行預(yù)訓(xùn)練。預(yù)訓(xùn)練完成后,在多個對知識圖譜有需求的下游任務(wù)進(jìn)行效果驗證,不僅包括商品分類、同款商品對齊、商品推薦等以圖譜數(shù)據(jù)服務(wù)為基礎(chǔ)的任務(wù),還包括可以利用知識圖譜增強效果的一些NLP任務(wù),例如商品實體識別、商品屬性補齊和關(guān)系抽取、商品標(biāo)題生成等。這里重點介紹了商品分類、同款商品對齊、商品推薦3個任務(wù)。在實驗中,將只提供三元組服務(wù)向量的標(biāo)記為PKGM-T,只提供關(guān)系服務(wù)向量的標(biāo)記為PKGM-R,兩類服務(wù)向量都提供的標(biāo)記為PKGM-all。
億級的商品數(shù)據(jù)組織依賴于良好的類目體系,因此商品分類在阿里巴巴電商平臺是一項常見且重要的任務(wù),其目標(biāo)是將給定的商品分類到類目中對應(yīng)的類別。商品的標(biāo)題往往包含了密集的商品信息,因此也常被用作商品分類的原始信息,基于商品標(biāo)題,商品分類任務(wù)可對應(yīng)為文本多分類任務(wù)[16],鑒于目前語言預(yù)訓(xùn)練模型在文本分類任務(wù)上取得了很好的效果,這里將BERT作為基準(zhǔn)模型。圖8(a)展示了基準(zhǔn)模型BERT,圖8(b)展示了PKGM增強的BERT模型,這里采用了為序列嵌入向量模型提供知識圖譜服務(wù)的方式。
從阿里巴巴電商真實場景中抽取出1 293個類別和這些類別下的商品,生成正樣本和負(fù)樣本為1:1的數(shù)據(jù)集,具體見表2。為了更好地證明結(jié)合文本的知識圖譜預(yù)訓(xùn)練模型的能力,在數(shù)據(jù)準(zhǔn)備過程中將每個類別的實例(商品)限制在100個以下,展現(xiàn)出較少的訓(xùn)練樣本數(shù)據(jù)情況下下游任務(wù)的實驗效果。為此還特意生成每個類別不同實例個數(shù)的3種數(shù)據(jù)集dataset-20、dataset-50和dataset-100,分別表示每個類別只有20、50或者100個實例個數(shù)的數(shù)據(jù)集。表2中的#Train、#Test和#Dev分別表示由三元組構(gòu)成的訓(xùn)練集、測試集和驗證集。
圖7 在微調(diào)階段,圖中3個模型結(jié)構(gòu)對應(yīng)于3個不同的訓(xùn)練任務(wù)
圖8 商品分類任務(wù)模型
在實驗中,采用預(yù)訓(xùn)練語言模型BERTBASE在中文語言數(shù)據(jù)集上的訓(xùn)練模型作為基準(zhǔn)模型,其中包含12層Transformer、12個注意力頭(attention head)和大小為768的向量維度。類似于BERT模型,在輸入數(shù)據(jù)序列前端加上特殊的分類符[CLS],其在最后一層模型對應(yīng)位置的嵌入向量用于表示整合了這個輸入序列的向量。這里將整個序列長度固定為128,包含一個[CLS]分類符和長度為127的標(biāo)題序列,若原始標(biāo)題文本長度不夠則補零,若超出則截取最前面127個字符序列。
基于知識圖譜預(yù)訓(xùn)練得到的服務(wù)向量,可以得到PKGM增強的模型BERTPKGM-all,具體步驟為:將基準(zhǔn)模型BERT輸入序列的最后2k個向量替換為k個關(guān)系查詢模塊的服務(wù)向量序列和k個三元組查詢模塊的服務(wù)向量序列,然后進(jìn)行微調(diào)階段的訓(xùn)練。類似地,只將輸入序列中最后k個向量替換為k個三元組查詢模塊服務(wù)向量序列的模型,寫為BERTPKGM-T,而替換為k個關(guān)系查詢模塊服務(wù)向量的模型,寫為BERTPKGM-R。
表2 商品分類任務(wù)的數(shù)據(jù)集
在訓(xùn)練批量大?。╞atch size)為32、學(xué)習(xí)率(learning rate)為2e-5的參數(shù)條件下,對PKGM訓(xùn)練了3個輪次(epoch),其中來自知識圖譜預(yù)訓(xùn)練的服務(wù)向量是固定不變的,而BERT模型中的相關(guān)參數(shù)會在訓(xùn)練中被調(diào)整優(yōu)化,最終得到的商品分類任務(wù)實驗結(jié)果見表3。表3給出了商品分類的預(yù)測準(zhǔn)確率(accuracy,AC)和前k個預(yù)測值的命中率Hit@k,其中Hit@k表示在所有的測試數(shù)據(jù)集中預(yù)測正確的類別在所有商品類別的預(yù)測值序列中排名前k個的百分比,其中k包括1、3和10這3個候選值。
從表3可以看到,在預(yù)測準(zhǔn)確率和Hit@k指標(biāo)上,融入了知識服務(wù)向量的模型BERTPKGM在這3個數(shù)據(jù)集上都要優(yōu)于基準(zhǔn)模型BERT。具體來說,一方面,同時融入了兩種服務(wù)向量的BERTPKGM-all模型在Hit@1指標(biāo)上都有最好的效果;另一方面,在Hit@3、Hit@10和預(yù)測準(zhǔn)確率這3個指標(biāo)上,BERTPKGM-all和BERTPKGM-R這兩個模型有較好的效果,而且它們中的一個能達(dá)到特定條件下最好的實驗效果。這也證明了知識圖譜預(yù)訓(xùn)練模型和提供相應(yīng)的查詢服務(wù)向量的有效性,并且其中關(guān)系查詢模塊往往發(fā)揮著比三元組查詢模塊更重要的作用。
表3 商品分類任務(wù)的結(jié)果
當(dāng)然在一定程度上,BERTPKGM-R在不少時候比BERTPKGM-all有更好的效果,打破了人們對“有更多知識圖譜特征向量往往能有更好效果”的傳統(tǒng)認(rèn)知。這很可能是因為在商品分類任務(wù)上,那些被三元組服務(wù)向量序列替換掉的文本序列比替換它們的三元組服務(wù)向量序列更重要,在這些特定指標(biāo)上,文本序列本身比判斷三元組是否成立的信息更有價值。
阿里巴巴電商平臺上的商品數(shù)量數(shù)以億計,給商品管理帶來了巨大挑戰(zhàn),其中一個挑戰(zhàn)就是同款商品挖掘。商品在商品知識圖譜中以實例的形式存在,因此商品同款的本質(zhì)是商品對齊任務(wù),其目標(biāo)是找到本質(zhì)上是相同的,但在平臺上的擁有不同商品ID的商品,這種同款商品一般被定義為同一個產(chǎn)品。產(chǎn)品指由相同廠商生產(chǎn)的、具有相同款式相同屬性而又與具體銷售店鋪無關(guān)的物品,商品定義為不同銷售店鋪或者商家在平臺上設(shè)置上傳并銷售的、可能是相同產(chǎn)品也可以是不同產(chǎn)品的物品,每個商品都有自己唯一的ID。比如,平臺上綠色、256 GB容量的某品牌某型號手機有很多,由不同商家售賣,因此這些商品在電商平臺上被存儲為不同的商品,但從產(chǎn)品的角度或者銷售的商品本身而言,它們是同一款產(chǎn)品。檢測兩個商品是否是同一產(chǎn)品的任務(wù)在阿里巴巴電商場景的日常業(yè)務(wù)中非常重要。例如,用戶想購買一臺綠色、256 GB容量的某品牌某型號手機,在搜索框輸入具體商品的需求后,能夠顯示所有屬于該產(chǎn)品的商品,有助于用戶方便、深入地比較銷售價格及售后服務(wù)等。更重要的是,產(chǎn)品的數(shù)量遠(yuǎn)小于商品數(shù)量,因此從產(chǎn)品的角度來組織商品有助于減少數(shù)據(jù)管理和挖掘的工作量。
正因為商品來源不同,對齊同款商品成為提高數(shù)據(jù)有效性的重要任務(wù),其目標(biāo)是判斷給定的兩個商品是否為同款商品。商品信息用標(biāo)題表示,這個任務(wù)可對應(yīng)于同義句識別,基準(zhǔn)模型的輸入類似于BERT模型的下游任務(wù),分別輸入兩個句子的文本,然后做分類任務(wù),具體細(xì)節(jié)與商品分類任務(wù)相似,如圖9(a)所示;而在PKGM增強的BERT模型中,在每個句子文本序列后面分別加入[SEP]標(biāo)簽和與該商品對應(yīng)的包含知識信息的服務(wù)向量序列,如圖9(b)所示。
從商品知識圖譜中抽取出女裝襯衫(category-1)、頭發(fā)飾品(category-2)和兒童襪類(category-3)這3個類別的三元組集合,作為商品對齊任務(wù)的實驗數(shù)據(jù)集。
圖9 商品對齊任務(wù)模型
每個數(shù)據(jù)集中都有上千個樣本,每個樣本中包含兩個商品各自的商品標(biāo)題和判斷這兩者是否對齊的標(biāo)簽,標(biāo)簽1表示兩個商品對齊,而標(biāo)簽0表示兩個商品沒有對齊。將包含正負(fù)樣本的所有樣本集合按照7:1.5:1.5的比例分配成訓(xùn)練集#Train、測試集#Test-C和驗證集#Dev-C,用于訓(xùn)練和同款商品分類指標(biāo)的測量,但是為了測試前k個預(yù)測值的命中率Hit@k,需要從中提取出只包含正樣本的數(shù)據(jù)集并排序,因此得到相應(yīng)的測試集#Test-R和驗證集#Dev-R,具體見表4。
類似于第5.1節(jié)中的商品分類任務(wù),同款商品對齊任務(wù)將BERT作為基準(zhǔn)模型,并且輸入格式與商品分類任務(wù)相同,只是在輸入數(shù)據(jù)上略有不同。每個輸入數(shù)據(jù)由兩個商品的標(biāo)題文本嵌入向量序列組成,在整個序列的第一個位置加入[CLS]標(biāo)簽,在每個標(biāo)題序列后加入[SEP]標(biāo)簽,并用類似于第5.1節(jié)的方法歸一化商品標(biāo)題長度。表5展示了商品對齊任務(wù)的Hit@k結(jié)果,在3個數(shù)據(jù)集上,BERTPKGM-all模型的Hit@3和Hit@10指標(biāo)都優(yōu)于基準(zhǔn)模型BERT,并且在category-2和category-3這兩個數(shù)據(jù)集上的所有指標(biāo)上都有最好的效果,展示了知識圖譜預(yù)訓(xùn)練模型對商品對齊任務(wù)的有效性,并且提升了預(yù)測準(zhǔn)確率。在數(shù)據(jù)集category-1的Hit@1指標(biāo)上,基準(zhǔn)模型BERT略優(yōu)于BERTPKGM-all模型,很可能是因為該類別的數(shù)據(jù)集較大??梢哉f,足夠的標(biāo)題文本序列對商品對齊任務(wù)是有幫助的,而知識圖譜預(yù)訓(xùn)練模型在少樣本數(shù)據(jù)集上能發(fā)揮出更大的作用。
同時,比較了結(jié)合知識圖譜預(yù)訓(xùn)練模型產(chǎn)生的兩種查詢服務(wù)向量不同組合方式的實體對齊任務(wù)的預(yù)測準(zhǔn)確率,具體見表6。從表6可以很明顯地看出,BERTPKGM-all模型在3個數(shù)據(jù)集上都有最好的效果,有效提升了實體對齊任務(wù)的預(yù)測能力。
表4 商品對齊任務(wù)的數(shù)據(jù)集
表5 商品對齊任務(wù)的Hit@k指標(biāo)的實驗結(jié)果
表6 商品對齊任務(wù)的準(zhǔn)確率指標(biāo)結(jié)果
商品推薦是除搜索外將適合的商品呈現(xiàn)在用戶面前的重要方式,因此商品推薦也是一項重要的任務(wù)。針對預(yù)測商品和用戶交互的下游任務(wù)進(jìn)行實驗,實驗中將用戶和商品的交互記錄圖作為輸入并預(yù)測潛在的交互,這是典型的鏈接預(yù)測任務(wù)。采用神經(jīng)協(xié)同過濾(neural collaborative filtering,NCF)算法[17]作為基準(zhǔn)模型。廣義矩陣分解(generalized matrix factorization,GMF)層和多層感知機(multi-layer perceptron,MLP)層能夠?qū)τ脩艉蜕唐返慕换?shù)據(jù)進(jìn)行建模,其中廣義矩陣分解層使用線性核來模擬潛在的特征交互,而多層感知機層使用非線性核函數(shù)從數(shù)據(jù)中學(xué)習(xí)交互函數(shù)。圖10(a)展示了基準(zhǔn)模型NCF,圖10(b)展示了PKGM增強的NCF模型,這里采用為單個嵌入向量模型提供知識圖譜服務(wù)的方式。
在從淘寶真實記錄中采樣得到的數(shù)據(jù)集上進(jìn)行測試,表7展示了商品推薦任務(wù)的具體細(xì)節(jié),其中包括兩萬多個用戶(#Users)和3萬多個商品(#Items),以及44萬條用戶-商品交互記錄(#Interactions)。數(shù)據(jù)集中保證每個用戶的交互記錄至少有10條,不至于太過稀疏。
基于上述數(shù)據(jù)集進(jìn)行實驗,實驗中采用“l(fā)eave one out”進(jìn)行推薦效果評估。對于每個用戶的數(shù)據(jù),將其最近一次的交互作為測試集,其余作為訓(xùn)練集。在測試過程中,隨機采樣100個未觀測到的負(fù)樣本,將這些負(fù)樣本同真正的測試正樣本進(jìn)行排序,通過這樣的方式統(tǒng)計排名前k個命中率HR@k以及歸一化累計增益NDCG@k,并將其作為評估指標(biāo),其中k的取值范圍是{1,3,5,10,30},對于每一個測試用戶,分別計算這兩種評價指標(biāo),并求出其在所有測試用戶上的均值作為最終評估指標(biāo)。
圖10 商品推薦任務(wù)的模型
為每個用戶隨機采樣一個正樣本交互作為驗證集,以求得模型的最優(yōu)超參數(shù)。對于廣義矩陣分解層,用戶嵌入和商品嵌入的維度都為8。在多層感知機層中,用戶嵌入和商品嵌入的維度設(shè)置為32。對于基準(zhǔn)模型和知識增強模型,3個隱藏層的維度依次為32、16和8。對于知識增強模型,輸入增強的特征,并與多層感知機層的用戶嵌入和商品嵌入進(jìn)行拼接,并且為廣義矩陣分解層和多層感知機層中的用戶嵌入和商品嵌入加了L2正則化懲罰,懲罰系數(shù)選擇為0.001。學(xué)習(xí)率設(shè)置為0.000 1,預(yù)測層的維度為16,預(yù)測層的輸入是由兩個8維向量拼接而成的,分別是廣義矩陣分解層的輸出和多層感知機層的輸出。在實驗中,采用的負(fù)采樣比例為4,即為每個正樣本采樣4個負(fù)樣本。為了更加簡潔和有效,基線模型和知識增強模型均采用了非預(yù)訓(xùn)練版本的神經(jīng)協(xié)同過濾模型。
最終的實驗結(jié)果見表8,有NCFPKGM-T標(biāo)識的神經(jīng)協(xié)同過濾模型表示僅加入了基于知識圖譜預(yù)訓(xùn)練的三元組查詢服務(wù)向量的知識增強模型,有NCFPKGM-R標(biāo)識的神經(jīng)協(xié)同過濾模型表示僅加入了關(guān)系查詢服務(wù)向量的知識增強模型,有NCFPKGM-all標(biāo)識的神經(jīng)協(xié)同過濾模型表示融合了以上兩種服務(wù)向量的知識增強模型。
從表8可以看出:首先,相對于基準(zhǔn)模型來說,所有的知識增強模型在所有評價指標(biāo)上均有提升效果。對于NCFPKGM-T模型來說,它在HR@k指標(biāo)上比基線模型平均提升了0.37%,而在NDCG@k指標(biāo)上比基線模型平均提升了0.002 3。對于NCFPKGM-R模型來說,它在HR@k指標(biāo)上比基線模型平均提升了3.66%,而在NDCG@k指標(biāo)上比基線模型平均提升了0.034 3。對于NCFPKGM-all模型來說,它在HR@k指標(biāo)上比基線模型平均提升了3.47%,而在NDCG@k指標(biāo)上比基線模型平均提升了0.032 4。提升的結(jié)果證明了預(yù)訓(xùn)練的知識增強模型能夠有效提供僅從用戶-商品交互不能分析出的額外信息,從而提升了下游任務(wù)(如電商推薦任務(wù))的效果。
表7 商品推薦任務(wù)數(shù)據(jù)集
其次,NCFPKGM-R模型的效果要優(yōu)于NCFPKGM-T模型的效果,說明預(yù)訓(xùn)練模型提供的不同特征的側(cè)重點不同。因此在商品推薦任務(wù)中,NCFPKGM-R模型提供的特征相比于NCFPKGM-T模型提供的特征要更加有用,這很有可能是因為描繪用戶商品交互時,屬性關(guān)系往往要比屬性實體更有效。
將知識預(yù)先訓(xùn)練好,然后融入各種深度模型或下游任務(wù)中或許是未來知識圖譜數(shù)據(jù)應(yīng)用方式的一種新的發(fā)展趨勢。本文介紹了大規(guī)模知識圖譜預(yù)訓(xùn)練及電商應(yīng)用的初步實踐,通過三元組和關(guān)系模塊的設(shè)計,PKGM模型具有在向量空間為下游任務(wù)提供知識圖譜服務(wù)的能力,具有較好的知識圖譜數(shù)據(jù)保護(hù)性以及對下游任務(wù)的兼容性,同時解決了知識圖譜本身的不完整性問題。3種類型的知識圖譜下游任務(wù)實驗證明了PKGM模型能夠提高這些任務(wù)的性能。在未來的工作中,希望將PKGM模型應(yīng)用到更多的下游任務(wù)中,并探索應(yīng)用服務(wù)向量的其他候選方法。
表8 商品推薦任務(wù)的實驗結(jié)果