• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      知識(shí)圖譜推理:現(xiàn)代的方法與應(yīng)用

      2021-06-09 13:20:24王文廣
      大數(shù)據(jù) 2021年3期
      關(guān)鍵詞:推理方法雙曲圖譜

      王文廣

      達(dá)而觀信息科技(上海)有限公司,上海 201203

      1 引言

      近年來,知識(shí)圖譜技術(shù)得到極大的發(fā)展,大量的知識(shí)圖譜被構(gòu)建出來,并被廣泛應(yīng)用在各種場(chǎng)景下。從語義解析、實(shí)體消歧、信息抽取、智能問答、推薦系統(tǒng)、個(gè)性化搜索等技術(shù)方向到金融、軍工、制造業(yè)、生物醫(yī)藥等行業(yè),都可以看到知識(shí)圖譜的應(yīng)用,同時(shí)知識(shí)圖譜的應(yīng)用也在促進(jìn)知識(shí)圖譜技術(shù)的發(fā)展。

      知識(shí)圖譜是事實(shí)或知識(shí)的結(jié)構(gòu)化表示,是由實(shí)體和實(shí)體間的關(guān)系組成的網(wǎng)狀結(jié)構(gòu)。實(shí)體是指獨(dú)立的、擁有清晰特征的、能夠區(qū)別于其他事物的事物。在知識(shí)圖譜中,用來描述這些事物的信息即實(shí)體。實(shí)體在屬性圖中用頂點(diǎn)來表示,實(shí)體關(guān)聯(lián)的類型即實(shí)體類型,在屬性圖中用頂點(diǎn)標(biāo)簽來表示。關(guān)系表達(dá)了兩個(gè)實(shí)體之間的某種語義關(guān)系,通常以語義標(biāo)簽來表示,在屬性圖中表示為有向的邊。也就是說,知識(shí)圖譜G由一系列的三元組組成,其中h和t分別表示頭實(shí)體和尾實(shí)體,r表示由h到t的有向關(guān)系。

      推理是一種人類邏輯思維,讓機(jī)器能夠像人類一樣擁有推理能力一直是人工智能發(fā)展的目標(biāo)。符號(hào)推理和專家系統(tǒng)是早期的嘗試,在知識(shí)圖譜被提出和發(fā)展起來之后,基于知識(shí)圖譜的推理技術(shù)[1-2]也隨之發(fā)展,并成為人工智能中非常熱門的領(lǐng)域之一,也被認(rèn)為是人工智能邁向具備和人類一樣的推理和決策能力的關(guān)鍵技術(shù)。

      在知識(shí)圖譜推理中,知識(shí)圖譜本身提供了人類知識(shí)和經(jīng)驗(yàn)的總結(jié),推理技術(shù)則實(shí)現(xiàn)了基于知識(shí)圖譜中已有的知識(shí)來發(fā)現(xiàn)潛在的、未知的知識(shí),極大地?cái)U(kuò)展了諸如知識(shí)問答、個(gè)性化搜索和智能推薦等能力。同時(shí),在行業(yè)應(yīng)用中,將領(lǐng)域知識(shí)圖譜和推理技術(shù)結(jié)合,從而實(shí)現(xiàn)輔助分析和決策支持。

      本文給出了知識(shí)推理的定義,并介紹了知識(shí)圖譜推理技術(shù);然后分別介紹了現(xiàn)代的基于幾何運(yùn)算和基于深度學(xué)習(xí)的知識(shí)圖譜推理技術(shù),并分別從技術(shù)領(lǐng)域和行業(yè)領(lǐng)域兩個(gè)角度介紹了知識(shí)圖譜推理技術(shù)的應(yīng)用;最后給出了知識(shí)圖譜推理存在的挑戰(zhàn)以及值得關(guān)注的研究方向。

      2 知識(shí)圖譜推理

      知識(shí)圖譜推理旨在從已有的知識(shí)中發(fā)現(xiàn)新的知識(shí)。對(duì)于知識(shí)圖譜來說,新的知識(shí)可以分為兩種:新的實(shí)體和新的關(guān)系。新的實(shí)體涉及的技術(shù)領(lǐng)域通常是實(shí)體抽取、實(shí)體消歧、實(shí)體融合等相關(guān)的自然語言處理或知識(shí)圖譜技術(shù)。新的關(guān)系涉及的技術(shù)領(lǐng)域則有關(guān)系抽取和知識(shí)推理等。知識(shí)圖譜推理,或稱知識(shí)推理,指在既定的知識(shí)圖譜中通過推理技術(shù)推導(dǎo)出實(shí)體間潛在的或者新的關(guān)系,發(fā)現(xiàn)新的知識(shí)。在圖數(shù)據(jù)庫、圖論等相關(guān)領(lǐng)域往往又被稱為鏈接預(yù)測(cè)。

      知識(shí)圖譜推理技術(shù)是伴隨著人工智能、自然語言處理、語義網(wǎng)等技術(shù)發(fā)展起來的。早期有基于規(guī)則的方法,著名知識(shí)圖譜NE LL[3]利用手寫規(guī)則的推理方法來不斷擴(kuò)充規(guī)模。一階邏輯(first order logic,F(xiàn)OL)是早期的一種符號(hào)推理系統(tǒng),也被用于知識(shí)圖譜推理[4]。針對(duì)手寫規(guī)則煩瑣的問題,可采用將規(guī)則與統(tǒng)計(jì)學(xué)習(xí)結(jié)合的馬爾可夫邏輯網(wǎng)(Markov logic network,M LN)[5-7],MLN是經(jīng)典的推理方法。知識(shí)圖譜的層次結(jié)構(gòu)和邏輯結(jié)構(gòu)往往被表示為本體(ontology)或模式(schema),基于本體的推理方法是知識(shí)圖譜推理的經(jīng)典方法之一,也是現(xiàn)實(shí)應(yīng)用中很有 意義的方法[8]。隨機(jī)游走(random walk)是概率統(tǒng)計(jì)中經(jīng)典的隨機(jī)過程,將其應(yīng)用于知識(shí)圖譜推理中產(chǎn)生了著名的路徑排序算法(path ranking algorith m,PRA)[9]及其與深度強(qiáng)化學(xué)習(xí)結(jié)合的深度路徑(deep path)方法[10]。近年來,隨著以深度學(xué)習(xí)為基礎(chǔ)的人工智能技術(shù)的蓬勃發(fā)展,將知識(shí)圖譜嵌入低維空間的方法逐漸成為主 流,TransE[11]是其中的先鋒。

      本文關(guān)注的知識(shí)圖譜推理方法是從TransE開始的,它源自自然語言處理領(lǐng)域的word2vec[12],是當(dāng)前效果最好的、主流的、契合深度學(xué)習(xí)潮流的方法,也被稱為現(xiàn)代的方法。這類方法可學(xué)習(xí)出知識(shí)圖譜的稠密向量表示,是知識(shí)圖譜領(lǐng)域的表示學(xué)習(xí)。對(duì)于學(xué)習(xí)出的稠密向量,既可以直接進(jìn)行推理應(yīng)用,也便于使用各種深度學(xué)習(xí)模型和算法來實(shí)現(xiàn)下游任務(wù),如知識(shí)問答或輔助決策等。

      知識(shí)圖譜G={}?E×R×E,其中E為實(shí)體集合,h、t∈E;R為關(guān)系集合,r∈R?,F(xiàn)代知識(shí)圖譜推理方法的目標(biāo)是通過定義一個(gè)打分函數(shù)fr(h,t)來學(xué)習(xí)出表示實(shí)體和關(guān)系的向量 , ,如式(1)所示,其中→表示映射:

      對(duì)于符合知識(shí)圖譜的正樣本來說,期望打分函數(shù)計(jì)算出的分?jǐn)?shù)無限接近于0。其中,de和dr表示實(shí)體和關(guān)系向量的維度,在大多數(shù)模型中,d=de=dr。在進(jìn)行知識(shí)圖譜推理時(shí),對(duì)于任意給定的實(shí)體對(duì),遍歷知識(shí)圖譜中的關(guān)系r∈R,并計(jì)算的分?jǐn)?shù),若低于某個(gè)閾值,則表示h和t之間存在關(guān)系r。在某些時(shí)候需要從中推斷t,此時(shí)可以遍歷所有的實(shí)體t∈E,使用式(1)來計(jì)算分?jǐn)?shù),若分?jǐn)?shù)低于某個(gè)閾值,則表明實(shí)體h在關(guān)系r的作用下,得到了實(shí)體t。本文使用式(1)所表示的模型框架來介紹各種現(xiàn)代的知識(shí)推理方法。

      3 基于幾何運(yùn)算的方法

      基于幾何運(yùn)算的模型是從word2vec延伸出來的,將知識(shí)圖譜通過平移或旋轉(zhuǎn)等幾何運(yùn)算嵌入低維的幾何空間中(通常是歐幾里得空間,也可以是雙曲空間等)。其中平移表現(xiàn)為向量加法,旋轉(zhuǎn)表現(xiàn)為哈達(dá)瑪積(Hadamard product),嵌入則是一個(gè)數(shù)學(xué)中與流形相關(guān)的概念,表達(dá)一個(gè)數(shù)學(xué)結(jié)構(gòu)的實(shí)例通過映射包含到另一個(gè)實(shí)例中。

      將知識(shí)圖譜嵌入幾何空間時(shí),解決知識(shí)圖譜中不同特點(diǎn)的關(guān)系的推理問題,從而推進(jìn)基于幾何運(yùn)算的方法的發(fā)展,這些特點(diǎn)包括一對(duì)一、一 對(duì)多、多對(duì)一、多對(duì)多[13]、對(duì)稱性(symmetry)、反對(duì)稱性(anti-symmetry)、反向性(inversion)和組合性(c omposition)[14]等。

      3.1 歐幾里得空間嵌入

      知識(shí)圖譜推理的現(xiàn)代方法的雛形是word2vec,并從TransE模型開始逐漸發(fā)展起來。圖1表示了word2vec模型學(xué)習(xí)出來的詞向量滿足w廣東省-w廣州市=w浙江省-w杭州市,其隱含的關(guān)系“省會(huì)”(圖1中虛線)沒有被明確表示出來。TransE將word2vec中隱含的關(guān)系用向量明確地表示出來,并應(yīng)用到知識(shí)圖譜中。

      基于幾何運(yùn)算的知 識(shí)圖譜推理在TransE[11]的基礎(chǔ)上持續(xù)發(fā)展。TransE把實(shí)體間的關(guān)系用向量明確地表示出來,并用幾何平移來解釋實(shí)體間的關(guān)系,如圖2(a)所示。繼TransE后大量平移或旋轉(zhuǎn)的方法被提出來,這些方法和TransE一樣使用歐氏距離來計(jì)算打分函數(shù),使用基于能量的方法來定義損失函數(shù),并用隨機(jī)梯度下降來優(yōu)化模型。

      TransE將實(shí)體和關(guān)系嵌入同一個(gè)空間中,并定義打分函數(shù)為:

      其中,||·||2表示L2范數(shù)(L2 norm)。TransE模型對(duì)僅有一對(duì)一關(guān)系的知識(shí)圖譜非常友好,能夠?qū)W習(xí)出各種具有反對(duì)稱性、反向性和組合性的關(guān)系。其結(jié)構(gòu)簡(jiǎn)單、運(yùn)算量小,是某些現(xiàn)實(shí)場(chǎng)景 的首選方法。

      TransH[13]拓展了TransE模型,為每個(gè)關(guān)系學(xué)習(xí)嵌入空間的一個(gè)超平面Wr(||Wr||=1),并將三元組解釋為實(shí)體在關(guān)系超平面上的平移變換。如圖2(b)所示,TransH先將實(shí)體向量h和t映射到關(guān)系超平面Wr上,得到和,并將關(guān)系表示為超平面上的平移變換,即向量加法。由此TransH的打分函數(shù)為:

      TransH模型通過關(guān)系特定的超平面,實(shí)現(xiàn)了自反、一對(duì)多、多對(duì)一和多對(duì)多的嵌入表示。TransR模型[15]將實(shí)體和關(guān)系分別嵌入不同的幾何空間,使得相同的實(shí)體在不同的關(guān)系下能夠表示不同的語義,進(jìn)一步增強(qiáng)了知識(shí)圖譜的推理能力。如圖2(c)所示,TransR通過映射矩陣將實(shí)體向量h、t映射到關(guān)系空間得到和,并在關(guān)系空間進(jìn)行平移變換,即。由此,將TransR的打分函數(shù)定義為:

      圖1 word2vec的示例

      圖2 基于歐幾里得空間的平移運(yùn)算的知識(shí)圖譜推理模型

      TransD模型[16]用實(shí)體映射向量和關(guān)系映射向量來構(gòu)造映射矩陣和(I表示單位矩陣),并代替TransR中的映射矩陣Mr,使得模型能夠表達(dá)實(shí)體在不同關(guān)系中潛在的多個(gè)語義關(guān)系。由于向量乘法效率高于矩陣乘法,將TransD模型應(yīng)用于大規(guī)模知識(shí)圖譜中具有計(jì)算效率上的優(yōu)勢(shì)。類似地,TransD的打分函數(shù)為:

      圖2(d)直觀地表示了TransD的模型。從圖2和式(2)~式(5)可以看出,TransE、TransH、TransR和TransD 4個(gè)模型一脈相承,都是用歐幾里得空間中的平移來解釋實(shí)體間的關(guān)系,并用歐氏距離來表示 分?jǐn)?shù)。進(jìn)一步地,TransG模型[17]對(duì)這一模式進(jìn)行了泛化建模,并用貝葉斯參數(shù)無限混合模型(Bayesian non-parametric infini te mixture model)[18]和中國(guó)餐館過程(Chinese restaurant process,CRP)來解決關(guān)系的多語義表達(dá)問題。

      TransG的打分函數(shù)是:

      總體來說,TransG模型能夠表示關(guān)系的多種語義。對(duì)其進(jìn)行主成分(primary component)分析可知,TransE模型是TransG模型針對(duì)主成分的特例,而TransG則是TransE的泛化,圖3展示了兩個(gè)模型。

      旋轉(zhuǎn)和平移 一樣是幾何空間的基本操作,RotatE[14]使用旋轉(zhuǎn)代替平移對(duì)關(guān)系進(jìn)行建模,圖4展示了RotatE與TransE的區(qū)別。同時(shí),為了表達(dá)旋轉(zhuǎn),實(shí)體和關(guān)系的嵌入向量從實(shí)數(shù)擴(kuò)展到復(fù)數(shù)向量空間。旋轉(zhuǎn)在復(fù)向量空間的運(yùn)算表示為向量的哈達(dá)瑪積,即每個(gè)元素分別相乘的運(yùn)算,這個(gè)與平移操作的加法是類似的。對(duì)于,RotatE將實(shí)體和關(guān)系嵌入復(fù)向量空間,并定義打分函數(shù)為:

      其中,〇表示哈達(dá)瑪積,模型將向量限制在單位圓中,并解釋為逆時(shí)針的旋轉(zhuǎn),作用于復(fù)向量的相位部分。與平移的方法相比,RotatE能更加高效地實(shí)現(xiàn)對(duì)稱和反對(duì)稱、反向和組合這些關(guān)系類型的建模。例如,可以表示關(guān)系r是對(duì)稱的,r1和r2是共軛的,可以表示兩個(gè)關(guān)系r1和r2是反向的,r3=r1〇r2可以表示r3是r1和r2的組合。RotatE對(duì)具有如上特點(diǎn)的知識(shí)圖譜推理能夠事半功倍。

      3.2 雙曲空間嵌入

      雙曲空間(hyperbolic space)是具有常數(shù)負(fù)曲率的齊次空間,而歐幾里得空間則是零曲率的。雙曲幾何提供了高效的方法來學(xué)習(xí)層次數(shù)據(jù)的低維嵌入,特別地,僅僅用二維的 雙曲空間就能夠以任意低的失真度嵌入樹形數(shù)據(jù)[19]。也就是說,將類似知識(shí)圖譜這樣具有豐富層次結(jié)構(gòu)的數(shù)據(jù)嵌入雙曲空間中,比嵌入歐幾里得空間更加高效。

      雙曲空間嵌入通常使用d維龐加萊球來表示,其中d表示龐加萊球的維度,-c表示曲率。龐加萊球的原點(diǎn)所對(duì)應(yīng)的切線空間是從原點(diǎn)離開的有可能路徑的方向的d維向量空間。切線空間到的映射通過指數(shù)映射(exponential map)實(shí)現(xiàn),而從到則通過對(duì)數(shù)映 射(logarithmic map)實(shí)現(xiàn)[20],這里的0表示原點(diǎn):

      在雙曲空間中,向量x、y的加法通過莫比烏斯加法⊕c實(shí)現(xiàn),向量y和矩陣M的乘法通過莫比烏斯矩陣-向量乘法?c實(shí)現(xiàn),分別定義如下:

      在雙曲空間 中,三元組對(duì)應(yīng)的d維向量,其中c表示雙曲空間的曲率。和歐幾里得空間一樣,模型通過打分函數(shù)來實(shí)現(xiàn)知識(shí)圖譜推理。

      MuRP[23]模型采用曲率為-1的龐加萊球模型(c=1)對(duì)圖譜的實(shí)體關(guān)系進(jìn)行建模,使用式(11),類似TransE,MuRP的打分函數(shù)定義為:

      雙曲嵌入與歐幾里得空間嵌入不同的是,模型會(huì)為每個(gè)實(shí)體額外學(xué)習(xí)一個(gè)偏置b,b表示實(shí)體在雙曲空間中的影響范圍,圖5是MuRP模型的幾何直觀解釋。即頭實(shí)體h和尾實(shí)體t經(jīng)過同一關(guān)系r調(diào)整為雙曲空間的兩個(gè)球體,如果存在重疊,則表示成立,反之則表示h和t不存在關(guān)系r。

      圖3 TransG和TransE對(duì)關(guān)系r進(jìn)行不同表達(dá),在TransE中只能學(xué)習(xí)出一種向量表示r,而TransG能夠?qū)W習(xí)出有細(xì)微語義差別的4個(gè)關(guān)系向量r1、r2、r3和r4

      圖4 RotatE和TransE模型的比較

      圖5 MuRP模型的幾何直觀解釋

      和MuRP使用平移來建模實(shí)體間的關(guān)系不同,ATTH[24]模型使用吉文斯變換表示旋轉(zhuǎn)和反射,從而捕捉不同語義的關(guān)系,并使用雙曲注意力機(jī)制來融合幾何運(yùn)算,同時(shí)歸納出更為復(fù)雜的邏輯模式。此外,考慮到不同關(guān)系蘊(yùn)含的語義信息不一樣,ATTH采用可學(xué)習(xí)的變量為不同的關(guān)系自動(dòng)學(xué)習(xí)出最佳的曲率cr。

      類似TransR、TransD定義出雙曲空間中的旋轉(zhuǎn)運(yùn)算和反射運(yùn)算,這里的和是由關(guān)系特定的參數(shù)和構(gòu)造的塊對(duì)角矩陣,其 中,是2×2的吉文斯變換矩陣。

      ATTH模型中注意力機(jī)制是在龐加萊球的切線空間(一種歐幾里得空間)中進(jìn)行的。通過式(8)的對(duì)數(shù)映射將雙曲空間嵌入向量和映射到切線空間和,并計(jì)算注意力得分和(a是注意力機(jī)制的環(huán)境參數(shù)),然后通過式(8)映射回雙曲空間,得到頭實(shí)體經(jīng)過關(guān)系調(diào)整后的向量。最后類似MuRP,ATTH的打分函數(shù)定義為:

      4 基于深度學(xué)習(xí)的方法

      近年來,深度學(xué)習(xí)被廣泛地應(yīng)用在計(jì)算機(jī)視覺、圖像處理、語音識(shí)別和自然語言處理等人工智能領(lǐng)域。同樣地,深度學(xué)習(xí)也被應(yīng)用于知識(shí)圖譜推理,本文介紹了主流的和應(yīng)用非常廣泛的若干方法。

      首先介紹基于深度學(xué)習(xí)的知識(shí)圖譜推理方法,然后將相應(yīng)的深度神經(jīng)網(wǎng)絡(luò)轉(zhuǎn)化成打分函數(shù)。深度神經(jīng)網(wǎng)絡(luò)更加復(fù)雜,且包含了大量的非線性運(yùn)算,從而能夠?qū)W到更多的特征,但也因此存在“黑盒”的不直觀問題,影響了推理的解釋性。

      4.1 卷積神經(jīng)網(wǎng)絡(luò)模型

      卷積神經(jīng)網(wǎng)絡(luò)將卷積應(yīng)用于神經(jīng)網(wǎng)絡(luò),通過局部感知、參數(shù)共享等特點(diǎn),實(shí)現(xiàn)了深層的 特征學(xué)習(xí),成為深度學(xué)習(xí)中非常重要的網(wǎng)絡(luò)之一。ConvE[25]將卷積神經(jīng)網(wǎng)絡(luò)應(yīng)用于知識(shí)圖譜推理,其網(wǎng)絡(luò)結(jié)構(gòu)如圖6(a)所示,打分函數(shù)定義為:

      ConvE模型通常使用小的濾波器進(jìn)行卷積,這樣實(shí)體和關(guān)系間的交互僅在二維矩陣和的拼接處,能夠很好 地被學(xué)習(xí),而遠(yuǎn)離拼接處的特征則較少被學(xué)習(xí)。ConvR[26]將關(guān)系轉(zhuǎn)化為濾波器來對(duì)實(shí)體向量進(jìn)行卷積運(yùn)算,從而獲得更好的實(shí)體-關(guān)系間交互的特征表達(dá)。通過比較圖6(a)和圖6(b),可以直觀地理解ConvE和ConvR的異同,并理解各自的特點(diǎn)和優(yōu)劣。類似地,ConvR的打分函數(shù)為:

      圖6 深度卷積網(wǎng)絡(luò)用于知識(shí)圖譜推理的Co nvE和ConvR模型

      4.2 膠囊網(wǎng)絡(luò)模型

      CapsE[27]是將膠囊網(wǎng)絡(luò)(capsule network,CapsNet)[28]用于知識(shí)圖譜推理的一種模型。其基本原理是將三元組的3個(gè)嵌入向量組裝成3列的矩陣,用卷積網(wǎng)絡(luò)來學(xué)習(xí)出相應(yīng)的特征,并通過兩層的膠囊網(wǎng)絡(luò)為三元組打分。CapsE模型如圖7所示,由于濾波器同時(shí)作用于h、r、t,因此可以捕捉到更多的特征。其打分函數(shù)為:

      圖7 膠囊網(wǎng)絡(luò)用于知識(shí)圖譜推理的CapsE模型

      其中,capsnet表示膠囊網(wǎng)絡(luò),Ω表示n個(gè)濾波器,濾波器ω作用于輸入矩陣,形成n個(gè)d×1維的特征圖。特征圖被封裝成第一個(gè)膠囊層的d個(gè)膠囊,通過路由過程路由到第二個(gè)膠囊層后生成連續(xù)的輸出向量e,輸出向量的L1范數(shù)||e||就是得分。

      路由過程[28]在第一個(gè)膠囊層的(是權(quán)重矩陣,ci是耦合系數(shù))和第二膠囊層的非線性壓扁中迭代m次(參考文獻(xiàn)[27]研究了m的數(shù)值,并斷定m=1時(shí)效果最佳)。

      4.3 圖神經(jīng)網(wǎng)絡(luò)模型

      圖神經(jīng)網(wǎng)絡(luò)是將深度學(xué)習(xí)技術(shù)應(yīng)用于圖結(jié)構(gòu)數(shù)據(jù)的方法,是最近人工智能中非常熱門的研究領(lǐng)域之一。圖神經(jīng)網(wǎng)絡(luò)天然地適用于知識(shí)圖譜推理。關(guān)系圖卷積網(wǎng)絡(luò)(relational gr aph convolutional network,R-GCN)[29]是較早對(duì)關(guān)系進(jìn)行建模實(shí)現(xiàn)知識(shí)圖譜推理的圖自編碼器模型。R-GCN模型的每一層都使用了圖8和式(17)所示的傳播模型來編碼知識(shí)圖譜:

      圖8 R-GCN的傳播模型,也是R-GCN的“層”

      其中,e(l)和e(l+1)分別表示知識(shí)圖譜的實(shí)體e在R-GCN中的l層和l+1層的向量。Er表示與實(shí)體e具有關(guān)系r的所有鄰接實(shí)體的集合,區(qū)分入邊和出邊。R表示知識(shí)圖譜中所有關(guān)系的集合。表示l層中實(shí)體自身的相關(guān)參數(shù)(自連接),其目的是給l+1層傳播實(shí)體自身的信息。則是與關(guān)系r相關(guān)的參數(shù)。rc是歸一化參數(shù),可以隨模型學(xué)習(xí),或者提前設(shè)定。R-GCN傳播模型可被直觀地理解為依據(jù)每一個(gè)關(guān)系對(duì)鄰接節(jié)點(diǎn)的信息進(jìn)行學(xué)習(xí),進(jìn)而表示實(shí)體。

      而塊對(duì)角分解的定義為:

      R-GCN模型堆疊了L層式(17)作為編碼器,并使用DistMult[30]作為解碼器,從而其打分函數(shù)為:

      RGHAT[31]是一種通過加入兩層注意力來進(jìn)一步改善關(guān)系圖神經(jīng)網(wǎng)絡(luò)的效果的知識(shí)圖譜推理方法。ATTH[24]使用注意力機(jī)制自動(dòng)歸納出知識(shí)圖譜的邏輯結(jié)構(gòu),而RGHAT使用兩層注意力分別歸納實(shí)體和同一關(guān)系下鄰接實(shí)體的特征,其模型如圖9所示,其中關(guān)系層注意力表達(dá)了不同關(guān)系對(duì)實(shí)體的影響權(quán)重:

      實(shí)體層注意力則表達(dá)了同一關(guān)系的鄰接實(shí)體的影響權(quán)重:

      5 知識(shí)推理應(yīng)用

      5.1 知識(shí)圖譜補(bǔ)全

      知識(shí)圖譜普遍存在知識(shí)缺失的事實(shí),也就是知識(shí)圖譜的不完備性。如圖10所示,實(shí)線部分是知識(shí)圖譜存在的關(guān)系,比如<張三,出生于,廈門市>和<張三,任職于,甲公司>等,而虛線部分是知識(shí)圖譜中缺失的,比如<張三,工作于,上海市>和<張三,出生于,中國(guó)>等。知識(shí)圖譜補(bǔ)全(knowledge graph completion)的目標(biāo)是發(fā)現(xiàn)這些缺失的知識(shí),并將其補(bǔ)充到知識(shí)圖譜中,使得知識(shí)圖譜趨向完備。

      知識(shí)圖譜補(bǔ)全是知識(shí)推理應(yīng)用最多的領(lǐng)域,大量的知識(shí) 圖譜推理算法被提出 來的初衷就是應(yīng)用于 知識(shí)圖譜補(bǔ)全,如MLN[7]、TransR[15]、CapsE[27]、RGHAT[31]等。前面提到的所有方法都可以通過在向量空間的推理來斷定任意實(shí)體間是否存在某種關(guān)系,進(jìn)而實(shí)現(xiàn)知識(shí)圖譜的補(bǔ)全。

      圖9 RGHAT模型的網(wǎng)絡(luò)結(jié)構(gòu)

      圖10 知識(shí)圖譜的不完備性

      5.2 知識(shí)問答

      問答(question answering,QA)系統(tǒng)是自然語言處理領(lǐng)域一個(gè)重要的發(fā)展方向,其目標(biāo)是通過自然語言的方式來獲取知識(shí)。在很多真實(shí)應(yīng)用場(chǎng)景下,基于知識(shí)圖譜的問答系統(tǒng)能夠帶來極大的知識(shí)獲取的便利性。但除了簡(jiǎn)單地從知識(shí)圖譜中檢索實(shí)體,更多的問題要求問答系統(tǒng)具有知識(shí)推理的能力[32-33]。本文介紹的知識(shí)推理方法都可 以用于基于知識(shí)圖譜的知識(shí)問答系統(tǒng)中,用來回答復(fù)雜的問題,提升結(jié)果的準(zhǔn)確性、完備性等[34-35]。

      除了將知識(shí)圖譜嵌入通用的知識(shí)問答系統(tǒng),也可將知識(shí)推理等技術(shù)直 接應(yīng)用于問答系統(tǒng)來解決特定的問題。比如用R-GCN來建模多輪對(duì)話問答系統(tǒng)的對(duì)話結(jié)構(gòu)和背景知識(shí)[36]?;谥R(shí)圖譜 嵌入的問答系統(tǒng)正在興起,比如將TransE向量空間與搜索技術(shù)結(jié)合,實(shí)現(xiàn)了基于知識(shí)圖譜嵌入的問答系統(tǒng)[37]。

      隨著現(xiàn)代知識(shí)圖譜推理方法的研究逐漸深入,知識(shí)問答的效果也持續(xù)改善,同時(shí)將上述這些知識(shí)推理技術(shù)和問答技術(shù)結(jié)合用于解決特定問題的方法也在興起。

      5.3 推薦系統(tǒng)

      推薦系統(tǒng)是隨著互聯(lián)網(wǎng)的發(fā)展、信息的極大豐富而興起的技術(shù),旨在理解用戶并主動(dòng)給用戶推薦信息。隨著知識(shí)圖譜技術(shù)的發(fā)展,將知識(shí)圖譜和推薦系統(tǒng)全方位地結(jié)合,從而更深入地理解用戶,更好地匹配用戶需求,同時(shí)提供更強(qiáng)的解釋性。

      在理解用戶方面,知識(shí)圖譜能夠?qū)τ脩糁g的網(wǎng)狀關(guān)系進(jìn)行建模,通過購買同一件商品、看過同一個(gè)視頻、對(duì)同一條信息點(diǎn)贊等用戶行為構(gòu)建行為圖譜,并利用知識(shí)圖 譜推理技術(shù)推斷用戶間的關(guān)系,挖掘潛在的深度需求,配合協(xié)同過濾等推薦技術(shù)來改善推薦的效果。參考文獻(xiàn)[38]利用知識(shí)圖譜來豐富用戶信息,并使用R-GCN對(duì)關(guān)系和結(jié)構(gòu)建模推理,從而更好地理解用戶。推薦的內(nèi)容(如商品、信息、知識(shí)、人物等)同樣可以通過各種關(guān)系來構(gòu) 建知識(shí)圖譜,使用推理技術(shù)來 挖掘潛在特征,推斷潛在關(guān)系,增強(qiáng)對(duì)推薦內(nèi)容的理解,改善推薦效果。參考文獻(xiàn)[39]嘗試使用TransR[15]來建模結(jié)構(gòu)化的推薦內(nèi)容,以提升推薦效果。在此之上, 推薦本身可以看成用戶- 推薦內(nèi)容之間的復(fù)雜的網(wǎng)狀關(guān)系,由此可應(yīng)用知識(shí)圖譜推理技術(shù)來直接實(shí)現(xiàn)推薦。KGAT[40]結(jié)合TransR[15]和深度學(xué)習(xí)實(shí)現(xiàn)了知識(shí)圖譜注意力網(wǎng)絡(luò)的推薦方法。

      隨著知識(shí)圖譜和知識(shí)推理技術(shù)的進(jìn)一步發(fā)展和成熟,各種現(xiàn)代的知識(shí)推理方法在推薦領(lǐng)域的應(yīng)用也會(huì)越來越多,并逐漸成為主流。

      5.4 個(gè)性化搜索

      個(gè)性化搜索是充分利用搜索和點(diǎn)擊等歷史行為記錄和用戶本身的信息來實(shí)現(xiàn)個(gè)性化的搜索,返回更加匹配用戶的結(jié)果。比如同樣搜索“蘋果”,果農(nóng)和電子產(chǎn)品愛好者對(duì)搜索結(jié)果的期望是不同的;而搜索“天氣預(yù)報(bào)”,在上海的人和在北京的人對(duì)搜索結(jié)果的期望也是不一樣的。個(gè)性化搜索是致力于解決這類問題的技術(shù)。推薦系統(tǒng)中的使用知識(shí)圖譜及推 理技術(shù)對(duì)用戶建模的方法可以用于個(gè)性化搜索。

      直接使用知識(shí)推理技術(shù)來實(shí)現(xiàn)個(gè)性化搜索的方法也在被 嘗試,參考文獻(xiàn)[41]將用戶、文檔以及 用戶與文檔產(chǎn)生的搜索、點(diǎn)擊等交互關(guān)系構(gòu)建成知識(shí)圖譜,并使用TransE[11]推理方法實(shí)現(xiàn)個(gè)性化搜索。參考文獻(xiàn)[42]則將ConvE[25]的改進(jìn)版本ConvKB應(yīng)用于個(gè)性化搜索。

      6 行業(yè)應(yīng)用

      隨著知識(shí) 圖譜的流行,知識(shí)推理在各行各業(yè)被廣泛應(yīng)用。在金融、投資、保險(xiǎn)、地產(chǎn)、電力電網(wǎng)、能源、制造、生物醫(yī)藥、醫(yī)療、智慧城市[43]等行業(yè)都能見到知識(shí)圖譜推理技術(shù)的應(yīng)用,本文主要介紹金融、生物醫(yī)藥和智能制造行業(yè)的應(yīng)用情況。

      6.1 金融行業(yè)

      知識(shí)圖譜被廣泛應(yīng)用在金融行業(yè),在風(fēng)險(xiǎn)監(jiān)測(cè)與控制、事件、輿情、對(duì)話機(jī)器人、金融市場(chǎng)事件監(jiān)測(cè)等方面都有知識(shí)圖譜的身影,大量的知識(shí)推理方法也被應(yīng)用在具體的場(chǎng)景下。在風(fēng)險(xiǎn)監(jiān)測(cè)與控制方面,在基于企業(yè)工商信息、訴訟信息、招聘信息以及風(fēng)險(xiǎn)事件等數(shù)據(jù)構(gòu)建的大規(guī)模知識(shí)圖譜中,可以利用知識(shí)推理技術(shù)挖掘隱藏的關(guān)聯(lián)關(guān)系、風(fēng)險(xiǎn)傳導(dǎo)鏈、擔(dān)保圈鏈等。在金融輿情方面,可構(gòu)建事件及其影響關(guān)系的圖譜,使用知識(shí)推理技術(shù)來完善圖譜中的關(guān)聯(lián)關(guān)系,識(shí)別事件的真?zhèn)魏陀绊懞蠊取T趯?duì)話機(jī)器人方面,針對(duì)規(guī)章制度、財(cái)務(wù)制度、財(cái)務(wù)知識(shí)、業(yè)務(wù)知識(shí)等建立知識(shí)圖譜,并使用基于知識(shí)圖譜的問答技術(shù)實(shí)現(xiàn)對(duì)話 機(jī)器人,隨時(shí)隨地滿足客戶獲取知識(shí)的需要。在投資研究方面,基于事件構(gòu)建圖譜,并使用知識(shí)圖譜推理技術(shù)來研究對(duì)金融市場(chǎng)的影響[44]。針對(duì)小微企業(yè)信貸業(yè)務(wù)的特點(diǎn),構(gòu)建全方位企業(yè)畫像與 企業(yè)關(guān)聯(lián)圖譜的貸前反欺詐模型,定量評(píng)估小微企業(yè)客戶的欺詐風(fēng)險(xiǎn),能夠有效地幫助銀行機(jī)構(gòu)更準(zhǔn)確地對(duì)企業(yè)申貸欺詐行為進(jìn)行評(píng)估[45]。

      6.2 生物醫(yī)藥行業(yè)

      生物醫(yī)藥行業(yè)的多個(gè)子領(lǐng)域深入應(yīng)用了知識(shí)圖譜和推理技術(shù),包括藥物圖譜、疾病圖譜、蛋白質(zhì)圖譜、基因圖譜、藥物份子信息圖譜等,涉及生物醫(yī)藥行業(yè)的方方面面[46-47]。這些圖譜同樣存在不完備的情況,可使用知識(shí)圖譜推理技術(shù)來完善這些圖譜。

      生物醫(yī)藥的研究對(duì)象通常是復(fù)雜的微觀結(jié)構(gòu)以及這些微觀結(jié)構(gòu)間的關(guān)系,深度學(xué)習(xí)中很 多與圖結(jié)構(gòu)相關(guān)的算法 是生物醫(yī)藥領(lǐng)域的研究人員提出的[48]。同樣地,知識(shí)圖譜推理技術(shù)也被廣泛地直接應(yīng)用于生物醫(yī)藥的研究,參考文獻(xiàn)[49]利用R-GCN[29]模型作為編碼器,并使用 張量分解作為解碼器,使用知 識(shí)圖譜推理的方法來推斷藥物-蛋白質(zhì)、蛋白質(zhì)-蛋白質(zhì)、藥物-藥物、藥物-副作用等方面的相互作用。GrEDeL[50]使用兩個(gè)TransE[11]結(jié)合LSTM的模型,從公開文獻(xiàn)中挖掘潛在的治療疾病藥物,該模型把文獻(xiàn)中構(gòu)建的生物醫(yī)藥知識(shí)圖譜拆分成語義圖譜(semantic graph)和類型圖譜(type graph),并用兩個(gè)TransE分別對(duì)這兩個(gè)圖譜進(jìn)行建模,然后使用LSTM模型來挖掘適用于疾病的藥物。

      6.3 智能制造行業(yè)

      智能制造行業(yè)極大地依賴于工程師和工人的知識(shí)與經(jīng)驗(yàn),為了適應(yīng)越來越復(fù)雜的產(chǎn)品設(shè)計(jì)、生產(chǎn)制造等過程,知識(shí)圖譜也被用來積淀、傳承、管理和應(yīng)用智能制造中理化、電子電氣、工藝、失效、故障等的知識(shí)和經(jīng)驗(yàn),避免知識(shí)的流失,輔助設(shè)計(jì)工程師、質(zhì)量工程師和制造 工程師分析問題,幫助現(xiàn)場(chǎng)工人快速解決問題,以及激發(fā)創(chuàng)新創(chuàng)造等。知識(shí)圖譜推理技術(shù)可以用來完善圖譜數(shù)據(jù),改善圖譜質(zhì)量,提升知識(shí)和 經(jīng)驗(yàn)的完備性[51]。

      智能制造通常涉及多個(gè)跨領(lǐng)域的知識(shí)、規(guī)范、標(biāo)準(zhǔn)等,可以使用知識(shí)圖譜技術(shù)來跟蹤、跟進(jìn)這些規(guī)范標(biāo)準(zhǔn),并保持更新。參考文獻(xiàn)[52]是致力于將工業(yè)4.0的標(biāo)準(zhǔn)進(jìn)行圖譜化的一個(gè)嘗試。中國(guó)電子技術(shù)標(biāo)準(zhǔn)化研究院也在嘗試將國(guó)內(nèi)各種標(biāo)準(zhǔn)圖譜化。輔以知識(shí)問答技術(shù)和推薦技術(shù),能夠更加方便地推進(jìn)制造業(yè)應(yīng)用最新的知識(shí)、經(jīng)驗(yàn)、規(guī)范、標(biāo)準(zhǔn)等。

      進(jìn)一步地,設(shè)備傳感器采集的大量信息能夠有效地監(jiān)測(cè)制造過程。知識(shí)圖 譜推理技術(shù)同樣能 夠用在這些數(shù)據(jù)所構(gòu)建的 設(shè)備和制造過程的圖譜中,優(yōu)化生產(chǎn)制造過程,優(yōu)化保養(yǎng)周期、預(yù)測(cè)可能發(fā)生的故障,保證生產(chǎn)過程處于良好的狀態(tài)[53]。參考文獻(xiàn)[54]利用TransE[11]融合來自傳感器的操作數(shù)據(jù)源和制造圖譜的實(shí)體,為潛在的未知實(shí)體提供自動(dòng)化融 合的建議,從而保持?jǐn)?shù)字孿生的同步,對(duì)于依賴于數(shù)據(jù)的實(shí)時(shí)對(duì)齊的監(jiān)視和管理應(yīng)用具有巨大價(jià)值。在更多專業(yè)的領(lǐng)域,知識(shí)圖譜推理技術(shù)也在發(fā)揮其價(jià)值,參考文獻(xiàn)[55]探索了電子自動(dòng)化設(shè)計(jì)(electronic design automation,EDA)中應(yīng)用R-GCN的場(chǎng)景。在更廣泛的智能制造場(chǎng)景中(如供應(yīng)鏈管理、客戶和供應(yīng)商管理、BOM的自動(dòng)創(chuàng)建、轉(zhuǎn)換與管理、工廠員工管理等方面),知識(shí)圖譜推理技術(shù)也被用來提升智能化管理水平。

      7 挑戰(zhàn)與未來展望

      近些年來,現(xiàn)代的知識(shí)圖譜推理技術(shù)正在快速發(fā)展,許多模型在各自的領(lǐng)域有非常好的效果,并且被廣泛應(yīng)用,但遠(yuǎn)未達(dá)到完美的狀態(tài),挑戰(zhàn)和機(jī)遇并存。

      ● 知識(shí)圖譜嵌入通常是嵌入歐幾里得空間,近些年,MuRP、ATTH等模型探索了嵌入雙曲空間的情形,獲得了非常好的效果。但總體上,把知識(shí)圖譜嵌入雙曲空間的研究還是少數(shù)。而已有的模型表明雙曲空間等非歐幾里得空間能夠更好地表達(dá)知識(shí)圖譜。在非歐幾里得空間進(jìn)行知識(shí)圖譜表示和推理是非常值得繼續(xù)探索的。

      ● 圖神經(jīng)網(wǎng)絡(luò)天然匹配知識(shí)圖譜,本文介紹的R-GCN和R GHAT等模型還是早期的嘗試,遠(yuǎn)未完美。設(shè)計(jì)出更加精巧的圖網(wǎng)絡(luò)結(jié)構(gòu)來實(shí)現(xiàn)知識(shí)圖譜推理會(huì)是熱門且機(jī)會(huì)巨大的方向。

      ● 變換器(transformer)[1,56]網(wǎng)絡(luò)因其在自然語言處理領(lǐng)域強(qiáng)大的表達(dá)能力和高效的并行訓(xùn)練能力而大放異彩,并迅速地遷移到計(jì)算機(jī)視覺、圖像處理和語音識(shí)別等領(lǐng)域,效果同樣出眾。相信變換器網(wǎng)絡(luò)在知識(shí)圖譜和知識(shí)圖譜推理方面同樣能表現(xiàn)出眾。

      ● 基于預(yù)訓(xùn)練模型的遷移學(xué)習(xí)在自然語言處理、圖像處理和計(jì)算機(jī)視覺等領(lǐng)域應(yīng)用廣泛,但在知識(shí)圖譜推理方面還比較少見。探索知識(shí)圖譜和知識(shí)圖譜推理方面的預(yù)訓(xùn)練模型是值得嘗試的。

      ● 現(xiàn)代的知識(shí)圖譜推理技術(shù)在數(shù)據(jù)集以及相應(yīng)的競(jìng)賽、評(píng)測(cè)等方面同樣存在巨大的機(jī)會(huì),特別是中文知識(shí)圖譜的數(shù)據(jù)集。

      8 結(jié)束語

      本文首先系統(tǒng)地研究了知識(shí)圖譜推理的現(xiàn)代的方法和應(yīng)用,提出了一種統(tǒng)一的框架來詳細(xì)介紹現(xiàn)代主流的知識(shí)圖譜推理模型,方便讀者基于自身研究領(lǐng)域來比較其中的異同和優(yōu)劣。現(xiàn)代的知識(shí)圖譜推理方法通過幾何的或深度學(xué)習(xí)的方法將知識(shí)圖譜嵌入低維空間,包括歐幾里得空間和雙曲空間等。緊接著詳細(xì)介紹了嵌入歐幾里得空間的Trans*和RotatE等方法,同時(shí)介紹了能夠更好地表達(dá)知識(shí)圖譜結(jié)構(gòu)和邏輯的雙曲空間嵌入,并介紹了MuRP和ATTH等方法。在深度學(xué)習(xí)發(fā)展如火如荼的今天,基于深度學(xué)習(xí)的知識(shí)圖譜推理方法不斷被提出,本文使用相同的框架介紹了主流的深度卷積網(wǎng)絡(luò)、膠囊網(wǎng)絡(luò)、圖神經(jīng)網(wǎng)絡(luò)等方法。隨著知識(shí)圖譜推理技術(shù)的日趨成熟,其應(yīng)用也日趨廣泛。隨后詳細(xì)介紹了知識(shí)圖譜推理技術(shù)在知識(shí)圖譜補(bǔ)全、知識(shí)問答、推薦系統(tǒng)和個(gè)性化搜索等方面的應(yīng)用,同時(shí)還針對(duì)金融、生物醫(yī)藥和智能制造3個(gè)行業(yè)介紹了知識(shí)圖譜及其推理技術(shù)的應(yīng)用。最后梳理了知識(shí)圖譜推理方面的一些挑戰(zhàn)和值得關(guān)注的研究方向,供讀者參考。

      猜你喜歡
      推理方法雙曲圖譜
      中國(guó)科學(xué)技術(shù)館之“雙曲隧道”
      軍事文摘(2021年22期)2022-01-18 06:22:48
      繪一張成長(zhǎng)圖譜
      雙曲型交換四元數(shù)的極表示
      芻議小學(xué)數(shù)學(xué)應(yīng)用題的教學(xué)方式
      漫談新時(shí)期下小學(xué)數(shù)學(xué)應(yīng)用題教學(xué)策略
      一階雙曲型偏微分方程的模糊邊界控制
      補(bǔ)腎強(qiáng)身片UPLC指紋圖譜
      中成藥(2017年3期)2017-05-17 06:09:01
      在數(shù)學(xué)教學(xué)中培養(yǎng)學(xué)生推理能力之優(yōu)化策略
      主動(dòng)對(duì)接你思維的知識(shí)圖譜
      基于雙曲和代數(shù)多項(xiàng)式的HC-Bézier曲線
      松潘县| 酉阳| 阿图什市| 新巴尔虎左旗| 罗定市| 繁昌县| 双江| 舞钢市| 丘北县| 乌拉特后旗| 元朗区| 德江县| 沙田区| 莒南县| 那坡县| 沅陵县| 老河口市| 莱芜市| 三门县| 景洪市| 正定县| 水富县| 衡阳市| 宿迁市| 阜阳市| 谷城县| 明溪县| 余庆县| 姜堰市| 涡阳县| 青冈县| 白山市| 建阳市| 西乌珠穆沁旗| 杭锦旗| 宜昌市| 潮州市| 湖口县| 正安县| 绥江县| 溧水县|