譚曉 張志強(qiáng)
摘 ? 要:文章基于收集的近30年知識(shí)圖譜主題文獻(xiàn)展示了知識(shí)圖譜發(fā)展的趨勢,利用關(guān)鍵詞共現(xiàn)呈現(xiàn)了知識(shí)圖譜領(lǐng)域主題的相互聯(lián)系和結(jié)構(gòu),基于描述的熱點(diǎn)前沿構(gòu)建了內(nèi)容層面分析的主題框架,從實(shí)體消歧、關(guān)系擴(kuò)充、圖譜改進(jìn)、圖譜集成、關(guān)聯(lián)數(shù)據(jù)、動(dòng)態(tài)構(gòu)建等方面進(jìn)行分析,總結(jié)了知識(shí)圖譜的應(yīng)用現(xiàn)狀,并對(duì)知識(shí)圖譜的發(fā)展趨勢予以揭示。
關(guān)鍵詞:知識(shí)圖譜;實(shí)體消歧;嵌入模型;事件圖譜;知識(shí)融合
中圖分類號(hào):G254.29 ? 文獻(xiàn)標(biāo)識(shí)碼:A ? DOI:10.11968/tsyqb.1003-6938.2020027
Abstract Based on nearly 30 years collection of knowledge graph macro subject literature, the paper shows the trend of the development of the knowledge graph. Keywords co-occurrence is used to present knowledge graph topic in the field of the structure and interconnection. Based on the description of hot frontier, the theme of the analysis of the content level framework is constructed. In-depth analysis was made from the entity disambiguation, relationship expansion, graph improvement, graph integration, correlated data, and dynamic building to summarize the present situation of the application of knowledge graph. It also reveals the development trend of knowledge graphing.
Key words knowledge graph; entity disambiguation; embedded model; event graph; knowledge fusion
知識(shí)圖譜(Knowledge Graph,KG)旨在描述客觀世界中的實(shí)體、概念、事件、屬性及其之間的關(guān)系。從結(jié)構(gòu)化的、半結(jié)構(gòu)化的、非結(jié)構(gòu)化的數(shù)據(jù)源中抽取知識(shí)及知識(shí)間的關(guān)系,強(qiáng)調(diào)現(xiàn)實(shí)世界的實(shí)體、關(guān)系,并以圖的形式進(jìn)行組織,提供了從關(guān)系分析問題的能力。知識(shí)圖譜技術(shù)包括知識(shí)圖譜構(gòu)建、管理、更新以及應(yīng)用過程中使用的技術(shù),融合了知識(shí)表示、信息檢索和抽取、機(jī)器學(xué)習(xí)、自然語言處理、語義網(wǎng)以及數(shù)據(jù)挖掘等交叉領(lǐng)域。
互聯(lián)網(wǎng)上的信息是碎片式的,并以不同的數(shù)據(jù)形式呈現(xiàn),這使得用戶對(duì)知識(shí)連續(xù)、系統(tǒng)、全面地收集和理解都很困難;在大數(shù)據(jù)時(shí)代,用戶更喜歡獲取知識(shí),而不是從網(wǎng)絡(luò)上獲取頁面;在信息環(huán)境和知識(shí)經(jīng)濟(jì)發(fā)展的背景下,圖書情報(bào)工作核心定位于知識(shí)服務(wù),已成為在面向科技決策、科技創(chuàng)新、科學(xué)研究以及產(chǎn)業(yè)發(fā)展等多層次的文獻(xiàn)情報(bào)需求的核心,需要對(duì)異構(gòu)的文本知識(shí)對(duì)象進(jìn)行挖掘……為解決這些問題,知識(shí)圖譜成為大數(shù)據(jù)時(shí)代最有效的知識(shí)表示及整合方法之一。一方面,知識(shí)圖譜能同時(shí)被機(jī)器和人所理解,反映客觀世界的組成和關(guān)系,為實(shí)現(xiàn)推理和決策提供關(guān)鍵組件;另一方面,知識(shí)圖譜作為知識(shí)工程的一類技術(shù),是實(shí)現(xiàn)智能的重要手段。近年來,知識(shí)圖譜技術(shù)在科學(xué)研究和產(chǎn)業(yè)界得到了廣泛的應(yīng)用實(shí)踐。但知識(shí)圖譜并不是最近才出現(xiàn)的技術(shù),它的發(fā)展一直伴隨著人工智能技術(shù)發(fā)展歷程。 人工智能經(jīng)歷了運(yùn)算智能、感知智能和認(rèn)知智能三個(gè)階段,其中,認(rèn)知智能可以讓機(jī)器具備能理解思考、像人一樣能夠?qū)W習(xí)和推理的能力,而其知識(shí)描述和知識(shí)管理正是目前需要克服前進(jìn)的方面。
知識(shí)圖譜與知識(shí)領(lǐng)域映射地圖(Mapping knowledge domain)、本體、語義網(wǎng)、知識(shí)庫有異同(見圖1、表1)。
知識(shí)圖譜屬于知識(shí)管理的范疇。知識(shí)圖譜緊密依存大數(shù)據(jù)理論,關(guān)注數(shù)據(jù)規(guī)范性和關(guān)聯(lián)性的本體及語義網(wǎng)理論,以本體建模為手段,借助語義網(wǎng)絡(luò)分析理論挖掘并發(fā)現(xiàn)新知識(shí),應(yīng)用語義網(wǎng)知識(shí)庫關(guān)聯(lián)方法實(shí)現(xiàn)知識(shí)的分布式存儲(chǔ),應(yīng)用深度學(xué)習(xí)算法發(fā)現(xiàn)創(chuàng)新性知識(shí),提供基于實(shí)體檢索的智能檢索及個(gè)性化推薦,為用戶提供高質(zhì)量知識(shí)服務(wù);知識(shí)領(lǐng)域映射地圖則是將科研活動(dòng)主題或具有共同特征的領(lǐng)域客體作為研究對(duì)象,應(yīng)用于計(jì)量學(xué)、引文分析、知識(shí)創(chuàng)新/演變預(yù)測等,展現(xiàn)的是科學(xué)活動(dòng)主體、科學(xué)知識(shí)的結(jié)構(gòu)及演變,應(yīng)用的理論是庫恩的科學(xué)發(fā)展模式,應(yīng)用社會(huì)網(wǎng)絡(luò)分析方法和聚類分析,構(gòu)建社區(qū)及發(fā)現(xiàn)社區(qū)關(guān)鍵人物/主題,構(gòu)建網(wǎng)絡(luò)路徑,通過關(guān)鍵人物共享和傳播知識(shí),在情報(bào)學(xué)領(lǐng)域,是跟蹤科技前沿、選擇科研方向、開展知識(shí)管理并輔助科學(xué)決策的有利工具。知識(shí)圖譜與知識(shí)庫兩者都是通過更有效和智能地保存、管理已有的知識(shí),同時(shí)對(duì)外提供一個(gè)便捷訪問所需知識(shí)的接口。知識(shí)圖譜最終形成的是知識(shí)庫,同時(shí),知識(shí)圖譜構(gòu)建的重要來源是知識(shí)庫。
為了更清晰地了解知識(shí)圖譜研究進(jìn)展情況,文章收集了近30年的科學(xué)文獻(xiàn),通過對(duì)這些文獻(xiàn)計(jì)量層面的分析能宏觀了解知識(shí)圖譜發(fā)展的趨勢,利用關(guān)鍵詞共現(xiàn)方法呈現(xiàn)知識(shí)圖譜領(lǐng)域主題的相互聯(lián)系和結(jié)構(gòu),基于描述的熱點(diǎn)前沿,構(gòu)建了內(nèi)容層面分析的主題框架,并進(jìn)行內(nèi)容層面的深度解讀,最后文章對(duì)知識(shí)圖譜在各領(lǐng)域的應(yīng)用進(jìn)行了總結(jié)。
1 ? 知識(shí)圖譜研究進(jìn)展的宏觀分析
本文采用的數(shù)據(jù)源為ISI Web of Science,檢索主題為“知識(shí)圖譜”,構(gòu)建的檢索式如下:
#1:
TS=("knowledge graph" OR "knowledge graphs")
#2:
TS=("semantic* net*") or ts=("semantic* web*") or ts=("semantic* relation*") or ts=("artificial intelligence" or "big data") or ts=("ontology *" or "ontology*") or ts=(RDF* or "Web Ontology Language" or ontology) or ts=("nature language *") or ts=("knowledge base") or ts=("deep learn*" or "machine learn*") or ts=("relation* extract*" or "extract* of relation*") or ts=("entit* extract*" or "extract* of entit*") or ts=( "link* data" ) or ts=("neural*")
#3
ts=("knowledge represent*" or "knowledge inference" or "knowledge reason*" or "knowledge acquisit* " or "knowledge extract*" or "represent* of knowledge")or ("knowledge descrip*") or (ts=("knowledge fusion"))
#1 or (#2 and #3)
截至2018年5月21日,共檢索出知識(shí)圖譜主題文獻(xiàn)3892篇。
1.1 ? ?知識(shí)圖譜文獻(xiàn)時(shí)間分布
知識(shí)圖譜主題的文獻(xiàn)出現(xiàn)于1991年,之后一直到2017年論文呈現(xiàn)的是階段性上漲的趨勢。根據(jù)數(shù)據(jù)分析,期間大致有三次大幅增長段:1992-1994、2003-2006、2010-2017,論文產(chǎn)出持續(xù)增長,在1997年、2001年、2008年前后出現(xiàn)了較大的減退。從論文的作者量來看,呈現(xiàn)的是1991-2017年持續(xù)增長趨勢,在1994年、2003年、2014年左右出現(xiàn)幾次大幅增長,與論文大幅增長時(shí)期大致同步。在論文數(shù)量減退時(shí)期,作者數(shù)量也出現(xiàn)了較少的回落。從作者篇均投入水平來看,整體是上升的趨勢,在論文三次增長時(shí)期,作者篇均論文數(shù)量為:2.38人/篇,3.03人/篇,3.83人/篇(見圖2)。
1.2 ? ?知識(shí)圖譜文獻(xiàn)主題分布
基于關(guān)鍵詞的共現(xiàn)關(guān)系可以用來描述表達(dá)學(xué)科領(lǐng)域集合內(nèi)部的相互聯(lián)系和結(jié)構(gòu),進(jìn)行熱點(diǎn)主題的揭示和發(fā)展動(dòng)態(tài)預(yù)測。本文利用Citespace進(jìn)行關(guān)鍵詞共現(xiàn)聚類分析,得到25個(gè)類簇,結(jié)合TF-IDF和LLR,得到25個(gè)類簇的主題詞(見圖3)。主要集中在:神經(jīng)網(wǎng)絡(luò)應(yīng)用(#0)、醫(yī)療文本挖掘/生物醫(yī)學(xué)本體(#1、#3、#10)、快速推理(#2)、人工非單調(diào)神經(jīng)網(wǎng)絡(luò)(#4)、規(guī)則抽?。?5)、領(lǐng)域?qū)<遥?6)、增強(qiáng)學(xué)習(xí)算法(#7)、概念圖譜(#8)、基于本體的數(shù)據(jù)挖掘方法(#9)、知識(shí)圖譜嵌入(#11)、關(guān)聯(lián)屬性發(fā)現(xiàn)(#12)、維基百科(#13)、時(shí)序表示(#14)、信息庫(#15)、異構(gòu)知識(shí)表示(#16)、混合專家系統(tǒng)(#17)、變革管理(#18)、無監(jiān)督學(xué)習(xí)(#19)、神經(jīng)表征(#20)、網(wǎng)絡(luò)系統(tǒng)開發(fā)(#21)、預(yù)測統(tǒng)計(jì)模型(#22)、模糊歸納學(xué)習(xí)策略(#23)、普適計(jì)算(#24)。
2 ? 知識(shí)圖譜研究主題現(xiàn)狀
當(dāng)今,隨著知識(shí)圖譜構(gòu)建和應(yīng)用的快速發(fā)展,很多知識(shí)圖譜,如Freebase、DBpedia、YAGO及NELL,已經(jīng)成功應(yīng)用并通用于世界,其范圍涉及到語義分析、命名實(shí)體消歧、信息抽取、問答系統(tǒng)等。在大數(shù)據(jù)時(shí)代,知識(shí)服務(wù)和應(yīng)用對(duì)知識(shí)庫從數(shù)據(jù)體量、動(dòng)態(tài)更新和擴(kuò)展性、異構(gòu)性到價(jià)值性方面提出了更高的需求,當(dāng)前面臨著:從碎片化的數(shù)據(jù)中抽取知識(shí),知識(shí)的動(dòng)態(tài)演化導(dǎo)致真值發(fā)現(xiàn)難度大,語言表述時(shí)存在一詞多義和一義多詞現(xiàn)象,數(shù)據(jù)源的異源異構(gòu)導(dǎo)致的知識(shí)質(zhì)量參差不一使得知識(shí)價(jià)值評(píng)判難等問題。針對(duì)這些問題,文章對(duì)本文檢索到的近4000篇文獻(xiàn)進(jìn)行了分析和歸納,利用關(guān)鍵詞共現(xiàn)形成的主題簇構(gòu)建了知識(shí)圖譜進(jìn)展研究的框架(見圖4)。
2.1 ? ?實(shí)體消歧
實(shí)體消歧是實(shí)體抽取中的一個(gè)關(guān)鍵環(huán)節(jié),其任務(wù)是將存在歧義的實(shí)體指稱在眾多候選實(shí)體中匹配出對(duì)應(yīng)的目標(biāo)實(shí)體,本質(zhì)是計(jì)算實(shí)體指稱項(xiàng)和候選實(shí)體的相似度,選擇相似度最大的候選實(shí)體作為鏈接的目標(biāo)實(shí)體。目前的實(shí)體消歧的方法分為實(shí)體的特征/屬性和實(shí)體-實(shí)體的相關(guān)性。
(1)依據(jù)實(shí)體特征/屬性消歧。依據(jù)實(shí)體特征進(jìn)行消歧的方法包括字符串相似性、流行度、共性。字符串相似性是最直接和常用的方法,指稱實(shí)體和候選實(shí)體名稱通過距離[3-4]或不同相似性系數(shù)進(jìn)行對(duì)比。但是當(dāng)候選實(shí)體或者指稱實(shí)體有語義異構(gòu)表達(dá)時(shí),無法將語義相同的實(shí)體進(jìn)行鏈接?;诹餍卸认绲谋举|(zhì)是基于概率統(tǒng)計(jì)的方法,具有領(lǐng)域依賴性,其思想是 “對(duì)于給定實(shí)體指代,與其對(duì)應(yīng)的映射實(shí)體最有可能是現(xiàn)實(shí)世界中最著名的實(shí)體”,但缺陷在于:不論實(shí)體的上下文語義環(huán)境如何,都會(huì)固定指向某一候選實(shí)體。實(shí)體共性是在實(shí)體消歧中非常有效的特征,是指從語義分布到實(shí)體標(biāo)注語料庫計(jì)算的實(shí)體先驗(yàn)概率,其難度在于計(jì)算實(shí)體共性依賴于標(biāo)注語料庫,計(jì)算出的概率因語料庫不完備可能造成實(shí)體覆蓋受限。
(2)實(shí)體相關(guān)性消歧。利用實(shí)體相關(guān)性進(jìn)行消歧,基于不同的信息源有不同的語義特征來計(jì)算實(shí)體相關(guān)性??梢詮恼Z義內(nèi)容、上下文相似、圖譜分析三個(gè)方面進(jìn)行實(shí)體相關(guān)的語義消歧。
首先,基于實(shí)體的語義內(nèi)容,利用以下方法在詞袋或向量空間模型(VSM)中計(jì)算實(shí)體相關(guān)性:①實(shí)體描述或類別向量的點(diǎn)積或余弦相似性;②利用加權(quán)關(guān)鍵詞組重疊率以及主題模型進(jìn)行實(shí)體主題一致性計(jì)算;③實(shí)體分類層次的語義相似度。
第二,利用實(shí)體標(biāo)注語料庫、實(shí)體共現(xiàn)及實(shí)體分布計(jì)算實(shí)體間關(guān)聯(lián),其假設(shè)是在相似的上下文語境下出現(xiàn)的實(shí)體具有語義關(guān)聯(lián)性,本質(zhì)是基于被比較的文本間存在重疊。計(jì)算這種重疊相似性的常用指標(biāo)是Jaccard或Dice系數(shù)。VSM被用來代表高維上下文語境及實(shí)體向量,計(jì)算特定文本集和詞表的TF-IDF得分,上下文-實(shí)體的相似性是用點(diǎn)積或兩向量間的余弦值。最近學(xué)界還提出了利用深度學(xué)習(xí)架構(gòu)對(duì)指稱實(shí)體、上下文、候選實(shí)體進(jìn)行分布式向量表示,并基于Word2Vec將上下文詞用相似詞來擴(kuò)展。此外,概率語言模型和主題模型已被應(yīng)用于上下文-指稱實(shí)體-候選實(shí)體的建模中。基于實(shí)體上下文能較好的彌補(bǔ)流行度的缺陷,在實(shí)體上下文信息足夠豐富的情況下,可以取得較高的準(zhǔn)確率,但是在短文本或文本稀疏存在噪音的情況下無法保障。
第三,圖譜分析在測度實(shí)體關(guān)聯(lián)上具有有效性。實(shí)體圖譜分析是基于語義實(shí)體網(wǎng)絡(luò)中點(diǎn)度分析。點(diǎn)度分析計(jì)算的是鏈接實(shí)體的邊緣,關(guān)系分析則考慮實(shí)體之間的有意義的語義關(guān)系。這種差異導(dǎo)致了不同類型的實(shí)體關(guān)聯(lián)方法。Milne等提出了一種基于入邊和出邊鏈接計(jì)算實(shí)體相關(guān)性的點(diǎn)度分析方法。這種實(shí)體關(guān)聯(lián)方法已被廣泛應(yīng)用于命名實(shí)體消歧系統(tǒng)。類似點(diǎn)度分析的還包括互信息以及Jaccard距離。最近的研究開始關(guān)注圖譜中實(shí)體之間的語義關(guān)系,基于實(shí)體間最短路徑和最短路徑的關(guān)系權(quán)重計(jì)算實(shí)體間的相關(guān)性。
各種不同的實(shí)體關(guān)聯(lián)方法,可以通過對(duì)機(jī)器學(xué)習(xí)技術(shù)的結(jié)合以及多種方法的融合,進(jìn)一步優(yōu)化和增強(qiáng)實(shí)體相關(guān)性的性能。除了基于相似的方法,無監(jiān)督的消歧方法是基于圖的方法,將不同的消歧特性結(jié)合到圖譜表示。上面描述的所有方法代表了處理命名實(shí)體歧義的不同方面的考慮因素,在實(shí)際應(yīng)用中要根據(jù)數(shù)據(jù)集的具體特征和在召回率、準(zhǔn)確率以及效率之間尋求應(yīng)用需求,選擇消除歧義的特征和方法。
2.2 ? ?關(guān)系擴(kuò)充
關(guān)系預(yù)測與預(yù)測圖譜中邊的存在(正確性的概率)或者邊的類型有關(guān),這在知識(shí)圖譜構(gòu)建、關(guān)系擴(kuò)充中十分重要,因?yàn)閳D譜中會(huì)缺失很多事實(shí),包含的邊可能是錯(cuò)誤的。
機(jī)器學(xué)習(xí)研究方法,用于關(guān)系或圖形結(jié)構(gòu)的數(shù)據(jù)的統(tǒng)計(jì)分析。在大型知識(shí)圖譜上“訓(xùn)練”統(tǒng)計(jì)模型,然后用來預(yù)測圖中的新邊。特別地,其中的兩種完全不同的統(tǒng)計(jì)關(guān)系模型,它們都可以擴(kuò)展到大量的數(shù)據(jù)集?;趶埩恳蜃臃纸夂投嗦飞窠?jīng)網(wǎng)絡(luò)等潛在特征模型。Socher等[5]將鏈接預(yù)測問題視為矩陣或者張量的補(bǔ)全。初始的知識(shí)庫可以看做是E×P×E三維稀疏矩陣G,E是實(shí)體數(shù)量,P是謂詞數(shù)(關(guān)系數(shù)量),G(s,p,o)=1,如果存在一個(gè)從s到o的鏈接p,那么G(s,p,o)=0??梢酝ㄟ^將潛在的低維向量與每個(gè)實(shí)體和謂詞進(jìn)行關(guān)聯(lián)來執(zhí)行該張量的低秩分解,然后計(jì)算元素內(nèi)積:Pr(G(s,p,o)=1)=σ(uskwpkvok)。σ(x)=1/(1+e-x)是邏輯函數(shù),K-60是隱藏層,us,wp,vo是K維向量,將離散標(biāo)記嵌入語義空間。Zhao等[6]將成對(duì)實(shí)體關(guān)系嵌入到低維空間進(jìn)行學(xué)習(xí),在Freebase中基于已存關(guān)系進(jìn)行關(guān)系預(yù)測。第二個(gè)是基于在圖中觀察到的模式。Lange等[7]利用條件隨機(jī)場在維基百科摘要中學(xué)習(xí)模式,Wu等[8]將這些潛在的和可觀察的模型結(jié)合起來,并將這些統(tǒng)計(jì)模型與基于文本的信息提取方法結(jié)合起來,以便從Web自動(dòng)構(gòu)建知識(shí)圖譜。
同樣的,關(guān)聯(lián)關(guān)系挖掘也可用于預(yù)測關(guān)系。Dutta和Kolthoff[9]利用關(guān)聯(lián)規(guī)則挖掘?qū)ふ矣幸饬x的關(guān)系鏈來預(yù)測缺失關(guān)系。另一個(gè)預(yù)測關(guān)系的常用方法是遠(yuǎn)程監(jiān)督,這個(gè)方法會(huì)使用大型文本語料庫。遠(yuǎn)程監(jiān)督的假設(shè)是一個(gè)句子中含有一個(gè)關(guān)系涉及的實(shí)體對(duì),那么這個(gè)句子就是描述的這個(gè)關(guān)系。與遠(yuǎn)程監(jiān)督類似,解決關(guān)系預(yù)測的方法還有路徑排序算法(Path ranking algorithm,PRA),起始于所有的源節(jié)點(diǎn),在知識(shí)圖譜中完成隨機(jī)游走,所有到達(dá)目標(biāo)節(jié)點(diǎn)的路徑都是成功的。這些路徑的質(zhì)量可以由它們的支持度和精確度來度量。PRA學(xué)習(xí)的路徑可以解釋為規(guī)則。由于多規(guī)則或路徑可以應(yīng)用于任何給定的實(shí)體對(duì),可以通過設(shè)置二值分類器來組合。
許多知識(shí)圖譜包含與其他知識(shí)圖譜的鏈接。知識(shí)圖譜之間的相互鏈接可以用來填補(bǔ)另一個(gè)知識(shí)圖譜中的空白。Dutta等[10]提出了知識(shí)圖譜之間的概率映射?;陬愋秃蛯傩苑植?,它們?cè)谥R(shí)圖譜之間創(chuàng)建了一個(gè)映射,然后可以用來在知識(shí)圖譜中派生出額外的、缺失的事實(shí)。兩個(gè)知識(shí)圖譜所使用的類型系統(tǒng)彼此映射,一個(gè)知識(shí)圖譜的類型可以被另一個(gè)知識(shí)圖譜用來預(yù)測缺失的關(guān)系。
知識(shí)圖譜包含實(shí)體和關(guān)系,每個(gè)實(shí)體關(guān)系由三元組形式表示:(h,r,t),h/t表示的頭部尾部實(shí)體由兩者之間代表的一種關(guān)系r進(jìn)行鏈接。傳統(tǒng)的知識(shí)表示不能很好的表示實(shí)體的語義相關(guān)性,為了解決這個(gè)問題,知識(shí)表示采用分布式方式。知識(shí)圖譜嵌入,將實(shí)體和關(guān)系映射到連續(xù)的低維向量空間,可以應(yīng)用于知識(shí)圖譜完備、關(guān)系抽取、實(shí)體分類以及實(shí)體分解等,在這里主要介紹知識(shí)圖譜嵌入在鏈接預(yù)測和關(guān)系挖掘中的有效性。經(jīng)典的知識(shí)圖譜嵌入技術(shù)包含三步:第一步指定實(shí)體和關(guān)系在連續(xù)向量空間中的表示,實(shí)體通常由向量表示,通過多源高斯函數(shù)對(duì)實(shí)體進(jìn)行建模分布。關(guān)系通常可以表示為向量、矩陣、張量、多源高斯分布;第二步定義了計(jì)分函數(shù)fr (h,t),在每個(gè)事實(shí)(h,r,t)上來衡量其合理性;第三步學(xué)習(xí)實(shí)體和關(guān)系解決得了優(yōu)化問題,使整體合理性最大化。
粗略的將知識(shí)圖譜嵌入分為兩類:平移距離模型和語義匹配模型。前者是基于距離得分功能,后者是基于相似度。其中,平移距離模型典型方法包括TransE、TransH、TransR、CTransR、TransF、TransM等。在所有的基于翻譯模型的知識(shí)圖譜嵌入中,TransE是最經(jīng)典的模型,它的基本假設(shè):當(dāng)被編碼為度量空間時(shí),關(guān)系是從h到t的轉(zhuǎn)化/翻譯,也就是三元組(h,r,t)適應(yīng)于表達(dá)式h+r≈t,基于此,關(guān)系補(bǔ)全通過尋找r*使得h+r*≈t。當(dāng)一個(gè)實(shí)體對(duì)有多個(gè)關(guān)系時(shí),多度量空間的方案被提出,這些基于翻譯的不同模型的區(qū)別在于如何將一個(gè)向量從一個(gè)空間表示為另一個(gè)空間。語義匹配模型探索了基于相似的得分函數(shù),通過潛在語義匹配測度事實(shí)的實(shí)體和關(guān)系在向量空間表示的合理性。
2.3 ? ?知識(shí)圖譜改進(jìn)
來源網(wǎng)頁的數(shù)據(jù)抽取存在噪音,實(shí)體和關(guān)系存在不完整和易錯(cuò)性,知識(shí)圖譜改進(jìn)主要體現(xiàn)在數(shù)據(jù)的完備性和錯(cuò)誤數(shù)據(jù)修正,范疇包含實(shí)體類別、實(shí)體關(guān)系以及知識(shí)真值(解決異源知識(shí)間的沖突和不一致),涉及到的研究領(lǐng)域有概念層面及實(shí)例層面。
知識(shí)圖譜的完備性目標(biāo)主要是增加知識(shí)圖譜的覆蓋率,完備性相關(guān)的研究內(nèi)容主要集中在缺失實(shí)體的預(yù)測、缺失實(shí)體類型的預(yù)測以及實(shí)體間缺失關(guān)系的判斷。①在預(yù)測實(shí)體類型方面:Paullheim等[11-12]提出了一種基于條件概率的方法,如CAST類型有向內(nèi)的邊,則節(jié)點(diǎn)為Actor的概率較高,SDT算法利用了這種可能性;Sleeman和Finin[13]利用支持向量機(jī)在DBpedia和Freebase中輸入實(shí)體,利用知識(shí)圖譜之間的相互鏈接,根據(jù)屬性對(duì)知識(shí)圖譜中的實(shí)例進(jìn)行分類,以提高知識(shí)圖譜的覆蓋率和精確性;Nickel等[14]提出在YAGO中使用矩陣分解來預(yù)測實(shí)體類型。由于許多知識(shí)圖譜都有類層次結(jié)構(gòu),因此類型預(yù)測可以看做是一個(gè)層次分類問題[15]。在數(shù)據(jù)挖掘中,利用關(guān)聯(lián)規(guī)則的共現(xiàn)性預(yù)測圖譜中缺失信息,既確保有足夠重疊的信息來學(xué)習(xí)關(guān)聯(lián)規(guī)則,又確保有許多實(shí)體在系統(tǒng)中的類型唯一。Heiko[16]利用這種關(guān)聯(lián)規(guī)則基于冗余信息預(yù)測DBpedia中缺失的類型;Sleeman等[17]提出利用主題建模進(jìn)行類型預(yù)測,知識(shí)圖譜中的實(shí)體表示文檔,在文檔上應(yīng)用LDA查找主題,通過分析主題和實(shí)體類型的共現(xiàn),為實(shí)體分配新的類型。還可以利用外部知識(shí)進(jìn)行實(shí)體特征表示進(jìn)行類型的預(yù)測。Nuzzolese等[18]提出使用K近鄰分類器利用Wikipedia鏈接圖譜來預(yù)測實(shí)體類型;Aprosio等[19]使用不同距離度量的KNN分類器利用不同DBpedia語言版本的實(shí)體類型作為預(yù)測缺失類型的特性;Gangemi等[20]使用不同語言的摘要來提高覆蓋率和精確性。②在預(yù)測實(shí)體關(guān)系方面:分類方法也可用于預(yù)測實(shí)體關(guān)系,在3.2中的關(guān)系擴(kuò)充中提到了Socher等[21]訓(xùn)練一個(gè)張量神經(jīng)網(wǎng)絡(luò)預(yù)測新的關(guān)系;Krompaβ等[22]提出了類似的方法,使用定義的或誘導(dǎo)的模式對(duì)知識(shí)進(jìn)行細(xì)化,可以顯著提高鏈接的性能; Kolthoff等[23]使用了關(guān)聯(lián)規(guī)則挖掘的方法尋找有意義的鏈接進(jìn)行關(guān)系預(yù)測。實(shí)體關(guān)系也可以利用文本源進(jìn)行預(yù)測;Lange等[24]在Wikipedia摘要中使用條件隨機(jī)場進(jìn)行模式學(xué)習(xí)。預(yù)測兩個(gè)實(shí)體間的關(guān)系的另一個(gè)常用方法是遠(yuǎn)程監(jiān)控;Mintz等[25]與Aprosio等[29]通過命名實(shí)體識(shí)別將知識(shí)圖譜中的實(shí)體與文本語料庫鏈接起來;然后,基于圖譜中的關(guān)系尋找對(duì)應(yīng)關(guān)系類型的文本模式并應(yīng)用這些模式在文本語料庫中尋找附加的關(guān)系;Mu?觡oz等[26]認(rèn)為對(duì)于在維基百科表格中共存的兩個(gè)實(shí)體,在知識(shí)圖譜中可能共享一條邊。為了填充這些邊,首先從表中提取一組候選元素,使用在兩列中可能的關(guān)系。然后,基于該提取的標(biāo)簽子集,使用不同的特征來進(jìn)行分類以識(shí)別在知識(shí)圖譜中實(shí)際存在的關(guān)系;Ritze等[27]將這種方法擴(kuò)展到任意的HTML表格。
基于已建圖譜的三類擴(kuò)充改進(jìn),提煉出的推理主要集中在四類方法:利用邏輯推理進(jìn)行規(guī)則學(xué)習(xí)、基于圖譜推理和學(xué)習(xí)算法、基于推理的實(shí)體和關(guān)系嵌入以及統(tǒng)計(jì)關(guān)系學(xué)習(xí)方法。
(1)邏輯推理。在圖譜關(guān)系中存在的規(guī)則,由抽象或具象的霍恩子句進(jìn)行表示,基于邏輯規(guī)則進(jìn)行推理。規(guī)則都有某種特定的屬性,可以揭示在現(xiàn)存圖譜不同關(guān)系實(shí)例中的矛盾。
在AI領(lǐng)域中知識(shí)圖譜出現(xiàn)之前的一階學(xué)習(xí)系統(tǒng)是GOLEM和FOIL,從數(shù)據(jù)實(shí)例中建立一階霍恩子句規(guī)則。為了提高可擴(kuò)展性,利用Dirichlet先驗(yàn)多項(xiàng)式分布估計(jì)每個(gè)N-FOIL規(guī)則的條件概率P。SOFIE是第一個(gè)將邏輯一致性圖例和信息抽取進(jìn)行整合的系統(tǒng)。該系統(tǒng)將已知事實(shí)、新事實(shí)假設(shè)、單詞到實(shí)體的映射、模式以及約束轉(zhuǎn)化為邏輯子句。將權(quán)重分配給從數(shù)據(jù)統(tǒng)計(jì)證據(jù)中派生出來的子句。其目的是找到滿足最大約束條件的真子句,并將問題轉(zhuǎn)化為加權(quán)最大滿足性問題。
(2)圖譜推理和學(xué)習(xí)。為了提高收斂率,各種算法已經(jīng)直接對(duì)圖進(jìn)行推理以生成新的關(guān)系實(shí)例。隨機(jī)游走相關(guān)的圖算法已經(jīng)用于推理,一種常用的測度方法是重啟隨機(jī)游走(random walk with restart, RWR)。Lao等提出了用于關(guān)系檢索的路徑排序算法,應(yīng)用該方法在大規(guī)模知識(shí)庫用“數(shù)據(jù)驅(qū)動(dòng)路徑尋找”完成學(xué)習(xí)和推理任務(wù)。Gardner等進(jìn)一步用潛在句法線索進(jìn)行推理。Wang等提出使用個(gè)性化的PageRank用于圖的推理,這是對(duì)隨機(jī)邏輯程序的擴(kuò)展,G的隨機(jī)遍歷由每個(gè)節(jié)點(diǎn)的概率選擇來定義。每條邊都與一個(gè)具有各自權(quán)重的特征向量相關(guān)聯(lián),每個(gè)節(jié)點(diǎn)都有一條邊指向受重啟隨機(jī)游走測度的啟發(fā),參數(shù)通過隨機(jī)梯度下降(SGD)進(jìn)行學(xué)習(xí),可以適應(yīng)并行學(xué)習(xí)任務(wù)。
(3)基于推理的實(shí)體和關(guān)系嵌入。知識(shí)圖譜補(bǔ)全的目標(biāo)是實(shí)現(xiàn)實(shí)體間的鏈接預(yù)測,但是傳統(tǒng)的鏈接預(yù)測不適用于知識(shí)圖譜的知識(shí)補(bǔ)全,因?yàn)橹R(shí)圖譜中的實(shí)體有復(fù)雜的類型和屬性、知識(shí)圖譜中的邊也有不同的類型?,F(xiàn)有的很多研究和工作是關(guān)于實(shí)體和關(guān)系嵌入技術(shù)的。
(4)統(tǒng)計(jì)關(guān)系學(xué)習(xí)。統(tǒng)計(jì)關(guān)系學(xué)習(xí)是可以同時(shí)表示不確定性和關(guān)系結(jié)構(gòu)的模型。提供了利用機(jī)器學(xué)習(xí)的方式實(shí)現(xiàn)學(xué)習(xí)和推理的通用框架。馬爾科夫邏輯網(wǎng)絡(luò)在關(guān)系學(xué)習(xí)中被證明是最通用的。
馬爾科夫邏輯網(wǎng)絡(luò)(Markov logic network, MLN)是一種簡單的表示,結(jié)合了概率圖模型和一階邏輯,在經(jīng)常出現(xiàn)的沖突和不確定性的數(shù)據(jù)中,應(yīng)用馬爾科夫邏輯網(wǎng)絡(luò)軟化約束,每個(gè)公式都有一個(gè)權(quán)重,表示公式的強(qiáng)度。馬爾科夫邏輯框架可以看成構(gòu)建馬爾科夫網(wǎng)絡(luò)的模板。隨機(jī)變化和依賴性形成了馬爾科夫隨機(jī)場。
受約束的概率模型不同于MLN,它是將概率和聲明進(jìn)行分離的模型,允許概率部分作為任意條件分布。另外,先驗(yàn)知識(shí)編碼為約束條件,應(yīng)用于信息抽取和語義角色標(biāo)注。
2.4 ? ?知識(shí)集成/知識(shí)圖譜融合
知識(shí)融合是使來自不同數(shù)據(jù)源的知識(shí)在同一框架規(guī)范下進(jìn)行消歧、對(duì)齊、合并、推理驗(yàn)證、更新等的高層次知識(shí)組織。當(dāng)前具有增值規(guī)模的知識(shí)庫包括Wiki百科、Freebase、YAGO、微軟Satobri以及谷歌知識(shí)圖譜。增加現(xiàn)有事實(shí)規(guī)模,前期的方法都是基于文本抽取,結(jié)果會(huì)有較大的噪音。Knowledge Vault(KV)將從網(wǎng)頁抽取的知識(shí)與現(xiàn)存的知識(shí)庫中的先驗(yàn)知識(shí)相結(jié)合,同時(shí)利用監(jiān)督機(jī)器學(xué)習(xí)的方法將不同的信息資源進(jìn)行融合。
谷歌搜索不再是簡單的網(wǎng)頁鏈接,而是直接回答問題的知識(shí)引擎,不過現(xiàn)有的知識(shí)圖譜依然依賴Freebase,KV自動(dòng)進(jìn)行知識(shí)擴(kuò)充, KV的三個(gè)主要組件:抽取器、先驗(yàn)圖譜學(xué)習(xí)、知識(shí)融合,通過KV的知識(shí)融合,知識(shí)圖譜自動(dòng)構(gòu)建的新技術(shù)知識(shí)集成的借鑒。知識(shí)融合包含三種融合:實(shí)體融合、關(guān)系融合、實(shí)例融合。可細(xì)分為實(shí)體對(duì)齊和知識(shí)庫融合。
將從不同數(shù)據(jù)源抽取的信息進(jìn)行組合的簡單方法是為抽取的每個(gè)三元組t(s,p,o)構(gòu)造一個(gè)特征向量f(t),然后應(yīng)用二值分類器來計(jì)算Pr(t=1|f(t)),并為每個(gè)謂詞分別設(shè)置一個(gè)分類。每個(gè)抽取器的特征向量由兩個(gè)數(shù)字組成:提取器從中提取此三元組的源數(shù)量的平方根,以及來自此提取器的提取內(nèi)容的平均得分。此外,由于每個(gè)謂詞都有一個(gè)單獨(dú)的分類,也可以模擬它們的不同可靠性[28]。
2.5 ? ?事件圖譜建模
基于概念的知識(shí)表示較多的描述靜態(tài)特征,無法反映事物動(dòng)態(tài)變化,為了動(dòng)態(tài)表示,構(gòu)建以事件為中心的圖譜,考慮了事件的發(fā)生時(shí)間、地理屬性、發(fā)生原因、事件結(jié)果、事件方案。事件在信息抽取中是指在某個(gè)特定的時(shí)間片段和地域范圍內(nèi)發(fā)生的,由一個(gè)或多個(gè)角色參與,由一個(gè)或多個(gè)動(dòng)作組成的一件事情;在話題檢測跟蹤中,事件是指關(guān)于某一主題的一組相關(guān)描述。為了描述知識(shí)的動(dòng)態(tài)性,用事件對(duì)知識(shí)進(jìn)行表述,把事件定義為參與對(duì)象在一定時(shí)間和環(huán)境條件下進(jìn)行的動(dòng)態(tài)過程[29]。
事件圖譜研究的層次分為三層:第一層是面向事件的語料庫構(gòu)建;第二層是時(shí)間識(shí)別與抽取、事件關(guān)系識(shí)別與抽取[30];第三層是面向事件的自動(dòng)問答、面向事件的自動(dòng)文摘。
傳統(tǒng)的事件抽取依賴于精細(xì)的特征設(shè)計(jì)和復(fù)雜的自然語言處理工具,消耗大量人力、易產(chǎn)生錯(cuò)誤及數(shù)據(jù)稀疏問題。Chen等[31]為了捕獲詞匯的語義規(guī)律,并能考慮不遺漏重要信息,提出了利用動(dòng)態(tài)多池化卷積神經(jīng)網(wǎng)絡(luò)(Dynamic Multi-Pooling Convolution Neural,DMCNN)進(jìn)行事件抽取工作,能夠從詞和句層面的特征進(jìn)行自動(dòng)化感應(yīng),在一個(gè)句子中為每個(gè)事件抓取充分的情報(bào)。詞特征層面從大量未標(biāo)記數(shù)據(jù)中學(xué)到的詞嵌入對(duì)于捕獲詞的有意義規(guī)則更為強(qiáng)大[32],應(yīng)用Skip-gram模型預(yù)先訓(xùn)練詞嵌入[33],句子特征層面的抽取,分為兩個(gè)步驟:第一步是觸發(fā)詞分類,對(duì)每個(gè)句子的單詞進(jìn)行分類,進(jìn)而識(shí)別觸發(fā)詞;若含有觸發(fā)詞,進(jìn)行第二步參數(shù)分類,應(yīng)用DMCNN進(jìn)行參數(shù)分配并對(duì)齊參數(shù)的角色。為了提取句子層面的特征,預(yù)測觸發(fā)詞和參數(shù)候選詞之間的語義交互是參數(shù)分類的關(guān)鍵, DMCNN用于捕捉這些重要線索的三種類型:①上下文詞特征:將整個(gè)句子中所有單詞作為上下文,通過查找單詞嵌入轉(zhuǎn)換的每個(gè)單詞標(biāo)記的向量;②位置特征(Position feature,PF):在參數(shù)分類中指定單詞是候選參數(shù),PF用來定義當(dāng)前單詞到預(yù)測觸發(fā)器或候選參數(shù)的相對(duì)距離,每個(gè)距離值也由一個(gè)嵌入向量表示;③事件類型特征:當(dāng)前觸發(fā)器/觸發(fā)詞的事件類型對(duì)于參數(shù)分類很有價(jià)值,將觸發(fā)器分類階段預(yù)測的事件類型編碼為DMCNN的重要線索。在每個(gè)特征圖中為了抽取重要特征(最大價(jià)值),有必要捕捉關(guān)于候選詞變化的最有價(jià)值的信息,并在參數(shù)分類階段預(yù)測觸發(fā)器/觸發(fā)詞。
利用融合的圖譜將面向不同數(shù)據(jù)源提取的相似事件進(jìn)行機(jī)器讀取更有效,機(jī)器閱讀可以從一個(gè)整合圖中獲取包含在多個(gè)文本中的知識(shí),該問題的解決通過MERGILO,利用圖譜對(duì)齊和詞的相似性。Alam等[34]提出了一種對(duì)MERGILO的進(jìn)化,改進(jìn)的主要重點(diǎn)是事件融合,融合知識(shí)圖譜通常用于多文檔摘要,或者用于檢測跨文檔系列的知識(shí)演化。為了收集事件的完整語義表示,使用FRED語義網(wǎng)頁機(jī)器讀取器與框架一起使用,利用語義框架來增強(qiáng)提取的事件知識(shí),基于語義框架的圖形結(jié)構(gòu)和框架內(nèi)定義的語義角色的包容層次結(jié)構(gòu),擴(kuò)展了MERGILO的相似之處。
Rospocher等[35]提出了一種從新聞文章中自動(dòng)構(gòu)建事件知識(shí)圖譜的方法和工具。新聞文章用最先進(jìn)的自然語言處理和語義Web技術(shù)來創(chuàng)建以事件為中心的知識(shí)圖譜(ECKGs)。ECKGs以事件為中心意味著在時(shí)間和地點(diǎn)錨定時(shí)間并將它們鏈接到實(shí)體來表示長期的開發(fā)和故事線。在確定事件的關(guān)聯(lián)中,首先將語義角色標(biāo)簽層的謂詞和具有相同引文的所有謂詞或在WordNet 2.0以上具有相似度評(píng)分的謂詞鏈接到一個(gè)單獨(dú)的引用集中,通過聚合來自同一源中所有引用的參與者和時(shí)間表達(dá)式來創(chuàng)建所謂的復(fù)合事件對(duì)象。
2.6 ? ?與LOD集成
關(guān)聯(lián)數(shù)據(jù)(Linked Data)概念是萬維網(wǎng)的發(fā)明人Tim Berner-Lee于2006年首次提出的,2007年啟動(dòng)關(guān)聯(lián)開放數(shù)據(jù)(LOD)項(xiàng)目,其目的是用協(xié)議來規(guī)范發(fā)布和連接Web的各種數(shù)據(jù),建立一個(gè)計(jì)算機(jī)能理解的、可描述的、富含語義、具有結(jié)構(gòu)化的、互聯(lián)互通的知識(shí)網(wǎng)絡(luò),從而更加高效地利用這些相互關(guān)聯(lián)的信息。關(guān)聯(lián)數(shù)據(jù)就是把數(shù)據(jù)通過開放標(biāo)準(zhǔn)關(guān)聯(lián)在一起,揭示出數(shù)據(jù)間的相互關(guān)聯(lián)和相互聯(lián)系的規(guī)律,從而發(fā)現(xiàn)更多的新事物,產(chǎn)生更大的效益和更好的應(yīng)用。
語義網(wǎng)上的知識(shí)圖譜通常由關(guān)聯(lián)數(shù)據(jù)提供[36]。關(guān)聯(lián)數(shù)據(jù)是RDF描述的一種較新的知識(shí)表示和發(fā)布形式, RDF Schema (RDFS)的核心思想是擴(kuò)展RDF詞匯表,并允許將語義附加到用戶定義的類和屬性。RDFS由于不能表達(dá)鏈接實(shí)體之間的隱式語義,不能充分利用RDF的潛力。為了填補(bǔ)這一空白,Pu等[37]設(shè)計(jì)了新的語義標(biāo)注和推理方法,從不同屬性擴(kuò)展更多的隱式語義。首先,為鏈接數(shù)據(jù)源建立了定義良好的語義增強(qiáng)注釋策略。并提出了一種新的通用語義擴(kuò)展的鏈接數(shù)據(jù)源方案,通過語義增強(qiáng)推理實(shí)現(xiàn)對(duì)目標(biāo)鏈接數(shù)據(jù)源的語義擴(kuò)展。LOD的語義內(nèi)容結(jié)合SPARQL提供的高級(jí)搜索和查詢機(jī)制,不僅為增強(qiáng)現(xiàn)有應(yīng)用程序,而且為開發(fā)新的和創(chuàng)新的語義應(yīng)用程序提供了前所未有的機(jī)會(huì)。然而,SPARQL不足以處理諸如比較、排序和排序搜索結(jié)果等功能,針對(duì)這一問題, Meymandpour等[38]提出了一種系統(tǒng)的關(guān)聯(lián)數(shù)據(jù)資源語義相似度度量模型。提出了一種基于內(nèi)容的通用信息方法。測量相似度在關(guān)聯(lián)數(shù)據(jù)中是比較新的趨勢。語義相似性反映了兩個(gè)概念、實(shí)體、術(shù)語、句子或文檔之間的均值關(guān)系。語義相似度的措施可以分為以下類別:①基于距離模型, 在語義網(wǎng)絡(luò)中被稱為邊緣計(jì)數(shù)或基于路徑的方法,將相似性定義為概念之間距離的函數(shù)?;诼窂降姆椒▽⒔o定分類法中概念的相對(duì)深度融入到語義相似度評(píng)估中[39]。其他被廣泛使用的基于鏈接的圖(如萬維網(wǎng)鏈接結(jié)構(gòu)或引文網(wǎng)絡(luò))的相似性度量包括SimRank、PageRank、HITS、Co-citation和SALSA。然而,這些方法沒有明確考慮鏈接的類型,所有鏈接類型都被視為相同的;②基于特征模型,該方法假設(shè)概念可以作為特征集來表示。它們根據(jù)特征集之間的共性來評(píng)估概念的相似性:概念之間公共特征的任何增加都會(huì)導(dǎo)致更高的相似性得分,而共享特征的任何減少都會(huì)導(dǎo)致較低的相似性水平。在此基礎(chǔ)上,可以采用Jaccard、Dice等基于集合的指標(biāo)進(jìn)行相似性評(píng)估;③統(tǒng)計(jì)方法,統(tǒng)計(jì)相似性度量將來自基礎(chǔ)域各個(gè)方面的統(tǒng)計(jì)信息合并到相似度計(jì)算中。有幾種方法使用文檔中術(shù)語的流行程度作為其信息量的度量,并以此作為度量相似性的基礎(chǔ)。
3 ? 知識(shí)圖譜的應(yīng)用現(xiàn)狀
3.1 ? ?基于知識(shí)圖譜的推薦系統(tǒng)
推薦系統(tǒng)是一種信息過濾系統(tǒng),基于用戶畫像(用戶所表達(dá)的偏好、過去行為或者其他數(shù)據(jù))生成有意義的推薦,在越來越多的領(lǐng)域得到了應(yīng)用?;趨f(xié)同和基于內(nèi)容的推薦系統(tǒng)是常用的兩類,基于協(xié)同的方法需要來自許多用戶的大量數(shù)據(jù)進(jìn)行用戶相似度的測度,從而提供有效建議,涉及到用戶隱私;基于公共內(nèi)容的方法測度了不同內(nèi)容間的相似性。基于知識(shí)圖譜的推薦系統(tǒng)有效地解決了上述問題。RERA[40](Relation of entities recommendation agent)充分利用了出現(xiàn)在用戶歷史記錄中的實(shí)體和出現(xiàn)在候選內(nèi)容中的實(shí)體之間的關(guān)系,提出了一種新的個(gè)性化PageRank對(duì)建議內(nèi)容進(jìn)行排序,分別提取實(shí)體作為用戶感興趣實(shí)體集合set1和從提議內(nèi)容提取實(shí)體set2,分析兩個(gè)集合連接性,進(jìn)而判斷內(nèi)容相關(guān)性,從而實(shí)現(xiàn)基于內(nèi)容的推薦。
知識(shí)圖譜是一種表示在Web數(shù)據(jù)中編碼的知識(shí)方式,也是為了提取新的和隱式信息進(jìn)行推理的工具。Oramas等[41]描述了如何創(chuàng)建和利用一個(gè)知識(shí)圖譜來提供一個(gè)混合的推薦引擎,并在描述音樂和聲音項(xiàng)目的文檔集合的基礎(chǔ)上構(gòu)建信息?;跇?gòu)建的知識(shí)圖譜,使用一種特性組合混合方法來計(jì)算,可以獲得兩個(gè)顯式的圖形特征映射,從而捕獲嵌入在圖中的知識(shí)。這些內(nèi)容特性與來自隱式用戶反饋的附加協(xié)作信息進(jìn)一步結(jié)合在一起。最終形成混合的信息,基于此構(gòu)建推薦引擎。
3.2 ? ?跨媒體推理
信息的獲取、傳播、處理和分析已經(jīng)逐漸從一種媒體形式轉(zhuǎn)變?yōu)槲谋尽D像、視頻、音頻、立體圖像等多種媒體類型。不同媒體類型和形式代表了全面的知識(shí),反映了個(gè)人和群體的行為。由此,人們認(rèn)識(shí)到一種新的信息形式,即跨媒體信息。傳統(tǒng)的方法無法實(shí)現(xiàn)從多種媒體模式中提取語義,無法處理跨媒體數(shù)據(jù)分析,無法處理具有復(fù)雜組合、不同表示和復(fù)雜關(guān)聯(lián)的跨媒體場景。在跨媒體統(tǒng)一表示的理論和模型、跨媒體知識(shí)圖譜建設(shè)和學(xué)習(xí)方法、跨媒體知識(shí)的演變和推理等方面呈現(xiàn)方法、進(jìn)展和未來方向。
(1)跨媒體統(tǒng)一表示模型。第一個(gè)跨媒體統(tǒng)一表示模型是CCA[42],它通過最大化兩兩并行異構(gòu)數(shù)據(jù)之間的相關(guān)性來學(xué)習(xí)共享空間,并通過線性函數(shù)進(jìn)行投影。CCA只能對(duì)兩種媒體類型的相互關(guān)系建模,為了解決這一限制,Zhai等[43]和Peng等[44]通過對(duì)XMedia數(shù)據(jù)集(包含了文本、圖像、視頻、音頻和3D模型)的五種媒體類型進(jìn)行圖形正則化,在統(tǒng)一框架下對(duì)相關(guān)性和語義信息進(jìn)行聯(lián)合建模;Yang等[45]提出了多媒體文檔(Multimedia document,MMD)模型,每個(gè)MMD具有不同模式但是相同語義的媒體對(duì)象,MMD之間的距離與每個(gè)模態(tài)相關(guān),這樣就可以進(jìn)行跨媒體檢索;主題模型是跨媒體統(tǒng)一表示學(xué)習(xí)中另一種技術(shù),假設(shè)包含相同語義的異構(gòu)數(shù)據(jù)共享一些潛在的主題,Roller等[46]將視覺特征融入到LDA中,提出了一種多模態(tài)LDA模型來學(xué)習(xí)文本和視覺數(shù)據(jù)的表示,Wang等[47]提出了一種稱為多模態(tài)相互話題強(qiáng)化模型(multimodal mutual topic enhanced model, M3R)的方案,該方案旨在通過模型因素之間的適當(dāng)交互來發(fā)現(xiàn)相互一致的語義話題。
(2)跨媒體知識(shí)圖譜建設(shè)和學(xué)習(xí)方法。在跨媒體檢索中,不僅從文本數(shù)據(jù)語料庫中定義和提取實(shí)體和關(guān)系,而且從文本、圖像、視頻等大量松散數(shù)據(jù)形式中提取實(shí)體和關(guān)系,跨媒體知識(shí)圖譜為跨媒體語境下的語義關(guān)聯(lián)分析和認(rèn)知層次推理提供了基本的可計(jì)算的知識(shí)表示結(jié)構(gòu),促進(jìn)了跨媒體智能的理論和技術(shù)發(fā)展。為了將數(shù)據(jù)網(wǎng)絡(luò)轉(zhuǎn)化為知識(shí)網(wǎng)絡(luò),Suchanek和Weikum[48]認(rèn)為跨媒體知識(shí)圖譜的研究需要考慮幾個(gè)問題;首先,研究從異構(gòu)跨媒體信息源中提取實(shí)體和構(gòu)建關(guān)系的有效技術(shù);其次,研究基于跨媒體知識(shí)圖譜的信息搜索與檢索,為更多樣化的應(yīng)用環(huán)境提供更有效的知識(shí)獲取和信息檢索機(jī)制;第三,開發(fā)跨媒體知識(shí)圖譜的挖掘和推理,促進(jìn)知識(shí)的獲取和對(duì)實(shí)際應(yīng)用的高層次推理;第四,需要知識(shí)驅(qū)動(dòng)的跨媒體學(xué)習(xí)模型來實(shí)現(xiàn)更多的泛化和學(xué)習(xí)能力,從而產(chǎn)生更高級(jí)的跨媒體智能。
(3)跨媒體知識(shí)的演變和推理?,F(xiàn)實(shí)世界中的知識(shí)和推理過程通常涉及語言、視覺和其他類型的媒體數(shù)據(jù)間的協(xié)作。大多數(shù)現(xiàn)有的智能系統(tǒng)僅利用來自單一媒體類型的信息來執(zhí)行推理過程。視覺問答(Visual question answer, VQA)是跨媒體推理的一個(gè)很好的案例[49]。VQA的目的是以圖像和自然語言相結(jié)合的形式,為所給的問題提供自然語言的答案。Johnson等[50]試圖借助場景圖來提高圖像檢索的并行性,這也體現(xiàn)了跨媒體推理的思想。場景圖表示對(duì)象及其屬性和關(guān)系,可用于指導(dǎo)語義級(jí)的圖像檢索。然而,這些系統(tǒng)仍然難以充分利用互補(bǔ)媒體類型所包含的豐富語義信息,無法對(duì)多媒體進(jìn)行復(fù)雜的跨媒體分析和推理。
跨媒體大數(shù)據(jù)本質(zhì)上是多模態(tài)、跨領(lǐng)域的,使用不同的表示形式和復(fù)雜的關(guān)聯(lián)。現(xiàn)有的智能系統(tǒng)和框架在很大程度上依賴于特定領(lǐng)域的結(jié)構(gòu)化輸入和知識(shí)。高效的智能引擎將成為技術(shù)與應(yīng)用之間的橋梁,可以整合跨媒體的統(tǒng)一表示、關(guān)聯(lián)學(xué)習(xí)、知識(shí)進(jìn)化、推理等。人工智能時(shí)代的到來,以及海量跨媒體數(shù)據(jù)的可用性,正在徹底改變所有行業(yè)的格局。其中,跨媒體Web內(nèi)容監(jiān)控、Web信息趨勢分析和醫(yī)療數(shù)據(jù)融合與推理是三個(gè)關(guān)鍵的應(yīng)用,以醫(yī)療數(shù)據(jù)融合與推理為例,數(shù)據(jù)驅(qū)動(dòng)的醫(yī)療分析基于海量跨媒體數(shù)據(jù)的融合,正在將經(jīng)驗(yàn)診斷和循證醫(yī)學(xué)改革為個(gè)性化和精準(zhǔn)醫(yī)療。醫(yī)療分析是一個(gè)關(guān)鍵的技術(shù),為廣泛的現(xiàn)實(shí)所應(yīng)用(見圖5)。
3.3 ? ?知識(shí)圖譜在生物醫(yī)學(xué)領(lǐng)域的應(yīng)用
生物醫(yī)學(xué)領(lǐng)域知識(shí)的復(fù)雜性和規(guī)模性推動(dòng)了從結(jié)構(gòu)化和非結(jié)構(gòu)化知識(shí)庫中挖掘異構(gòu)數(shù)據(jù)的研究工作。在這個(gè)方向上,有必要結(jié)合事實(shí),形成關(guān)于領(lǐng)域概念的假設(shè)或者結(jié)論。
在生物醫(yī)學(xué)領(lǐng)域,各種知識(shí)的發(fā)展規(guī)模和速度已經(jīng)超過個(gè)人的能力。目前大規(guī)模數(shù)據(jù)給醫(yī)學(xué)領(lǐng)域帶來信息提取及知識(shí)融合產(chǎn)生新知識(shí)這兩個(gè)難題。Swanson[52]展示了在結(jié)合不同來源的事實(shí)中發(fā)現(xiàn)新的、未知知識(shí)的潛力;Srinivasan等[53]開發(fā)了一套系統(tǒng),該系統(tǒng)通過一組預(yù)定義類型的共現(xiàn)概念,從感興趣的概念開始搜索兩個(gè)概念間的路徑,從而發(fā)現(xiàn)潛在關(guān)系;Weissenborn等[54]利用依賴關(guān)系樹作為句子中兩兩概念的句法依存工具,在知識(shí)表示和融合中,基于知識(shí)圖譜將異構(gòu)的知識(shí)集成到一個(gè)一致的表示模式,解決概念的相互映射問題,并利用語義向量減少關(guān)系空間。通過訓(xùn)練模型發(fā)現(xiàn)不能直接提取的概念之間的隱藏關(guān)系,可以進(jìn)行全新知識(shí)的推斷;Vlietstra等[55]展示了如何從生物醫(yī)學(xué)文獻(xiàn)和結(jié)構(gòu)化數(shù)據(jù)庫中提取語義集成的知識(shí)來自動(dòng)識(shí)別潛在的偏頭痛生物標(biāo)志物。
藥物間的相互作用(Drug-Drug interaction,DDIs)是可預(yù)防的藥物不良反應(yīng)的主要原因。已知現(xiàn)有的公共和專有的DDI信息來源不完整或不準(zhǔn)確。Abdelaziz等[56]提出了一種基于相似度的大規(guī)模框架Tiresias,通過鏈路預(yù)測來預(yù)測DDIs。Tiresias將各種與藥物相關(guān)的數(shù)據(jù)和知識(shí)來源作為輸入,并將DDI預(yù)測作為輸出。這個(gè)過程從輸入數(shù)據(jù)的語義集成開始,生成一個(gè)描述藥物屬性的知識(shí)圖譜,以及與各種相關(guān)實(shí)體(如酶、化學(xué)結(jié)構(gòu)等)的關(guān)系。然后使用知識(shí)圖譜在可伸縮和分布式框架中計(jì)算所有藥物之間的幾個(gè)相似性度量。
3.4 ? ?其他
知識(shí)圖譜在語音識(shí)別、智能問答、網(wǎng)頁生成視頻、圖像特征學(xué)習(xí)等方面都有廣泛的應(yīng)有。此外,知識(shí)圖譜在垂直領(lǐng)域的應(yīng)用也很廣泛,包括讓消費(fèi)者能快速掌握產(chǎn)品功能及技術(shù)的產(chǎn)品知識(shí)圖譜、金屬材料知識(shí)圖譜、地質(zhì)知識(shí)圖譜、交通知識(shí)圖譜、城市治理知識(shí)圖譜等領(lǐng)域方面的應(yīng)用。
4 ? 結(jié)語
文章從文獻(xiàn)計(jì)量和主題內(nèi)容挖掘出發(fā),分析了知識(shí)圖譜的研究進(jìn)展及其相關(guān)新技術(shù)發(fā)展,更詳細(xì)地討論了知識(shí)圖譜的構(gòu)建、改進(jìn)和應(yīng)用方面的現(xiàn)狀和面臨的主要挑戰(zhàn),以及處理這些問題的方法。
可以看出,近年來知識(shí)表示、知識(shí)組織和知識(shí)理解已經(jīng)成為最重要的知識(shí)系統(tǒng)?,F(xiàn)有學(xué)術(shù)研究和產(chǎn)業(yè)界提出了大量與知識(shí)圖譜加速發(fā)展相關(guān)的研究問題、應(yīng)用和產(chǎn)品。然而,在知識(shí)圖譜領(lǐng)域仍然存在著諸多機(jī)遇和挑戰(zhàn),特別是在強(qiáng)調(diào)知識(shí)集成、知識(shí)服務(wù)、知識(shí)發(fā)現(xiàn)的情報(bào)學(xué)領(lǐng)域,研究對(duì)象已經(jīng)深入到知識(shí)內(nèi)容層面,知識(shí)圖譜為情報(bào)研究發(fā)展提供了很好的思路。富媒體時(shí)代,隨著需求的不斷增加,以及知識(shí)圖譜的涌現(xiàn),需要在數(shù)據(jù)、對(duì)象、情景、作用和工作流等層面進(jìn)行圖譜集成、推理、應(yīng)用方面的評(píng)估,并利用圖譜中的各類感知信息及關(guān)系在各領(lǐng)域展開更為智能和廣泛的應(yīng)用。
參考文獻(xiàn):
[1] ?Rober Neches,Richard Fikes,Tim Finin,et al. Enabling technology for knowledge sharing[J].Ai Magazine,1991,12(3):36-56.
[2] ?Studer R,Benjamins V R,F(xiàn)ensel D.Knowledge engineering principles and methods[J].Data and knowledge engineering,1998,25(1/2):161-197.
[3] ?Liu X,Li Y,Wu H,et al.Entity linking for tweets[J].ACL,2013(1):1304-1311.
[4] ?Dredze M,Mcnamee P,Rao D,et al.Entity Disambiguation for Knowledge Base Population[C].Association for Computational Linguistics,2010.
[5] ?Socher R,Chen D,Manning C D,et al.Reasoning With Neural Tensor Networks for Knowledge Base Completion[C].International Conference on Neural Information Processing Systems,2013.
[6] ?Yu Zhao,Sheng Gao,Patrick Gallinari,et al.Knowledge base completion by learning pairwise-interaction differentiated embeddings[J].Data Mining and Knowledge Discovery,2015,29(5):1486-1504.
[7] ?Lange D,Christoph B?觟hm,Naumann F.Extracting structured information from Wikipedia articles to populate infoboxes[C].Acm International Conference on Information & Knowledge Management.ACM,2010.
[8] ?Wu F,Hoffmann R,Weld D S.Information extraction from Wikipedia:moving down the long tail[C].Acm Sigkdd International Conference on Knowledge Discovery & Data Mining,2008.
[37] ?Pu L,Bao X,Aftab A,et al.SES LDS:An Extension Scheme for Linked Data Sources Based on Semantically Enhanced Annotation and Reasoning[J].International Journal of Intelligent Systems,2017,33(7209):233-258.
[38] ?Rouzbeh Meymandpour,Joseph G.Davis.A semantic similarity measure for linked data:an information content-based approach[J].Knowledge-Based Systems,2016,109:276-293.
[39] ?Leacock C,Chodorow M.Combining Local Context and WordNet Similarity for Word Sense Identification[C].WordNet:An Electronic Lexical Database,1998.
[40] ?Chaudhari S,Azaria A,Mitchell T.An entity graph based Recommender System[J].AI Communications,2017,30(2):141-149.
[41] ?Oramas S,Ostuni V C,Noia T D,et al.Sound and Music Recommendation with Knowledge Graphs.[J].ACM Transactions on Intelligent Systems and Technology,2016,8(2):1-21.
[42] ?Rasiwasia N,Costa Pereira J,Coviello E,et al.A new approach to cross-modal multimedia retrieval[C].ACM Int.Conf.on Multimedia,2010:251-260.
[43] ?Zhai X,Peng Y,Xiao J.Learning cross-media joint representation with sparse and semi-supervised regularization[J].IEEE Trans.Circ.Syst.Video Technol.,2014,24(6):965-978.
[44] ?Peng Y,Zhai X,Zhao Y,et al.Semi-supervised cross-media feature learning with unified patch graph regularization[J].IEEE Trans.Circ.Syst.Video Technol.,2016,26(3):583-596.
[45] ?Yang Y,Zhuang Y,Wu F,et al.Harmonizing hierarchical manifolds for multimedia document semantics understanding and cross-media retrieval.[J].IEEE Trans.Multim.,2008,10(3):437-446.
[46] ?Roller S,Schulte im Walde S.A multimodal LDA model integrating textual,cognitive and visual modalities[C].Conf.on Empirical Methods in Natural Language Processing,2013:1146-1157.
[47] ?Wang Y,Wu F,Song J,et al.Multi-modal mutual topic reinforce modeling for cross-media retrieval[C].ACM Int.Conf.on Multimedia,2014:307-316.
[48] ?Suchanek F,Weikum G.Knowledge bases in the age of big data analytics[C].Proc.VLDB Endow.,2014:1713-1714.
[49] ?Antol S,Agrawal A,Lu J,et al.VQA:visual question answering[C].IEEE Int.Conf.on Computer Vision,2015:2425-2433.
[50] ?Johnson J,Krishna R,Stark M,et al.Image retrieval using scene graphs[C].IEEE Conf.on Computer Vision and Pattern Recognition,2015:3668-3678.
[51] ?Peng Y,Zhu W,Zhao Y,et al.Cross-media analysis and reasoning:advances and directions[J].Frontiers of Information Technology & Electronic Engineering,2017,18(1):44-57.
[52] ?Swanson D R,F(xiàn)ish Oil.Raynauds Syndrome,and Undiscovered Public Knowledge[J].Perspectives in Biology and Medicine,1986,30(1):7-18.
[53] ?Srinivasan P,Libbus B,Sehgal AK.Mining medline:Postulating a beneficial role for curcumin longa in retinal diseases[C].Workshop BioLINK,linking biological literature,ontologies and databases at HLT NAACL,2004.
[54] ?Weissenborn D,Schroeder M,Tsatsaronis G.Discovering relations between indirectly connected biomedical concepts[J].Journal of Biomedical Semantics,2015,6(1):1-19.
[55] ?Vlietstra W J,Zielman R,van Dongen,et al.Automated extraction of potential migraine biomarkers using a semantic graph[J].Journal of Biomedical Informatics,2017,71:178-189.
[56] ?Abdelaziz I,F(xiàn)okoue A,Hassanzadeh O,et al.Large-scale structural and textual similarity-based mining of knowledge graph to predict drug-drug interactions[J].Web Semantics:Science,Services and Agents on the World Wide Web,2017,44:104-117.
作者簡介:譚曉(1983-),女,北京市科學(xué)技術(shù)情報(bào)研究所助理研究員,博士,研究方向:情報(bào)方法研究、戰(zhàn)略情報(bào)、文本挖掘;張志強(qiáng)(1964-),男,中國科學(xué)院成都文獻(xiàn)情報(bào)中心研究員,博士生導(dǎo)師,研究方向:科技戰(zhàn)略與規(guī)劃、科技政策與管理、科學(xué)計(jì)量學(xué)與科技評(píng)價(jià)。