• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      知識(shí)圖譜問(wèn)答研究進(jìn)展

      2022-03-25 04:45:36王月春郝曉慧王會(huì)勇
      軟件導(dǎo)刊 2022年3期
      關(guān)鍵詞:圖譜實(shí)體語(yǔ)義

      論 兵,王月春,郝曉慧,2,谷 斌,王會(huì)勇

      (1.石家莊郵電職業(yè)技術(shù)學(xué)院計(jì)算機(jī)系;2.中國(guó)郵政集團(tuán)公司人才測(cè)評(píng)中心;3.河北科技大學(xué)信息科學(xué)與工程學(xué)院,河北石家莊 050000)

      0 引言

      問(wèn)答系統(tǒng)(Question Answering System,QA)是利用自然語(yǔ)言處理技術(shù)對(duì)自然語(yǔ)言問(wèn)句進(jìn)行自動(dòng)分析,并準(zhǔn)確回復(fù)答案的智能系統(tǒng)。近年來(lái),隨著信息技術(shù)的飛速發(fā)展,現(xiàn)實(shí)世界中的信息量呈指數(shù)式增長(zhǎng),傳統(tǒng)依賴(lài)大量規(guī)則或模板的問(wèn)答系統(tǒng)已無(wú)法滿(mǎn)足人們的實(shí)際需求。為了解決傳統(tǒng)基于語(yǔ)義解析的方法中存在的問(wèn)題,研究者們逐漸將研究興趣從語(yǔ)義解析轉(zhuǎn)移到信息檢索中?;谛畔z索的問(wèn)答系統(tǒng)依靠關(guān)鍵詞匹配和信息提取分析淺層語(yǔ)義,并從相關(guān)網(wǎng)頁(yè)或文檔中提取相關(guān)知識(shí),從而實(shí)現(xiàn)自然語(yǔ)言問(wèn)句回答。這種方法需要問(wèn)答系統(tǒng)預(yù)先設(shè)置問(wèn)題答案,因此無(wú)法實(shí)現(xiàn)開(kāi)放領(lǐng)域的問(wèn)答。

      隨著語(yǔ)義網(wǎng)(Semantic Web)、知識(shí)圖譜(Knowledge Graph,KG)和信息檢索技術(shù)的快速發(fā)展,一大批高質(zhì)量的知識(shí)圖譜被推出,如YAGO[1]、DBpedia[2]和Freebase[3]。知識(shí)圖譜將現(xiàn)實(shí)世界中的知識(shí)以網(wǎng)狀的形式進(jìn)行存儲(chǔ),被廣泛應(yīng)用于醫(yī)療[4]、金融[5]、軍事[6]等領(lǐng)域,并取得了較為顯著的效果?;谥R(shí)圖譜的問(wèn)答系統(tǒng)(Knowledge Graph Question Answering,KGQA)根據(jù)知識(shí)圖譜內(nèi)部存在的大量實(shí)體間的直接關(guān)系,挖掘并推理隱藏關(guān)系[7]。與傳統(tǒng)基于信息檢索的問(wèn)答系統(tǒng)相比,KGQA 可以在知識(shí)圖譜的基礎(chǔ)上爭(zhēng)取理解用戶(hù)問(wèn)題的語(yǔ)義,并通過(guò)實(shí)體檢索、關(guān)系推理,最終反饋?zhàn)顪?zhǔn)確的答案。本文對(duì)近年來(lái)提出的知識(shí)圖譜問(wèn)答技術(shù)進(jìn)行追蹤和整理,為更多知識(shí)圖譜問(wèn)答研究者提供參考信息。

      1 背景知識(shí)

      1.1 問(wèn)答系統(tǒng)

      問(wèn)答系統(tǒng)作為人工智能中的一個(gè)關(guān)鍵領(lǐng)域[8],其能夠快速回答用戶(hù)利用自然語(yǔ)句提出的問(wèn)題,是信息檢索和人工智能的交叉研究方向。早在人工智能出現(xiàn)早期,阿蘭·圖靈就提出了經(jīng)典的圖靈測(cè)試,以驗(yàn)證機(jī)器是否具有類(lèi)人智能。在之后的數(shù)十年間,伴隨著人工智能技術(shù)的興衰,一大批具有代表性的問(wèn)答系統(tǒng)不斷涌現(xiàn)。1966 年,Weizenbaum 設(shè)計(jì)并實(shí)現(xiàn)了ELIZA 聊天機(jī)器人[9],其能夠處理簡(jiǎn)單的問(wèn)題語(yǔ)句。公認(rèn)最早應(yīng)用于現(xiàn)實(shí)生活的問(wèn)答系統(tǒng)是Baseball 系統(tǒng),僅能限定性地回答棒球領(lǐng)域的基礎(chǔ)問(wèn)題。隨后Colby 設(shè)計(jì)的PARRY 聊天機(jī)器人[10]在利用ELIZA 規(guī)則的基礎(chǔ)上,添加了自己的情感,成為第一個(gè)通過(guò)圖靈測(cè)試的聊天系統(tǒng)。這些基于規(guī)則匹配的問(wèn)答系統(tǒng)受限于當(dāng)時(shí)匱乏的數(shù)據(jù)資源,不能得到大規(guī)模應(yīng)用。

      隨著深度學(xué)習(xí)和自然語(yǔ)言處理技術(shù)的快速發(fā)展,問(wèn)答系統(tǒng)逐漸從早期的規(guī)則匹配過(guò)渡到檢索匹配[11]。其核心思想是通過(guò)提取自然語(yǔ)言問(wèn)句中的核心詞,之后根據(jù)問(wèn)題核心詞在文檔或網(wǎng)頁(yè)中搜索相關(guān)答案內(nèi)容,并利用相關(guān)排序算法返回對(duì)應(yīng)答案。Ma 等[12]基于文檔自動(dòng)檢索的方法提出偽相關(guān)反饋算法,該方法利用文檔中的上下文信息檢索最相似的答案?;跈z索的方法在提出之初取得了較好效果,但隨著數(shù)據(jù)量激增、用戶(hù)問(wèn)題多樣性及自然語(yǔ)言復(fù)雜性等問(wèn)題的出現(xiàn),基于檢索匹配的問(wèn)答系統(tǒng)從文檔或網(wǎng)頁(yè)中抽取的答案質(zhì)量參差不齊,嚴(yán)重影響了系統(tǒng)的響應(yīng)時(shí)間和答案的準(zhǔn)確性。

      直至知識(shí)圖譜、知識(shí)庫(kù)等概念的提出,問(wèn)答系統(tǒng)利用知識(shí)圖譜內(nèi)存在的大量結(jié)構(gòu)化知識(shí)和計(jì)算機(jī)強(qiáng)大的算力,從根本上解決了前兩種問(wèn)答系統(tǒng)的不足,實(shí)現(xiàn)了問(wèn)答系統(tǒng)從文檔形式的問(wèn)答轉(zhuǎn)變?yōu)榛谥R(shí)圖譜的問(wèn)答,且越來(lái)越受到研究者的重點(diǎn)關(guān)注,成為自然語(yǔ)言處理領(lǐng)域的熱點(diǎn)[13]。

      1.2 知識(shí)圖譜

      2012 年,Google 首次提出知識(shí)圖譜概念,并將其應(yīng)用于改善傳統(tǒng)搜索引擎的能力。知識(shí)圖譜將現(xiàn)實(shí)世界中的知識(shí)以三元組(實(shí)體—關(guān)系—實(shí)體或概念—屬性—值)的形式進(jìn)行組織,形成了一個(gè)多邊關(guān)系網(wǎng)絡(luò),其本質(zhì)是一種語(yǔ)義網(wǎng)絡(luò),可揭示實(shí)體間的相互關(guān)系。圖1 展示了一個(gè)簡(jiǎn)單的知識(shí)圖譜示例,其中節(jié)點(diǎn)表示實(shí)體或概念,連接節(jié)點(diǎn)的邊表示實(shí)體間的關(guān)系或概念的屬性。根據(jù)知識(shí)覆蓋領(lǐng)域不同,知識(shí)圖譜可簡(jiǎn)單分為通用領(lǐng)域知識(shí)圖譜(如:Wikidata[14]、DBpedia、CN-DBpedia[15]、Freebase 等)和特定領(lǐng)域知識(shí)圖譜(如:阿里商品圖譜[16]、美團(tuán)美食圖譜[17]、AMiner[18])。傳統(tǒng)知識(shí)圖譜構(gòu)建方法包括實(shí)體識(shí)別[19]、實(shí)體消歧[20]、關(guān)系抽?。?1]和知識(shí)存儲(chǔ)等。

      Fig.1 Simple example of knowledge graph圖1 知識(shí)圖譜簡(jiǎn)單示例

      隨著深度學(xué)習(xí)的出現(xiàn)和快速發(fā)展,知識(shí)圖譜也逐漸由“符號(hào)”連接轉(zhuǎn)變?yōu)椤跋蛄俊北硎尽oards 等[22]提出的TransE模型將知識(shí)圖譜中的實(shí)體和關(guān)系嵌入到低維向量語(yǔ)義空間,把關(guān)系向量視為頭實(shí)體向量到尾實(shí)體向量的一種翻譯;Lin 等[23]提出的TransR/CTransR 為每個(gè)關(guān)系設(shè)置一個(gè)獨(dú)有的關(guān)系矩陣空間Mr,并將實(shí)體和關(guān)系通過(guò)Mr矩陣嵌入到向量語(yǔ)義空間中進(jìn)行翻譯計(jì)算?;谥R(shí)表示學(xué)習(xí)的知識(shí)圖譜構(gòu)建方法從根本上解決了傳統(tǒng)知識(shí)圖譜構(gòu)建方法帶來(lái)的長(zhǎng)尾效應(yīng),極大提高了知識(shí)圖譜的可用性。

      2 知識(shí)圖譜問(wèn)答主要方法

      KGQA的關(guān)鍵問(wèn)題是如何將自然語(yǔ)言問(wèn)題轉(zhuǎn)換為計(jì)算機(jī)可以理解的形式語(yǔ)言,并在構(gòu)建好的KG 內(nèi)通過(guò)查詢(xún)、推理獲得問(wèn)題答案,其本質(zhì)是自然語(yǔ)言處理的問(wèn)題?,F(xiàn)有KGQA的主要方法大致可以分為:基于語(yǔ)義解析的方法(Semantic Parsing-based Method)、基于信息檢索的方法(Information Retrieval-based Method)、基于知識(shí)嵌入的方法(Knowledge Embedding-based Method)。圖2 展示了上述3種方法的主要工作流程。其中,基于語(yǔ)義解析方法的核心思想是將自然問(wèn)答語(yǔ)句解析為SPARQL 查詢(xún)語(yǔ)句,并以此獲取答案核心詞實(shí)現(xiàn)問(wèn)題的回答;基于信息檢索方法的核心思想是將自然語(yǔ)言語(yǔ)句進(jìn)行識(shí)別和抽取,構(gòu)建知識(shí)圖譜查詢(xún)子圖,并以此從知識(shí)圖譜內(nèi)獲取最優(yōu)結(jié)果;基于知識(shí)嵌入方法的核心思想是將知識(shí)圖譜和自然問(wèn)句嵌入到低維空間中進(jìn)行向量計(jì)算以獲取最優(yōu)結(jié)果,從而實(shí)現(xiàn)知識(shí)問(wèn)答。

      Fig.2 Main methods of knowledge graph question answering圖2 知識(shí)圖譜問(wèn)答主要方法

      2.1 基于語(yǔ)義解析的方法

      基于語(yǔ)義解析方法的KGQA 主要是將非結(jié)構(gòu)化的自然語(yǔ)言轉(zhuǎn)換為一系列的邏輯表達(dá)式,并將拼接后的邏輯表達(dá)式放入知識(shí)圖譜中,查詢(xún)問(wèn)題的最終答案。這種基于語(yǔ)義解析的方法對(duì)問(wèn)題答案的可解釋性較高,能夠解釋KGQA系統(tǒng)答案的來(lái)源?;谡Z(yǔ)義解析的方法主要包括直接映射和神經(jīng)網(wǎng)絡(luò)兩種。

      2.1.1 直接映射方法

      直接映射方法主要采用語(yǔ)義解析語(yǔ)法工具完成邏輯表達(dá)式構(gòu)建。Steedman[24]提出的組合范疇語(yǔ)法(Combinatory Categorial Grammar,CCG)使用詞匯表完成問(wèn)句到邏輯表達(dá)式的轉(zhuǎn)化,并通過(guò)排序算法選擇最佳邏輯表達(dá)式;Artizi 等[25]將CCG語(yǔ)義類(lèi)型部分中的λ-算子替換為AMR(Abstract Meaning Representation),從而提升了語(yǔ)義解析效果;Berant 等[26]將CCG 語(yǔ)義解析直接融入KGQA 中,解決了傳統(tǒng)語(yǔ)義解析器需要大量人工標(biāo)注的詞匯表問(wèn)題?;贑CG 語(yǔ)法的語(yǔ)義解析方法具有很強(qiáng)的可解釋性,同時(shí)結(jié)構(gòu)也較為清晰,在特定領(lǐng)域取得了較為出色的效果,但面對(duì)大規(guī)模通用知識(shí)圖譜時(shí)該方法使語(yǔ)義歧義問(wèn)題更加凸顯。

      Reddy 等[27]對(duì)自然語(yǔ)言問(wèn)題語(yǔ)句進(jìn)行分析,將傳統(tǒng)直接映射方法分析問(wèn)句的依存解析樹(shù)轉(zhuǎn)為構(gòu)建自然語(yǔ)言問(wèn)句所對(duì)應(yīng)的知識(shí)圖譜子圖,并將子圖映射到知識(shí)圖譜中,利用圖匹配方法實(shí)現(xiàn)問(wèn)題回答;Hao 等[28]將自然語(yǔ)句解析為復(fù)雜的知識(shí)圖譜子圖,從而實(shí)現(xiàn)復(fù)雜問(wèn)題回答,且模型效果較為出色;孟明明等[29]設(shè)計(jì)一種語(yǔ)義查詢(xún)拓展方法解決從數(shù)據(jù)源中難以獲得理想答案的問(wèn)題,該方法對(duì)問(wèn)題三元組中的查詢(xún)術(shù)語(yǔ)從3 個(gè)語(yǔ)義角度進(jìn)行拓展,實(shí)現(xiàn)了對(duì)問(wèn)題三元組的多語(yǔ)義拓展;Hu 等[30]認(rèn)為基于語(yǔ)義解析方法的知識(shí)圖譜問(wèn)答大致分為問(wèn)題理解和查詢(xún)?cè)u(píng)分兩個(gè)階段,難點(diǎn)在于解決問(wèn)題理解階段中的歧義性問(wèn)題,即解決短語(yǔ)鏈接問(wèn)題和復(fù)合問(wèn)題。為此,他們提出一種基于圖匹配的方法,該方法將解決歧義問(wèn)題與查詢(xún)?cè)u(píng)分兩個(gè)階段進(jìn)行融合,并提出關(guān)系優(yōu)先(relation-first)和節(jié)點(diǎn)優(yōu)先(node-first)的方法,relation-first 方法盡可能地抽取對(duì)應(yīng)關(guān)系,并根據(jù)句法樹(shù)中識(shí)別出的實(shí)體構(gòu)建查詢(xún)圖,node-first 方法則從自然語(yǔ)言問(wèn)句中抽取對(duì)應(yīng)的實(shí)體,再對(duì)實(shí)體間的關(guān)系進(jìn)行填充以構(gòu)建查詢(xún)圖。這種方法不需要人工定義邏輯表達(dá)式模板,且對(duì)復(fù)雜問(wèn)題解析非常有效。Dhandapani 等[31]認(rèn)為直接將問(wèn)題轉(zhuǎn)化為三元組的方法無(wú)法獲取問(wèn)題中的語(yǔ)義信息,為此他們提出一種基于問(wèn)題類(lèi)型分類(lèi)的模板匹配方法,該方法對(duì)問(wèn)題類(lèi)型進(jìn)行分類(lèi),并為每種類(lèi)型找到最合適的SPARQL 查詢(xún)模板。該方法在QALD-8 數(shù)據(jù)集上表現(xiàn)出較好的優(yōu)越性。

      直接映射方法可以較為清晰地將自然語(yǔ)言問(wèn)題語(yǔ)句轉(zhuǎn)換為邏輯表達(dá)式,但該方法需要人工定義大量的邏輯表達(dá)規(guī)則,在特定領(lǐng)域內(nèi)表現(xiàn)尚佳,而在面對(duì)大規(guī)模知識(shí)圖譜時(shí)無(wú)法實(shí)現(xiàn)未定義規(guī)則的轉(zhuǎn)化,造成通用性較差。

      2.1.2 神經(jīng)網(wǎng)絡(luò)方法

      為了解決直接映射方法無(wú)法處理未定義規(guī)則轉(zhuǎn)化問(wèn)題,研究者受到機(jī)器翻譯中編碼器—解碼器結(jié)構(gòu)網(wǎng)絡(luò)(Sequence-to-Sequence,Seq2Seq)思想啟發(fā),提出神經(jīng)網(wǎng)絡(luò)方法。基于神經(jīng)網(wǎng)絡(luò)方法的語(yǔ)義解析模型將自然語(yǔ)言問(wèn)句翻譯成邏輯表達(dá)式,并將翻譯后的邏輯表達(dá)式放入知識(shí)圖譜中實(shí)現(xiàn)問(wèn)題回答。

      Dong 等[32]提出一種基于注意力增強(qiáng)機(jī)制的編碼—解碼(Encoder-Decoder)方法,從而將語(yǔ)義解析問(wèn)題轉(zhuǎn)換為翻譯問(wèn)題。具體而言,他們?cè)O(shè)計(jì)了Seq2Seq 模型和Seq2Tree模型。其中,Seq2Seq 模型將語(yǔ)義解析視為序列轉(zhuǎn)換的一種任務(wù),Seq2Tree 模型配備了分層樹(shù)解碼器,可以清晰地捕獲用于翻譯后的邏輯表達(dá)式。Dong 等[32]的方法主要關(guān)注的是解碼器部分,而Xiao 等[33]認(rèn)為編碼器對(duì)語(yǔ)義解析非常重要。為此,他們將符號(hào)先驗(yàn)知識(shí)引入RNN 模型中,從而實(shí)現(xiàn)語(yǔ)義解析。在Xiao 等[33]的基礎(chǔ)上,Xu 等[34]使用圖編碼器(Graph2Seq)對(duì)語(yǔ)義圖進(jìn)行編碼,之后將注意力機(jī)制引入RNN 模型對(duì)編碼結(jié)果進(jìn)行解碼,以獲得邏輯表達(dá)式;Cao等[35]為了更好地對(duì)問(wèn)題與知識(shí)圖譜Schema 以及Schema 內(nèi)部關(guān)系進(jìn)行建模,提出一種結(jié)合線性有向圖和普通有向圖的Text2SQL 模型。該模型通過(guò)引入線性有向圖,在簡(jiǎn)化問(wèn)題子圖的同時(shí)突出實(shí)體間的關(guān)系,同時(shí)該模型還設(shè)計(jì)了問(wèn)題子圖修剪的輔助任務(wù),從而對(duì)局部圖特征和非局部圖特征進(jìn)行區(qū)分。Cao 等[35]在Spider 數(shù)據(jù)集上測(cè)試了所提出的方法,結(jié)果表明其在Spider 上已超過(guò)所有基準(zhǔn)模型,成為最優(yōu)方法。Zhu 等[36]認(rèn)為基于神經(jīng)網(wǎng)絡(luò)的方法主要關(guān)注了問(wèn)題和關(guān)系之間的語(yǔ)義對(duì)應(yīng),忽視了問(wèn)題的結(jié)構(gòu)信息,為此他們提出了一種Tree2Seq的模型。該模型將問(wèn)題的結(jié)構(gòu)信息編碼到其向量空間中,從而提升它與自然語(yǔ)言問(wèn)句匹配的準(zhǔn)確性。Zhang 等[37]提出一種Multi-point語(yǔ)義表示框架,其將每個(gè)屬性拆分為細(xì)粒度的4 種因子(topic、predicate、objectcondition、query type)以此區(qū)分易混淆的屬性,之后利用雙向注意力compositional intent 模型(Compositional Intent Bi-Attention,CIBA)將粗粒度的屬性信息和細(xì)粒度的因子與自然語(yǔ)言問(wèn)句表示相結(jié)合,從而實(shí)現(xiàn)問(wèn)句語(yǔ)義表示的增強(qiáng)。

      相比于直接映射方法,神經(jīng)網(wǎng)絡(luò)方法不需要預(yù)先定義大量的邏輯表達(dá)式模板,但因神經(jīng)網(wǎng)絡(luò)存在黑盒效應(yīng),造成其可解釋性較差,同時(shí)該方法還需大量的訓(xùn)練語(yǔ)料,導(dǎo)致訓(xùn)練時(shí)間過(guò)長(zhǎng)。

      綜上所述,基于語(yǔ)義解析的方法旨在將自然語(yǔ)言問(wèn)句通過(guò)直接映射或神經(jīng)網(wǎng)絡(luò)等方式轉(zhuǎn)化為邏輯表達(dá)式,進(jìn)而放入知識(shí)圖譜中進(jìn)行查詢(xún),最終生成最優(yōu)答案。但無(wú)論是直接映射方法還是神經(jīng)網(wǎng)絡(luò)方法都有其優(yōu)缺點(diǎn),構(gòu)建低成本、高可解釋性的模型成為該類(lèi)方法的主要研究方向之一。表1總結(jié)了基于語(yǔ)義解析的方法優(yōu)缺點(diǎn)和主要適用范圍。

      2.2 基于信息檢索的方法

      基于信息檢索的方法是將自然語(yǔ)言問(wèn)句進(jìn)行分析,提取其中包含的問(wèn)題實(shí)體構(gòu)建知識(shí)圖譜子圖,并在知識(shí)圖譜內(nèi)根據(jù)構(gòu)建的子圖選取多跳內(nèi)的相關(guān)實(shí)體作為候選答案集合,之后根據(jù)問(wèn)題及答案中的人工特征對(duì)候選答案進(jìn)行排序,輸出最優(yōu)答案。基于信息檢索的方法與基于語(yǔ)義解析的方法之間并沒(méi)有直接關(guān)系,基于語(yǔ)義解析的方法是受到基于信息檢索方法原理啟發(fā),并進(jìn)行相應(yīng)演變而得到?;谛畔z索的方法主要分為特征匹配方法和神經(jīng)網(wǎng)絡(luò)方法。

      2.2.1 特征信息匹配方法

      Yao 等[38]最早提出特征信息匹配方法,其將開(kāi)放知識(shí)圖譜Freebase 作為信息檢索數(shù)據(jù)集,并將特征信息分為問(wèn)題特征信息和答案特征信息。

      (1)問(wèn)題特征信息。Yao 等[38]首先使用依存句法分析方法對(duì)自然語(yǔ)言問(wèn)句進(jìn)行分析,生成其對(duì)應(yīng)的語(yǔ)法依存樹(shù)(或稱(chēng)為問(wèn)題圖)。語(yǔ)法依存樹(shù)中主要包含問(wèn)題詞(question word,qword)、問(wèn)題焦點(diǎn)(question fucus,qfocus)、問(wèn)題主題詞(word topic,qtopic)和問(wèn)題中心動(dòng)詞(question verb,qverb)4 個(gè)問(wèn)題特征,其中問(wèn)題詞如when、who 等作為問(wèn)題的明顯特征;問(wèn)題焦點(diǎn)主要表明答案的類(lèi)型,如name、time、place 等;問(wèn)題主題詞表示問(wèn)題的實(shí)體可用來(lái)尋找相關(guān)頁(yè)面以幫助尋找答案,其中問(wèn)題主題詞使用實(shí)體識(shí)別方法(Named Entity Recognition,NER)確定;問(wèn)題中心動(dòng)詞能夠提供與真實(shí)答案相關(guān)的特征信息,如play、wear 等。總體而言,從自然語(yǔ)言問(wèn)句到語(yǔ)法依存樹(shù)之間的轉(zhuǎn)換,實(shí)質(zhì)就是對(duì)問(wèn)題進(jìn)行信息提取,抽取出對(duì)尋找答案有利的問(wèn)題特征,并剔除掉無(wú)用信息的過(guò)程。

      Table 1 Summary of the existing semantic parsing-based methods表1 基于語(yǔ)義解析的方法小結(jié)

      (2)答案特征信息。Yao 等[38]在Freebase 內(nèi)檢索語(yǔ)法依存樹(shù)中所有的Qtopic 多跳內(nèi)的實(shí)體節(jié)點(diǎn),將其組合成候選答案集,答案集中包含實(shí)體和實(shí)體間的關(guān)系。其中,候選答案集中最重要的特征是實(shí)體間的關(guān)系與問(wèn)題直接的關(guān)聯(lián)度,這一特征值主要是通過(guò)檢索關(guān)系表ReverbMapping獲得。并且,將屬性或者實(shí)體之間的有向關(guān)系也作為節(jié)點(diǎn)的特征類(lèi)別。

      將分析得到的語(yǔ)法依存圖中的所有特征與答案特征圖中所有節(jié)點(diǎn)的特征進(jìn)行組合,形成候選答案特征集,捕獲問(wèn)題與答案的關(guān)聯(lián)關(guān)系和其對(duì)應(yīng)的權(quán)重。在候選答案特征集找到最優(yōu)答案,其本質(zhì)是一個(gè)二分類(lèi)問(wèn)題,Yao 等[38]將WebQuestion 作為數(shù)據(jù)集利用L1 正則化的邏輯回歸模型訓(xùn)練一個(gè)分類(lèi)器以尋找最優(yōu)答案。

      圖3 展示了Yao 等[38]提出的基于特征匹配問(wèn)答方法的基本思想,總體而言該方法將自然語(yǔ)言問(wèn)句轉(zhuǎn)化為問(wèn)題特征子圖,將知識(shí)圖譜內(nèi)的答案特征作為檢索元,且聚焦在權(quán)重較高的答案特征節(jié)點(diǎn)上,從而減少搜索空間,獲取最優(yōu)答案。該方法優(yōu)化了答案生成過(guò)程,且在大規(guī)模通用知識(shí)圖譜中表現(xiàn)出較好的適用性和優(yōu)越性,但面對(duì)復(fù)雜問(wèn)題或復(fù)雜關(guān)系時(shí)仍然存在一定缺點(diǎn)。Vakulenko 等[39]為了解決傳統(tǒng)特征匹配方法存在的問(wèn)題,提出一個(gè)新的基于特征匹配的復(fù)雜KGQA 方法。該方法使用無(wú)監(jiān)督方法通過(guò)解析文本并將知識(shí)圖譜中屬于匹配到一組可能的答案而獲得相應(yīng)置信度,并對(duì)置信度進(jìn)行排名以獲取最優(yōu)答案。

      2.2.2 神經(jīng)網(wǎng)絡(luò)模型

      隨著機(jī)器學(xué)習(xí)和神經(jīng)網(wǎng)絡(luò)技術(shù)的快速發(fā)展,研究人員將神經(jīng)網(wǎng)絡(luò)模型引入信息檢索過(guò)程中,以實(shí)現(xiàn)候選答案排序和關(guān)系匹配。Dong 等[40]提出一個(gè)基于Freebase的自動(dòng)問(wèn)答模型,該模型在不使用任何手工特征和詞匯表的基礎(chǔ)上,利用多列卷積神經(jīng)網(wǎng)絡(luò)(Multi-column Convolutional Neural Networks,MCCNNs)從答案路徑、答案背景信息,以及答案類(lèi)型方面理解問(wèn)題,從而實(shí)現(xiàn)問(wèn)題特征的提取和分類(lèi),并將答案的嵌入向量和前者同時(shí)作為評(píng)分函數(shù),獲取評(píng)分最高的候選答案。Dong 等[40]在WebQuestion 數(shù)據(jù)集上測(cè)試了MCCNNs 模型的效果,其結(jié)果在各項(xiàng)性能上均表現(xiàn)出了優(yōu)越性。隨著注意力機(jī)制逐漸成為解決KGQA 問(wèn)題的關(guān)鍵技術(shù),Golub 等[41]將注意力機(jī)制引入信息檢索過(guò)程中,并將原來(lái)的詞級(jí)別嵌入替換為字符級(jí)嵌入,提出一個(gè)引入注意力機(jī)制的字符級(jí)編碼器和解碼器模型,有效地改進(jìn)了問(wèn)答系統(tǒng)中詞表外問(wèn)題的回答效果;Hao 等[42]將交叉注意力機(jī)制引入問(wèn)題表示和候選答案生成環(huán)節(jié),其結(jié)果優(yōu)于MCCNNs 模型。

      Fig.3 Example of feature matching method圖3 特征匹配方法示例

      此外,Yu 等[43]提出關(guān)系檢測(cè)的HR-BiLSTM 模型,該模型使用殘差雙向長(zhǎng)短期記憶網(wǎng)絡(luò)(BiLSTM)在不同層面上對(duì)問(wèn)句和關(guān)系進(jìn)行對(duì)比,從而根據(jù)給定的問(wèn)句識(shí)別出其對(duì)應(yīng)關(guān)系,該方法在KGQA 數(shù)據(jù)集SimpleQuestions[44]和Web-QuestionsSP[45]上獲得了最佳結(jié)果;Qiu 等[46]提出一個(gè)基于強(qiáng)化學(xué)習(xí)的神經(jīng)網(wǎng)絡(luò)模型(Stepwise Reasoning Network,SRN),SRN 模型將問(wèn)題形式化為一個(gè)順序策略問(wèn)題,并使用注意力機(jī)制決定獲取問(wèn)題中的獨(dú)特信息,極大程度上提升了基于信息檢索方法的問(wèn)答效果;Xu 等[47]認(rèn)為雖然KG中包含豐富的結(jié)構(gòu)信息,但缺乏上下文以提供更精確的概念理解。為此,他們?cè)O(shè)計(jì)一個(gè)使用外部實(shí)體描述來(lái)提供知識(shí)理解的模型以輔助完成知識(shí)問(wèn)答。該方法在CommonsenseQA 數(shù)據(jù)集上實(shí)現(xiàn)了最優(yōu)效果,且在OpenBookQA的非生成模型中獲得了最好結(jié)果。

      神經(jīng)網(wǎng)絡(luò)方法是基于信息檢索方法中較為理想的方法,其對(duì)簡(jiǎn)單問(wèn)題和復(fù)雜問(wèn)題具有較優(yōu)的適用性,但在縮小搜索空間方面仍有不足。

      綜上所述,基于信息檢索的方法是將自然語(yǔ)言問(wèn)句中的實(shí)體和關(guān)系進(jìn)行識(shí)別和抽取,從而構(gòu)建知識(shí)子圖。利用子圖在知識(shí)圖譜中搜索查詢(xún)候選答案實(shí)體集,并根據(jù)問(wèn)題及答案中的人工特征對(duì)候選結(jié)果進(jìn)行排序,輸出最優(yōu)答案?;谛畔z索的方法不需要大量的人工標(biāo)準(zhǔn)邏輯表達(dá)式規(guī)則和龐大的詞匯表,但仍然面臨著時(shí)間復(fù)雜度過(guò)高、語(yǔ)義信息太復(fù)雜等問(wèn)題的挑戰(zhàn)。基于信息檢索的方法優(yōu)缺點(diǎn)和主要適用范圍如表2 所示。

      Table 2 Summary of information retrieval-based methods表2 基于信息檢索的方法小結(jié)

      2.3 基于知識(shí)嵌入的方法

      知識(shí)嵌入方法是將知識(shí)圖譜中的實(shí)體和關(guān)系嵌入到低維稠密的向量語(yǔ)義空間中,并對(duì)其進(jìn)行特定的向量計(jì)算。這種針對(duì)知識(shí)三元組進(jìn)行嵌入的方法不同于傳統(tǒng)詞嵌入方法,知識(shí)嵌入能夠直接表示實(shí)體與關(guān)系間的語(yǔ)義相關(guān)性,能夠保存知識(shí)圖譜中原有的信息量。Boards 等[22]受word2vec 中詞向量遷移語(yǔ)義不變現(xiàn)象的啟發(fā)提出翻譯模型TransE。如圖4 所示,TransE 模型將知識(shí)三元組嵌入到低維稠密向量語(yǔ)義空間中,并在空間內(nèi)構(gòu)建h+r≈t的向量表示,其中h表示頭實(shí)體向量,r表示關(guān)系向量,t表示尾實(shí)體向量。TransE 模型的提出極大程度上解決了傳統(tǒng)知識(shí)圖譜中存在的計(jì)算量大、長(zhǎng)尾效應(yīng)等問(wèn)題。隨著研究的不斷深入,研究人員提出了多種知識(shí)嵌入模型及其應(yīng)用,如TransH[48]、TransR、ConvE[49]、ITMEA[50]等。

      Fig.4 Example of TransE model圖4 TransE 示例

      Wang 等[51]基于知識(shí)嵌入模型提出一種解決SPARQL未匹配到答案的方法。該方法專(zhuān)門(mén)為SPARQL 查詢(xún)語(yǔ)句設(shè)計(jì)了一個(gè)知識(shí)嵌入模型,使得答案實(shí)體在向量空間中與問(wèn)題實(shí)體建立特定的關(guān)聯(lián)關(guān)系,從而更高效地生成高質(zhì)量的近似答案;Huang 等[52]提出一種基于知識(shí)嵌入的問(wèn)答系統(tǒng),其設(shè)計(jì)了一個(gè)謂詞與頭實(shí)體學(xué)習(xí)模型,將問(wèn)題視為輸入,返回與問(wèn)題謂詞/實(shí)體更接近的嵌入向量,進(jìn)而確定頭實(shí)體和關(guān)系,并利用實(shí)體鏈接方法找到尾實(shí)體,從而實(shí)現(xiàn)問(wèn)題回答;Saxena 等[53]提出一種利用知識(shí)嵌入改進(jìn)多跳KGQA的方法EmbedKGQA,該方法包含知識(shí)嵌入模塊、問(wèn)題嵌入模塊和答案選擇模塊。其中,知識(shí)嵌入模塊將知識(shí)圖譜中的所有實(shí)體進(jìn)行嵌入,得到實(shí)體對(duì)應(yīng)的嵌入向量;問(wèn)題嵌入模塊將問(wèn)題視為輸入,獲得其對(duì)應(yīng)的問(wèn)題向量;答案選擇模塊則將所有可能的答案實(shí)體向量與問(wèn)題向量進(jìn)行關(guān)聯(lián)評(píng)分,選擇得分最高的實(shí)體。此外,為了解決大規(guī)模知識(shí)圖譜造成搜索空間過(guò)大的問(wèn)題,設(shè)計(jì)了一個(gè)候選實(shí)體修剪方法,極大改善了EmbedKGQA的性能。EmbedKGQA 方法在MetaQA KG-50 和WebQSP KG-50 數(shù)據(jù)集上表現(xiàn)出了較好的效果,超過(guò)了所有的基準(zhǔn)模型,成為最優(yōu)模型(State-Of-The-Art,SOTA)。Niu 等[54]認(rèn)為前期引入知識(shí)嵌入的知識(shí)圖譜問(wèn)答方法只考慮了三元組信息,忽視了路徑與多關(guān)系問(wèn)題間的語(yǔ)義。為此,他們提出了一個(gè)路徑和知識(shí)嵌入增強(qiáng)的多關(guān)系問(wèn)答模型PKEEQA,該模型利用KG中實(shí)體間的多條路徑評(píng)估路徑嵌入和多關(guān)系問(wèn)題嵌入間的相關(guān)性,并制定了一套路徑表示機(jī)制。通過(guò)實(shí)驗(yàn)對(duì)比,PKEEQA 模型提升了多關(guān)系問(wèn)答性能,同時(shí)一定程度上從路徑信息方面得到了答案的可解釋性。

      綜上所述,知識(shí)嵌入方法是將知識(shí)圖譜中的知識(shí)三元組根據(jù)一定關(guān)聯(lián)關(guān)系嵌入到低維向量語(yǔ)義空間,這種做法能夠最大程度上表示頭、尾實(shí)體與關(guān)系間的聯(lián)系,從而保留知識(shí)圖譜中的重要信息?;谥R(shí)嵌入的問(wèn)答方法對(duì)未知問(wèn)題具有較高的處理效果,同時(shí)其對(duì)大規(guī)模通用知識(shí)圖譜具有較優(yōu)的魯棒性和適應(yīng)性。然而,如何將新知識(shí)引入到已構(gòu)建好的知識(shí)嵌入模型中成為知識(shí)嵌入方法亟待解決的問(wèn)題,也成為基于知識(shí)嵌入問(wèn)答能否回答新知識(shí)的關(guān)鍵所在。表3 展示了基于知識(shí)嵌入的方法優(yōu)缺點(diǎn)和主要適用范圍。

      Table 3 Summary of knowledge embedding based methods表3 基于知識(shí)嵌入的方法小結(jié)

      3 知識(shí)圖譜問(wèn)答數(shù)據(jù)集

      隨著知識(shí)圖譜問(wèn)答技術(shù)的快速發(fā)展,知識(shí)圖譜問(wèn)答數(shù)據(jù)集不斷被提出?,F(xiàn)有知識(shí)圖譜問(wèn)答數(shù)據(jù)集可大致分為通用領(lǐng)域知識(shí)圖譜問(wèn)答數(shù)據(jù)集和特定領(lǐng)域知識(shí)圖譜問(wèn)答數(shù)據(jù)集,詳細(xì)的知識(shí)圖譜問(wèn)答數(shù)據(jù)集比較如表4 所示。

      3.1 通用領(lǐng)域知識(shí)圖譜問(wèn)答數(shù)據(jù)集

      WebQuestions 是2013 年 由Berant 等[26]利 用Google Suggest 生成,數(shù)據(jù)集為每個(gè)答案都提供了其對(duì)應(yīng)的主題節(jié)點(diǎn)。WebQuestions 數(shù)據(jù)集采用先提問(wèn)后解答的構(gòu)建思路,同時(shí)數(shù)據(jù)集的問(wèn)題獨(dú)立于Freebase 知識(shí)庫(kù)外,從而比Free917[55]數(shù)據(jù)集更加自然,更偏向于自然語(yǔ)言,但該數(shù)據(jù)集僅提供了答案而沒(méi)有給出對(duì)應(yīng)的查詢(xún)語(yǔ)句,從而造成邏輯表達(dá)式的生成變得極為困難,此外數(shù)據(jù)集中只包含少量的復(fù)雜問(wèn)句。

      Table 4 Datasets of knowledge graph question answering表4 知識(shí)圖譜問(wèn)答數(shù)據(jù)集

      SimpleQuestions 是Bordes 等[44]提出的一個(gè)大規(guī)模問(wèn)答數(shù)據(jù)集。該數(shù)據(jù)集以問(wèn)答系統(tǒng)處理覆蓋面為主要研究?jī)?nèi)容,數(shù)據(jù)集內(nèi)包含了大量的簡(jiǎn)單問(wèn)答語(yǔ)句,這些問(wèn)答語(yǔ)句可以用知識(shí)三元組進(jìn)行回答,同時(shí)數(shù)據(jù)集中包含了問(wèn)題對(duì)應(yīng)的查詢(xún)語(yǔ)句。

      WebQuestionsSP 是Yih 等[45]對(duì)WebQuestion 數(shù)據(jù)集進(jìn)行改進(jìn),補(bǔ)全了問(wèn)題所對(duì)應(yīng)的查詢(xún)語(yǔ)句,可以簡(jiǎn)單地將其視為WebQuestions 數(shù)據(jù)集的子集。

      ComplexQuestions 是Bao 等[56]為了測(cè)試KGQA對(duì)復(fù)雜問(wèn)題的處理能力所提出的一個(gè)多限制問(wèn)答數(shù)據(jù)集。Bao等[56]從WebQuestions 訓(xùn)練集和測(cè)試集中分別抽取了596 個(gè)和326 個(gè)問(wèn)題,從搜索引擎中爬取了878 個(gè)問(wèn)題,并從其他數(shù)據(jù)集中抽取了300 個(gè)問(wèn)題從而構(gòu)建ComplexQuestions 數(shù)據(jù)集。然而,ComplexQuestions 數(shù)據(jù)集內(nèi)未提供問(wèn)題所對(duì)應(yīng)的查詢(xún)語(yǔ)句。

      QALD[57-61]是一種通用領(lǐng)域的大規(guī)模數(shù)據(jù)集,相比于其他知識(shí)問(wèn)答數(shù)據(jù)集更加生活化、復(fù)雜化。QALD 數(shù)據(jù)集不僅包含問(wèn)題和答案,還為每個(gè)問(wèn)句設(shè)置了關(guān)鍵詞和對(duì)應(yīng)的查詢(xún)語(yǔ)句。

      3.2 特定領(lǐng)域知識(shí)圖譜問(wèn)答數(shù)據(jù)集

      Free917 是2013 年由Yahya 等[55]提出,數(shù)據(jù)集以房地產(chǎn)領(lǐng)域數(shù)據(jù)為主,并將數(shù)據(jù)形式化表示為“問(wèn)題-λ 微積分表達(dá)式”。數(shù)據(jù)集中問(wèn)題的答案為Freebase 知識(shí)庫(kù)中的某個(gè)屬性,同時(shí)通過(guò)人工定義的方式提出與其相關(guān)的自然語(yǔ)言問(wèn)句。然而,F(xiàn)ree917 并未對(duì)問(wèn)題類(lèi)型進(jìn)行限制。

      CCKS 問(wèn)答數(shù)據(jù)集是CCKS 全國(guó)知識(shí)圖譜與語(yǔ)義計(jì)算大會(huì)提出的一項(xiàng)知識(shí)圖譜問(wèn)題評(píng)測(cè)任務(wù)所使用的數(shù)據(jù)集。CCKS 每年提出一個(gè)全新的知識(shí)圖譜評(píng)測(cè)任務(wù)和數(shù)據(jù)集,包含保險(xiǎn)領(lǐng)域問(wèn)答、醫(yī)療領(lǐng)域問(wèn)答等。數(shù)據(jù)集中包含了大量真實(shí)且復(fù)雜的問(wèn)答語(yǔ)句,但未給出其對(duì)應(yīng)的查詢(xún)語(yǔ)句。

      METAQA 是由Zhang 等[62]構(gòu)建的電影領(lǐng)域知識(shí)圖譜問(wèn)答數(shù)據(jù)集,數(shù)據(jù)集中包含了近29 000 個(gè)多跳測(cè)試查詢(xún)數(shù)據(jù)。

      4 知識(shí)圖譜問(wèn)答測(cè)評(píng)指標(biāo)

      4.1 功能性測(cè)評(píng)指標(biāo)

      功能性測(cè)評(píng)指標(biāo)主要反映知識(shí)圖譜問(wèn)答方法(系統(tǒng))返回答案的正確性和完備性,當(dāng)返回的答案與正確答案無(wú)關(guān)時(shí)評(píng)定其為錯(cuò)誤答案,相關(guān)但不完備時(shí)也將其評(píng)定為錯(cuò)誤答案。通常功能性測(cè)評(píng)指標(biāo)指精確率、召回率、準(zhǔn)確率、F1 值。

      (1)精確率。精確率(Precision)指問(wèn)答方法對(duì)每個(gè)自然語(yǔ)言問(wèn)句給出的黃金標(biāo)準(zhǔn)答案(問(wèn)題對(duì)應(yīng)的一個(gè)標(biāo)準(zhǔn)答案)占所有返回答案總數(shù)的比例。精確率計(jì)算公式可以形式化表示:

      (2)召回率。一個(gè)自然語(yǔ)言問(wèn)句可能存在多個(gè)標(biāo)準(zhǔn)答案,如:?jiǎn)栴}“杭州有那些景點(diǎn)?”就有多個(gè)標(biāo)準(zhǔn)答案,因此需要評(píng)測(cè)知識(shí)圖譜問(wèn)答方法召回完整答案的能力。召回率(Recall)表示知識(shí)圖譜問(wèn)答方法返回的正確答案數(shù)占返回的黃金標(biāo)準(zhǔn)答案的比例。召回率計(jì)算公式可以形式化表示為:

      (3)準(zhǔn)確率。準(zhǔn)確率(Accuracy)表示知識(shí)圖譜問(wèn)答方法回答正確的問(wèn)題數(shù)占所有問(wèn)題的比例。準(zhǔn)確率計(jì)算公式可以形式化表示為:

      通常使用準(zhǔn)確率定義指標(biāo)Hits@K,即將答案列表按照特定值進(jìn)行排序,如果前K 個(gè)答案中有一個(gè)正確的則為1hit,否則為0hit,并最終計(jì)算整個(gè)問(wèn)題集的平均值。

      (4)F1 值。通常知識(shí)圖譜問(wèn)答方法(系統(tǒng))的總體性能使用F1 值對(duì)精確率和召回率進(jìn)行整體測(cè)評(píng)。測(cè)試集中的每個(gè)問(wèn)題都有其對(duì)應(yīng)的F1 值,其計(jì)算公式可以形式化表示為:

      4.2 性能測(cè)評(píng)指標(biāo)

      除上述功能性測(cè)評(píng)指標(biāo)外,還可以從性能指標(biāo)角度對(duì)知識(shí)圖譜問(wèn)答方法(系統(tǒng))進(jìn)行測(cè)評(píng)。具體而言,知識(shí)圖譜問(wèn)答方法(系統(tǒng))的性能測(cè)評(píng)指標(biāo)分為方法響應(yīng)時(shí)間和方法故障率兩方面。

      (1)知識(shí)圖譜問(wèn)答方法(系統(tǒng))響應(yīng)時(shí)間。通常,智能問(wèn)答系統(tǒng)需要實(shí)時(shí)響應(yīng)用戶(hù)的文本或語(yǔ)音輸入,因此知識(shí)圖譜問(wèn)答方法(系統(tǒng))的響應(yīng)時(shí)長(zhǎng)(Response Time)成為測(cè)評(píng)方法性能的一個(gè)重要指標(biāo)。如果響應(yīng)時(shí)間過(guò)長(zhǎng),知識(shí)圖譜問(wèn)答方法的可用性就會(huì)大大降低。一般而言,知識(shí)圖譜問(wèn)答方法的響應(yīng)時(shí)長(zhǎng)應(yīng)縮短到1s 以?xún)?nèi)。

      (2)知識(shí)圖譜問(wèn)答方法(系統(tǒng))故障率。知識(shí)圖譜問(wèn)答方法(系統(tǒng))出現(xiàn)故障的概率,即統(tǒng)計(jì)方法在回答自然語(yǔ)言問(wèn)句時(shí)發(fā)生系統(tǒng)錯(cuò)誤或故障的比率,通常采用壓力測(cè)試檢驗(yàn)知識(shí)圖譜問(wèn)答方法(系統(tǒng))的故障率。

      5 知識(shí)圖譜問(wèn)答研究挑戰(zhàn)與機(jī)遇

      5.1 面臨的挑戰(zhàn)

      (1)語(yǔ)義歧義。無(wú)論是利用語(yǔ)義解析方法還是信息檢索方法,都需要將自然語(yǔ)言問(wèn)句映射到知識(shí)圖譜中,因此實(shí)體鏈接和關(guān)系抽取成為關(guān)鍵過(guò)程。然而,現(xiàn)有實(shí)體鏈接方法的質(zhì)量并不高,使得錯(cuò)誤實(shí)體信息被不斷傳遞到關(guān)系提取階段,造成自然語(yǔ)言問(wèn)句無(wú)法與知識(shí)圖譜進(jìn)行匹配或無(wú)法避免增大搜索空間。雖然現(xiàn)有許多語(yǔ)義表示方法在不斷地改進(jìn)實(shí)體鏈接和關(guān)系抽取的效果,但如何從自然語(yǔ)言問(wèn)句中精確完整地獲取語(yǔ)義信息成為KGQA 面臨的一大挑戰(zhàn)。

      (2)復(fù)雜問(wèn)題。復(fù)雜問(wèn)題中常常包含多個(gè)問(wèn)題實(shí)體和關(guān)系,需要KGQA 系統(tǒng)具有推理和判斷的功能。例如:“2020 年?yáng)|京奧運(yùn)會(huì)男子乒乓球比賽項(xiàng)目單打冠軍分別戰(zhàn)勝了那些對(duì)手?”然而,現(xiàn)有的KGQA 對(duì)于簡(jiǎn)單問(wèn)題(僅有一個(gè)問(wèn)題實(shí)體和關(guān)系)的處理能力已較為優(yōu)秀,但對(duì)于真實(shí)應(yīng)用場(chǎng)景中復(fù)雜問(wèn)題的處理能力尚且不足。雖然,研究人員嘗試解決平行的復(fù)雜問(wèn)題,但仍然無(wú)法解決大多數(shù)復(fù)雜問(wèn)題。因此,對(duì)于復(fù)雜問(wèn)題的處理與研究成為學(xué)術(shù)界和工業(yè)界亟待解決的重大挑戰(zhàn)。

      (3)長(zhǎng)尾問(wèn)題。長(zhǎng)尾問(wèn)題包括知識(shí)圖譜長(zhǎng)尾問(wèn)題和問(wèn)句長(zhǎng)尾問(wèn)題。知識(shí)圖譜長(zhǎng)尾問(wèn)題指現(xiàn)有大規(guī)模知識(shí)圖譜中存在著大量的實(shí)體和關(guān)系,這些實(shí)體和關(guān)系中只有部分實(shí)體間存在大量的關(guān)系連接,但其他實(shí)體僅有單一或少量關(guān)系,從而造成答案實(shí)體的搜索空間和計(jì)算量劇增。問(wèn)句長(zhǎng)尾問(wèn)題指少量表示相似含義的問(wèn)句頻繁出現(xiàn)在問(wèn)答數(shù)據(jù)集中,造成KGQA 系統(tǒng)對(duì)于該類(lèi)問(wèn)題有較強(qiáng)的回答能力,而對(duì)于大量出現(xiàn)頻率較低的問(wèn)句處理能力較弱。因此,知識(shí)圖譜長(zhǎng)尾問(wèn)題和問(wèn)句長(zhǎng)尾問(wèn)題成為阻礙KGQA 性能進(jìn)一步提升的關(guān)鍵因素。

      5.2 未來(lái)研究方向

      (1)知識(shí)圖譜推理機(jī)制?,F(xiàn)有的知識(shí)圖譜推理機(jī)制常常根據(jù)知識(shí)嵌入后的知識(shí)三元組對(duì)實(shí)體或關(guān)系進(jìn)行推理,但使用該機(jī)制預(yù)測(cè)缺失實(shí)體或關(guān)系的能力尚不足以支撐復(fù)雜問(wèn)題的知識(shí)推理,尤其是對(duì)長(zhǎng)尾關(guān)系的知識(shí)三元組的推理。目前,除利用知識(shí)嵌入方法外,還可以使用統(tǒng)計(jì)關(guān)系學(xué)習(xí)和GNN 等方法進(jìn)行知識(shí)推理。如何將高效的推理機(jī)制引入知識(shí)圖譜內(nèi),充分利用圖譜中高質(zhì)量的三元組信息實(shí)現(xiàn)復(fù)雜問(wèn)題的回答,成為未來(lái)研究的熱點(diǎn)問(wèn)題。

      (2)預(yù)訓(xùn)練模型有效利用。隨著預(yù)訓(xùn)練模型的出現(xiàn),包括智能問(wèn)答在內(nèi)的多項(xiàng)自然語(yǔ)言處理任務(wù)的性能不斷被突破,許多研究人員致力于將預(yù)訓(xùn)練模型與知識(shí)圖譜相結(jié)合,使得在KGQA 訓(xùn)練數(shù)據(jù)較少的情況下,仍然能夠取得相比于傳統(tǒng)KGQA 方法更優(yōu)的問(wèn)答效果[63]。但如何將預(yù)訓(xùn)練模型更加充分地與KGQA 相結(jié)合,利用好預(yù)訓(xùn)練模型和知識(shí)圖譜中的先驗(yàn)知識(shí),同樣成為提升KGQA 性能的熱點(diǎn)研究方向。

      (3)多模態(tài)知識(shí)問(wèn)答。隨著多模態(tài)數(shù)據(jù)(如圖像、視頻、文本描述數(shù)據(jù)等)越來(lái)越多地被用來(lái)提升知識(shí)圖譜的表示能力[50,64-66]。多模態(tài)知識(shí)圖譜能夠有效提升知識(shí)的多樣性、豐富知識(shí)的隱藏信息,能更加完整地組織知識(shí)圖譜內(nèi)的知識(shí)。因此,為了滿(mǎn)足用戶(hù)日益增長(zhǎng)的知識(shí)和認(rèn)知服務(wù)需求,利用多模態(tài)知識(shí)圖譜進(jìn)行知識(shí)問(wèn)答成為未來(lái)主要研究方法。

      綜上所述,知識(shí)圖譜問(wèn)答方法在處理簡(jiǎn)單、開(kāi)放領(lǐng)域問(wèn)題方面已經(jīng)取得較為突出的進(jìn)展,但仍然面臨著語(yǔ)義歧義、復(fù)雜問(wèn)題理解、知識(shí)圖譜長(zhǎng)尾和自然語(yǔ)言問(wèn)句長(zhǎng)尾等多因素的挑戰(zhàn)。這些挑戰(zhàn)成為阻礙知識(shí)圖譜問(wèn)答系統(tǒng)大規(guī)模應(yīng)用于實(shí)際生產(chǎn)環(huán)境的重要因素。同時(shí),隨著自然語(yǔ)言和深度學(xué)習(xí)技術(shù)的快速發(fā)展,如何將多模態(tài)信息和預(yù)訓(xùn)練模型等新思想引入知識(shí)圖譜問(wèn)答方法中也成為未來(lái)主要研究方向,如利用預(yù)訓(xùn)練模型獲取結(jié)構(gòu)化知識(shí)、文本、圖像等模態(tài)數(shù)據(jù)特征,并引入注意力機(jī)制將多模態(tài)信息進(jìn)行融合從而實(shí)現(xiàn)多模態(tài)知識(shí)圖譜問(wèn)答。

      6 結(jié)語(yǔ)

      隨著智能時(shí)代的到來(lái),能夠理解和回答自然語(yǔ)言問(wèn)題的智能問(wèn)答系統(tǒng)得到了廣泛應(yīng)用。作為智能問(wèn)答系統(tǒng)主要方法的知識(shí)圖譜問(wèn)答成為國(guó)內(nèi)外學(xué)者的主要研究方向,且取得了突出進(jìn)展。本文對(duì)現(xiàn)有知識(shí)圖譜問(wèn)答研究進(jìn)展進(jìn)行追蹤,介紹了3 種主要的知識(shí)圖譜問(wèn)答方法和兩類(lèi)知識(shí)圖譜問(wèn)答數(shù)據(jù)集,并針對(duì)知識(shí)圖譜問(wèn)答面臨的主要挑戰(zhàn)和未來(lái)研究方向進(jìn)行了討論,期望可以為未來(lái)KGQA 研究者提供幫助,以開(kāi)拓不同領(lǐng)域知識(shí)圖譜問(wèn)答的應(yīng)用場(chǎng)景。

      猜你喜歡
      圖譜實(shí)體語(yǔ)義
      繪一張成長(zhǎng)圖譜
      語(yǔ)言與語(yǔ)義
      前海自貿(mào)區(qū):金融服務(wù)實(shí)體
      實(shí)體的可感部分與實(shí)體——兼論亞里士多德分析實(shí)體的兩種模式
      補(bǔ)腎強(qiáng)身片UPLC指紋圖譜
      中成藥(2017年3期)2017-05-17 06:09:01
      兩會(huì)進(jìn)行時(shí):緊扣實(shí)體經(jīng)濟(jì)“釘釘子”
      振興實(shí)體經(jīng)濟(jì)地方如何“釘釘子”
      主動(dòng)對(duì)接你思維的知識(shí)圖譜
      “上”與“下”語(yǔ)義的不對(duì)稱(chēng)性及其認(rèn)知闡釋
      認(rèn)知范疇模糊與語(yǔ)義模糊
      门源| 东方市| 广饶县| 南充市| 广安市| 河西区| 贵南县| 长岛县| 新乐市| 婺源县| 廊坊市| 临澧县| 湛江市| 万源市| 营山县| 东山县| 镇平县| 苏尼特左旗| 巍山| 多伦县| 陵川县| 桐庐县| 萍乡市| 沿河| 金昌市| 沅陵县| 天门市| 镇巴县| 剑河县| 阿拉善左旗| 甘肃省| 安国市| 泗阳县| 土默特右旗| 达州市| 封丘县| 青田县| 黑龙江省| 正阳县| 昆明市| 陇南市|