• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      知識圖譜的候選實(shí)體搜索與排序①

      2022-01-06 08:04:48沈航可祁志衛(wèi)張子辰
      關(guān)鍵詞:超平面三元組文檔

      沈航可, 祁志衛(wèi), 張子辰, 岳 昆

      (云南大學(xué) 信息學(xué)院, 昆明 650500)

      1 引言

      知識圖譜(Knowledge Graph, KG)[1]作為實(shí)體關(guān)系的語義網(wǎng)絡(luò), 在相關(guān)實(shí)體搜索的應(yīng)用中至關(guān)重要, 是搜索引擎的重要支撐技術(shù)[2].基于KG的相關(guān)實(shí)體搜索旨在根據(jù)給定的實(shí)體, 在KG中搜索與此實(shí)體相關(guān)的候選實(shí)體集合, 并按照候選實(shí)體與查詢實(shí)體間的相關(guān)度對候選實(shí)體進(jìn)行排序并返回結(jié)果, 以提高用戶的搜索體驗(yàn).事實(shí)上, 隨著互聯(lián)網(wǎng)的高速發(fā)展, Web文檔快速產(chǎn)生, 反映了現(xiàn)實(shí)世界不斷演化的知識, 與KG中的知識共同描述了實(shí)體間的相關(guān)關(guān)系.因此, 如何有效地表示實(shí)體在KG和Web文檔中的關(guān)系信息, 進(jìn)而準(zhǔn)確地搜索與給定實(shí)體相關(guān)的候選實(shí)體, 并對候選實(shí)體進(jìn)行排序, 對提升相關(guān)實(shí)體搜索的準(zhǔn)確性具有重要意義.雖然現(xiàn)有方法能夠有效地獲取相關(guān)實(shí)體, 減少用戶搜索時需要過濾的無用信息, 但仍存在如下挑戰(zhàn):

      (1) 與實(shí)體相連的不同關(guān)系能夠表示實(shí)體不同的語義[3,4], 因此, 需要一種能夠有效表示不同關(guān)系中實(shí)體的語義并準(zhǔn)確搜索候選實(shí)體的方法.

      (2) 由于Web文檔與KG共同描述了實(shí)體間的相關(guān)關(guān)系, 為了準(zhǔn)確地對候選實(shí)體進(jìn)行打分排序, 需要一種能夠根據(jù)實(shí)體在Web文檔與KG中的關(guān)系信息來計(jì)算候選實(shí)體與查詢實(shí)體間相關(guān)度的方法.

      針對挑戰(zhàn)(1), 現(xiàn)有方法主要根據(jù)查詢實(shí)體的鄰居節(jié)點(diǎn)來搜索候選實(shí)體, 如Huang等[5]使用與查詢實(shí)體直接相連的實(shí)體作為候選實(shí)體集, Reinanda等[4]獲取以查詢實(shí)體為中心的k階子圖, 并基于子圖的路徑信息搜索候選實(shí)體.上述方法在小規(guī)模KG中表現(xiàn)尚可,而當(dāng)KG規(guī)模較大時, 需要搜索的候選實(shí)體會出現(xiàn)在查詢實(shí)體的鄰居實(shí)體集外, 導(dǎo)致無法正確搜索到候選實(shí)體.對此, 現(xiàn)有的表示學(xué)習(xí)方法[5-7]將高維、復(fù)雜的KG映射到低維的向量空間中, 進(jìn)而降低在大規(guī)模KG上的計(jì)算開銷.為了更加有效地搜索候選實(shí)體, 本文基于TransH模型[7]提出候選實(shí)體搜索算法, 首先去除對查詢實(shí)體不重要的關(guān)系, 降低搜索的時間代價(jià).然后通過KG的嵌入向量計(jì)算出實(shí)體在各關(guān)系對應(yīng)超平面上的投影, 作為不同關(guān)系下實(shí)體的語義表示.由于候選實(shí)體與查詢實(shí)體有共同的語義特征[2], 因此, 為了有效地搜索候選實(shí)體, 我們根據(jù)實(shí)體的語義相似度對各超平面中的投影進(jìn)行聚類, 進(jìn)而得到與查詢實(shí)體有共同語義特征的候選實(shí)體.

      針對挑戰(zhàn)(2), 現(xiàn)有方法大多基于KG來計(jì)算實(shí)體相關(guān)度, 例如, Milne等[8]提出了WLM方法, 基于KG中實(shí)體所對應(yīng)Wikipedia頁面的超鏈接完成實(shí)體間的相關(guān)度計(jì)算.Ponza等[9]提出了TSF (Two-Stage Framework)方法, 利用KG實(shí)體間的連接關(guān)系構(gòu)建帶權(quán)有向圖, 并基于CoSimRank算法[10]來計(jì)算實(shí)體間的相關(guān)度.這些算法能反映KG中實(shí)體間的相關(guān)性, 但由于現(xiàn)有KG的知識仍不完整[11], 導(dǎo)致計(jì)算結(jié)果不夠準(zhǔn)確.對此, Yamada等[12]通過將描述實(shí)體的詞匯和KG中的實(shí)體共同映射到向量空間, 以計(jì)算實(shí)體間的相關(guān)性.該方法雖能將詞匯與KG相結(jié)合來發(fā)現(xiàn)實(shí)體間的相關(guān)性,但在映射過程中會損失KG實(shí)體間的關(guān)系信息, 導(dǎo)致計(jì)算結(jié)果不夠準(zhǔn)確.因此, 為了更準(zhǔn)確地計(jì)算查詢實(shí)體與候選實(shí)體間的相關(guān)度, 我們提出實(shí)體無向帶權(quán)圖模型(Entity Undirected Weighted Graph, EUWG).首先,以查詢實(shí)體與候選實(shí)體作為圖中節(jié)點(diǎn), 基于查詢實(shí)體與候選實(shí)體間的相關(guān)關(guān)系來構(gòu)造無向邊.然后, 通過量化實(shí)體在KG向量空間和Web文檔中體現(xiàn)出的相關(guān)性, 計(jì)算EUWG邊上的權(quán)重, 得到查詢實(shí)體與候選實(shí)體相互間的相關(guān)度, 并基于該模型提出一個候選實(shí)體打分函數(shù), 通過遍歷EUWG中實(shí)體間的路徑計(jì)算候選實(shí)體的分?jǐn)?shù), 完成候選實(shí)體的排序.

      最后, 使用Wikidata數(shù)據(jù)集, 對所提出的方法進(jìn)行了實(shí)驗(yàn)測試和性能分析, 與現(xiàn)有的候選實(shí)體搜索算法和實(shí)體相關(guān)度計(jì)算模型進(jìn)行比較, 驗(yàn)證了本文提出方法的有效性.

      2 候選實(shí)體搜索

      2.1 查詢實(shí)體關(guān)系選擇

      定義1.KG是由實(shí)體和關(guān)系組成的有向圖, 表示為Gkg=(E,R), 其中,E={e1,e2,…,en}為實(shí)體集合,R={r1,r2,…,rm}為關(guān)系集合, 任意一條有向邊表示一個三元組(h,r,t) (h,t∈E和r∈R).Gkg也可看作三元組集合.

      首先, 將給定的查詢實(shí)體記為eq, 為了增加搜索候選實(shí)體的效率, 本文提出從全局重要度和局部重要度兩方面來度量關(guān)系r對eq的語義表示能力, 去除對eq語義表示能力弱的關(guān)系, 減少需計(jì)算的關(guān)系數(shù)量.

      (1) 全局重要度, 即關(guān)系r在KG中的重要程度.r在Gkg中出現(xiàn)的頻率越高, 其對eq的特殊性就越小, 重要性也就越小.按以下方式計(jì)算r對eq的全局重要度:

      其中,r′為r在Gkg中出現(xiàn)的次數(shù).

      (2) 局部重要度, 即關(guān)系r在以查詢實(shí)體eq為中心的局部子圖中的重要程度.將KG中與eq直接相連的邊構(gòu)成的集合記為R′(eq),r在R′(eq)中出現(xiàn)的次數(shù)越多, 說明eq通過r連接的實(shí)體越多, 進(jìn)而r對eq就越重要.r在R′(eq)中出現(xiàn)的次數(shù)與其重要程度成反比,計(jì)算公式如下:

      其中,r"為關(guān)系r在R′(eq)中出現(xiàn)的次數(shù), |R′(eq)|為R′(eq)中三元組的個數(shù).

      然后, 使用超參數(shù)α來平衡上述因素對關(guān)系r語義表示能力的貢獻(xiàn).為了統(tǒng)一I1(eq,r)和I2(eq,r)的取值區(qū)間, 使用最大最小歸一化函數(shù)(Min-Max Scaling)[13]對全局重要度和局部重要度進(jìn)行處理, 計(jì)算公式如下:

      其中,α∈[0,1], 為衡量各因素貢獻(xiàn)比重的超參數(shù),Nor(·)為最大最小歸一化函數(shù).

      最后, 為了提高候選實(shí)體搜索的效率, 通過式(3)計(jì)算KG中各關(guān)系對查詢實(shí)體eq的語義表示能力并對各關(guān)系進(jìn)行排序, 選擇其中得分最高的前k個關(guān)系, 記為集合S.

      2.2 查詢實(shí)體關(guān)系選擇

      首先, 將KG中的實(shí)體通過訓(xùn)練嵌入到向量空間中, 得到對應(yīng)的實(shí)體向量集E={e1,e2,…,en}, 其中,ej∈E(1≤j≤n)是實(shí)體ej的向量表示.將與關(guān)系集合S對應(yīng)的超平面法向量集記為D={d1,d2,…,dk}, 將與集合D中第i個法向量對應(yīng)的關(guān)系記為ri∈R(1≤i≤k).使用式(4)計(jì)算實(shí)體ej在ri對應(yīng)超平面上的投影, 如圖1所示.

      圖1 實(shí)體在各超平面中的投影

      然后, 為了正確地在各超平面中搜索候選實(shí)體, 將每一個實(shí)體向量ej在超平面di(1≤i≤k)上的投影作為該實(shí)體在ri對應(yīng)超平面中的語義表示, 并根據(jù)實(shí)體在不同超平面中的語義表示, 將具有共同語義特征的實(shí)體劃分為一類.具體而言, 由于K-means++算法[14]的效率高、能夠高效地對海量實(shí)體進(jìn)行劃分[15], 因此, 通過投影向量間的余弦相似度表示對應(yīng)實(shí)體在ri下的語義相似度, 使用K-means++對D中各超平面上的實(shí)體投影進(jìn)行聚類, 將與同屬一類的投影所對應(yīng)的實(shí)體作為di上與eq有共同語義特征的實(shí)體.選擇每個超平面中都與eq同屬一類的實(shí)體, 作為候選實(shí)體搜索的結(jié)果,計(jì)算公式如下:

      其中,M(eq)表示候選實(shí)體搜索的結(jié)果.

      算法1.候選實(shí)體搜索算法輸入: eq: 給定的查詢實(shí)體; Gkg: KG; S: 對eq影響最大的前k種關(guān)系集合輸出: M(eq): 候選實(shí)體集1.使用TransH將Gkg嵌入到向量空間中, 獲得實(shí)體向量集E和與S對應(yīng)的超平面法向量集D={d1, d2,…, dk}2.for i=1 to k do 3.Ni←? 4.for each ej in E do images/BZ_52_1390_1682_1570_1732.png5.// ej在第i個超平面的投影 images/BZ_52_1429_1737_1454_1787.png images/BZ_52_1992_1737_2017_1787.png6.將 添加到集合Ui中, 將第i個超平面中 與ej的映射關(guān)系添加到Ni中7.end for 8.K-means++(Ui) //對Ui中的實(shí)體投影進(jìn)行聚類 images/BZ_52_1631_1944_1656_1994.png9.找到聚類結(jié)果中與 同屬一類的投影在Ni中對應(yīng)的實(shí)體, 將實(shí)體添加到集合Mi中10.end for 11.M(eq)=M1∩M2∩…∩Mi∩…∩Mk 12.return M(eq)

      算法1主要的時間代價(jià)是在k個超平面中對實(shí)體投影進(jìn)行聚類, 假設(shè)聚類類別數(shù)為n′, 每一次聚類的時間復(fù)雜度為O(n′n)[14], 因此, 算法1的時間復(fù)雜度為O(kn′n).

      3 相關(guān)實(shí)體排序模型

      3.1 EUWG模型

      將需構(gòu)造的無向帶權(quán)圖記為Geg,V是Geg中的節(jié)點(diǎn), 由查詢實(shí)體eq與候選實(shí)體組成, 使用V′表示V中除eq外的實(shí)體集合.由于查詢實(shí)體與各候選實(shí)體相關(guān),因此, 先在Geg中構(gòu)造eq與V′各實(shí)體間的無向邊, 然后, 通過計(jì)算各候選實(shí)體對應(yīng)向量間的余弦相似度來構(gòu)建候選實(shí)體間的無向邊.將V′中任意兩實(shí)體記為vi和vj, 若vi和vj對應(yīng)向量間的余弦相似度為正, 則在Geg中構(gòu)造一條vi到vj的無向邊, 表示vi與vj相關(guān).下面給出EUWG模型的定義:

      定義2.EUWG模型是一個無向帶權(quán)圖, 表示為Geg=(V,L,M), 其中,V=M(eq)∪{eq}為節(jié)點(diǎn)集合,L={l1,l2,…,lt}為邊的集合,W={w(vi,vj)|1≤i,j≤s,vi,vj∈V,i≠j}為EUWG邊上的權(quán)重集合,w(vi,vj)表示vi和vj間無向邊上的權(quán)重.

      為了計(jì)算Geg中邊上的權(quán)重, 并描述節(jié)點(diǎn)間的相關(guān)程度, 我們考慮以下兩個方面:

      (1) 向量相關(guān)度.各實(shí)體在向量空間中的語義相關(guān)度決定其向量間的相關(guān)度, 使用實(shí)體向量間的余弦相似度來度量.余弦相似度越高, 結(jié)構(gòu)相關(guān)度越大.計(jì)算方法如下:

      其中,Sim(·)表示實(shí)體向量間的余弦相似度.

      (2) Web文檔相關(guān)度, 即Geg中任意兩個節(jié)點(diǎn)在Web文檔中共現(xiàn)頻率反映的相關(guān)度[3].我們統(tǒng)計(jì)Geg中任意兩個節(jié)點(diǎn)在Web文檔中共同出現(xiàn)的次數(shù), 次數(shù)越多, 相關(guān)度越大.將Web文檔集合記為H=(h1,h2,…,hc),計(jì)算方法如下:

      其中, 若實(shí)體vi與vj共同出現(xiàn)在hx(1≤x≤c)中, 則g(hx,vi,vj)為1, 否則為0.

      使用超參數(shù)β來平衡上述因素對Geg邊上權(quán)重的貢獻(xiàn).為了統(tǒng)一y1(vi,vj)和y2(vi,vj)的取值區(qū)間, 使用最大最小歸一化函數(shù)對其進(jìn)行處理:

      3.2 候選實(shí)體打分排序

      Geg中任意兩個節(jié)點(diǎn)間有多條路徑, 不同的路徑?jīng)Q定了節(jié)點(diǎn)間不同的相關(guān)程度.因此, 通過獲取查詢實(shí)體eq與候選實(shí)體vi∈V′在Geg中的所有路徑來計(jì)算每條路徑上權(quán)重的平均值, 將其中的最大值作為候選實(shí)體vi的分?jǐn)?shù), 并基于該分?jǐn)?shù)對候選實(shí)體進(jìn)行排序, 計(jì)算方法如下:

      其中,Zi表示查詢實(shí)體eq到候選實(shí)體vi所有的路徑集合,zj表示第j條路徑需要經(jīng)歷的所有實(shí)體集合,表示第j條路徑中的第a個實(shí)體.

      算法2.基于EUWG模型的候選實(shí)體排序輸入: eq: 給定的查詢實(shí)體; V: 候選實(shí)體集M(eq)與查詢實(shí)體eq的并集; L: Geg中邊的集合輸出: B: 實(shí)體排序結(jié)果1.i←1, j←1, tmp_B←?, B←? 2.for each v in V-{eq} do 3.Z←BFS(L, e, eq) //使用廣度優(yōu)先算法獲取Geg中實(shí)體eq到v的所有路徑4.score←0 5.for each z in Z do 6.weight←0 7.for a=0 to |z|-1 do 8.weight←weight+w(za, za+1)9.end for 10.if weight/|z|>score then //將各路徑權(quán)重平均值的最大值作為候選實(shí)體分?jǐn)?shù)11.score←weight/|z|12.end for 13.tmp_B←tmp_B∪{(v, score)} //tmp_B保存候選實(shí)體v及其分?jǐn)?shù)score組成的二元組(v, score)14.end for 15.根據(jù)tmp_B中候選實(shí)體的分?jǐn)?shù), 對實(shí)體進(jìn)行排序, 將排序結(jié)果保存在B中16.return B

      在算法2中, 假設(shè)Geg的節(jié)點(diǎn)數(shù)為s, 算法主要的時間代價(jià)是對s-1個候選實(shí)體進(jìn)行廣度優(yōu)先搜索,Geg采用鄰接矩陣存儲, 每一次搜索的時間復(fù)雜度為O(s2).因此, 算法2的時間復(fù)雜度為O(s3).

      4 實(shí)驗(yàn)結(jié)果

      4.1 實(shí)驗(yàn)設(shè)置

      (1) 數(shù)據(jù)集與測試環(huán)境

      為了測試本文提出方法的效果, 使用Wikidata(http://dumps.wikimedia.org/wikidatawiki/entities)作為測試數(shù)據(jù)集, 并從Wikidata中分別隨機(jī)抽取部分三元組, 記為KB50K和KB500K, 統(tǒng)計(jì)信息如表1所示.使用KORE[16]與ERT[17]數(shù)據(jù)集作為驗(yàn)證數(shù)據(jù)集, 這兩個數(shù)據(jù)集均使用人工處理的方法給出了涉及IT、明星、游戲、電視劇、音樂與電影領(lǐng)域的多組查詢實(shí)體與候選實(shí)體間的相關(guān)度, 統(tǒng)計(jì)信息如表2所示.同時, 為了構(gòu)造EUWG模型, 分別使用KORE與ERT數(shù)據(jù)集中各領(lǐng)域的查詢實(shí)體作為關(guān)鍵詞搜索Web文檔, 統(tǒng)計(jì)信息如表3所示.

      表1 測試數(shù)據(jù)集

      表2 驗(yàn)證數(shù)據(jù)集

      表3 Web文檔數(shù)據(jù)集

      實(shí)驗(yàn)使用E5-2650v3 2.3 GHz處理器, 2080Ti GPU,128 GB內(nèi)存, 用Python作為編程語言, 并使用Spark和TensorFlow框架作為編程框架.

      (2) 測試指標(biāo)

      使用準(zhǔn)確率(Precision,P)、召回率(Recall,R)以及F1分值來評價(jià)算法1的有效性, 計(jì)算方法如下:

      其中,TP為被正確搜索到的候選實(shí)體數(shù),FP為被錯誤搜索到的候選實(shí)體數(shù),FN為未被搜索到的候選實(shí)體數(shù).

      為了驗(yàn)證EUWG模型的有效性, 使用皮爾遜相關(guān)系數(shù)(Pearson Correlation Coefficient,PCC)、斯皮爾曼等級相關(guān)系數(shù)(Spearman Correlation Rank Coefficient,SCRC)以及調(diào)和均值(Harmonic Mean,HM)來評價(jià)排序結(jié)果.其中PCC表示測試結(jié)果與驗(yàn)證數(shù)據(jù)集中相關(guān)度分?jǐn)?shù)的一致性,SCRC表示測試結(jié)果與驗(yàn)證數(shù)據(jù)集實(shí)體排序的一致性,HM表示測試結(jié)果與驗(yàn)證數(shù)據(jù)集之間的綜合一致性.計(jì)算方法如下:

      其中,X為測試結(jié)果中的候選實(shí)體分?jǐn)?shù)集,Y為驗(yàn)證數(shù)據(jù)集中各候選實(shí)體的分?jǐn)?shù)集,AC為候選實(shí)體數(shù),bi為第i個實(shí)體在測試結(jié)果中的位置與驗(yàn)證數(shù)據(jù)集中位置的差值,PCC、SCRC和HM的值越接近1, 說明結(jié)果越好.

      4.2 候選實(shí)體搜索有效性測試

      為了測試實(shí)體數(shù)量對算法1的影響, 分別在KORE與ERT上測試了候選實(shí)體搜索的準(zhǔn)確率、召回率和F1值, 如圖2所示.可以看出, 隨著實(shí)體數(shù)量的增加,各項(xiàng)指標(biāo)都有所下降.當(dāng)實(shí)體數(shù)量從1×105增加到5×105時, 實(shí)體數(shù)量增加了5倍, 但召回率僅降低了10%.原因在于, 實(shí)體數(shù)量的增加使得TransH的學(xué)習(xí)結(jié)果更加準(zhǔn)確, 并能夠更有效地表示實(shí)體的語義, 進(jìn)而使算法1在大規(guī)模的KG上也表現(xiàn)優(yōu)異.

      圖2 實(shí)體數(shù)對候選實(shí)體搜索的影響

      然后, 測試了不同聚類類別數(shù)對算法1的影響.在各KG中選擇5×105個實(shí)體, 取不同的聚類類別數(shù)進(jìn)行測試, 如圖3所示.可以看出, 隨著聚類數(shù)的增加, 準(zhǔn)確率和F1值都有所上升, 原因在于類別數(shù)越多, 候選實(shí)體集中被錯誤召回的實(shí)體數(shù)量所占的比例越小, 進(jìn)而候選實(shí)體搜索的準(zhǔn)確性就越高.

      圖3 聚類類別數(shù)對候選實(shí)體搜索的影響

      另外, 將本文提出的候選實(shí)體搜索算法記為TCES(TransH-based Candidate Entity Search), 從各KG中選擇5×105個實(shí)體, 設(shè)置聚類類別數(shù)為170, 與REFH[4]和LTRC[5]算法進(jìn)行對比, 如表4所示.可以看出, 算法1在FB50K和FB500K數(shù)據(jù)集上效果更好, 且在Wikidata上準(zhǔn)確率和F1值也高于其他兩種方法.原因在于, 算法1從KG所有實(shí)體中尋找候選實(shí)體, 搜索范圍更大,進(jìn)而被正確召回的實(shí)體數(shù)目更多.

      表4 不同KG的候選實(shí)體搜索結(jié)果

      4.3 EUWG模型有效性測試

      為了測試KG規(guī)模對候選實(shí)體排序的影響, 選擇4.5×105個Web文檔, 測試算法2在不同三元組數(shù)量下的PCC、SCRC和HM, 如圖4所示.可以看出, 隨著三元組數(shù)量增加,PCC、SCRC和HM都有所上升.當(dāng)三元組數(shù)量達(dá)到5×106時, 各指標(biāo)平均增加了29%、17%和25%.原因在于隨著三元組數(shù)量的增加, KG中蘊(yùn)含的知識更加完整, TransH能夠更有效地對KG進(jìn)行表示, 使得EUWG模型中向量相關(guān)度的計(jì)算更加準(zhǔn)確,進(jìn)而排序效果有所提升.

      圖4 KG規(guī)模對候選實(shí)體排序的影響

      另外, 為了測試不同Web文檔數(shù)對相關(guān)實(shí)體排序的影響, 從各KG中分別選擇5×106個三元組, 測試算法2在不同Web文檔數(shù)下的PCC, SCRC和HM, 如圖5所示.可以看出, 隨著Web文檔數(shù)增加, 各指標(biāo)也隨之上升, 當(dāng)數(shù)據(jù)量為4.5×105時, 各指標(biāo)平均提升了41%、30%和34%.原因在于隨著Web文檔數(shù)的增加, 其中的知識也隨之增加, 對實(shí)體相關(guān)性的描述信息也更加豐富, 使得EUWG模型對實(shí)體在Web文檔中相關(guān)性的量化更加準(zhǔn)確, 進(jìn)而提升了排序效果.

      圖5 Web文檔數(shù)對候選實(shí)體排序的影響

      最后, 我們從KG中分別選擇5×106個三元組, 并使用4.5×105個Web文檔和不同領(lǐng)域的查詢實(shí)體進(jìn)行測試, 與 WLM[8]、TSF[9]和 Wikipedia2Vec[12]模型進(jìn)行比較, 如圖6和圖7所示.可以看出, 本文提出的EUWG模型在實(shí)體排序任務(wù)中表現(xiàn)較好, 其中, EUWG模型比其他3種方法的PCC高了18%.原因在于Wikipedia2Vec模型在將KG映射為向量時會發(fā)生實(shí)體和詞匯的匹配錯誤.同時, WLM與TSF模型主要根據(jù)KG來計(jì)算實(shí)體間的相關(guān)度, 但KG無法及時地反映真實(shí)世界不斷演化的知識, 因此計(jì)算結(jié)果不夠準(zhǔn)確, 而EUWG使用Web文檔和KG共同描述實(shí)體間的相關(guān)關(guān)系, 使得計(jì)算結(jié)果更加客觀, 進(jìn)而候選實(shí)體的排序結(jié)果更好.

      圖6 基于FB50K的候選實(shí)體排序結(jié)果

      圖7 基于FB500K的候選實(shí)體排序結(jié)果

      5 結(jié)束語

      本文提出了基于表示學(xué)習(xí)的相關(guān)實(shí)體搜索算法, 通過對向量空間中不同關(guān)系超平面上的實(shí)體投影進(jìn)行聚類, 獲得與查詢實(shí)體相關(guān)的候選實(shí)體, 并使用實(shí)體帶權(quán)無向圖模型對候選實(shí)體進(jìn)行排序.實(shí)驗(yàn)結(jié)果表明, 本文提出的方法能夠正確地從KG中搜索候選實(shí)體, 同時有效地對候選實(shí)體進(jìn)行排序.但在候選實(shí)體排序任務(wù)中使用的數(shù)據(jù)源仍有待進(jìn)一步擴(kuò)展.因此, 在未來工作中考慮加入Web應(yīng)用中與實(shí)體相關(guān)的圖片數(shù)據(jù), 更加客觀全面地描述實(shí)體間的關(guān)系信息, 提高相關(guān)實(shí)體搜索的準(zhǔn)確性.

      猜你喜歡
      超平面三元組文檔
      基于語義增強(qiáng)雙編碼器的方面情感三元組提取
      軟件工程(2024年12期)2024-12-28 00:00:00
      基于帶噪聲數(shù)據(jù)集的強(qiáng)魯棒性隱含三元組質(zhì)檢算法*
      全純曲線的例外超平面
      有人一聲不吭向你扔了個文檔
      涉及分擔(dān)超平面的正規(guī)定則
      關(guān)于余撓三元組的periodic-模
      以較低截?cái)嘀財(cái)?shù)分擔(dān)超平面的亞純映射的唯一性問題
      基于RI碼計(jì)算的Word復(fù)制文檔鑒別
      Persistence of the reproductive toxicity of chlorpiryphos-ethyl in male Wistar rat
      數(shù)學(xué)年刊A輯(中文版)(2015年1期)2015-10-30 01:55:44
      唐海县| 崇仁县| 舟曲县| 都安| 黑河市| 陇川县| 文昌市| 逊克县| 英德市| 内江市| 南宫市| 衡山县| 九龙坡区| 葵青区| 招远市| 大理市| 达孜县| 昔阳县| 丹阳市| 永泰县| 合肥市| 垫江县| 曲阜市| 教育| 明星| 同仁县| 张家港市| 龙泉市| 禄劝| 乌鲁木齐县| 资溪县| 苍山县| 武城县| 双流县| 翁源县| 朝阳区| 清水县| 平远县| 察雅县| 新乡县| 乌兰县|