• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      關(guān)聯(lián)數(shù)據(jù)沖突消解方法研究

      2018-12-24 15:57:27何緋娟劉文強(qiáng)繆相林許大煒
      關(guān)鍵詞:真值謂詞數(shù)據(jù)源

      何緋娟,劉文強(qiáng),繆相林,許大煒

      (1.西安交通大學(xué)城市學(xué)院,陜西 西安 710018; 2.西安交通大學(xué) 電子與信息工程學(xué)院,陜西 西安 710049)

      0 引 言

      關(guān)聯(lián)數(shù)據(jù)是語(yǔ)義網(wǎng)的一種實(shí)現(xiàn)形式,采用資源描述框架(resource description framework,RDF)模型對(duì)信息實(shí)體及其關(guān)系進(jìn)行描述、發(fā)布與部署,從而為互聯(lián)網(wǎng)上智能化的應(yīng)用提供支撐。關(guān)聯(lián)數(shù)據(jù)的核心是RDF模型,它是一種由主語(yǔ)(subject)、謂詞(predicate)、客體(object)構(gòu)成的三元組形式,其中主語(yǔ)采用統(tǒng)一資源標(biāo)識(shí)符(uniform resource identifier,URI)描述Web上的信息實(shí)體,謂詞表示實(shí)體的屬性,客體則是屬性對(duì)應(yīng)的值。例如,RDF三元組表示中國(guó)的首都是北京。近年來(lái),由于關(guān)聯(lián)開(kāi)放數(shù)據(jù)項(xiàng)目(linked open data,LOD)的大力推動(dòng),關(guān)聯(lián)數(shù)據(jù)源的數(shù)量及數(shù)據(jù)規(guī)模都快速增長(zhǎng),截至2018年,已集成了1 200多個(gè)數(shù)據(jù)源,RDF三元組規(guī)模達(dá)到了百億級(jí),內(nèi)容涵蓋地理、生命科學(xué)、出版物、社交網(wǎng)絡(luò)等領(lǐng)域,并在數(shù)字圖書(shū)館、生物醫(yī)學(xué)、教育等領(lǐng)域得到應(yīng)用。

      關(guān)聯(lián)數(shù)據(jù)具有發(fā)布自由、獨(dú)立自治等特點(diǎn),導(dǎo)致多個(gè)獨(dú)立維護(hù)的數(shù)據(jù)源對(duì)真實(shí)世界相同實(shí)體可能提供沖突的描述[1]。沖突的原因主要包括兩個(gè)方面:一是在一些數(shù)據(jù)源構(gòu)建中,采用了機(jī)器學(xué)習(xí)、自然語(yǔ)言處理等算法自動(dòng)實(shí)現(xiàn)關(guān)聯(lián)數(shù)據(jù)生成,容易引入臟數(shù)據(jù);二是對(duì)數(shù)據(jù)更新時(shí)差的不同也會(huì)導(dǎo)致沖突問(wèn)題。沖突問(wèn)題嚴(yán)重影響關(guān)聯(lián)數(shù)據(jù)的可用性。

      根據(jù)沖突出現(xiàn)位置的不同,可將RDF數(shù)據(jù)的沖突問(wèn)題分為主語(yǔ)沖突、謂詞沖突和賓語(yǔ)沖突[2],分別對(duì)應(yīng)RDF三元組的三個(gè)元素。其中,主語(yǔ)沖突或謂詞沖突是指不同RDF數(shù)據(jù)集為真實(shí)世界相同實(shí)體(主語(yǔ))或?qū)傩?謂語(yǔ))提供不同標(biāo)識(shí)符。賓語(yǔ)沖突是指不同數(shù)據(jù)集為同一個(gè)主語(yǔ)的相同謂詞提供不同的值。例如,不同數(shù)據(jù)源對(duì)“Java語(yǔ)言的設(shè)計(jì)者”提供不同的值。DBpedia數(shù)據(jù)源認(rèn)為Java語(yǔ)言的設(shè)計(jì)者是Sun公司和James Gosling,而Freebase認(rèn)為只是James Gosling。

      近年來(lái),人們對(duì)關(guān)聯(lián)數(shù)據(jù)的沖突消解問(wèn)題開(kāi)展了一系列研究,文中將從主語(yǔ)、謂詞、賓語(yǔ)三個(gè)方面對(duì)沖突消解研究工作進(jìn)行分析、總結(jié)與展望。

      1 主語(yǔ)沖突消解

      主語(yǔ)沖突消解也稱(chēng)為實(shí)體共指消解(resolving entity coreference),旨在消除描述關(guān)聯(lián)數(shù)據(jù)中相同實(shí)體的標(biāo)識(shí)符不一致問(wèn)題。例如,DBpedia數(shù)據(jù)源的標(biāo)識(shí)符“Beijing”和Freebase的“m.01914”都指代“北京”。目前,主語(yǔ)沖突消解主要有基于語(yǔ)義等價(jià)推理與基于屬性值相似度兩類(lèi)方法[3]。

      基于語(yǔ)義等價(jià)推理的方法主要利用網(wǎng)絡(luò)本體語(yǔ)言(ontology web language,OWL)推理不同實(shí)體標(biāo)識(shí)符間的對(duì)象共指關(guān)系。OWL語(yǔ)言定義一組原語(yǔ)來(lái)描述關(guān)聯(lián)數(shù)據(jù)中類(lèi)及類(lèi)間關(guān)系。典型的原語(yǔ)包括:

      (1)owl:sameAs原語(yǔ)。該原語(yǔ)通過(guò)三元組形式直接定義s和p指代相同的實(shí)體。然而實(shí)證分析表明,關(guān)聯(lián)數(shù)據(jù)中僅有51%的sameAs被正確使用[4];因而,單純基于sameAs有很大的局限性。

      (2)反函數(shù)屬性(owl:InverseFunctionalProperty)原語(yǔ)。如果兩個(gè)實(shí)體具有相同的反函數(shù)屬性,如電子郵件地址(foaf:mbox),則指代相同的實(shí)體對(duì)象。例如,Nikolov等綜合owl:sameAs、owl:differentFrom等原語(yǔ)提出了一種共指消解模型[5]。

      基于語(yǔ)義等價(jià)推理的方法能夠利用OWL的精確原語(yǔ)識(shí)別共指關(guān)系,準(zhǔn)確率較高,但由于關(guān)聯(lián)數(shù)據(jù)中大量缺失這些OWL原語(yǔ),導(dǎo)致召回率較低。

      基于屬性值相似度計(jì)算方法通過(guò)比較實(shí)體標(biāo)識(shí)符的屬性和屬性值來(lái)識(shí)別對(duì)象實(shí)現(xiàn)主語(yǔ)沖突消解,主要依據(jù)是相同的實(shí)體通常具有相同或者高度相似的屬性值對(duì)。例如,Wang等提出一種基于馬爾可夫隨機(jī)場(chǎng)的主語(yǔ)沖突消解方法[6],該方法通過(guò)計(jì)算描述不同標(biāo)識(shí)符的多個(gè)屬性值間的相似度來(lái)實(shí)現(xiàn)主語(yǔ)沖突消解。基于屬性值相似度計(jì)算方法具有很強(qiáng)的適應(yīng)性,但是難以確定合適的相似度閾值,且計(jì)算復(fù)雜度較高。

      目前也有綜合兩種方法實(shí)現(xiàn)主語(yǔ)沖突消解的研究工作。例如,Hu等提出一種自訓(xùn)練的共指消解識(shí)別方法[7]。該方法首先利用OWL語(yǔ)言識(shí)別出部分候選訓(xùn)練集,進(jìn)而基于相似度計(jì)算的方法擴(kuò)展該訓(xùn)練集,并過(guò)濾掉低可信度的訓(xùn)練集,直至得出高可信度的共指關(guān)系集?;趦烧呓Y(jié)合的方法有助于提高主語(yǔ)沖突消解的準(zhǔn)確率和召回率,但隨著關(guān)聯(lián)數(shù)據(jù)量的增加,計(jì)算開(kāi)銷(xiāo)也急劇增加。

      2 謂詞沖突消解

      謂詞沖突消解又稱(chēng)為本體匹配(ontology alignment),主要解決關(guān)聯(lián)數(shù)據(jù)源對(duì)同一實(shí)體的相同屬性采用不一致標(biāo)識(shí)符的問(wèn)題。例如,DBpedia數(shù)據(jù)源中表示“人口”為populationTotal,而Geoname數(shù)據(jù)源中則是population。目前,謂詞沖突消解方法主要包括基于相似度、基于結(jié)構(gòu)匹配以及基于實(shí)例三類(lèi)方法。

      基于相似度的方法利用兩個(gè)謂詞之間的文本相似度(如編輯距離、N-gram距離等)或詞義相似度(WordNet距離、層次距離等)挖掘兩個(gè)謂詞間關(guān)聯(lián),實(shí)現(xiàn)謂詞沖突消解。例如,Schadd與Roos利用詞匯在分類(lèi)體系中的層次距離提出了一種詞匯相似性指標(biāo),并設(shè)計(jì)了一種基于該指標(biāo)的謂詞沖突消解方法[8]。潘有能等提出了一種利用謂詞在WordNet中父子概念的相似度進(jìn)行本體匹配的方法[9]。總體上,基于相似度的方法簡(jiǎn)單、直接,但對(duì)謂詞表達(dá)形式依賴(lài)性大;此外,相似度計(jì)算函數(shù)的選擇也影響此類(lèi)方法的性能。

      基于結(jié)構(gòu)匹配的方法利用關(guān)聯(lián)數(shù)據(jù)本身或者本體的拓?fù)浣Y(jié)構(gòu)來(lái)實(shí)現(xiàn)謂詞沖突消解。例如,Xiang等利用關(guān)聯(lián)數(shù)據(jù)圖結(jié)構(gòu),提出了一種基于隨機(jī)游走的相似度傳播算法實(shí)現(xiàn)謂詞沖突消解[10]。王穎等提出一種利用RDF圖結(jié)構(gòu)相似性進(jìn)行本體匹配的方法[11]。清華大學(xué)也研制了謂詞匹配系統(tǒng)RiMOM[12],能夠綜合利用多種策略以及結(jié)構(gòu)、文本相似性進(jìn)行謂詞沖突消解。基于結(jié)構(gòu)匹配的消解方法是相似度計(jì)算方法的擴(kuò)展,通過(guò)拓?fù)浣Y(jié)構(gòu)能夠有效提升匹配效率;但該類(lèi)方法對(duì)結(jié)構(gòu)信息過(guò)于依賴(lài),適應(yīng)性較差。

      基于實(shí)例的方法主要采用機(jī)器學(xué)習(xí)方法自動(dòng)實(shí)現(xiàn)謂詞沖突消解。例如,Wang等在謂詞相似度、值的匹配程度等特征的基礎(chǔ)上,提出了一種基于分類(lèi)的謂詞沖突消解方法,并在知識(shí)圖譜融合中取得了較好的效果[13]。蔣湛等從實(shí)例、結(jié)構(gòu)等維度計(jì)算每項(xiàng)特征的置信度,并提出基于特征自適應(yīng)的本體映射方法[14]。這類(lèi)方法適應(yīng)性強(qiáng),但是需要大量的人工標(biāo)注數(shù)據(jù)。

      3 賓語(yǔ)沖突消解

      賓語(yǔ)沖突消解用于消除不同關(guān)聯(lián)數(shù)據(jù)源相同實(shí)體的同一屬性的屬性值不一致的過(guò)程。例如,北京的總?cè)丝跀?shù)在關(guān)聯(lián)數(shù)據(jù)源Freebase和DBpedia上的數(shù)值分別是“20 180 000”和“21 516 000”。目前,賓語(yǔ)沖突消解可分為沖突避免和真值發(fā)現(xiàn)(truth discovery)兩類(lèi)方法。

      沖突避免方法采用人工預(yù)設(shè)規(guī)則避免沖突。例如,Mendes等提出了一種關(guān)聯(lián)數(shù)據(jù)質(zhì)量評(píng)估框架Sieve[15],該框架指定特定數(shù)據(jù)源的值是可信值,以此解決屬性值的不一致問(wèn)題。部分研究也采用少數(shù)服從多數(shù)的投票策略,即把出現(xiàn)次數(shù)最多的屬性值作為最可信的值。這類(lèi)方法的主要缺陷是認(rèn)為每個(gè)數(shù)據(jù)源的權(quán)威值是相同且固定的,這與實(shí)際不符。

      真值發(fā)現(xiàn)方法根據(jù)數(shù)據(jù)特點(diǎn)、拓?fù)浣Y(jié)構(gòu)等特征識(shí)別出特定實(shí)體特定屬性最可能的數(shù)值,據(jù)此消除賓語(yǔ)沖突。真值發(fā)現(xiàn)進(jìn)一步可分為基于迭代、基于最優(yōu)化以及基于概率圖三類(lèi)方法。

      基于迭代的方法主要利用數(shù)據(jù)源權(quán)威性與數(shù)據(jù)可信性相互依賴(lài)的特點(diǎn),迭代推導(dǎo)出實(shí)體屬性的真值。例如,Dong等采用類(lèi)似Authority-Hub迭代機(jī)制,提出了一種基于貝葉斯推斷的真值發(fā)現(xiàn)算法[16]。馬如霞等提出一種基于數(shù)據(jù)源分類(lèi)可信性的真值發(fā)現(xiàn)算法,該算法采用基于貝葉斯的方法迭代計(jì)算數(shù)據(jù)源分類(lèi)可靠性和屬性值準(zhǔn)確性[17]。

      基于最優(yōu)化的方法主要是通過(guò)優(yōu)化損失函數(shù),逐步縮短沖突值與真值間的距離,進(jìn)而發(fā)現(xiàn)真值。例如,Li等提出了一種真值發(fā)現(xiàn)優(yōu)化框架,該框架把數(shù)據(jù)可信性與數(shù)據(jù)源權(quán)威性作為優(yōu)化函數(shù)的兩個(gè)變量,提高真值發(fā)現(xiàn)的準(zhǔn)確性[18]。陳超等提出了一種基于距離的異構(gòu)數(shù)據(jù)聯(lián)合真值發(fā)現(xiàn)算法,該算法采用最優(yōu)化策略更新數(shù)據(jù)可信度和數(shù)據(jù)源的類(lèi)簇內(nèi)可靠性[19]。

      基于概率圖的方法把數(shù)據(jù)源權(quán)威性與數(shù)據(jù)可信性看作0到1之間的概率,利用概率圖模型推斷實(shí)體屬性的真值。例如,Zhao等提出了一種基于概率圖的真值發(fā)現(xiàn)算法[20],該算法把數(shù)據(jù)源的權(quán)威性定義為敏感度與特異性?xún)蓚€(gè)變量,并以此構(gòu)建了真值發(fā)現(xiàn)概率圖模型框架。

      基于迭代的方法適應(yīng)性強(qiáng),但需要較多的迭代次數(shù),時(shí)間復(fù)雜度較高。基于最優(yōu)化的方法過(guò)于依賴(lài)訓(xùn)練集,且由于關(guān)聯(lián)數(shù)據(jù)更新速度快,易引發(fā)訓(xùn)練集和測(cè)試集間的分布不一致問(wèn)題,造成模型的欠擬合?;诟怕蕡D的方法正確率高,但計(jì)算復(fù)雜。

      4 研究展望

      目前,在關(guān)聯(lián)數(shù)據(jù)沖突消解方面,對(duì)于主語(yǔ)與謂詞的沖突消解問(wèn)題,國(guó)內(nèi)外已開(kāi)展了大量研究,已具有較成熟的算法與軟件系統(tǒng)。但是,對(duì)于賓語(yǔ)的沖突消解問(wèn)題,目前仍然面臨多值沖突、時(shí)變數(shù)據(jù)、數(shù)據(jù)拷貝等挑戰(zhàn)性問(wèn)題。后續(xù)的研究方向主要包括:

      (1)關(guān)聯(lián)數(shù)據(jù)中的多值沖突問(wèn)題。關(guān)聯(lián)數(shù)據(jù)的某些屬性本身就有很多正確值,比如圖書(shū)的作者?,F(xiàn)有賓語(yǔ)沖突消解算法只考慮了關(guān)聯(lián)數(shù)據(jù)中單值沖突問(wèn)題。未來(lái)一個(gè)有前景的研究方向是借助概率圖模型或者深度學(xué)習(xí)算法研究多值沖突消解問(wèn)題。

      (2)關(guān)聯(lián)數(shù)據(jù)的拷貝問(wèn)題。數(shù)據(jù)源之間存在大量的隱含拷貝關(guān)系,這類(lèi)關(guān)系妨礙了對(duì)數(shù)據(jù)源可信性的判別,如何識(shí)別并利用拷貝關(guān)系是提高賓語(yǔ)沖突消解算法性能的關(guān)鍵。

      (3)關(guān)聯(lián)數(shù)據(jù)的表示學(xué)習(xí)模型。以深度學(xué)習(xí)為代表的表示學(xué)習(xí)技術(shù)旨在將關(guān)聯(lián)數(shù)據(jù)中的實(shí)體和屬性表示成低維稠密的向量。但是由于不同的關(guān)聯(lián)數(shù)據(jù)源采用不同的標(biāo)識(shí)符來(lái)表示相同的實(shí)體和屬性,這給關(guān)聯(lián)數(shù)據(jù)的表示學(xué)習(xí)帶來(lái)了挑戰(zhàn)。

      5 結(jié)束語(yǔ)

      隨著關(guān)聯(lián)數(shù)據(jù)源的數(shù)量及數(shù)據(jù)規(guī)模的快速增長(zhǎng),關(guān)聯(lián)數(shù)據(jù)的沖突問(wèn)題愈發(fā)嚴(yán)重,成為制約其可用性的關(guān)鍵因素。文中根據(jù)關(guān)聯(lián)數(shù)據(jù)的RDF三元組結(jié)構(gòu),從主語(yǔ)、謂詞、賓語(yǔ)三個(gè)方面對(duì)近年來(lái)在關(guān)聯(lián)數(shù)據(jù)沖突消解方面的研究工作進(jìn)行了歸類(lèi)分析,系統(tǒng)總結(jié)了各類(lèi)沖突消解方法的優(yōu)缺點(diǎn)。最后,重點(diǎn)總結(jié)了賓語(yǔ)沖突消解存在的問(wèn)題,給出了關(guān)聯(lián)數(shù)據(jù)的多值沖突、拷貝、表示學(xué)習(xí)三個(gè)具有挑戰(zhàn)性的研究方向。

      猜你喜歡
      真值謂詞數(shù)據(jù)源
      被遮蔽的邏輯謂詞
      ——論胡好對(duì)邏輯謂詞的誤讀
      黨項(xiàng)語(yǔ)謂詞前綴的分裂式
      西夏研究(2020年2期)2020-06-01 05:19:12
      Web 大數(shù)據(jù)系統(tǒng)數(shù)據(jù)源選擇*
      10kV組合互感器誤差偏真值原因分析
      電子制作(2017年1期)2017-05-17 03:54:35
      基于不同網(wǎng)絡(luò)數(shù)據(jù)源的期刊評(píng)價(jià)研究
      也談“語(yǔ)言是存在的家”——從語(yǔ)言的主詞與謂詞看存在的殊相與共相
      真值限定的語(yǔ)言真值直覺(jué)模糊推理
      基于真值發(fā)現(xiàn)的沖突數(shù)據(jù)源質(zhì)量評(píng)價(jià)算法
      分布式異構(gòu)數(shù)據(jù)源標(biāo)準(zhǔn)化查詢(xún)?cè)O(shè)計(jì)與實(shí)現(xiàn)
      寫(xiě)真法、寫(xiě)假法探析
      乌恰县| 秦皇岛市| 福安市| 庆城县| 磐安县| 象州县| 阿拉善右旗| 平果县| 贵德县| 英吉沙县| 乌恰县| 阆中市| 神农架林区| 广元市| 手游| 尖扎县| 安仁县| 江陵县| 浦城县| 连云港市| 东丰县| 太原市| 稻城县| 潞西市| 玉树县| 江永县| 桃园县| 华蓥市| 平武县| 朝阳区| 临湘市| 房山区| 来安县| 扬中市| 德格县| 巴楚县| 东光县| 花垣县| 元谋县| 宜都市| 宁强县|