基于Hadoop 的水利元數(shù)據(jù)語義搜索方法

2015-11-25 03:00:48李宗祥唐志賢

計算機與現(xiàn)代化 2015年12期

馮鈞，李宗祥，唐志賢，姜康

(河海大學(xué)計算機與信息學(xué)院，江蘇南京 211100)

0 引言

隨著物聯(lián)網(wǎng)、云計算、移動互聯(lián)網(wǎng)以及RS 技術(shù)在水利行業(yè)的廣泛應(yīng)用，水利行業(yè)迅速積累了海量、分布、異構(gòu)的水利業(yè)務(wù)數(shù)據(jù)。構(gòu)建水利信息資源目錄服務(wù)系統(tǒng)是整合水利業(yè)務(wù)數(shù)據(jù)、實現(xiàn)數(shù)據(jù)共享以及深度利用分散存儲數(shù)據(jù)的有效途徑［1］。元數(shù)據(jù)搜索是資源目錄服務(wù)系統(tǒng)的關(guān)鍵技術(shù)之一［2］，目前對于元數(shù)據(jù)的檢索，大多是基于關(guān)鍵詞的簡單匹配，忽略了水利數(shù)據(jù)之間的關(guān)聯(lián)關(guān)系，形成“語義漂移”、“機械匹配”、“語義不一致”等問題，影響了搜索結(jié)果的查全率與查準率。此外，水利元數(shù)據(jù)多由XML 描述，在對元數(shù)據(jù)建立索引時，需要解析元數(shù)據(jù)，提取其中關(guān)鍵信息來建立索引，由于結(jié)構(gòu)化元數(shù)據(jù)上下文存在關(guān)聯(lián)性，解析過程需要獲取元數(shù)據(jù)的整體結(jié)構(gòu)，導(dǎo)致解析效率低下。針對上述問題，本文首先結(jié)合本體與查詢擴展技術(shù)，提出一種基于本體的語義搜索方法，在元數(shù)據(jù)搜索中考慮水利數(shù)據(jù)之間的語義關(guān)聯(lián)，使搜索結(jié)果更加符合用戶意圖;其次，針對XML 形式水利元數(shù)據(jù)建立索引效率低下的問題，引入Hadoop 平臺中的MapReduce 并行處理模型，由于XML 的解析需要一個完整的XML 文件，如果直接采用Hadoop 的劃分機制，將會把一個完整的XML 文件分到不同的分片中去，造成元數(shù)據(jù)解析錯誤，所以本文改進Hadoop 中SequenceFile 的結(jié)構(gòu)，使水利元數(shù)據(jù)及相關(guān)文件能夠合并存儲在HDFS 中以及被MapReduce 切割為獨立、完整的文件，接著利用MapReduce 并行地解析完整的水利元數(shù)據(jù)文件并建立索引，并在此基礎(chǔ)上提出一種分布式環(huán)境下基于本體的擴展查詢方法。

1 相關(guān)研究

語義搜索是語義技術(shù)與信息檢索結(jié)合的產(chǎn)物，目的是利用語義技術(shù)來提高信息檢索的搜索效果［3］。Yu Xuejun 等人［4］利用關(guān)鍵詞擴展技術(shù)構(gòu)建搜索引擎，在對相關(guān)詞匯進行擴展時，考慮詞語之間的相似性;Marcelo G.Armentano 等人［5］利用NLP 技術(shù)解決了搜索引擎中對實體自動命名與識別的問題。T.Tran 等人［6］設(shè)計開發(fā)了語義搜索引擎SemSearch，通過關(guān)鍵詞擴展的方式來解析用戶的查詢表達式，該方法提供了語義擴展的思路，但是沒有考慮擴展詞的選擇情況;Qiu Yonggang 等人［7］通過構(gòu)建詞匯相似性表的方式來擴展查詢詞，在查詢時比較檢索詞與查詢的相似度，選擇相似度較高的關(guān)鍵詞添加到查詢中。文獻［8］提出把首次搜索結(jié)果中最相關(guān)的若干篇文檔作為查詢擴展的來源，由于擴展效果依賴首次查詢結(jié)果的數(shù)量與質(zhì)量，使得局部分析法擴展的準確率難以保證;而文獻［9］提出一種基于語義的查詢擴展是利用本體中概念之間的語義關(guān)系來擴展查詢詞，增加對用戶搜索意圖的理解，消除了語義歧義。

在分布式搜索引擎的相關(guān)研究工作中，文獻［10］提出在MapReduce 模型中對Xquery 的語法、特征、語義進行擴展，建立了ChuQL 查詢語言;Bhavik Shah 等人［11］從XML DOM 節(jié)點的樹形結(jié)構(gòu)出發(fā)，提出了ParDOM 解析方法，ParDOM 在解析XML 時考慮了標簽的分割，把分割后的數(shù)據(jù)塊使用MapReduce的并行處理后，再對處理后的結(jié)果進行合并;魏永山等人［12］針對大型XML 文件，使用XPath 投影的方法對文件進行劃分，只保留對查詢結(jié)果有貢獻的數(shù)據(jù)段，把切割后的數(shù)據(jù)塊放入MapReduce 進行并行查詢，提高了查詢的性能。

2 基于本體的語義搜索方法

2.1 本體的建立與推理規(guī)則

本文的領(lǐng)域背景設(shè)定在水利領(lǐng)域，所以筆者利用《水利公文主題詞表》限定了本體構(gòu)建的范圍，確定水利領(lǐng)域本體中概念的范圍，并使用Jena 對水利領(lǐng)域本體進行推理。Jena 包含一個默認支持OWL 的推理機制，但Jena 原生支持的推理規(guī)則集中不支持水利領(lǐng)域中的隱含關(guān)系，例如:淮河與河流之間存在相關(guān)關(guān)系，支流作為河流的子類，淮河與河流之間也應(yīng)該存在相關(guān)關(guān)系，因此將擴展現(xiàn)有的推理規(guī)則，來發(fā)現(xiàn)水利領(lǐng)域本體中隱含的語義關(guān)系。

針對水利領(lǐng)域本體擴展中所遇到的實際問題描述，構(gòu)造推理規(guī)則:

Rule1 說明如果x 與y 存在相關(guān)關(guān)系，而z 是y的子集，則認為x 與z 也存在相關(guān)關(guān)系。

Rule2 說明如果x 與y 等價，而y 與z 等價，則認為x 與z 也等價。

Rule3 說明如果x 與y 存在等價關(guān)系，而x 與z是相關(guān)的，那么認為y 與z 也存在相關(guān)關(guān)系。

2.2 語義相似度計算

語義相似度對于擴展查詢中選擇擴展詞有重要作用。語義相似度越高就說明擴展詞越符合用戶的需求，查詢結(jié)果就具有越高的查全率;文獻［13-17］中提到了語義距離、節(jié)點深度、信息論等多個影響語義相似度的因素;為了解決水利領(lǐng)域本體的相似度計算的問題，本文綜合考慮影響語義相似度的各個因素，提出水利領(lǐng)域語義相似度計算公式:

1)語義距離:語義距離是2 個概念在本體中路徑的最短距離。定義概念c1 與c2 的最近公共祖先為lca(c1，c2)，語義距離可表示為:

其中，depth(lca(c1，c2))表示最近公共祖先節(jié)點在本體中的層次，len(c1，c2)表示2 個概念在本體中的距離。

2)節(jié)點深度:概念與本體的根節(jié)點的最短路徑稱作概念的深度，由于本體中上層概念的含義相比于底層概念更為抽象，所以概念的相似度隨著概念的深度差變大而變小。

其中l(wèi)ca(c1，c2)代表概念c1 與c2 與公共祖先距離的平均值。

3)語義相關(guān)度:表示概念之間的相關(guān)程度。概念具有子類越多，那么從信息論的角度來看，這個概念則表現(xiàn)得更為抽象，本文認為抽象的概念蘊含的信息與具體的概念相比更少，因此相似度計算時需要考慮概念的抽象程度。此外，根據(jù)水利領(lǐng)域本體的特征可知如果概念之間共享的信息越多那么概念越相似，概念之間共同的祖先節(jié)點可以認為是概念間共享信息的一種表現(xiàn)，因此概念的語義相關(guān)度可以表示為:

其中，Classify(c1，c2)描述概念c1 與c2 共享子類的信息量，Ancestors(c1，c2)用于描述概念c1 與c2 共享公共祖先的信息量。sim(c1，c2)中α +β +λ=1，α、β 與λ 等值設(shè)置具有一定的主觀性，為了確保相似度計算的準確性，后續(xù)章節(jié)將采用專家經(jīng)驗與實驗結(jié)合的方式進行參數(shù)設(shè)置，通常情況下語義相關(guān)度對語義相似度的影響最大，其次為語義距離，最后才是節(jié)點深度，即λ ＞α ＞β，相似度的值域為sim(c1，c2)∈(0，1)。

2.3 擴展詞選擇

本體推理能夠發(fā)現(xiàn)隱含的語義關(guān)系，可以推出更多的關(guān)鍵詞，提高查全率。但是本體推理單純地對擴展詞增加權(quán)值的方式，無法合理地對擴展詞范圍進行限制，導(dǎo)致推出的擴展詞之間區(qū)分度不夠，無法保證最終查詢結(jié)果的準確性。本文結(jié)合本體推理與基于本體相似性計算2 種方式進行關(guān)鍵詞的擴展，通過本體推理和相似性計算分別得到2 個擴展關(guān)鍵詞的集合，如果簡單地組合2 組擴展詞作為查詢表達式，會導(dǎo)致與查詢詞相關(guān)性比較低的詞匯出現(xiàn)在查詢表示中，導(dǎo)致相關(guān)不高的結(jié)果出現(xiàn)，降低查準率，因此需要設(shè)置一個擴展閾值，當擴展詞的權(quán)值高于閾值時，則加入查詢詞列表中，關(guān)鍵詞擴展流程如圖1 所示。

2.4 搜索結(jié)果排序

對搜索關(guān)鍵詞的擴展數(shù)量加以限制，可以保證較好的查準率與查全率。然而，在搜索結(jié)果中排名靠前的記錄不一定就是最相關(guān)的記錄，因為隨著查詢擴展詞的增多，搜索結(jié)果中會出現(xiàn)很多噪音，如果把關(guān)鍵詞的語義信息加入排序算法中，那么搜索結(jié)果將會按照語義相關(guān)性排序，從而使查詢結(jié)果更符合用戶的需求，提高查準率。

圖1 關(guān)鍵詞擴展流程

本文將改進Lucene 的搜索排序算法，把擴展關(guān)鍵詞的語義信息加入排序中去，改進后的排序算法SimRank 可以表示為:

其中，t 表示Term(即所要查詢的關(guān)鍵詞)，coord(q，d)表示文檔中包含的檢索關(guān)鍵詞數(shù)量，queryNorm(q)表示每個查詢的方差和，boost(t)表示添加了語義信息的詞匯權(quán)值，tf(t，d)表示詞頻，idf(t)2表示逆向文件頻率，norm(t，d)表示標準化因子。

boost(t)表示關(guān)鍵詞權(quán)重，如果當前詞是擴展而來的，賦予擴展詞的權(quán)重值，否則賦值為默認的權(quán)重:

3 水利元數(shù)據(jù)分布式搜索

本文利用Hadoop 平臺實現(xiàn)水利元數(shù)據(jù)的分布式語義檢索。由于水利元數(shù)通常采用XML 文件進行定義與描述，需要在建立索引時解析整個XML 文件獲取相應(yīng)數(shù)據(jù)，但是如果在建立索引時直接采用Hadoop 的文件劃分機制，將會把一個完整的XML 文件劃分到不同的分片中，造成元數(shù)據(jù)解析錯誤，而且水利元數(shù)據(jù)的大小通常在幾十kB 到幾百kB 之間，是通常意義上的小文件，會產(chǎn)生HDFS 小文件問題，增加Namenode 負載降低處理效率，所以對Hadoop 中SequenceFile 的結(jié)構(gòu)進行改進，利用SequenceFile 可以將多個小文件合并為一個大文件的功能，使水利元數(shù)據(jù)及相關(guān)文件能夠合并存儲在HDFS 中以及被MapReduce 切割為獨立、完整的文件，然后利用MapReduce 并行地解析完整的水利元數(shù)據(jù)文件并建立索引，在此基礎(chǔ)上提出一種分布式環(huán)境下基于本體的擴展查詢方法。

3.1 元數(shù)據(jù)索引的并行創(chuàng)建算法

1)數(shù)據(jù)預(yù)處理。

首先使用Xpath 來標識這些關(guān)鍵數(shù)據(jù)項，利用XML 的解析工具，如SAX、dom4j、XQuery 等，可以獲取Xpath 對應(yīng)的數(shù)據(jù)信息。通過對異構(gòu)類型的元數(shù)據(jù)，使用Xpath 配置文件標識出元數(shù)據(jù)中共性的內(nèi)容，那么在建立索引過程中，可以利用配置文件來屏蔽異構(gòu)數(shù)據(jù)之間的差異性。

其次是海量的水利元數(shù)據(jù)小文件的處理。在建立索引過程中，需要構(gòu)建多個配置文件來屏蔽不同類型元數(shù)據(jù)之間的差異性，為保證MapReduce 對水利元數(shù)據(jù)相關(guān)文件切割后，能夠形成一個個獨立的文件，改進了SequenceFile 文件的key/value 結(jié)構(gòu)，稱為XSequenceFile，如圖2 所示。

圖2 處理元數(shù)據(jù)的XSequenceFile 結(jié)構(gòu)

XSequenceFile 將水利元數(shù)據(jù)文件組合到一起，作為HDFS 存儲的格式。對于海量、異構(gòu)、小文件的水利元數(shù)據(jù)的解析需求，首先需要將用于屏蔽異構(gòu)元數(shù)據(jù)差異性的Xpath、索引配置項(index config)存入XSequenceFile 中，且需要保證解析元數(shù)據(jù)之前，Xpath以及index config 文件就已經(jīng)存在，因此把Xpath、XML、index config 合并為一個文件組合，放置于同一個record 中。metadata id 作為key 來標識當前處理的元數(shù)據(jù)，value 中分別記錄數(shù)據(jù)與長度，通過長度可以計算出Xpath、index config 與XML 在record 中的偏移量，從而在讀取XSequenceFile 可以還原出相應(yīng)的文件。header 用于標識XSequenceFile 的文件信息，包括是否壓縮、壓縮方式、key/value 信息、以及sync的相關(guān)信息。sync 用于校驗record 中的記錄，如偏移量，當讀取過程中發(fā)生錯誤時，sync 可以用于恢復(fù)數(shù)據(jù)。

2)索引的并行建立。

圖3 展示了并行建立索引的過程:將HDFS 中的元數(shù)據(jù)及其相關(guān)的索引結(jié)果配置文件和xpath 以指定的結(jié)構(gòu)寫入XSequenceFile，Map 函數(shù)按照XSequecnceFile 中的key-value 格式取出數(shù)據(jù)，并且按照value 中定義的偏移量把xpath、索引配置項、XML 元數(shù)據(jù)讀取出來，通過并行地運行SAX 算法提取出Xpath 對應(yīng)的信息，建立倒排索引，并把索引記錄對應(yīng)的元數(shù)據(jù)類型index_type 作為key，把索引記錄作為value 交由Reduce 函數(shù)進行處理，Reduce 函數(shù)通過統(tǒng)計相同的index_type，執(zhí)行索引合并程序，并將合并后的索引寫入HDFS 中。

圖3 水利元數(shù)據(jù)并行建立索引過程

3.2 分布式語義擴展查詢

由于用戶在向分布式集群發(fā)送查詢請求時，系統(tǒng)無法事先知道索引文件存在哪個節(jié)點上，因此查詢請求分發(fā)過程不能是隨機分發(fā)或者指定節(jié)點進行查詢請求的分發(fā)，所以在查詢模型中設(shè)計了查詢請求分發(fā)策略，從集群中遴選出一個節(jié)點，向該節(jié)點發(fā)送查詢請求，并由該節(jié)點向其他節(jié)點轉(zhuǎn)發(fā)查詢請求，其他節(jié)點在本地處理查詢請求后，將查詢結(jié)果返回給遴選節(jié)點。遴選節(jié)點是出于并發(fā)訪問下，保持各個節(jié)點之間的負載均衡，設(shè)計使用hash 函數(shù)來平衡各個節(jié)點的訪問負載:

其中，request_number 是并發(fā)訪問請求的數(shù)量，node_number 是分布式集群中節(jié)點的數(shù)量，通過hash 函數(shù)進行取模運算后，可以將查詢請求平均地分發(fā)給不同的節(jié)點處理。

分布式環(huán)境下的語義擴展查詢方法的詳細步驟如算法1 所示，首先利用語義查詢擴展算法計算出擴展關(guān)鍵詞，將擴展關(guān)鍵詞加入查詢表達式中。隨后利用哈希函數(shù)得出遴選節(jié)點，系統(tǒng)向遴選節(jié)點中發(fā)送查詢請求，遴選節(jié)點負責向其他節(jié)點轉(zhuǎn)發(fā)查詢請求，如果其他節(jié)點中的數(shù)據(jù)塊與遴選節(jié)點中的不同，則對當前節(jié)點中的索引文件進行搜索，并將搜索結(jié)果返回給遴選節(jié)點。遴選節(jié)點在接收到所有的搜索結(jié)果后，對搜索結(jié)果合并和去重，使用SimRank 排序算法對搜索結(jié)果排序，返回搜索結(jié)果給用戶。

4 實驗與分析

4.1 實驗環(huán)境

實驗中，對比集中式與分布式環(huán)境下的系統(tǒng)處理能力，實驗環(huán)境配置如下:

1)集中式環(huán)境:CPU:AMD A8-7100 Raadeon R5四核1.80 GHz;內(nèi)存:4.00 GB;硬盤:HGST HTS 725050A7E630，7200 轉(zhuǎn)/min，500 GB;操作系統(tǒng):Windows8。

算法1 并行語義查詢算法

2)分布式環(huán)境:選擇1 臺Namenode 節(jié)點，3 臺Datanode 節(jié)點:主節(jié)點CPU:英特爾單核2.60 GHz，主節(jié)點內(nèi)存:1 G，從節(jié)點CPU:英特爾雙核3.20 GHz，從節(jié)點內(nèi)存:2 G;操作系統(tǒng):Ubuntu 12.04，Hadoop:Hadoop 2.1.0，JDK 環(huán)境:jdk 1.7，開發(fā)IDE:My-Eclipse10。

4.2 實驗數(shù)據(jù)設(shè)置

《水利公文主題詞表》的主表中收錄主題詞1 994條，分為18 個范疇編排，附表收錄了主題詞570 條。通過運行自動化構(gòu)建算法，將《水利公文主題詞表》轉(zhuǎn)譯為OWL 語言描述的本體。

本實驗采用調(diào)整權(quán)值模擬與10 位領(lǐng)域?qū)＜医?jīng)驗判斷的相似性進行比較，通過選擇實驗得到最優(yōu)組作為相似度計算模型的參數(shù)。從過往的實驗結(jié)果可以得出，當α=0.45，β=0.35，λ=0.2 時，基于本體的相似度計算值與領(lǐng)域?qū)＜夜浪愕闹档恼`差值最小。因此可以設(shè)置相似度計算公式中的參數(shù)值為α=0.45，β=0.35，λ=0.2，所以基于本體的相似度計算公式可以描述為:

4.3 分布式語義搜索

本實驗采用的元數(shù)據(jù)數(shù)據(jù)集，按照規(guī)?？梢苑譃?10 萬、30 萬、50 萬、100 萬、300 萬和500 萬，數(shù)據(jù)集取自水利衛(wèi)星數(shù)據(jù)共享平臺流域機構(gòu)、典型省級信息資源目錄集成與服務(wù)系統(tǒng)開發(fā)項目的數(shù)據(jù)集以及第一次全國水利數(shù)據(jù)普查數(shù)據(jù)庫。

1)索引的創(chuàng)建。

本實驗設(shè)置1 個Namenode 節(jié)點，3 個Datanode節(jié)點，3 個map 任務(wù)與3 個reduce 任務(wù)的情況下，驗證隨著數(shù)據(jù)量的增加，對本地和并行方式下建立索引的效率影響，以及隨著節(jié)點數(shù)量的增多，對并行方式下建立索引的效率影響。本地構(gòu)建索引與并行方式構(gòu)建索引性能對比實驗結(jié)果如圖4 所示。

圖4 本地與并行方式建立索引效率對比圖

從圖4 中可以發(fā)現(xiàn)，當數(shù)據(jù)量小的時候，本地方式的處理效率更高些，因為運行MapReduce 程序時會有一定開銷，但當數(shù)據(jù)量到達5 000 時，并行處理方式的效率則開始高于本地的方式，而隨著數(shù)據(jù)量增大，并行處理方式的優(yōu)勢更為明顯。因此可以得知并行處理的效率在處理大數(shù)據(jù)量時具有一定的優(yōu)勢。

2)分布式語義擴展查詢。

本實驗?zāi)M用戶并發(fā)訪問請求，對總的數(shù)據(jù)量在20 G 的總索引文件進行分布式搜索實驗，實驗設(shè)置1個Namenode 節(jié)點，3 個Datanode 節(jié)點，3 個map 任務(wù)與3 個reduce 任務(wù)的情況下，并發(fā)請求數(shù)分別設(shè)置為1 萬、5 萬、10 萬、20 萬、50 萬、100 萬，測試高并發(fā)訪問請求，分析傳統(tǒng)單機環(huán)境下與本文提出的查詢模型下的查詢效果對比，實驗結(jié)果如圖5 所示。

圖5 查詢效率對比圖

從圖5 可以看出，本文提出的方法在并發(fā)訪問量增加的過程中，查詢時間增加得不是很明顯，能夠應(yīng)對較大的訪問并發(fā)量。而在傳統(tǒng)的集中式環(huán)境下，隨著并發(fā)訪問量的增加，查詢時間也隨之增大。實驗對比表明了本文提出的方法，在應(yīng)對大規(guī)模訪問請求時，系統(tǒng)整體的處理時間沒有出現(xiàn)特別大的波動。因為采用了hash 方法將訪問請求平均分發(fā)到不同節(jié)點，使得系統(tǒng)能夠保持負載均衡。

5 結(jié)束語

本文采用基于水利領(lǐng)域本體進行關(guān)鍵詞擴展的方式來構(gòu)建語義搜索，結(jié)合推理與計算本體間相似度的方式來擴展查詢關(guān)鍵詞，修改了Lucene 中的排序公式，將詞匯的權(quán)值作為語義信息加入到搜索結(jié)果的排序中，使得搜索排序結(jié)構(gòu)更符合用戶的搜索意圖，提高了查全率與查準率。與此同時，通過修改SequenceFile 的結(jié)構(gòu)，將元數(shù)據(jù)的相關(guān)信息合并到SequenceFile 中，作為MapReduce 的輸入，并行地解析XML 元數(shù)據(jù)與建立索引。解決了傳統(tǒng)集中式環(huán)境下對水利元數(shù)據(jù)建立索引存在的性能瓶頸，并提出分布式環(huán)境下語義擴展查詢的處理模型，解決了分布式環(huán)境下語義搜索的問題。但是本文主要考慮了關(guān)鍵詞或者關(guān)鍵詞的組合查詢，而針對更復(fù)雜的查詢，如范圍查詢等，考慮得并不是很充分，這也是下一步要解決的問題。

［1］水利部水利信息化工作領(lǐng)導(dǎo)小組辦公室.2012 年度中國水利信息化發(fā)展報告［M］.北京:中國水利水電出版社，2013.

［2］馮鈞，唐志賢，朱躍龍，等.水利信息資源目錄服務(wù)元數(shù)據(jù)定義研究［J］.水利信息化，2011(S1):19-22.

［3］Guha R，McCool R，Miller E.Semantic search［C］// Proceedings of the 12th International Conference on WorldWide Web.ACM，2003:700-709.

［4］Yu Xuejun，Lv Jing.Keywords semantic extension in semantic search model［C］// International Conference on Computer，Networks and Communication Engineering (ICCNCE 2013).Atlantis Press，2013.

［5］Armentano M G，Godoy D，Campo M，et al.NLP-based faceted search:Experience in the development of a science and technology search engine［J］.Expert Systems with Applications，2014，41(6):2886-2896.

［6］Tran T，Cimiano P，Rudolph S，et al.Ontology-based interpretation of keywords for semantic search［M］// The Semantic Web.Springer Berlin Heidelberg，2007:523-536.

［7］Qiu Yonggang，F(xiàn)rei H P.Concept based query expansion［C］// Proceedings of the 16th Annual International ACM SIGIR Conference on Research and Development in Information Retrieval.ACM，1993:160-169.

［8］Attar R，F(xiàn)raenkel A S.Local feedback in full-text retrieval systems［J］.Journal of the ACM (JACM)，1977，24(3):397-417.

［9］Mena E，Illarramendi A，Kashyap V，et al.OBSERVER:An approach for query processing in global information systems based on interoperation across pre-existing ontologies［J］.Distributed and Parallel Databases，2000，8(2):223-271.

［10］Khatchadourian S，Consens M P，Siméon J.Having a Chu-QL at XML on the Cloud［C］// A.Mendelzon International Workshop(AMW).2011.

［11］Shah B，Rao P R，Moon B，et al.A data parallel algorithm for XML DOM parsing［M］// Database and XML Technologies.Springer Berlin Heidelberg，2009:75-90.

［12］魏永山，張峰，陳欣，等.一種云計算環(huán)境下的XML 查詢數(shù)據(jù)服務(wù)的優(yōu)化方法［J］.計算機工程與科學(xué)，2013，35(6):30-36.

［13］Rada R，Mili H，Bichnell E，et al.Development and application of a metricon semantic nets［J］.IEEE Transactions on Systems，Man and Cybernetics，1989，9(1):17-30.

［14］Wu Zhibiao，Palmer M.Verb semantics and lexical selection［C］// Proceedings of the 32nd Annual Meeting of the Association for Computational Linguistics.1994:133-138.

［15］韓欣，樊永生，馬春森，等.基于樹狀結(jié)構(gòu)的語義相似度計算方法分析［J］.微電子學(xué)與計算機，2012，29(5):38-41.

［16］Choi I，Kim M.Topic distillation using hierarchy concept tree［C］// Proceedings of the 26th Annual International ACM SIGIR Conference on Research and Development in Information Retrieval.2003:371-372.

［17］曹叡，吳玲達.一種改進的領(lǐng)域本體語義相似度計算方法［J］.微電子學(xué)與計算機，2014，31(8):109-114.

99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看