基于卡方分布的高維數(shù)據(jù)相似性連接查詢算法

2016-07-19 20:39:39馬友忠賈世杰張永新

計(jì)算機(jī)應(yīng)用 2016年7期

馬友忠賈世杰張永新

摘要：為了解決高維數(shù)據(jù)相似性連接查詢中存在的維度災(zāi)難和計(jì)算代價(jià)高等問(wèn)題，基于p穩(wěn)態(tài)分布，將高維數(shù)據(jù)映射到低維空間。根據(jù)卡方分布的性質(zhì)，證明了如果低維空間的距離大于kε，則原始空間距離大于ε的概率具有一定的下界，從而可以在低維空間以較低的計(jì)算代價(jià)進(jìn)行有效過(guò)濾。在此基礎(chǔ)上，提出了基于卡方分布的高維數(shù)據(jù)相似性連接查詢算法。為了進(jìn)一步提高查詢效率，提出了基于雙重過(guò)濾的高維數(shù)據(jù)相似性連接查詢算法。利用真實(shí)數(shù)據(jù)集進(jìn)行了實(shí)驗(yàn)，實(shí)驗(yàn)結(jié)果表明所提方法具有較好的性能?；诳ǚ椒植嫉南嗨菩赃B接查詢算法召回率可以達(dá)到90%以上?；陔p重過(guò)濾的相似性連接查詢算法可以進(jìn)一步提高性能，但是會(huì)損失一定的召回率。對(duì)時(shí)間性能要求比較高、對(duì)召回率要求不太嚴(yán)格的查詢?nèi)蝿?wù)可以采用基于雙重過(guò)濾的相似性連接查詢算法；反之，可以采用基于卡方分布的相似性連接查詢算法。

關(guān)鍵詞：

相似性連接查詢；高維數(shù)據(jù)；卡方分布；p穩(wěn)態(tài)分布；召回率

中圖分類號(hào)： TP311.13 文獻(xiàn)標(biāo)志碼：A

0引言

高維數(shù)據(jù)相似性連接查詢是一種十分重要且應(yīng)用廣泛的操作，是許多數(shù)據(jù)挖掘、機(jī)器學(xué)習(xí)任務(wù)的基礎(chǔ)操作，如圖片聚類、視頻副本檢測(cè)、文檔去重等。由于維度災(zāi)難的存在，高維數(shù)據(jù)的相似性連接查詢面臨巨大挑戰(zhàn)，傳統(tǒng)的以樹形索引結(jié)構(gòu)為基礎(chǔ)的查詢算法已無(wú)法奏效。

經(jīng)過(guò)深入分析和推理，作者發(fā)現(xiàn)基于穩(wěn)態(tài)分布和卡方分布的特點(diǎn)，可以將數(shù)據(jù)從高維空間映射到低維空間，并且可以通過(guò)計(jì)算低維空間的距離來(lái)進(jìn)行過(guò)濾，同時(shí)保證如果低維空間的距離大于kε，則原始空間距離大于ε的概率具有一定的下界。本文基于該重要觀察提出了一種基于卡方分布的高維數(shù)據(jù)相似性連接查詢算法，主要貢獻(xiàn)如下：

1）提出了基于穩(wěn)態(tài)分布的降維方法，并證明了利用低維空間距離進(jìn)行過(guò)濾的概率下界，具有較好的過(guò)濾效果；

2）提出了基于卡方分布的相似性連接算法和基于雙重過(guò)濾的相似性連接查詢算法；

3）針對(duì)真實(shí)數(shù)據(jù)集做了深入細(xì)致的實(shí)驗(yàn)，對(duì)本文所提出的方案進(jìn)行了認(rèn)真分析。實(shí)驗(yàn)結(jié)果表明，本文所提方案具有較好的性能。

1相關(guān)工作

目前已經(jīng)有很多學(xué)者對(duì)相似性連接查詢工作進(jìn)行了深入研究，出現(xiàn)了很多有代表性的學(xué)術(shù)成果。龐俊等[1-2]對(duì)相似性連接查詢關(guān)鍵技術(shù)進(jìn)行了全面綜述，對(duì)不同數(shù)據(jù)類型（字符串、集合、向量、圖）、不同查詢類型（閾值連接查詢、KNN（KNearest Neighbors）連接查詢、Topk連接查詢）和不同計(jì)算模式（集中模式、并行模式）的算法進(jìn)行了深入、細(xì)致分析。

文獻(xiàn)[3]提出了一種基于εKDB（KDimensional Btree）的高維數(shù)據(jù)相似性連接查詢算法。其核心思想是基于選定的某個(gè)維度，將全部數(shù)據(jù)劃分成等寬（ε）的部分，每個(gè)葉子節(jié)點(diǎn)僅與相鄰的兩個(gè)節(jié)點(diǎn)進(jìn)行連接操作。為了保證運(yùn)行的效率，該算法要求有足夠的內(nèi)存空間來(lái)存儲(chǔ)相鄰節(jié)點(diǎn)的數(shù)據(jù)。

文獻(xiàn)[4]提出了EGO（Epsilon Grid Order）方法，可以用來(lái)處理大規(guī)模高維數(shù)據(jù)的相似性連接查詢。該方法將整個(gè)數(shù)據(jù)空間劃分成等寬（ε）的若干個(gè)格子，并按照一定的機(jī)制將所有的格子進(jìn)行編號(hào)排序，最后采取一定的算法對(duì)這些格子內(nèi)的數(shù)據(jù)進(jìn)行一一比較。由于該方法不需要額外的內(nèi)存來(lái)存儲(chǔ)索引結(jié)構(gòu)，因此具有較好的擴(kuò)展性。

文獻(xiàn)[5]在EGO[4]的基礎(chǔ)上提出了一種改進(jìn)算法——SuperEGO。該算法主要采用基于數(shù)據(jù)驅(qū)動(dòng)的維度重排序機(jī)制，設(shè)計(jì)了一種新穎的EGO策略，能夠大大地減少不必要的計(jì)算；同時(shí)也開(kāi)發(fā)了并行版本，具有較好的執(zhí)行效率。

隨著數(shù)據(jù)規(guī)模的增加，單機(jī)算法無(wú)法有效處理海量高維數(shù)據(jù)的相似性連接查詢問(wèn)題，因此，有一些學(xué)者嘗試基于MapReduce并行計(jì)算框架[6]來(lái)解決該問(wèn)題。文獻(xiàn)[7]提出了一種基于網(wǎng)格劃分的大規(guī)模向量相似性連接方法。該方法的主要思想是：首先對(duì)數(shù)據(jù)進(jìn)行等寬的網(wǎng)格劃分；然后根據(jù)幾何性質(zhì)，對(duì)于選定的某個(gè)網(wǎng)格，確定需要與其進(jìn)行比較的其他網(wǎng)格；在選擇待比較網(wǎng)格的過(guò)程中，作者提出了一系列優(yōu)化、過(guò)濾方案，大大減少了重復(fù)比較的次數(shù)。該方法具有良好的并行特性，很容易在MapReduce框架下實(shí)現(xiàn)；但是該算法也有較大的局限性，一旦維度過(guò)高，性能會(huì)急劇下降。

為了解決文獻(xiàn)[7]中存在的問(wèn)題，文獻(xiàn)[8]又提出了一種新的基于MapReduce的連接方案——PHiDJ（Parallel HighDimensional Join）。為了克服維度增加帶來(lái)的性能急劇下降缺點(diǎn)，PHiDJ首先提出了維度劃分方案。基本思想是將所有維度按照一定的規(guī)則劃分成若干個(gè)子空間，然后針對(duì)每個(gè)子空間，再重新執(zhí)行文獻(xiàn)[7]中的算法；同時(shí)，為了解決均勻劃分可能存在的數(shù)據(jù)傾斜問(wèn)題，文獻(xiàn)[8]提出了變長(zhǎng)的網(wǎng)格劃分方案，其性能得到了極大的提高。

文獻(xiàn)[9]基于時(shí)間序列中的分段累積近似法（Piecewise Aggregate Approximation， PAA）提出了一種新的降維方法，可以將高維數(shù)據(jù)降到低維空間，并且低維空間的距離是原始距離的下界?；谠撔再|(zhì)，可以以較低的代價(jià)進(jìn)行有效過(guò)濾。同時(shí)，作者將該技術(shù)并行化，提出了兩種基于MapReduce框架的并行連接查詢算法，能夠有效地處理大規(guī)模高維數(shù)據(jù)。

文獻(xiàn)[10]提出了一種基于泰森多邊形的高維數(shù)據(jù)KNN連接解決方案。Zhang等[11]基于線性化技術(shù)，在MapReduce框架下提出了一種近似的高維數(shù)據(jù)KNN連接查詢方案。

除了上述基于歐幾里得距離的高維數(shù)據(jù)相似性連接查詢工作外，還有很多針對(duì)其他類型數(shù)據(jù)的并行相似性連接查詢算法，如集合相似性連接查詢[12-16]、空間數(shù)據(jù)相似性連接查詢[17]、概率數(shù)據(jù)相似性連接查詢[18-19]等。這些算法雖然不能直接用來(lái)解決高維數(shù)據(jù)的相似性連接查詢問(wèn)題，但仍具有重要的借鑒意義。

2預(yù)備知識(shí)

2.1問(wèn)題定義

定義1相似性連接查詢。給定兩個(gè)數(shù)據(jù)集合Q和S，分別包含n1和n2個(gè)來(lái)自d維歐幾里得空間Rd的點(diǎn)。距離函數(shù)為dist，距離閾值為ε，Q和S的相似性連接查詢就是找到所有距離小于或等于ε的數(shù)據(jù)對(duì)，即：Q∞S={〈q，s〉|q∈Q，s∈S，dist（q，s）≤ε}。其中：Q={q1，q2，…，qn1}，S={s1，s2，…，sn2}，qi此處的qi是矢量、向量或矩陣嗎？請(qǐng)明確。是集合Q中的第i個(gè)數(shù)據(jù)點(diǎn)，qi=〈qi1，qi2，…，qid〉，兩個(gè)d維的數(shù)據(jù)點(diǎn)qi和sj的歐幾里得距離dist定義為：

2.2p穩(wěn)態(tài)分布與卡方分布

定義2p穩(wěn)態(tài)分布。對(duì)于一個(gè)分布D，如果存在p≥0，對(duì)任何d個(gè)實(shí)數(shù)v1，v2，…，vd和d個(gè)滿足D分布的獨(dú)立同分布的變量X1，X2，…，Xd，隨機(jī)變量∑iviXi與（∑di=1vpi）1/pX具有相同的分布，其中X是服從D分布的一個(gè)隨機(jī)變量，則稱D是一個(gè)p穩(wěn)態(tài)分布。

當(dāng)p∈（0，2]時(shí)都存在p穩(wěn)態(tài)分布，當(dāng)p=2時(shí)，高斯分布（即正態(tài)分布）就是2穩(wěn)態(tài)分布。

根據(jù)定義2可知，基于p穩(wěn)態(tài)分布可以對(duì)高維向量進(jìn)行有效的近似，并且能夠在保持原始距離的同時(shí)，對(duì)高維向量進(jìn)行降維。其核心思想是：產(chǎn)生一個(gè)d維的隨機(jī)向量a，隨機(jī)向量a的每一個(gè)元素都服從p穩(wěn)態(tài)分布。對(duì)于一個(gè)d維的向量v，由定義2可知，隨機(jī)變量a·v與（∑di=1vpi）1/pX具有相同的分布，因此可以用a·v來(lái)估算向量v的長(zhǎng)度‖v‖p。本文的主要目的并不是用來(lái)估算向量的長(zhǎng)度，而是通過(guò)p穩(wěn)態(tài)分布對(duì)原始高維向量進(jìn)行降維，用降維后兩個(gè)向量之間的距離來(lái)估算原始高維向量之間的距離，從而實(shí)現(xiàn)以較低的計(jì)算代價(jià)來(lái)進(jìn)行過(guò)濾。

定義3卡方分布。如果X1，X2，…，Xm是服從標(biāo)準(zhǔn)正態(tài)分布N（0，1）的獨(dú)立、同分布隨機(jī)變量，令S2=∑mi=1X2i，則S2服從自由度為m的卡方分布，記為：S2～χ2（m）。

2.3常用符號(hào)說(shuō)明

常用符號(hào)說(shuō)明如表1所示。

3基于卡方分布的相似性連接查詢

3.1相關(guān)定理

令g（v）=v·a，其中向量a的每一個(gè)元素都是服從標(biāo)準(zhǔn)正態(tài)分布N（0，1）的獨(dú)立、同分布隨機(jī)變量。可得如下引理。

引理1對(duì)任意兩個(gè)d維向量v1，v2∈Rd，則g（v1）-g（v2）服從正態(tài)分布N（0，dist2（v1，v2））。

定理2的含義是：如果向量v1，v2的m維映射的距離大于kε，則v1和v2的歐氏距離大于ε的概率大于1-P（χ2>k2）?；谠撔再|(zhì)，可以將高維向量v1，v2映射到低維空間內(nèi)，通過(guò)計(jì)算低維空間的距離來(lái)進(jìn)行過(guò)濾，從而降低過(guò)濾的計(jì)算代價(jià)。

3.2基于卡方分布的相似性連接查詢

基于定理2，可以得到基于卡方分布的相似性連接查詢方案，處理框架如圖1所示。

處理流程主要分為3個(gè)階段：第1階段是降維，主要任務(wù)是利用m個(gè)隨機(jī)向量a1，a2，…，am根據(jù)文中的描述，此處a1，a2，…，am是否應(yīng)該是矢量、向量或矩陣？請(qǐng)明確。，與原始d維向量v進(jìn)行點(diǎn)積運(yùn)算，從而將向量v從d維空間降低到m維空間；第2階段是過(guò)濾階段，該階段在m維空間內(nèi)計(jì)算兩個(gè)向量之間的距離，根據(jù)定理2，如果Δm（v1，v2）>kε，則就把〈v1，v2〉過(guò)濾掉；第3階段是驗(yàn)證階段，由于通過(guò)過(guò)濾階段的候選對(duì)不一定滿足查詢要求，因此需要在該階段計(jì)算候選對(duì)的原始?xì)W氏距離，據(jù)此進(jìn)行最后的判斷。詳細(xì)執(zhí)行過(guò)程如算法1所示。

算法1基于卡方分布的相似性連接算法。

有序號(hào)的程序——————————Shift+Alt+Y

程序前

輸入：S，n，ε，m，此處有5個(gè)變量，但后面的說(shuō)明中卻只有4個(gè)，是否說(shuō)明有遺漏？請(qǐng)明確?；貜?fù)：是新向量集合，在算法第1）行已有說(shuō)明，為排版美觀，在這沒(méi)有再作說(shuō)明。//數(shù)據(jù)集合、數(shù)據(jù)規(guī)模、距離閾值、映射空間維度

輸出：相似向量對(duì)和距離。

1）

=，Q=；//新向量集合和結(jié)果集合

2）

隨機(jī)選擇m個(gè)向量a1，a2，…，am，e∈ai～N（0，1）；

3）

對(duì)于S中的每一個(gè)向量v

4）

計(jì)算πm（v）=〈g1（v），g2（v），…，gm（v）〉；

5）

← 〈πm（v），v〉；//映射向量和原始向量組合成新的向量集合

6）

對(duì)于中的每一個(gè)向量對(duì)（1，2）

7）

計(jì)算映射空間距離Δm（πm（v1），πm（v2））；

8）

如果 Δm（πm（v1），πm（v2））≤kε//過(guò)濾

9）

計(jì)算原始距離dist（v1，v2）；

10）

如果 dist（v1，v2）≤ε

11）

Q ← 〈（v1，v2），dist（v1，v2）〉；

12）

輸出結(jié)果集合Q；

程序后

3.3基于雙重過(guò)濾的相似性連接查詢

定理 3如果Δm（v1，v2）>kε，則出現(xiàn)偽正例的概率小于或等于：1-P（χ2>k2），即：P（dist（v1，v2）≤ε）≤1-P（χ2>k2）。

證明過(guò)程如定理2。

由定理2可知，如果Δm（v1，v2）>kε，則成功過(guò)濾的概率下界是1-P（χ2>k2）。一般情況下，為了增強(qiáng)過(guò)濾效果，1-P（χ2>k2）的值會(huì)取得比較大，如90%；但是，這種情況下，出現(xiàn)偽正例的概率上界也是90%，即出現(xiàn)偽正例的概率可能會(huì)比較大。由此分析可以得出，在k值固定的情況下，過(guò)濾效果的下界和偽正例的上界存在矛盾。為了既能夠保證較好的過(guò)濾效果，又能夠降低偽正例的概率上界，可以采用雙重過(guò)濾算法，即第1次過(guò)濾采用過(guò)濾條件Δm（v1，v2）>k1ε，第2次過(guò)濾采用過(guò)濾條件Δm（v1，v2）>k2ε，且k1>k2。這樣就可以達(dá)到同時(shí)降低偽反例和偽正例的效果。

4實(shí)驗(yàn)分析

本章將對(duì)提出的基于卡方分布的相似性連接查詢（chisquare distributionbased Similarity Join Query， χ2SJQ）算法和基于雙重過(guò)濾的相似性連接查詢（Similarity Join Query based on Double Filtering DFχ2SJQ）算法與嵌套循環(huán)連接（Nested Loop Join， NLJ）算法對(duì)比進(jìn)行實(shí)驗(yàn)驗(yàn)證。驗(yàn)證指標(biāo)主要包括算法運(yùn)行時(shí)間（run time）和召回率（recall）。由于最終的結(jié)果都經(jīng)過(guò)驗(yàn)證階段，所以準(zhǔn)確率（precision）為100%。

4.1實(shí)驗(yàn)環(huán)境設(shè)置

實(shí)驗(yàn)環(huán)境實(shí)驗(yàn)運(yùn)行的計(jì)算機(jī)配置如下：CPU為Intel Core i54210H 2.90GHz，內(nèi)存為8GB，磁盤為1TB，操作系統(tǒng)為64bit Windows 7。實(shí)驗(yàn)中的相關(guān)參數(shù)如表2所示，加下劃線的數(shù)字表示默認(rèn)值。

4.2距離閾值變化（ε）

圖2顯示了距離閾值的變化對(duì)運(yùn)行時(shí)間和召回率的影響。從圖2中可以看出，在距離閾值小于0.3時(shí)，算法 χ2SJQ和算法DFχ2SJQ的性能差別不大；但是，隨著距離閾值的增大，結(jié)果數(shù)量也會(huì)急劇增加，此時(shí)，算法DFχ2SJQ的性能更好；但是，算法DFχ2SJQ的性能是以犧牲一定的召回率來(lái)?yè)Q得的，因此，實(shí)際應(yīng)用中需要在運(yùn)行時(shí)間和召回率之間進(jìn)行適當(dāng)?shù)臋?quán)衡。

4.3維度變化（d）

圖3顯示了算法性能與向量維度之間的關(guān)系。直觀上分析，隨著維度的增加，運(yùn)行時(shí)間應(yīng)該增大；但是，從圖3中看出，部分節(jié)點(diǎn)出現(xiàn)異常。通過(guò)對(duì)結(jié)果進(jìn)行深入分析發(fā)現(xiàn)，實(shí)驗(yàn)中統(tǒng)計(jì)的運(yùn)行時(shí)間包括計(jì)算時(shí)間和把運(yùn)行結(jié)果寫入文件的時(shí)間。維度越大，計(jì)算時(shí)間肯定越大；但是數(shù)據(jù)寫入花費(fèi)的時(shí)間卻不一定。從實(shí)驗(yàn)結(jié)果看出，d=256時(shí)，結(jié)果數(shù)據(jù)量分別是425551814，421966225和393140173；而d=960時(shí)，最終的計(jì)算結(jié)果數(shù)量分別是4444884，4190456和2704272，因此，才會(huì)出現(xiàn)圖3中所示的情況。

4.4數(shù)據(jù)集大小變化（n）

圖4顯示了數(shù)據(jù)集大小對(duì)算法性能的影響。從圖4可以看出，隨著數(shù)據(jù)集的增大，3種算法的運(yùn)行時(shí)間都不斷增加，嵌套循環(huán)連接（Nested Loop Join， NLJ算法增加最快，算法DFχ2SJQ增加最為緩慢，并且性能最好；但是其召回率也低于算法χ2SJQ。

4.5映射空間維度變化（m）

圖5描述了映射空間維度對(duì)算法性能的影響。整體來(lái)看，映射空間維度越大，算法DFχ2SJQ的運(yùn)行時(shí)間也會(huì)越長(zhǎng)，而算法χ2SJQ的運(yùn)行時(shí)間卻逐步下降，但仍大于前者。

4.6過(guò)濾效果概率下界對(duì)性能的影響

圖6顯示了過(guò)濾效果下界對(duì)算法性能的影響。從運(yùn)行結(jié)果可以看出，隨著概率下界的逐漸增大，算法χ2SJQ的執(zhí)行時(shí)間有明顯的增加，而算法DFχ2SJQ的執(zhí)行時(shí)間相對(duì)比較平穩(wěn)，但是后者的召回率普遍低于前者的召回率。

5結(jié)語(yǔ)

高維數(shù)據(jù)的相似性連接查詢是一種計(jì)算代價(jià)較高的操作。本文基于p穩(wěn)態(tài)分布，將原始d維數(shù)據(jù)映射到m維（m

未來(lái)將對(duì)本文方案作進(jìn)一步的優(yōu)化：目前在m維空間進(jìn)行距離計(jì)算的時(shí)候，采取的是窮舉法，即所有的m維向量?jī)蓛蛇M(jìn)行比較，未來(lái)可以對(duì)m維空間（低維空間）的距離計(jì)算進(jìn)行優(yōu)化；另外，本文所處理的數(shù)據(jù)集規(guī)模比較有限，未來(lái)將結(jié)合目前流行的云計(jì)算平臺(tái)，重點(diǎn)研究并行化方案，用于處理大規(guī)模數(shù)據(jù)集的相似性連接查詢；同時(shí)，未來(lái)還將對(duì)其他類型的相似性連接查詢問(wèn)題進(jìn)行研究，如KNN連接查詢、Topk連接查詢等。

參考文獻(xiàn)：

[1]

龐俊，谷峪，許嘉，等.相似性連接查詢技術(shù)研究進(jìn)展[J].計(jì)算機(jī)科學(xué)與探索，2013，7（1）：1-13.（PANG J， GU Y， XU J， et al. Research advance on similarity join queries [J]. Journal of Frontiers of Computer Science and Technology， 2013， 7（1）： 1-13.）

[2]

龐俊，于戈，許嘉，等.基于MapReduce框架的海量數(shù)據(jù)相似性連接研究進(jìn)展[J].計(jì)算機(jī)科學(xué)，2015，42（1）：1-5.（PANG J， YU G， XU J， et al. Similarity joins on massive data based on MapReduce framework [J]. Computer Science， 2015， 42（1）： 1-5.）

[3]

SHIM K， SRIKANT R， AGRAWAL R. Highdimensional similarity joins [J]. IEEE Transactions on Knowledge and Data Engineering， 2002， 14（1）： 156-171.

[4]

BHM C， BRAUNMLLER B， KREBS F， et al. Epsilon grid order： an algorithm for the similarity join on massive highdimensional data [C]// Proceedings of the 2015 ACM SIGMOD International Conference on Management of Data. New York： ACM， 2001： 379-388.

[5]

KALASHNIKOV D. SuperEGO： fast multidimensional similarity join [J]. The VLDB Journal， 2013， 22（4）： 561-585.

[6]

DEAN J， GHEMAWAT S. MapReduce： simplified data processing on large clusters [C]// Proceedings of the 6th USENIX Symposium on Operating Systems Design and Implementation. San Francisco： USENIX Association， 2004： 137-150.

[7]

SEIDL T， FRIES S， BODEN B. MRDSJ： distancebased selfjoin for largescale vector data analysis with MapReduce [C]// Proceedings of the 15th BTW Conference on Database Systems for Business， Technology， and Web. Berlin： Springer， 2013： 37-56.

[8]

FRIES S， BODEN B， STEPIEN G， et al. PHiDJ： parallel similarity selfjoin for highdimensional vector data with MapReduce [C]// Proceedings of the 30th IEEE International Conference on Data Engineering. Piscataway， NJ： IEEE， 2014： 796-807.

[9]

LUO W， TAN H， MAO H， et al. Efficient similarity joins on massive highdimensional datasets using MapReduce [C]// Proceedings of the 13th IEEE International Conference on Mobile Data Management. Piscataway， NJ： IEEE， 2012： 1-10.

[10]

LU W， SHEN Y， CHEN S， et al. Efficient processing of k nearest neighbor joins using MapReduce [J]. Proceedings of the VLDB Endowment， 2012， 5（10）： 1016-1027.

[11]

ZHANG C， LI F， JESTES J. Efficient parallel kNN joins for large data in MapReduce [C]// Proceedings of the 15th International Conference on Extending Database Technology. New York： ACM， 2012： 38-49.

[12]

VERNICA R， CAREY M， LI C. Efficient parallel setsimilarity joins using MapReduce [C]// Proceedings of the ACM SIGMOD International Conference on Management of Data. New York： ACM， 2010： 495-506.

[13]

RONG C， LU W， WANG X， et al. Efficient and scalable processing of string similarity join [J]. IEEE Transactions on Knowledge and Data Engineering， 2013， 25（10）： 2217-2230.

[14]

ELSAYED T， LIN J， OARD D. Pairwise document similarity in large collections with MapReduce [C]// Proceedings of the 46th Annual Meeting of the Association for Computational Linguistics. Stroudsburg， PA： Association for Computer Linguistics， 2008： 265-268.

[15]

METWALLY A， FALOUTSOS C. VSMARTJoin： a scalable MapReduce framework for allpair similarity joins of multisets and vectors [C]// Proceedings of the VLDB Endowment， 2012， 5（8）： 704-715.

[16]

BARAGLIA R， MORALES G， LUCCHESE C. Document similarity selfjoin with MapReduce [C]// Proceedings of the 10th IEEE International Conference on Data Mining. Piscataway， NJ： IEEE， 2010： 731-736.

[17]

劉義，陳犖，景寧，等.海量空間數(shù)據(jù)的并行Topk連接查詢[J].計(jì)算機(jī)研究與發(fā)展，2011，48（z2）：163-172.（LIU Y， CHEN L， JING N， et al. Parallel topk spatial join query processing on massive spatial data [J]. Journal of Computer Research and Development， 2011， 48（z2）： 163-172.）

[18]

雷斌，許嘉，谷峪，等.概率數(shù)據(jù)上基于EMD距離的并行Topk相似性連接算法[J].軟件學(xué)報(bào)，2013，24（S2）：188-199.（LEI B， XU J， GU Y， et al. Parallel topk similarity join algorithm on large probabilistic data based on earth movers distance [J]. Journal of Software， 2013， 24（S2）： 188-199.）

[19]

HUANG J， ZHANG R， BUYYA R， et al. MELODYJOIN： efficient earth movers distance similarity joins using MapReduce [C]// Proceedings of the 30th IEEE International Conference on Data Engineering. Piscataway， NJ： IEEE， 2014： 808-819.