• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      多數(shù)據(jù)源中局部模式挖掘研究

      2013-09-28 04:57:18林耀進胡學鋼
      關鍵詞:數(shù)據(jù)源度量全局

      林耀進, 胡學鋼

      (1.合肥工業(yè)大學 計算機與信息學院,安徽 合肥 230009;2.漳州師范學院 計算機科學與工程系,福建 漳州 363000)

      0 引 言

      隨著網(wǎng)絡通信技術與分布式數(shù)據(jù)庫技術的不斷發(fā)展與應用,連鎖經(jīng)營的大型企業(yè)所屬的子公司數(shù)量不斷增加,大型企業(yè)一般將數(shù)據(jù)庫存放在相應的子公司,總公司在數(shù)據(jù)匯總分析時,需要數(shù)據(jù)挖掘系統(tǒng)能夠對不同子公司數(shù)據(jù)庫的情況采取相應策略,從而涉及多數(shù)據(jù)源挖掘問題。因此,有效地從多數(shù)據(jù)源中提取有用的信息為各種決策提供服務是數(shù)據(jù)挖掘領域的一個研究熱點。

      多數(shù)據(jù)源挖掘是一項艱巨的任務,主要面臨以下困難:① 數(shù)據(jù)格式的異構性。現(xiàn)實中如云計算環(huán)境下的數(shù)據(jù)結構存在多樣性,同時數(shù)據(jù)庫中也可能存在噪聲,因此,在挖掘前需要對數(shù)據(jù)進行預處理。② 數(shù)據(jù)庫容量過大。多數(shù)據(jù)源挖掘不僅面臨多個局部數(shù)據(jù)庫,而且存在局部數(shù)據(jù)庫容量過大的情況,利用并行技術進行挖掘需要對硬件和軟件進行升級,耗資過大。③ 數(shù)據(jù)隱私性。局部數(shù)據(jù)庫提供原始數(shù)據(jù)進行全局挖掘,有可能導致數(shù)據(jù)隱私的泄露。因此,設計一套合適有效的多數(shù)據(jù)源挖掘方法需要對實際應用進行分析。

      多數(shù)據(jù)源挖掘存在于多個研究領域中,許多學者針對不同的實際需求,給出了相應的挖掘技術。為解決全局查詢無法直接查詢異構數(shù)據(jù)源問題,文獻[1]提出將全局查詢分解為針對異構數(shù)據(jù)源子查詢的解決方案;文獻[2]針對相同應用背景下多數(shù)據(jù)源模式的集成問題進行了研究,提出一種基于用戶使用信息的多模式集成方法;文獻[3]給出了 WoRLD(Worldwide Relational Learning Daemon)系統(tǒng),該系統(tǒng)利用傳播活動從網(wǎng)絡中分布的多數(shù)據(jù)源進行歸納學習;文獻[4]為了減少從多數(shù)據(jù)源中搜索信息的時間,根據(jù)相關應用對數(shù)據(jù)庫進行了劃分,使搜索信息更有針對性,且降低了搜索時間;為了從分布式數(shù)據(jù)庫中挖掘定量關聯(lián)知識,文獻[5]提出了一種從分布式數(shù)據(jù)源中挖掘自適應的比例規(guī)則;文獻[6]通過設定時間窗口,挖掘與事件序列發(fā)生時間有關的多領域序列模式;文獻[7]提出了基于局部模式分析的多數(shù)據(jù)源挖掘方法,局部模式分析方法是指根據(jù)局部數(shù)據(jù)庫提供的局部規(guī)則進行合成以產(chǎn)生全局規(guī)則,并不需要將局部數(shù)據(jù)庫中的數(shù)據(jù)進行集成后統(tǒng)一挖掘,降低了挖掘時間、減輕了對硬件設備的依賴、保護了數(shù)據(jù)的隱私性,是一種有效的多數(shù)據(jù)源挖掘方法;文獻[8]從多數(shù)據(jù)源劃分、模式合成等方面對基于局部模式分析的多數(shù)據(jù)源挖掘方法進行了分析與改進。目前,對于多數(shù)據(jù)源模式挖掘,主要可歸類為傳統(tǒng)數(shù)據(jù)挖掘方法、并行技術挖掘方法與局部模式分析挖掘方法等3種方法。

      傳統(tǒng)的數(shù)據(jù)挖掘方法[7]是將所有局部數(shù)據(jù)庫的數(shù)據(jù)集成到單一數(shù)據(jù)庫,采用Apriori、FP-growth等傳統(tǒng)算法進行挖掘。該方法雖能有效地提取有趣的全局模式,但存在以下缺點:① 局部數(shù)據(jù)庫之間存在數(shù)據(jù)特征不一致性,如格式差異、數(shù)據(jù)沖突等;② 集成后的數(shù)據(jù)庫容量太大,對計算機軟硬件要求較高;③ 無法挖掘局部模式,不能為子公司制定決策;④ 數(shù)據(jù)隱私性,子公司可能不愿提供原始數(shù)據(jù)。

      并行技術挖掘方法[9-10]利用并行技術將挖掘任務分布在大量相連的計算機上,能夠很好地對分布于不同位置的數(shù)據(jù)庫進行挖掘。但是,并行技術挖掘存在著對軟硬件要求較高,面臨隱私泄露、數(shù)據(jù)異構難以挖掘等問題。另外,傳統(tǒng)的數(shù)據(jù)挖掘方法不能在并行技術環(huán)境中使用。

      文獻[11-13]根據(jù)大型連鎖超市需要從所有子公司的交易數(shù)據(jù)庫提取全局模式以制定全局決策的需求,設計了僅依靠局部數(shù)據(jù)庫提供局部模式就可以獲取全局模式的方法,稱之為局部模式分析法。局部模式分析法解決了傳統(tǒng)數(shù)據(jù)挖掘方法和并行技術方法所面臨的問題,其具體流程如圖1所示。該方法有效地保護了數(shù)據(jù)隱私性,降低了數(shù)據(jù)量,獲得的模式可以為子公司和總部提供決策。

      圖1 局部模式分析多數(shù)據(jù)源挖掘流程

      1 多數(shù)據(jù)源的劃分

      數(shù)據(jù)源之間由于存在著主題不一致、數(shù)據(jù)格式不同、數(shù)據(jù)的組織結構多樣性等差異,所以對多數(shù)據(jù)源進行挖掘之前必須對數(shù)據(jù)進行預處理,其中,為了降低從大量數(shù)據(jù)源中搜索數(shù)據(jù)所需的時間以及減少對全局決策沒有價值的數(shù)據(jù),需要對多數(shù)據(jù)源進行劃分,文獻[14-15]討論了與應用相關的多數(shù)據(jù)源劃分方法,所提出的方法有效地縮減了大數(shù)據(jù)集的容量,但是在沒有額外信息情況下,劃分效果不佳;文獻[16]針對數(shù)據(jù)共享環(huán)境多數(shù)據(jù)源選擇問題,基于Pareto最優(yōu)理論提出了多數(shù)據(jù)源選擇方法,該方法有效地縮小了搜索空間;文獻[17]針對事務數(shù)據(jù)庫,提出了一種有效獨立于應用的數(shù)據(jù)庫劃分方法,其主要思想為:如果2個事務數(shù)據(jù)庫擁有大量相同的數(shù)據(jù)項,則2個數(shù)據(jù)庫相似程度較高。

      多數(shù)據(jù)源劃分問題描述為:給定m個來自于不同子公司的數(shù)據(jù)源,即 D={D1,D2,…,Dm},根據(jù)數(shù)據(jù)源之間的相似性,設計搜索最優(yōu)劃分的有效算法對D中m個數(shù)據(jù)源進行劃分。由此可以看出,有效的數(shù)據(jù)源之間相似性的度量方式能夠對數(shù)據(jù)源更精確地劃分。目前,存在以下幾種度量數(shù)據(jù)源相似性的方法。

      (1)根據(jù)數(shù)據(jù)源所包含相同數(shù)據(jù)項的度量方法[17],其公式為:

      其中,Items(Di)為數(shù)據(jù)源Di擁有數(shù)據(jù)項的集合;|·|為集合的基數(shù),下同。

      (2)根據(jù)數(shù)據(jù)源得到模式所包含相同數(shù)據(jù)項的度量方法[17-19],有3種情形,其公式為:

      其中,Si為數(shù)據(jù)源Di產(chǎn)生的模式;Items(Si)為Si模式集合中所有數(shù)據(jù)項的集合。

      其中,sim3(Di,Dj,α)為滿足支持度α下數(shù)據(jù)源Di與Dj的相似度度量方法;FIS(Di)表示從數(shù)據(jù)源Di提取滿足支持度為α的頻繁項集數(shù)量。

      其中,sup p(X,Di)為頻繁項集X在數(shù)據(jù)源Di中的支持度。

      文獻[18]對(1)式、(2)式進行詳細分析,指出擁有大量相同數(shù)據(jù)項的數(shù)據(jù)源,其相似程度并不一定高,認為對多數(shù)據(jù)源進行知識提取時要考慮數(shù)據(jù)源的特性,該特性取決于其頻繁項集,因為頻繁項集反映了顧客的購買行為,即反映了數(shù)據(jù)源的特點,因此提出了(3)式和(4)式2種度量方法。由(4)式可看出,度量方法更加合理,因為每個頻繁項集的支持度可以被認為其在數(shù)據(jù)源中的權重,(3)式度量方法認為頻繁項集的權重都為1,而(4)式選取兩數(shù)據(jù)源共有的頻繁項集的最小支持度作為分子,最大支持度作為分母,更加合理地度量數(shù)據(jù)源之間的相似性。

      在度量完數(shù)據(jù)源之間相似性后,設計一種對多數(shù)據(jù)源搜索最優(yōu)劃分的算法,其步驟為:

      (1)給定閾值α,對數(shù)據(jù)源進行劃分,即

      其中,d與d′滿足α相關;D為所有數(shù)據(jù)源集合;classα為兩兩之間相似度大于α的數(shù)據(jù)源集合。

      根據(jù)以上劃分過程,文獻[17]設計了相應的算法,其中GreedyClass算法對數(shù)據(jù)源進行劃分,BestClassification算法從所有劃分中尋找最優(yōu)劃分。雖然該方法能很好地劃分數(shù)據(jù)源,但GreedyClass算法的時間復雜度為O(n2m2+m4),其中n為數(shù)據(jù)源中項的個數(shù),m為數(shù)據(jù)源的數(shù)量。隨著數(shù)據(jù)源數(shù)量的增加,該算法顯得低效。為此,文獻[19]設計一種新的數(shù)據(jù)劃分算法completeclass,將時間復雜度降低至O(m3)。

      2 有趣模式研究

      相對于傳統(tǒng)地將局部數(shù)據(jù)庫匯總到統(tǒng)一數(shù)據(jù)庫中進行挖掘的方法,基于局部模式分析的多數(shù)據(jù)源挖掘不僅挖掘單個數(shù)據(jù)源得到局部模式,而且綜合局部模式得到全局模式,有效地為各級決策提供依據(jù)。另外,對局部私有數(shù)據(jù)的安全性、局部數(shù)據(jù)源的完整性和獨立性也起到了保護作用。有趣模式發(fā)現(xiàn)問題描述如下。

      給定m個來自于不同子公司的數(shù)據(jù)源,即D1,D2,…,Dm,LIi表示從局部數(shù)據(jù)源Di中獲取的模式集,本問題在從所有局部模式(∪LIi)中發(fā)現(xiàn)有趣的模式。文獻[7]將多數(shù)據(jù)源中的模式分為以下5種:

      (1)局部模式,即子公司數(shù)據(jù)源中挖掘出來的模式。

      (2)高選票模式,指大部分子公司數(shù)據(jù)源共有的模式與規(guī)律,總公司可依據(jù)該模式制定維護大多數(shù)子公司的共同利益的經(jīng)營策略。

      (3)例外模式,指在個別數(shù)據(jù)庫中具有較高的支持度,而在其他數(shù)據(jù)庫中具有零支持度(即不被其他數(shù)據(jù)庫支持)的模式,總公司可因地制宜為少數(shù)公司制定相應的決策策略。

      (4)推薦模式,該模式的選票率小于給定的最小選票率,但又很接近最小選票率,有時這類模式對決策很有用。

      (5)全局模式,指將所有局部數(shù)據(jù)庫合成一個全局數(shù)據(jù)庫,再從全局數(shù)據(jù)庫挖掘出的模式。

      由于例外模式比其他4種模式在信用卡欺詐檢測、公司經(jīng)營決策等方面具有更重要的作用,為了從局部模式中尋找有趣的例外模式,文獻[20]提出了2種例外模式興趣度量方法,分別為:

      (1)第1種興趣度量,即

      其中,voting(rj)為模式rj的選票率(包含模式rj數(shù)據(jù)庫的數(shù)量與所有數(shù)據(jù)庫數(shù)量之比);average(VR)為所有模式的平均選票率。該度量主要用來度量模式rj在所有數(shù)據(jù)庫中的支持率。

      (2)第2種興趣度量,即

      其中,sup pi,j為模式rj在數(shù)據(jù)庫Di的支持度;minsup pi為所有模式在數(shù)據(jù)庫Di中最低的支持度。該度量主要用來度量模式rj在數(shù)據(jù)庫Di的支持度。

      根據(jù)上述2種度量方法的定義可知,若一個模式同時滿足 EPI(r)≥ min EP與 RIi(r)≥min EPsup,其中min EP、min EPsup 為 用戶 自定義的2個閾值,則該模式稱為例外模式。(7)式從投票率對模式進行度量,(8)式從支持度對模式進行度量,當面對多數(shù)據(jù)源容量大小不一致時,若模式在數(shù)據(jù)源容量低的支持率高,在數(shù)據(jù)源容量高的投票率低,從銷售經(jīng)營角度看,該模式為例外模式,但是并沒有很大的經(jīng)濟價值,因此,在挖掘例外模式時,還需要考慮局部數(shù)據(jù)源的權重。

      除了以上5種模式外,一些學者根據(jù)實際應用需要,從不同角度挖掘其他模式。在多數(shù)據(jù)源環(huán)境下,不同子公司擁有不同的商品捆綁銷售策略,并且策略隨時間不斷改變,文獻[21]提出了一種在多數(shù)據(jù)源環(huán)境中自動抽取關聯(lián)模式,該關聯(lián)模式包含商品銷售的地點與時間。文獻[22]根據(jù)不同時間段將數(shù)據(jù)庫劃分成多個時間相關數(shù)據(jù)庫,并利用協(xié)方差統(tǒng)計支持度隨時間基本穩(wěn)定不變的數(shù)據(jù)項,在不同時間數(shù)據(jù)庫中挖掘銷售量密切相關的模式,為公司提供商品銷售策略。

      3 局部模式合成算法

      根據(jù)局部數(shù)據(jù)庫挖掘出的模式,對全局模式進行近似求解,一方面避免了將所有局部數(shù)據(jù)庫合在一起存在數(shù)據(jù)庫容量過大、隱私竊密等問題,另一方面,局部數(shù)據(jù)庫中提取的模式對公司總部來說,有些模式是冗余的,有些模式是重要的,因此,下面研究各種局部模式合成方法(也稱為對全局模式進行近似求解)。另外,局部模式合成得到的模式的支持度、置信度應與傳統(tǒng)方法在全局數(shù)據(jù)庫得到的模式近似。

      局部模式合成方法問題的描述如下:存在m個主題相關的局部數(shù)據(jù)庫為D1,D2,…,Dm,每個局部數(shù)據(jù)庫擁有相應的滿足一定條件的模式集LI1,LI2,…,LIm,稱為局部模式,綜合局部模式LI1,LI2,…,LIm進行全局分析是問題的關鍵。

      針對來源于局部數(shù)據(jù)庫的高頻繁模式,文獻[12]提出了一種基于權重的RuleSynthesizing算法,其時間復雜度為O(n4×max NosRules×totalRules2),其中n、max NosRules、totalRules分別表示數(shù)據(jù)庫的個數(shù)、從不同局部數(shù)據(jù)庫中所提取的最多模式數(shù)、不同數(shù)據(jù)庫中所有模式總數(shù)。算法主要過程如下。

      (1)計算相應模式的權重,公式為:

      其中,WRi為模式Ri的權重;Num(Ri)為擁有模式Ri的數(shù)據(jù)庫總數(shù)。

      (2)依據(jù)每條模式的權重,計算局部數(shù)據(jù)庫的權重,公式為:

      其中,WDi為數(shù)據(jù)庫Di的權重;Si為數(shù)據(jù)庫Di包含的所有模式集。

      (3)計算合成模式的支持度與置信度,公式為:

      (4)對合成方法的效果進行度量,有2種度量方式。

      最大誤差法:

      平均誤差法:

      文獻[23]認為,局部模式合成方法[12]是基于各局部數(shù)據(jù)庫的容量大小基本一致的假設,然而現(xiàn)實中,數(shù)據(jù)庫之間的大小有可能差異較大,所以提出了一種基于事務的數(shù)量的高頻繁模式合成方法,其中,模式權重的計算公式為:

      其中,|Dj|為數(shù)據(jù)庫Dj包含的事務總數(shù);Num(Ri,Dj)為擁有模式Ri的數(shù)據(jù)庫總數(shù)。

      文獻[24]認為局部模式分析挖掘方法是挖掘多數(shù)據(jù)源的一種近似方法,在模式的合成過程中,更多的局部模式會提高合成模式的質(zhì)量,據(jù)此,提出一種ACP Coding方法對局部模式進行壓縮,降低支持度與置信度,以選擇更多局部模式。文獻[25]認為在一個數(shù)據(jù)庫中所顯示的顧客購買行為趨勢也存在數(shù)據(jù)庫中,并將這種數(shù)據(jù)庫稱為實時數(shù)據(jù)庫,于是,提出了一種從不同實時數(shù)據(jù)庫中合成 重 關 聯(lián) 模 式 的 Association-Rule-Synthesis算法,主要采納了更多的高頻繁模式。與Rule-Synthesizing算法[12]相比,文獻[25]的算法具有以下幾個優(yōu)點:① 時間復雜度低,max{O((M+N)×lg(M+N)),O(n×(M+N))},其中,N,M分別為從n個數(shù)據(jù)庫中獲取的模式總數(shù)、推薦模式總數(shù);② 平均錯誤率較低;③ 該算法能識別重關聯(lián)模式的類型。文獻[26]將多數(shù)據(jù)源挖掘分為廣義與狹義2種,廣義多數(shù)據(jù)源挖掘是指采用局部模式分析方法識別有趣的局部模式,然后對局部模式進行合成;狹義多數(shù)據(jù)源挖掘是指針對如實時多數(shù)據(jù)源、選取與決策有關的數(shù)據(jù)項等特殊應用的挖掘。因此,文獻[26]提出基于PFT(Pipelined Feedback Technique)技術的多數(shù)據(jù)源挖掘方法,結果表明該方法能對大容量局部數(shù)據(jù)庫進行挖掘。

      上述多數(shù)據(jù)源挖掘方法并未考慮局部數(shù)據(jù)源之間數(shù)據(jù)的關系,從而造成從局部數(shù)據(jù)源中合成的全局模式是不完備的,文獻[27]提出了一種基于核估計的非線性方法處理不同數(shù)據(jù)源中數(shù)據(jù)的關系,該方法具有以下優(yōu)點:① 發(fā)現(xiàn)的模式不僅是局部有趣的,而且是全局有趣;② 不同的數(shù)據(jù)庫分配不同的權重;③ 利用屬性對數(shù)據(jù)庫進行劃分,極大地減少了內(nèi)存需求;④ 有效地保護了數(shù)據(jù)隱私。

      以上研究均是圍繞A→B的正關聯(lián)規(guī)則形式進行的,現(xiàn)實中存在形如A→?B,?A→B,?A→?B的負關聯(lián)規(guī)則,文獻[28]提出了一種能夠同時挖掘正關聯(lián)規(guī)則和負關聯(lián)規(guī)則的算法,以傳統(tǒng)的Apriori算法挖掘頻繁項集中的正關聯(lián)規(guī)則和非頻繁項集中的負關聯(lián)規(guī)則。文獻[29-30]探討了在多數(shù)據(jù)中挖掘負關聯(lián)規(guī)則的方法,提出了負關聯(lián)規(guī)則合成方法,利用負規(guī)則的選票率解決正規(guī)則與負規(guī)則間的沖突,并討論了多數(shù)據(jù)源中時態(tài)負關聯(lián)規(guī)則的提取方法。

      4 總結與展望

      本文詳細地討論了多數(shù)據(jù)源研究背景,分析了該問題所涉及的研究內(nèi)容,并對已有的研究成果進行了詳細介紹。多數(shù)據(jù)源挖掘主要包括數(shù)據(jù)庫聚類、提取有用的局部模式及對局部模式進行合成等3個方面,可以從這3個方面深入提高挖掘效率的方法。

      本文所提到的數(shù)據(jù)庫為事務數(shù)據(jù)庫,而現(xiàn)實中,數(shù)據(jù)庫是多樣化的,存在結構化、半結構化、非結構化等不同結構的數(shù)據(jù)庫,而且涉及如數(shù)據(jù)隱私、測試代價及時態(tài)等問題,本文認為未來的研究方向主要有以下幾個方面:

      (1)數(shù)據(jù)挖掘過程中保護數(shù)據(jù)隱私是個重要問題[31-32],如病人健康記錄、用戶行為記錄等涉及個人隱秘的信息,簡單地刪除用戶姓名、地址等字段并不能有效隱藏個人隱私。將來隨著應用的需要,更多的隱私保護挖掘算法將會出現(xiàn)在隱私敏感多數(shù)據(jù)源中。

      (2)生物信息學[33-34]的最新發(fā)展使人們可以獲得不同的數(shù)據(jù)庫,如用mRNA和miRNA概述內(nèi)容、生物信號傳導途徑和基因注釋等,多數(shù)據(jù)源的有效結合豐富了生物相關的樣例與基因知識。

      (3)序列模式挖掘能夠發(fā)現(xiàn)模式之間的時態(tài)關系[35-37],在實際應用中,存在主題相同的多序列數(shù)據(jù)庫,如在用信用卡支付衣服、書籍的購買及飲食消費等過程中,人們在購買時尚雜志后可能購買相關的服裝,這就需要從多序列數(shù)據(jù)庫尋找有關的序列模式。

      [1]李柳青,馮志勇,劉 超.基于多源異構數(shù)據(jù)的查詢分解算法[J].計算機工程,2010,36(23):56-58.

      [2]丁國輝,王國仁,趙宇海.基于使用信息和聚類方法的多模式集成[J].計算機研究與發(fā)展,2010,47(5):824-831.

      [3]Aronis J M,Kolluri V,Buchanan F J,et al.The WoRLD:Knowledge discovery from multiple distributed databases[C]//Proceedings of 10th International Florida AI Research Symposium,1997:337-341.

      [4]Liu H,Lu H J,Yao J.Identifying relevant databases for multi database mining[C]//PAKDD,1998:210-221.

      [5]Yan J,Liu N,Yang Q,et al.Mining adaptive ratio rules from distributed data sources[J].Data Mining and Knowledge Discovery,2006,12(2/3):249-273.

      [6]Peng W C,Liao Z X.Mining sequential patterns across multiple sequence databases[J].Data & Knowledge Engineering,2009,68(10):1014-1033.

      [7]Zhang S C,Zhang C Q,Wu X D.Knowledge discovery in multiple databases[M].New York:Springer,2004:110-120.

      [8]Adhikari A,Rao R R,Pedrycz W.Developing multi-database mining applications[M].New York:Springer,2010:78-92.

      [9]Agrawal R,Shafer J.Parallel mining of association rules[J].IEEE Transactions on Knowledge and Data Engineering,1996,8(6):962-969.

      [10]Parthasarathy S,Zaki M J,Ogihara M,et al.Parallel data mining for association rules on shared-memory systems[J].Knowledge and Information Systems,2001,1(1):1-29.

      [11]Zhang S C,Wu X D,Zhang C Q.Multi-database mining[J].IEEE Computational Intelligence Bulletin,2003,3(1):5-13.

      [12]Wu X D,Zhang S C.Synthesizing high-frequency rules from different data sources[J].IEEE Transactions on Knowledge and Data Engineering,2003,15(2):353-367.

      [13]Zhang C Q,Liu M L,Nie W L,et al.Identifying global exceptional patterns in multi-database mining[J].IEEE Computational Intelligence Bulletin,2003,3(1):19-24.

      [14]Zhong N,Yan Y,Ohsuga S.Peculiarity oriented multi-database mining[C]//Proceedings of PKDD’99,1999:136-146.

      [15]Liu H,Lu H J,Yao H.Toward multi database mining:identifying relevant databases[J].IEEE Transactions on Knowledge and Data Engineering,2001,13(4):541-553.

      [16]汪曉慶,鄭彥興,史美林.一種有效的數(shù)據(jù)共享環(huán)境多數(shù)據(jù)源選擇算法[J].軟件學報,2008,19(2):314-322.

      [17]Wu X D,Zhang S C,Zhang C Q.Database classification for multi-database mining[J].Information System,2005,30(1):71-88.

      [18]Adhikari A,Rao P R.Efficient clustering of databases induced by local patterns[J].Decision Support Systems,2008,44(4):925-943.

      [19]Li H,Hu X G,Zhang Y M.An improved database classification algorithm for multi-database mining[C]//FAW 2009,LNCS 5598,2009:346-357.

      [20]Zhang S C,Zhang C Q,Yu J X.An efficient strategy for mining exceptions in multi-databases[J].Information Sciences,2004,165(1):1-20.

      [21]Chen Y L,Tang K,Shen R J,et al.Market basket analysis in a multiple store environment[J].Decision Support System,2005,40(2):339-354.

      [22]Adhikari J,Rao P R,Adhikari A.Clustering items in different data sources induced by stability[J].The International Arab Journal of Information Technology,2009,6(4):394-402.

      [23]Ramkumar T,Srinivasan R.Modified algorithms for synthesizing high-frequency rules from different data sources[J].Knowledge and Information System,2008,17(2):313-334.

      [24]Adhikari A,Rao P R.Enhancing quality of knowledge synthesized from multi-database mining[J].Pattern Recognition Letters,2007,28(16):2312-2324.

      [25]Adhikari A,Rao P R.Synthesizing heavy association rules from different real data sources[J].Pattern Recognition Letters,2008,29(1):59-71.

      [26]Adhikari A,Ramachandrarao R,Prasad B,et al.Mining multiple large data sources[J].The International Arab Journal of Information Technology,2010,7(3):241-249.

      [27]Zhang S C,You X F,Jin Z,et al.Mining globally interesting patterns from multiple databases using kernel estimation[J].Expert Systems with Application,2009,36(8):10863-10869.

      [28]Wu X D,Zhang C Q,Zhang S C.Efficient mining of both Positive and negative association rules[J].ACM Transactions on Information Systems,2004,22(3):381-405.

      [29]Shang S J,Dong X J,Geng R N,et al.Mining negative association rules in multi-database[C]//Fifth International Conference on Fuzzy Systems and Knowledge Discovery,2008:596-599.

      [30]尚世菊,懂祥軍,趙 龍.多數(shù)據(jù)源中的負關聯(lián)規(guī)則挖掘技術及發(fā)展趨勢[J].計算機工程,2009,35(5):61-63.

      [31]Bhaskar R,Laxman S,Smith A.Discovering frequent patterns in sensitive data[C]//KDD’2010,Washington,DC,2010:37-42.

      [32]Wu X D,Kumar V,Quinlan J R,et al.Top 10algorithms in data mining[J].Knowledge and Information Systems,2008,14(1):1-37.

      [33]Lu H C,Shi C C,Wu G W,et al.Integrated analysis of multiple data sources reveals modular structure of biological networks[J].Biochemical and Biophysical Research Communications,2006,345(2):302-309.

      [34]Zhao Z,Wang J X,Liu H.Identifying biologically relevant genes via multiple heterogeneous data sources[C]//KDD’08,Las Vegas,Nevada,USA,2008:24-28.

      [35]Kum H C,Chang J H,Wang W.Sequential pattern mining in multi-databases via multiple alignment[J].Data Mining and Knowledge Discovery,2006,12(2/3):151-180.

      [36]Chen Y L,Wu S Y,Wang Y C.Discovering multi-label temporal patterns in sequence databases[J].Information Sciences,2011,181(2):398-418.

      [37]張 晶,張 斌,胡學鋼.基于領域知識的冗余關聯(lián)規(guī)則消除算法[J].合肥工業(yè)大學學報:自然科學版,2011,34(2):246-250.

      猜你喜歡
      數(shù)據(jù)源度量全局
      有趣的度量
      Cahn-Hilliard-Brinkman系統(tǒng)的全局吸引子
      量子Navier-Stokes方程弱解的全局存在性
      模糊度量空間的強嵌入
      迷向表示分為6個不可約直和的旗流形上不變愛因斯坦度量
      落子山東,意在全局
      金橋(2018年4期)2018-09-26 02:24:54
      Web 大數(shù)據(jù)系統(tǒng)數(shù)據(jù)源選擇*
      基于不同網(wǎng)絡數(shù)據(jù)源的期刊評價研究
      地質(zhì)異常的奇異性度量與隱伏源致礦異常識別
      基于真值發(fā)現(xiàn)的沖突數(shù)據(jù)源質(zhì)量評價算法
      八宿县| 巴林左旗| 赤城县| 祁东县| 阜平县| 循化| 特克斯县| 平果县| 宁远县| 庐江县| 绿春县| 商都县| 太仓市| 嘉荫县| 磐石市| 台中县| 尚义县| 囊谦县| 泽州县| 新龙县| 石城县| 伊宁市| 茌平县| 平度市| 萝北县| 潞城市| 新晃| 彩票| 葫芦岛市| 溧水县| 镇平县| 方城县| 射洪县| 施秉县| 华亭县| 安福县| 峡江县| 同心县| 浦县| 潜江市| 汾西县|