劉衛(wèi)華 廣東司法警官職業(yè)學(xué)院 史婷婷 仲愷農(nóng)業(yè)工程學(xué)院 信息科學(xué)與技術(shù)學(xué)院
在互聯(lián)網(wǎng)科技飛速發(fā)展的背景下,尤其是大數(shù)據(jù)技術(shù)的不斷發(fā)展和數(shù)據(jù)量的快速增加,其技術(shù)的使用率和使用效果以及數(shù)據(jù)挖掘能力都顯著提升。只有在大量的數(shù)據(jù)中得到有利信息,找出發(fā)展的趨勢(shì),研究數(shù)據(jù)海洋中存在的規(guī)則和規(guī)律,才能找到存在數(shù)據(jù)內(nèi)的知識(shí)和特點(diǎn)。因此,數(shù)據(jù)挖掘(Data Mining,DM)新技術(shù)誕生。
分層聚類算法是利用完善系統(tǒng)圖形的方式實(shí)施分類的,在不同的葉結(jié)點(diǎn)中都有相符的樣本,不同的樹結(jié)點(diǎn)也會(huì)對(duì)應(yīng)不同的分類,聚類算法依據(jù)使用者的需求在不同環(huán)節(jié)進(jìn)行分析。在分層聚類算法中包含了凝聚算法與分裂算法。凝聚算法和分裂算法的區(qū)別就在于一個(gè)是自底向上,而另一個(gè)是自頂向下。凝聚算法是把樣本視為一個(gè)整體,之后依據(jù)有關(guān)條件把附樣本進(jìn)行融合變成全新的一類,按照這種規(guī)律進(jìn)行,一直循環(huán)到全部樣本融合變成一個(gè)整體類為止;若是想使用分裂算法就有很大不同,首要進(jìn)行的是把全部樣本視為一個(gè)整體類,之后在其中選取距離比較遠(yuǎn)的樣本實(shí)施分裂,一直開展到全部中只有一個(gè)樣本的時(shí)候?yàn)橹埂?/p>
在聚類算法中,分割聚類算法(PartitionalClustering,PC)是當(dāng)前使用最為廣泛的一種算法,在一般情況下使用數(shù)據(jù)樣本進(jìn)行板塊的劃分,之后在針對(duì)不同的評(píng)價(jià)指標(biāo)對(duì)板塊數(shù)據(jù)實(shí)施掌控,對(duì)于不符合板塊中的數(shù)據(jù)分類到其他板塊中,使用不間斷聚類方法完成過程。比較常見的方法有K-Medoids 以及K-Means 等。其中K-Means 是利用隨機(jī)和數(shù)據(jù)收集的方式進(jìn)行板塊分割的,分割完成后的板塊是K 塊,根據(jù)類中不同的權(quán)均值,來分別表示此類特點(diǎn),并且計(jì)算其中的距離,把集中的數(shù)據(jù)分別調(diào)至附近的類中,針對(duì)M 實(shí)施重新計(jì)算,計(jì)算完后和之前計(jì)算結(jié)果進(jìn)行對(duì)比,最終完成聚類過程。K-Medoids 在整個(gè)算法中屬于類的代表項(xiàng),在樣本選取之后,把樣本附近的子集融合變成一個(gè)類,目標(biāo)函數(shù)指的是樣本附近的距離有著相似性。
BIRCH 是利用分支因子調(diào)控來設(shè)置B 與門檻值T,在根點(diǎn)出發(fā)不斷對(duì)數(shù)據(jù)和節(jié)點(diǎn)進(jìn)行分析,依據(jù)符合門檻值數(shù)據(jù)的狀況來完成吸收與構(gòu)造修正,得出CF 數(shù)值而且通過有關(guān)聚類算法對(duì)有關(guān)數(shù)據(jù)進(jìn)行聚類分析。這種算法只具備一次的掃描數(shù)據(jù),在時(shí)間算法方面有著比較復(fù)雜的性質(zhì),所以在數(shù)據(jù)量比較的情況下得到了比較廣泛的應(yīng)用。CURE 算法基本使用的都是數(shù)據(jù)抽樣的方式,對(duì)相關(guān)數(shù)據(jù)進(jìn)行樣本分析,把不同的類和附近距離較短的類型聯(lián)合起來,建立一個(gè)較大的heap。如果類的數(shù)值在大于k 的情況下,要使用較小的類進(jìn)行融合使用,一直到滿足需求條件為止。CURE 算法使用的基本上都是抽樣技術(shù),所以時(shí)間的難度是O(K2),其中K 是抽樣中的樣本數(shù)量。
模糊聚類是使用點(diǎn)和類的數(shù)值來完成衡量的,點(diǎn)在類中屬于一種程度的表達(dá),該表達(dá)對(duì)于類界限不清楚具有非常良好的應(yīng)用效果。在這種算法中,比較常見的類型有PCM 和FCM(Fuzzy c-means) 等。其中PCM 算法是對(duì)每個(gè)數(shù)據(jù)點(diǎn)進(jìn)行計(jì)算與比較,只要是數(shù)值在滿足條件的基礎(chǔ)上,還要在產(chǎn)生隸屬度的過程中符合基本公式,在這種基礎(chǔ)上就沒有歸一化的約束條件了。利用這種方式形成了每個(gè)類之間有了相互獨(dú)立的特點(diǎn)。FCM 算法是利用迭代計(jì)算聚類來完成目標(biāo)函數(shù)不斷變化的,在新函數(shù)和函數(shù)之間出現(xiàn)了不一樣的情況時(shí),當(dāng)新的目標(biāo)函數(shù)與上一次目標(biāo)函數(shù)值之差小于或迭代次數(shù)大于T,若是沒有發(fā)生上述情況就要對(duì)矩陣運(yùn)算進(jìn)行修正。
在柵格聚類算法的基礎(chǔ)上對(duì)拓?fù)錁?gòu)造進(jìn)行繼承,把點(diǎn)的處理變成空間方面的處理,利用空間劃分來實(shí)現(xiàn)聚類的效果,其中最大的優(yōu)勢(shì)就在于數(shù)據(jù)排序方面和敏感程度,能對(duì)屬性不同的數(shù)據(jù)進(jìn)行處理和挖掘。STING 算法主要針對(duì)的是區(qū)域查詢,利用數(shù)據(jù)構(gòu)造和信息存放,將每個(gè)節(jié)點(diǎn)劃分到分層數(shù)中。對(duì)STING 算法不斷完善與改進(jìn),得到STING+算法,兩者在分層構(gòu)造上有著很多相似之處,主要應(yīng)該在動(dòng)態(tài)變化和數(shù)據(jù)挖掘方面。在信號(hào)處理部分使用Wave Cluste 算法比較便捷,其對(duì)數(shù)據(jù)和數(shù)字的結(jié)構(gòu)識(shí)別方面有著較強(qiáng)的分辨率,突出的優(yōu)勢(shì)有:(1)可以對(duì)高維空間數(shù)據(jù)進(jìn)行處理;(2)具有較強(qiáng)的抗干擾性;(3)聚類效果非常好。柵格的分層構(gòu)造可以通過Fractal Clustering 算法,此計(jì)算方法的優(yōu)勢(shì)在于:(1)可以找出不規(guī)則的類;(2)使用的處理方式符合在線處理要求。
在當(dāng)今時(shí)代中,機(jī)器學(xué)習(xí)和人工智能等技術(shù)都不斷涌現(xiàn),因此,聚類算法變成了數(shù)據(jù)挖掘方面的熱門算法。要想不斷提升數(shù)據(jù)處理的范圍和能力,部分研究人員對(duì)聚類開展了更加深入的分析,從而產(chǎn)生了很多新的聚類計(jì)算方式。其中使用較為廣泛的有:聚類集成算法、核聚類算法、不確定聚類算法、基于熵的聚類算法、包括模糊聚類、粗糙聚類、譜聚類算法、球殼聚類算法、基于粒度的聚類算法以及量子聚類算法等。為了得到大量的聚類數(shù)據(jù),馬文萍等人在這種背景下,把差分免疫克隆聚類中的硬聚類變成模糊聚類。為了實(shí)現(xiàn)非規(guī)則程序的不斷劃分,李遠(yuǎn)成等人研究出一種模糊聚類形式的劃分方法。由于在時(shí)間方面有著很多限制,為了使其在時(shí)間算法方面具有簡(jiǎn)單性質(zhì),劉解放等針對(duì)此問題,在貝葉斯模糊聚類中引入加權(quán)機(jī)制,提出了加權(quán)貝葉斯模糊聚類算法,提升了此方法的有效性。
聚類算法在完善與創(chuàng)新過程中,不斷融合機(jī)器學(xué)習(xí)、數(shù)據(jù)挖掘、程序識(shí)別等方面的知識(shí)。在未來的發(fā)展中,智能聚類會(huì)與支持向量機(jī)、模糊邏輯以及神經(jīng)網(wǎng)絡(luò)等先進(jìn)技術(shù)融合的更加緊密,把聚類分析和群智能兩者實(shí)施更好融合將是未來研究的重點(diǎn)。