盧建青,陳銀珠,劉玉珠,張 錦
廣義回歸神經(jīng)網(wǎng)絡(luò)在空間數(shù)據(jù)聚類中的應(yīng)用
盧建青1,陳銀珠1,劉玉珠1,張 錦2
(1. 浙江省測繪大隊,杭州 310030;2. 中國地質(zhì)大學(xué) 地理與信息工程學(xué)院,武漢 430074)
針對空間數(shù)據(jù)聚類中由于空間數(shù)據(jù)本身的特點造成模糊C均值聚類算法無法滿足使用要求的問題,提出1種改進的空間數(shù)據(jù)聚類算法:將模糊C均值聚類算法與廣義回歸神經(jīng)網(wǎng)絡(luò)相結(jié)合,得到結(jié)合廣義神經(jīng)網(wǎng)絡(luò)的模糊C均值聚類算法;并將結(jié)合廣義神經(jīng)網(wǎng)絡(luò)的模糊C均值聚類算法應(yīng)用到空間數(shù)據(jù)的聚類中。實驗結(jié)果表明,結(jié)合廣義神經(jīng)網(wǎng)絡(luò)的模糊C均值算法在空間聚類方面比模糊C均值有著更好的效果,可以滿足實際空間數(shù)據(jù)聚類的要求。
空間數(shù)據(jù);空間聚類;模糊C均值聚類算法;結(jié)合廣義神經(jīng)網(wǎng)絡(luò)的模糊C均值聚類算法;聚類效果
隨著我國遙感、測繪、地理信息等各種空間數(shù)據(jù)獲取技術(shù)的快速發(fā)展,空間數(shù)據(jù)的量越來越大??臻g數(shù)據(jù)由于其自身的特點,往往具有較高的復(fù)雜度,處理空間數(shù)據(jù)也相對困難。海量的空間數(shù)據(jù)無法得到有效的處理,造成了空間數(shù)據(jù)利用率低的現(xiàn)象[1-2]。于是空間數(shù)據(jù)挖掘被人提出[3-4],空間數(shù)據(jù)挖掘就是指如何在海量的空間數(shù)據(jù)中得到與空間數(shù)據(jù)相關(guān)的空間數(shù)據(jù)結(jié)果或者非空間數(shù)據(jù)結(jié)果,探索空間數(shù)據(jù)背后的規(guī)律,最大限度地發(fā)揮空間數(shù)據(jù)潛在的價值。空間聚類作為空間數(shù)據(jù)挖掘的一部分,可以發(fā)現(xiàn)空間數(shù)據(jù)的分布特點,分析空間數(shù)據(jù)的集中規(guī)則,并可以進一步判斷和預(yù)測空間數(shù)據(jù)的分布位置的變化[5-6]。目前較為常用的空間聚類算法有:K均值聚類算法(K-means)[7]、模糊C均值聚類算法(fuzzy C-means, FCM)[8-10]、自組織特征映射網(wǎng)絡(luò)(self-organizing feature map, SOM)聚類算法[11-12]、期望最大化聚類算法(expectation maximization, EM)[13]。由于空間數(shù)據(jù)本身的量較大且空間數(shù)據(jù)較為復(fù)雜,目前常用的空間聚類算法都無法完全滿足各種空間數(shù)據(jù)聚類的需求。如K-means作為被使用最為廣泛的空間聚類算法,其主要不足在于K均值聚類的初始點是隨機選擇的,這可能會導(dǎo)致即使是相同的數(shù)據(jù)每次聚類時的結(jié)果也不完全相同,甚至可能由于初始點的選擇造成聚類結(jié)果錯誤。此外,其對于離散的空間數(shù)據(jù)處理能力不足,且K均值聚類不具備較高的抗噪聲性能。SOM作為1種全連接神經(jīng)網(wǎng)絡(luò)聚類算法,可以進行非監(jiān)督、完全自主的空間數(shù)據(jù)聚類。其大致原理是通過神經(jīng)網(wǎng)絡(luò)的自主學(xué)習(xí)能力使某1種神經(jīng)元只對符合某1種特征的輸入數(shù)據(jù)敏感,從而達到空間數(shù)據(jù)非監(jiān)督聚類的目的。但是SOM需要較多的輸入?yún)?shù),若輸入?yún)?shù)設(shè)置數(shù)量不足或參數(shù)選取錯誤,聚類結(jié)果會有較大的偏差。所以對于SOM最大的難點在于輸入?yún)?shù)的確定。FCM在處理空間數(shù)據(jù)分類時1個數(shù)據(jù)在2個類的重疊區(qū)域部分有著極大的優(yōu)勢,但是空間數(shù)據(jù)的分布情況會對聚類結(jié)果產(chǎn)生較大的影響,并且可能存在會局部極值的現(xiàn)象導(dǎo)致無法得到準確的聚類結(jié)果。本文提出將廣義回歸神經(jīng)網(wǎng)絡(luò)(generalized regression neural network, GRNN)引入空間數(shù)據(jù)聚類中,將FCM和GRNN相結(jié)合,建立1種新的空間數(shù)據(jù)聚類算法即結(jié)合廣義回歸神經(jīng)網(wǎng)絡(luò)的模糊C均值聚類算法(generalized regression neural network-fuzzy C- means,GRNN-FCM),并通過實際的空間數(shù)據(jù)檢驗GRNN-FCM的聚類效果。
FCM算法通過模糊聚類的目標函數(shù)將數(shù)量為的空間數(shù)據(jù)聚類成數(shù)量為的模糊類,當函數(shù)達到最小時便可確定每類的聚類中心。模糊聚類目標函數(shù)為
FCM聚類算法具體步驟如下:
1)設(shè)置模糊聚類的需要得到類別數(shù),模糊權(quán)重指數(shù)和初始聚類中心;
2)利用式(2)計算得到空間數(shù)據(jù)的模糊隸屬度矩陣;
3)利用式(3)計算出數(shù)量為的小類別中每1個的類別中心v;
4)利用式(1)計算模糊聚類目標函數(shù)值,若目標函數(shù)值到達最小,則結(jié)束計算,否則返回步驟2)。
FCM聚類算法是1種以模糊隸屬度作為聚類標準的聚類算法,每個空間數(shù)據(jù)都是通過模糊隸屬度矩陣確定其所屬類別。
圖1 GRNN網(wǎng)絡(luò)拓撲結(jié)構(gòu)
網(wǎng)絡(luò)共分為4個層,具體作用如下:
1)輸入層。本層的作用為輸入學(xué)習(xí)的樣本并將輸入?yún)?shù)傳入模式層,輸入層的神經(jīng)元分布簡單且神經(jīng)元的數(shù)目為訓(xùn)練輸入樣本的維數(shù)。
2)模式層。本層作用是利用本層的神經(jīng)元對輸入的訓(xùn)練樣本數(shù)據(jù)進行學(xué)習(xí),所以本層中神經(jīng)元數(shù)目等于訓(xùn)練樣本數(shù),訓(xùn)練函數(shù)為
式中:為全部訓(xùn)練樣本;X為第個神經(jīng)元的訓(xùn)練樣本。
3)求和層。本層的作用是對模式層的數(shù)據(jù)分別進行算法求和及加權(quán)求和,公式為
式中權(quán)y為訓(xùn)練輸出樣本的對應(yīng)元素。
4)輸出層。輸出層的作用為計算并輸出結(jié)果,因此本層的神經(jīng)元數(shù)為訓(xùn)練輸出的樣本維數(shù),結(jié)果計算函數(shù)為
本文提出的GRNN-FCM空間聚類算法是采用GRNN和FCM相結(jié)合的方式進行空間聚類。先通過模糊聚類將空間數(shù)據(jù)分為類再選取每1類中最具有代表性的組樣本數(shù)據(jù)作為網(wǎng)絡(luò)的訓(xùn)練輸入數(shù)據(jù),以每個樣本數(shù)據(jù)的類別為網(wǎng)絡(luò)的訓(xùn)練輸出。GRNN通過訓(xùn)練輸入數(shù)據(jù)和訓(xùn)練輸出數(shù)據(jù)對空間數(shù)據(jù)的聚類規(guī)律進行學(xué)習(xí)。最后利用學(xué)習(xí)后的GRNN網(wǎng)絡(luò)對所有的輸入數(shù)據(jù)和輸出數(shù)據(jù)聚類,得到每個空間數(shù)據(jù)所處的類別。算法的具體流程如圖2所示。
實驗所使用的空間數(shù)據(jù)來自于浙江省測繪大隊的自然資源大數(shù)據(jù)建設(shè)項目,自然資源大數(shù)據(jù)建設(shè)項目整合了各個部門收集自然資源數(shù)據(jù)樣本數(shù)據(jù),包括國土資源數(shù)據(jù)、住房和城鄉(xiāng)建設(shè)數(shù)據(jù)、水利數(shù)據(jù)、農(nóng)業(yè)數(shù)據(jù)、林業(yè)數(shù)據(jù)、測繪地理信息數(shù)據(jù)和海洋數(shù)據(jù)。自然資源大數(shù)據(jù)建設(shè)項目需要這些數(shù)據(jù)進行分類、分析,因此也為本次實驗提供了豐富的空間數(shù)據(jù)。本次實驗采用全國34個省級行政區(qū)的國土資源空間數(shù)據(jù)。國土資源數(shù)據(jù)由于其自身的復(fù)雜性,數(shù)據(jù)特征參數(shù)較多且有部分空間數(shù)據(jù)分布較為集中;因此使用一般的空間聚類方法處理此類空間數(shù)據(jù)有一定的困難。為了將空間數(shù)據(jù)導(dǎo)入MATLAB中計算和顯示,對空間數(shù)據(jù)進行質(zhì)心化處理得到結(jié)果如圖3所示。
圖2 GRNN-FCM算法流程
圖3 國土資源質(zhì)心化
為了對GRNN-FCM聚類算法進行分析,本文分別采用GRNN-FCM和FCM聚類算法對國土資源空間數(shù)據(jù)進行聚類,并將2種聚類算法得到的結(jié)果進行分析比較。
參數(shù)設(shè)置時將2種聚類算法的聚類數(shù)均設(shè)為5。得到GRNN-FCM和FCM的聚類結(jié)果如圖4、圖5所示,為了對比2種聚類方法的效果計算得表1、表2。
圖4 FCM聚類結(jié)果
圖5 GRNN-FCM聚類結(jié)果
表1 聚類結(jié)果表
表2 聚類效果對比表
從圖4和表1中可以清楚地發(fā)現(xiàn),由于空間數(shù)據(jù)較為復(fù)雜、屬性較多的原因,F(xiàn)CM聚類沒有能夠區(qū)分出第1類和第2類,最終FCM聚類算法僅僅只聚類出了4種空間數(shù)據(jù)的類別。從圖5和表1中可以發(fā)現(xiàn)GRNN-FCM聚類算法在FCM的基礎(chǔ)上有效地將第1類和第2類區(qū)分開,根據(jù)實際情況將空間數(shù)據(jù)聚類成5個類別。GRNN-FCM較FCM聚類算法可以更好地區(qū)分出復(fù)雜空間數(shù)據(jù)中屬性的細小差異,并且根據(jù)聚類要求得到需要的聚類結(jié)果。從表2中也可以發(fā)現(xiàn)GRNN-FCM的聚類結(jié)果中每個小類的空間數(shù)據(jù)離中心點更加近,這表示GRNN-FCM得到的小的類別內(nèi)部更加緊湊。因此可以證明GRNN-FCM和FCM相比有著更好的聚類效果,聚類結(jié)果更加準確。并且從表2中可以發(fā)現(xiàn)GRNN-FCM由于其先期利用具有一定代表性的數(shù)據(jù)進行了學(xué)習(xí),所以GRNN-FCM的聚類時間相較于FCM明顯較短,算法也更加高效。
FCM作為1種廣泛使用的聚類算法,在對空間數(shù)據(jù)進行聚類的過程中,由于空間數(shù)據(jù)自身具有較為復(fù)雜、參數(shù)較多并且數(shù)據(jù)量較大的特點,某些情況下可能無法有效地按照聚類要求完成空間數(shù)據(jù)的聚類。針對FCM聚類算法在空間數(shù)據(jù)聚類方面的不足,本文提出在FCM中引入GRNN,將2者結(jié)合得到了全新的GRNN-FCM空間聚類算法。并利用空間數(shù)據(jù)進行實驗,比較GRNN-FCM和FCM聚類效果。結(jié)果證明GRNN-FCM聚類算法在空間數(shù)據(jù)聚類時比FCM有著更好的聚類效果、更加準確的聚類結(jié)果。同時GRNN-FCM比FCM進行聚類時所需時間更少,算法的效率更高。實驗證明GRNN-FCM在空間數(shù)據(jù)聚類中有一定的實際應(yīng)用價值,同時本文的研究也為其他空間聚類算法研究提供了參考。
[1]王家耀, 苗國強, 成毅. 空間信息系統(tǒng)數(shù)據(jù)的獲取[J]. 海洋測繪, 2004, 24(2): 1-4.
[2]裴韜, 周成虎, 駱劍承, 等. 空間數(shù)據(jù)知識發(fā)現(xiàn)研究進展評述[J]. 中國圖象圖形學(xué)報, 2018, 6(9): 854-860.
[3]李德仁, 王樹良, 李德毅. 空間數(shù)據(jù)挖掘理論與應(yīng)用[M]. 北京: 科學(xué)出版社, 2013.
[4]李德仁, 王樹良, 李德毅, 等. 論空間數(shù)據(jù)挖掘和知識發(fā)現(xiàn)的理論與方法[J]. 武漢大學(xué)學(xué)報(信息科學(xué)版), 2002, 27(3): 221-233.
[5]汪閩. 空間聚類挖掘方法研究[D]. 北京: 中國科學(xué)院地理資源研究所, 2006.
[6]馬飛. 數(shù)據(jù)挖掘中的聚類算法研究[D]. 南京: 南京理工大學(xué), 2008.
[7]張建輝. K-means聚類算法研究及應(yīng)用[D]. 武漢: 武漢理工大學(xué), 2007.
[8]周開樂. 模糊C均值聚類及其有效性檢驗與應(yīng)用研究[D]. 合肥: 合肥工業(yè)大學(xué), 2014.
[9]BEZDEK J C , EHRLICH R , FULL W. FCM: the fuzzy c-means clustering algorithm[J]. Computers & Geosciences, 1984, 10(2/3): 191-203.
[10]孫曉霞, 劉曉霞, 謝倩茹. 模糊C-均值(FCM)聚類算法的實現(xiàn)[J]. 計算機應(yīng)用與軟件, 2008, 25(3): 48-51.
[11]齊志. 基于SOM神經(jīng)網(wǎng)絡(luò)的聚類可視化方法研究[D]. 長春: 東北師范大學(xué).
[12]周歡, 黃立平. 基于SOM神經(jīng)網(wǎng)絡(luò)的C-均值聚類算法[J]. 計算機應(yīng)用, 2007, 27(6): 51-52.
[13]MOON T K. The expectation-maximization algorithm[J]. Signal Processing Magazine, 1996, 13(6): 47-60.
[14]溫愛華, 李松. 基于廣義回歸神經(jīng)網(wǎng)絡(luò)的鐵路貨運量預(yù)測[J]. 鐵道運輸與經(jīng)濟, 2011, 33(2): 88-91.
[15]周昊, 鄭立剛, 樊建人, 等. 廣義回歸神經(jīng)網(wǎng)絡(luò)在煤灰熔點預(yù)測中的應(yīng)用[J]. 浙江大學(xué)學(xué)報(工學(xué)版), 2004, 38(11): 1479-1482.
[16]SENG T L, MARZUKI K, RUBIYAH Y, et al. Adaptive neuro-fuzzy control system by RBF and GRNN neural networks[J]. Journal of Intelligent & Robotic Systems, 1998, 23(2-4): 267-289.
Application of generalized regression neural network in spatial data clustering
LU Jianqin1, CHEN Yinzhu1, LIU Yuzhu1, ZHANG Jin2
(1. The Institution of Geological Surveying and Mapping, Hangzhou 310030,China; 2.School of Geography and Information Engineering,China University of Geosciences, Wuhan 430074, China)
Aiming at the problem that it is difficult to meet the requirement of spatial data clustering for the fuzzy C-means clustering algorithm due to the characteristics of spatial data itself, the paper proposed an improved spatial data clustering algorithm: the fuzzy C-means clustering algorithm was combined with the generalized regression neural network to get the generalized regression neural network-fuzzy C-means (GRNN-FCM) clustering algorithm, and GRNN-FCM was applied in spatial data clustering. Experiments showed that the proposed method would have better effect than the fuzzy C-means algorithm in spatial clustering, which could meet the requirements of actual spatial data clustering.
spatial data; spatial clustering; fuzzy C-means; generalized regression neural network-fuzzy C-means (GRNN-FCM); clustering effect
P228
A
2095-4999(2020)02-0031-05
盧建青,陳銀珠,劉玉珠,等. 廣義回歸神經(jīng)網(wǎng)絡(luò)在空間數(shù)據(jù)聚類中的應(yīng)用[J]. 導(dǎo)航定位學(xué)報, 2020, 8(2): 31-35.(LU Jianqin, CHEN Yinzhu, LIU Yuzhu, et al. Application of generalized regression neural network in spatial data clustering[J]. Journal of Navigation and Positioning, 2020, 8(2): 31-35.)
10.16547/j.cnki.10-1096.20200206.
2019-09-20
盧建青(1979—),男,廣東饒平人,碩士,注冊測繪師,高級工程師,研究方向為地理信息系統(tǒng)平臺設(shè)計開發(fā)及其應(yīng)用技術(shù)。
張錦(1995—),男,安徽合肥人,碩士研究生,研究方向為GNSS數(shù)據(jù)處理。