楊 娟,謝遠(yuǎn)濤
(1.中國(guó)人民大學(xué) 統(tǒng)計(jì)學(xué)院,北京100872;2.對(duì)外經(jīng)濟(jì)貿(mào)易大學(xué) 保險(xiǎn)學(xué)院,北京100029)
面板數(shù)據(jù)分析是計(jì)量經(jīng)濟(jì)學(xué)的一個(gè)重要組成部分,主要研究集中于混合模型、分層模型等領(lǐng)域,而面板數(shù)據(jù)的聚類分析研究還處于發(fā)展階段,數(shù)據(jù)挖掘中經(jīng)典聚類分析方法主要適用于截面數(shù)據(jù)的聚類。面板數(shù)據(jù)聚類主要討論兩類問題:如何度量數(shù)據(jù)對(duì)象的相似性以及采用何種聚類方法。度量相似性的方法分為兩種:距離和相似系數(shù)。主要的聚類方法可以劃分為五大類:基于劃分的、基于密度的、基于層次的、基于模型的和基于方格的,當(dāng)然還存在其他類型的聚類方法[1]184-188。
Bonzo等基于概率連接函數(shù)來定義相似系數(shù),采用改進(jìn)的自適應(yīng)模擬退火-遺傳算法優(yōu)化目標(biāo)函數(shù)[2]。Nie將不同時(shí)期的觀測(cè)給予不同權(quán)重,構(gòu)造距離函數(shù)[3]。朱建平等將單指標(biāo)面板數(shù)據(jù)轉(zhuǎn)化為截面數(shù)據(jù)做聚類分析[4]。張可等根據(jù)指標(biāo)的幾何特征,用擴(kuò)展灰色關(guān)聯(lián)度矩陣構(gòu)造相似矩陣[5]。任娟等用自適應(yīng)滑動(dòng)窗口分段方法提取面板數(shù)據(jù)中時(shí)序局部變化的形狀特征[6]。楊毅等用主成分分析提取面板數(shù)據(jù)指標(biāo)的特征,對(duì)面板數(shù)據(jù)進(jìn)行有序聚類分析[7]。李因果等用“絕對(duì)指標(biāo)”、“增量指標(biāo)”和“波動(dòng)指標(biāo)”構(gòu)造綜合距離函數(shù),使用專家調(diào)查法和熵權(quán)系數(shù)法確定距離函數(shù)的參數(shù),該方法適用于經(jīng)濟(jì)領(lǐng)域的面板數(shù)據(jù)聚類[8]。吳利峰等根據(jù)面板數(shù)據(jù)的凸性,提出用三維灰色凸關(guān)聯(lián)度構(gòu)造相似矩陣,這兩類方法適用于計(jì)算機(jī)控制和圖形處理領(lǐng)域的面板數(shù)據(jù)聚類[9]。
上述文獻(xiàn)計(jì)算新的相似性度量時(shí),根據(jù)面板數(shù)據(jù)的數(shù)字特征、形狀特征、動(dòng)態(tài)特征等構(gòu)造相似性度量,只提取了面板數(shù)據(jù)的部分特征,適用于特定數(shù)據(jù)類型的面板數(shù)據(jù)和聚類目的。
De la等提出了基于模型的多水平面板數(shù)據(jù)聚類方法,所用模型為混合非線性分層模型[10]。Juárez等提出基于模型的面板數(shù)據(jù)聚類方法,使用偏態(tài)厚尾的T分布的自回歸模型,根據(jù)數(shù)據(jù)的動(dòng)態(tài)特征、均衡水平、協(xié)方差來聚類[11]。Bonzo等使用了基于層次的聚類方法。Nie等使用基于密度的應(yīng)用噪聲的空間聚類方法(DBSCAN)。楊毅等用費(fèi)希爾最優(yōu)化求解法,重新定義了類間距離和損失函數(shù),討論了面板數(shù)據(jù)的有序聚類問題。
上述文獻(xiàn)中,基于模型的聚類方法的優(yōu)點(diǎn)是:能夠處理噪音數(shù)據(jù),具有可解釋性和實(shí)用性。不足之處:不能處理各種分布的面板數(shù)據(jù),需要根據(jù)數(shù)據(jù)的分布和一定的假設(shè)條件進(jìn)行模型的設(shè)定,需要設(shè)定分類的個(gè)數(shù),聚類效果對(duì)參數(shù)設(shè)定很敏感?;趯哟蔚木垲惙椒ㄐ枰孪却_定類的個(gè)數(shù)?;诿芏鹊膽?yīng)用噪聲的空間聚類方法(DBSCAN)需要確定兩個(gè)參數(shù)。
本文的創(chuàng)新之處:根據(jù)Logistic回歸模型,利用面板數(shù)據(jù)的各個(gè)指標(biāo)和整體特征構(gòu)造相似性度量,計(jì)算兩兩數(shù)據(jù)對(duì)象的相似系數(shù),構(gòu)造非對(duì)稱相似矩陣。針對(duì)非對(duì)稱相似矩陣,提出采用最佳優(yōu)先搜索和輪廓系數(shù)的BF-DBSCAN①Best-First Search,Density Based Spatial Clustering of Application with Noise,縮寫為BF-DBSCAN。Best-First Search,Density Based Spatial Clustering of Application with Noise,縮寫為BF-DBSCAN。面板數(shù)據(jù)聚類方法。
面板數(shù)據(jù)用Xi(t)m表示,數(shù)據(jù)對(duì)象總數(shù)為N,每個(gè)數(shù)據(jù)對(duì)象包含T個(gè)樣本和M個(gè)指標(biāo)或變量,其中i=1,2,…,N;t=1,2,…,T;m=1,2,…,M。任意數(shù)據(jù)對(duì)象i,其樣本記為i(t)。例如,全國(guó)2000—2011年的發(fā)展指標(biāo),北京市(數(shù)據(jù)對(duì)象i)第m個(gè)指標(biāo)記為xim,所有指標(biāo)記為xi;北京2011年(樣本i(2011))第m個(gè) 指 標(biāo) 記 為xi(2011)m,所 有 指 標(biāo) 記為xi(2011)。
Fisher于1919年提出Logistic回歸模型,1972年Nelder和Wedderburn首次提出廣義線性模型的概念,Logistic回歸模型是廣義線性模型的一種特例,響應(yīng)變量服從Bernoulli分布。
用Logistic回歸構(gòu)造相似系數(shù),將數(shù)據(jù)對(duì)象j的所有樣本看作一類,記作類Cj;其他數(shù)據(jù)對(duì)象的所有樣本看作為另一類,記作類Cj′。構(gòu)造面板數(shù)據(jù)的響應(yīng)變量Y,且Y~Bernoulli(π),響應(yīng)變量yj=1,yj′=0,其中j≠j′。
樣本i(t)屬于類Cj的概率為πi(t),其中i、j=1,2,…,N。πi(t)與i(t)的指標(biāo)xi(t)有關(guān),因此πi(t)=Pr (yi(t)=1|yj=1,xi(t)) ,其中yi(t)=1表示i(t)屬于類Cj,πi(t)表示條件概率。
定義1:給定yj=1和xi(t)的條件下,i(t)與j的相似系數(shù)記為s(i(t),j),s(i(t),j)為條件概率,即有s(i(t),j)=πi(t)=Pr (yi(t)=1|yj=1,xi(t))。
定義2:向量S(i(t),j)表示j和i所有樣本i(t)的相似系數(shù)。
定義3:給定yj=1和xi的條件下,i與j的相似系數(shù)記為s(i,j),即s(i,j)=f(S(i(t),j))。
計(jì)算相似系數(shù)s(i,j)的核心是確定函數(shù)f(·)。函數(shù)f(·)可以定義為取最大值、最小值、均值、中位數(shù)等。如果數(shù)據(jù)對(duì)象內(nèi)部結(jié)構(gòu)相似,而且數(shù)據(jù)對(duì)象之間分離較遠(yuǎn),采用不同的函數(shù)f(·),聚類結(jié)果差別不大。但是,如果數(shù)據(jù)對(duì)象之間分離得不夠好,或存在異常點(diǎn),或不是球形,或數(shù)據(jù)對(duì)象的樣本分布不夠均勻,采用不同的函數(shù)f(·),聚類結(jié)果差別將很大,具體論證參見Goldstein等的論文[12]。
還需要說明s(i,j)≠s(j,i),即兩兩數(shù)據(jù)對(duì)象的相似系數(shù)是不對(duì)稱的。給定數(shù)據(jù)對(duì)象j,i與j相似的系數(shù)為s(i,j)=f(S(i(t),j))。給定數(shù)據(jù)對(duì)象i,j與i相似系數(shù)為s(j,i)=f(S(j(t),i))。由于S(j(t),i)和S(i(t),j)是條件概率組成的列向量,因此s(i,j)≠s(j,i)。
定義4:非對(duì)稱相似矩陣Φ是一個(gè)N維方陣,一般s(i,j)≠s(j,i)。
根據(jù)以上定義,用Logistic回歸模型計(jì)算非對(duì)稱相似矩陣的具體過程如下:
輸入:面板數(shù)據(jù)Xi(t)m。
輸出:非對(duì)稱相似矩陣Φ。
步驟1:構(gòu)造面板數(shù)據(jù)的響應(yīng)變量Y,Y~Bernoulli(π),yj=1,yj′=0,其中j≠j′,j=1,2,…,N;
步驟2:用Logistic回歸模型計(jì)算i(t)和j的相似系數(shù)s(i(t),j),進(jìn)一步,確定函數(shù)f(·),計(jì)算i和j的相似系數(shù)s(i,j);
步驟3:循環(huán)執(zhí)行以上步驟,直到每個(gè)數(shù)據(jù)對(duì)象的響應(yīng)變量都曾經(jīng)被設(shè)置為1,或者直到所有相似系數(shù)s(i,j)組成非對(duì)稱相似矩陣Φ。
1996年 DBSCAN(Density Based Spatial Clustering of Application with Noise)方法由Ester等提出,它是一種典型的基于密度的聚類算法[13]226-231。DBSCAN方法的基本思想是:數(shù)據(jù)對(duì)象i和j為同一族的條件是i和j是密度相連的。數(shù)據(jù)對(duì)象是噪音的條件是該數(shù)據(jù)對(duì)象到任何一個(gè)其他數(shù)據(jù)對(duì)象都不密度相連。
給定數(shù)據(jù)對(duì)象i和參數(shù)ε,以i為圓心,以ε為半徑畫圓,該圓范圍內(nèi)的數(shù)據(jù)對(duì)象為i的ε鄰域。
給定參數(shù)MinPts,如果i的ε鄰域內(nèi)包含數(shù)據(jù)對(duì)象的個(gè)數(shù)大于等于MinPts,則稱i為核心對(duì)象,如果i的ε鄰域內(nèi)包含數(shù)據(jù)對(duì)象的個(gè)數(shù)小于MinPts,稱i為邊界對(duì)象。
直接密度可達(dá)的定義:給定數(shù)據(jù)集,如果i是一個(gè)核心對(duì)象,且j在i的ε鄰域內(nèi),則i到j(luò)直接密度可達(dá)。密度可達(dá)的定義:給定數(shù)據(jù)對(duì)象k1,k2,…,kN,任意數(shù)據(jù)對(duì)象ki,其中i=1,2,…,N,存在ki到ki+1直接密度可達(dá),則稱k1到kN密度可達(dá)。密度相連的定義:對(duì)象集合中存在一個(gè)數(shù)據(jù)對(duì)象k,如果k到數(shù)據(jù)對(duì)象i和j密度可達(dá),則稱數(shù)據(jù)對(duì)象i和j密度相連。所有密度相連的數(shù)據(jù)對(duì)象的集合稱為族。DBSCAN方法的過程為:
輸入:橫截面數(shù)據(jù)集,參數(shù)ε和MinPts。
輸出:聚類結(jié)果。
步驟1:從任意數(shù)據(jù)對(duì)象i開始,通過寬度優(yōu)先(breadth-first)搜索所有與i密度可達(dá)的數(shù)據(jù)對(duì)象,如果數(shù)據(jù)對(duì)象i是核心對(duì)象,將它們記為同一族。如果數(shù)據(jù)對(duì)象i是邊界對(duì)象,就將之記為噪音,直到找到一個(gè)完整的族;
步驟2:隨機(jī)選取一個(gè)新的數(shù)據(jù)對(duì)象i′進(jìn)行處理,得到下一個(gè)族。算法一直進(jìn)行下去,直到所有的數(shù)據(jù)對(duì)象都被標(biāo)記過為止。
目前經(jīng)典的聚類方法都是基于對(duì)稱的相似矩陣,不適用于非對(duì)稱的相似矩陣。對(duì)于非對(duì)稱相似矩陣,DBSCAN聚類方法從任意一個(gè)核心對(duì)象j開始,如果i到j(luò)直接密度可達(dá),那么i和j為同一族。但是,如果從核心對(duì)象i開始,由于相似系數(shù)s(i,j)≠s(j,i),不一定有j到i直接密度可達(dá),那么i和j不在同一個(gè)族。因此用DBSCAN方法分析非對(duì)稱相似矩陣,如果從任意的核心對(duì)象開始,每次分析得到的聚類結(jié)果將不相同。因此,不能選擇任意的數(shù)據(jù)對(duì)象作為核心對(duì)象,為了解決這個(gè)問題,本文提出了基于最佳優(yōu)先搜索和輪廓系數(shù)的BF-DBSCAN聚類方法,用R語(yǔ)言編程實(shí)現(xiàn)。
啟發(fā)式搜索(heuristic search)利用問題自身的某些特征信息來指導(dǎo)搜索過程,可以大大減少搜索空間,提高搜索的效率。本文采用一種啟發(fā)式算法——最佳優(yōu)先搜索算法對(duì)DBSCAN方法進(jìn)行改進(jìn),命名為BF—DBSCAN。
最佳優(yōu)先搜索(best-first search)算法的基本原理是,根據(jù)啟發(fā)評(píng)估函數(shù)的計(jì)算結(jié)果,總是選擇代價(jià)最小的那條路徑向下搜索。在搜索過程中通過不斷地放棄代價(jià)較大的路徑,從而最終找到代價(jià)最小的問題求解答案,朝著最有希望的方向前進(jìn),加快問題的求解過程。評(píng)估數(shù)據(jù)對(duì)象重要性的函數(shù)稱為啟發(fā)評(píng)估函數(shù),一般形式為:w(j)=g(j)+h(j)。g(j)是從任意數(shù)據(jù)對(duì)象j開始,到起始對(duì)象的路徑實(shí)際長(zhǎng)度,h(j)是數(shù)據(jù)對(duì)象j到目標(biāo)距離的啟發(fā)性估計(jì)[14]93-107。
1990年Kaufman提出輪廓系數(shù)(Silhouette Coefficient)從族內(nèi)部結(jié)構(gòu)的緊密型和族間結(jié)構(gòu)的可分性這兩個(gè)方面對(duì)聚類有效性進(jìn)行分析,用于確定最優(yōu)聚類數(shù)和聚類質(zhì)量評(píng)價(jià)[15]108-117。和其他的聚類有效性函數(shù)相比較,輪廓系數(shù)具有良好的評(píng)價(jià)能力,得到廣泛應(yīng)用[16]。為了更好地分析非對(duì)稱相似矩陣,本文用輪廓系數(shù)來評(píng)價(jià)數(shù)據(jù)對(duì)象j內(nèi)部樣本結(jié)構(gòu)的緊密性,以及j和其他數(shù)據(jù)對(duì)象間的可分性。
定義5:?jiǎn)l(fā)評(píng)估函數(shù)w(j)=g(j)+h(j),令g(j)=0,h(j)=SCj,其中SCj為數(shù)據(jù)對(duì)象j的輪廓系數(shù)。
輪廓系數(shù)取值為-1和1之間,其值越大表示數(shù)據(jù)對(duì)象作為單獨(dú)一類的質(zhì)量越好。對(duì)于非對(duì)稱相似矩陣,DBSCAN方法從任意對(duì)象開始搜索,會(huì)增加很多的搜索空間,因此令h(j)=SCj,計(jì)算每個(gè)數(shù)據(jù)對(duì)象的SCj值,按照SCj降序進(jìn)行排序,將內(nèi)部緊密性和類間可分性最好的數(shù)據(jù)對(duì)象排在最前面,優(yōu)先選取直接密度可達(dá)的數(shù)據(jù)對(duì)象,極大地減少了原來DBSCAN的搜索空間。
BF—DBSCAN方法的基本思路是:按照啟發(fā)評(píng)估函數(shù)值的大小,從啟發(fā)函數(shù)值最大的數(shù)據(jù)對(duì)象j開始擴(kuò)展。如果j是核心對(duì)象,且與i是直接密度可達(dá)的,那么j和i屬于同一個(gè)族;如果j為邊界對(duì)象,那么j為一個(gè)噪音。然后按照啟發(fā)函數(shù)值從大到小的順序,處理下一個(gè)數(shù)據(jù)對(duì)象。直到每個(gè)數(shù)據(jù)對(duì)象都被標(biāo)記過為止。所有密度相連的數(shù)據(jù)對(duì)象為同一族。
如果聚類分析的目的是為每一個(gè)數(shù)據(jù)對(duì)象找到相應(yīng)的族,在噪音的處理上,通過確定每個(gè)族的中心點(diǎn),那么噪音數(shù)據(jù)對(duì)象就屬于離它最近的族。如果聚類的目的是找出噪音數(shù)據(jù),就不必對(duì)噪音進(jìn)行任何處理。面板數(shù)據(jù)聚類的步驟如下:
輸入:面板數(shù)據(jù),參數(shù)ε和MinPts。
輸出:聚類結(jié)果。
步驟1:用Logistic回歸模型計(jì)算兩兩數(shù)據(jù)對(duì)象相似系數(shù),組成非對(duì)稱相似矩陣Φ;
步驟2:計(jì)算SCj的值,按照SCj的降序排列每個(gè)數(shù)據(jù)對(duì)象的優(yōu)先次序,記為Φ′= {1,2,…,N};
步驟3:在相 似矩陣Φ′= {1,2,…,N}中,從SCj最大的數(shù)據(jù)對(duì)象j開始,如果j是核心對(duì)象,在ε鄰域內(nèi)搜索所有與j直接密度可達(dá)的數(shù)據(jù)對(duì)象,記為同一個(gè)族;如果j是邊界對(duì)象,則記為噪音;
步驟4:按照SCj降序處理下一個(gè)數(shù)據(jù)對(duì)象,所有密度相連的數(shù)據(jù)對(duì)象的集合為同一族。算法一直進(jìn)行下去,直到所有的數(shù)據(jù)對(duì)象都被標(biāo)記過為止;
步驟5:噪音的處理。計(jì)算每個(gè)族的中心點(diǎn),噪音數(shù)據(jù)對(duì)象屬于離它最近族。直到所有噪音數(shù)據(jù)對(duì)象都被標(biāo)記過為止。
采用中國(guó)人民大學(xué)數(shù)據(jù)與調(diào)查中心編制的中國(guó)發(fā)展指數(shù)(RCDI),從2005年到2011年,共31個(gè)省份的四個(gè)分指數(shù):健康指數(shù)X1、教育指數(shù)X2、生活指數(shù)X3和經(jīng)濟(jì)指數(shù)X4。我們從三個(gè)方面考察BF—DBSCAN聚類結(jié)果的有效性:首先,比較面板數(shù)據(jù)聚類結(jié)果和截面數(shù)據(jù)聚類結(jié)果;然后,比較DBSCAN和BF—DBSCAN的聚類結(jié)果;最后,比較參數(shù)ε的設(shè)置對(duì)BF—DBSCAN聚類結(jié)果的影響。
表1 比較BF-DBSCAN和DBSCAN的聚類結(jié)果表
根據(jù)該面板數(shù)據(jù)的形狀,f(·)取最大值,參數(shù)ε=0.17和 MinPts=1,計(jì)算得到非對(duì)稱相似矩陣Φ,分別使用BF—DBSCAN和DBSCAN方法,聚族結(jié)果如表1所示。同BF—DBSCAN的聚類結(jié)果相比較,如果從不同的數(shù)據(jù)對(duì)象開始,每次DBSCAN方法得到的聚類結(jié)果不相同,例如,從任意數(shù)據(jù)對(duì)象i開始的DBSCAN方法,在第V族中,山東和西藏等省份在一起。然而,從任意數(shù)據(jù)對(duì)象j開始的DBSCAN方法,將山東和甘肅、天津等省份分在第III族,將甘肅和天津分為一族,這樣的聚類結(jié)果顯然是不合理的。因此,基于Logistic回歸計(jì)算的非對(duì)稱相似矩陣,不能直接使用經(jīng)典的DBSCAN聚類方法,使用BF—DBSCAN方法,可以得到合理的聚類結(jié)果。
使用Logistic回歸模型,當(dāng)f(·)取最大值,MinPts=1,參數(shù)ε取不同值時(shí),BF—DBSCAN聚類結(jié)果如表2所示。ε取不同值,第I、II、VI族的聚類結(jié)果完全相同,ε的值越大,噪音數(shù)據(jù)對(duì)象越多,族的劃分越細(xì),其中ε=0.17聚類結(jié)果較好。BF—DBSCAN和DBSCAN面臨同樣的問題,不同的參數(shù)設(shè)置對(duì)聚類結(jié)果較敏感,因此BF—DBSCAN方法聚類具有一定的靈活性,需要調(diào)整參數(shù),才能得到理想的聚類結(jié)果。
表2 參數(shù)ε取不同值的BF-DBSCAN聚類結(jié)果表
根據(jù)歷年發(fā)布的中國(guó)發(fā)展指數(shù)的聚類結(jié)果,見表1和表3中BF—DBSCAN的聚類結(jié)果。從2005年、2008年及2011年中國(guó)發(fā)展指數(shù)的聚類結(jié)果來看①2005年聚類結(jié)果參見《中國(guó)發(fā)展指數(shù)的編制研究》,中國(guó)人民大學(xué)學(xué)報(bào)2007年第2期;2008年聚類結(jié)果參見《中國(guó)發(fā)展指數(shù)(2008)編制成果研究》,中國(guó)人民大學(xué)學(xué)報(bào)2009年第1期;2011年聚類結(jié)果參見彭非等人著作第136~137頁(yè)。,中國(guó)31個(gè)省份主要分為四大類,其中第一類的始終沒有變化,只有北京和上海。第二類的變化不大,其中天津、浙江、江蘇、廣東一直穩(wěn)居第二類,但是福建、遼寧、吉林在2011年下降到第三類,山東從2005年的第三類上升到2011年的第二類。第三類中省份越來越多,第四類中省份越來越少,其中新疆從2005年和2008年的第三類下降到2011年的第四類,重慶、海南、廣西、寧夏、江西、四川、安徽從2005年的第四類上升到2011年的第三類,說明中國(guó)中西部地區(qū)發(fā)展速度較快,中西部省份與東部省份的發(fā)展差距逐年縮小。
表3 RCDI-2005、2008、2011年聚類結(jié)果比較表
從BF—DBSCAN的聚類結(jié)果來看,如表1中第二列所示,將31個(gè)省份劃分為6大類,第I類對(duì)應(yīng)截面數(shù)據(jù)聚類的第一類,只有北京和上海;第IV類對(duì)應(yīng)第二類;第III類對(duì)應(yīng)第三類;第V類對(duì)應(yīng)第四類;而第II類的海南、廣西,第VI類的新疆和陜西難以確定類別。由于海南和廣西、新疆和陜西發(fā)展速度的波動(dòng)幅度較大,處于一種發(fā)散的狀態(tài),因此它們處于第三類和第四類之間。
比較BF—DBSCAN和截面數(shù)據(jù)的聚類結(jié)果,矛盾點(diǎn)在于:在BF—DBSCAN中,天津被劃分為第三類,而內(nèi)蒙古、河北被劃分為第二類。在截面數(shù)據(jù)聚類中,天津始終被劃分為第二類,內(nèi)蒙古、河北被劃分為第三類。由于天津、內(nèi)蒙古和河北綜合發(fā)展速度處于上下波動(dòng)的的狀態(tài),因此在BF—DBSCAN聚類結(jié)果中,天津和第三類省份比較接近,內(nèi)蒙古、河北和第二類省份比較接近。
綜上所述,比較BF—DBSCAN聚類結(jié)果和截面數(shù)據(jù)聚類結(jié)果,說明了BF—DBSCAN聚類結(jié)果的合理性,充分反映了7年來中國(guó)31個(gè)省份發(fā)展指數(shù)變化的綜合情況。
用Logistic回歸計(jì)算相似系數(shù),能夠充分利用面板數(shù)據(jù)的各個(gè)指標(biāo),從整體上得到兩兩數(shù)據(jù)對(duì)象的相似系數(shù)和非對(duì)稱相似矩陣。對(duì)于非對(duì)稱相似矩陣,提出BF—DBSCAN聚類方法。實(shí)例分析表明,相對(duì)于DBSCAN,BF—DBSCAN方法的聚類結(jié)果較為理想,由于Logistic回歸模型適合分類變量和連續(xù)變量,因此BF—DBSCAN方法也適用于分類變量和連續(xù)變量的面板數(shù)據(jù)。同DBSCAN方法一樣,BF—DBSCAN方法不需要事先確定族的個(gè)數(shù),對(duì)參數(shù)的設(shè)置比較敏感。因此,基于密度的面板數(shù)據(jù)聚類方法具有較好有效性和實(shí)用性。
[1] 王珊,李翠平,李盛恩,等.?dāng)?shù)據(jù)倉(cāng)庫(kù)與數(shù)據(jù)分析教程[M].北京:高等教育出版社,2012.
[2] Bonzo D C,Hennoeilla A Y.Clustering Panel Data Via Perturbed Adaptive Simulated Annealing and Genetic Algorithms[J].Advances in Complex Systems,2002,5(4).
[3] Nie G,Chen Y,Zhang L,Guo Y.Credit Card Customer Analysis Based on Panel Data Clustering[J].Procedia Computer Science,2010(1).
[4] 朱建平,陳民懇.面板數(shù)據(jù)的聚類分析及其應(yīng)用[J].統(tǒng)計(jì)研究,2007(4).
[5] 張可,劉思峰.灰色關(guān)聯(lián)聚類在面板數(shù)據(jù)中的擴(kuò)展及應(yīng)用[J].系統(tǒng)工程理論與實(shí)踐,2010,30(7).
[6] 任娟,陳圻.基于形狀特征的多指標(biāo)面板數(shù)據(jù)聚類方法及其應(yīng)用[J].統(tǒng)計(jì)與信息論壇,2011,26(10).
[7] 楊毅,趙國(guó)浩,秦愛民.面板數(shù)據(jù)的有序聚類分析及應(yīng)用——以全球氣候變化聚類分析為例[J].統(tǒng)計(jì)與信息論壇,2012,27(7).
[8] 李因果,戴翼,何曉群.基于自適應(yīng)權(quán)重的面板數(shù)據(jù)聚類方法[J].系統(tǒng)工程理論與實(shí)踐,2013(2).
[9] 吳利峰,劉思峰.基于灰色凸關(guān)聯(lián)度的面板數(shù)據(jù)聚類方法及應(yīng)用[J].系統(tǒng)工程理論與實(shí)踐,2013(7).
[10]De la Cruz-Mesía R,Quintana F A,Marshall G.Model-Based Clustering for Longitudinal Data[J].Computational Statistics &Data Analysis,2008,52(3).
[11]Juárez M A,Steel M F J.Model-Based Clustering of Non-Gaussian Panel Data based on Skew-t Distributions[J].Journal of Business & Economic Statistics,2010,28(1).
[12]Goldstein J,Ramakrishnan R,Shaft U.Compressing Relations and Indexes[C]∥Data Engineering,Proceedings,14th International Conference on IEEE,1998.
[13]Ester M,Kriegel H-P,Sander J,Xu X.A Density-Based Algorithm for Discovering Clusters in Large Spatial Databases with Noise[C]∥ Published in Proceedings of 2nd International Conferene on Knowledge Discovery and Data Mining(KDD-96),1996.
[14]Luger G F.人工智能——復(fù)雜問題求解的結(jié)構(gòu)和策略[M].北京:機(jī)械工業(yè)出版社,2004.
[15] Kaufman L,Rousseeuw P J.Finding Groups in Data:An Introduction to Cluster Analysis [M].New York:Wiley.2009.
[16]Dudoit S,F(xiàn)ridlyand J.A Prediction-Based Resembling Method for Estimating the Number of Clusters in a Dataset[J].Genome Biology,2002,3(7).