韓 玉,黨宏鵬,朱 猛
(東北電力大學 理學院,吉林 吉林 132012)
隨著現代數據存儲技術的發(fā)展,海量數據庫的內在規(guī)律愈加復雜難辨.在對海量數據進行分類挖掘時,傳統的聚類方法面臨諸多的局限[1].事實上,某種聚類分析方法僅僅適用于分析數據中的某類規(guī)律,如果忽略模型的適用前提和聚類對象的具體特點,簡單地套用傳統聚類模型將難以取得理想的分類效果.關于如何解決傳統聚類方法,處理現有海量數據問題,很多學者進行了很多有益的探討.國內學者劉瑞元[2]定義了加權歐氏距離,并討論了它的性質,并應用加權歐氏距離對2000年奧運金牌榜前10名的國家進行了加權聚類分析.在傳統聚類分析的基礎上,加權聚類分析方法考慮了指標之間重要性的差異,但沒有考慮指標之間存在高度相關性的因素.王慶豐[3]采用主成分分析與聚類分析相結合的集成方法(即一般主成分聚類分析方法)將指標降維成若干相互獨立的主成分因子[4],進而以等權的主成分因子代替原始指標對我國各地區(qū)人口素質差異進行聚類分析.一般主成分聚類是在忽略主成分因子的特征權重的條件下進行聚類,雖然解決了指標之間的高度相關性,但又忽略了因子特征權重的影響,特征權重是對主成分因子進行賦權,再對賦權的主成分因子進行聚類,這樣便加大了第一主成分對分類的影響,也會對分類的精度產生影響.
基于現有的聚類方法,本文基于已有聚類及主成分分析方法,提出一種新的聚類方法——加權主成分距離聚類方法.加權主成分距離聚類是按特征權重,對主成分因子進行賦權,這樣可使各主成分的重要性保持著原有的比例關系.
傳統的聚類分析多是基于樣本(指標)之間距離(相關系數)的親疏關系進行分類[5~9],相似性度量不但取決于指標之間的親疏程度,而且依賴于指標重要性的內在差異.因此,用于構建聚類統計量的指標選擇至為重要.傳統的聚類算法要求描述樣本的指標重要性相同,并且彼此獨立,然而對于復雜的海量數據庫,系統層次結構的指標體系中各指標重要性相差懸殊,指標之間不可避免地會有信息的重疊.如果對存有高度共線性的指標不加處理,直接聚類,那么聚類統計量將同類指標重復計算,過于放大共線性指標的作用,而淹沒獨立性指標的貢獻,導致分類結果失真.應用傳統聚類模型處理實際分類問題,為了克服指標體系的高度共線性,往往是定性分析指標之間的機理關系,再主觀刪除信息重疊的指標,這樣以達到聚類指標彼此獨立.例如通過專家打分賦予不同指標相應的權重,以體現指標重要性的差異.顯然,定性地篩選指標和主觀賦權,需要對每一指標的實際意義有深入的了解,并且要求分析者具有相關的領域知識和客觀公正的賦權標準,這在實際應用中難以保證.
主成分分析方法是降低數據空間維度的重要方法[10],其分析結果是將原始錯綜復雜的指標體系通過線性變換轉化為少數相互獨立的主成分綜合指標,并且要求低維主成分空間能夠體現原始指標體系的絕大部分信息.一般主成分聚類分析方法,首先應用主成分分析克服原始指標之間的共線性影響,再用少數主成分代替原始指標進行聚類.值得肯定的是,主成分聚類克服了傳統聚類模型不能處理指標之間高度共線性的不足,但應該注意到,不同主成分體現原始指標體系信息的能力(方差貢獻率)往往相差懸殊,如果忽略不同主成分重要性的客觀差異,不加區(qū)別地直接將主成分代替原始指標聚類,則必然會影響主成分聚類分析的準確性.
設F1,F2,,Fs(s≤p)為提取的主成分因子的列向量,其中Fi=(Fi1,,Fip).假設所提取主成分因子F1,F2,,Fs對應的特征值分別為λ1,λ2,,λs,且λ1≥λ2≥≥λs,
(1)
式中:dij(q)為樣本Ii與Ij之間的距離,dij(q)越小(大)表示兩樣本接近程度越大(小).不難發(fā)現,該距離定義直接將主成分因子代替原始指標聚類,在實際運用時存在一個前提假設,即s個主成分因子對分類的重要性均相等,即主成分因子的特征權重β1=β2==βs.然而,由于提取主成分因子時已假設β1≥β2≥≥βs,因此,dij(q)樣本距離定義的前提假設與主成分因子提取的前提假設相違背,采用等權的主成分因子代替原始指標直接進行聚類分析,便削弱了特征權重較大的第一主成分因子的重要性,同時放大了特征權重較小的其他主成分因子的重要性,從而導致一般主成分聚類分析方法的分類結果失真.
借鑒主成分聚類分析思想,考慮主成分體現原始指標信息含量的差異性[11],本文通過賦予各主成分相應的客觀權重體現其重要程度的不同,從而定義加權主成分距離為分類統計量,定義第i個樣本和第j個樣本之間的加權主成分距離為
(2)
通過主成分分析的特征提取,加權主成分聚類分析既剔除了原始指標共線性的重疊信息,又體現了各主成分包含原始指標信息含量的差異.
顯然在該距離的定義中,主成分因子Fk(k=1,2,3,,s)對距離dij(q)的權重實際可理解為
針對上述聚類分析方法在特定情形下的失真問題,本文提出加權主成分距離聚類分析方法.設為F1,F2,,Fs(sp)由p維指標向量X=(x1,x2,xp)提取的主成分因子列向量.假設所提取主成分因子F1,F2,,Fs對應的特征值分別為λ1,λ2,,λs,且為主成分因子Fk所對應的特征權重,于是有采用一般主成分聚類分析方法所定義的樣本Ii與Ij之間的距離為
(3)
其中:與公式(2)不同的地方,公式(3)是按照主成分因子對應的權重對不同主成分因子下的距離進行加權,由此進行聚類分析.聚類距離的定義需要滿足非負性、對稱性和三角不等式,不難證明公式(3)滿足上述三條性質.與現有聚類分析改進的研究成果相比,加權主成分距離聚類的核心優(yōu)勢在于,同時克服了經典聚類分析存在的兩個典型缺陷:(1)通過主成分的特征提取,剔除了原始指標體系高度的重疊信息;(2)每一主成分的距離權重βk來源于原始指標數據,體現了不同主成分聚類效率的差異,并且對各主成分因子下的樣本距離賦權,但沒有改變各主成分因子對分類重要的比例關系,賦權準則客觀合理.加權主成分距離聚類的具體步驟如下:
步驟 1:比較原始指標數據數量級和離散程度的差異,從而確定是采用標準化處理后的無量綱數據,還是采用非標準化的原始數據;
步驟 2:計算指標的相關系數矩陣、KMO檢驗與Bartlett球形檢驗值及顯著性水平,以判斷樣本數據是否適宜進行主成分分析,如符合則進入步驟3;
步驟 3:進行主成分分析,計算相關系數矩陣或協方差矩陣的特征值和特征向量,以及各主成分因子的貢獻率和累計貢獻率,提取主成分因子,并結合因子載荷矩陣對所提取的主成分因子進行命名;
步驟 4:將所提取的主成分因子代替原始指標,采用本文所定義的公式(3)加權主成分距離,為分類統計量進行聚類,并結合實際情況確定樣本的所屬類別.
客觀公正地評判模型的分類質量是困難而復雜的問題,目前沒有評判所有聚類模型有效性的統一標準.在眾多的評判標準中,比較客觀的是將聚類模型的分類結果與預先已知的本來類屬進行對比,以錯分率為標準判斷不同聚類模型的優(yōu)劣.為驗證拓展聚類模型的有效性,本文選用三個不同品種鳶尾花,將其花瓣長度、花瓣寬度、萼片長度、萼片寬度四個指標生成原始數據,下面說明原始指標間的信息高度重疊.按照累計貢獻率≥85%的原則,提取了兩個主成分因子,主成分因子的特征值、方差貢獻率、和因子載荷矩陣見表1.
表1 主成分分析結果
表1結果顯示,所提取的兩個主成分因子的累計貢獻率達到了95.55%,能夠反映原指標變量的大量信息.由特征值知第一主成分所含信息量是第二主成分因子的3倍,說明兩個主成分因子對分類重要性差異較大.因此忽略兩個主成分因子對分類重要性的客觀差異,而只是采用一般主成分聚類分析方法對兩個主成分因子等權重地進行聚類,一方面無法顯現出第一主成分因子對于提高分類質量的突出作用,另一方面還會過于放大第二主成分因子的作用,導致低效率的分類結果.而如果采用加權主成分聚類分析方法,先按特征權重對主成分因子賦權,再對賦權的主成分因子進行聚類,雖然考慮了不同主成分因子對分類重要性的客觀差異,但其放大了第一主成分因子對分類的重要性,分類結果的精度亦難以保證.
本文分別用傳統聚類方法、一般主成分聚類方法、加權主成分聚類方法和加權主成分距離聚類方法對標準化處理后的鳶尾花無量綱數據進行聚類分析.由于距離維數對分類結果有影響,本文分別測量并對比的在距離維數q=2,q=3,q=4情形下的各聚類的效果,如表2所示.
表2 不同聚類方法的分類效果
由表2可知,在q=2時,以錯分率為標準,聚類的優(yōu)劣次序為加權主成分距離聚類、加權主成分聚類、一般主成分聚類、傳統聚類.在q=3和q=4時,以錯分率為標準,聚類的優(yōu)劣次序為加權主成分距離聚類、一般主成分聚類、加權主成分聚類、傳統聚類.
根據分類結果來看,傳統聚類的分類效果最差,一般主成分聚類和加權主成分聚類的效果也不理想.結合表1的計算結果,其原因是各指標之間存在較高的相關性,并且本文提取的兩個主成分因子的信息含量分別為72.073%和23.477%.采用一般主成分聚類分析方法的時候減弱第一主成分的作用增強第二主成分的作用,因此導致分類效果不明顯.采用加權主成分聚類分析方法的時放大了第一主成分的作用(特別是在q=3和q=4時),因此導致結果失真.
通過以上的分析,在相同情況下,用不同的分析方法得到不同的分析結果,顯然可以看出加權主成分距離聚類方法的錯分率要遠低于其他的幾種方法,這為聚類方法提供了一種更為嚴謹的分類方案,顯然這種聚類方案要優(yōu)于其他的幾種聚類方案,而維數對結果的影響并不是很大.
統計分析模型的層出不窮為學術研究提供了廣闊的選擇空間,但是如果對統計分析方法的理論基礎、適用性前提以及存在的問題缺乏深入理解,可能陷入統計方法的研究誤區(qū).指標之間的高度相關性導致傳統的聚類分析方法無法取得良好的分類效果,通過主成分分析的方法可以將多維數據降至低維,避免指標之間的高度相關性對聚類產生影響.理論研究和實驗結果證明加權主成分距離聚類的優(yōu)點,在各主成分分子信息含量相差不大的時候等同于一般主成分聚類,在第一主成分信息含量遠遠大于其他主成分信息含量的情況下,避免了采用加權主成分聚類過度放大了第一主成分作用的因素.但是在原始指標變量之間相關較弱不具備主成分聚類分析的條件時,加權主成分距離聚類可能會失效,此時采用傳統聚類分析方法較好.