• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      主成分分析與VARCLUS在綜合評價中的異同比較

      2010-12-13 03:30:54朱玉清楊寶玉李瑞閣
      統(tǒng)計與決策 2010年22期
      關(guān)鍵詞:特征值變異聚類

      朱玉清,楊寶玉,李瑞閣

      (南陽理工學院 應用數(shù)學系,河南 南陽473004)

      主成分分析與VARCLUS在綜合評價中的異同比較

      朱玉清,楊寶玉,李瑞閣

      (南陽理工學院 應用數(shù)學系,河南 南陽473004)

      主成分分析和VARCLUS是兩種較重要的多元統(tǒng)計分析方法 ,二者既存在一定的聯(lián)系,又有著明顯的區(qū)別。文章從方法、概念、基本思想、數(shù)學模型、綜合指標數(shù)目的判斷方法、計算過程諸方面,較詳盡地探討二者的異同,并舉例說明二者在實際問題中的應用。

      主成分分析;VARCLUS分析;綜合評價

      1 問題的提出

      主成分分析和VARCLUS表面上看是完全不同的兩種多元統(tǒng)計方法,實質(zhì)上二者之間既有著密切的聯(lián)系,又有著明顯的區(qū)別。兩種方法均可對相關(guān)性較強的多指標,用為數(shù)較少的、互不相關(guān)的新指標提取出原指標的大部分信息,達到降維的目的,并利用新指標的得分加權(quán)平均,計算綜合得分,從而對評價對象作出科學的評價。在解決實際問題時,可根據(jù)需要選擇適當?shù)姆椒ā?/p>

      2 主成分分析與VARCLUS的聯(lián)系與區(qū)別

      2.1 方法簡介

      主成分分析是將多個相關(guān)性較強的指標化為少數(shù)幾個互不相關(guān)的綜合指標的多元統(tǒng)計方法。本文一方面利用SPSS軟件,先對變量指標進行主成分分析,選取變量的主成分,保存主成分變量,計算出主成分得分及綜合得分,并進行綜合排名。

      另外,Varclus過程是SAS軟件對相關(guān)性較強的多指標變量進行聚類分析的過程,在完成變量聚類的同時也確定了變量類內(nèi)的公因子,據(jù)此也可計算公因子得分及綜合得分,并進行綜合排名。

      2.2 主要聯(lián)系

      兩種方法的出發(fā)點都是變量的相關(guān)系數(shù)矩陣(或協(xié)方差陣),在損失較少信息的前提下,把多個變量指標(存在較強的相關(guān)性)綜合成少數(shù)幾個綜合變量研究總體各方面信息的多元統(tǒng)計方法。二者均是考察多個變量相關(guān)性的多元統(tǒng)計方法,均能通過少數(shù)幾個彼此不相關(guān)的主分量解釋多個變量間的內(nèi)部結(jié)構(gòu),達到降維的目的。計算因子得分及綜合得分,對評價對象指標進行排序,作出科學的評價。

      2.3 主要區(qū)別

      (1)方法不同

      SPSS是先確定主成分 (由諸變量的線性組合構(gòu)成),計算主成分得分及綜合得分,再按綜合得分對評價對象進行排序;SAS的VARCLUS是邊對變量聚類邊確定各自的公因子(由同類變量的線性組合構(gòu)成),計算因子得分及綜合得分,再按綜合得分對評價對象進行排序。

      (2)概念不同

      主成分分析是將多個指標化為少數(shù)互相無關(guān)的綜合指標的統(tǒng)計方法。VARCLUS是對一組數(shù)值變量進行系統(tǒng)聚類或逐步聚類,聚類的選擇要使每一類的第一主成分或重心分量所解釋的變異為最大。它是將一組數(shù)值變量分成不相交的或分層的類,提取出每一類的類內(nèi)變量的線性組合作為公因子,因此又稱主成分聚類。

      (3)基本思想不同

      主成分分析是將原來眾多具有一定相關(guān)性的指標重新組合成一組新的相互無關(guān)的綜合指標代替原來指標。VARCLUS是通過聚類及聚類選擇,確定每一類的類內(nèi)變量線性組合代替原變量指標。

      (4)數(shù)學模型不同

      主成分分析的數(shù)學模型實質(zhì)上是一種變換,通過變量變換選取具有較大變差的主成分,舍棄那些變差小的主成分。VARCLUS是通過聚類的選擇要使每一類的第一主成分或重心分量所解釋的變異為最大。

      (5)綜合指標數(shù)目的判斷方法不同

      主成分分析綜合指標數(shù)目可由主成分貢獻率(一般達到85%以上),協(xié)方差陣的特征值(一般取大于1的)或崖底碎石圖的陡緩變化分界點值來確定等等。VARCLUS可由特征值確定(一般特征值大于1,停止分類),按解釋變異的百分比最小或第二特征值最大進行分類或由VARCLUS聚類信息表提供的信息進行分類。

      (6)因子綜合得分的表達式不同

      3 實例分析

      表1 主成分系數(shù)及方差的解釋表

      表1為某年各地農(nóng)民生活費用支出數(shù)據(jù),其中area為地區(qū)、x1為食品、x2為衣著、x3為燃料、x4為住房、x5為生活用品及其他、x6為文化生活服務支出。試對本年度各省份農(nóng)民生活費用支出進行綜合評價。

      (1)SPSS軟件進行主成分分析

      利用SPSS的Analyze-Data Reduction-Factor Analysis過程對變量做主成分分析,雖然主成分的特征值只有兩個大于1,一般取前兩個主成分,但從崖底碎石圖看前四個主成分散點位于陡坡上,后兩個形成平臺,較平緩;從變量的共同度看,所有變量的共同度均在90%以上,提取這四個主成分對各變量有很強的解釋力。按公共因子個數(shù)的大樣本檢驗,可解得 m<3,這里樣本數(shù) n=28較大,m相對于p較小,假設(shè)常被拒絕,導致保留更多的因子,且為了減少信息損失,使綜合評價和后面的聚類分析最大程度地接近原始狀態(tài)。本文選前四個主成分,此時累計方差貢獻率為96.121%(表1),相應的四個主成分分別為(主成分系數(shù)見表1)

      其次保存各主成分得分見表 2,利用 SPSS的 Transform-Compute過程,由公式

      計算出綜合得分見表2。

      最后利用SPSS的Rank-Cases過程,按照綜合得分對該年度各地區(qū)農(nóng)民生活費用支出進行綜合排序(表2)

      (2)SAS 軟件進行變量聚類分析

      利用SAS的VARCLUS過程編程對變量進行聚類分析。若按第二特征值大于1進行聚類,可將原變量聚為兩類,能解釋的變異為4.392786,占總變異6的0.7321較??;由一個類成分能解釋的變異占全部類變量指標總變異的最小比例為0.6786較小;各類最大第二特征值為0.7641較大;各類中1個變量(1-R2own)與它所在類(1-R2next)成分的最小相關(guān)系數(shù)的平方為0.3716較?。?個變量所在類的與它最近類的最大比值為0.6440較大(表4)。為了克服上述信息之不足并方便與(1)作比較,對變量作四步聚類,聚類結(jié)果分別為x1,x4,x5為一類;x3,x6,x2各為一類。此時,能解釋的變異為5.552920,占總變異6的0.9255較大;由一個類成分能解釋的變異占全部類變量指標總變異的最小比例為0.8510較大;各類最大第二特征值為0.302296較??;各類中1個變量(1-R2own)與它所在類(1-R2next)成分的最小相關(guān)系數(shù)的平方為0.8015較大;1個變量所在類的與它最近類的最大比值為0.3441較小(表4),分為四類較為合適。由標準化得分回歸系數(shù),可得到4個主成分方程分別為(系數(shù)見表3)。

      由公式 Z=(2.55292*c1+c2+c3+c4)/6,計算出綜合得分(表 5)。

      表3 標準得分系數(shù)表

      表4 VARCLUS聚類信息表

      表5 VARCLUS變量聚類的主成分、綜合得分及排序

      最后并利用SPSS的Rank-Cases過程,按照綜合得分對該年度各地區(qū)農(nóng)民生活費用支出進行綜合排序(表5)。

      (3)結(jié)果分析

      從主成分得分及VARCLUS主成分得分值看出:按單個主成分得分排名,28個省市自治區(qū)的排名是不同的;按綜合得分值排名也有較大差異(僅比較綜合排名)。如北京在表2中綜合主成分得分排第27名,而在表5中排第28名,上海情形與之次序相反;福建在表2中綜合主成分得分排第20名,而在表5中排第18名;江蘇在表2中綜合主成分得分排18名,而在表5中為第21名;江西在表2中綜合主成分得分排17名,而在表5中為第14名;陜西在表2中綜合主成分得分排8名,而在表5中為第5名;山東在表1中綜合主成分得分排15名,而在表5中排第20名……,這種分析的差異勢必會對有關(guān)部門提出的政策、建議等產(chǎn)生較大的影響,因此不能混用。若需了解變量的聚類情況應首選后者。

      4 結(jié)束語

      本文從理論和實證角度,分析了這兩種方法的異同及如何分別運用SPSS及SAS軟件進行分析。從實證結(jié)果看,運用主成分分析和VARCLUS進行綜合定量分析時,不但綜合排名存在差異,而且定量值也存在差異,這必然影響后面的綜合定性分析結(jié)果。因此應正確使用兩種方法,在需要對變量進行聚類分析時,首選VARCLUS方法。

      [1]張文彤.Spss統(tǒng)計分析高級教程[M].北京:高等教育出版社,2004.

      [2]董大鈞.SAS統(tǒng)計分析應用[M].北京:電子工業(yè)出版社,2008.

      [3]梅長林,范金城.數(shù)據(jù)分析方法[M].北京:高等教育出版社,2008.

      [4]金蛟.主成分分析方法在綜合評價中的應用[J].中國衛(wèi)生統(tǒng)計,2008.2,25(1).

      [5]林海明.主成分分析與初始因子分析的異同[J].統(tǒng)計與決策,2006,(4).

      [6]魏艷華,王丙參,田玉柱.主成分分析與因子分析的比較研究[J].天水師范學院學報,2009,29(2).

      C81

      A

      1002-6487(2010)22-0155-03

      朱玉清(1967-),女,河南南陽人,副教授,研究方向:應用數(shù)學。

      楊寶玉(1965-),男,河南南召人,副教授,研究方向:高等數(shù)學研究。

      李瑞閣(1964-),女,河南南陽人,碩士,教授,研究方向:數(shù)理統(tǒng)計。

      (責任編輯/易永生)

      猜你喜歡
      特征值變異聚類
      一類帶強制位勢的p-Laplace特征值問題
      單圈圖關(guān)聯(lián)矩陣的特征值
      變異危機
      變異
      基于DBSACN聚類算法的XML文檔聚類
      電子測試(2017年15期)2017-12-18 07:19:27
      基于改進的遺傳算法的模糊聚類算法
      基于商奇異值分解的一類二次特征值反問題
      變異的蚊子
      百科知識(2015年18期)2015-09-10 07:22:44
      一種層次初始的聚類個數(shù)自適應的聚類方法研究
      關(guān)于兩個M-矩陣Hadamard積的特征值的新估計
      图片| 炉霍县| 舒兰市| 高安市| 波密县| 阜宁县| 泾源县| 安多县| 金堂县| 西林县| 唐海县| 丰县| 光山县| 西贡区| 阳曲县| 婺源县| 奉节县| 临夏县| 西和县| 汕尾市| 宁远县| 民权县| 津南区| 绵阳市| 湖口县| 易门县| 和平县| 句容市| 高碑店市| 罗平县| 乌鲁木齐县| 锦州市| 陇西县| 金溪县| 景宁| 罗源县| 汽车| 长沙县| 安康市| 福州市| 巴里|