高 妍 張 慧 李蓮蓮 張曉瑜 徐 強△ 刁玉濤△
1.濟南大學(xué) 山東省醫(yī)學(xué)科學(xué)院醫(yī)學(xué)與生命科學(xué)學(xué)院(250062) 2.山東省醫(yī)學(xué)科學(xué)院基礎(chǔ)醫(yī)學(xué)研究所
【提 要】 目的 比較對應(yīng)分析在SAS和SPSS軟件中實現(xiàn)方法的異同,探討在應(yīng)用SAS軟件進行對應(yīng)分析時,計量資料原始數(shù)據(jù)應(yīng)先進行標準化處理的必要性。方法 使用SAS軟件和SPSS軟件,進行實例分析。結(jié)果 計量資料對應(yīng)分析在SPSS軟件運行正常,但在SAS軟件上應(yīng)用時,因變量原始數(shù)據(jù)的不同量綱,導(dǎo)致SAS軟件運行后出現(xiàn)相異或錯誤結(jié)果。結(jié)論 SAS軟件只有在原始數(shù)據(jù)進行標準化處理后(有相同量綱或均無量綱),其進行對應(yīng)分析的結(jié)果才最準確,而SPSS軟件處理計量資料對應(yīng)分析時可以不通過外部標化數(shù)據(jù),直接輸入原始數(shù)據(jù)。
對應(yīng)分析(correspondence analysis)也稱關(guān)聯(lián)分析、R-Q型因子分析,起初是由法國人Benzecri于1970年提出[1],是一種多元相依變量統(tǒng)計分析技術(shù),通過分析由定性變量構(gòu)成的交互匯總表來揭示變量間的關(guān)系。對應(yīng)分析在眾多領(lǐng)域應(yīng)用廣泛,其原因之一是它可以通過低維圖形直觀地揭示出同一類變量的各個類別之間的差異,以及不同分類變量各個類別之間的對應(yīng)關(guān)系。在統(tǒng)計軟件方面,進行對應(yīng)分析常用的統(tǒng)計軟件有SPSS、SAS、STAT、R、S-PLUS等[2-3]。在進行多元統(tǒng)計對應(yīng)分析時,越來越多的學(xué)者選擇SAS軟件和SPSS軟件進行分析,但在其實際運用上,不同類型資料對應(yīng)分析在SAS軟件和SPSS軟件上運行的結(jié)果不同,其中計量資料在SAS軟件運行應(yīng)符合相同量綱(或均無量綱)的條件[4],關(guān)于這點,在SAS軟件上及相關(guān)教科書中并無明顯的表述,導(dǎo)致不少學(xué)者在使用SAS軟件進行對應(yīng)分析時照搬照用,使得其分析的結(jié)果及作出的對應(yīng)分析圖不能達到理想的效果。本文通過兩個實例,闡述運用SAS軟件和SPSS軟件進行對應(yīng)分析其運行結(jié)果的解釋及差異性及運用SAS軟件進行對應(yīng)分析時,應(yīng)先對原始數(shù)據(jù)進行標準化處理的必要性。
對應(yīng)分析綜合了R型和Q型因子分析的優(yōu)點,將R型和Q型的主成分分析有機結(jié)合起來[5],設(shè)有R×C列聯(lián)表,行列分別表示兩個不同因素R水平和C水平,表中的頻數(shù)記為X={xij}。為了將列和行同時進行分析,首先對原列聯(lián)表數(shù)據(jù)進行變換:
其中,xi.表示第i行的合計,x.j表示第j列的合計,x..表示總合計。
由此變換產(chǎn)生出矩陣Z=(Zij)RC。再對數(shù)據(jù)矩陣Z分別進行R型(R=Z’Z)和Q型(Q=ZZ’)因子分析,由此得到兩個因素的因子載荷點陣,并將其繪制在同一直角坐標系上,就實現(xiàn)了對應(yīng)分析[6-7]。
1.定性資料對應(yīng)分析
表1包含了從蘇格蘭北部的開斯納斯郡(Caithness)的5387名小學(xué)生眼睛的顏色與頭發(fā)的顏色[8],目的是探討眼睛顏色與頭發(fā)的顏色之間的對應(yīng)關(guān)系,試做對應(yīng)分析。
表1 眼睛顏色與頭發(fā)顏色的對應(yīng)數(shù)量
基于SAS軟件(版本9.4)的對應(yīng)分析程序如下:
data a;
input eye MYM fair red medium dark black;
cards;
darkeye 98 48 403 681 85
Mediumeye 343 84 909 412 26
blueeye 326 38 241 110 3
lighteye 688 116 584 188 4
;
run;
proc corresp out=result;
/*在proc corresp過程中輸出一個數(shù)據(jù)集result,以便后面繪圖使用*/
var fair red medium dark black;
/*var語句分別給出列變量*/
id eye;
/*id語句給出行變量*/
run;
proc plot data=result;
/*繪制對應(yīng)分析圖,用前面輸出的數(shù)據(jù)集result中兩個變量dim1和dim2繪圖;確定坐標軸相應(yīng)取值范圍*/
where eye ne "";
plot dim2*dim1="*" $ eye
/box vaxis=-.3 to.3 by.1
haxis=-1 to 1 by.2;
run;
SAS軟件運行結(jié)果及對應(yīng)分析圖見表2及圖1。
表2 實例1慣量和χ2值分解表
圖1 實例1對應(yīng)分析圖
基于SPSS軟件(版本22)的對應(yīng)分析步驟如下:
Analyze→Data Reduction→Correspondence Analysis
Row框:hair
Column框:eye
OK
SPSS軟件運行結(jié)果及對應(yīng)分析圖見表3及圖2。
如SAS軟件和SPSS軟件運行結(jié)果可見,表2和表3中總慣量的86.56%可由第一維來解釋,前二維解釋了高達99.63%的總慣量,以第一維和第二維分別作為橫軸和縱軸建立直角坐標系得到對應(yīng)分析圖,圖1和圖2的對應(yīng)分析圖雖然各變量位置有所差異,但兩圖均可看出出頭發(fā)深色和黑色與眼睛的深色相對應(yīng),頭發(fā)的金色和紅色與眼睛的藍色和淺色相對應(yīng),頭發(fā)的棕色和眼睛的棕色相對應(yīng)。定性資料在SAS軟件和SPSS軟件運行結(jié)果是相符合的。
表3 實例1結(jié)果匯總表
圖2 實例1對應(yīng)分析圖
2.計量資料對應(yīng)分析
表4共記錄了全國29個省、市、自治區(qū)當年的城市市政工程建設(shè)情況[6],具體有如下6個指標:road(年末實有道路長度),area(年末實有道路面積),bridge(城市橋梁數(shù)),under(城市下水道長度),water(城市污水處理能力),lamp(城市路燈數(shù))?,F(xiàn)希望考察各省市城市設(shè)施的建設(shè)情況差異,特別是各地區(qū)在這6個指標上分別存在哪些優(yōu)勢和不足,試通過對應(yīng)分析解決上述問題。
基于SAS軟件(版本9.4)的對應(yīng)分析程序如下:
data municipal_construction;
input region$ road area bridge under water lamp;
label road=”道路長度” area=”道路面積” bridge=”橋梁數(shù)” under=”下水道長度” water=”污水處理能力” lamp=”路燈數(shù)”;
/*label語句給各指標注釋*/
datalines;
1 13409.00 17129.50 2389.00 14903.46 176.58 535823.00
2 10066.00 12283.17 4417.00 10382.05 366.76 380724.00
?
28 1601.00 1464.30 305.001593.44 0.9035897.00
29 760.00 837.09 76.00 460.00 7.89 23507.00
;
run;
表4 各地區(qū)市政建設(shè)情況
proc corresp data=municipal_construction outc=ccc;
/*在proc corresp過程中輸出一個數(shù)據(jù)集ccc,以便后面繪圖使用*/
var road area bridge under water lamp;
/*var語句分別給出列變量*/
id region;
/*id語句給出行變量*/
run;
data ccc;
set ccc;
x=dim1;
y=dim2;
xsys =′2′;
ysys =′2′;
text =region;
size =2;
label x=′dimension 1′
y=′dimension 2′;
keep x y text xsys ysys size;
run;
proc gplot data=ccc;
symbol1 v=#;
axis1 length=6 in order=-1.0 to 0.6 by 0.2;
axis2 length=6 in order=-1.0 to 0.6 by 0.2;
plot y*x=1/ annotate=ccc frame haxis=axis1
/*繪制對應(yīng)分析圖,用前面輸出的數(shù)據(jù)集ccc中兩個變量dim1和dim2繪圖;確定坐標軸相應(yīng)取值范圍*/
vaxis=axis2 href=0 vref=0;
run;
SAS軟件運行結(jié)果及對應(yīng)分析圖見表5及圖3。
表5 實例2慣量和χ2值分解表
圖3 實例2對應(yīng)分析圖
通過SAS軟件作出的對應(yīng)分析圖3可以看出,大部分地區(qū)都聚集在“路燈數(shù)”指標處,因此該圖不能反映行變量與列變量的關(guān)系,此圖有明顯的錯誤。
考慮該實例的各變量具有不同的量綱,在SAS軟件分析時并沒有對計量資料原始數(shù)據(jù)進行標準化的過程,因此在SAS軟件進行對應(yīng)分析前,先對原始數(shù)據(jù)進行外部標準化處理,即每一變量值與其平均值之差除以該變量的標準差,得到標準化后的數(shù)據(jù)。
對標準化后的數(shù)據(jù)進行上述SAS程序,SAS軟件運行結(jié)果及對應(yīng)分析圖見表6及圖4。
表6 實例2標化后慣量和χ2值分解表
圖4 實例2標化后對應(yīng)分析圖
基于SPSS軟件(版本22)的對應(yīng)分析步驟如下:
Analyze→Data Reduction→Correspondence Analysis
Row框:road
Column框:area
Distance Measure:·Euclidean
Standardization Method:·Column Totals are Equalized and Column Means Removed
對話框選操作中選入area和road,將它們的取值范圍定為1~2只是為了能進行語法窗口的操作,并無實際意義。操作完成后生成的語法程序,將其中的TABLE語句TABLE = road(1 2) BY area(1 2)更改為TABLE = all(29 6),表明數(shù)據(jù)是以29行、6列交叉表的形式出現(xiàn),然后運行程序。
SPSS軟件運行結(jié)果及對應(yīng)分析圖見表7及圖5。
從SAS軟件和SPSS軟件運行后得到的對應(yīng)分析圖,如圖4和圖5可見,該6個指標并未完全散開,其中道路長度、道路面積、下水道長度和路燈數(shù)基本重疊,顯然從市政工程建設(shè)方面考慮,這4項指標是緊密相關(guān)的。各地區(qū)散點也未完全分開,寧夏、新疆、吉林、云南等地區(qū)聚集在一起說明其城市設(shè)施建設(shè)是相接近的。另外,浙江、江蘇與指標“橋梁數(shù)”最接近,可以分析出江蘇省和浙江省是河湖大省,其橋梁建設(shè)較多,橋梁設(shè)施完善。山東、上海、廣東等地區(qū)散點相距較遠,說明這些地區(qū)城市建設(shè)水平相差較大。
表7 實例2結(jié)果匯總表
圖5 實例2對應(yīng)分析圖
對應(yīng)分析是以定性資料發(fā)展起來的一種多元統(tǒng)計分析技術(shù),通過低維圖形的表示來揭示變量間的對應(yīng)關(guān)系。在對應(yīng)分析統(tǒng)計軟件的應(yīng)用方面,SAS和SPSS軟件有其各自的優(yōu)點和不足,對于定性資料對應(yīng)分析,SAS軟件和SPSS軟件均可直接利用原始數(shù)據(jù)運行,且二者運行結(jié)果的解釋具有一致性;SAS軟件在對應(yīng)分析應(yīng)用上的優(yōu)點是程序編輯操作靈活、方便,運行結(jié)果迅速,但其缺點是程序語句必須正確且規(guī)范,否則將無法運行或得不出正確的結(jié)果,而且對于計量資料對應(yīng)分析,SAS軟件未有對原始數(shù)據(jù)標化的過程,需提前對原始數(shù)據(jù)進行外部標準化處理, 其方法有標準化
法、均值化法和標準差化法等[10]。SPSS軟件在對應(yīng)分析應(yīng)用上的優(yōu)點是操作簡單且清晰直觀,對于計量資料的對應(yīng)分析,與SAS軟件相比,SPSS軟件可通過基于均數(shù)的對應(yīng)分析,不需要通過外部標化原始數(shù)據(jù),但其缺點是步驟較多,編程能力較弱。