孫麗環(huán)
(安徽理工大學(xué) 數(shù)學(xué)與大數(shù)據(jù)學(xué)院,安徽 淮南 232001)
SAS(Statistics Analysis System)軟件是當(dāng)今國際上最著名的三大數(shù)據(jù)分析軟件之一,具有強大的數(shù)據(jù)管理與分析功能,廣泛應(yīng)用于教育、經(jīng)濟、醫(yī)學(xué)等各個領(lǐng)域。方差分析是科學(xué)研究中經(jīng)常需要使用的統(tǒng)計方法之一。利用方差分析可以研究一個或多個因素對試驗過程中某項指標(biāo)的影響因素,并比較因素的各個水平之間是否有顯著差異[1-8]。目前發(fā)表的文獻(xiàn)主要研究的是SAS軟件在多因素方差分析中的應(yīng)用,單因素方差分析應(yīng)用的文章也有發(fā)表,但是文獻(xiàn)上沒有標(biāo)明程序運行的代碼。本文主要介紹針對單因素方差分析的不同情形,利用SAS軟件的相應(yīng)程序?qū)崿F(xiàn)單因素方差分析的方法及各個方法之間的比較。
例1:現(xiàn)對甲乙兩車間工人完成某項工藝時間進(jìn)行抽樣統(tǒng)計,其基本情況如表1所示,試分析在95%的置信度下甲乙兩車間工人的工作效率是否有顯著差異[4]。
表1 甲乙兩車間工人工藝完成時間統(tǒng)計
方法一:經(jīng)分析知,本例需要對兩個獨立樣本的均值做假設(shè)檢驗,以檢驗兩個樣本均值是否具有顯著差異?,F(xiàn)通過下面的T檢驗程序進(jìn)行假設(shè)檢驗。程序如下:
data test;
inputa$b@@;
cards;
甲 30.1 甲 28.9 甲 29.5 甲 30.7 甲 31.0
甲 30.6 甲 33.3 甲 29.7 甲 32.4 甲 30.4
乙 29.7 乙 28.7 乙 30.2 乙 31.9 乙 32.8 乙 33.2 乙 31.6
乙 30.2 乙 29.8 乙 30.3
;
run;
proc ttest data=test;
classa;
varb;
run;
執(zhí)行上述程序后,我們先得出變量滿足方差齊次性檢驗(P=0.7817),故可以用TTEST過程進(jìn)行方差分析,程序運行的結(jié)果可信。在SAS系統(tǒng)中將輸出如表2所示的T檢驗結(jié)果,其P值大于0.05,接受原假設(shè),故認(rèn)為兩個獨立樣本均值沒有顯著差異。
表2 T檢驗結(jié)果表
方法二:用ANOVA過程進(jìn)行方差分析,其程序如下:
data test;
inputa$b@@;
cards;
甲 30.1 甲 28.9 甲 29.5 甲 30.7 甲 31.0
甲 30.6 甲 33.3 甲 29.7 甲 32.4 甲 30.4
乙 29.7 乙 28.7 乙 30.2 乙 31.9 乙 32.8 乙 33.2 乙 31.6
乙 30.2 乙 29.8 乙 30.3
;
run;
proc univariate data=test normal plot;
var b;
histogram b;
run;
proc anova data=test;
class a;
model b=a;
means a /hovtest;
run;quit;
執(zhí)行上述程序后,我們得出變量b滿足方差齊次性檢驗(P=0.7284),故可以用ANOVA過程進(jìn)行方差分析,程序運行的結(jié)果可信。在SAS系統(tǒng)中將輸出如表3所示的單因素方差分析的結(jié)果表,其P值大于0.05,所以接受原假設(shè),認(rèn)為兩個獨立樣本均值沒有顯著差異。ANOVA過程單因素方差分析的結(jié)果如表3所示。
表3 基于ANOVA過程單因素方差分析的結(jié)果表
方法三:用GLM過程進(jìn)行方差分析,其程序如下:
data test;
inputa$b@@;
cards;
甲 30.1 甲 28.9 甲 29.5 甲 30.7 甲 31.0
甲 30.6 甲 33.3 甲 29.7 甲 32.4 甲 30.4
乙 29.7 乙 28.7 乙 30.2 乙 31.9 乙 32.8 乙 33.2 乙 31.6
乙 30.2 乙 29.8 乙 30.3
;
run;
proc univariate data=test normal plot;
varb;
histogramb;
run;
proc glm data=test;
classa;
modelb=a;
meansa/hovtest;
run;quit;
執(zhí)行上述程序后,在SAS系統(tǒng)中將輸出如表4所示的部分主要結(jié)果,其P值大于0.05,所以接受原假設(shè),認(rèn)為兩個獨立樣本均值沒有顯著差異。
表4 基于GLM過程單因素方差分析的結(jié)果表
通過例1,我們得出這樣的結(jié)論:進(jìn)行方差分析時僅有一個因素且該因素僅含兩個水平,上述三個過程步得到的結(jié)果一致。
例2:不同氮肥處理下水稻單產(chǎn)(畝/kg),試通過方差分析研究不同氮肥處理是否對水稻產(chǎn)量有顯著影響[4]。
表5 不同氮肥處理下水稻單產(chǎn)
解:該例題問題中僅有一個因素,該因素包含的水平數(shù)為4個。此時若采用PROC TTEST,則需要進(jìn)行多次的兩兩比較,這會大大增加犯第一類錯誤的概率。因此,在這種情形下,不宜使用PROC TTEST,可以考慮采用PROC ANOVA或者PROC GLM。二者區(qū)別是PROC ANOVA是專門針對均衡數(shù)據(jù)的試驗而設(shè)計的。兩種方法程序如下:
方法一:ANOVA過程
data test8_1;
inputtreatment$x@@;
cards;
N0 490.4N0 487.5N0 496.4
N1 500.2N1 510.2N1 505.4
N2 509.5N2 510.3N2 507.3
N3 523.1N3 515.7N3 518.9
;
run;
proc univariate data= test8_1 normal plot;
varx;
histogramx;
run;
proc anova data= test8_1;
classtreatment;
modelx=treatment;
meanstreatment/hovtest;
meanstreatment/t;
run;quit;
執(zhí)行上述程序后,我們得出變量x滿足方差齊次性檢驗(P=0.3559),故可以用ANOVA過程進(jìn)行方差分析,程序運行的結(jié)果可信。在SAS系統(tǒng)中將輸出如表6所示的單因素方差分析結(jié)果,其P值小于0.05,所以拒絕原假設(shè),即認(rèn)為不同氮肥處理對水稻產(chǎn)量有顯著影響。
表6 基于ANOVA過程單因素方差分析的結(jié)果表
方法2:GLM過程
data test8_1;
inputtreatment$x@@;
cards;
N0 490.4N0 487.5N0 496.4
N1 500.2N1 510.2N1 505.4
N2 509.5N2 510.3N2 507.3
N3 523.1N3 515.7N3 518.9
;
run;
proc univariate data= test8_1 normal plot;
varx;
histogramx;
run;
proc glm data= test8_1 plots(only)=diagnostics;
classtreatment;
modelx=treatment;
meanstreatment/hovtest;
meanstreatment/t;
run;quit;
執(zhí)行上述程序后,在SAS系統(tǒng)中將輸出如表7所示的結(jié)果,其P值小于0.05,與ANOVA過程分析的結(jié)果相同。
表7 基于GLM過程單因素方差分析的結(jié)果表
兩個程序運行的結(jié)果相同。但是,由于考慮了數(shù)據(jù)的均衡性,PROC ANOVA在處理均衡數(shù)據(jù)試驗時一般會比PROC GLM更快、占用的存儲空間更小(盡管每次運行的時間不一樣,但是總體而言PROC ANOVA在處理均衡數(shù)據(jù)試驗時一般會比PROC GLM更快、占用的存儲空間更小)。
例3:在食品質(zhì)量檢測中,對4種不同品牌臘肉的酸價進(jìn)行了隨機抽樣檢測,結(jié)果如表8所示,試分析4種不同品牌臘肉的酸價指標(biāo)有無差異[9]。
表8 4種品牌臘肉的酸價檢測結(jié)果
data aa;
inputtypes$x@@;
cards;
A1 1.6A1 1.5A1 2.0A1 1.9A1 1.3A1 1.0A1 1.2A1 1.4
A2 1.7A2 1.9A2 2.0A2 2.5A2 2.7A2 1.8
A3 0.9A3 1.0A3 1.3A3 1.1A3 1.9A3 1.6A3 1.5
A4 1.8A4 2.0A4 1.7A4 2.1A4 1.5A4 2.5A4 2.2
;
run;
proc glm data=aa plots(only)=diagnostics;
classtypes;
modelx=types;
meanstypes/hovtest;
meanstypes/t;
run;quit;
執(zhí)行上述程序后,在SAS系統(tǒng)中將輸出如表9所示的部分結(jié)果,其P值小于0.05,拒絕原假設(shè),即認(rèn)為4種不同品牌臘肉的酸價指標(biāo)有差異。
表9 基于GLM過程單方差分析的結(jié)果表
對于非均衡數(shù)據(jù)單因素方差分析,采用GLM過程。此外,GLM過程提供了更多的圖像輸出選項供用戶使用[5]。
單因素方差分析時,若該因素僅含兩個水平,三個過程步PROC TTEST、PROC ANOVA和PROC GLM得到的結(jié)果一致;若該因素包含的水平數(shù)為3個或者3個以上,可以采用PROC ANOVA或者PROC GLM。二者區(qū)別是PROC ANOVA是專門針對均衡數(shù)據(jù)的試驗而設(shè)計的。