馬順興,苗作云,張少偉,魯廣偉
(1.河南投資集團(tuán)有限公司,河南 鄭州 450008;2.黃河科技學(xué)院,河南 鄭州 450002;3.河南農(nóng)業(yè)職業(yè)學(xué)院,河南 鄭州 450003;4.原陽縣農(nóng)林畜牧局,河南 新鄉(xiāng) 453500)
林業(yè)科研中不同數(shù)據(jù)處理方法對(duì)方差分析結(jié)果的影響
馬順興1,苗作云2,張少偉3,魯廣偉4
(1.河南投資集團(tuán)有限公司,河南 鄭州 450008;2.黃河科技學(xué)院,河南 鄭州 450002;3.河南農(nóng)業(yè)職業(yè)學(xué)院,河南 鄭州 450003;4.原陽縣農(nóng)林畜牧局,河南 新鄉(xiāng) 453500)
為了研究不同的數(shù)據(jù)處理方法對(duì)方差分析結(jié)果的影響,該研究以省沽油6個(gè)種源的果實(shí)長(zhǎng)度為例,研究了直接方差分析法、群體抽樣法、分層抽樣法、群體抽樣求平均法及分層抽樣取平均法5種方法分別對(duì)方差分析結(jié)果的影響。在方差分析過程中,增加樣本量可以降低犯第1類錯(cuò)誤的概率,但隨著樣本量的增加,可能得到具有統(tǒng)計(jì)學(xué)意義的顯著差異而無實(shí)際利用價(jià)值。研究結(jié)果可以為林業(yè)科學(xué)研究的試驗(yàn)設(shè)計(jì)及數(shù)據(jù)處理提供參考。
方差分析;多重比較;試驗(yàn)設(shè)計(jì)
方差分析(Analysis of Variance,ANOVA)是進(jìn)行差異比較的主要方法,在林業(yè)試驗(yàn)數(shù)據(jù)處理上應(yīng)用廣泛。林業(yè)外業(yè)試驗(yàn)誤差較大,為了得到可靠的結(jié)論,一般以增加調(diào)查數(shù)據(jù)量的方法。研究以實(shí)際例子探討幾種數(shù)據(jù)處理方法對(duì)方差分析結(jié)果的影響,以期為科研工作者在試驗(yàn)設(shè)計(jì)及數(shù)據(jù)分析過程中提供參考。
數(shù)據(jù)源自 2015年底調(diào)查三門峽地區(qū)省沽油(Staphylea bumalda DC.)6個(gè)種源的果實(shí)長(zhǎng)度。
用 Excel2007進(jìn)行數(shù)據(jù)整理,采用 SPSS16.0進(jìn)行方差分析和多重比較[1-4]。Duncan新復(fù)極差法比較數(shù)據(jù)間的差異檢驗(yàn),顯著性水平設(shè)定為0.05。
2.1 數(shù)據(jù)整理方法
2.1.1 直接分組法
即完全隨機(jī)抽樣法,視種源內(nèi)150例數(shù)據(jù)相互獨(dú)立。
2.1.2 整群分類法
將每個(gè)種源的數(shù)據(jù)完全隨機(jī)分為6組,即群體內(nèi)有一定變異,群體隨機(jī)。
2.1.3 分層分類法
將每組的數(shù)據(jù)進(jìn)行排序,然后平均分為6組,類似于分層隨機(jī)抽樣,每層內(nèi)數(shù)據(jù)變異較小,不同層次間變異較大。
2.1.4 整群分類求平均法
按整群分類法分為6組,以小組平均值為單位計(jì)算。
2.1.5 分層分類求平均法
按分層分類法分為6組,以小組平均值為單位計(jì)算。
2.2 方差分析模型及SPSS操作
2.2.1 單因素方差分析
其中μ表示不考慮不同種源時(shí)的平均果實(shí)長(zhǎng),F(xiàn)i代表種源和總的平均水平相比時(shí)的差異,eij表示誤差項(xiàng)。
2.2.2 嵌套數(shù)據(jù)方差分析
一般線性模型(General Linear Model,GLM)中的多因素方差模塊(univarite)進(jìn)行分析,選用的模型為 Yijk=μ+Fi+Rj+eijk的隨機(jī)模型,其中Yijk是第i處理在第j區(qū)組中第k株的觀測(cè)值;μ為試驗(yàn)群體平均數(shù);Fi為種源效應(yīng);Rj為在種源內(nèi)的群體(層次)效應(yīng);eijk為剩余項(xiàng)。
在 SPSS16.0中無法直接通過模塊實(shí)現(xiàn),因此具體操作為(以群體取樣數(shù)據(jù)為例):
Analyze—General Linear Model—univariate
因變量為果實(shí)長(zhǎng),在固定因素中選擇種源,在隨機(jī)因素中選擇群體,因?yàn)樵赟PSS中無法直接通過模塊直接實(shí)現(xiàn)嵌套試驗(yàn)設(shè)計(jì)的方差分析,因此需要通過paste語句實(shí)現(xiàn),并將其改后運(yùn)行。修改程序如下:
5種數(shù)據(jù)處理方法所得方差分析結(jié)果如表1所示,整群分類法和整群分類求平均法得到的F值和顯著性概率相同,分層分類法和分層分類求平均法得到的F值和顯著性概率相同。直接分組法和整群分類法(整群分類求平均法)得到不同種源間存在極顯著差異,但直接分類法的顯著性概率遠(yuǎn)遠(yuǎn)小于整群分類法(整群分類求平均法),而分層分類法(分層分類求平均法)得到不同種源間存在顯著差異。即使是同一批數(shù)據(jù),采用不同的方法處理,仍然可以得到不同的分析結(jié)果。
表1 方差分析
圖1 不同處理方法所得的多重比較效果
不同處理方法所得到各個(gè)種源的多重比較結(jié)果 如圖1所示,直接分組法得到多重比較,種源1和種源2平均值差值僅為0.67,但這兩個(gè)種源的變異系數(shù)卻分別是1.60~2.03,種源間的差異僅為種源內(nèi)變異的 33.00%~41.88%,且這兩個(gè)差值太小,雖有統(tǒng)計(jì)學(xué)上的差異,卻無實(shí)際意義。分層分類(含分層分類求平均法)得到種源4和種源2間差異為2.03,但卻無統(tǒng)計(jì)學(xué)上的顯著性差異。整群分類法(含整群分類求平均法)得到的多重比較結(jié)果介于直接分組法和分層分類法(含整群分類求平均法)之間。
4.1 結(jié)論與討論
本研究中得到同一批數(shù)據(jù),按照不同的數(shù)據(jù)縮減方法或者方差分析方法,得到結(jié)果差異不同,其主要原因應(yīng)歸結(jié)于最終應(yīng)用于方差分析的樣本量的大小。查閱F檢驗(yàn)的臨界值表得到,在0.05的置信水平下,第1自由度為5,當(dāng)?shù)?自由度為24時(shí)的臨界值為2.62,而當(dāng)?shù)?自由度為1 000時(shí)的臨界值則為2.22,降低了15.27%,但自由度卻升高了40.67倍,根據(jù)方差分析的計(jì)算公式,MS=SS/df,可得誤差項(xiàng)的均方僅為原來的2.46%。
F值=MS組間/MS組內(nèi)=(SS組間/df組間)/(SS組內(nèi)/df組內(nèi)),因此,在臨界值變化幅度不大的情況下,F(xiàn)值卻是以前的40.67倍。所以得出存在極顯著或者顯著差異的統(tǒng)計(jì)學(xué)結(jié)論,但這種結(jié)論是無實(shí)際意義的。
4.2 建議
在進(jìn)行試驗(yàn)之前,應(yīng)先進(jìn)行初步調(diào)查,看整個(gè)研究群體的分布是否具有層次性,根據(jù)實(shí)際情況選擇不同的抽樣方法,為后期數(shù)據(jù)處理提供準(zhǔn)確依據(jù)。
在調(diào)查取樣時(shí),數(shù)據(jù)量大小適當(dāng)即可,過大的數(shù)據(jù)量會(huì)提高調(diào)查成本,同時(shí)會(huì)得到一些沒有實(shí)際價(jià)值的統(tǒng)計(jì)結(jié)論。
當(dāng)已經(jīng)取得一批數(shù)據(jù)時(shí),選用不同的數(shù)據(jù)縮減方法或者選用不同的方差分析模型來降低方差分析的自由度,從而得到更有實(shí)際價(jià)值的數(shù)據(jù)。
[1] 吳明隆. SPSS統(tǒng)計(jì)應(yīng)用實(shí)務(wù)[M]. 北京:中國(guó)鐵道出版社,2000.
[2] 張文彤,董偉. SPSS統(tǒng)計(jì)分析高級(jí)教程[M]. 北京:高等教育出版社,2004.
[3] 張文彤,董偉. SPSS統(tǒng)計(jì)分析高級(jí)教程[M]. 北京:高等教育出版社,2004.
[4] 郭志剛. 新編21世紀(jì)社會(huì)學(xué)系列教材:社會(huì)統(tǒng)計(jì)分析方法·SPSS軟件應(yīng)用[M]. 北京:中國(guó)人民大學(xué)出版社,2004.
(責(zé)任編輯:王文彬)
S757.2+4
A
1003-2630(2017)02-0026-03
2017-04-15
河南省科技攻關(guān)(162102110090);鄭州市2015年度科技發(fā)展計(jì)劃(20150271);中牟縣技術(shù)研究與開發(fā)項(xiàng)目(zmkjj20160616)
馬順興(1980-),男,河南新鄭人,工程師,碩士,主要從事林業(yè)資源管理。通訊作者:張少偉(1981-),男,河南安陽人,講師。