胡純嚴(yán),胡良平,2*
(1.軍事科學(xué)院研究生院,北京 100850;2.世界中醫(yī)藥學(xué)會(huì)聯(lián)合會(huì)臨床科研統(tǒng)計(jì)學(xué)專業(yè)委員會(huì),北京 100029
單因素多水平設(shè)計(jì)是生物醫(yī)學(xué)試驗(yàn)研究中使用頻率極高的一種設(shè)計(jì)類型。當(dāng)觀測(cè)結(jié)果變量為定量變量時(shí),常選用的統(tǒng)計(jì)分析方法被簡(jiǎn)稱為“單因素方差分析”。本文著重介紹該設(shè)計(jì)定量資料一元方差分析的前提條件、基本思想、計(jì)算公式和基于SAS軟件的實(shí)例分析。
第一個(gè)前提條件為“獨(dú)立性”,即全部定量數(shù)據(jù)中的任何兩個(gè)數(shù)據(jù)之間必須相互獨(dú)立[1];第二個(gè)前提條件為“正態(tài)性”,即某因素各水平組定量數(shù)據(jù)必須抽自正態(tài)分布的總體(需要分組進(jìn)行正態(tài)性檢驗(yàn))[2];第三個(gè)前提條件為“方差齊性”,即某因素k個(gè)水平組定量數(shù)據(jù)應(yīng)抽自方差相等的k個(gè)總體(需要對(duì)定量資料中每個(gè)因素所有水平組的總體方差進(jìn)行方差齊性檢驗(yàn))[3]。
單因素多水平設(shè)計(jì)定量資料一元方差分析的基本思想是關(guān)于總離均差平方和的分解,即將全部數(shù)據(jù)關(guān)于總均值的離差平方和分解成組間離均差平方和與組內(nèi)(或稱誤差)離均差平方和兩部分,自由度也有類似的分解方法。將各部分離均差平方和除以各自的自由度,就是各項(xiàng)的方差(或稱均方)。以組內(nèi)(或誤差)均方為分母,以組間均方為分子,就可以構(gòu)造出一個(gè)檢驗(yàn)統(tǒng)計(jì)量F。
對(duì)于單因素多水平設(shè)計(jì)一元定量資料而言,其總離均差平方和SS總可按下式分解[4]:
式(1)中,三項(xiàng)離均差平方和的表達(dá)式如下:
基于離均差平方和與自由度構(gòu)造均方MS,見式(6)、式(7):
基于均方構(gòu)造檢驗(yàn)統(tǒng)計(jì)量F,見式(8):
在式(8)中,F(xiàn)服從分子自由度為df組間、分母自由度為df誤差的F分布。
若采用手工計(jì)算,需要通過(guò)查F界值表(單側(cè)檢驗(yàn)),可得F(1-α)(df組間,df誤差),若F≥F(1-α)(df組間,df誤差),則P≤α,反之,則P>α。最后,確定P值并作出統(tǒng)計(jì)推斷,再結(jié)合專業(yè)知識(shí)給出專業(yè)結(jié)論。
【例1】根據(jù)膽囊纖維化患者胰腺功能(胰蛋白酶分泌量),研究者將患者分為A、B、C三組:A組胰蛋白酶分泌量≤50 U/kg·h-1;B組胰蛋白酶分泌量為51~1000 U/kg·h-1;C組胰蛋白酶分泌量>1000 U/kg·h-1。三組的樣本含量分別為9、10、9例,測(cè)得每位受試對(duì)象的蛋白質(zhì)濃度(mg/mL)如下。A組:1.7、2.0、2.0、2.2、4.0、4.0、5.0、6.7、7.8;B組:1.4、2.4、2.4、3.3、4.4、4.7、6.7、7.6、9.5、11.7;C組:2.9、3.8、4.4、4.7、5.0、5.6、7.4、9.4、10.3[5]。分析三組患者蛋白質(zhì)濃度平均值之間的差異是否有統(tǒng)計(jì)學(xué)意義?
【例2】為研究鈣離子對(duì)體重的影響,某研究者將36只肥胖模型大白鼠隨機(jī)等分為三組,每組12只,分別給予常規(guī)劑量鈣(0.5%)、中劑量鈣(1.0%)和高劑量鈣(1.5%)三種不同的高脂飼料,喂養(yǎng)9周,測(cè)量并計(jì)算其喂養(yǎng)前后體重的差值[2]。分析三種不同劑量鈣作用下大白鼠體重改變量的均值是否相等?
【分析與解答】這是一個(gè)單因素三水平設(shè)計(jì)一元定量資料,設(shè)所需要的SAS程序如下:
【SAS程序說(shuō)明】當(dāng)各組樣本含量不等時(shí),以樣本含量最多的組為基準(zhǔn),樣本含量少的其他組缺少幾個(gè)數(shù)據(jù)就用幾個(gè)“點(diǎn)”填充。
【SAS輸出結(jié)果及解釋】
以上輸出結(jié)果表明:三組患者蛋白質(zhì)濃度的均值差異無(wú)統(tǒng)計(jì)學(xué)意義(因F=1.26,df=2,P=0.2998>0.05),故可以認(rèn)為不同胰蛋白酶分泌量對(duì)蛋白質(zhì)濃度的影響不明顯。三組定量資料的箱圖見圖1。
圖1 三組定量資料的箱圖
圖1中,從左到右共有3個(gè)長(zhǎng)方形,每個(gè)長(zhǎng)方形中的橫線代表各組定量資料的中位數(shù)所在的位置;每個(gè)長(zhǎng)方形中的小正方形代表各組定量資料的平均值所在的位置,各組具體的平均值和標(biāo)準(zhǔn)差如下:
【分析與解答】這是一個(gè)單因素三水平設(shè)計(jì)一元定量資料,設(shè)所需要的SAS程序如下:
【SAS程序說(shuō)明】第2個(gè)“means語(yǔ)句”給出了三個(gè)選擇項(xiàng),分別代表三種多重比較的方法,在GLM過(guò)程中,類似的比較方法還有很多,此處從略。
【SAS輸出結(jié)果及解釋】
以上輸出結(jié)果表明:三組大白鼠體重改變量的均值差異有統(tǒng)計(jì)學(xué)意義(因F=31.49,df=2,P<0.0001),故可以認(rèn)為飼料中鈣劑量不同,大白鼠體重增加量也不同。飼料中鈣劑量越高,大白鼠體重增加量越少。飼料中鈣劑量由低到高對(duì)應(yīng)的三組大白鼠體重增加量的箱圖見圖2。
圖2 飼料中鈣劑量由低到高對(duì)應(yīng)的三組大白鼠體重增加量的箱圖
在圖2中,從左到右有3個(gè)長(zhǎng)方形,每個(gè)長(zhǎng)方形中的橫線代表各組定量資料的中位數(shù)所在的位置;每個(gè)長(zhǎng)方形中的小正方形代表各組定量資料的平均值所在的位置,各組具體的平均值和標(biāo)準(zhǔn)差如下:
注:此檢驗(yàn)控制Ⅰ型比較誤差率,不是試驗(yàn)誤差率。
基于LSD法(即成組設(shè)計(jì)一元定量資料t檢驗(yàn))進(jìn)行均值之間兩兩比較的結(jié)果見圖3。
圖3 基于LSD法進(jìn)行均值之間兩兩比較的結(jié)果
注:此檢驗(yàn)控制Ⅰ型試驗(yàn)誤差率,對(duì)應(yīng)的假設(shè)為完全無(wú)效假設(shè),但不是部分無(wú)效假設(shè)。
基于SNK法進(jìn)行均值之間兩兩比較的結(jié)果見圖4。
圖4 基于SNK法進(jìn)行均值之間兩兩比較的結(jié)果
對(duì)輸出結(jié)果的解釋和結(jié)論同上(見圖3后面的解釋),此處從略。
注:此檢驗(yàn)控制Ⅰ型試驗(yàn)誤差率,但一般來(lái)說(shuō),此法比REGWQ法具有更高的Ⅱ型誤差率。
基于TUKEY法進(jìn)行均值之間兩兩比較的結(jié)果見圖5。
圖5 基于TUKEY法進(jìn)行均值之間兩兩比較的結(jié)果
對(duì)輸出結(jié)果的解釋和結(jié)論同上(見圖3后面的解釋),此處從略。
嚴(yán)格地說(shuō),用多次t檢驗(yàn)取代方差分析的做法欠妥。事實(shí)上,當(dāng)采用多次t檢驗(yàn)進(jìn)行n(n≥3)個(gè)均值兩兩比較時(shí),可知比較的次數(shù)有c=n!/2!(n-2)!。比較的次數(shù)越多,在無(wú)效假設(shè)為真時(shí),拒絕無(wú)效假設(shè)的Ⅰ類錯(cuò)誤概率也越大。設(shè)每次檢驗(yàn)水準(zhǔn)即犯Ⅰ類錯(cuò)誤概率為α,累積Ⅰ類錯(cuò)誤的概率為α’,則對(duì)多個(gè)均值進(jìn)行c次檢驗(yàn)時(shí),根據(jù)概率乘法原理,其累積Ⅰ類錯(cuò)誤概率與c的關(guān)系見式(9)[6]:
例如,設(shè)α=0.05,c=3,其累積的Ⅰ類錯(cuò)誤概率為:α’=1-(1-0.05)3=0.0143。可見,用多次t檢驗(yàn)取代方差分析,意味著Ⅰ類錯(cuò)誤概率會(huì)增大,即出現(xiàn)假陽(yáng)性的可能性會(huì)增加。因此,不應(yīng)該用t檢驗(yàn)取代方差分析。
一般來(lái)說(shuō),對(duì)單因素多水平設(shè)計(jì)定量資料進(jìn)行一元方差分析后,若結(jié)論是各水平組的均值差異有統(tǒng)計(jì)學(xué)意義,這是一個(gè)概括性的結(jié)論,它并不意味著任何兩個(gè)平均值之間的差異都有統(tǒng)計(jì)學(xué)意義。欲知詳情,應(yīng)對(duì)多個(gè)均值進(jìn)行多重比較。然而,對(duì)多個(gè)均值進(jìn)行兩兩比較的方法很多,其區(qū)別是不同方法控制的誤差類型不同。詳見文獻(xiàn)[7-8]。
進(jìn)行方差分析前,需檢查定量資料是否滿足三個(gè)前提條件。因篇幅所限,本文在分析實(shí)例時(shí),假定資料滿足方差分析所需要的前提條件。在實(shí)際應(yīng)用中,應(yīng)嚴(yán)格檢查給定資料是否滿足前提條件。否則,方差分析的結(jié)果可能不準(zhǔn)確。
本文介紹了與單因素多水平設(shè)計(jì)定量資料一元方差分析有關(guān)的主要內(nèi)容,包括前提條件、基本思想和計(jì)算公式。借助SAS軟件對(duì)兩個(gè)實(shí)例進(jìn)行了方差分析,還采用三種兩兩比較的方法(即LSD法、SNK法和TUKEY法)對(duì)例2中的三個(gè)均值進(jìn)行了分析。最后,在討論中闡明了不適合采用多次t檢驗(yàn)取代方差分析的理由。