李曉煦
摘 要:通過(guò)一個(gè)示例解釋了多組均值比較統(tǒng)計(jì)結(jié)果常見疑難,提出將p值換算成“若干個(gè)標(biāo)準(zhǔn)誤”作定量解讀。同時(shí)提供Tukey HSD多重比較校正后的置信區(qū)間半徑與未作校正的LSD置信區(qū)間半徑的對(duì)比參考表和圖示做參考。
關(guān)鍵詞:多重比較;Tukey HSD檢驗(yàn);LSD檢驗(yàn);p值
中圖分類號(hào):O213.9? 文獻(xiàn)標(biāo)識(shí)碼:A? 文章編號(hào):1673-260X(2021)11-0001-02
Pearson作為統(tǒng)計(jì)檢驗(yàn)的一種輔助指標(biāo)引入p值以來(lái),p值在幾乎所有自然科學(xué)與社會(huì)學(xué)領(lǐng)域內(nèi)扮演了重要角色。很多情況下研究者只看p值的大小就直接得出結(jié)論。在統(tǒng)計(jì)分析中p值獨(dú)一無(wú)二的地位堪稱“強(qiáng)勢(shì)”。
1 誤讀與迷思
以探討攝入糖份對(duì)競(jìng)技活動(dòng)成績(jī)的影響數(shù)據(jù)為教學(xué)示例[2],研究三組均值兩兩之間是否存在差異。在方差一致前提下,研究者通常會(huì)采用SPSS的方差分析和事后檢驗(yàn)多重比較的界面。本例各組樣本量一致,主流教材[3,4]往往推薦使用Tukey校正方法(即Tukey HSD檢驗(yàn))。
LSD方法通常報(bào)告的p值小于Tukey HSD校正方法。出盲目選用LSD方法,是科研中常見的誤區(qū)。在這個(gè)例子中,以0.05為一類錯(cuò)誤率,采用上述兩種校正方法都得到定性上一致的結(jié)論:“無(wú)干預(yù)組與控制組無(wú)(或未發(fā)現(xiàn))顯著差異;實(shí)驗(yàn)組也與控制組無(wú)(或未發(fā)現(xiàn))顯著差異;無(wú)干預(yù)組與實(shí)驗(yàn)組有(或發(fā)現(xiàn)了)顯著差異”。對(duì)p值的定性解讀往往帶來(lái)無(wú)法回避的迷思:既然無(wú)干預(yù)組與控制組無(wú)差異,實(shí)驗(yàn)組也與控制組無(wú)差異,為何無(wú)干預(yù)組與實(shí)驗(yàn)組還會(huì)出現(xiàn)差異?
2 剖析與糾正
糾正上述p值定性誤讀的迷思,需要在統(tǒng)計(jì)結(jié)果解讀中把p值換算成“若干個(gè)標(biāo)準(zhǔn)誤”作定量解讀,即T統(tǒng)計(jì)量。雙尾0.01與雙尾0.02的p值,在未標(biāo)準(zhǔn)化效應(yīng)上并不是兩倍的對(duì)比,其實(shí)只是1.1~1.3倍的對(duì)比[5]。同樣,雙尾0.01與雙尾0.05的p值反差也不是五倍的未標(biāo)準(zhǔn)化效應(yīng),而是1.3~1.4倍。精確的倍數(shù)可借助Excel公式便捷計(jì)算,=T.Inv(1-0.01/2,自由度)/T.Inv(1-0.02/2,自由度)。根據(jù)統(tǒng)計(jì)結(jié)果代入自由度數(shù)值,結(jié)果略有變化,其范圍可參見附錄代碼運(yùn)行報(bào)告。
“若干個(gè)標(biāo)準(zhǔn)誤”的統(tǒng)計(jì)學(xué)顯著標(biāo)準(zhǔn),可能會(huì)因?yàn)槎嘀乇容^校正而擴(kuò)大。這種擴(kuò)大可以類比為雙尾檢驗(yàn)與單尾檢驗(yàn)的關(guān)系。雙尾檢驗(yàn)如果看作多重比較,等價(jià)于兩次方向相反、一類錯(cuò)誤率減半的單尾檢驗(yàn)。如果沒(méi)有做“一類錯(cuò)誤率減半”的操作,雙尾檢驗(yàn)以“若干個(gè)標(biāo)準(zhǔn)誤”表述的統(tǒng)計(jì)學(xué)顯著標(biāo)準(zhǔn)要大于單尾檢驗(yàn)。就本例結(jié)果而言,LSD結(jié)果報(bào)告的單尾檢驗(yàn)pC≥E=0.031<0.050,此時(shí)單尾(0.05一類錯(cuò)誤率)檢驗(yàn)“若干個(gè)標(biāo)準(zhǔn)誤”表述的顯著性標(biāo)準(zhǔn)比雙尾情形的2.13個(gè)標(biāo)準(zhǔn)誤要小一些,只需要1.75個(gè)標(biāo)準(zhǔn)誤。借助Excel公式計(jì)算=T.Inv(1-0.05,15)。而Tukey HSD結(jié)果報(bào)告的單尾檢驗(yàn)p=0.072≥0.050,LSD結(jié)果達(dá)到單尾顯著標(biāo)準(zhǔn),Tukey HSD結(jié)果未達(dá)到。
3 LSD與Tukey HSD的置信區(qū)間半徑比例
在超過(guò)兩組的多組比較情形,Tukey HSD的一類錯(cuò)誤率意義與LSD的一類錯(cuò)誤率意義不同。相對(duì)于LSD檢驗(yàn),Tukey HSD檢驗(yàn)以“若干個(gè)標(biāo)準(zhǔn)誤”表述的顯著性標(biāo)準(zhǔn)總是更大。LSD的一類錯(cuò)誤率是各對(duì)比較自身的一類錯(cuò)誤率,要小于三對(duì)比較合起來(lái)的一類錯(cuò)誤率。Tukey HSD衡量三對(duì)比較整體的一類錯(cuò)誤率,任何一組比較犯一類錯(cuò)誤都被認(rèn)為整體上出現(xiàn)一類錯(cuò)誤。從多重比較的校正角度,可以認(rèn)為L(zhǎng)SD沒(méi)有作任何的多重比較校正,它的結(jié)論只適用于單獨(dú)研究其中一對(duì)比較的情形。如果將三對(duì)比較作為整體研究,LSD的結(jié)果通常不適用。
用置信區(qū)間來(lái)分析有助于進(jìn)一步理解:LSD的三對(duì)比較,每個(gè)差異值的置信區(qū)間各自都達(dá)到(1-?琢)的置信度。如果一類錯(cuò)誤率?琢=0.05,研究者有95%的把握得到一個(gè)包含總體參數(shù)在其中的置信區(qū)間。但研究者并沒(méi)有95%的把握得到三個(gè)差異值的置信區(qū)間同時(shí)都包含各自的總體參數(shù),這個(gè)把握要比95%小一些。為了使這個(gè)整體把握校正到95%,置信區(qū)間的半徑需要適當(dāng)擴(kuò)大。所以,超過(guò)兩組的多組情形,Tukey HSD給出的置信區(qū)間半徑總是比LSD給出的置信區(qū)間半徑會(huì)大。
置信區(qū)間是否排除0點(diǎn),即差異值(區(qū)間中心)是否超過(guò)置信區(qū)間半徑。前文操作化解讀的“若干個(gè)標(biāo)準(zhǔn)誤”的統(tǒng)計(jì)標(biāo)準(zhǔn),即置信區(qū)間半徑等于若干個(gè)標(biāo)準(zhǔn)誤。Tukey HSD置信區(qū)間半徑的擴(kuò)大比例,就是這個(gè)“達(dá)到若干個(gè)標(biāo)準(zhǔn)誤”的統(tǒng)計(jì)標(biāo)準(zhǔn)擴(kuò)大比例。給定雙尾0.05一類錯(cuò)誤率,再給定兩兩比較組數(shù)k和自由度df,這個(gè)“標(biāo)準(zhǔn)誤倍數(shù)”的擴(kuò)大比例是個(gè)常數(shù)。k=3,接近1.2倍。圖1為該比例隨自由度df擴(kuò)大而收斂的圖示。附錄部分給出作圖的R代碼,還可以輸出完整的比例表格。在研究實(shí)踐中,有不少場(chǎng)合統(tǒng)計(jì)軟件沒(méi)有多重比較輸出選項(xiàng)。此時(shí),LSD結(jié)果較方便通過(guò)T統(tǒng)計(jì)量計(jì)算。在LSD結(jié)果的基礎(chǔ)上,可以應(yīng)用比例表格的數(shù)值進(jìn)一步推算Tukey HSD的統(tǒng)計(jì)結(jié)果。
參考文獻(xiàn):
〔1〕Karl P. X. On the criterion that a given system of deviations from the probable in the case of a correlated system of variables is such that it can be reasonably supposed to have arisen from random sampling[J]. Philosophical Magazine Series 5,1900, 50(302): 157-175.
〔2〕[EB/OL].(2021-10-12).http://www.http://personality-project.org/r/datasets/R.appendix5.data.
〔3〕Green, Samuel B. &Neil J. Salkind. Using SPSS for windows and macintosh[M]. NewYork: Pearson, 2013.
〔4〕甘怡群.心理與行為科學(xué)統(tǒng)計(jì)[M].北京:北京大學(xué)出版社,2019.
〔5〕Wilkinson, L., Statistical methods in psychology journals: Guidelines and explanations. [J].American psychologist, 1999,54(08):594-596.