山西醫(yī)科大學(xué)衛(wèi)生統(tǒng)計(jì)教研室(030001) 余紅梅
1.P值的定義
·學(xué)術(shù)討論·
解析美國(guó)統(tǒng)計(jì)學(xué)會(huì)關(guān)于統(tǒng)計(jì)學(xué)檢驗(yàn)和P值的聲明
山西醫(yī)科大學(xué)衛(wèi)生統(tǒng)計(jì)教研室(030001) 余紅梅△
2014年2月,一位美國(guó)數(shù)學(xué)和統(tǒng)計(jì)學(xué)教授在世界上最大的統(tǒng)計(jì)專業(yè)學(xué)會(huì)——美國(guó)統(tǒng)計(jì)學(xué)會(huì)(American Statistical Association,ASA)論壇上拋出關(guān)于P值的議題:“為什么大學(xué)和研究生院在教P=0.05,答案是因?yàn)榭茖W(xué)界和雜志社編輯在使用;為什么人們一直在使用P=0.05,答案是因?yàn)榇髮W(xué)和研究生院在教”。為了澄清對(duì)統(tǒng)計(jì)學(xué)檢驗(yàn)和P值的誤解和誤用,ASA理事會(huì)決定組成工作組起草一份聲明,聲明的對(duì)象是研究者、實(shí)際工作者和雜志社編輯等非統(tǒng)計(jì)專業(yè)人員。2015年10月專家工作組討論兩天后初步達(dá)成共識(shí),隨后的三個(gè)月,經(jīng)過(guò)專家、ASA理事會(huì)以及目標(biāo)受眾的審議,2016年1月29日ASA執(zhí)行委員會(huì)通過(guò)了該聲明,隨后在The American Statistician在線發(fā)布[1],在業(yè)界引起很大反響。國(guó)內(nèi)知名統(tǒng)計(jì)學(xué)家中山大學(xué)方積乾教授親自筆譯了該聲明及其背景[2-3]。本文通過(guò)回顧P值相關(guān)理論,進(jìn)一步解讀ASA聲明的內(nèi)容,旨在使非統(tǒng)計(jì)專業(yè)人員避免對(duì)P值的誤解和誤用。
1.P值的定義
ASA聲明中對(duì)P值的解釋:“Informally,a p-value is the probability under a specified statistical model that a statistical summary of the data(for example,the sample mean difference between two compared groups) would be equal to or more extreme than its observed value[1].”國(guó)內(nèi)醫(yī)學(xué)統(tǒng)計(jì)學(xué)教科書中的描述:“P的含義是指從H0規(guī)定的總體中隨機(jī)抽樣,抽得等于及大于或(和)等于及小于現(xiàn)有樣本獲得的檢驗(yàn)統(tǒng)計(jì)量(如t、u)值的概率”[4]。
2.Fisher的P值理論:significance test
P值理論歸功于現(xiàn)代統(tǒng)計(jì)學(xué)之父、英國(guó)統(tǒng)計(jì)學(xué)家Ronald A.Fisher,F(xiàn)isher基于1908年Student的t分布理論,于1925年首次給出不同情形下P值的計(jì)算方法[5]。P值提供的是度量實(shí)際數(shù)據(jù)與無(wú)效假設(shè)(null hypothesis)不相容的證據(jù),P值越小,越有理由拒絕無(wú)效假設(shè)。Fisher認(rèn)為這是建立科學(xué)事實(shí)的唯一實(shí)驗(yàn)依據(jù)[5],并提出使用后來(lái)飽受詬病的“significant”一詞來(lái)標(biāo)記該結(jié)論,P值理論由此得名significance test。實(shí)際上Fisher當(dāng)時(shí)使用該詞的初衷來(lái)自于該詞的本意“something worthy of notice”,提示研究者應(yīng)盡可能重復(fù)實(shí)驗(yàn),如果重復(fù)實(shí)驗(yàn)仍然得到較小的P值,則可以推論觀察到的效應(yīng)不大可能單純由于偶然造成。所以“significant”本意是值得研究者關(guān)注或進(jìn)行重復(fù)實(shí)驗(yàn),一次實(shí)驗(yàn)本身并不能證明。另外Fisher當(dāng)時(shí)還建議閾值除了0.05外,也可以使用其他比如0.02或0.01[6],同時(shí)也強(qiáng)調(diào)下結(jié)論時(shí)應(yīng)結(jié)合P值和研究的背景信息[7-8]。
3.Neyman-Pearson的假設(shè)檢驗(yàn)理論:hypothesis test
假設(shè)檢驗(yàn)(hypothesis test)理論歸功于波蘭數(shù)學(xué)家Jerzy Neyman和英國(guó)統(tǒng)計(jì)學(xué)家Egon Pearson(Karl Pearson之子)。1933年,在Fisher提出P值理論8年后,Neyman和Pearson提出假設(shè)檢驗(yàn)理論,他們認(rèn)為考慮一個(gè)無(wú)效假設(shè)的前提是先構(gòu)想至少一個(gè)合理的備擇假設(shè)(alternative hypothesis)[9]。
Neyman-Pearson理論巧妙避開(kāi)了Bayes定理,文獻(xiàn)中提到“基于概率論的檢驗(yàn)本身都不能提供關(guān)于假設(shè)真?zhèn)蔚娜魏斡袃r(jià)值的證據(jù),但是我們可以從另一個(gè)角度看檢驗(yàn)的目的。不用期望知道每個(gè)假設(shè)的真?zhèn)?,我們或許可以尋求并遵循一些規(guī)則來(lái)規(guī)范我們的行為,以確保從經(jīng)驗(yàn)的結(jié)果看,我們不會(huì)經(jīng)常犯錯(cuò)(Without hoping to know whether each separate hypothesis is true or false,we may search for rules to govern our behavior with regard to them,in following which we insure that,in the long run of experience,we shall not be too often wrong.)”[10]。與Fisher理論不同,Neyman-Pearson理論中包含Ⅰ型錯(cuò)誤和Ⅱ型錯(cuò)誤(或檢驗(yàn)效能),兩型錯(cuò)誤的概念及可能原因見(jiàn)表1。盡管他們當(dāng)時(shí)沒(méi)有設(shè)定5%水平為Ⅰ型錯(cuò)誤的標(biāo)準(zhǔn)閾值,科學(xué)界普遍認(rèn)同該閾值。對(duì)Ⅱ型錯(cuò)誤β,通常取0.1或0.2,對(duì)應(yīng)檢驗(yàn)效能(即1-β)分別為90%和80%。
Fisher的P值理論和Neyman-Pearson假設(shè)檢驗(yàn)理論的區(qū)別見(jiàn)表2和圖1[10-11]。按照Fisher的P值理論,P值為0.052和0.047在做出推斷結(jié)論時(shí)的權(quán)重幾乎相等,而按照Neyman-Pearson的假設(shè)檢驗(yàn)理論,則結(jié)論完全相反,這也正成為Fisher反對(duì)Neyman-Pearson假設(shè)檢驗(yàn)理論的主要原因。
表1 Neyman-Pearson理論的兩型錯(cuò)誤及可能原因
表2 Fisher的P值理論和Neyman-Pearson假設(shè)檢驗(yàn)理論的區(qū)別
圖1A:基于Fisher的P值理論,實(shí)驗(yàn)1不拒絕H0,實(shí)驗(yàn)2和3拒絕H0的證據(jù)相當(dāng)。圖1B:基于Neyman-Pearson假設(shè)檢驗(yàn)理論,按照α=0.05,β=0.10,實(shí)驗(yàn)1和2不拒絕H0,實(shí)驗(yàn)3拒絕H0。
圖1 Fisher的P值理論和Neyman-Pearson 假設(shè)檢驗(yàn)理論的區(qū)別(來(lái)自文獻(xiàn)[10])
4.現(xiàn)行的假設(shè)檢驗(yàn)理論
現(xiàn)行的假設(shè)檢驗(yàn)是Fisher的P值理論和Neyman-Pearson假設(shè)檢驗(yàn)理論的結(jié)合,稱為null hypothesis significance testing(NHST)。事先指定Ⅰ型錯(cuò)誤率(通常是5%)和檢驗(yàn)效能(通常至少80%),然后計(jì)算P值,如果P值小于事先指定的Ⅰ型錯(cuò)誤率,則拒絕無(wú)效假設(shè)。統(tǒng)計(jì)學(xué)教科書從20世紀(jì)50年代開(kāi)始融合兩種理論,60年代開(kāi)始被科學(xué)界和研究者廣泛接受。其推論依據(jù)是:若A成立,則B不大可能出現(xiàn);若出現(xiàn)B,則不支持A。其特點(diǎn)是既有邏輯推理又有概率解釋,而且只能證偽。
根據(jù)假設(shè)檢驗(yàn)理論,推斷結(jié)論不是二分類式的對(duì)錯(cuò)。拒絕無(wú)效假設(shè),不意味著實(shí)驗(yàn)結(jié)果可以證明任何備擇假設(shè)的真實(shí)性;反之,不拒絕無(wú)效假設(shè),也不意味著實(shí)驗(yàn)結(jié)果可以確認(rèn)觀察到的樣本差別單純由于偶然引起。因此,假設(shè)檢驗(yàn)可能出現(xiàn)有統(tǒng)計(jì)學(xué)意義但只有微弱甚至沒(méi)有實(shí)際意義,或者有很重要的實(shí)際意義但沒(méi)有統(tǒng)計(jì)學(xué)意義。特別地,當(dāng)P>0.05時(shí),結(jié)論宜表述為“兩治療組間差別的方向沒(méi)有定論(P=0.07)”或“兩變量間相關(guān)的方向沒(méi)有定論(P=0.06)”,而不是“兩治療組間沒(méi)有差別(P=0.07)”或“兩變量間沒(méi)有相關(guān)關(guān)系(P=0.06)”。這種表述避免了接受無(wú)效假設(shè)的結(jié)論,而且提示需要更多的數(shù)據(jù)以得到確定性的結(jié)論[12]。因此諸多統(tǒng)計(jì)學(xué)家建議假設(shè)檢驗(yàn)結(jié)論中“significant”或“nonsignificant”前務(wù)必使用“statistically”。
備擇假設(shè)成立前提下,P值是總體效應(yīng)值和樣本含量的函數(shù),二者之一越大,則相應(yīng)的P值越小。以相關(guān)系數(shù)為例,如果樣本含量小(n=10),一個(gè)比較大的r值(r=0.60)會(huì)導(dǎo)致無(wú)統(tǒng)計(jì)學(xué)意義的結(jié)果;反之,一個(gè)很小的值(r=0.088),只要樣本含量足夠大(n=500),也會(huì)導(dǎo)致有統(tǒng)計(jì)學(xué)意義的結(jié)果,見(jiàn)表3[13]。模擬研究表明,給定檢驗(yàn)效能(或樣本含量和效應(yīng)值)情況下,重復(fù)實(shí)驗(yàn)雙側(cè)檢驗(yàn)P值的分布呈極度偏態(tài)(除非效應(yīng)值等于0),且P值的變異度很大;若效應(yīng)值未知,假定一次實(shí)驗(yàn)得到的雙側(cè)檢驗(yàn)P值為0.05,則重復(fù)實(shí)驗(yàn)雙側(cè)檢驗(yàn)P值第10和第90百分位數(shù)分別為0.00008和0.44,P區(qū)間范圍很寬;只有在一次實(shí)驗(yàn)得到的P值非常小的情況下,重復(fù)實(shí)驗(yàn)P區(qū)間范圍才較窄[14]。應(yīng)該正是P值的上述自身缺陷導(dǎo)致了近90年的實(shí)踐中對(duì)P值越來(lái)越多的爭(zhēng)議,如蚊子(比喻煩人又不可能趕走)或皇帝的新衣(比喻存在明顯的問(wèn)題但被所有人忽視)[15-16];甚至有文獻(xiàn)明確反對(duì)研究者、雜志社和讀者使用假設(shè)檢驗(yàn)[17-18]。目前統(tǒng)計(jì)軟件的普遍可及性也在某種程度上導(dǎo)致了研究者對(duì)P值的誤解和誤用[19]。期刊《Research in the Schools》曾組稿專門出版一期特刊(Special Issue),討論關(guān)于統(tǒng)計(jì)學(xué)假設(shè)檢驗(yàn)的問(wèn)題[20]。
表3 給定樣本含量拒絕無(wú)效假設(shè)的相關(guān)系數(shù)r界值(α=0.05)
1.“P-values can indicate how incompatible the data are with a specified statistical model”.
原則1強(qiáng)調(diào)P值表明數(shù)據(jù)與既定統(tǒng)計(jì)模型不相容的程度,P值越小,數(shù)據(jù)與既定統(tǒng)計(jì)模型對(duì)應(yīng)的無(wú)效假設(shè)不相容的程度越大,前提是滿足計(jì)算P值的假定條件。原則1實(shí)質(zhì)上強(qiáng)調(diào)Fisher的significance test理論中關(guān)于P值的意義。
2.“P-values do not measure the probability that the studied hypothesis is true,or the probability that the data were produced by random chance alone”.
原則2強(qiáng)調(diào)P值不表示無(wú)效假設(shè)成立的概率,也不表示樣本數(shù)據(jù)單純由于偶然產(chǎn)生的概率。注意,我們得到的是無(wú)效假設(shè)H0成立條件下,獲得現(xiàn)有樣本或更極端樣本的概率,而不是獲得現(xiàn)有樣本條件下無(wú)效假設(shè)H0成立的概率。從這個(gè)角度看,假設(shè)檢驗(yàn)是演繹而不是歸納[8,21]。兩個(gè)概率的關(guān)系由Bayes定理解釋:Posterior odds(H0,after obtaining the data)=Prior odds(H0,before obtaining the data)*Prob(Data,under H0)/Prob(Data,under H1)。Trafimow和Rice蒙特卡洛模擬研究結(jié)果表明,按照傳統(tǒng)的0.05檢驗(yàn)水準(zhǔn),二者的相關(guān)性僅為0.289;如果檢驗(yàn)水準(zhǔn)更嚴(yán)格如0.01或0.001,則相關(guān)性更低,因此由前者的大小直接推斷后者絕非安全[22]。
3.“Scientific conclusions and business or policy decisions should not be based only on whether a p-value passes a specific threshold”.
原則3強(qiáng)調(diào)科學(xué)結(jié)論或決策不應(yīng)僅依靠P值是否超過(guò)給定閾值即檢驗(yàn)水準(zhǔn),還要結(jié)合研究設(shè)計(jì)、數(shù)據(jù)質(zhì)量、研究現(xiàn)象的外部證據(jù)以及數(shù)據(jù)分析的前提條件等。正是廣泛使用將P小于0.05即“有統(tǒng)計(jì)學(xué)意義”作為科學(xué)發(fā)現(xiàn)的依據(jù),才導(dǎo)致對(duì)該科學(xué)推論過(guò)程的曲解。
4.“Proper inference requires full reporting and transparency”.
原則4強(qiáng)調(diào)研究者應(yīng)當(dāng)報(bào)告研究的所有假設(shè)、數(shù)據(jù)收集、統(tǒng)計(jì)學(xué)分析及其P值,而不應(yīng)選擇性地報(bào)告P值和相應(yīng)的統(tǒng)計(jì)分析,要嚴(yán)格避免所謂“cherry-picking”或者“p-hacking”行為。有研究表明,有統(tǒng)計(jì)學(xué)意義的結(jié)果可能更容易被引用[23],這一不科學(xué)行為也可能導(dǎo)致“p-hacking”行為的惡性循環(huán)。
5.“A p-value,or statistical significance,does not measure the size of an effect or the importance of a result”.
原則5強(qiáng)調(diào)P值不等價(jià)于效應(yīng)的大小或研究結(jié)果的重要性,P值越小并不表示效應(yīng)越大或結(jié)果越重要,反之,P值越大也不表示效應(yīng)越小或結(jié)果越不重要。只要樣本含量足夠大或測(cè)量精度足夠高,任何小的效應(yīng)都能產(chǎn)生小的P值,反之,大的效應(yīng)由于樣本含量小或測(cè)量精度低會(huì)導(dǎo)致大的P值;另外,相同的估計(jì)效應(yīng)由于不同的估計(jì)精度會(huì)導(dǎo)致不同的P值。
6.“By itself,a p-value does not provide a good measure of evidence regarding a model or hypothesis”.
原則6強(qiáng)調(diào)沒(méi)有研究背景或其他證據(jù)的P值只能提供有限的信息。例如,接近0.05的P值只能提供關(guān)于無(wú)效假設(shè)的微弱證據(jù),而一個(gè)相對(duì)大的P值也不構(gòu)成支持無(wú)效假設(shè)的證據(jù),因此,數(shù)據(jù)分析不應(yīng)以計(jì)算出P值而告終,研究者還可以提供其他證據(jù),包括置信區(qū)間、預(yù)測(cè)區(qū)間、Bayes方法、似然比或Bayes因子、決策理論模型等。
ASA聲明指出:作為規(guī)范的科學(xué)實(shí)踐的一個(gè)必要部分,規(guī)范的統(tǒng)計(jì)實(shí)踐強(qiáng)調(diào)研究設(shè)計(jì)的原則和實(shí)施、研究假設(shè)的理解、研究結(jié)果的解釋及表達(dá)等。聲明的執(zhí)筆人、ASA理事會(huì)執(zhí)行主席Wasserstein教授也強(qiáng)調(diào)從未指望單一的一個(gè)方法比如P值可以取代科學(xué)推斷,ASA聲明或許會(huì)引導(dǎo)科學(xué)研究到一個(gè)所謂“后P<0.05時(shí)代”[1]。
就像大家熟知的平均數(shù)的誤用一樣,假設(shè)檢驗(yàn)本身沒(méi)有錯(cuò),可能犯錯(cuò)誤的是使用者,因此一直以來(lái)假設(shè)檢驗(yàn)遭受的是不公正的批評(píng)[12]。報(bào)告確切的P值可以讓讀者或研究者判斷結(jié)果提示的意義,而不是僅僅依據(jù)檢驗(yàn)水準(zhǔn)做出拒絕或不拒絕假設(shè)的非此即彼的推斷。另外,建議研究者綜合使用假設(shè)檢驗(yàn)、效應(yīng)值、置信區(qū)間、Bayes統(tǒng)計(jì)、meta分析等,從不同角度闡釋研究現(xiàn)象,而不是將假設(shè)檢驗(yàn)作為統(tǒng)計(jì)推斷唯一依據(jù)。
[1]Wasserstein RL,Lazar NA.The ASA′s statement on p-values:context,process,and purpose.The American Statistician,2016,DOI:10.1080/00031305.2016.1154108.
[2]方積乾(譯).ASA關(guān)于p-值的聲明:背景、過(guò)程和目的.中國(guó)衛(wèi)生統(tǒng)計(jì),2016,33(3):548-549.
[3]方積乾(譯).ASA關(guān)于統(tǒng)計(jì)意義和p-值的聲明.中國(guó)衛(wèi)生統(tǒng)計(jì),2016,33(3):549-552.
[4]孫振球主編.醫(yī)學(xué)統(tǒng)計(jì)學(xué).第3版.北京:人民衛(wèi)生出版社,2010.
[5]Fisher RA.Statistical methods for research workers.Edinburgh,UK:Oliver and Boyd,1925.
[6]Fisher RA.The arrangement of field experiments.J Ministry of Agriculture Great Britain,1926,33:503-513.
[7]Fisher RA.Statistical methods and scientific inference.3rd ed.New York:Macmillan,1973.
[8]Goodman SN.Toward evidence-based medical statistics.1:the P value fallacy.Ann Intern Med,1999,130:995-1004.
[9]Neyman J,Pearson E.On the problem of the most efficient tests of statistical hypotheses.Philosophical Transactions of the Royal Society of London.Series A,1933,231:289-337.
[10]Biau DJ,Jolles BM,Porcher R.P value and the theory of hypothesis testing.Clin Orthop Relat Res,2010,468:885-892.
[11]Lew MJ.Bad statistical practice in pharmacology(and other basic biomedical disciplines):you probably don’t know P.British Journal of Pharmacology,2012,166:1559-1567.
[12]Wainer H,Robinson DH.Shaping up the practice of null hypothesis significance testing.Educational Researcher,1990:22-30.
[13]Larry GD.Statistical Significance Testing:A historical overview of misuse and misinterpretation with implications for the editorial policies of educational journals.Research in the Schools,1998,5(2):23-32.
[14]Cumming G.Replication and p intervals:P values predict the future only vaguely,but confidence intervals do much better.Perspectives on Psychological Science,2008,3:286-300.
[15]Nuzzo R.Statistical errors:P values,the ‘gold standard’ of statistical validity,are not as reliable as many scientists assume.Nature,2014,506:150-152.
[16]Lambdin C.Significance tests as sorcery:Science is empirical-significance tests are not.Theory Psychol,2012,22:67-90.
[17]Armstrong JS.Significance tests harm progress in forecasting.International Journal of Forecasting,2007,23(2):321-327.
[18]Azar B.APA task force urges a harder look at data.APA Monitor,1997,28(3):26.
[19]Goodman SN.A dirty dozen:Twelve P-value misconceptions.Semin Hematol,2008,45:135-140.
[20]Special Issue:Statistical significance testing.Research in the Schools,1998,5(2):5-65.
[21]Krueger J.Null hypothesis significance testing:On the survival of a flawed method.American Psychologist,2001,56:16-26.
[22]Trafimow D,Rice S.A test of the null hypothesis significance testing procedure correlation argument.The Journal of General Psychology,2009,136:261-269.
[23]Nieminena P,Ruckera G,Miettunen J.Statistically significant papers in psychiatry were cited more often than others.Journal of Clinical Epidemiology,2007,60:939-946.
(責(zé)任編輯:郭海強(qiáng))
△通信作者:余紅梅,E-mail:yu@sxmu.edu.cn