方陵生/編譯
依賴于數(shù)據(jù)的統(tǒng)計(jì)分析,一個(gè)“小徑分岔花園”的問題解釋了為何許多具有統(tǒng)計(jì)學(xué)意義的比較并不是那么地靠譜。
現(xiàn)今,人們?cè)絹碓蕉嗟囊庾R(shí)到,一些科技出版物中的所謂“具有統(tǒng)計(jì)學(xué)意義”的宣稱,往往可能是不太靠譜的。研究人員通常對(duì)p值數(shù)據(jù)很有信心,p值(概率)是一種隨機(jī)變化的觀察結(jié)果,即對(duì)數(shù)據(jù)集提供的證據(jù)與零假設(shè)進(jìn)行比較的一種統(tǒng)計(jì)測(cè)量方法。按照慣例,p值低于0.05被認(rèn)為是對(duì)零假設(shè)的一個(gè)有意義的否定,然而,這樣的結(jié)論可能并不如表面上看起來的那么可靠。
p值概念最初是由英國統(tǒng)計(jì)學(xué)家羅納德·費(fèi)舍爾(Ronald Fisher)于上世紀(jì)20年提出的,其本意是保護(hù)研究人員不受嘈雜數(shù)據(jù),即無意義數(shù)據(jù)信息模式的影響。具有諷刺意味的是,p值如今常被用來作為基于小量樣本嘈雜數(shù)據(jù)信息得出某個(gè)結(jié)論的佐證。
舉例來說,假設(shè)對(duì)美國民主黨和共和黨在醫(yī)療保健和軍隊(duì)建設(shè)方面進(jìn)行測(cè)試,測(cè)試題可能不涉及具體調(diào)查內(nèi)容,如派系與數(shù)學(xué)解題之間的聯(lián)系。而零假設(shè)是,具體背景條件與測(cè)試任務(wù)無關(guān)或相關(guān),即雙方測(cè)試成績(jī)差異與其在軍事或醫(yī)療領(lǐng)域的具體背景條件相關(guān)。
此時(shí)可進(jìn)行大量符合研究人員推論的比較。例如,男性群體的零假設(shè)可以否決(指具有統(tǒng)計(jì)學(xué)意義的零假設(shè)),其依據(jù)是,男人比女人的意識(shí)形態(tài)更強(qiáng)。還有一種模式在女性群體中比男性群體更為明顯,即女性對(duì)于背景條件比男性更為敏感,或者說這種模式在男女群體中都具有統(tǒng)計(jì)學(xué)意義。
與軍事問題相比,我們還會(huì)看到在醫(yī)療背景條件下而非軍事背景條件下的性別差異——目前醫(yī)療保健是一個(gè)高度政治化的問題。獨(dú)立人士和無黨派人士如何處理這些問題,取決于他們?cè)跀?shù)據(jù)樣本中所占數(shù)量的比例,有可能完全被排除在外。于是,一個(gè)首要的假設(shè)就是,問題的背景條件與黨派之間的交互是否會(huì)對(duì)問題的解決產(chǎn)生影響,即對(duì)決策變量存在多重選擇的可能。
而多重比較問題是一個(gè)眾所周知的概念,在統(tǒng)計(jì)學(xué)中被稱為“p值黑客”,是由心理學(xué)家約瑟夫·西蒙斯(Joseph Simmons)等人在2011年提出的。
本文的主要觀點(diǎn)是,如果數(shù)據(jù)分析人員沒有有意識(shí)地對(duì)數(shù)據(jù)進(jìn)行篩選排查,或明確進(jìn)行多種數(shù)據(jù)比較的話,可能會(huì)存有潛在的多種比較。也就是說,數(shù)據(jù)分析的具體細(xì)節(jié)與數(shù)據(jù)高度相關(guān),并往往有可能導(dǎo)致p值無效。
一般來說,我們對(duì)假設(shè)的測(cè)試可以分成四類:(1)基于單一統(tǒng)計(jì)數(shù)據(jù)T值的簡(jiǎn)單的經(jīng)典測(cè)試,產(chǎn)生的數(shù)據(jù)結(jié)果為T(y),y代表數(shù)據(jù);(2)從可能的幾種測(cè)試方法中預(yù)選某個(gè)統(tǒng)計(jì)值的經(jīng)典測(cè)試,產(chǎn)生的數(shù)據(jù)結(jié)果為T(y,φ),式中φ為預(yù)定值(例如,φ可能對(duì)應(yīng)于一些起主要作用或相關(guān)作用的控制變量);(3)研究人員單純對(duì)數(shù)據(jù)信息進(jìn)行統(tǒng)計(jì)分析,對(duì)不同的數(shù)據(jù)集進(jìn)行不同的測(cè)試,產(chǎn)生的數(shù)據(jù)結(jié)果為T(y,φ(y)),式中φ為觀察數(shù)據(jù);(4)直接對(duì)數(shù)據(jù)進(jìn)行“釣魚”,即指非法數(shù)據(jù)調(diào)查,在j=1,……J時(shí),計(jì)算T(y;φj),在進(jìn)行J測(cè)試時(shí)得出最佳結(jié)果數(shù)據(jù)T(y,φbest(y))。
考慮到以上所述的各種選擇,以及實(shí)際研究中的各種可能性,要尋找統(tǒng)計(jì)學(xué)上有意義的結(jié)果(幾乎可以肯定在0.05甚至0.01之間尋找),其難度是難以想象的。在這種情況下,研究人員只需進(jìn)行基于這些數(shù)據(jù)的一種測(cè)試,得出結(jié)果為T(y,φ(y)),這種方法似乎是有意為之的“釣魚”,為的就是要得出這樣的結(jié)果。正如政治科學(xué)家瑪卡爾坦·漢弗萊斯(Macartan Humphreys)等人于2013年所寫的那樣,一位研究人員在面對(duì)多個(gè)合理結(jié)果時(shí)可能會(huì)想,其中較少嘈雜數(shù)據(jù)的測(cè)量結(jié)果很可能是對(duì)的,并據(jù)此得出推論,這時(shí)他很可能就是錯(cuò)的。在之前提出的一些假設(shè)例子中,醫(yī)療背景條件的不同,可能會(huì)導(dǎo)致不同的結(jié)果,就是一個(gè)例證。
在小尺度效應(yīng)背景下,這樣的錯(cuò)誤有特別的風(fēng)險(xiǎn),樣本規(guī)模越小,測(cè)量誤差越大,變量差異也越高。而樣本規(guī)模較大,測(cè)量誤差較小,變量差異也較低。用貝葉斯計(jì)算理論來解釋(即p值是指給定數(shù)據(jù)的假設(shè)合理性,而不是相反),任何基于數(shù)據(jù)的結(jié)論,如果在先驗(yàn)上更有可能,那就更為可信,如果估計(jì)有更多錯(cuò)誤,那就不太可信。
要想獲得具有統(tǒng)計(jì)學(xué)意義的結(jié)果,如果在數(shù)據(jù)收集時(shí)不抱偏見,即使從相當(dāng)嘈雜的數(shù)據(jù)中,也可以通過反復(fù)比較、數(shù)據(jù)排除、分析不同相關(guān)關(guān)系和控制不同預(yù)測(cè)因子等方法,得到具有統(tǒng)計(jì)學(xué)意義的結(jié)果。但在現(xiàn)實(shí)中,研究人員會(huì)帶著很強(qiáng)的實(shí)質(zhì)性假設(shè)進(jìn)入某項(xiàng)研究,在某種程度上對(duì)于任何給定的數(shù)據(jù)集,合適的分析似乎是顯而易見的。即使選擇的數(shù)據(jù)是用于分析其的一個(gè)確定性函數(shù),也無益于消除多重比較帶來的問題。
2013年,丹麥奧爾胡斯大學(xué)的邁克爾·彼得森(Michael Petersen)團(tuán)隊(duì)發(fā)表了一項(xiàng)研究報(bào)告,聲稱發(fā)現(xiàn)男性上身力量與其社會(huì)經(jīng)濟(jì)地位之間,以及他們對(duì)經(jīng)濟(jì)再分配態(tài)度之間的聯(lián)系。文章以手臂力量為代表,認(rèn)為社會(huì)經(jīng)濟(jì)地位(SES)較高的男性反對(duì)財(cái)富的再分配,而社會(huì)經(jīng)濟(jì)地位較低的男性則支持財(cái)富的重新分配。
值得注意的是,作者報(bào)告了有統(tǒng)計(jì)學(xué)意義的交互關(guān)系,但沒有統(tǒng)計(jì)學(xué)意義上的主效應(yīng),即他們沒有發(fā)現(xiàn)較大臂圍男性對(duì)經(jīng)濟(jì)再分配持更保守的立場(chǎng),只是發(fā)現(xiàn)較高社會(huì)經(jīng)濟(jì)地位的男性其臂圍與反對(duì)再分配財(cái)富之間的關(guān)系。如果發(fā)現(xiàn)了主效應(yīng)(兩個(gè)方向的效應(yīng)),理論上他們可以得出一個(gè)合理的解釋。如果沒有主效應(yīng),也就沒有交互影響,他們或會(huì)去尋找其他的交互影響。例如,學(xué)生有或沒有年長(zhǎng)兄姐進(jìn)行比較的交互影響關(guān)系。
我們?cè)?013年的一份報(bào)告中表明,“p值黑客”可能意味著對(duì)統(tǒng)計(jì)學(xué)意義的積極追求。當(dāng)然,對(duì)于統(tǒng)計(jì)學(xué)家來說,在數(shù)據(jù)的基礎(chǔ)上完善他們的假設(shè)是合理的。當(dāng)所需模式?jīng)]有作為主效應(yīng)出現(xiàn)時(shí),再觀察其交互關(guān)系也是有道理的。例如年長(zhǎng)兄姐的交互關(guān)系,這種家庭關(guān)系在進(jìn)化心理學(xué)上的解釋通常被認(rèn)為是很關(guān)鍵的。
當(dāng)然,在一些統(tǒng)計(jì)調(diào)查中也存有一定的自由度,例如在不同國家進(jìn)行的調(diào)查問卷,研究人員會(huì)發(fā)現(xiàn),丹麥的一些問卷內(nèi)容如果由美國人來回答,答案會(huì)是完全不同的。之后進(jìn)一步的解釋是,“當(dāng)這些不可靠的問卷項(xiàng)目被刪除之后……交互效應(yīng)就有意義了……?!?/p>
2013年,心理學(xué)家布雷恩·諾塞克(Brian Nosek)等人公布了他們復(fù)制的實(shí)驗(yàn)案例——一個(gè)認(rèn)知判斷和政治態(tài)度的實(shí)驗(yàn)。在這項(xiàng)他們稱為50灰度的研究中,諾塞克等人發(fā)現(xiàn)了政治極端主義與黑色或白色圖像而非灰度中間色感知能力之間的一個(gè)具有統(tǒng)計(jì)學(xué)意義的交互關(guān)系。最初估計(jì)分析,復(fù)制實(shí)驗(yàn)有99%的機(jī)會(huì)達(dá)到統(tǒng)計(jì)學(xué)的意義,p值<0.05。但事實(shí)上,復(fù)制嘗試是不成功的,p值為0.59。
雖然沒有達(dá)到預(yù)期結(jié)果,但重要的是這項(xiàng)實(shí)驗(yàn)所表明的具有統(tǒng)計(jì)學(xué)意義的p值不能從表面值取得,即使某種比較與現(xiàn)有的理論一致。
2011年,一個(gè)可能是虛假統(tǒng)計(jì)學(xué)意義的案例引起了爭(zhēng)議??的螤柎髮W(xué)社會(huì)心理學(xué)教授達(dá)里爾·貝姆(Daryl Bem)聲稱找到了超感知覺(ESP)的證據(jù)。在他的第一次實(shí)驗(yàn)中,100名學(xué)生參加了可視化圖像的測(cè)試,在情色圖片測(cè)試中他發(fā)現(xiàn)了具有統(tǒng)計(jì)學(xué)意義的結(jié)果,而在非情色圖片中則沒有什么發(fā)現(xiàn)。隨后在一些失敗的復(fù)制實(shí)驗(yàn)嘗試后,由此引起的爭(zhēng)議逐漸消退。但是,它作為一個(gè)案例仍然為人們感興趣,它表明在任何領(lǐng)域內(nèi),調(diào)查人員可以利用普遍接受的研究實(shí)踐去發(fā)現(xiàn)統(tǒng)計(jì)學(xué)上的意義。
貝姆在論文中提出了九種不同的實(shí)驗(yàn)方法和許多具有統(tǒng)計(jì)學(xué)意義的結(jié)果,即多樣化的自由度讓他可以繼續(xù)尋找,直到他找到自己想要的東西。但考慮到與他能獲得的其他許多比較,如果受試者能夠識(shí)別的所有圖片高于統(tǒng)計(jì)學(xué)意義上的概率,那么肯定會(huì)被作為ESP的證據(jù)。但如果非情色圖片測(cè)試成績(jī)更高呢?人們可以很容易地辯駁,情色圖片容易分散注意力,只有非情色圖片才是ESP現(xiàn)象的一個(gè)好的測(cè)試對(duì)象。如果受試者在統(tǒng)計(jì)學(xué)意義上的表現(xiàn)明顯好于前半段,顯然是通過學(xué)習(xí)獲得提高的證據(jù),但如果上半段成績(jī)更好,那顯然是因?yàn)楹蟀攵巫⒁饬ζ诘木壒省?/p>
貝姆等人在論文中反駁了這些批評(píng)意見,稱他的假設(shè)是一種試探性研究?!斑@個(gè)假設(shè)的特異性源于早期的幾個(gè)‘預(yù)感’實(shí)驗(yàn),如1997年或之前的研究表明,參與者顯示異常的‘預(yù)知’能力,在看到情色圖片幾秒鐘之前便產(chǎn)生了生理沖動(dòng),但在看到讓人心情平靜或非情色圖片之前則未出現(xiàn)這種情況?!彼麄円矊⑶樯珗D片與非情色圖片混雜展示,以觀察參與者是否能夠預(yù)測(cè)這些圖片出現(xiàn)的左右位置,結(jié)果發(fā)現(xiàn)他們不能。貝姆等人認(rèn)為,這一發(fā)現(xiàn)“與預(yù)感實(shí)驗(yàn)的結(jié)果一致?!?/p>
我們沒有理由懷疑上述對(duì)動(dòng)機(jī)的描述,但似乎很清楚的是,每一個(gè)科學(xué)假設(shè)都對(duì)應(yīng)于多個(gè)統(tǒng)計(jì)學(xué)上的假設(shè)。例如,關(guān)于“生理沖動(dòng)的異常預(yù)知能力”的描述,假設(shè)實(shí)驗(yàn)受試者對(duì)于情色圖片在統(tǒng)計(jì)學(xué)意義上的表現(xiàn)較差,這個(gè)結(jié)果同樣也符合這一理論。理由是,異常沖動(dòng)可能干擾有效的預(yù)知過程。
貝姆堅(jiān)稱他的假設(shè)“不是通過事后數(shù)據(jù)探查形成的”,而是以數(shù)據(jù)為依據(jù)的分析結(jié)果。例如,如果男性在情色圖片測(cè)試中或女性在浪漫圖片測(cè)試中表現(xiàn)更好,那么就沒有理由認(rèn)為這樣的模式看起來會(huì)像是“釣魚”或“p值黑客”,相反,它將很自然地被視為與研究假設(shè)相符。因?yàn)橛写罅课墨I(xiàn)表明男女對(duì)視覺性刺激反應(yīng)的性別差異。
2013年,心理學(xué)家克麗絲蒂娜·杜蘭特(Kristina Durante)等人在《心理科學(xué)》雜志上發(fā)現(xiàn)了一篇基于調(diào)查數(shù)據(jù)的論文,該論文聲稱“排卵讓單身女性產(chǎn)生更多自由傾向,更少宗教信仰,且更可能投票給奧巴馬。論文還稱,在已婚和排卵期的女性中,有40%的人支持羅姆尼,而非排卵期的女性中,支持者只占23%。相比之下,排卵讓已婚婦女更保守,更多宗教信仰,更可能投票支持羅姆尼??傊?,排卵周期會(huì)影響女性的政治傾向。
對(duì)于報(bào)道中的具有統(tǒng)計(jì)學(xué)上的意義,是否意味著我們要義不容辭的相信,或者至少考慮數(shù)據(jù)是支持他們假設(shè)的有力證據(jù)呢?非也,理由還是那個(gè)“小徑分岔花園”的比喻,即使杜蘭特等人只對(duì)看到的某個(gè)特定的數(shù)據(jù)集進(jìn)行分析,他們也可以進(jìn)行其他分析,從中得到與他們理論一致的結(jié)果。
事實(shí)上,論文中關(guān)于交互作用的描述(已婚女性和單身女性的不同模式)與作者的理論視角(排卵引導(dǎo)婦女優(yōu)先保護(hù)擁有遺傳適應(yīng)性指標(biāo)的基因利益)相符。正如作者所指出的那樣,他們的假設(shè)“符合這一想法,即女性應(yīng)該會(huì)支持更具自由傾向的候選人?!被蛘呒僭O(shè)數(shù)據(jù)遵循相反的模式,隨著排卵期的到來,持保守或自由態(tài)度的女性的投票傾向性也隨之發(fā)生改變。其他需要考慮的自然交互影響,還包括年齡或社會(huì)經(jīng)濟(jì)地位等(如前文提到的臂圍因素)。
初一看,這些描述可能顯得微不足道,或者研究人員從中發(fā)現(xiàn)了與他們理論相一致的大的影響因素。那么為什么我們還要如此挑剔呢?我們認(rèn)為,呼吁人們關(guān)注這些缺陷是出于兩個(gè)原因。首先,聲稱月經(jīng)周期導(dǎo)致20%的投票意向差異,實(shí)質(zhì)上是難以置信的。有證據(jù)表明,很少有人會(huì)在總統(tǒng)大選活動(dòng)期間改變他們的投票意向;其二,所發(fā)表的統(tǒng)計(jì)學(xué)意義的比較結(jié)果是作者論文的中心部分(如果沒有p<0.05的結(jié)果,是不會(huì)被發(fā)表在頂級(jí)期刊上的),所有潛在相關(guān)性的高度多樣性也與此有關(guān)。
除了主要效應(yīng)和交互作用的選擇之外,杜蘭特和她的合作者還有幾個(gè)政治相關(guān)問題需要處理(政治態(tài)度及投票意向),其他人口統(tǒng)計(jì)學(xué)變量(年齡、種族、生育狀況)以及婚姻關(guān)系的彈性(例如,曾經(jīng)的“單身”與“已婚”選擇欄,后來就變成了,“單身”與“一段戀情”選擇欄)。
2013年,心理學(xué)家亞歷克·比埃爾(Alec Beall)和杰西卡·特蕾西(Jessica Tracy)在《心理科學(xué)》雜志上刊文說,生育高峰期的女性在月經(jīng)周期愛穿紅色或粉紅色襯衫的比例是其他女性的三倍。他們的理論認(rèn)為,這可能基于這樣一種理念,紅色或粉紅色對(duì)異性更有吸引力,臉色看上去也更健康。
特蕾西和比埃爾在網(wǎng)站上稱,他們進(jìn)行研究的“唯一目的是對(duì)一個(gè)特定的假設(shè)進(jìn)行測(cè)試:懷孕風(fēng)險(xiǎn)會(huì)增加女性對(duì)紅色或粉紅色穿著的傾向性?!彼麄兪且昧舜罅垦芯砍晒贸鲞@一假設(shè)的。
似乎很明顯的是,他們的分析是依數(shù)據(jù)而定。在他們特定理論的框架內(nèi)對(duì)于數(shù)據(jù)的篩選和分析可以有許多的選擇。最重要的是,他們的實(shí)驗(yàn)報(bào)告和分析是沒有預(yù)定的。盡管比埃爾和特蕾西所作的分析符合他們的整體研究假設(shè)。我們也相信他們所說的,他們沒有進(jìn)行“釣魚”(即指非法數(shù)據(jù)調(diào)查),他們的特定決策仍然有許多的自由度,包括如何嚴(yán)格設(shè)定被調(diào)查女性的年齡標(biāo)準(zhǔn)、色調(diào)標(biāo)準(zhǔn),以及潛在交互作用的查驗(yàn)和將不同比較結(jié)果進(jìn)行綜合還是對(duì)比,等等。
在上述這個(gè)例子中,比埃爾和特蕾西是一方,杜蘭特和她的合作者是另一方,他們?cè)陬愃剖录膯l(fā)下,同年在同一份雜志上發(fā)表了各自的論文。但在細(xì)節(jié)上他們則有所不同,都在自己選擇關(guān)注的比較數(shù)據(jù)分析中發(fā)現(xiàn)了具有統(tǒng)計(jì)學(xué)意義的結(jié)果。這兩項(xiàng)研究對(duì)女性的生育年齡進(jìn)行了調(diào)查,但一項(xiàng)研究描述的是其主要影響,而另一項(xiàng)研究描述的則是單身女性和已婚女性之間的區(qū)別。但無論哪種情況,規(guī)則和數(shù)據(jù)分析選擇都不是事先預(yù)定好的。
在小徑分岔的花園里,無論你采取什么樣的路線,道路似乎都是預(yù)定好的。而在實(shí)際研究中,研究人員并不通過多個(gè)測(cè)試來確定哪個(gè)才能獲得最佳p值。相反,他們使用自己的科學(xué)常識(shí),考慮所擁有的數(shù)據(jù)資料,以認(rèn)為合理的方式來制定某個(gè)假設(shè)。但如果認(rèn)為,是選定的特定路徑產(chǎn)生了具有統(tǒng)計(jì)學(xué)意義的結(jié)果,就是支持他們假設(shè)的強(qiáng)有力證據(jù),這么想就錯(cuò)了。
任何看起來相對(duì)比較難的研究,總可能會(huì)找到缺陷的。我們有很多取決于數(shù)據(jù)的分析工作,我們一直在宣稱一些具有統(tǒng)計(jì)學(xué)意義的結(jié)果,而忽略了數(shù)據(jù)選擇的偏向性或多重比較引起的一些問題。所以我們也要談?wù)劮e極的方面,以避免只是扮演一個(gè)被責(zé)難的統(tǒng)計(jì)員的角色。
根據(jù)我們的經(jīng)驗(yàn),以數(shù)據(jù)為依據(jù)來完善自己的研究假設(shè)是一種良好的科學(xué)實(shí)踐,進(jìn)行這類實(shí)踐的科學(xué)家也敏銳地意識(shí)到數(shù)據(jù)挖掘的風(fēng)險(xiǎn),他們使用置信區(qū)間(置信區(qū)間在廣義上即區(qū)間估計(jì),在各式各樣的量化研究中有廣泛的應(yīng)用——譯注)和p值作為工具來避免被無用信息干擾。遺憾的是,這一切的努力還是產(chǎn)生了某種副產(chǎn)品,即當(dāng)統(tǒng)計(jì)學(xué)上有意義的模式出現(xiàn)時(shí),人們自然會(huì)感到興奮,并相信它是真的。事實(shí)上,科學(xué)家一般不會(huì)作弊,也不會(huì)通過“釣魚”去尋求具有統(tǒng)計(jì)學(xué)意義的結(jié)果,于是,當(dāng)他們遇到某個(gè)能越過p<0.05閾值而足夠強(qiáng)大的模式時(shí),很容易會(huì)得出堅(jiān)信不疑的結(jié)論。
對(duì)于使用p值來證明某個(gè)科學(xué)主張,或者指出某個(gè)多重比較令p值無效的宣稱,我們不是第一個(gè)對(duì)此表示擔(dān)憂的。我們的目的只在于提請(qǐng)注意,p值的有效性需要在多個(gè)數(shù)據(jù)集中得到檢驗(yàn)。與此相關(guān)的考慮是,數(shù)據(jù)依賴的分析和解釋選擇,如果用了其他可能的數(shù)據(jù)庫是否就會(huì)不同?如果是這樣的話,即使對(duì)給定數(shù)據(jù)只進(jìn)行一項(xiàng)分析,由于對(duì)變量組合、數(shù)據(jù)包含和數(shù)據(jù)排除、變量轉(zhuǎn)換等的選擇在缺少主效應(yīng)情況下的交互影響的測(cè)試,多重比較的問題也會(huì)出現(xiàn)。
在這一點(diǎn)上也許人們會(huì)有異議,因?yàn)槿魏窝芯慷家婕暗脚c數(shù)據(jù)相關(guān)的決策,從某種意義上來說,是的。但是我們已經(jīng)討論了一些例子,從中發(fā)現(xiàn)了一種傾向,即過度依賴p值來支持某個(gè)強(qiáng)大的推理。例如ESP實(shí)驗(yàn),這是一個(gè)沒有真正理論基礎(chǔ)的現(xiàn)象,研究的目的只是揭示一系列小的影響而已。而對(duì)女性投票行為的研究、男性對(duì)財(cái)富分配的態(tài)度,以及女性排卵期傾向于穿紅色衣服,大致是符合進(jìn)化理論的,通常會(huì)產(chǎn)生一些難以置信的影響。
在政治領(lǐng)域內(nèi),漢弗萊斯等人建議對(duì)整個(gè)數(shù)據(jù)收集和分析報(bào)告提前定義(預(yù)定義)。然而,這對(duì)于我們自己的大多數(shù)研究項(xiàng)目而言,這一做法幾乎是沒有意義的。最重要的是假設(shè)不可能提前制定。例如,較為成功的蓋爾曼模式,即富裕國家和貧窮國家中窮人選民和富人選民態(tài)度比較的研究項(xiàng)目,只是在對(duì)數(shù)據(jù)進(jìn)行多角度研究后才開始變得明顯起來(其他選舉分析也證實(shí)了這一模式)。
而在心理學(xué)等領(lǐng)域,要獲得更多的數(shù)據(jù)通常并沒有這么困難,預(yù)定義是有意義的。與此同時(shí),我們不希望對(duì)統(tǒng)計(jì)學(xué)的“純度”成為約束科學(xué)研究的“緊身衣”,無論是在心理、營養(yǎng),還是在教育領(lǐng)域,最有價(jià)值的統(tǒng)計(jì)分析通常只出現(xiàn)在涉及數(shù)據(jù)的迭代過程之后。預(yù)定義在某些領(lǐng)域可能實(shí)用,但在政治領(lǐng)域,想以此作為通用的解決方案是不現(xiàn)實(shí)的。
我們想要強(qiáng)調(diào)的一點(diǎn)是,研究人員應(yīng)該對(duì)他們進(jìn)行數(shù)據(jù)分析的選擇要有更清醒的認(rèn)識(shí),意識(shí)到p值公布可能會(huì)產(chǎn)生的問題。最終,他們可以參考已發(fā)表的開放式分析,以對(duì)自己的想法進(jìn)行外部驗(yàn)證,這種做法在統(tǒng)計(jì)科學(xué)和計(jì)算機(jī)科學(xué)領(lǐng)域很流行。具體可以進(jìn)行兩個(gè)實(shí)驗(yàn),一是對(duì)仍然處于理論階段的想法進(jìn)行探索,二是對(duì)預(yù)先的實(shí)驗(yàn)?zāi)康倪M(jìn)行確認(rèn)。
在很大程度上,統(tǒng)計(jì)學(xué)的一些觀測(cè)領(lǐng)域,如政治科學(xué)、經(jīng)濟(jì)學(xué)、社會(huì)學(xué),復(fù)制實(shí)驗(yàn)是困難的或不可行的。我們無法輕易通過戰(zhàn)爭(zhēng)或金融危機(jī)等來收集數(shù)據(jù),唯一的建議就是對(duì)現(xiàn)有數(shù)據(jù)進(jìn)行更全面的分析,起點(diǎn)是對(duì)所有相關(guān)比較進(jìn)行分析,而不僅僅關(guān)注于具有統(tǒng)計(jì)學(xué)意義的東西。我們?cè)f過,多層次建模可以解決多重比較的問題,但這種方法的實(shí)際困難可能也不小。
我們必須意識(shí)到,沒有預(yù)先定義或沒有真實(shí)復(fù)制的機(jī)會(huì),我們對(duì)數(shù)據(jù)分析的選擇將只能是數(shù)據(jù)依賴性的,即使研究動(dòng)機(jī)是理論性的。當(dāng)預(yù)定義的復(fù)制很困難或者不可能時(shí)(如社會(huì)科學(xué)和公共衛(wèi)生研究領(lǐng)域),我們相信最好的策略是對(duì)所有數(shù)據(jù)進(jìn)行的全面分析,而不只是集中于某項(xiàng)比較或較少的多重比較。
沒有一個(gè)統(tǒng)計(jì)質(zhì)量控制委員會(huì)來強(qiáng)制進(jìn)行這種更大規(guī)模的分析,而且我們也不認(rèn)為這樣的強(qiáng)制措施是恰當(dāng)?shù)?。隨著越來越多的科學(xué)家們效仿諾塞克,公開表示p值對(duì)自己研究的不良影響時(shí),我們希望提升對(duì)全面數(shù)據(jù)分析的動(dòng)機(jī),以減少這些問題的困擾。必要時(shí)必須退后一步,到一個(gè)更能清晰區(qū)分探索性和驗(yàn)證性數(shù)據(jù)分析的區(qū)間,以識(shí)別各自的優(yōu)點(diǎn)和局限性。
在一些數(shù)據(jù)容易收集的領(lǐng)域,也許諾塞克兩部走的方法,即在正式公布結(jié)果之前進(jìn)行一次復(fù)制實(shí)驗(yàn),可為未來的研究設(shè)置一個(gè)標(biāo)準(zhǔn),以代替目前的通常做法,即每項(xiàng)研究都有自己取決于數(shù)據(jù)分析的統(tǒng)計(jì)學(xué)意義??茖W(xué)家們必須意識(shí)到,p值不一定從表面值獲得,這并不意味著科學(xué)家們不能選擇有效的統(tǒng)計(jì)推斷。
我們強(qiáng)烈的意識(shí)到,越來越接近真相是科學(xué)家最感興趣的。用偉大的統(tǒng)計(jì)教育家弗雷德里克·穆斯特勒(Frederick Mosteller)的話來說,統(tǒng)計(jì)數(shù)據(jù)很容易讓我們受騙,但沒有統(tǒng)計(jì)數(shù)據(jù)我們更容易被騙。