Bokai WANG, Pan WU, Brian KWAN, Xin M. TU, Changyong FENG,4,*
考慮以下情況。假設(shè)來(lái)自DYC學(xué)區(qū)的兩所學(xué)校,Alpha和Beta,的四年級(jí)學(xué)生參加了國(guó)家標(biāo)準(zhǔn)數(shù)學(xué)考試。 我們想比較這兩所學(xué)校的平均分?jǐn)?shù)。 假設(shè)我們已知Beta學(xué)校中男性和女性的平均分?jǐn)?shù)分別高于Alpha學(xué)校男性和女性的平均分?jǐn)?shù)。 那么這兩所學(xué)校的整體平均分?jǐn)?shù)如何?Beta學(xué)校的平均分?jǐn)?shù)是否高于Alpha學(xué)校? 答案似乎是肯定和直觀的。更具體地說(shuō),假設(shè)每所學(xué)校的男女學(xué)生的平均分?jǐn)?shù)如表1所示。
很明顯,Beta學(xué)校的男女學(xué)生的平均分?jǐn)?shù)都較高。但簡(jiǎn)單的計(jì)算表明,這兩所學(xué)校的總體平均分?jǐn)?shù)分別為83.2和81.8。Alpha學(xué)校的平均成績(jī)更高!
表1. 兩所學(xué)校的男女學(xué)生平均分?jǐn)?shù)
假設(shè)Beta學(xué)校的學(xué)生接受了更先進(jìn)的教學(xué)指導(dǎo),改進(jìn)了傳統(tǒng)教學(xué)方法(Alpha學(xué)校采用傳統(tǒng)教學(xué)方法)。直觀地說(shuō),Beta學(xué)校中的學(xué)生會(huì)得到更好的平均分?jǐn)?shù)。為什么這個(gè)例子如此違反直覺(jué)? 這里有什么不對(duì)嗎?平均分?jǐn)?shù)是衡量學(xué)校學(xué)生表現(xiàn)的合理指標(biāo)嗎? 事實(shí)上,當(dāng)我們談?wù)搩伤鶎W(xué)校時(shí),大多數(shù)時(shí)候我們都假設(shè)這兩所學(xué)校的男生比例大致相同。 很容易證明,如果上述兩所學(xué)校男生的比例完全相同,并且Beta學(xué)校中男女學(xué)生的平均分?jǐn)?shù)均高于Alpha學(xué)校中的男女學(xué)生平均分?jǐn)?shù),則Beta學(xué)校的總體平均分?jǐn)?shù)更高。 我們的例子意味著性別比例的差異可能會(huì)扭轉(zhuǎn)我們想研究的關(guān)系。
上述情況就是著名的辛普森悖論的例子[1]。不嚴(yán)格地說(shuō),辛普森悖論表明,條件關(guān)系(以每個(gè)學(xué)校的性別為例)并不意味著邊際關(guān)系,反之亦然。盡管統(tǒng)計(jì)學(xué)界知道基于相同數(shù)據(jù)的條件和邊際解釋之間的“不一致性”,例如見(jiàn)Yule[2],但辛普森悖論的影響遠(yuǎn)遠(yuǎn)超出了統(tǒng)計(jì)界。事實(shí)上,辛普森悖論在自然科學(xué)[3]、社會(huì)科學(xué)[4],甚至哲學(xué)[5]等許多領(lǐng)域都非常普遍。我們甚至可以說(shuō)它是觀察性研究數(shù)據(jù)的固有屬性[6]。
在本文中,我們討論連續(xù)數(shù)據(jù)、分類數(shù)據(jù)和時(shí)間-事件數(shù)據(jù)中辛普森悖論的一些例子。 在第二部分中,我們使用條件期望給出辛普森悖論的一般統(tǒng)計(jì)解釋。在接下來(lái)的兩節(jié)中,我們通過(guò)例子展示辛普森悖論如何在分類數(shù)據(jù)和時(shí)間-事件數(shù)據(jù)中出現(xiàn)。第5節(jié)為結(jié)論部分。
我們知道,如果
a/b = c/d
那么
a/b = (a+c)/(b+d) = c/d,
(假設(shè) b+d 0),分?jǐn)?shù)不等式是否具有類似的的性質(zhì)?具體來(lái)說(shuō),假設(shè)sij,nij(i =1,2,j = 1,2)為正數(shù),且
s1j/ n1j< s2j/ n2j, j = 1,2.
是否存在
(s11+s12) / (n11+n12) < (s21+s22) / (n21+n22)?
辛普森[1]表示不一定。例如,
3/4 < 7/9 和 2/3 < 15/22
然而,
(3+2)/(4+3) = 5/7 > 22/31 = (7+15)/(9+22)
這意味著匯總的數(shù)據(jù)顯示出相反的關(guān)系。這是“辛普森悖論”的原始形式。 在本節(jié)中,我們構(gòu)建了一個(gè)概率模型來(lái)研究為什么會(huì)出現(xiàn)這種逆轉(zhuǎn)。
設(shè) Y 是< 的 隨 機(jī) 變 量。 假 設(shè) X1和 X2是Xi∈{1,2,...,ki}的兩個(gè)隨機(jī)變量,其中ki( 2),i = 1,2是正整數(shù)。 那么,對(duì)于任何m∈{1,...,k1},
讓我們將方程(1)與我們?cè)诘?節(jié)中的平均得分的例子聯(lián)系起來(lái)。讓X1= 1或2分別表示學(xué)校Alpha和Beta,X2= 1或2分別表示性別的男生和女生的。令Y表示
很明顯
等式(2)表明,學(xué)校Beta中的男女學(xué)生的分?jǐn)?shù)都更高。當(dāng)我們計(jì)算每所學(xué)校的平均分?jǐn)?shù)時(shí),我們需要考慮性別因素。在(1)中我們可以看到,學(xué)校的平均分?jǐn)?shù)是男性和女性得分的加權(quán)平均數(shù),即
使用等式 (1),我們發(fā)現(xiàn)
仔細(xì)研究數(shù)據(jù)表明,性別分布在扭轉(zhuǎn)(2)至(3)中的不等現(xiàn)象方面起著重要作用。 很顯然,如果(2)中的不等式成立,并且兩所學(xué)校的男生比例相同,Beta學(xué)校的平均分?jǐn)?shù)將高于Alpha學(xué)校的平均分?jǐn)?shù)。
在這個(gè)例子中,性別在因果推斷文獻(xiàn)中被稱為混雜因素[7]。 雖然新的教學(xué)方法提高了男生和女生的分?jǐn)?shù),但兩所學(xué)校性別分布的不平衡可能會(huì)混淆新教學(xué)方法的效果。這在基于觀察性研究的因果推斷文獻(xiàn)中被廣泛研究,尤其是在流行病學(xué)中[6]。
上面的例子顯示了辛普森悖論在連續(xù)性結(jié)果中是如何發(fā)生的。在以下兩節(jié)中,我們將說(shuō)明在分類數(shù)據(jù)和時(shí)間-事件數(shù)據(jù)中如何發(fā)生這種現(xiàn)象。
假設(shè)某種疾病的特征是可能不那么嚴(yán)重或更嚴(yán)重?;颊呖梢赃x擇去兩家醫(yī)院中的任何一家進(jìn)行治療:更好或普通的醫(yī)院。治療的結(jié)局是二分類的:成功或失敗??紤]下面的例子。
我們可以看到,對(duì)于病情較輕的患者,較好的醫(yī)院的治療成功率遠(yuǎn)高于普通醫(yī)院。病情更嚴(yán)重的患者結(jié)果類似。
我們從表2中再構(gòu)建三個(gè)表。表3是治療和結(jié)局的交叉分類。 兩類醫(yī)院的總體成功率分別為50/100和68/100。 這似乎表明,普通醫(yī)院的成功率高于更好的醫(yī)院。 這不是我們所期望的。
表2. 在不同嚴(yán)重程度的疾病中治療結(jié)果的成功率
表3. 治療和結(jié)局的交叉分類總結(jié)
表4. 嚴(yán)重程度和結(jié)局的交叉分類總結(jié)
表4是嚴(yán)重程度和結(jié)局的交叉分類。 不太嚴(yán)重和較嚴(yán)重的患者的治療成功率分別為82/100和36/100。這是合理的。
表5. 治療和嚴(yán)重程度的交叉分類總結(jié)
表5是治療和嚴(yán)重程度的交叉分類。 我們可以看到,較好治療組中較嚴(yán)重患者的比例遠(yuǎn)高于普通治療組。
令O表示結(jié)局,可能值為s(“成功”)或f(“失敗”),T 表示治療,可能值為b(“更好”)或n(“普通”),S表示嚴(yán)重程度,可能值為l(“不太嚴(yán)重”)或m(“更嚴(yán)重”)。那么
盡 管 表 2 明 顯 顯 示 Pr{O=s|T=b, S=l} >Pr{O=s|T=n, S=l} 且 Pr{O=s|T=b, S=m} > Pr{O=s|T=n,S=m},表 3 則顯示 Pr{O=s|T=b} < Pr{O=s|T=n}。從表4 和表5 我們知道,更嚴(yán)重的患者的治療成功率遠(yuǎn)低于不太嚴(yán)重的患者,更好的治療機(jī)構(gòu)中更嚴(yán)重患者的比例比正常醫(yī)院高得多。這種不平衡逆轉(zhuǎn)了治療效果的方向。
辛普森悖論也可能發(fā)生在時(shí)間-事件數(shù)據(jù)中[8]。假設(shè)我們有兩個(gè)治療組(用X1表示:治療(1)/對(duì)照(2))。我們考慮兩個(gè)年齡組X2= 1(或0),分別表示年齡 65(>65)年??紤]治療和年齡分類,假設(shè)患者的生存時(shí)間T的風(fēng)險(xiǎn)函數(shù)為
此外,我們假設(shè)治療組的年齡分布是
很明顯,在每個(gè)年齡組中,治療組的風(fēng)險(xiǎn)函數(shù)總是低于對(duì)照組的風(fēng)險(xiǎn)函數(shù)。 圖1顯示了每個(gè)年齡組中兩個(gè)治療組的風(fēng)險(xiǎn)函數(shù)。很明顯,治療組的效果優(yōu)于對(duì)照組。
兩個(gè)組別的邊際風(fēng)險(xiǎn)函數(shù)分別是
h(t|X1= 0) = (0.5e-5t+2.7e-3t)/(0.1e-5t+0.9e-3t),
圖1. 不同年齡組的風(fēng)險(xiǎn)函數(shù)
圖2. 兩組別的邊際風(fēng)險(xiǎn)函數(shù)
圖2顯示了整合年齡后兩個(gè)組別的邊際風(fēng)險(xiǎn)函數(shù)。在圖1中,每個(gè)年齡組別內(nèi)治療組與對(duì)照組的風(fēng)險(xiǎn)比是恒定的。然而,邊際風(fēng)險(xiǎn)比不再是一個(gè)常數(shù)。這可能會(huì)導(dǎo)致一些混雜,特別是如果某個(gè)時(shí)間點(diǎn)后的隨訪時(shí)間刪失的情況。 在那種情況下,治療組的估計(jì)風(fēng)險(xiǎn)函數(shù)可能遠(yuǎn)高于對(duì)照組,盡管這可能不是我們所預(yù)期的。
由于混雜的影響,辛普森悖論在觀察性研究中非常普遍。 在本文中,我們用一些例子來(lái)說(shuō)明這種現(xiàn)象如何在連續(xù)性結(jié)果、分類結(jié)果和生存分析結(jié)果中出現(xiàn)。如果混雜效應(yīng)沒(méi)有得到適當(dāng)解決,統(tǒng)計(jì)分析得出的結(jié)論可能是完全錯(cuò)誤的。辛普森悖論的研究(或更一般地說(shuō),混雜因素的影響)形成了因果推論理論的標(biāo)準(zhǔn),這尤其與大數(shù)據(jù)的錯(cuò)誤相關(guān)。因?yàn)榇蠖鄶?shù)據(jù)本質(zhì)上是觀察性的,如果沒(méi)有解決混雜因素的話,混雜因素會(huì)掩蓋我們感興趣的關(guān)系。
資金來(lái)源
本研究沒(méi)有獲得任何外部資助。
利益沖突
作者報(bào)告沒(méi)有與本文相關(guān)的利益沖突。
作者貢獻(xiàn)
Bokai Wang, Changyong Feng, 和 Xin M. Tu: 理論推導(dǎo);
Pan Wu 和 Brian Kwan: 撰寫文章。
1. Simpson EH. The Interpretation of Interaction in Contingency Tables. J R Stat Soc Series B. 1951; 13: 238-241
2. Yule GU. Notes on the Theory of Association of Attributes in Statistics. Biometrika. 1903; 2 (2): 121-134. doi: https://doi.org/10.1093/biomet/2.2.121
3. Heydtmann M. The nature of truth: Simpson’s Paradox and the limits of statistical data.QJM.2002; 95(4): 247-249. doi:https://doi.org/10.1093/qjmed/95.4.247
4. Lerman K. Computational social scientist beware: Simpson’s paradox in behavioral data. J Comput Soc Sc. 2018; 1: 49-58.doi: https://doi.org/10.1007/s42001-017-0007-4
5. Malinas G, Bigelow J. Simpson’s Paradox. Edward N. Zalta(ed.) The Stanford Encyclopedia of Philosophy (Fall 2016 Edition). Available from: https://plato.stanford.edu/archives/fall2016/entries/paradox-simpson
6. Rosenbaum P R. Observational Studies (2nd ed.). New York:Springer; 2002
7. Pearl J. Causality (2nded.). Cambridge University Press;2009
8. Cox DR. Regression Models and Life-Tables. J R Stat Soc Series B Stat Methodol. 1972; 34(2): 187-220