文 婷 (長江大學荊州臨床醫(yī)學院 荊州市中心醫(yī)院ICU,湖北 荊州 434020)
卡方檢驗在醫(yī)學資料處理中的應用
文 婷 (長江大學荊州臨床醫(yī)學院 荊州市中心醫(yī)院ICU,湖北 荊州 434020)
卡方(χ2)檢驗在醫(yī)學、藥學工作和研究中經(jīng)常用來對數(shù)據(jù)進行統(tǒng)計分析。介紹了兩獨立樣本率的卡方檢驗的相關(guān)統(tǒng)計學的概念和方法,并通過Excel電子表格計算兩個實例, 具體地說明了四格表χ2檢驗方法在醫(yī)學研究中的應用,分析方法詳盡清晰易懂,為專業(yè)人員進行相關(guān)分析提供參考。
獨立樣本;χ2檢驗;醫(yī)療系統(tǒng)
醫(yī)學、藥學工作者在工作和研究中經(jīng)常需要對數(shù)據(jù)作統(tǒng)計分析。有人報道, 在醫(yī)學期刊論文中應用的統(tǒng)計方法大多數(shù)屬于t檢驗, 卡方(χ2)檢驗和方差分析等基本的或經(jīng)典的統(tǒng)計方法[1-3]。χ2檢驗是一種用途較廣的計數(shù)資料的假設(shè)檢驗方法,屬于非參數(shù)檢驗的范疇,主要應用于推斷兩個樣本率或構(gòu)成比之間有無差別,其根本思想就是在于比較理論頻數(shù)和實際頻數(shù)的吻合程度或擬合優(yōu)度[4]。
對于某實驗分為實驗組與對照組兩組,其中實驗組合格數(shù)為a,不合格數(shù)為b;對照組合格數(shù)為c,不合格數(shù)為d;判斷兩組的合格率是否有顯著差異。則本資料經(jīng)整理成表1形式,即有兩個處理組,每個處理組的例數(shù)由發(fā)生數(shù)和未發(fā)生數(shù)兩部分組成。表內(nèi)有a、b、c、d共4個基本數(shù)據(jù),其余數(shù)據(jù)均由此4個數(shù)據(jù)推算出來的,故稱四格表資料。
表1 四格表資料的基本形式
2.1卡方檢驗的理論公式
1) 檢驗的基本公式:
(1)
2)四格表資料檢驗的專用公式:
對于表1有:
(2)
3)四格表資料檢驗的校正公式:
對于表1有:
(3)
2.2四格表資料χ2檢驗公式選擇條件
表2 四格表資料χ2檢驗公式選擇條件
*χ2連續(xù)性校正僅用于ν=1的四格表資料,當ν≥2時,一般不作校正。
2.3理論頻數(shù)的求解公式
理論頻數(shù)由下式求得:
(4)
式中,TRC為第R行第C列的理論頻數(shù),nR為相應的行合計,nC為相應的列合計。理論頻數(shù)T是根據(jù)檢驗設(shè)H0:π1=π2=π,且用合并率π來估計而定的,如是表1中的理論頻數(shù)可有下式獲得。
(5)
2.4檢驗結(jié)果分析
檢驗統(tǒng)計量χ2值反映了實際頻數(shù)與理論頻數(shù)的吻合程度[7]。若檢驗假設(shè)H0:π1=π2=π成立,則統(tǒng)計量χ2不應該很大,即四個格子的實際頻數(shù)A與理論頻數(shù)T相差不能太大。相反,如果χ2值越大,則相對應的P值越小,當P≤α,可反過來推斷A與T相差太大,超出了抽樣誤差允許的范圍,從而懷疑H0的正確性,繼而拒絕H0,接受其對立假設(shè)H1,即H1:π1≠π2[8]。
2.5P值的求解
P值的獲得可直接查χ2界值表[4]或者利用SPSS、SAS、電子表格等工具計算。
例1: 某市城鄉(xiāng)醫(yī)院空氣消毒合格率的比較資料見表3 。問城鄉(xiāng)醫(yī)院空氣消毒合格率有無差異?
表3 城鄉(xiāng)醫(yī)院空氣消毒合格率的比較
分析步驟:
1) 建立檢驗假設(shè),確定檢驗水平:
H0:π1=π2;H1:π1≠π2;α=0.05;ν=1。
2)利用公式(1)~(5)在電子表格中計算:
計算說明:利用公式(5)計算理論頻數(shù),可知n=129>40,且T>5,所以χ2檢驗公式選擇(1)或(2),P值可查卡方界值表或由excel自帶函數(shù)D14=CHIDIST(D11,1)計算獲得。
3)檢驗結(jié)論:P=6.33299E-05<α=0.05,按α=0.05檢驗水準拒絕H0,接受H1,市級醫(yī)院空氣消毒合格率顯著高于鄉(xiāng)鎮(zhèn)醫(yī)院。
例2:為研究靜脈曲張是否與肥胖有關(guān),觀察111對同胞兄弟,每對同胞兄弟有一個肥胖,另一個屬正常體質(zhì)量,記錄得靜脈曲張發(fā)生的情況見表4,試分析。
表4 同胞兄弟靜脈曲張發(fā)生的情況
分析步驟:
1) 建立檢驗假設(shè),確定檢驗水平;
H0:π1=π2;H1:π1≠π2;α=0.05;ν=1。
2)利用公式(1)~(5)在電子表格中計算。
計算說明:利用公式(5)計算理論頻數(shù),可知n=111>40,且1 3)檢驗結(jié)論:校正公式P=0.0554>α=0.05,按α=0.05檢驗水準接受H0,拒絕H1,本例若不校正時,χ2=5.2045,P<0.0225結(jié)論與之相反。 χ2分布是屬于連續(xù)型分布,而由屬離散型分布的四格表資料計算得的χ2統(tǒng)計量的抽樣分布是呈離散性質(zhì)的。因此改善χ2統(tǒng)計量分布的連續(xù)性,有必要進行連續(xù)性校正??ǚ綑z驗的連續(xù)性校正可一定程度上改善卡方統(tǒng)計量抽樣分布的連續(xù)性和平滑性,降低I類錯誤的概率[9-10],卡方檢驗經(jīng)連續(xù)性校正后,其結(jié)果更接近于Fisher確切概率法。不過,校正只適合于樣本含量較小,如n<40,自由度為1時,或至少有一個格子的理論頻數(shù)太小,如T<5的情形[11]??ǚ綑z驗經(jīng)連續(xù)性校正后,一方面P值有過分保守之嫌。另一方面,實際資料則是單邊固定的四格表,而Fisher確切概率法建立在四格表雙邊固定的假定下,F(xiàn)isher確切概率法的P值與連續(xù)性校正卡方檢驗的P值缺少可比性。 從應用的角度來說,如果是否經(jīng)過連續(xù)性校正,其檢驗的結(jié)果都一致,則無須糾纏此問題,只需報道非連續(xù)性檢驗的結(jié)果即可。但是,當兩種檢驗結(jié)果出現(xiàn)矛盾時(如例2),就需要謹慎解釋結(jié)果了。一般為了客觀起見,兩種結(jié)論都建議同時報告出來,以方便他人判斷。 通過對兩獨立樣本率的卡方檢驗的相關(guān)統(tǒng)計學的概念和方法進行了詳細介紹,通過Excel電子表格計算兩個實例, 具體地說明了四格表χ2檢驗方法醫(yī)學資料處理中的應用。使用者也可以根據(jù)文章介紹自己編制統(tǒng)計分析模板, 為以后的工作和研究提供方便。 [1]沈杰.卡方檢驗在調(diào)研結(jié)果分析中的應用[J].科學大眾:科學教育,2012(8):21-21. [2]林豐,湯捷.利用EXCEL函數(shù)及VBA程序?qū)崿F(xiàn)四格表卡方檢驗[J].現(xiàn)代醫(yī)院, 2012, 12(3):142-143. [3]王書平.1∶M配對病例-對照研究中兩種可信區(qū)間的SAS分析方法[J].中國衛(wèi)生統(tǒng)計, 2011,28(5):606-607. [4]馬燕.衛(wèi)生統(tǒng)計學[M].北京:人民衛(wèi)生出版社,2000:71-77. [5]劉鋼. Excel在統(tǒng)計分析中的應用[M].北京:人民衛(wèi)生出版社,2002:147-148. [6]楊朝輝.基于卡方檢驗的SAR圖像道路檢測算法[J].計算機工程與設(shè)計, 2012, 33(5):1923-1927. [7]畢永,張東梅,南麗晶,等.高級計算器卡方檢驗的計算程序[J].數(shù)理醫(yī)藥學雜志, 2012, 25(2):144-145. [8]馮松,鄭斌.利用Excel進行卡方檢驗為臨床數(shù)據(jù)分析提供支持[J].醫(yī)學信息:中旬刊, 2011,24(9):4978-4979. [9]李歡梓,李晴.53例妊娠多形疹發(fā)病相關(guān)因素調(diào)查[J].中國麻風皮膚病雜志,2011, 27(3):175-177. [10]譚永強,余華強,陳橋生,等.利用Excel軟件建立卡方檢驗分析模板在農(nóng)業(yè)統(tǒng)計中的應用[J].湖北農(nóng)業(yè)科學,2010,49(12):3192-3195. [11]高凌冰.耐多藥結(jié)核病人影響因素分析[J].中外健康文摘,2012,9(23):271-272. 2013-03-06 文婷(1984-),女,護師,主要從事臨床護理工作。 R195.1 A 1673-1409(2013)24-0105-04 [編輯] 一 凡4 卡方檢驗的連續(xù)性校正問題
5 結(jié) 語