王哲 鄭亞杰 曹俊秋
【摘 要】廣義線性模型是一種應(yīng)用極為廣泛數(shù)據(jù)分析方法,它用于分析事物之間的統(tǒng)計(jì)關(guān)系,可適用于連續(xù)數(shù)據(jù)和離散數(shù)據(jù)。本文僅從客觀角度出發(fā),根據(jù)Neter等1990年的54位做過某種肝手術(shù)后患者生存時間的數(shù)據(jù),構(gòu)建了研究手術(shù)后病患生存期限的LOGISTIC模型,通過SAS軟件進(jìn)行了統(tǒng)計(jì)分析,擬合了自變量與因變量的LOGISTIC并進(jìn)行了分析。
【關(guān)鍵詞】廣義線性模型;LOGISTIC模型;SAS;醫(yī)學(xué)
1 廣義線性模型
廣義線性模型是非線性模型的一些特例,它們具有一些共性,是其它非線性模型所不具備的。它與典型線性模型的區(qū)別是其隨機(jī)誤差的分布不是正態(tài)分布,與非線性模型的最大區(qū)別在于非線性模型沒有明確的隨機(jī)誤差分布假定而廣義線性模型的隨機(jī)誤差的分布是可以確定的。
廣義線性模型的三項(xiàng)構(gòu)成要素:(1)隨機(jī)成分即因變量Y或誤差項(xiàng)的概率分布。(2)系統(tǒng)成分:用以確定用作預(yù)測變量的解釋變量的線性函數(shù)。(3)連接函數(shù):用以描述系統(tǒng)成分與隨即成分的期望值之間的函數(shù)關(guān)系。
2 實(shí)證分析
2.1 數(shù)據(jù)選取
通過SAS軟件對54位進(jìn)行過肝手術(shù)的患者(數(shù)據(jù)來源:Neter,1990)進(jìn)行分析。我們選取手術(shù)前的四個指標(biāo)即凝血值(X1)、預(yù)后指數(shù)(X2)、酶化驗(yàn)值(X3)以及肝功化驗(yàn)值(X4)建立LOGISTIC模型進(jìn)行統(tǒng)計(jì)分析。通過隨訪得到各患者的生存時間,并以“Y=0”表示生存時間在半年以內(nèi),以“Y=1”表示生存時間在半年及半年以上。
2.2 LOGISTIC模型的建立
從各參數(shù)的Wald檢驗(yàn)值及其p值可知,凝血值(X1)、預(yù)后指數(shù)(X2)、酶化驗(yàn)值(X3)是影響手術(shù)后病患生存時間的三個重要指標(biāo)。其三個系數(shù)均為正值,表明這三個指標(biāo)與生存時間成正相關(guān)關(guān)系,即凝血值越大,生存時間在半年及半年以上的概率就越大;預(yù)后指數(shù)越高,生存時間在半年及半年以上的概率就越大;酶化驗(yàn)值越大,生存時間在半年及半年以上的概率就越大。
而肝功化驗(yàn)值(X4)的Wald檢驗(yàn)值較小,僅為0.8532,其p值為0.3357比較大,所以其對P(Y=1)的影響不顯著。如果剔除這個變量,擬合僅含有前三個變量的LOGISTIC模型,可以得到如下結(jié)果:
由以上結(jié)果可知,回歸方程的顯著性檢驗(yàn)的似然比統(tǒng)計(jì)量的值較大,說明回歸關(guān)系仍然是高度顯著的,此似然比統(tǒng)計(jì)量的值與含有四個自變量時的值相比減小量很小。
下面給出各參數(shù)的最大似然估計(jì)值:
由上述結(jié)果可以看出,這三個自變量的系數(shù)估計(jì)的Wald檢驗(yàn)值均比較大,且其對應(yīng)的p值均較小,這時,X1,X2,X3在α=0.1下均顯著。在實(shí)際應(yīng)用中,如果用后一個模型來預(yù)測患者的生存時間,不僅更加簡單易行,而且在模型顯著性方面損失也較小。
2.3 使用逐步法選擇變量
(1)結(jié)果如下:
由上述結(jié)果可知,首先進(jìn)入的是影響效果最大的X3,回歸方程的顯著性檢驗(yàn)的似然比統(tǒng)計(jì)量的值較大,說明回歸關(guān)系仍然是高度顯著的。
由上述結(jié)果可知,第二個進(jìn)入的是影響效果第二大的X2,回歸方程的顯著性檢驗(yàn)的似然比統(tǒng)計(jì)量的值較大,說明回歸關(guān)系仍然是高度顯著的。
第三個進(jìn)入的是影響效果第三大的X1,回歸方程的顯著性檢驗(yàn)的似然比統(tǒng)計(jì)量的值較大,說明回歸關(guān)系仍然是高度顯著的。只有前三個自變量進(jìn)入,而第四個自變量沒有被納入模型,說明在滿足顯著性水平下,只有這三個變量對Y的影響是顯著的。
最后,根據(jù)結(jié)果給出LOGISTIC模型:
由上述結(jié)果可見,由逐步回歸法建立的廣義線性方程和我們剔除X4后建立的第二個廣義線性模型是相同的,說明剔除不顯著的自變量不僅對結(jié)果的影響較小,而且可以減少工作量。
3 結(jié)論與展望
本文利用廣義線性模型研究了肝手術(shù)患者生存時間的相關(guān)性問題。以隨機(jī)到訪的54位動過某種肝手術(shù)的患者為樣本建立的廣義線性回歸模型,應(yīng)用逐步回歸方法進(jìn)行數(shù)據(jù)分析。利用SAS統(tǒng)計(jì)軟件,得到如下結(jié)論:凝血值(X1)、預(yù)后指數(shù)(X2)、酶化驗(yàn)值(X3)與病患的生存時間成正相關(guān)關(guān)系,且這三個因素對術(shù)后病人的生存時間影響顯著,而肝功化驗(yàn)值(X4)對病人的術(shù)后生存時間影響不顯著。進(jìn)一步,將肝功化驗(yàn)值(X4)剔除,對模型整體的顯著性以及其他各個因素的顯著性影響不是很大,但可以減少不必要的數(shù)據(jù)搜集及處理工作,從而減輕工作量。最后,我們還采用了逐步回歸的方法進(jìn)行了比較,其結(jié)果顯示,最后只有對術(shù)后患者生存時間影響顯著的酶化驗(yàn)值(X3)、預(yù)后指數(shù)(X2)、凝血值(X1)依次進(jìn)入模型,而肝功化驗(yàn)值(X4)沒有被加入模型,進(jìn)一步說明肝功化驗(yàn)值(X4)對術(shù)后患者的生存時間沒有顯著性影響。
通過本文的設(shè)計(jì)和研究對廣義線性回歸分析有了更深入的了解,在研究本文課題之后了解到廣義線性模型的應(yīng)用范圍之廣以及其在醫(yī)學(xué)領(lǐng)域中數(shù)據(jù)的統(tǒng)計(jì)分析中的重要作用。
【參考文獻(xiàn)】
[1]陳希孺.廣義線性模型(一)[J].數(shù)理統(tǒng)計(jì)與管理,2002,21(5):11-17.
[2]孟生旺.廣義線性模型在汽車保險定價的應(yīng)用[J].數(shù)理統(tǒng)計(jì)與管理,2007,26(1):24-29.
[3]汪建均,馬義中,汪新.廣義線性模型的貝葉斯分析及穩(wěn)健參數(shù)設(shè)計(jì)應(yīng)用[J].系統(tǒng)工程,2009,4,27(4):71-77.
[4]王曉東,田俊.因素交互作用分析的廣義線性模型[J].數(shù)學(xué)的實(shí)踐與認(rèn)識,2010,4,40(7):112-118.
[5]花俊洲,梅長林,吳沖鋒.變系數(shù)廣義線性模型及其估計(jì)[J].系統(tǒng)科學(xué)與數(shù)學(xué),2004,1,24(1):41-50.
[6]梅長林,王寧.近代回歸分析方法[M].北京:科學(xué)出版社,2012,1.
[7]何寧,吳黎兵,騰沖.統(tǒng)計(jì)分析系統(tǒng)SAS與SPSS[M].機(jī)械工業(yè)出版社,2008,3.
[8]黃燕,吳平.SAS統(tǒng)計(jì)分析及應(yīng)用[M].機(jī)械工業(yè)出版社,2006,1.
[責(zé)任編輯:楊玉潔]