四川大學(xué)華西公共衛(wèi)生學(xué)院流行病與衛(wèi)生統(tǒng)計(jì)學(xué)系(610041)
徐 浩 張 韜 李曉松 劉元元△
logistic回歸中兩種不同杠桿點(diǎn)診斷方法的初步探討*
四川大學(xué)華西公共衛(wèi)生學(xué)院流行病與衛(wèi)生統(tǒng)計(jì)學(xué)系(610041)
徐 浩 張 韜 李曉松 劉元元△
目的 探討logistic回歸模型中兩種不同杠桿點(diǎn)診斷方法間的異同,為杠桿點(diǎn)診斷及其軟件應(yīng)用提供參考。方法 選取分類型和連續(xù)型兩種協(xié)變量數(shù)據(jù)類型的實(shí)例,分別建立logistic回歸模型,并采用代表不同估計(jì)方法的SPSS與STATA軟件對回歸模型進(jìn)行杠桿點(diǎn)診斷。結(jié)果 兩種杠桿點(diǎn)診斷方法在處理不同類型數(shù)據(jù)時(shí)并不完全一致,當(dāng)模型協(xié)變量組數(shù)遠(yuǎn)小于研究對象個(gè)體數(shù)時(shí),兩種方法所得結(jié)果有所不同。結(jié)論 研究者應(yīng)根據(jù)研究目的和資料類型正確選用不同軟件進(jìn)行杠桿點(diǎn)診斷。
logistic回歸 杠桿點(diǎn)診斷 SPSS軟件 STATA軟件
logistic回歸模型在醫(yī)學(xué)和公共衛(wèi)生等多種學(xué)科領(lǐng)域中應(yīng)用十分廣泛[1-2]。與線性回歸類似,logistic模型的回歸系數(shù)估計(jì)容易受到數(shù)據(jù)結(jié)構(gòu)的影響,其中杠桿點(diǎn)問題是常見的數(shù)據(jù)結(jié)構(gòu)問題之一[3]。杠桿點(diǎn)的出現(xiàn)將會(huì)使回歸模型的擬合優(yōu)度下降,參數(shù)估計(jì)發(fā)生偏差,甚至得出錯(cuò)誤結(jié)論[4]。目前關(guān)于如何運(yùn)用杠桿點(diǎn)對logistic模型進(jìn)行回歸診斷的研究相對較多,然而不同的文獻(xiàn)報(bào)道及統(tǒng)計(jì)軟件中關(guān)于其計(jì)算方法卻并不統(tǒng)一[3,5]。SPSS和STATA兩大常用統(tǒng)計(jì)軟件分別所采用的杠桿點(diǎn)計(jì)算方法即是數(shù)理統(tǒng)計(jì)界對此問題所持學(xué)術(shù)觀點(diǎn)不同的一種體現(xiàn)[6-7]。那么,當(dāng)遇到不同類型的數(shù)據(jù)時(shí),不同的杠桿點(diǎn)診斷方法及統(tǒng)計(jì)軟件的分析結(jié)果是否存在差異?如出現(xiàn)差異,在實(shí)際應(yīng)用中進(jìn)行杠桿點(diǎn)計(jì)算及統(tǒng)計(jì)軟件選擇時(shí)應(yīng)如何考慮?目前,上述問題尚未見明確報(bào)道,且在實(shí)際應(yīng)用中常被忽略甚至誤用[8-10]。有鑒于此,本研究從不同數(shù)據(jù)類型出發(fā),結(jié)合實(shí)例,探討不同的杠桿點(diǎn)計(jì)算方法及SPSS和STATA兩種統(tǒng)計(jì)軟件分析結(jié)果的異同,為此后在進(jìn)行l(wèi)ogistic模型回歸診斷時(shí)如何選擇杠桿點(diǎn)計(jì)算方法和軟件提供參考。
SPSS與STATA兩種軟件的logistic回歸模型構(gòu)建程序中,均提供了杠桿值指標(biāo),其計(jì)算公式如下[6-7]:
(1)
(2)
在logistic回歸模型中,其自變量的數(shù)據(jù)類型(亦稱為協(xié)變量類型)一般可分為兩種[11]:①分類型協(xié)變量,即協(xié)變量組數(shù)遠(yuǎn)小于研究對象個(gè)體總數(shù),此時(shí)模型中基本上都是分類型自變量(兩分類或多分類),如下文中的實(shí)例一;②連續(xù)型協(xié)變量,即協(xié)變量組數(shù)等于或近似等于研究對象個(gè)體總數(shù),此時(shí)模型中含有連續(xù)型自變量,如下文中的實(shí)例二。以下實(shí)例分析中,本文將分別采用SPSS與STATA兩種軟件計(jì)算杠桿值,以展現(xiàn)和比較logistic回歸模型的兩種杠桿點(diǎn)診斷方法在不同協(xié)變量類型數(shù)據(jù)中的分析結(jié)果的異同。
1.實(shí)例一
實(shí)例一為探討輸卵管妊娠與輸卵管手術(shù)關(guān)系的病例對照研究[15],其自變量均為分類變量,協(xié)變量組數(shù)遠(yuǎn)小于研究對象個(gè)體數(shù)。各變量說明見下表1,各協(xié)變量組合編號(hào)及樣本例數(shù)見下表2。
(1)logistic回歸模型建立
對組別與孕次、輸卵管手術(shù)史建立logistic回歸模型,分析結(jié)果如表3所示。Hosmer-Lemeshow指標(biāo)為:
HL=0.112,v=7,P=0.999。模型似然比卡方檢驗(yàn):G=30.766,v=3,P<0.001。
(2)杠桿值計(jì)算
分別采用SPSS20.0與STATA11.0軟件運(yùn)行程序得模型杠桿值,結(jié)果如表4所示,實(shí)例一的SPSS杠桿值計(jì)算結(jié)果與STATA差異較大,根據(jù)臨界點(diǎn)2(K+1)/n,SPSS為0.007813,其中第2、4、6協(xié)變量組所有研究對象個(gè)體均可被認(rèn)為是高杠桿點(diǎn),對回歸擬合影響較大。而STATA為1.3333,所有協(xié)變量組均未達(dá)到高杠桿點(diǎn)的判定標(biāo)準(zhǔn),但是可以發(fā)現(xiàn)第1、3、5協(xié)變量組對回歸擬合影響較大。對二者呈現(xiàn)出較為矛盾的結(jié)果,將在后面進(jìn)行討論。
2.實(shí)例二
實(shí)例二采用某地有償付能力及破產(chǎn)公司財(cái)務(wù)比率數(shù)據(jù)[16],表5為其部分?jǐn)?shù)據(jù)。該數(shù)據(jù)中Y為因變量,0代表2年后破產(chǎn),1代表2年后仍有償付能力;X1、X2、X3為自變量分別代表未分配利潤/總資產(chǎn)、支付利息稅金前的利潤/總資產(chǎn)、銷售額/總資產(chǎn),均為連續(xù)型變量,obs為每個(gè)研究對象個(gè)體的編號(hào)。
(1)logistic回歸模型建立
對Y與X1、X2、X3建立logistic回歸模型如表6所示。Hosmer-Lemeshow指標(biāo)為:HL=0.112,v=7,P=0.999。模型似然比卡方檢驗(yàn):G=85.683,v=3,P<0.001。
(2)杠桿值計(jì)算
根據(jù)臨界點(diǎn)2(K+1)/n,杠桿值大于0.15152的數(shù)據(jù)點(diǎn),即杠桿點(diǎn)。如表7所示,SPSS與STATA的杠桿值分析結(jié)果一致。
在對logistic模型進(jìn)行回歸診斷時(shí),杠桿點(diǎn)診斷對發(fā)現(xiàn)模型中的數(shù)據(jù)結(jié)構(gòu)問題具有重要意義[12-13]。但目前在實(shí)際應(yīng)用中仍常常存在杠桿點(diǎn)計(jì)算方法及軟件誤選誤用等情況[9-10]。本研究從數(shù)據(jù)類型出發(fā),通過兩個(gè)實(shí)例分析,展現(xiàn)并比較了兩種杠桿點(diǎn)診斷方法及軟件在不同協(xié)變量類型數(shù)據(jù)中的應(yīng)用差異。以期對此問題做一個(gè)初步的探討,并提醒讀者在今后的杠桿點(diǎn)診斷中需重視不同方法所得結(jié)果間的差異。
1.兩種杠桿點(diǎn)診斷方法的理論差異
杠桿點(diǎn)的診斷方法主要分為兩種:①基于研究對象個(gè)體水平;②基于協(xié)變量組水平。由公式1可知,以基于研究對象個(gè)體水平得出的杠桿值表示每個(gè)研究對象個(gè)體偏離數(shù)據(jù)主體的程度,也反映了該個(gè)體將回歸曲線拉向自己的能力大小[14]。而如公式2所示,以協(xié)變量組水平計(jì)算出的杠桿值為該協(xié)變量組所有研究對象個(gè)體的杠桿值之和,反映的是該協(xié)變量組將回歸曲線拉向自己的能力大小,是該協(xié)變量組所有個(gè)體的共同作用,受到各協(xié)變量組樣本數(shù)的影響[7,12]。
2.兩種杠桿點(diǎn)診斷方法在不同數(shù)據(jù)中的應(yīng)用差異
對于協(xié)變量組數(shù)與研究對象個(gè)體數(shù)相同或相近的數(shù)據(jù),兩種計(jì)算方法得出的結(jié)果相同或相似,如實(shí)例二所示;而當(dāng)遇到協(xié)變量組數(shù)遠(yuǎn)小于研究對象個(gè)體數(shù)類型數(shù)據(jù)時(shí),二者得出的杠桿值差異則會(huì)較大。
對于實(shí)例一的杠桿點(diǎn)診斷,兩種軟件所得結(jié)論看似矛盾,實(shí)則是由于兩種結(jié)果分別是基于不同的研究水平算得。根據(jù)兩種軟件給出的杠桿值計(jì)算公式, SPSS為基于研究對象個(gè)體水平計(jì)算,而STATA則是基于協(xié)變量組水平。當(dāng)某一協(xié)變量組內(nèi)包含2個(gè)及以上研究對象個(gè)體時(shí),基于協(xié)變量組水平計(jì)算出的杠桿值等于該組基于研究對象個(gè)體水平計(jì)算出的杠桿值的和,即該杠桿值代表了該協(xié)變量組整體對模型擬合的影響。當(dāng)遇到模型中自變量均為分類變量時(shí),此時(shí)協(xié)變量組數(shù)遠(yuǎn)小于研究對象個(gè)體數(shù),協(xié)變量組之間樣本例數(shù)具有一定差異,樣本例數(shù)多的協(xié)變量組內(nèi)研究對象個(gè)體杠桿值雖然很小,但是其相加后的協(xié)變量組杠桿值仍會(huì)很大[9,11]。同理,即使某研究對象個(gè)體杠桿值很大,但是如果所在協(xié)變量組樣本例數(shù)很少,其協(xié)變量組杠桿值也很小。所以,實(shí)例一中的自變量均為分類變量,協(xié)變量組數(shù)遠(yuǎn)小于研究對象個(gè)體數(shù),STATA與SPSS的杠桿點(diǎn)診斷結(jié)果差異較大,兩者計(jì)算的杠桿值所代表的意義并不相同。
綜上所述,對于杠桿點(diǎn)的判斷,應(yīng)根據(jù)研究目的及數(shù)據(jù)類型的不同選擇相應(yīng)的方法與軟件。當(dāng)遇到協(xié)變量組數(shù)與研究對象個(gè)體數(shù)相同或相近的數(shù)據(jù)時(shí),兩種方法差異不大,均可使用。而當(dāng)遇到協(xié)變量組數(shù)遠(yuǎn)小于研究對象個(gè)體數(shù)類型的數(shù)據(jù)時(shí),則應(yīng)謹(jǐn)慎對待。此時(shí),如研究目的是探討研究對象個(gè)體對回歸擬合的影響程度,應(yīng)采用基于研究對象個(gè)體的杠桿值計(jì)算方法,可選擇SPSS軟件進(jìn)行分析;如欲了解協(xié)變量組對回歸擬合的影響程度時(shí),則應(yīng)采用基于協(xié)變量組的杠桿值計(jì)算方法,可選擇STATA軟件進(jìn)行分析[8,11]。此外,與SPSS及STATA不同,另一常用統(tǒng)計(jì)軟件SAS可給出兩種計(jì)算方法的結(jié)果。在計(jì)算杠桿值等診斷統(tǒng)計(jì)量時(shí),SAS是根據(jù)數(shù)據(jù)錄入格式來選用相應(yīng)計(jì)算方法:當(dāng)數(shù)據(jù)是以每條數(shù)據(jù)行代表一個(gè)研究對象的形式錄入,計(jì)算方法即為基于研究對象個(gè)體水平計(jì)算杠桿值;當(dāng)數(shù)據(jù)以每條數(shù)據(jù)行代表一個(gè)協(xié)變量組的形式錄入,則以基于協(xié)變量組水平計(jì)算杠桿值[11]。關(guān)于杠桿點(diǎn)的處理,目前常用方法為檢查原始數(shù)據(jù),刪除該觀察對象,或用修正值代替[3]。但當(dāng)出現(xiàn)實(shí)例一結(jié)果,即基于協(xié)變量組水平與基于研究對象個(gè)體水平計(jì)算的杠桿值結(jié)果不一致時(shí),應(yīng)如何處理,診斷結(jié)果優(yōu)劣的判斷標(biāo)準(zhǔn)應(yīng)如何界定,仍有待進(jìn)一步研究。
[1]常振海,劉薇.logistic回歸模型及其應(yīng)用.延邊大學(xué)學(xué)報(bào)(自然科學(xué)版),2012,38(1):28-32.
[2]尹建杰.logistic回歸模型分析綜述及應(yīng)用研究.黑龍江大學(xué)碩士學(xué)位論文,2011年.
[3]王濟(jì)川,郭志剛.Logistic回歸模型——方法與應(yīng)用.北京:高等教育出版社,2000年.
[4]王駿,馬林茂.logistic回歸診斷及SAS實(shí)現(xiàn).數(shù)理醫(yī)藥學(xué)雜志,2005,18(1):34-36.
[5]魏朝輝.logistic回歸診斷.中國衛(wèi)生統(tǒng)計(jì),2001,18(2):112-113.
[6]SPSS Inc.2011.SPSS BASE 20.0 for Windows User’s Guide.Chicago:SPSS Inc.
[7]STATA Inc.2009.STATA User’s Guide release 11.0.Texas USA.
[8]Chao-Ying Joanne Peng,Tak-Shing Harry So.Logistic Regression Analysis and Reporting:A Primer.Understanding statistics,1(1),31-70.
[9]方積乾,陳和年.醫(yī)學(xué)研究中l(wèi)ogistic回歸模型的正確應(yīng)用(一).中國衛(wèi)生統(tǒng)計(jì),1993,10(4):54-56.
[10]馮國雙,陳景武,周春蓮.logistic回歸應(yīng)用中容易忽視的幾個(gè)問題.中華流行病學(xué)雜志,2004,25(6):544-545.
[11]Daryl Pregibon.Logistic Regression Diagnostics.The Ananals of Statistics,1981,9(4):705-724.
[12]王斌會(huì),徐勇勇,李文潮.高杠桿點(diǎn)和強(qiáng)影響點(diǎn)對回歸變量的影響.數(shù)理醫(yī)藥學(xué)雜志,1994,7(2):113-115.
[13]于義良.高杠桿點(diǎn)和強(qiáng)影響點(diǎn)的診斷.河北大學(xué)學(xué)報(bào)(自然科學(xué)版),1993,13(1):25-26.
[14]趙清波,徐勇勇,夏結(jié)來.logistic回歸中高杠桿點(diǎn)的檢測.中國衛(wèi)生統(tǒng)計(jì),1997,14(2):17-19.
(責(zé)任編輯:鄧 妍)
國家科技重大專項(xiàng)子課題“五大癥候群病原學(xué)檢測數(shù)據(jù)挖掘與分析”(編號(hào):2012ZX10004201-006);四川大學(xué)青年教師科研啟動(dòng)基金“高校教師健康風(fēng)險(xiǎn)評估模型初步探索研究”項(xiàng)目(項(xiàng)目批準(zhǔn)號(hào):2011SCU11023)
△通信作者:劉元元,E-mail:y_multi@126.com