張 彪 韓 偉 龐海玉 薛 芳 厚 磊 王子興 王鈺嫣 姜晶梅
中國(guó)醫(yī)學(xué)科學(xué)院基礎(chǔ)醫(yī)學(xué)研究所&北京協(xié)和醫(yī)學(xué)院基礎(chǔ)學(xué)院流行病學(xué)與衛(wèi)生統(tǒng)計(jì)學(xué)系(100005)
·方法介紹·
完全隨機(jī)缺失條件下分類隨機(jī)變量數(shù)據(jù)缺失插補(bǔ)方法的比較研究
張 彪 韓 偉 龐海玉 薛 芳 厚 磊 王子興 王鈺嫣 姜晶梅△
中國(guó)醫(yī)學(xué)科學(xué)院基礎(chǔ)醫(yī)學(xué)研究所&北京協(xié)和醫(yī)學(xué)院基礎(chǔ)學(xué)院流行病學(xué)與衛(wèi)生統(tǒng)計(jì)學(xué)系(100005)
目的 探討完全隨機(jī)缺失條件下分類隨機(jī)變量數(shù)據(jù)缺失對(duì)研究結(jié)果的影響,對(duì)各方法插補(bǔ)效果進(jìn)行評(píng)價(jià)。方法 基于上海地區(qū)35歲及以上吸煙人群吸煙與肺癌死亡關(guān)系的完整數(shù)據(jù)集,在5%、10%、20%及30%缺失率下,模擬有序分類變量(吸煙年數(shù)分組syfz)缺失和二分類變量(性別sex)缺失,重復(fù)模擬100次。采用刪除法、眾數(shù)插補(bǔ)法、多重插補(bǔ)-logistic回歸法(MI/logistic)及多重插補(bǔ)-判別分析法(ML/discrim)對(duì)分類變量數(shù)據(jù)缺失進(jìn)行處理。對(duì)插補(bǔ)效果從插補(bǔ)正確率及插補(bǔ)后模型參數(shù)的變化兩個(gè)方面進(jìn)行評(píng)價(jià)。結(jié)果 有序分類變量缺失:各缺失率下,MI/logistic插補(bǔ)的正確率最高,MI/logistic和MI/discrim插補(bǔ)后模型參數(shù)的偏差均較小,對(duì)于吸煙年數(shù)sy以分組形式syfz納入模型數(shù)據(jù)缺失導(dǎo)致模型參數(shù)的相對(duì)偏差更小,對(duì)syfz插補(bǔ)后模型參數(shù)相對(duì)偏差也小于連續(xù)變量sy插補(bǔ)后模型參數(shù)相對(duì)偏差。二分類變量缺失:各缺失率下,眾數(shù)插補(bǔ)的正確率最高,刪除法處理缺失數(shù)據(jù)后模型參數(shù)的偏差最小。結(jié)論 連續(xù)變量缺失對(duì)模型結(jié)果的影響大于分類變量缺失,對(duì)于有數(shù)據(jù)缺失的連續(xù)變量可將其離散化,以分類變量的形式進(jìn)行分析。缺失數(shù)據(jù)插補(bǔ)模型的擬合效果會(huì)直接影響插補(bǔ)效果,當(dāng)模型擬合效果較差時(shí)可能會(huì)帶來(lái)更大的偏差。
分類變量 數(shù)據(jù)缺失 多重插補(bǔ)
在醫(yī)學(xué)研究中,數(shù)據(jù)缺失是一個(gè)普遍存在的問(wèn)題[1]。數(shù)據(jù)缺失會(huì)導(dǎo)致樣本信息減少和統(tǒng)計(jì)檢驗(yàn)效能降低,損害研究結(jié)果的有效性[2],增加統(tǒng)計(jì)分析的復(fù)雜性[3-4]。對(duì)缺失數(shù)據(jù)進(jìn)行插補(bǔ)是國(guó)內(nèi)外普遍應(yīng)用的缺失數(shù)據(jù)處理方法,但目前研究多集中于對(duì)連續(xù)變量的數(shù)據(jù)缺失進(jìn)行插補(bǔ),對(duì)分類變量數(shù)據(jù)缺失的插補(bǔ)研究較少,完全隨機(jī)缺失是對(duì)插補(bǔ)方法的插補(bǔ)效果進(jìn)行評(píng)價(jià)的理想環(huán)境。本研究基于完整數(shù)據(jù)集模擬缺失數(shù)據(jù)集,探討分類隨機(jī)變量數(shù)據(jù)缺失對(duì)研究結(jié)果的影響,并對(duì)各方法的插補(bǔ)效果進(jìn)行比較及評(píng)價(jià)。
1.數(shù)據(jù)來(lái)源:研究數(shù)據(jù)源于1989-1991年開(kāi)展的“中國(guó)吸煙與全死因關(guān)系”橫斷面調(diào)查,選取上海地區(qū)35歲及以上吸煙人群吸煙與肺癌死亡關(guān)系的數(shù)據(jù)進(jìn)行插補(bǔ)方法研究,共14911條完整觀測(cè)。
2.研究涉及的變量:詳見(jiàn)表1。
3.不完整數(shù)據(jù)集的構(gòu)建:基于完整數(shù)據(jù)集模擬完全隨機(jī)缺失的不完整數(shù)據(jù)集。
(1)有序分類變量缺失:模擬syfz缺失的不完整數(shù)據(jù)集,分別在5%、10%、20%和30%的缺失率下各模擬100次;
(2)二分類變量缺失:模擬sex缺失的不完整數(shù)據(jù)集,分別在5%、10%、20%和30%的缺失率下各模擬100次。
4.插補(bǔ)方法及效果評(píng)價(jià)
有序分類變量缺失采用四種方法處理缺失值[5-8]:①刪除法,刪除syfz缺失的觀測(cè);②眾數(shù)插補(bǔ)法,按sex和sagefz將數(shù)據(jù)交叉分組分為8組。計(jì)算各組中syfz的眾數(shù),并將其作為該組中缺失項(xiàng)的插補(bǔ)值。③多重插補(bǔ)-logistic回歸法(MI/logistic),以syfz為因變量,sex、age和sage為協(xié)變量擬合有序多分類logistic回歸模型,計(jì)算缺失觀測(cè)syfz取值為1,2,…,5的概率分別為p1,p2,…,p5,然后產(chǎn)生一個(gè)服從均勻分布的隨機(jī)變量μ,其取值介于0和1之間,若μ 二分類變量缺失采用四種方法處理缺失值[5-8]:①刪除法,刪除sex缺失的觀測(cè)。②眾數(shù)插補(bǔ)法,按agefz及sagefz將全部觀測(cè)分為16組,以每組中sex的眾數(shù)插補(bǔ)相應(yīng)的缺失值。③多重插補(bǔ)-logistic回歸法(MI/logistic),以sex為因變量,age、sage、smd和sy為協(xié)變量擬合二分類logistic回歸模型,插補(bǔ)過(guò)程與有序多分類logistic回歸多重插補(bǔ)相同,分別對(duì)缺失值進(jìn)行3次、5次和10次插補(bǔ)。④多重插補(bǔ)-判別分析法(MI/discrim),利用變量age、sage、smd和sy構(gòu)建sex的判別模型,分別對(duì)缺失值進(jìn)行3次、5次和10次插補(bǔ)。 對(duì)各方法的插補(bǔ)效果從以下二方面進(jìn)行評(píng)價(jià): (1)插補(bǔ)正確率[9-11]:計(jì)算插補(bǔ)后各插補(bǔ)方法的插補(bǔ)正確率,正確插補(bǔ)的觀測(cè)數(shù)占總?cè)笔в^測(cè)數(shù)的比例。重復(fù)模擬100次,計(jì)算100次正確率的均值,得到各方法的平均插補(bǔ)正確率。插補(bǔ)正確率越高插補(bǔ)效果越好。 (2)插補(bǔ)后模型參數(shù)的改變[12-13]:采用logistic回歸模型分析lungca(因變量)與sex、syfz(或sy)和smd的關(guān)系。將插補(bǔ)數(shù)據(jù)集的模型參數(shù)估計(jì)結(jié)果與完整數(shù)據(jù)集的結(jié)果相比較,計(jì)算模型參數(shù)的平均絕對(duì)偏差MADP和平均相對(duì)偏差MRDP。 其中,k為重復(fù)模擬次數(shù),s為模型中估計(jì)的參數(shù)個(gè)數(shù),δ為完整數(shù)據(jù)集的參數(shù)估計(jì)值,δij為插補(bǔ)數(shù)據(jù)集的參數(shù)估計(jì)值。MADP和MRDP越小插補(bǔ)效果越好。 1.有序分類變量缺失 表2顯示了在5%缺失率下各法對(duì)syfz插補(bǔ)的正確率及插補(bǔ)后模型參數(shù)的變化。Syfz插補(bǔ)正確率由高到低為:MI/logistic>MI/discrim>眾數(shù)插補(bǔ);從模型參數(shù)偏差來(lái)看,MI/logistic與MI/discrim插補(bǔ)后模型參數(shù)的偏差較小且極為接近,均遠(yuǎn)小于眾數(shù)插補(bǔ)與刪除法。 其他缺失率下各插補(bǔ)方法的結(jié)果列于表3~6,由于同一多重插補(bǔ)方法在不同插補(bǔ)次數(shù)下的效果相近,選擇插補(bǔ)效果最好時(shí)對(duì)應(yīng)的次數(shù)。 表3顯示,各方法的插補(bǔ)準(zhǔn)確率較為穩(wěn)定,不隨缺失率的變化而變化。MI/logistic插補(bǔ)的正確率最高,眾數(shù)插補(bǔ)的正確率最低。 表4顯示,模型參數(shù)的偏差隨著缺失率的增加而增加。各缺失率下,眾數(shù)插補(bǔ)的偏差均最大,MI/logistic與MI/discrim的偏差較小且極為接近,明顯優(yōu)于眾數(shù)插補(bǔ)和刪除法。 syfz是由連續(xù)變量sy離散化得到的,當(dāng)sy有數(shù)據(jù)缺失時(shí),分別以連續(xù)變量形式sy和分組變量形式syfz進(jìn)入模型,數(shù)據(jù)缺失導(dǎo)致模型參數(shù)的相對(duì)偏差情況見(jiàn)表5。 表5顯示,在各缺失率下,以分類變量形式syfz進(jìn)入模型時(shí)模型參數(shù)的相對(duì)偏差小于連續(xù)變量形式sy的相對(duì)偏差。隨著缺失率的增加,syfz與sy的模型參數(shù)相對(duì)誤差的差值有增大的趨勢(shì)。 采用刪除法、條件均值插補(bǔ)、回歸插補(bǔ)、多重插補(bǔ)-趨勢(shì)得分法、多重插補(bǔ)-回歸法、多重插補(bǔ)-預(yù)測(cè)均數(shù)匹配法及多重插補(bǔ)-馬爾科夫蒙特卡洛法對(duì)sy的缺失數(shù)據(jù)進(jìn)行處理,采用刪除法、眾數(shù)插補(bǔ)、多重插補(bǔ)-logistic回歸及多重插補(bǔ)-判別分析對(duì)syfz的缺失數(shù)據(jù)進(jìn)行處理。將插補(bǔ)后的sy和syfz分別納入模型,計(jì)算各方法插補(bǔ)后模型參數(shù)的相對(duì)偏差,選擇最小的相對(duì)偏差作圖,可得對(duì)連續(xù)變量sy和分類變量syfz插補(bǔ)后模型參數(shù)的相對(duì)偏差,詳見(jiàn)表6。 表6顯示,在各缺失率下,分類變量syfz插補(bǔ)后進(jìn)入模型的模型參數(shù)相對(duì)偏差均小于連續(xù)變量sy插補(bǔ)后進(jìn)入模型的模型參數(shù)相對(duì)偏差。隨著缺失率的增加,syfz與sy的模型參數(shù)相對(duì)誤差的差值有增大的趨勢(shì)。通過(guò)表6與表5的比較可見(jiàn),插補(bǔ)后模型參數(shù)的相對(duì)偏差明顯降低。 2.二分類變量缺失 對(duì)二分類變量sex缺失數(shù)據(jù)處理的主要結(jié)果見(jiàn)表7-8。 表7顯示,各方法的插補(bǔ)準(zhǔn)確率穩(wěn)定在一定水平上;眾數(shù)插補(bǔ)的正確率最高,MI/logistic與MI/discrim插補(bǔ)的正確率相近且均較低。 表8顯示,模型參數(shù)的偏差隨著缺失率的增加而增加。各缺失率下,刪除法的偏差最小,MI/logistic與MI/discrim的偏差均較大。 缺失率越大,數(shù)據(jù)缺失導(dǎo)致研究結(jié)果的偏差越大,各缺失值處理方法的效果也越差。本研究將吸煙年數(shù)測(cè)量指標(biāo)分別以連續(xù)變量sy和分組變量syfz納入模型,結(jié)果顯示,syfz進(jìn)入模型數(shù)據(jù)缺失導(dǎo)致的模型參數(shù)的相對(duì)偏差較小,對(duì)syfz進(jìn)行插補(bǔ)后模型參數(shù)的相對(duì)偏差更小。這提示連續(xù)變量缺失對(duì)模型結(jié)果的影響大于分類變量缺失,在實(shí)際中遇到有數(shù)據(jù)缺失的連續(xù)變量可將其離散化,以分類變量的形式進(jìn)行處理。 本研究對(duì)缺失變量的插補(bǔ)充分利用了輔助變量的信息,輔助變量與缺失變量之間的相關(guān)性越強(qiáng),信息利用越充分,插補(bǔ)的效果越好。對(duì)syfz進(jìn)行插補(bǔ)時(shí),MI/logistic與MI/discrim的插補(bǔ)效果較好,明顯優(yōu)于刪除法與眾數(shù)插補(bǔ)法,然而對(duì)sex進(jìn)行插補(bǔ)時(shí),MI/logistic與MI/discrim的插補(bǔ)效果較差,明顯差于刪除法與眾數(shù)插補(bǔ)法,究其原因是由于輔助變量能對(duì)syfz進(jìn)行較好的預(yù)測(cè),而對(duì)sex的預(yù)測(cè)效果較差。如進(jìn)行MI/logistic插補(bǔ)時(shí),對(duì)syfz進(jìn)行預(yù)測(cè)的logistic回歸模型其矯正R2為0.8513,預(yù)測(cè)一致百分比為94.8%,而對(duì)sex進(jìn)行預(yù)測(cè)的回歸模型矯正R2為0.2003,預(yù)測(cè)一致百分比為72.9%。這提示基于統(tǒng)計(jì)建模對(duì)缺失數(shù)據(jù)進(jìn)行插補(bǔ)時(shí),模型擬合效果會(huì)直接影響插補(bǔ)效果,當(dāng)模型擬合效果較差時(shí)會(huì)帶來(lái)更大的偏差,但模型擬合優(yōu)度與插補(bǔ)效果之間的定量關(guān)系有待進(jìn)一步的研究。 [1]Abraham WT,Russell DW.Missing data:a review of current methods and applications in epidemiology research .Current opinion in psychiatry,2004,17(4):315-321. [2]Streiner DL.The case of the missing Data:Methods of dealing with dropouts and other research vagaries .Research Methods in Psychiatry,2002,47(1):68-75. [3]吳秋紅,張?jiān)G?李國(guó)平,等.不同模型處理縱向缺失數(shù)據(jù)的模擬研究及應(yīng)用.中國(guó)衛(wèi)生統(tǒng)計(jì),2013,30(6):855-861. [4]曹陽(yáng),張羅漫.運(yùn)用SAS對(duì)不完整數(shù)據(jù)集進(jìn)行多重填補(bǔ)-SAS9中的多重填補(bǔ)及其統(tǒng)計(jì)分析過(guò)程(一).中國(guó)衛(wèi)生統(tǒng)計(jì),2004,21(1):56-63. [5]李樹威,鐘曉妮.基于Markov Chain Monto Carlo模型對(duì)醫(yī)院調(diào)查資料中缺失數(shù)據(jù)的多重估算.中國(guó)衛(wèi)生統(tǒng)計(jì),2013,30(6):837-841. [6]SAS Institute Inc.SAS/STAT 9.2 User′s Guide,second edition ,North Carolina:SAS Institute Inc,2009. [7]趙飛,張志杰,劉建翔.疾病監(jiān)測(cè)資料中缺失值最佳填充次數(shù)的研究.中國(guó)衛(wèi)生統(tǒng)計(jì),2009,29(5):455-458. [8]帥平,李曉松,周曉華,等.缺失數(shù)據(jù)統(tǒng)計(jì)處理方法研究進(jìn)展.中國(guó)衛(wèi)生統(tǒng)計(jì),2013,30(1):135-142. [9]蘭妥,江弋,劉光生.基于Sas的時(shí)間序列缺失值處理方法比較.計(jì)算機(jī)技術(shù)與發(fā)展,2008,10(18):43-45. [10]張橋,李寧,張秋菊,等.任意缺失模式缺失數(shù)據(jù)不同填補(bǔ)方法效果比較.中國(guó)衛(wèi)生統(tǒng)計(jì), 2013,30(5):690-692. [11]Preda C,Duhamel A,Picavet M,et al.Tools for Statistical Analysis with MissingData:Application to a Large Medical Database .Connecting Medical Informatics and Bio-Informatics,2005,181-186. [12]魏昕.缺失數(shù)據(jù)對(duì)微觀計(jì)量影響研究——以農(nóng)民收入與消費(fèi)為例.成都:西南交通大學(xué),2010. [13]莊嚴(yán),邢艷春,馬文卿.含有缺失機(jī)制的多元縱向數(shù)據(jù)分析.中國(guó)衛(wèi)生統(tǒng)計(jì),2008,25(5):489-493. (責(zé)任編輯:郭海強(qiáng)) △通信作者:姜晶梅,E-mail:jingmeijiang238@hotmail.com結(jié) 果
討 論
中國(guó)衛(wèi)生統(tǒng)計(jì)2015年5期