完全隨機(jī)缺失條件下分類隨機(jī)變量數(shù)據(jù)缺失插補(bǔ)方法的比較研究

2015-01-27 12:28:51龐海玉王子興王鈺嫣姜晶梅

中國(guó)衛(wèi)生統(tǒng)計(jì) 2015年5期

張彪韓偉龐海玉薛芳厚磊王子興王鈺嫣姜晶梅

中國(guó)醫(yī)學(xué)科學(xué)院基礎(chǔ)醫(yī)學(xué)研究所&北京協(xié)和醫(yī)學(xué)院基礎(chǔ)學(xué)院流行病學(xué)與衛(wèi)生統(tǒng)計(jì)學(xué)系(100005)

·方法介紹·

完全隨機(jī)缺失條件下分類隨機(jī)變量數(shù)據(jù)缺失插補(bǔ)方法的比較研究

張彪韓偉龐海玉薛芳厚磊王子興王鈺嫣姜晶梅△

目的探討完全隨機(jī)缺失條件下分類隨機(jī)變量數(shù)據(jù)缺失對(duì)研究結(jié)果的影響，對(duì)各方法插補(bǔ)效果進(jìn)行評(píng)價(jià)。方法基于上海地區(qū)35歲及以上吸煙人群吸煙與肺癌死亡關(guān)系的完整數(shù)據(jù)集，在5%、10%、20%及30%缺失率下，模擬有序分類變量(吸煙年數(shù)分組syfz)缺失和二分類變量(性別sex)缺失，重復(fù)模擬100次。采用刪除法、眾數(shù)插補(bǔ)法、多重插補(bǔ)-logistic回歸法(MI/logistic)及多重插補(bǔ)-判別分析法(ML/discrim)對(duì)分類變量數(shù)據(jù)缺失進(jìn)行處理。對(duì)插補(bǔ)效果從插補(bǔ)正確率及插補(bǔ)后模型參數(shù)的變化兩個(gè)方面進(jìn)行評(píng)價(jià)。結(jié)果有序分類變量缺失：各缺失率下，MI/logistic插補(bǔ)的正確率最高，MI/logistic和MI/discrim插補(bǔ)后模型參數(shù)的偏差均較小，對(duì)于吸煙年數(shù)sy以分組形式syfz納入模型數(shù)據(jù)缺失導(dǎo)致模型參數(shù)的相對(duì)偏差更小，對(duì)syfz插補(bǔ)后模型參數(shù)相對(duì)偏差也小于連續(xù)變量sy插補(bǔ)后模型參數(shù)相對(duì)偏差。二分類變量缺失：各缺失率下，眾數(shù)插補(bǔ)的正確率最高，刪除法處理缺失數(shù)據(jù)后模型參數(shù)的偏差最小。結(jié)論連續(xù)變量缺失對(duì)模型結(jié)果的影響大于分類變量缺失，對(duì)于有數(shù)據(jù)缺失的連續(xù)變量可將其離散化，以分類變量的形式進(jìn)行分析。缺失數(shù)據(jù)插補(bǔ)模型的擬合效果會(huì)直接影響插補(bǔ)效果，當(dāng)模型擬合效果較差時(shí)可能會(huì)帶來(lái)更大的偏差。

分類變量數(shù)據(jù)缺失多重插補(bǔ)

在醫(yī)學(xué)研究中，數(shù)據(jù)缺失是一個(gè)普遍存在的問(wèn)題[1]。數(shù)據(jù)缺失會(huì)導(dǎo)致樣本信息減少和統(tǒng)計(jì)檢驗(yàn)效能降低，損害研究結(jié)果的有效性[2]，增加統(tǒng)計(jì)分析的復(fù)雜性[3-4]。對(duì)缺失數(shù)據(jù)進(jìn)行插補(bǔ)是國(guó)內(nèi)外普遍應(yīng)用的缺失數(shù)據(jù)處理方法，但目前研究多集中于對(duì)連續(xù)變量的數(shù)據(jù)缺失進(jìn)行插補(bǔ)，對(duì)分類變量數(shù)據(jù)缺失的插補(bǔ)研究較少，完全隨機(jī)缺失是對(duì)插補(bǔ)方法的插補(bǔ)效果進(jìn)行評(píng)價(jià)的理想環(huán)境。本研究基于完整數(shù)據(jù)集模擬缺失數(shù)據(jù)集，探討分類隨機(jī)變量數(shù)據(jù)缺失對(duì)研究結(jié)果的影響，并對(duì)各方法的插補(bǔ)效果進(jìn)行比較及評(píng)價(jià)。

資料與方法

1.數(shù)據(jù)來(lái)源：研究數(shù)據(jù)源于1989-1991年開(kāi)展的“中國(guó)吸煙與全死因關(guān)系”橫斷面調(diào)查，選取上海地區(qū)35歲及以上吸煙人群吸煙與肺癌死亡關(guān)系的數(shù)據(jù)進(jìn)行插補(bǔ)方法研究，共14911條完整觀測(cè)。

2.研究涉及的變量：詳見(jiàn)表1。

3.不完整數(shù)據(jù)集的構(gòu)建：基于完整數(shù)據(jù)集模擬完全隨機(jī)缺失的不完整數(shù)據(jù)集。

(1)有序分類變量缺失：模擬syfz缺失的不完整數(shù)據(jù)集，分別在5%、10%、20%和30%的缺失率下各模擬100次；

(2)二分類變量缺失：模擬sex缺失的不完整數(shù)據(jù)集，分別在5%、10%、20%和30%的缺失率下各模擬100次。

4.插補(bǔ)方法及效果評(píng)價(jià)

有序分類變量缺失采用四種方法處理缺失值[5-8]：①刪除法，刪除syfz缺失的觀測(cè)；②眾數(shù)插補(bǔ)法，按sex和sagefz將數(shù)據(jù)交叉分組分為8組。計(jì)算各組中syfz的眾數(shù)，并將其作為該組中缺失項(xiàng)的插補(bǔ)值。③多重插補(bǔ)-logistic回歸法(MI/logistic),以syfz為因變量，sex、age和sage為協(xié)變量擬合有序多分類logistic回歸模型，計(jì)算缺失觀測(cè)syfz取值為1,2,…,5的概率分別為p1,p2,…,p5，然后產(chǎn)生一個(gè)服從均勻分布的隨機(jī)變量μ，其取值介于0和1之間，若μ

二分類變量缺失采用四種方法處理缺失值[5-8]：①刪除法，刪除sex缺失的觀測(cè)。②眾數(shù)插補(bǔ)法，按agefz及sagefz將全部觀測(cè)分為16組，以每組中sex的眾數(shù)插補(bǔ)相應(yīng)的缺失值。③多重插補(bǔ)-logistic回歸法(MI/logistic)，以sex為因變量，age、sage、smd和sy為協(xié)變量擬合二分類logistic回歸模型，插補(bǔ)過(guò)程與有序多分類logistic回歸多重插補(bǔ)相同，分別對(duì)缺失值進(jìn)行3次、5次和10次插補(bǔ)。④多重插補(bǔ)-判別分析法(MI/discrim)，利用變量age、sage、smd和sy構(gòu)建sex的判別模型，分別對(duì)缺失值進(jìn)行3次、5次和10次插補(bǔ)。

對(duì)各方法的插補(bǔ)效果從以下二方面進(jìn)行評(píng)價(jià)：

(1)插補(bǔ)正確率[9-11]：計(jì)算插補(bǔ)后各插補(bǔ)方法的插補(bǔ)正確率，正確插補(bǔ)的觀測(cè)數(shù)占總?cè)笔в^測(cè)數(shù)的比例。重復(fù)模擬100次，計(jì)算100次正確率的均值，得到各方法的平均插補(bǔ)正確率。插補(bǔ)正確率越高插補(bǔ)效果越好。

(2)插補(bǔ)后模型參數(shù)的改變[12-13]：采用logistic回歸模型分析lungca(因變量)與sex、syfz(或sy)和smd的關(guān)系。將插補(bǔ)數(shù)據(jù)集的模型參數(shù)估計(jì)結(jié)果與完整數(shù)據(jù)集的結(jié)果相比較，計(jì)算模型參數(shù)的平均絕對(duì)偏差MADP和平均相對(duì)偏差MRDP。

其中，k為重復(fù)模擬次數(shù)，s為模型中估計(jì)的參數(shù)個(gè)數(shù)，δ為完整數(shù)據(jù)集的參數(shù)估計(jì)值，δij為插補(bǔ)數(shù)據(jù)集的參數(shù)估計(jì)值。MADP和MRDP越小插補(bǔ)效果越好。

結(jié) 果

1.有序分類變量缺失

表2顯示了在5%缺失率下各法對(duì)syfz插補(bǔ)的正確率及插補(bǔ)后模型參數(shù)的變化。Syfz插補(bǔ)正確率由高到低為：MI/logistic>MI/discrim>眾數(shù)插補(bǔ)；從模型參數(shù)偏差來(lái)看，MI/logistic與MI/discrim插補(bǔ)后模型參數(shù)的偏差較小且極為接近，均遠(yuǎn)小于眾數(shù)插補(bǔ)與刪除法。

其他缺失率下各插補(bǔ)方法的結(jié)果列于表3～6，由于同一多重插補(bǔ)方法在不同插補(bǔ)次數(shù)下的效果相近，選擇插補(bǔ)效果最好時(shí)對(duì)應(yīng)的次數(shù)。

表3顯示，各方法的插補(bǔ)準(zhǔn)確率較為穩(wěn)定，不隨缺失率的變化而變化。MI/logistic插補(bǔ)的正確率最高，眾數(shù)插補(bǔ)的正確率最低。

表4顯示，模型參數(shù)的偏差隨著缺失率的增加而增加。各缺失率下，眾數(shù)插補(bǔ)的偏差均最大，MI/logistic與MI/discrim的偏差較小且極為接近，明顯優(yōu)于眾數(shù)插補(bǔ)和刪除法。

syfz是由連續(xù)變量sy離散化得到的，當(dāng)sy有數(shù)據(jù)缺失時(shí)，分別以連續(xù)變量形式sy和分組變量形式syfz進(jìn)入模型，數(shù)據(jù)缺失導(dǎo)致模型參數(shù)的相對(duì)偏差情況見(jiàn)表5。

表5顯示，在各缺失率下，以分類變量形式syfz進(jìn)入模型時(shí)模型參數(shù)的相對(duì)偏差小于連續(xù)變量形式sy的相對(duì)偏差。隨著缺失率的增加，syfz與sy的模型參數(shù)相對(duì)誤差的差值有增大的趨勢(shì)。

采用刪除法、條件均值插補(bǔ)、回歸插補(bǔ)、多重插補(bǔ)-趨勢(shì)得分法、多重插補(bǔ)-回歸法、多重插補(bǔ)-預(yù)測(cè)均數(shù)匹配法及多重插補(bǔ)-馬爾科夫蒙特卡洛法對(duì)sy的缺失數(shù)據(jù)進(jìn)行處理，采用刪除法、眾數(shù)插補(bǔ)、多重插補(bǔ)-logistic回歸及多重插補(bǔ)-判別分析對(duì)syfz的缺失數(shù)據(jù)進(jìn)行處理。將插補(bǔ)后的sy和syfz分別納入模型，計(jì)算各方法插補(bǔ)后模型參數(shù)的相對(duì)偏差，選擇最小的相對(duì)偏差作圖，可得對(duì)連續(xù)變量sy和分類變量syfz插補(bǔ)后模型參數(shù)的相對(duì)偏差，詳見(jiàn)表6。

表6顯示，在各缺失率下，分類變量syfz插補(bǔ)后進(jìn)入模型的模型參數(shù)相對(duì)偏差均小于連續(xù)變量sy插補(bǔ)后進(jìn)入模型的模型參數(shù)相對(duì)偏差。隨著缺失率的增加，syfz與sy的模型參數(shù)相對(duì)誤差的差值有增大的趨勢(shì)。通過(guò)表6與表5的比較可見(jiàn)，插補(bǔ)后模型參數(shù)的相對(duì)偏差明顯降低。

2.二分類變量缺失

對(duì)二分類變量sex缺失數(shù)據(jù)處理的主要結(jié)果見(jiàn)表7-8。

表7顯示，各方法的插補(bǔ)準(zhǔn)確率穩(wěn)定在一定水平上；眾數(shù)插補(bǔ)的正確率最高，MI/logistic與MI/discrim插補(bǔ)的正確率相近且均較低。

表8顯示，模型參數(shù)的偏差隨著缺失率的增加而增加。各缺失率下，刪除法的偏差最小，MI/logistic與MI/discrim的偏差均較大。

討論

缺失率越大，數(shù)據(jù)缺失導(dǎo)致研究結(jié)果的偏差越大，各缺失值處理方法的效果也越差。本研究將吸煙年數(shù)測(cè)量指標(biāo)分別以連續(xù)變量sy和分組變量syfz納入模型，結(jié)果顯示，syfz進(jìn)入模型數(shù)據(jù)缺失導(dǎo)致的模型參數(shù)的相對(duì)偏差較小，對(duì)syfz進(jìn)行插補(bǔ)后模型參數(shù)的相對(duì)偏差更小。這提示連續(xù)變量缺失對(duì)模型結(jié)果的影響大于分類變量缺失，在實(shí)際中遇到有數(shù)據(jù)缺失的連續(xù)變量可將其離散化，以分類變量的形式進(jìn)行處理。

本研究對(duì)缺失變量的插補(bǔ)充分利用了輔助變量的信息，輔助變量與缺失變量之間的相關(guān)性越強(qiáng)，信息利用越充分，插補(bǔ)的效果越好。對(duì)syfz進(jìn)行插補(bǔ)時(shí)，MI/logistic與MI/discrim的插補(bǔ)效果較好，明顯優(yōu)于刪除法與眾數(shù)插補(bǔ)法，然而對(duì)sex進(jìn)行插補(bǔ)時(shí)，MI/logistic與MI/discrim的插補(bǔ)效果較差，明顯差于刪除法與眾數(shù)插補(bǔ)法，究其原因是由于輔助變量能對(duì)syfz進(jìn)行較好的預(yù)測(cè)，而對(duì)sex的預(yù)測(cè)效果較差。如進(jìn)行MI/logistic插補(bǔ)時(shí)，對(duì)syfz進(jìn)行預(yù)測(cè)的logistic回歸模型其矯正R2為0.8513，預(yù)測(cè)一致百分比為94.8%，而對(duì)sex進(jìn)行預(yù)測(cè)的回歸模型矯正R2為0.2003，預(yù)測(cè)一致百分比為72.9%。這提示基于統(tǒng)計(jì)建模對(duì)缺失數(shù)據(jù)進(jìn)行插補(bǔ)時(shí)，模型擬合效果會(huì)直接影響插補(bǔ)效果，當(dāng)模型擬合效果較差時(shí)會(huì)帶來(lái)更大的偏差，但模型擬合優(yōu)度與插補(bǔ)效果之間的定量關(guān)系有待進(jìn)一步的研究。

[1]Abraham WT,Russell DW.Missing data:a review of current methods and applications in epidemiology research .Current opinion in psychiatry,2004,17(4):315-321.

[2]Streiner DL.The case of the missing Data:Methods of dealing with dropouts and other research vagaries .Research Methods in Psychiatry,2002,47(1):68-75.

[3]吳秋紅,張?jiān)Ｇ?李國(guó)平，等.不同模型處理縱向缺失數(shù)據(jù)的模擬研究及應(yīng)用.中國(guó)衛(wèi)生統(tǒng)計(jì),2013,30(6):855-861.

[4]曹陽(yáng),張羅漫.運(yùn)用SAS對(duì)不完整數(shù)據(jù)集進(jìn)行多重填補(bǔ)-SAS9中的多重填補(bǔ)及其統(tǒng)計(jì)分析過(guò)程(一).中國(guó)衛(wèi)生統(tǒng)計(jì),2004,21(1):56-63.

[5]李樹威,鐘曉妮.基于Markov Chain Monto Carlo模型對(duì)醫(yī)院調(diào)查資料中缺失數(shù)據(jù)的多重估算.中國(guó)衛(wèi)生統(tǒng)計(jì),2013,30(6):837-841.

[6]SAS Institute Inc.SAS/STAT 9.2 User′s Guide,second edition ,North Carolina:SAS Institute Inc,2009.

[7]趙飛,張志杰,劉建翔.疾病監(jiān)測(cè)資料中缺失值最佳填充次數(shù)的研究.中國(guó)衛(wèi)生統(tǒng)計(jì),2009,29(5):455-458.

[8]帥平,李曉松,周曉華，等.缺失數(shù)據(jù)統(tǒng)計(jì)處理方法研究進(jìn)展.中國(guó)衛(wèi)生統(tǒng)計(jì),2013,30(1):135-142.

[9]蘭妥,江弋,劉光生.基于Sas的時(shí)間序列缺失值處理方法比較.計(jì)算機(jī)技術(shù)與發(fā)展,2008,10(18):43-45.

[10]張橋,李寧,張秋菊，等.任意缺失模式缺失數(shù)據(jù)不同填補(bǔ)方法效果比較.中國(guó)衛(wèi)生統(tǒng)計(jì)， 2013,30(5):690-692.

[11]Preda C,Duhamel A,Picavet M,et al.Tools for Statistical Analysis with MissingData:Application to a Large Medical Database .Connecting Medical Informatics and Bio-Informatics,2005,181-186.

[12]魏昕.缺失數(shù)據(jù)對(duì)微觀計(jì)量影響研究——以農(nóng)民收入與消費(fèi)為例.成都:西南交通大學(xué),2010.

[13]莊嚴(yán),邢艷春,馬文卿.含有缺失機(jī)制的多元縱向數(shù)據(jù)分析.中國(guó)衛(wèi)生統(tǒng)計(jì),2008,25(5):489-493.

(責(zé)任編輯：郭海強(qiáng))

△通信作者：姜晶梅，E-mail：jingmeijiang238@hotmail.com

99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

完全隨機(jī)缺失條件下分類隨機(jī)變量數(shù)據(jù)缺失插補(bǔ)方法的比較研究

資料與方法

結(jié) 果

討 論

討論