• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      完全隨機(jī)缺失條件下分類隨機(jī)變量數(shù)據(jù)缺失插補(bǔ)方法的比較研究

      2015-01-27 12:28:51龐海玉王子興王鈺嫣姜晶梅
      關(guān)鍵詞:衛(wèi)生統(tǒng)計(jì)正確率偏差

      張 彪 韓 偉 龐海玉 薛 芳 厚 磊 王子興 王鈺嫣 姜晶梅

      中國(guó)醫(yī)學(xué)科學(xué)院基礎(chǔ)醫(yī)學(xué)研究所&北京協(xié)和醫(yī)學(xué)院基礎(chǔ)學(xué)院流行病學(xué)與衛(wèi)生統(tǒng)計(jì)學(xué)系(100005)

      ·方法介紹·

      完全隨機(jī)缺失條件下分類隨機(jī)變量數(shù)據(jù)缺失插補(bǔ)方法的比較研究

      張 彪 韓 偉 龐海玉 薛 芳 厚 磊 王子興 王鈺嫣 姜晶梅△

      中國(guó)醫(yī)學(xué)科學(xué)院基礎(chǔ)醫(yī)學(xué)研究所&北京協(xié)和醫(yī)學(xué)院基礎(chǔ)學(xué)院流行病學(xué)與衛(wèi)生統(tǒng)計(jì)學(xué)系(100005)

      目的 探討完全隨機(jī)缺失條件下分類隨機(jī)變量數(shù)據(jù)缺失對(duì)研究結(jié)果的影響,對(duì)各方法插補(bǔ)效果進(jìn)行評(píng)價(jià)。方法 基于上海地區(qū)35歲及以上吸煙人群吸煙與肺癌死亡關(guān)系的完整數(shù)據(jù)集,在5%、10%、20%及30%缺失率下,模擬有序分類變量(吸煙年數(shù)分組syfz)缺失和二分類變量(性別sex)缺失,重復(fù)模擬100次。采用刪除法、眾數(shù)插補(bǔ)法、多重插補(bǔ)-logistic回歸法(MI/logistic)及多重插補(bǔ)-判別分析法(ML/discrim)對(duì)分類變量數(shù)據(jù)缺失進(jìn)行處理。對(duì)插補(bǔ)效果從插補(bǔ)正確率及插補(bǔ)后模型參數(shù)的變化兩個(gè)方面進(jìn)行評(píng)價(jià)。結(jié)果 有序分類變量缺失:各缺失率下,MI/logistic插補(bǔ)的正確率最高,MI/logistic和MI/discrim插補(bǔ)后模型參數(shù)的偏差均較小,對(duì)于吸煙年數(shù)sy以分組形式syfz納入模型數(shù)據(jù)缺失導(dǎo)致模型參數(shù)的相對(duì)偏差更小,對(duì)syfz插補(bǔ)后模型參數(shù)相對(duì)偏差也小于連續(xù)變量sy插補(bǔ)后模型參數(shù)相對(duì)偏差。二分類變量缺失:各缺失率下,眾數(shù)插補(bǔ)的正確率最高,刪除法處理缺失數(shù)據(jù)后模型參數(shù)的偏差最小。結(jié)論 連續(xù)變量缺失對(duì)模型結(jié)果的影響大于分類變量缺失,對(duì)于有數(shù)據(jù)缺失的連續(xù)變量可將其離散化,以分類變量的形式進(jìn)行分析。缺失數(shù)據(jù)插補(bǔ)模型的擬合效果會(huì)直接影響插補(bǔ)效果,當(dāng)模型擬合效果較差時(shí)可能會(huì)帶來(lái)更大的偏差。

      分類變量 數(shù)據(jù)缺失 多重插補(bǔ)

      在醫(yī)學(xué)研究中,數(shù)據(jù)缺失是一個(gè)普遍存在的問(wèn)題[1]。數(shù)據(jù)缺失會(huì)導(dǎo)致樣本信息減少和統(tǒng)計(jì)檢驗(yàn)效能降低,損害研究結(jié)果的有效性[2],增加統(tǒng)計(jì)分析的復(fù)雜性[3-4]。對(duì)缺失數(shù)據(jù)進(jìn)行插補(bǔ)是國(guó)內(nèi)外普遍應(yīng)用的缺失數(shù)據(jù)處理方法,但目前研究多集中于對(duì)連續(xù)變量的數(shù)據(jù)缺失進(jìn)行插補(bǔ),對(duì)分類變量數(shù)據(jù)缺失的插補(bǔ)研究較少,完全隨機(jī)缺失是對(duì)插補(bǔ)方法的插補(bǔ)效果進(jìn)行評(píng)價(jià)的理想環(huán)境。本研究基于完整數(shù)據(jù)集模擬缺失數(shù)據(jù)集,探討分類隨機(jī)變量數(shù)據(jù)缺失對(duì)研究結(jié)果的影響,并對(duì)各方法的插補(bǔ)效果進(jìn)行比較及評(píng)價(jià)。

      資料與方法

      1.數(shù)據(jù)來(lái)源:研究數(shù)據(jù)源于1989-1991年開(kāi)展的“中國(guó)吸煙與全死因關(guān)系”橫斷面調(diào)查,選取上海地區(qū)35歲及以上吸煙人群吸煙與肺癌死亡關(guān)系的數(shù)據(jù)進(jìn)行插補(bǔ)方法研究,共14911條完整觀測(cè)。

      2.研究涉及的變量:詳見(jiàn)表1。

      3.不完整數(shù)據(jù)集的構(gòu)建:基于完整數(shù)據(jù)集模擬完全隨機(jī)缺失的不完整數(shù)據(jù)集。

      (1)有序分類變量缺失:模擬syfz缺失的不完整數(shù)據(jù)集,分別在5%、10%、20%和30%的缺失率下各模擬100次;

      (2)二分類變量缺失:模擬sex缺失的不完整數(shù)據(jù)集,分別在5%、10%、20%和30%的缺失率下各模擬100次。

      4.插補(bǔ)方法及效果評(píng)價(jià)

      有序分類變量缺失采用四種方法處理缺失值[5-8]:①刪除法,刪除syfz缺失的觀測(cè);②眾數(shù)插補(bǔ)法,按sex和sagefz將數(shù)據(jù)交叉分組分為8組。計(jì)算各組中syfz的眾數(shù),并將其作為該組中缺失項(xiàng)的插補(bǔ)值。③多重插補(bǔ)-logistic回歸法(MI/logistic),以syfz為因變量,sex、age和sage為協(xié)變量擬合有序多分類logistic回歸模型,計(jì)算缺失觀測(cè)syfz取值為1,2,…,5的概率分別為p1,p2,…,p5,然后產(chǎn)生一個(gè)服從均勻分布的隨機(jī)變量μ,其取值介于0和1之間,若μ

      二分類變量缺失采用四種方法處理缺失值[5-8]:①刪除法,刪除sex缺失的觀測(cè)。②眾數(shù)插補(bǔ)法,按agefz及sagefz將全部觀測(cè)分為16組,以每組中sex的眾數(shù)插補(bǔ)相應(yīng)的缺失值。③多重插補(bǔ)-logistic回歸法(MI/logistic),以sex為因變量,age、sage、smd和sy為協(xié)變量擬合二分類logistic回歸模型,插補(bǔ)過(guò)程與有序多分類logistic回歸多重插補(bǔ)相同,分別對(duì)缺失值進(jìn)行3次、5次和10次插補(bǔ)。④多重插補(bǔ)-判別分析法(MI/discrim),利用變量age、sage、smd和sy構(gòu)建sex的判別模型,分別對(duì)缺失值進(jìn)行3次、5次和10次插補(bǔ)。

      對(duì)各方法的插補(bǔ)效果從以下二方面進(jìn)行評(píng)價(jià):

      (1)插補(bǔ)正確率[9-11]:計(jì)算插補(bǔ)后各插補(bǔ)方法的插補(bǔ)正確率,正確插補(bǔ)的觀測(cè)數(shù)占總?cè)笔в^測(cè)數(shù)的比例。重復(fù)模擬100次,計(jì)算100次正確率的均值,得到各方法的平均插補(bǔ)正確率。插補(bǔ)正確率越高插補(bǔ)效果越好。

      (2)插補(bǔ)后模型參數(shù)的改變[12-13]:采用logistic回歸模型分析lungca(因變量)與sex、syfz(或sy)和smd的關(guān)系。將插補(bǔ)數(shù)據(jù)集的模型參數(shù)估計(jì)結(jié)果與完整數(shù)據(jù)集的結(jié)果相比較,計(jì)算模型參數(shù)的平均絕對(duì)偏差MADP和平均相對(duì)偏差MRDP。

      其中,k為重復(fù)模擬次數(shù),s為模型中估計(jì)的參數(shù)個(gè)數(shù),δ為完整數(shù)據(jù)集的參數(shù)估計(jì)值,δij為插補(bǔ)數(shù)據(jù)集的參數(shù)估計(jì)值。MADP和MRDP越小插補(bǔ)效果越好。

      結(jié) 果

      1.有序分類變量缺失

      表2顯示了在5%缺失率下各法對(duì)syfz插補(bǔ)的正確率及插補(bǔ)后模型參數(shù)的變化。Syfz插補(bǔ)正確率由高到低為:MI/logistic>MI/discrim>眾數(shù)插補(bǔ);從模型參數(shù)偏差來(lái)看,MI/logistic與MI/discrim插補(bǔ)后模型參數(shù)的偏差較小且極為接近,均遠(yuǎn)小于眾數(shù)插補(bǔ)與刪除法。

      其他缺失率下各插補(bǔ)方法的結(jié)果列于表3~6,由于同一多重插補(bǔ)方法在不同插補(bǔ)次數(shù)下的效果相近,選擇插補(bǔ)效果最好時(shí)對(duì)應(yīng)的次數(shù)。

      表3顯示,各方法的插補(bǔ)準(zhǔn)確率較為穩(wěn)定,不隨缺失率的變化而變化。MI/logistic插補(bǔ)的正確率最高,眾數(shù)插補(bǔ)的正確率最低。

      表4顯示,模型參數(shù)的偏差隨著缺失率的增加而增加。各缺失率下,眾數(shù)插補(bǔ)的偏差均最大,MI/logistic與MI/discrim的偏差較小且極為接近,明顯優(yōu)于眾數(shù)插補(bǔ)和刪除法。

      syfz是由連續(xù)變量sy離散化得到的,當(dāng)sy有數(shù)據(jù)缺失時(shí),分別以連續(xù)變量形式sy和分組變量形式syfz進(jìn)入模型,數(shù)據(jù)缺失導(dǎo)致模型參數(shù)的相對(duì)偏差情況見(jiàn)表5。

      表5顯示,在各缺失率下,以分類變量形式syfz進(jìn)入模型時(shí)模型參數(shù)的相對(duì)偏差小于連續(xù)變量形式sy的相對(duì)偏差。隨著缺失率的增加,syfz與sy的模型參數(shù)相對(duì)誤差的差值有增大的趨勢(shì)。

      采用刪除法、條件均值插補(bǔ)、回歸插補(bǔ)、多重插補(bǔ)-趨勢(shì)得分法、多重插補(bǔ)-回歸法、多重插補(bǔ)-預(yù)測(cè)均數(shù)匹配法及多重插補(bǔ)-馬爾科夫蒙特卡洛法對(duì)sy的缺失數(shù)據(jù)進(jìn)行處理,采用刪除法、眾數(shù)插補(bǔ)、多重插補(bǔ)-logistic回歸及多重插補(bǔ)-判別分析對(duì)syfz的缺失數(shù)據(jù)進(jìn)行處理。將插補(bǔ)后的sy和syfz分別納入模型,計(jì)算各方法插補(bǔ)后模型參數(shù)的相對(duì)偏差,選擇最小的相對(duì)偏差作圖,可得對(duì)連續(xù)變量sy和分類變量syfz插補(bǔ)后模型參數(shù)的相對(duì)偏差,詳見(jiàn)表6。

      表6顯示,在各缺失率下,分類變量syfz插補(bǔ)后進(jìn)入模型的模型參數(shù)相對(duì)偏差均小于連續(xù)變量sy插補(bǔ)后進(jìn)入模型的模型參數(shù)相對(duì)偏差。隨著缺失率的增加,syfz與sy的模型參數(shù)相對(duì)誤差的差值有增大的趨勢(shì)。通過(guò)表6與表5的比較可見(jiàn),插補(bǔ)后模型參數(shù)的相對(duì)偏差明顯降低。

      2.二分類變量缺失

      對(duì)二分類變量sex缺失數(shù)據(jù)處理的主要結(jié)果見(jiàn)表7-8。

      表7顯示,各方法的插補(bǔ)準(zhǔn)確率穩(wěn)定在一定水平上;眾數(shù)插補(bǔ)的正確率最高,MI/logistic與MI/discrim插補(bǔ)的正確率相近且均較低。

      表8顯示,模型參數(shù)的偏差隨著缺失率的增加而增加。各缺失率下,刪除法的偏差最小,MI/logistic與MI/discrim的偏差均較大。

      討 論

      缺失率越大,數(shù)據(jù)缺失導(dǎo)致研究結(jié)果的偏差越大,各缺失值處理方法的效果也越差。本研究將吸煙年數(shù)測(cè)量指標(biāo)分別以連續(xù)變量sy和分組變量syfz納入模型,結(jié)果顯示,syfz進(jìn)入模型數(shù)據(jù)缺失導(dǎo)致的模型參數(shù)的相對(duì)偏差較小,對(duì)syfz進(jìn)行插補(bǔ)后模型參數(shù)的相對(duì)偏差更小。這提示連續(xù)變量缺失對(duì)模型結(jié)果的影響大于分類變量缺失,在實(shí)際中遇到有數(shù)據(jù)缺失的連續(xù)變量可將其離散化,以分類變量的形式進(jìn)行處理。

      本研究對(duì)缺失變量的插補(bǔ)充分利用了輔助變量的信息,輔助變量與缺失變量之間的相關(guān)性越強(qiáng),信息利用越充分,插補(bǔ)的效果越好。對(duì)syfz進(jìn)行插補(bǔ)時(shí),MI/logistic與MI/discrim的插補(bǔ)效果較好,明顯優(yōu)于刪除法與眾數(shù)插補(bǔ)法,然而對(duì)sex進(jìn)行插補(bǔ)時(shí),MI/logistic與MI/discrim的插補(bǔ)效果較差,明顯差于刪除法與眾數(shù)插補(bǔ)法,究其原因是由于輔助變量能對(duì)syfz進(jìn)行較好的預(yù)測(cè),而對(duì)sex的預(yù)測(cè)效果較差。如進(jìn)行MI/logistic插補(bǔ)時(shí),對(duì)syfz進(jìn)行預(yù)測(cè)的logistic回歸模型其矯正R2為0.8513,預(yù)測(cè)一致百分比為94.8%,而對(duì)sex進(jìn)行預(yù)測(cè)的回歸模型矯正R2為0.2003,預(yù)測(cè)一致百分比為72.9%。這提示基于統(tǒng)計(jì)建模對(duì)缺失數(shù)據(jù)進(jìn)行插補(bǔ)時(shí),模型擬合效果會(huì)直接影響插補(bǔ)效果,當(dāng)模型擬合效果較差時(shí)會(huì)帶來(lái)更大的偏差,但模型擬合優(yōu)度與插補(bǔ)效果之間的定量關(guān)系有待進(jìn)一步的研究。

      [1]Abraham WT,Russell DW.Missing data:a review of current methods and applications in epidemiology research .Current opinion in psychiatry,2004,17(4):315-321.

      [2]Streiner DL.The case of the missing Data:Methods of dealing with dropouts and other research vagaries .Research Methods in Psychiatry,2002,47(1):68-75.

      [3]吳秋紅,張?jiān)G?李國(guó)平,等.不同模型處理縱向缺失數(shù)據(jù)的模擬研究及應(yīng)用.中國(guó)衛(wèi)生統(tǒng)計(jì),2013,30(6):855-861.

      [4]曹陽(yáng),張羅漫.運(yùn)用SAS對(duì)不完整數(shù)據(jù)集進(jìn)行多重填補(bǔ)-SAS9中的多重填補(bǔ)及其統(tǒng)計(jì)分析過(guò)程(一).中國(guó)衛(wèi)生統(tǒng)計(jì),2004,21(1):56-63.

      [5]李樹威,鐘曉妮.基于Markov Chain Monto Carlo模型對(duì)醫(yī)院調(diào)查資料中缺失數(shù)據(jù)的多重估算.中國(guó)衛(wèi)生統(tǒng)計(jì),2013,30(6):837-841.

      [6]SAS Institute Inc.SAS/STAT 9.2 User′s Guide,second edition ,North Carolina:SAS Institute Inc,2009.

      [7]趙飛,張志杰,劉建翔.疾病監(jiān)測(cè)資料中缺失值最佳填充次數(shù)的研究.中國(guó)衛(wèi)生統(tǒng)計(jì),2009,29(5):455-458.

      [8]帥平,李曉松,周曉華,等.缺失數(shù)據(jù)統(tǒng)計(jì)處理方法研究進(jìn)展.中國(guó)衛(wèi)生統(tǒng)計(jì),2013,30(1):135-142.

      [9]蘭妥,江弋,劉光生.基于Sas的時(shí)間序列缺失值處理方法比較.計(jì)算機(jī)技術(shù)與發(fā)展,2008,10(18):43-45.

      [10]張橋,李寧,張秋菊,等.任意缺失模式缺失數(shù)據(jù)不同填補(bǔ)方法效果比較.中國(guó)衛(wèi)生統(tǒng)計(jì), 2013,30(5):690-692.

      [11]Preda C,Duhamel A,Picavet M,et al.Tools for Statistical Analysis with MissingData:Application to a Large Medical Database .Connecting Medical Informatics and Bio-Informatics,2005,181-186.

      [12]魏昕.缺失數(shù)據(jù)對(duì)微觀計(jì)量影響研究——以農(nóng)民收入與消費(fèi)為例.成都:西南交通大學(xué),2010.

      [13]莊嚴(yán),邢艷春,馬文卿.含有缺失機(jī)制的多元縱向數(shù)據(jù)分析.中國(guó)衛(wèi)生統(tǒng)計(jì),2008,25(5):489-493.

      (責(zé)任編輯:郭海強(qiáng))

      △通信作者:姜晶梅,E-mail:jingmeijiang238@hotmail.com

      猜你喜歡
      衛(wèi)生統(tǒng)計(jì)正確率偏差
      新醫(yī)療背景下衛(wèi)生統(tǒng)計(jì)工作的實(shí)踐與發(fā)展思考
      基于 Access的衛(wèi)生統(tǒng)計(jì)數(shù)據(jù)采集系統(tǒng)設(shè)計(jì)
      門診分診服務(wù)態(tài)度與正確率對(duì)護(hù)患關(guān)系的影響
      如何走出文章立意偏差的誤區(qū)
      兩矩形上的全偏差
      生意
      品管圈活動(dòng)在提高介入手術(shù)安全核查正確率中的應(yīng)用
      生意
      關(guān)于均數(shù)與偏差
      淺談衛(wèi)生統(tǒng)計(jì)質(zhì)量管理與控制
      奉新县| 通渭县| 双城市| 九龙县| 惠水县| 襄汾县| 兴山县| 固原市| 长宁区| 郑州市| 上饶市| 昌都县| 邯郸市| 尉犁县| 迁西县| 湾仔区| 承德县| 紫阳县| 九台市| 冀州市| 菏泽市| 潜江市| 宁海县| 集安市| 易门县| 乐山市| 长沙县| 无极县| 金堂县| 虞城县| 密云县| 江北区| 长乐市| 庆云县| 远安县| 海宁市| 高阳县| 体育| 乌鲁木齐县| 阜城县| 香格里拉县|