• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      多變量數(shù)據(jù)缺失機制的識別方法*

      2018-01-03 01:30:22邱建青杜春霖李曉松
      中國衛(wèi)生統(tǒng)計 2017年6期
      關(guān)鍵詞:參數(shù)檢驗協(xié)方差向量

      邱建青 杜春霖 周 婷 張 韜 李曉松

      四川大學(xué)華西公共衛(wèi)生學(xué)院(華西第四醫(yī)院)(610041)

      ·綜述·

      多變量數(shù)據(jù)缺失機制的識別方法*

      邱建青 杜春霖 周 婷 張 韜△李曉松△

      四川大學(xué)華西公共衛(wèi)生學(xué)院(華西第四醫(yī)院)(610041)

      數(shù)據(jù)缺失廣泛存在于醫(yī)學(xué)科研中,使研究損失大量信息,導(dǎo)致研究結(jié)果發(fā)生偏倚,因此不應(yīng)該被忽略。缺失數(shù)據(jù)的處理方法較為成熟,但是這些處理方法都以特定的數(shù)據(jù)缺失機制為前提。

      數(shù)據(jù)缺失機制的概念由Rubin于1967年提出[1],它描述了數(shù)據(jù)的缺失概率與觀測到的變量和未觀測到的變量之間的關(guān)系,說明數(shù)據(jù)缺失的原因。數(shù)據(jù)的缺失機制包括完全隨機缺失(missing completely at random,MCAR)、隨機缺失(missing at random,MAR)和非隨機缺失(missing not at random,MNAR)三類。完全隨機缺失是指目標(biāo)變量的缺失概率與已觀測到的變量和未觀測到的變量無關(guān),即缺失是完全隨機發(fā)生的。隨機缺失是指目標(biāo)變量的缺失概率與已經(jīng)觀測到的變量相關(guān),但與未觀測到的變量無關(guān)。非隨機缺失是指目標(biāo)變量出現(xiàn)缺失的概率與未觀測到的變量相關(guān)。

      數(shù)據(jù)的缺失機制說明了數(shù)據(jù)缺失的原因,數(shù)據(jù)缺失的不同處理方法對應(yīng)特定的缺失機制。研究發(fā)現(xiàn)[2-3],不根據(jù)缺失機制盲目選擇處理方法的結(jié)果往往會有偏倚,所以,缺失機制的識別很重要。我們只有清楚數(shù)據(jù)的缺失機制,才能選擇正確的方法。

      目前針對單變量數(shù)據(jù)缺失機制識別的研究較為成熟,而關(guān)于多變量數(shù)據(jù)缺失機制識別的研究有所成果,但缺乏一個完整體系,本文將主要從數(shù)理方法角度入手,總結(jié)目前國外針對多變量缺失機制識別的各類方法,形成體系,以供借鑒。

      資料與方法

      檢索方法:采用主題詞結(jié)合關(guān)鍵詞的方法,結(jié)合文獻追溯及手工檢索,以“missing data mechanism”、“MCAR”、“MAR”、“MNAR”為關(guān)鍵詞檢索Pubmed數(shù)據(jù)庫;以“數(shù)據(jù)缺失機制”及“完全隨機缺失”、“隨機缺失”、“非隨機缺失”為關(guān)鍵詞檢索中國生物醫(yī)學(xué)、知網(wǎng)、維普和萬方科技文獻數(shù)據(jù)庫。檢索范圍不限,并進一步查閱相關(guān)文獻的參考文獻來檢索可能遺漏的文獻。

      文獻納入標(biāo)準(zhǔn):納入的文獻必須具備以下條件:①缺失類型為多變量缺失;②缺失機制的分類為完全隨機缺失、隨機缺失和非隨機缺失;③檢驗方法為原創(chuàng)。詳見圖1。

      圖1 文獻檢索納入排除流程圖

      機制識別策略

      按照三種機制的假定性強弱,我們按照零假設(shè)為MCAR、MAR、MNAR的順序依次進行假設(shè)檢驗,檢驗順序如圖2示。各缺失機制的檢驗方法如下所述。

      圖2 多變量數(shù)據(jù)缺失機制識別方法選擇步驟

      1.多變量數(shù)據(jù)MCAR機制的識別方法

      目前,大部分針對多變量數(shù)據(jù)的MCAR機制識別方法主要是通過將觀測對象按照變量的缺失模式(missing pattern)分組,即將含有相同缺失變量的觀測對象劃分為同一組(如第一個觀測對象和第五個觀測對象都是變量3和變量4發(fā)生了缺失,這兩個對象屬于同一個缺失模式組);然后通過假設(shè)檢驗比較各組的均向量和(或)協(xié)方差矩陣是否相同。如果差異無統(tǒng)計學(xué)意義,則尚不能拒絕缺失機制是MCAR;如果各組間的差異有統(tǒng)計學(xué)意義,則可以認為該數(shù)據(jù)的缺失機制并非MCAR。而假設(shè)檢驗需綜合考慮總體分布類型是否已知、是否分類變量、樣本含量大小等情況選擇適當(dāng)?shù)姆椒?圖2)。

      (1)參數(shù)檢驗

      多重t檢驗:Dixon按每一個變量是否缺失將數(shù)據(jù)集劃分為該變量缺失的數(shù)據(jù)集和未缺失的數(shù)據(jù)集,然后對每一對數(shù)據(jù)集中其他每個變量間進行兩樣本t檢驗[4]。該檢驗數(shù)理基礎(chǔ)較為簡單,但忽略了多變量數(shù)據(jù)中變量之間的關(guān)系,大量t檢驗也會增大Ⅰ型錯誤。

      似然比檢驗:該方法由Little提出,基本思想是比較各個缺失模式組的均向量是否相同[5]。如果相同,缺失機制就是MCAR;如果各組均向量不全相同,那么提示缺失機制并非MCAR。

      當(dāng)數(shù)據(jù)集有J種缺失模式時,假設(shè)第j(j=1,2,…,J)個缺失模式組的觀測指標(biāo)服從均向量為μj且協(xié)方差矩陣為∑j的多元正態(tài)分布。檢驗各組的均向量是否相同就是檢驗假設(shè):

      H0:μ1=μ2=…=μJ,H1:μ1,μ2,…,μJ不全相等。

      Chen和Little的文獻指出,將廣義估計方程應(yīng)用于含缺失的重復(fù)測量數(shù)據(jù)的參數(shù)推斷時,需要考慮是否服從MCAR機制[3],針對該情形,在Little的似然比檢驗基礎(chǔ)上,又提出了基于信息分解和重組的Wald統(tǒng)計量檢驗,但該檢驗結(jié)果只適用于應(yīng)用廣義估計方程的情形,數(shù)理運算也較為繁瑣復(fù)雜。同樣針對應(yīng)用廣義估計方程的情形,Qu提出的廣義得分檢驗(generalised score-type test)避免了繁瑣數(shù)理運算過程[6],但依然只適用于該情形。

      基于廣義最小二乘法的檢驗:為了解決樣本含量少無法滿足似然比檢驗前提的問題,Kim和Bentler[7]提出了聯(lián)合均向量和協(xié)方差陣的基于廣義最小二乘法的檢驗方法。與Little的似然比檢驗類似,該方法仍然是將觀測對象按照變量的缺失情況分組。不同之處在于,該檢驗不僅考察各組均向量是否相同,還進一步檢驗各組的協(xié)方差齊性。因此,統(tǒng)計量是均向量齊性統(tǒng)計量和協(xié)方差齊性統(tǒng)計量的組合,模擬研究顯示,該檢驗犯Ⅰ型錯誤的風(fēng)險小于Little的似然比統(tǒng)計法。

      Park分類變量檢驗:針對重復(fù)測量數(shù)據(jù)中的分類變量,Park基于加權(quán)最小二乘法,提出統(tǒng)計量為Wald統(tǒng)計量的檢驗[8]。該方法將數(shù)據(jù)按照缺失模式分組后對每組擬合模型,檢驗?zāi)P蛥?shù)的同質(zhì)性,該方法的SAS程序包為CATMOD。由于該方法需要較大樣本量保證近似正態(tài)性,Park又提出了基于廣義估計方程的檢驗[9],在原有模型基礎(chǔ)上,新模型在自變量部分加入表示對象是否在某一缺失模式組的指示變量,而并非分組建模,進而檢驗這些指示變量的回歸系數(shù)是否都為0,如果回歸系數(shù)不都為0且具有統(tǒng)計學(xué)意義,那么缺失機制不為MCAR。該方法操作較為簡單,對連續(xù)或離散變量均可適用,較前面方法對樣本含量要求更低。

      改進后的Hawkins參數(shù)檢驗法:Hawkins檢驗是推斷多變量成組設(shè)計資料方差齊性的方法[10]。Jamshidian和Jalal將該方法經(jīng)改進后用于多變量缺失數(shù)據(jù)的MCAR機制識別。首先,已知總體為正態(tài)分布的情況下,運用極大似然法估計總體均向量和協(xié)方差陣。其次,基于均向量和協(xié)方差陣的估計值,在各個缺失模式組內(nèi)根據(jù)似然函數(shù)計算缺失數(shù)據(jù)的條件分布函數(shù),并使用單一填補法(single imputation)或多重填補法(multiple imputation)處理缺失數(shù)據(jù),得到填補后的完整數(shù)據(jù)集;最后,采用Hawkins檢驗法判斷填補后的各個缺失模式組的協(xié)方差陣是否相等,并以此得出是否拒絕缺失機制為MCAR的結(jié)論。

      (2)非參數(shù)檢驗

      上述參數(shù)檢驗方法均依賴于數(shù)據(jù)服從或近似服從正態(tài)分布,因而難以有效地識別非正態(tài)分布情況下的數(shù)據(jù)缺失機制。這種情況下需使用非參數(shù)檢驗驗方法。

      在Hawkins檢驗法的基礎(chǔ)上,Jamshidian和Jalal又提出了基于Hawkins檢驗和Anderson-Darling檢驗的非參數(shù)聯(lián)合檢驗法[12]。該方法不需要數(shù)據(jù)服從任何分布,只要求滿足觀測對象間的獨立性及累積分布函數(shù)的連續(xù)性。非參數(shù)聯(lián)合檢驗法的基本步驟與改進后的Hawkins參數(shù)檢驗法類似。二者區(qū)別在于:①不依賴總體分布的情況下,似然函數(shù)和缺失數(shù)據(jù)的條件概率分布都未知,因此該檢驗采用最小二乘法估計均向量和協(xié)方差陣,并使用回歸填補法處理缺失數(shù)據(jù);②針對填補后的完整數(shù)據(jù)集,考慮分布未知情況下的檢驗效能和運算效率問題,采用Anderson-Darlingk-樣本檢驗法比較各組的協(xié)方差陣是否相等。

      Li等指出Jamshidian提出的方法的核心是檢驗協(xié)方差齊性[11],所以對于非協(xié)方差的參數(shù)如峰度、斜度的同質(zhì)性的檢驗?zāi)芰^弱,因此提出一類更具有廣泛應(yīng)用價值的非參數(shù)檢驗方法。該檢驗方法能夠取得較為滿意的結(jié)果,但對數(shù)理要求較高,確定檢驗水準(zhǔn)方法復(fù)雜。

      (3)參數(shù)檢驗和非參數(shù)檢驗的聯(lián)合使用

      綜合參數(shù)檢驗法和非參數(shù)檢驗法各自的優(yōu)點,Jamshidian提出了一套針對MCAR機制的檢驗步驟(圖3)[12]。其基本思路為:當(dāng)數(shù)據(jù)來自一個正態(tài)分布總體,拒絕Hawkins檢驗意味著拒絕原假設(shè)即非協(xié)方差齊性;但如果數(shù)據(jù)總體分布未知,那么拒絕原假設(shè)還可能是因為服從的分布并非正態(tài),因此在Hawkins檢驗為拒絕的條件下,應(yīng)用一個非參數(shù)檢驗,如果拒絕該檢驗零假設(shè),認為拒絕Hawkins檢驗原因并非數(shù)據(jù)不服從正態(tài)分布,機制不為MCAR;如果沒有拒絕零假設(shè),認為Hawkins檢驗未通過的原因是數(shù)據(jù)的總體分布并不服從正態(tài)分布。R包MissMech提供了該方法的具體實現(xiàn)。

      圖3 Jamshidian非參數(shù)MCAR檢驗步驟

      2.多變量重復(fù)測量數(shù)據(jù)的MAR機制識別方法

      目前多變量數(shù)據(jù)的MAR機制識別方法研究主要針對重復(fù)測量數(shù)據(jù)。該類檢驗方法的總體思想是:按照已知影響缺失概率的因素對所有觀測對象進行分組,如果數(shù)據(jù)的缺失機制是MAR,那么根據(jù)其定義可知,此時每個組內(nèi)的缺失機制應(yīng)為完全隨機缺失。那么檢驗思路就為檢驗后一個時間點測量值是否與前一個時間點測量值來自同一總體。根據(jù)數(shù)據(jù)分布不同可分為參數(shù)檢驗和非參數(shù)檢驗。

      (1)參數(shù)檢驗

      Diggle提出的MAR機制識別方法旨在判定數(shù)據(jù)缺失在各自組內(nèi)(若干實驗組和對照組)是否是隨機發(fā)生的[13],基本思想為:第二次隨訪開始分別在每個時間點各組內(nèi)尋找是否有研究對象的觀測值發(fā)生缺失;如果有,回溯到前一個時間點上通過假設(shè)檢驗的方法判斷這些研究對象的觀測值是否是該組內(nèi)所有觀測對象觀測值的隨機樣本,并記錄下每次假設(shè)檢驗的P值。Diggle認為,在MAR機制的假設(shè)下,這些P值應(yīng)服從[0,1]的均勻分布。因此Diggle采用Kolmogorov統(tǒng)計量衡量P值與[0,1]均勻分布的差異程度,判斷缺失機制是否為MAR。

      Ridout[14]指出缺失模式為單調(diào)缺失模式(monotonous missing pattern)的情況下,即在某一時間點數(shù)據(jù)缺失后后續(xù)時間點均缺失,可以利用logit回歸模型來判定缺失機制是否為MAR,即缺失的產(chǎn)生是否與協(xié)變量相關(guān)。按照情況的復(fù)雜與否,可以將建模分為條件logit回歸模型和非條件logit回歸模型。但該方法建模十分復(fù)雜,它基于的假設(shè)每個時間點的數(shù)據(jù)是獨立的往往不成立。與Ridout的方法類似,F(xiàn)airclough的機制檢驗方法也是利用logit回歸模型[15],不同的是它不要求單調(diào)缺失模式,因此適用性更加廣泛。

      Diggle的方法比較直觀,但Listing指出Kolmogorov統(tǒng)計量同Ridout的統(tǒng)計量一樣依賴于每次測量的獨立性[16],顯然這個假設(shè)常不符合重復(fù)測量情況。另外,當(dāng)P值的個數(shù)太小時,Kolmogorov檢驗的效能很低。因此,他提出了一種基于均值比較的檢驗方法。該方法與Diggle的方法類似的是,同樣是從第二次隨訪開始的每個時間點t(t>2)上尋找發(fā)生變量缺失的研究對象。二者的區(qū)別在于,Listing方法是回溯到前一個時間點(t-1)上,通過將這些研究對象的平均觀測值與完成整個隨訪的研究對象的平均觀測值相比較,得出(t-1)時間點上的均值之差,最終以各個時間點上發(fā)生缺失的樣本數(shù)作為權(quán)重,構(gòu)建加權(quán)意義下的均值之差作為檢驗統(tǒng)計量。模擬研究發(fā)現(xiàn)Listing方法在大樣本情況下表現(xiàn)穩(wěn)定,比Diggle方法具有更強的檢驗效能。

      (2)非參數(shù)檢驗

      針對前一種參數(shù)檢驗不適用于非正態(tài)分布數(shù)據(jù)的情形,Listing又提出了一種非參數(shù)檢驗方法[17],該方法基于隊列中發(fā)生缺失的對象觀測值應(yīng)大于(或小于)未發(fā)生缺失的對象的相應(yīng)觀測值的假定。首先在每一個時間點上分別進行Wilcoxon秩和檢驗,比較在該時間點上缺失和未缺失對象觀測值的累積分布函數(shù)是否存在差異。在隨機變量Yit是連續(xù)型的情況下,不同時間點Wilcoxon統(tǒng)計量是獨立的,因此可將它們合并后得到聯(lián)合檢驗統(tǒng)計量S。根據(jù)中心極限定理,S漸近服從標(biāo)準(zhǔn)正態(tài)分布,最終根據(jù)基于S的假設(shè)檢驗結(jié)果做出推斷。同樣針對Listing提出的參數(shù)檢驗法,Norbert提出了基于重抽樣(bootstrap)的非參數(shù)方法[18],統(tǒng)計量是加權(quán)組合每一次測量時缺失組和非缺失組之間的差別后的非參數(shù)統(tǒng)計量,原理類似于Listing提出的非參數(shù)方法,只是使用了重抽樣技術(shù)。模擬實驗發(fā)現(xiàn),該方法對于偏態(tài)分布可取得良好的效果。

      Deny提出了一類非參數(shù)的采用logit回歸的方法[19],即用參數(shù)化的方法處理,用一組正交積來表示,從而將MAR機制的檢驗轉(zhuǎn)化為檢驗參數(shù)是否具有統(tǒng)計學(xué)意義的過程。若參數(shù)具有統(tǒng)計學(xué)意義則機制為MAR,但該方法較為復(fù)雜。

      3.多變量重復(fù)測量數(shù)據(jù)的MNAR機制的識別方法

      此外,孫捷等認為在某些情況下,確認機制并非MCAR后,非單調(diào)缺失模式的重復(fù)測量數(shù)據(jù)是MNAR的一種典型形式[20],比如對醫(yī)院病人的生命質(zhì)量進行縱向隨訪時,如果因為病人搬家而導(dǎo)致數(shù)據(jù)某時點后的缺失,則認為缺失與前期觀察(地址)相關(guān),機制可能為MAR,具體是否為MAR需作進一步檢驗;但某一時點后數(shù)據(jù)又再次出現(xiàn),那么數(shù)據(jù)缺失不與前期觀察相關(guān),機制為MNAR,該方法簡單易行,但需結(jié)合實際情況分析。

      討 論

      數(shù)據(jù)缺失廣泛存在于醫(yī)學(xué)研究中,對研究結(jié)果的準(zhǔn)確性造成很大的影響。在觀察性研究和實驗性研究中,針對信息缺失往往采取一系列措施進行預(yù)防,或者盡可能對缺失信息補回。通過數(shù)理方法對缺失數(shù)據(jù)進行填補的方法并未引起足夠的重視,雖然這個方法是經(jīng)濟且可行的。

      國內(nèi)外針對數(shù)據(jù)缺失的填補方法較為系統(tǒng),但是針對填補方法對應(yīng)的數(shù)據(jù)缺失機制識別的相關(guān)研究,國外較為成熟,主要針對數(shù)理方法進行闡述,但并不系統(tǒng);國內(nèi)研究較少,局限于單變量數(shù)據(jù),且缺少對其適用數(shù)據(jù)類型的說明。本文系統(tǒng)地總結(jié)了國外各類成熟的對多變量數(shù)據(jù)缺失機制的識別方法,并指出了適用的數(shù)據(jù)類型,具有一定的借鑒意義。但數(shù)據(jù)缺失尤其是多變量數(shù)據(jù)缺失的機制在實際情況中是十分復(fù)雜的,所以需要考慮具體的研究內(nèi)容,結(jié)合多種方法對數(shù)據(jù)缺失的機制進行判定。

      [1] Rubin,Donald B.Inference and Missing Data.Biometrika,1976,63(1):581-92.

      [2] Fielding S,Fayers PM,Mcdonald A,et al.Simple imputation methods were inadequate for missing not at random(MNAR)quality of life data.Health and Quality of Life Outcomes,2008,6:57.

      [3] Chen HY,Little R.A test of missing completely at random for generalised estimating equations with missing data.Biometrika,1999,86(1):1198-1202.

      [4] Dixon WJ.Bmdp statistical software.Biometrics,1982,38(2).

      [5] Little RJA.A Test of Missing Completely at Random for Multivariate Data with Missing Values.Journal of the American Statistical Association,1988,83(404):1198-1202.

      [6] Qu A,Song XK.Testing ignorable missingness in estimating equation approaches for longitudinal data.Biometrika,2002,89(4):841-850.

      [7] Kim KH,Bentler PM.Tests of homogeneity of means and covariance matrices for multivariate incomplete data.Psychometrika,2002,67(4):609-623.

      [8] Park T,Davis CS.A test of the missing data mechanism for repeated categorical data.Biometrics,1993,49(2):631-8.

      [9] Park T,Lee SY.A test of missing completely at random for longitudinal data with missing observations.Statistics in Medicine,1997,16(16):1859-1871.

      [10]Hawkins DM.A New Test for Multivariate Normality and Homoscedasticity.Technometrics,1981,23(1):105-110.

      [11]Li J,Yu Y.A Nonparametric Test of Missing Completely at Random for Incomplete Multivariate Data.Psychometrika,2015,80(3):707-726.

      [12]Jamshidian M,Jalal S.Tests of homoscedasticity,normality,and missing completely at random for incomplete multivariate data.Psychometrika,2010,75(4):649-674.

      [13]Diggle PJ.Testing for Random Dropouts in Repeated Measurement Data.Biometrics,1989,45(4):1255-1258.

      [14]Ridout MS.Testing for random dropouts in repeated measurement data.Biometrics,1991,47(4):1619-1621.

      [15]Fairclough DL.Design and analysis of quality of life studies in clinical trials.Quality of Life Research,2002,13(1):275-277.

      [16]Listing J,Schlittgen R.Tests If Dropouts Are Missed at Random.Biometrical Journal,1998,40(8):929-935.

      [17]Listing J,Schlittgen R.A Nonparametric Test for Random Dropouts.Biometrical Journal,2003,45(1):113-127.

      [18]Schmitz N,Franz M.A Bootstrap Method To Test If Study Dropouts Are Missing Randomly.Quality & Quantity,2002,36(36):1-16.

      [19]Pommeret D.Testing the mechanism of missing data.,2012.

      [20]孫婕,金勇進,戴明鋒.關(guān)于數(shù)據(jù)缺失機制的檢驗方法探討.數(shù)學(xué)的實踐與認識,2013,12:166-173.

      國家自然科學(xué)基金青年基金(No.81602935);四川大學(xué)青年教師科研啟動基金(2016SCU11006);四川省衛(wèi)生信息學(xué)會公共衛(wèi)生信息專業(yè)委員會

      △通信作者:張韜, E-mail:scdxzhangtao@163.com;李曉松,E-mail:lixiaosong1101@126.com.

      張 悅)

      猜你喜歡
      參數(shù)檢驗協(xié)方差向量
      向量的分解
      聚焦“向量與三角”創(chuàng)新題
      向量垂直在解析幾何中的應(yīng)用
      不確定系統(tǒng)改進的魯棒協(xié)方差交叉融合穩(wěn)態(tài)Kalman預(yù)報器
      非參數(shù)檢驗的概念
      向量五種“變身” 玩轉(zhuǎn)圓錐曲線
      一種基于廣義協(xié)方差矩陣的欠定盲辨識方法
      非參數(shù)檢驗的概念
      縱向數(shù)據(jù)分析中使用滑動平均Cholesky分解對回歸均值和協(xié)方差矩陣進行同時半?yún)?shù)建模
      關(guān)于協(xié)方差的U統(tǒng)計量檢驗法
      闽侯县| 阿图什市| 花垣县| 化德县| 广昌县| 界首市| 广东省| 姚安县| 西乌珠穆沁旗| 当涂县| 微山县| 泰顺县| 三台县| 岢岚县| 桃源县| 四子王旗| 邓州市| 河曲县| 镇远县| 会泽县| 南平市| 张家界市| 吉隆县| 新宁县| 石家庄市| 灌阳县| 讷河市| 文安县| 新丰县| 乐陵市| 资源县| 景德镇市| 紫云| 泉州市| 河源市| 错那县| 徐水县| 布尔津县| 洛川县| 红原县| 玉溪市|