• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      缺失數(shù)據(jù)處理方法研究綜述

      2021-07-28 12:36:26熊中敏郭懷宇吳月欣
      關(guān)鍵詞:均值聚類變量

      熊中敏,郭懷宇,吳月欣

      上海海洋大學(xué) 信息學(xué)院,上海201306

      隨著科技信息技術(shù)的日新月異,各研究領(lǐng)域?qū)τ跀?shù)據(jù)的收集、存儲(chǔ)以及處理技術(shù)等已經(jīng)基本成熟。日復(fù)一日的海量數(shù)據(jù)收集工作,使得各領(lǐng)域積累了大規(guī)模的數(shù)據(jù)存儲(chǔ)量。據(jù)統(tǒng)計(jì),全球各領(lǐng)域數(shù)據(jù)總量正以每年40%左右的增速大規(guī)模增加,到2020 年全球數(shù)據(jù)總量規(guī)??蛇_(dá)到40 ZB[1-2]。大數(shù)據(jù)時(shí)代的到來,對于各領(lǐng)域有效地利用大數(shù)據(jù)提出更高的要求,特別是數(shù)據(jù)挖掘領(lǐng)域,數(shù)據(jù)的質(zhì)量決定著是否能在海量復(fù)雜的數(shù)據(jù)中挖掘出有價(jià)值的知識[3-5]。因此面對魚龍混雜的海量數(shù)據(jù),如何通過預(yù)處理等手段提高數(shù)據(jù)的可用性變成急需解決的重要問題。針對不同質(zhì)量問題的數(shù)據(jù)采取適合的預(yù)處理手段可以改善數(shù)據(jù)的整體質(zhì)量。目前,數(shù)據(jù)缺失作為數(shù)據(jù)質(zhì)量問題的重要因素之一,變得難以避免。無論是現(xiàn)實(shí)調(diào)查還是科學(xué)研究中,大部分?jǐn)?shù)據(jù)集都出現(xiàn)缺失問題,極大地影響了后續(xù)研究工作的準(zhǔn)確性。不論是忽略還是簡單刪除這些缺失數(shù)據(jù)都會(huì)使得原數(shù)據(jù)集信息量發(fā)生改變,最終影響實(shí)驗(yàn)工作的進(jìn)行。因此缺失數(shù)據(jù)填充方法成為目前的研究熱點(diǎn),如何針對不同的缺失類型進(jìn)行有效填充是接下來的研究重點(diǎn)。本文介紹了缺失數(shù)據(jù)處理方法的國內(nèi)外研究現(xiàn)狀,整理了數(shù)據(jù)缺失原因并進(jìn)行分類,系統(tǒng)地對最新國內(nèi)外數(shù)據(jù)缺失的處理方法進(jìn)行綜述對比,并介了紹常用的數(shù)據(jù)填充效果評價(jià)方法,最后對未來研究發(fā)展趨勢做出了展望。

      1 國內(nèi)外研究現(xiàn)狀

      數(shù)據(jù)預(yù)處理中數(shù)據(jù)缺失問題一直是需要克服的困難,為此國內(nèi)外學(xué)者對缺失問題進(jìn)行了深刻研究,貢獻(xiàn)出了許多的經(jīng)驗(yàn)成果[6-8]。本文在查閱大量國內(nèi)外文獻(xiàn)的基礎(chǔ)上,對數(shù)據(jù)缺失問題的國內(nèi)外的研究現(xiàn)狀總結(jié)如下。

      1.1 國外研究現(xiàn)狀

      20 世紀(jì)前期國外就已經(jīng)開始對數(shù)據(jù)質(zhì)量問題進(jìn)行研究[9-10]。最早是Bowky在1915年對某項(xiàng)調(diào)查結(jié)果的誤差來源進(jìn)行了研究分析,提出了數(shù)據(jù)缺失問題。后來,Deming 對調(diào)查誤差進(jìn)行了各種因素分析,進(jìn)一步總結(jié)了數(shù)據(jù)缺失問題,其中包括因無回答造成的缺失。20世紀(jì)40年代末,數(shù)據(jù)缺失問題的研究掀起熱潮,專家學(xué)者提出了各類缺失值的解決方法。這些方法可以大致分為兩類:事前防范和事后處理。前者一般是通過大量收集來提高數(shù)據(jù)的完整度,但這種方法無法保證一定能收集到完整數(shù)據(jù)。后者通常是在已有數(shù)據(jù)的基礎(chǔ)上進(jìn)行處理,使其完備化。因此事后處理更符合數(shù)據(jù)缺失處理的研究方向,也更受歡迎。1940 年,Deming 和Stephan提出抽樣概率的倒數(shù)加權(quán)法解決單元缺失情況[11]。1949 年,Politz 和Simmons 對這種加權(quán)法進(jìn)行了改進(jìn)提出了經(jīng)典的PolitzSimmons調(diào)整法[12]。

      著名統(tǒng)計(jì)學(xué)家Yates因?qū)嶒?yàn)數(shù)據(jù)缺失過多無法完成數(shù)據(jù)分析而提出填補(bǔ)缺失值的方法[13],該方法在對方差分析中表現(xiàn)出不錯(cuò)的效果[14]。然后填充方法成為研究熱潮,隨后出現(xiàn)了均值填充、回歸填充、聚類填充、熱卡填補(bǔ)、多重填充等許多經(jīng)典方法。在前人方法的基本理論基礎(chǔ)上,各領(lǐng)域?qū)W者結(jié)合自身領(lǐng)域數(shù)據(jù)特點(diǎn),進(jìn)行深入研究后提出大量改進(jìn)方法。1977年,Dempster等人提出期望極大化算法(Expectation Maximization),該方法成為缺失數(shù)據(jù)處理領(lǐng)域的一個(gè)重要里程碑[15],此后許多方法都在它基礎(chǔ)上進(jìn)行研究更新。1978 年Rubin 提出多重填補(bǔ)方法[16],這又是一次重大突破,相比單值填補(bǔ),該方法表現(xiàn)出更好的填充效果[17]。1984 年Kalton 等人根據(jù)熱卡填補(bǔ)法的思想,提出最近鄰填補(bǔ)方法[18],該方法的填充思想影響了后來許多算法。

      進(jìn)入21世紀(jì),數(shù)據(jù)缺失的處理方法已經(jīng)走向成熟,鮮少有全新的填充思想被提出,大部分都是基于當(dāng)下領(lǐng)域的改進(jìn)及應(yīng)用。如2003年,Batista等人對監(jiān)督學(xué)習(xí)的四種缺失數(shù)據(jù)處理方法進(jìn)行了分析比較,證明了k最近鄰填補(bǔ)算法在填補(bǔ)手段上的性能優(yōu)越性[19]。如2018 年Zakaria等人利用環(huán)境溫度和濕度的監(jiān)測數(shù)據(jù)來評估四種填補(bǔ)方法(均值填充、回歸填充、多重填充和最近鄰填充)[20]。2019 年Little 等人對缺失數(shù)據(jù)的最新統(tǒng)計(jì)處理方法進(jìn)行了前面分析,并提供了實(shí)際應(yīng)用信息[21]。

      1.2 國內(nèi)研究現(xiàn)狀

      國內(nèi)學(xué)者對缺失值處理方法的研究相對比較晚,基本上都是在國外已有的先進(jìn)理論上進(jìn)行改進(jìn)、對比完善,大多缺乏原創(chuàng)性理論。如2000年,金勇進(jìn)等人通過模擬實(shí)驗(yàn)對幾種缺失值填補(bǔ)方法進(jìn)行比較,發(fā)現(xiàn)均值填充更符合真值,而隨機(jī)回歸填補(bǔ)更能保持樣本分布[22]。2009年,金勇進(jìn)等人出版的《缺失數(shù)據(jù)的統(tǒng)計(jì)處理》,詳細(xì)地討論了各類缺失問題以及解決辦法[23]。

      2010年,鄧銀燕通過仿真實(shí)驗(yàn)研究討論了數(shù)據(jù)填充方面的主要方法性能,其中包括均值填充、隨機(jī)填充、期望最大化(EM)填充、線性回歸模型填充、多重填充等方法[24]。實(shí)驗(yàn)表明不同方法對于不同缺失率的數(shù)據(jù)填充效果不盡相同。2014 年羅永峰等人根據(jù)鋼結(jié)構(gòu)檢測數(shù)據(jù)缺失的形成機(jī)制,提出基于最小二乘原理以回歸分析理論為基礎(chǔ)的填充方法[25]。2020 年楊弘等人針對混合型缺失數(shù)據(jù)比較了一些缺失數(shù)據(jù)處理方法的特點(diǎn)以及在實(shí)際應(yīng)用中的評價(jià)效果[26]。后來許多國內(nèi)學(xué)者在經(jīng)典填充方法的基礎(chǔ)上,根據(jù)自身領(lǐng)域數(shù)據(jù)特點(diǎn)設(shè)計(jì)出各種相適應(yīng)的填充算法。

      2 數(shù)據(jù)缺失問題

      數(shù)據(jù)質(zhì)量問題一直是影響實(shí)驗(yàn)研究的重要因素之一。而數(shù)據(jù)缺失問題作為數(shù)據(jù)質(zhì)量問題中的關(guān)鍵元素已經(jīng)普遍存在。例如常見的機(jī)器學(xué)習(xí)領(lǐng)域UCI 數(shù)據(jù)庫中,出現(xiàn)數(shù)據(jù)缺失的數(shù)據(jù)集已達(dá)到40%以上[27-28]。數(shù)據(jù)缺失的普遍存在已經(jīng)影響到正常的數(shù)據(jù)分析及研究。國內(nèi)外學(xué)者開始對數(shù)據(jù)缺失問題進(jìn)行深入研究,從產(chǎn)生原因到分類,再到解決辦法。本章詳細(xì)介紹了數(shù)據(jù)缺失問題產(chǎn)生的原因,根據(jù)不同標(biāo)準(zhǔn)對缺失問題進(jìn)行了分類,為后面處理方法的介紹奠定了基礎(chǔ)。

      2.1 數(shù)據(jù)缺失的原因

      數(shù)據(jù)缺失常發(fā)生在數(shù)據(jù)的采集、運(yùn)輸、存儲(chǔ)等過程中。如在各領(lǐng)域數(shù)據(jù)采集中,會(huì)存在一些數(shù)據(jù)無法獲取或者人工操作不當(dāng)而丟失的情況,或者在數(shù)據(jù)傳輸、存儲(chǔ)等轉(zhuǎn)移過程中發(fā)生丟失等等[29-30]。因此對數(shù)據(jù)缺失原因總結(jié)如下:

      (1)數(shù)據(jù)在采集過程中的缺失??陀^條件的限制,如歷史條件下,設(shè)備的局限導(dǎo)致無法獲取完整的信息。

      (2)數(shù)據(jù)在運(yùn)輸過程中的缺失。數(shù)據(jù)的運(yùn)輸轉(zhuǎn)移需要靠人來完成,因此人為操作、判定的失誤會(huì)導(dǎo)致數(shù)據(jù)錯(cuò)誤或者丟失。

      (3)數(shù)據(jù)在存儲(chǔ)過程中的缺失。由于存儲(chǔ)介質(zhì)發(fā)生故障及損壞而導(dǎo)致的數(shù)據(jù)缺失;以及存儲(chǔ)過程中對數(shù)據(jù)進(jìn)行壓縮而導(dǎo)致丟失。

      2.2 數(shù)據(jù)缺失的分類

      數(shù)據(jù)缺失原因的不同產(chǎn)生了不同缺失類型[31],為了能更加有效地應(yīng)對數(shù)據(jù)缺失問題,需要對數(shù)據(jù)缺失類型進(jìn)行分類,從而能更有針對性地提出解決辦法,使得結(jié)果更合理準(zhǔn)確。本節(jié)從缺失模式和缺失機(jī)制兩個(gè)方面對缺失類型進(jìn)行了分類。

      2.2.1 缺失模式分類

      因數(shù)據(jù)缺失而在數(shù)據(jù)集中產(chǎn)生的缺失結(jié)構(gòu)叫缺失模式[32]。缺失模式可以用來反映數(shù)據(jù)集中缺失數(shù)據(jù)之間的關(guān)系。目前缺失模式大致分為四種:單變量缺失模式、多變量缺失模式、單調(diào)缺失模式、一般缺失模式[33]。

      (1)單變量缺失模式

      單變量缺失模式是指單屬性維度存在缺失值,即所研究數(shù)據(jù)集中只有一個(gè)屬性維度存在缺失值,其余屬性維度數(shù)據(jù)完整。

      (2)多變量缺失模式

      多變量缺失模式是指中多屬性維度含有缺失值,即所研究數(shù)據(jù)集中有一個(gè)及以上屬性維度存在缺失值。

      (3)單調(diào)缺失模式

      單調(diào)缺失模式是指所研究數(shù)據(jù)集在多屬性維度含有缺失值的基礎(chǔ)上,缺失數(shù)據(jù)形成的矩陣進(jìn)行排列變換后能呈現(xiàn)單調(diào)層級模式。

      (4)一般缺失模式

      一般缺失模式簡單點(diǎn)說就是所研究數(shù)據(jù)集中缺失數(shù)據(jù)分布在不同屬性之間,并且毫無規(guī)律可循。這是目前最常見的缺失模式。

      2.2.2 缺失機(jī)制分類

      缺失數(shù)據(jù)和完整數(shù)據(jù)之間的關(guān)系稱為缺失機(jī)制[34]。缺失機(jī)制的意義在能通過完整數(shù)據(jù)幫助處理缺失數(shù)據(jù)。缺失機(jī)制大致分為三種:完全隨機(jī)缺失(MCAR)、隨機(jī)缺失(MAR)、非隨機(jī)缺失(NMAR)。

      (1)完全隨機(jī)缺失(Missing Completely At Random,MCAR)

      完全隨機(jī)缺失指數(shù)據(jù)缺失是隨機(jī)發(fā)生的,與自身屬性以及其他屬性取值無關(guān)。例如研究數(shù)學(xué)、語文和英語三個(gè)屬性時(shí),數(shù)學(xué)屬性的缺失與語文和英語兩個(gè)屬性無關(guān),它是完全隨機(jī)缺失。目前來說,完全隨機(jī)缺失并不常見。

      (2)隨機(jī)缺失(Missing At Random,MAR)

      隨機(jī)缺失指數(shù)據(jù)缺失只和完整屬性取值有關(guān)[35]。例如研究數(shù)學(xué)和語文兩屬性時(shí),已知數(shù)學(xué)屬性的缺失和語文屬性相關(guān),則可以認(rèn)為這是隨機(jī)缺失的。

      (3)非隨機(jī)缺失(Not Missing At Random,NMAR)

      非隨機(jī)缺失指數(shù)據(jù)缺失不僅與自身取值有關(guān)而且與完整屬性取值也有關(guān),這種缺失是不可忽略的缺失[36]。由于隱私敏感等問題,隱去某些屬性值,這就是非隨機(jī)缺失。

      3 缺失值處理方法

      目前對于缺失值的處理方法基本分為三類:刪除,填充,不處理[37]。采用什么樣的處理方法要因數(shù)據(jù)集缺失情況以及研究內(nèi)容而定,本章介紹了目前缺失值處理的幾類解決辦法,其中詳細(xì)闡述了數(shù)據(jù)填充方法以及研究進(jìn)展。最后總結(jié)了各類缺失值處理方法的優(yōu)缺點(diǎn)以及適用范圍。

      3.1 簡單刪除法

      最原始的缺失數(shù)據(jù)處理方法主要有簡單刪除法,此方法就是將包含缺失值的數(shù)據(jù)對象、數(shù)據(jù)屬性、成對變量進(jìn)行刪除[38]。

      (1)對象刪除

      對象刪除指當(dāng)數(shù)據(jù)集中某個(gè)研究對象的數(shù)據(jù)記錄中存在丟失時(shí),直接刪除該對象。該方法僅適合于缺失對象極小,否則會(huì)使得數(shù)據(jù)集因丟失過多的信息而造成不完整,從而影響后續(xù)實(shí)驗(yàn)結(jié)果的準(zhǔn)確性。

      (2)屬性刪除

      屬性刪除指當(dāng)數(shù)據(jù)集中某屬性存在缺失時(shí)就直接刪除該屬性。這種做法雖然保留了研究對象的個(gè)數(shù),但是丟失對象的一些屬性信息,若含缺失值的屬性過多,就會(huì)造成刪除過度,后續(xù)實(shí)驗(yàn)研究將毫無意義。

      (3)成對刪除

      成對刪除指配對的兩個(gè)變量之間,若有一方存在缺失值,就將兩個(gè)變量同時(shí)刪除然后再進(jìn)行相關(guān)分析。

      綜上這類方法操作過程簡單,速度快,但很難適用眾多領(lǐng)域的缺失數(shù)據(jù)集。當(dāng)數(shù)據(jù)量特別大,缺失對象與數(shù)據(jù)集中的數(shù)據(jù)量相比微不足道時(shí),這種方法非常有效,它既解決了數(shù)據(jù)缺失的問題,又不會(huì)影響數(shù)據(jù)集的信息量以及研究結(jié)果。然而,當(dāng)數(shù)據(jù)集中缺失數(shù)據(jù)大量存在時(shí),簡單地刪除缺失對象以及它所包含的信息就會(huì)影響整個(gè)數(shù)據(jù)集的質(zhì)量,造成數(shù)據(jù)資源的浪費(fèi),丟掉了可能存在的有價(jià)值的信息,對后續(xù)研究造成影響,使得研究結(jié)果無法保證客觀性以及結(jié)果的正確性。如陳景年在選擇性貝葉斯分類算法研究中,為了使樸素貝葉斯分類器的分類效果達(dá)到預(yù)期目標(biāo),選擇刪除數(shù)據(jù)集中的冗余屬性,使剩余的屬性盡可能地滿足獨(dú)立性假設(shè)條件,最后達(dá)到了預(yù)期效果[39]。

      3.2 權(quán)重法

      權(quán)重法的使用前提是數(shù)據(jù)缺失類型為非完全隨機(jī)缺失情況下,通過logistic或probit等方法將缺失單元的權(quán)數(shù)分配到完整單元上,從而增大完整單元的權(quán)數(shù)以減小缺失單元帶來的損失。這種方法一般用來處理單元無回答的缺失問題。但是權(quán)重法不適合多屬性缺失的數(shù)據(jù)集,因?yàn)槎鄬傩匀笔t會(huì)增大計(jì)算難度,準(zhǔn)確性降低。

      3.3 填補(bǔ)

      目前針對數(shù)據(jù)缺失問題國內(nèi)外學(xué)者們提出了多種填補(bǔ)方法,基本上可分為兩類:統(tǒng)計(jì)學(xué)方法和機(jī)器學(xué)習(xí)方法[40]。統(tǒng)計(jì)學(xué)方法大多是基于數(shù)據(jù)集本身作出假設(shè),然后利用原數(shù)據(jù)集對缺失數(shù)據(jù)進(jìn)行相應(yīng)填補(bǔ)。這類方法沒有考慮數(shù)據(jù)對象本身的類別,填充值往往受其他類別對象的影響,填充結(jié)果準(zhǔn)確性較差,常見的方法有EM(Expectation Maximization)填充算法、回歸分析法、多重插補(bǔ)等。機(jī)器學(xué)習(xí)方法,一般是先對缺失數(shù)據(jù)集進(jìn)行分類或聚類,然后進(jìn)行填補(bǔ)。這類方法是隨著近年來機(jī)器學(xué)習(xí)的熱潮興起的。代表性方法有:K最近鄰填補(bǔ)、K-means填補(bǔ)、貝葉斯網(wǎng)絡(luò)等等。其中分類方法以缺失屬性為目標(biāo)進(jìn)行分類,然后在每個(gè)類別內(nèi)進(jìn)行填補(bǔ),但缺失屬性過多時(shí)容易導(dǎo)致所分類別過多,效率低下;聚類方法則是先將數(shù)據(jù)對象聚類,劃分成多個(gè)簇,根據(jù)簇內(nèi)相似對象進(jìn)行填補(bǔ),缺失屬性的多少不會(huì)影響簇的個(gè)數(shù),這類方法適用范圍廣,也是目前研究的熱點(diǎn)。本文將現(xiàn)有的填充方法劃分成以下幾種方法:

      (1)人工填寫(Filling Manually)

      人工填寫法就是數(shù)據(jù)集創(chuàng)造者自身根據(jù)自己對數(shù)據(jù)集的了解自行填充缺失值。這種填充方法對于數(shù)據(jù)集創(chuàng)造者來說無疑是最快最準(zhǔn)確的方法,但是若是數(shù)據(jù)規(guī)模大,缺失數(shù)據(jù)過多時(shí),不僅費(fèi)時(shí)而且容易出現(xiàn)錯(cuò)誤,并且對于其他使用者來說這種方法適用性不大,基本上可行性很低。

      (2)均值填充(Mean/Mode Completer)

      均值填充法就是將現(xiàn)有數(shù)據(jù)的對應(yīng)屬性均值填充給缺失值,但要注意數(shù)據(jù)變量需要服從或者近似服從近態(tài)分布,否則用該屬性下的眾數(shù)或中位數(shù)填充缺失值[41]。簡單來說就是先判斷缺失值的數(shù)據(jù)類型,然后根據(jù)數(shù)據(jù)類型采取不同的填充方法,將同屬性下其他對象的平均值填充給數(shù)值型的缺失值;或采用眾數(shù)原理將同屬性下取值次數(shù)最多的值填充給非數(shù)值型缺失值。還有一種相似的方法叫分層均值填補(bǔ),該方法是在填補(bǔ)之前對數(shù)據(jù)集進(jìn)行分層,使得相似數(shù)據(jù)聚集同一層,然后在每層內(nèi)采取均值填充。以上兩種均值填充方法,基本思想是相近的,都采用了均值填充,只不過再具體實(shí)現(xiàn)上有所差別。均值填充法是目前填充方法內(nèi)使用最多,同時(shí)基于這種方法延伸最多的方法。但均值填補(bǔ)的缺點(diǎn)是僅僅適合數(shù)據(jù)規(guī)模小,缺失數(shù)據(jù)少的簡單研究,不適應(yīng)較復(fù)雜的分析研究[42-43]。

      (3)EM填充(Expectation Maximization Imputation)

      20世紀(jì)70年代后期,Dempster等人最先提出了EM算法(最大期望算法)[15],該方法經(jīng)過兩個(gè)步驟交替進(jìn)行計(jì)算。

      第一步是計(jì)算期望(E),利用對隱藏變量的現(xiàn)有估計(jì)值,計(jì)算其最大似然估計(jì)值。

      第二步是最大化(M),最大化在E步上求得的最大似然值來計(jì)算參數(shù)的值。M 步上找到的參數(shù)估計(jì)值被用于下一個(gè)E步計(jì)算中,這個(gè)過程不斷交替進(jìn)行。這是當(dāng)時(shí)最有效處理缺失數(shù)據(jù)的方法。

      后來Ghahramani 等人對缺失數(shù)據(jù)進(jìn)行了研究分析,為了解決因數(shù)據(jù)稀疏而導(dǎo)致數(shù)據(jù)最近鄰尋找不準(zhǔn)確的問題,提出了基于期望最大化的缺失數(shù)據(jù)處理方法EMI(Expectation Maximization Imputation)[44-45]。EMI算法是一種求解參數(shù)最大似然估計(jì)的迭代算法[46-47]。與一些傳統(tǒng)的填充算法相比,EM算法在數(shù)據(jù)規(guī)模非常大時(shí),它的算法執(zhí)行非常簡單,通過自身穩(wěn)定的迭代過程找到全局最優(yōu)解,對缺失數(shù)據(jù)的填充精度還是比較高的。但該方法通過整個(gè)數(shù)據(jù)集來進(jìn)行填充,忽略了數(shù)據(jù)的局部相似性。同時(shí)EM 算法收斂的速度是無法自身控制的。缺失數(shù)據(jù)的多少?zèng)Q定了算法速度,數(shù)據(jù)缺失比例越大,收斂速度也會(huì)越慢。還有就是當(dāng)極大似然函數(shù)無法獲取時(shí),EMI算法也無法計(jì)算。

      Rahman 等人提出了一種稱為模糊期望最大化的缺失值插補(bǔ)的數(shù)據(jù)預(yù)處理新技術(shù)(Fuzzy Expectation Maximization Imputation,F(xiàn)EMI)[48]。該算法使用最相似的記錄對缺失值進(jìn)行有根據(jù)的猜測。在確定一組最相似的記錄時(shí),它考慮了聚類的模糊性質(zhì)。因此,它將所有記錄組(簇)視為相似的,并且具有一定程度的相似性。此外,在基于組估算缺失值的同時(shí),還考慮了屬于該組的所有記錄的模糊性質(zhì),提出了兩個(gè)級別的模糊性,將記錄的隸屬度與簇一起使用,以便估算缺失值。該算法相比同類型算法平均值更好,置信區(qū)間沒有重疊,對于低丟失率和高丟失率幾乎都表現(xiàn)良好,但是所提出技術(shù)的主要重點(diǎn)是對缺失值的估算,而不是對記錄進(jìn)行聚類,因此該方法不能非常精確地找到最佳簇,K值無法準(zhǔn)確給出,需要不斷實(shí)驗(yàn),且需要數(shù)據(jù)集有兩個(gè)或多個(gè)屬性來促進(jìn)FEMI 中使用的模糊EMI 技術(shù)所需的相關(guān)性計(jì)算。

      Ogbeide等人提出了一種基于自適應(yīng)“期望最大化”方法(Mode-Related Expectation Adaptive Maximization,MEAM)[49],用于缺少觀測值的多元數(shù)據(jù)集,將該新方法與其他填充方法進(jìn)行比較,顯示出一些改進(jìn),這種搜索丟失數(shù)據(jù)的方法是為了從可用數(shù)據(jù)中獲得更好的統(tǒng)計(jì)推斷。該方法在解決調(diào)查觀測缺失、無響應(yīng)或數(shù)據(jù)缺失等問題時(shí),產(chǎn)生的初始值最接近完整數(shù)據(jù)集的平均值可減少計(jì)算時(shí)間。同時(shí)MEAM方法屬于求解無響應(yīng)測量中觀測缺失的迭代方法,特別是當(dāng)丟失的數(shù)據(jù)由于某些條件永遠(yuǎn)無法恢復(fù)時(shí),這種數(shù)據(jù)清理方法具有減少統(tǒng)計(jì)估計(jì)誤差的優(yōu)點(diǎn)。但這個(gè)方法與EM 相比需要額外的步驟。這些附加過程包括從數(shù)據(jù)集分組和從數(shù)據(jù)集中選擇與加權(quán)平均值相關(guān)的模式。

      Razavi-Far等人提出了一種新的缺失數(shù)據(jù)填補(bǔ)方法(KNN and Expectation Maximization Imputation,KEMI),該方法基于K最近鄰算法用于預(yù)計(jì)算,而期望最大化算法用于后計(jì)算[50]?;舅枷霝槭紫仁褂肒NN會(huì)自動(dòng)找到K個(gè)最近鄰居,然后使用EMI 算法來估算缺失的分?jǐn)?shù)。它的優(yōu)點(diǎn)是可以根據(jù)最近的鄰居確定初始值,而不是整個(gè)數(shù)據(jù)集。其中基于KNN 的技術(shù)通?;谟涗浀南嗨菩哉业終個(gè)最近的鄰居,因此可以忽略特征之間的相關(guān)性。然后,使用EM尋找所選樣本之間的整體相似度,以估算缺失的分?jǐn)?shù)。KEMI方法不僅關(guān)注記錄的相似性,而且關(guān)注特征之間的相關(guān)性。KNN 的加入使得它沒有太多迭代來估算給定數(shù)據(jù)集的缺失分?jǐn)?shù)。這意味著KEMI不僅可以提高精度,而且可以提高時(shí)間效率。雖然該方法結(jié)合了KNNI和EMI的優(yōu)點(diǎn),但是它仍然是基于原始數(shù)據(jù)內(nèi)部進(jìn)行假設(shè),若數(shù)據(jù)缺失比例較大時(shí),K近鄰的選擇結(jié)果將存在偏差,影響初始值選擇。KEMI方法可以處理數(shù)值和分類特征,同時(shí)可以處理用于混合特征插補(bǔ)的異構(gòu)數(shù)據(jù)集。

      (4)熱卡填充(Hot Deck Imputation,或就近補(bǔ)齊)

      根據(jù)獲取插補(bǔ)值的方法來將熱卡插補(bǔ)分為最近距離熱卡插補(bǔ)、隨機(jī)抽樣熱卡插補(bǔ)、分層熱卡插補(bǔ)和序貫熱卡插補(bǔ)[51]。但基本思想都是在已有的完整數(shù)據(jù)中尋找與缺失對象最相似的對象來進(jìn)行填充,區(qū)別就是在尋找最相似對象的具體方法上有所不同。這個(gè)方法的缺點(diǎn)也很明顯就是如何定義客觀的相似性標(biāo)準(zhǔn)來適應(yīng)不同的數(shù)據(jù)集。

      熱卡插補(bǔ)法作為一種單值填充,不論是實(shí)踐還是研究都應(yīng)用廣泛。與均值填充和其他填充方法相比,對變量經(jīng)驗(yàn)分布的保持有不錯(cuò)的效果。但是該方法的填充值易受輔助變量所影響,排序變量影響獲得的序列,進(jìn)而填充值也會(huì)受影響[52]。

      (5)冷卡填充(Cold Deck Imputation)

      與熱卡填補(bǔ)相比冷卡填補(bǔ)法的填補(bǔ)值不是根據(jù)當(dāng)前的數(shù)據(jù)集來進(jìn)行填充的,而是通過歷史數(shù)據(jù)或者其他相關(guān)的調(diào)查數(shù)據(jù)來進(jìn)行匹配填充[53]。這種填充方法存在一定的估計(jì)偏差,并不能廣泛適用。

      (6)回歸填充(Regression Imputation)

      回歸填補(bǔ)基本上是通過完整數(shù)據(jù)集建立回歸方程,然后用回歸方程的預(yù)測值對缺失數(shù)據(jù)進(jìn)行填充。后來提出了效果更好的隨機(jī)回歸填補(bǔ),該方法在填補(bǔ)過程中給填補(bǔ)值添加了一個(gè)隨機(jī)項(xiàng),該隨機(jī)項(xiàng)用來表示預(yù)測值的誤差影響。隨機(jī)回歸填補(bǔ)法能最大程度地利用數(shù)據(jù)本身信息,使得預(yù)測變量的共線性問題得以解決[54]?;貧w方程的建立如下:

      設(shè)Y為缺失變量,Xj(j=1,2,…,n)是與Y存在線性回歸關(guān)系的完整變量,那么Y中第i個(gè)缺失值的估計(jì)值可以表示為:

      隨機(jī)回歸填補(bǔ)就是在公式(1)的基礎(chǔ)上增加一個(gè)隨機(jī)項(xiàng),以此來減少預(yù)測誤差,克服樣本分布扭曲的缺陷。此時(shí)公式如下:

      目前對回歸填充法的研究大都是在原始基礎(chǔ)上進(jìn)行相關(guān)改進(jìn)及應(yīng)用,鮮有突破性進(jìn)展。

      Bashir等人提出一種新算法,用于處理多元時(shí)間序列數(shù)據(jù)集中的缺失數(shù)據(jù)。這種新方法基于矢量自回歸模型,將期望最小化算法與預(yù)測誤差最小化方法結(jié)合在一起,該新算法稱為向量自回歸插補(bǔ)方法(Vector Auto Regressive Model-Imputation,VAR-IM)[55]?;舅枷胧窍葘G失的數(shù)據(jù)進(jìn)行初始猜測,然后進(jìn)行傳統(tǒng)的線性插值估計(jì),然后,通過選擇最佳滯后值p來估計(jì)VAR(p)模型,最后,通過交替使用EM和PEM算法估計(jì)VAR(p)模型的參數(shù),從而提高數(shù)據(jù)填補(bǔ)的精度。VAR-IM方法為傳統(tǒng)的多元時(shí)間序列缺失值估算提供了一種有效的替代方法。通過對比顯示隨著丟失數(shù)據(jù)量百分比的增加,性能下降的幅度較小。盡管有所改進(jìn),該方法仍存在局限性,首先這項(xiàng)研究僅考慮了完全隨機(jī)缺失數(shù)據(jù)的情況,也就是說要求數(shù)據(jù)缺失的原因與觀察值和缺失值均無關(guān)。其次,VAR-IM方法的有效性要求時(shí)間序列應(yīng)該是固定的。如果丟失數(shù)據(jù)的百分比很低(例如少于10%),則VAR-IM方法不會(huì)優(yōu)先使用。

      Stein 等人提出了一種更復(fù)雜的方法,即增量屬性回歸插補(bǔ)(Incremental Attribute Regression Imputation,IARI)[56],它對所有具有缺失值的屬性進(jìn)行優(yōu)先級排序,然后使用所有沒有缺失值或存在缺失值的屬性值逐個(gè)迭代地“修復(fù)”每個(gè)屬性。已經(jīng)修復(fù),作為預(yù)測指標(biāo)。此外,目標(biāo)變量還可以在修復(fù)過程中用作預(yù)測變量。修復(fù)屬性是通過構(gòu)建回歸模型并將其用于估計(jì)缺失值來實(shí)現(xiàn)的。這里使用隨機(jī)森林算法用于對數(shù)值和分類變量進(jìn)行修復(fù)建模。該算法的主要優(yōu)勢是在修復(fù)的訓(xùn)練集上訓(xùn)練的最終模型具有更高的準(zhǔn)確性,并且可以更準(zhǔn)確地估計(jì)缺失值。但I(xiàn)ARI 算法在計(jì)算上非常苛刻,它要求建立的隨機(jī)森林與應(yīng)修復(fù)的屬性數(shù)量一樣多,且算法結(jié)果受屬性重要度排列以及缺失屬性比例影響。通常來說IARI方法在MAR缺失類型中表現(xiàn)較好。

      Dzulkalnine 等人提出了一種改進(jìn)的模糊主成分分析-支持向量機(jī)-模糊c均值(Fuzzy Principal Component Analysis-Support Vector Machine-FuzzyC-Means,F(xiàn)PCASVM-FCM)的混合填充方法[57]。該方法使用的特征選擇方法是模糊主成分分析(FPCA),它在考慮異常值的情況下識別數(shù)據(jù)集中的相關(guān)特征。然后,使用支持向量機(jī)對所選特征進(jìn)行分類并刪除不相關(guān)的特征。識別出數(shù)據(jù)集中的重要特征后,然后通過模糊c均值估算缺失的數(shù)據(jù)。這種方法一定程度上提高了分類以及填充的準(zhǔn)確性,減少了時(shí)間復(fù)雜度。但是如果數(shù)據(jù)集中存在過多的異常值會(huì)降低填補(bǔ)方法的有效性,因?yàn)閯h除過多的異常值,會(huì)導(dǎo)致信息不全,影響缺失數(shù)據(jù)的計(jì)算。因此它多適用于MAR類型的缺失值處理。

      總的來說回歸填補(bǔ)與均值填補(bǔ)相比,效果還是比較好的。但是回歸填補(bǔ)和均值填補(bǔ)都沒有考慮缺失數(shù)據(jù)的不確定性,主觀增大了變量間的關(guān)系[58]。如果樣本量過大,回歸方程難以準(zhǔn)確定義。

      (7)聚類填充(Clustering Imputation)

      簡單的常值填補(bǔ)沒有考慮缺失值的偏差,而且容易改變原樣本的分布情況。而其他的模型填補(bǔ)需要滿足一個(gè)模型對應(yīng)一個(gè)缺失屬性,當(dāng)缺失屬性增多時(shí)效率降低。聚類填充是目前研究使用最廣泛的填充方法,該方法先通過聚類的方式將數(shù)據(jù)集分類,然后在每一類里進(jìn)行相似填充。以經(jīng)典的基于K-means聚類填充算法為例,先將原數(shù)據(jù)集劃分成完整數(shù)據(jù)集和缺失數(shù)據(jù)集,在完整數(shù)據(jù)集上進(jìn)行聚類,分成K個(gè)簇,計(jì)算缺失數(shù)據(jù)每個(gè)對象與K個(gè)簇中心的相似度,把最相似的簇的屬性均值填充給該缺失對象。

      近幾年來各種聚類填充算法開始涌現(xiàn),這些聚類填補(bǔ)方法大致可以分成兩種。

      第一種方法是先聚類缺失數(shù)據(jù)集中的完整數(shù)據(jù)來進(jìn)行分類,然后通過相似度度量將缺失數(shù)據(jù)對象劃分到最相似的簇中,并通過簇內(nèi)信息進(jìn)行填補(bǔ)。這類方法的缺點(diǎn)是只考慮缺失數(shù)據(jù)的局部情況,忽略了整體分布。

      比如Raja等人提出了基于粗糙K均值的缺失值填補(bǔ)(Rough K-Means Imputation,RKMI),通過將一個(gè)對象放置到一個(gè)以上的群集中來解決脆性問題[59]?;诖植贙均值插補(bǔ)算法,使用下限和上限對象信息代替簇質(zhì)心,將具有較低值的對象以較低的近似平均值表示,然后使用有關(guān)較低的近似值的信息來估算屬性值。如果非參考對象存在于較高近似值中,則有關(guān)較高近似對象的信息將用于估算缺失值。如果數(shù)據(jù)集具有較高的方差,則基于粗糙K均值參數(shù)的插補(bǔ)可為插補(bǔ)值提供最佳精度。該方法與基于K均值、模糊C均值的填補(bǔ)方法進(jìn)行了比較,整體性能優(yōu)于現(xiàn)有方法。該方法雖適用于大型數(shù)據(jù)集,但中間的K值選擇不確定,以及時(shí)間復(fù)雜度高仍是很大的問題。

      對不完整數(shù)據(jù)進(jìn)行分類的最流行的方法之一是使用填補(bǔ)以合理的值代替缺失的值。但是,當(dāng)將分類器應(yīng)用于新的未知實(shí)例時(shí),強(qiáng)大的填補(bǔ)方法會(huì)占用大量計(jì)算資源。Tran等人提出了整合填補(bǔ)方法,即基于聚類和特征選擇的不完整數(shù)據(jù)填補(bǔ)的新方法[60],通過聚類和特征選擇的分類效果來提高效率而又不損失填充準(zhǔn)確性。其中聚類用于減少填充使用的實(shí)例數(shù)量。特征選擇用于刪除訓(xùn)練數(shù)據(jù)的冗余和不相關(guān)特征,從而大大降低了估算成本,減少了估算時(shí)間,大大地提高了效率。由于特征選擇會(huì)刪除不相關(guān)特征,所以所提出的方法適用于缺失率不高的大型數(shù)據(jù)集,如果缺失率過高,聚類精度和特征選擇受到影響,那么填充效果也會(huì)變差。

      Shi等人提出了一種針對不完整數(shù)據(jù)的改進(jìn)均值填補(bǔ)聚類算法(K-Means-Improved Mean Imputation,KMIMI)[61],該方法先用無缺失值對象進(jìn)行聚類,并使用每個(gè)聚類的均值屬性值分別填充相應(yīng)的缺失值。采用簇形質(zhì)心的攝動(dòng)分析方法,求出最優(yōu)的填充值。這種方法雖然在一定程度填充準(zhǔn)確性有所提升,但也存在局限性,如它要求每個(gè)屬性在不完整數(shù)據(jù)集中至少存在一個(gè)值。也就是說,一個(gè)對象不能缺少所有屬性值,并且所有對象也不能缺少相同屬性。在大多數(shù)情況下,數(shù)據(jù)集中的缺失率越高,聚類結(jié)果的準(zhǔn)確性越低,填充性能也會(huì)下降。因此這種方法要求缺失率范圍在5%至30%之間。

      第二種方法是先對缺失數(shù)據(jù)進(jìn)行初始化處理或者不處理,如定義缺失數(shù)據(jù)集的相似度度量,然后根據(jù)相似關(guān)系對整個(gè)數(shù)據(jù)集進(jìn)行聚類,最后進(jìn)行簇內(nèi)填補(bǔ)。這類方法沒有考慮缺失信息帶來的誤差,容易影響聚類結(jié)果,使得聚類過程復(fù)雜。

      Nikfalazar 等人提出一種的新混合填補(bǔ)方法(Decision Trees and Fuzzy Clustering with Iterative Learning,DIFC)[62],以使用混合填補(bǔ)方法來處理MCAR類型的缺失數(shù)據(jù)。DIFC將決策樹和模糊聚類與迭代學(xué)習(xí)方法結(jié)合在一起,其中模糊聚類迭代以從記錄中學(xué)習(xí)新的估計(jì)值,這些記錄具有由決策樹確定的相似屬性值。換句話說,所提出的填充方法結(jié)合了有監(jiān)督的機(jī)器學(xué)習(xí)方法(即決策樹)和無監(jiān)督的機(jī)器學(xué)習(xí)方法(即模糊聚類),以迭代的方式來估算缺失值。DIFC填補(bǔ)方法實(shí)現(xiàn)了雙重分割方法,找到最佳記錄來填補(bǔ)缺失值。另外,迭代學(xué)習(xí)方法提高了估算值的準(zhǔn)確性。在每次迭代期間,DIFC使用上一次迭代中的估算值來重新聚類并更新估算值。DIFC 方法的性能與丟失率沒有顯著相關(guān),相反缺失模式是影響DIFC 效率的重要因素。雖然DIFC 的性能在各種丟失率下均很穩(wěn)定,但是該方法的計(jì)算成本比較高,且適用于缺失值分布均勻的數(shù)據(jù)集。

      冷泳林等人提出基于AP聚類的不完整數(shù)據(jù)填充算法(Affinity Propagation Imputation,API)[63],該方法改變了傳統(tǒng)的先對完整數(shù)據(jù)聚類的做法,重新定義缺失數(shù)據(jù)對象間的相似度度量方式,從而直接對缺失數(shù)據(jù)聚類,最后用同一類對象的屬性值填充缺失對象。該方法有效地避免了不同類對象對缺失值的影響,一定程度上提高了填充精度,且對缺失率比較大的數(shù)據(jù)容忍性比較好,但是它的相似度度量方式選取影響聚類效果,從而影響填充,比較適用屬性值連續(xù)的數(shù)據(jù)集。

      對于缺失數(shù)據(jù)集由于大量樣本存在缺失值,單一聚類算法無法獲得良好的聚類結(jié)果,從而填充不準(zhǔn)確。為了克服這個(gè)問題,Wang 等人提出一種基于集成聚類算法的缺失數(shù)據(jù)填充[64]。在提出的算法中,先用無缺失值對象進(jìn)行聚類,并使用每個(gè)聚類的均值屬性值分別填充缺失屬性的值。然后應(yīng)用聚類質(zhì)心的擾動(dòng)分析來尋找最優(yōu)填補(bǔ)。該方法使用集成聚類技術(shù)將多個(gè)聚類結(jié)果組合成一個(gè)可能更好的結(jié)果,雖然提高了填補(bǔ)精度,但是選擇不同的聚類算法會(huì)導(dǎo)致具有不同的參數(shù)初始化,進(jìn)而導(dǎo)致不同的聚類填充結(jié)果,因此選擇聚類算法需要根據(jù)數(shù)據(jù)集情況決定。受到聚類方法的影響該填充方法適用于低丟失率在5%至30%間的大型數(shù)據(jù)集。

      各領(lǐng)域?qū)W者針對不同的數(shù)據(jù)集使用不同的聚類方法和填充方式,效果也各不相同,難以統(tǒng)一標(biāo)準(zhǔn)來比較。這類方法無論在哪種階段聚類,都會(huì)因?yàn)閿?shù)據(jù)缺失影響到聚類精度,比較適合處理高維數(shù)據(jù)集。

      以上幾種方法都屬于單值填補(bǔ),這類方法填充值是唯一的,基本上是主觀推斷填充,操作簡單,但沒有體現(xiàn)填充值的不確定性,一定程度上改變了原數(shù)據(jù)集的分布情況,一旦效果不好就會(huì)導(dǎo)致研究結(jié)果有偏差。

      (8)多重填補(bǔ)(Multiple Imputation,MI)

      1978 年Rubin 等人提出多重填補(bǔ)法(Multiple Imputation,MI)[16],并在20世紀(jì)90年代初進(jìn)行了多領(lǐng)域的應(yīng)用研究[65-66],后經(jīng)過Schafer[67]和Meng[68]等人的后續(xù)研究。已經(jīng)逐漸形成一個(gè)完整的體系。多重填補(bǔ)方法的基本思想是為缺失值推斷出多個(gè)估計(jì)填補(bǔ)值,并產(chǎn)生多個(gè)完整數(shù)據(jù)集進(jìn)行綜合分析,確定最終的估計(jì)填充值,這樣做考慮了缺失值的不確定性。該方法通過多個(gè)估計(jì)值來模擬缺失值的實(shí)際后驗(yàn)分布[69]。

      多重填補(bǔ)認(rèn)為待填補(bǔ)的值應(yīng)是隨機(jī)的,通過已有的值進(jìn)行預(yù)測,估計(jì)出待填補(bǔ)的值,然后加上不同的噪聲產(chǎn)生多組填補(bǔ)值,最后選取符合依據(jù)的填補(bǔ)值[70-71]。多重填充方法的三個(gè)步驟如下:

      ①首先為每個(gè)缺失值估計(jì)一組可能的填補(bǔ)值,用來反映缺失值的不確定性,并構(gòu)造多個(gè)完整數(shù)據(jù)集合。

      ②采用相同的統(tǒng)計(jì)方法對這些完整數(shù)據(jù)集進(jìn)行計(jì)算分析。

      ③對來自各個(gè)完整數(shù)據(jù)集的結(jié)果進(jìn)行綜合分析,通過評分函數(shù)選擇合適的填補(bǔ)值。

      算法流程如圖1所示。

      圖1 多重填補(bǔ)算法流程

      在原先填補(bǔ)思想的基礎(chǔ)上,許多學(xué)者進(jìn)一步提出來許多相關(guān)改進(jìn)、應(yīng)用、算法比較。

      如大多多重填補(bǔ)的統(tǒng)計(jì)文獻(xiàn)都集中在無界的連續(xù)變量上,Geraci等人提出了一種靈活的基于分位數(shù)的估算模型,該模型適用于在單界或雙界區(qū)間上定義的分布[72]。通過應(yīng)用一系列具有單個(gè)或雙重邊界范圍的變換,可以確保正確支持估算值。仿真研究表明,該方法能夠處理偏斜、雙峰和異方差性,并且與競爭方法(例如對數(shù)正態(tài)填補(bǔ)和預(yù)測均值匹配)相比具有更好的性能。盡管當(dāng)有界變量受MAR 影響時(shí),它仍然比完整案例分析更有效并可用作預(yù)測變量。但是該方法具有隨機(jī)有效性,且當(dāng)樣本量較小時(shí),基于分位數(shù)的估算與其他估算方法相比并不會(huì)顯視出自身的優(yōu)勢,且計(jì)算要求比較高,尤其是從數(shù)據(jù)估計(jì)變換參數(shù)時(shí)。

      Quartagno等人提出基于選擇模型的多級填補(bǔ)方法(Full Conditional Specification Multiple Imputation,F(xiàn)CS-MI),該方法將在多重填補(bǔ)的全條件規(guī)范框架內(nèi)使用[73]。具體來說,采用審查的雙變量概率模型來描述非隨機(jī)丟失的二進(jìn)制變量。該模型的第一個(gè)方程式定義了缺失數(shù)據(jù)機(jī)制的回歸模型。第二個(gè)方程式指定要估算的變量的回歸模型。二進(jìn)制數(shù)據(jù)的非隨機(jī)選擇是通過兩個(gè)回歸模型的誤差項(xiàng)之間的相關(guān)性映射的。分層數(shù)據(jù)結(jié)構(gòu)由兩個(gè)方程式中的隨機(jī)截距建模一種新穎且獨(dú)特的方法來處理假定為非MAR的不完整二進(jìn)制多級數(shù)據(jù)。單變量插補(bǔ)方法可以輕松地合并到FCS 框架中以處理多變量缺失。但是該方法需要保持簇的數(shù)量和簇的大小不變。因?yàn)閮煞N量的變化都可能影響到方法的性能。

      Gondara等人提出了一種基于超完全深度去噪自動(dòng)編碼器的多重填補(bǔ)模型(Multiple Imputation Using Denoising Autoencoders,MIDA)。提出的模型能夠處理不同的數(shù)據(jù)類型,缺失模式,缺失比例和分布[74]。由于去噪自動(dòng)編碼器在初始化時(shí)需要完整的數(shù)據(jù),因此該方法在連續(xù)變量的情況下最初使用各自的列平均值,而在分類變量的情況下使用最頻繁的屬性值作為初始化時(shí)缺失數(shù)據(jù)的估計(jì)值。提出的模型在MCAR和MNAR的缺失類型下顯著優(yōu)于當(dāng)前的最新方法。且該方法適用于數(shù)據(jù)集很大且維度較高。但是該方法要求有足夠的完整數(shù)據(jù)來訓(xùn)練模型,因此缺失比例不宜過大,計(jì)算成本較高。

      與單值填補(bǔ)相比,多重填補(bǔ)方法保留了完全數(shù)據(jù)分析法和結(jié)合數(shù)據(jù)收集者知識的能力的優(yōu)點(diǎn)。并且多重填補(bǔ)方法還表現(xiàn)出另外三個(gè)特別重要的優(yōu)點(diǎn):一是采取隨機(jī)抽取的填補(bǔ)方式,使得估計(jì)更加有效。二是隨機(jī)抽取下得出的有效推斷是采用直接方式并結(jié)合了完全數(shù)據(jù)推斷的,這樣做能反映當(dāng)前模型下因缺失值而產(chǎn)生的附加變異。三是在隨機(jī)抽取填補(bǔ)下使用完全數(shù)據(jù)方法,能夠?qū)Σ煌P拖聼o回應(yīng)的推斷敏感性進(jìn)行研究[75-76]。

      多重填補(bǔ)也存在一些缺點(diǎn):①估計(jì)多個(gè)填補(bǔ)值比單值填補(bǔ)需要進(jìn)行更多工作;②存儲(chǔ)多重填補(bǔ)數(shù)據(jù)集的空間需求更大;③多重填補(bǔ)數(shù)據(jù)集的分析工作花費(fèi)精力更多。

      3.4 不處理

      與前兩種方法對原數(shù)據(jù)集進(jìn)行缺失填充相比,這種方法直接在原數(shù)據(jù)上直接進(jìn)行學(xué)習(xí)[77-78]。最具代表性的方法有貝葉斯網(wǎng)絡(luò)、人工神經(jīng)網(wǎng)絡(luò)、粗糙集方法等。

      貝葉斯網(wǎng)絡(luò)是用來表示變量間連接概率的圖形模式[79]。貝葉斯網(wǎng)絡(luò)需要對當(dāng)下領(lǐng)域知識熟悉,至少要清楚變量間的依賴關(guān)系。因此這種方法對使用者要求比較高。

      人工神經(jīng)網(wǎng)絡(luò)通過徑向基函數(shù)等方法能有效解決缺失值問題。但由于神經(jīng)網(wǎng)絡(luò)模型知識學(xué)習(xí)過程復(fù)雜難懂,所以應(yīng)用起來還不盡如人意。所以人工神經(jīng)網(wǎng)絡(luò)在缺失值上還有待進(jìn)一步研究。

      粗糙集理論是利用實(shí)體間的不可分辨性來描述對象[80]。傳統(tǒng)的粗糙集理論主要是針對完整數(shù)據(jù)集的。隨著粗糙集擴(kuò)展模型提出[81-82],粗糙集理論開始能有效地應(yīng)對數(shù)據(jù)缺失問題,并從缺失數(shù)據(jù)集上直接進(jìn)行學(xué)習(xí)。

      4 缺失數(shù)據(jù)處理方法比較

      本文分別從前提、優(yōu)缺點(diǎn)、適用范圍對常見的幾類缺失值處理方法以及近三年相關(guān)改進(jìn)方法進(jìn)行了比較。其中單值填充法的優(yōu)點(diǎn)是操作簡單方便,適合缺失比例不大的數(shù)據(jù)集。如果缺失比例大于5%,并且缺失類型為隨機(jī)缺失和非隨機(jī)缺失,則可以使用多重填補(bǔ)法,雖然工作量比較大,但應(yīng)對大量缺失值效果更好。如果缺失比例小于5%,缺失類型是完全隨機(jī)缺失,則可以考慮刪除法來解決,這樣既不影響數(shù)據(jù)信息量,效率也高。若數(shù)據(jù)類型太過復(fù)雜,可以考慮使用聚類填補(bǔ)法,通過聚類減少工作量。如表1詳細(xì)列出了各類缺失數(shù)據(jù)現(xiàn)有處理方法的對比。表2 列出了近三年各類代表性算法的對比情況。

      表1 缺失值處理方法比較

      表2 改進(jìn)的缺失值處理方法比較

      從表1 可以看出不同的缺失數(shù)據(jù)處理方法有不同的適用范圍,因此在處理缺失數(shù)據(jù)時(shí),要根據(jù)缺失數(shù)據(jù)的自身情況,選擇最佳的處理方法以求達(dá)到最好的效果。

      從表1 可以看出不同類型的缺失數(shù)據(jù)處理方法有不同的適用范圍,因此在處理缺失數(shù)據(jù)時(shí),要根據(jù)缺失數(shù)據(jù)的自身情況,選擇最佳的處理方法以求達(dá)到最好的效果。表2對文中列舉的近三年改進(jìn)方法從優(yōu)缺點(diǎn)、適用范圍作了進(jìn)一步對比,更直觀地了解到目前各領(lǐng)域缺失數(shù)據(jù)處理方法的多樣化。

      5 缺失數(shù)據(jù)填充效果的評價(jià)

      缺失數(shù)據(jù)填充效果的評價(jià)通常在完整數(shù)據(jù)集上進(jìn)行模擬實(shí)驗(yàn)。首先以完整數(shù)據(jù)集為基礎(chǔ),制造幾種不同缺失率的缺失數(shù)據(jù)集。然后用不同的填充方法對缺失數(shù)據(jù)集進(jìn)行填充。最后將原始的完整數(shù)據(jù)集與填充后的數(shù)據(jù)集進(jìn)行對比,通過常用的評價(jià)指標(biāo)對數(shù)據(jù)填充的效果進(jìn)行評價(jià)。本文從參數(shù)角度和擬合角度兩個(gè)指標(biāo)進(jìn)行介紹[83]。

      參數(shù)角度用兩種標(biāo)準(zhǔn)衡量填充精度,一是MAD 平均絕對離差,該標(biāo)準(zhǔn)用于衡量真實(shí)值和填充值兩者之間的匹配程度,公式如式(3)所示:

      第二個(gè)標(biāo)準(zhǔn)是RMSE均方根誤差,衡量填充值和真實(shí)值間平均誤差,公式如式(4)所示:

      其中,n為缺失數(shù)值數(shù)目,ri為第i缺失值的真實(shí)值,ei第i個(gè)缺失值的填充值,i=1,2,…,n,兩個(gè)標(biāo)準(zhǔn)的含義,MAD的值越小,表示真實(shí)值和填充值之間的離差越小,兩者之間的匹配程度越高,那么填充精度就越高。同理RMSE 的值越小,填充值和真實(shí)值間平均誤差越小,填充精度就會(huì)越高[84-85]。擬合角度通常是建立坐標(biāo)軸,用折線圖的形式將真實(shí)值和填充值的分布情況做直觀的比較。折線圖不僅可以反映出真實(shí)值和填充值的變化趨勢,而且可以從中看出二者的擬合情況對填充效果做出判斷。

      6 缺失數(shù)據(jù)處理方法的總結(jié)與展望

      目前對數(shù)據(jù)缺失問題的討論研究已經(jīng)逐步成熟,對缺失數(shù)據(jù)的處理涉及到各個(gè)研究領(lǐng)域,呈現(xiàn)多元化發(fā)展。本文梳理了缺失數(shù)據(jù)的國內(nèi)外研究背景、原因以及缺失類型。并介紹了各類處理方法,其中詳細(xì)闡述了填充方法,對經(jīng)典的填充方法進(jìn)行了比較匯總,然后對每類方法的最新改進(jìn)方法進(jìn)行了匯總比較,同時(shí)從參數(shù)角度與擬合角度介紹了數(shù)據(jù)填充效果的評價(jià)常用評價(jià)指標(biāo)。最后作出如下展望:

      隨著網(wǎng)絡(luò)科技的發(fā)展,各領(lǐng)域的數(shù)據(jù)采集能力得到提升,數(shù)據(jù)表現(xiàn)出海量式、高維度性、復(fù)雜性、動(dòng)態(tài)性等特征。為了充分發(fā)揮各領(lǐng)域數(shù)據(jù)的價(jià)值,缺失數(shù)據(jù)的處理能力變得至關(guān)重要。面對大規(guī)模、高維度復(fù)雜的缺失數(shù)據(jù),國內(nèi)外學(xué)者對現(xiàn)有方法提出許多改進(jìn)方法,但也存在許多問題。

      目前的缺失值填補(bǔ)算法主要是針對MAR缺失機(jī)制下的數(shù)據(jù)集,使用相關(guān)的屬性值來估計(jì)缺失數(shù)據(jù)的值,但是這些方法都有其自身的缺點(diǎn),例如線性回歸算法基于統(tǒng)計(jì)概率和最大期望算法,這些算法必須對數(shù)據(jù)集中的數(shù)據(jù)分布有足夠的了解。但是對大多數(shù)數(shù)據(jù)集的理解是有限的?;谪惾~斯網(wǎng)絡(luò)和k鄰域算法等數(shù)據(jù)挖掘類的填充方法也有局限性,使用貝葉斯網(wǎng)絡(luò)應(yīng)具有一定的領(lǐng)域知識和數(shù)據(jù)知識,有必要清楚各種屬性之間的依存關(guān)系,且直接使用數(shù)據(jù)集訓(xùn)練貝葉斯網(wǎng)絡(luò)非常復(fù)雜。而面對缺失率很高的情況,KNN 相關(guān)填充算法所使用的K值并不是真正意義上的K值,影響了后續(xù)的填充準(zhǔn)確性。

      多重插補(bǔ)是目前處理缺失數(shù)據(jù)的高級方法。標(biāo)準(zhǔn)填補(bǔ)過程建立在MAR 缺失機(jī)制的假設(shè)基礎(chǔ)上,但是該方法可以處理MCAR 和NMAR 類型的數(shù)據(jù)集,盡管在NMAR缺失機(jī)制下填補(bǔ)要復(fù)雜得多,多重填補(bǔ)也可根據(jù)來自可用數(shù)據(jù)的信息提供關(guān)聯(lián)的無偏和有效估計(jì),即得出的估計(jì)類似于從完整數(shù)據(jù)計(jì)算得出的估計(jì)。但該方法不僅會(huì)影響缺失數(shù)據(jù)的變量系數(shù)估計(jì),還會(huì)影響其他完整數(shù)據(jù)的變量估計(jì)。為了使填補(bǔ)效果更加接近實(shí)際情況,還可以在數(shù)據(jù)的來源、變化以及影響因素等多個(gè)方面努力,通過提前準(zhǔn)備工作盡可能地學(xué)習(xí)其樣本特征,從而有針對性地填補(bǔ)。此外使用機(jī)器學(xué)習(xí)算法需要大量時(shí)間進(jìn)行填補(bǔ)和獲取總數(shù)據(jù)集。在時(shí)間要求很高的應(yīng)用領(lǐng)域(例如醫(yī)學(xué)、金融或制造業(yè))中,可能會(huì)感覺到長時(shí)間計(jì)算所帶來的影響。因此在未來可以利用動(dòng)態(tài)編程來加快計(jì)算時(shí)間。隨著數(shù)據(jù)共享時(shí)代的到來用于混合特征填補(bǔ)的異構(gòu)數(shù)據(jù)集,似乎是未來研究的一個(gè)有價(jià)值的方向。

      猜你喜歡
      均值聚類變量
      抓住不變量解題
      也談分離變量
      基于DBSACN聚類算法的XML文檔聚類
      電子測試(2017年15期)2017-12-18 07:19:27
      均值不等式失效時(shí)的解決方法
      均值與方差在生活中的應(yīng)用
      基于改進(jìn)的遺傳算法的模糊聚類算法
      SL(3,3n)和SU(3,3n)的第一Cartan不變量
      關(guān)于均值有界變差函數(shù)的重要不等式
      一種層次初始的聚類個(gè)數(shù)自適應(yīng)的聚類方法研究
      對偶均值積分的Marcus-Lopes不等式
      宁国市| 博湖县| 西藏| 五台县| 祁东县| 彭泽县| 获嘉县| 冀州市| 江门市| 乌海市| 襄垣县| 凉山| 邓州市| 济阳县| 皋兰县| 习水县| 靖边县| 仲巴县| 昂仁县| 榆社县| 马关县| 加查县| 锦屏县| 新乐市| 门头沟区| 郯城县| 天门市| 肥乡县| 随州市| 东乌珠穆沁旗| 同心县| 城市| 恩施市| 尚志市| 濮阳市| 十堰市| 泗阳县| 巧家县| 乐清市| 伊宁县| 高密市|