• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      心理學(xué)研究中缺失數(shù)據(jù)的處理方法比較

      2020-05-23 04:26:42沈洪炎
      關(guān)鍵詞:替代法期望值最大化

      沈洪炎

      (廣州大學(xué) 學(xué)生處心理健康教育與咨詢中心,廣東 廣州 510006)

      一、研究背景

      缺失值是指在數(shù)據(jù)采集與整理過程中丟失的內(nèi)容。心理學(xué)的研究對(duì)象是人,以人作為被試,不可避免地存在著態(tài)度、情緒、心理狀態(tài)等主試無法控制的因素,因此,數(shù)據(jù)的收集與整理比其他研究更加困難,得到的觀測(cè)數(shù)據(jù)也普遍存在不完整的情況[1-2]。因此,從統(tǒng)計(jì)和測(cè)量的角度探討合適的缺失值處理方法尤為重要。但是,在心理學(xué)研究領(lǐng)域,缺失值的問題并未得到足夠的重視,對(duì)處理缺失值的方法的研究有限,而且缺乏系統(tǒng)性和針對(duì)性。

      SPSS(Statistical Package for the Social Science)軟件是心理研究常用的統(tǒng)計(jì)軟件,其常用的缺失值處理方法有整列刪除、成對(duì)刪除、均值替換法、期望值最大化法、回歸插補(bǔ)法。其中,整列刪除和成對(duì)刪除可統(tǒng)稱為刪除法。

      近幾十年來,研究者提出了許多統(tǒng)計(jì)方法用于處理數(shù)據(jù)缺失的問題,在不同領(lǐng)域得到了廣泛應(yīng)用,并且有大量文獻(xiàn)對(duì)其進(jìn)行了探討及效果優(yōu)劣的比較,結(jié)論不盡一致。鄧建新等人[3]認(rèn)為,刪除法在低缺失率(小于5%)的情況下表現(xiàn)較好;對(duì)于期望值最大化法和回歸插值法,殷娟娟[4]、魏娜等人[5]認(rèn)為缺失率是決定其效果優(yōu)劣的重要影響因素,而且期望值最大化法的處理效果更好。朱高培等人[6]認(rèn)為在缺失比例較低時(shí)(10%~20%),成對(duì)刪除法和回歸插補(bǔ)法的效果較好且易于實(shí)現(xiàn),但成對(duì)刪除法會(huì)降低統(tǒng)計(jì)效率,所以建議選擇回歸插補(bǔ)法。

      綜上所述,每一種方法都有其適用條件,因此有必要了解其在不同條件下的數(shù)據(jù)處理效果,以便使其能用到實(shí)處。

      二、模擬研究

      本研究通過模特卡羅模擬方法構(gòu)造隨機(jī)缺失數(shù)據(jù)(MCAR),并采用5種缺失值處理方法進(jìn)行刪除或填充,然后借助回歸模型來計(jì)算處理后的數(shù)據(jù)和原始數(shù)據(jù)的參數(shù)估計(jì)偏差大小,并以絕對(duì)值偏差A(yù)BSE作為衡量缺失值處理方法好壞的指標(biāo)。本研究使用的軟件包括R2.9.1、SPSS 15.0和Excel 2003。

      (一)模型選用

      通過R2.9.1軟件編程,模擬一個(gè)完整的數(shù)據(jù)集,該數(shù)據(jù)集中包含的樣本容量為N=200,1個(gè)因變量Y,3個(gè)自變量,即X1、X2和X3,這3個(gè)自變量均為正態(tài)連續(xù)變量,利用該數(shù)據(jù)集建立多元線性回歸模型:

      (二)構(gòu)造缺失值

      將各變量合并為矩陣,并按照一定的缺失率(2%、3%、5%、10%、20%)隨機(jī)地將矩陣中的數(shù)值指定為缺失值。

      (三)缺失處理

      采用SPSS軟件,分別用各種方法(整列刪除、成對(duì)刪除、均值替換法、期望值最大化法、回歸插補(bǔ)法)對(duì)每一種缺失率下的缺失數(shù)據(jù)集進(jìn)行處理,并將處理后的數(shù)據(jù)和原始數(shù)據(jù)分別帶入回歸模型中進(jìn)行參數(shù)估計(jì),比較兩組回歸系數(shù)的差異。

      (四)選取衡量指標(biāo)

      重復(fù)實(shí)驗(yàn)50次,以回歸系數(shù)的絕對(duì)值偏差A(yù)BSE作為衡量缺失值處理效果的指標(biāo)。此值越低,則處理后的數(shù)據(jù)集與原始的完整數(shù)據(jù)集越接近,即對(duì)應(yīng)的缺失值處理方法效果越好;此值越高,則處理效果越差。回歸系數(shù)的絕對(duì)值偏差A(yù)BSE計(jì)算公式為:

      (五)模擬研究結(jié)果

      圖1為本次模擬的結(jié)果。

      圖1 模擬結(jié)果的柱形圖

      由圖1可知,隨著缺失率的增大,各方法的絕對(duì)值偏差A(yù)BSE值都在上升,這說明數(shù)據(jù)缺失越多,可利用的數(shù)據(jù)信息就越少,無論使用哪一種方法,還原完整的原始數(shù)據(jù)都會(huì)越來越困難,處理效果也會(huì)越來越差。同時(shí),隨著缺失率的逐步遞增,各方法的效果差異也越發(fā)明顯。

      在各種缺失率下,均值替代法的絕對(duì)值偏差A(yù)BSE值總是最高,而且當(dāng)缺失率大于2%時(shí),均值替代法的效果明顯差于其他方法。但不幸的是,在心理學(xué)問卷和實(shí)驗(yàn)數(shù)據(jù)處理過程中,絕大多數(shù)研究者都使用這種方法來填充缺失值。此外,整列刪除和期望值最大化法的絕對(duì)值偏差A(yù)BSE值較低,說明此兩種方法的處理結(jié)果與完整數(shù)據(jù)集比較接近。

      三、實(shí)例驗(yàn)證

      引用何莉雯[7]的數(shù)據(jù),共得到8 729個(gè)完整的觀測(cè)樣本,分別以2%、3%、5%、10%、20%的缺失率構(gòu)造缺失數(shù)據(jù)集,再用本研究中的5種方法進(jìn)行缺失值處理,結(jié)果如圖2所示。由圖1制作的模擬結(jié)果的折線圖如圖3所示。

      通過實(shí)例結(jié)果與模擬結(jié)果進(jìn)行對(duì)比可以發(fā)現(xiàn):ABSE值總是隨著缺失率的增大而升高,各方法的效果差異隨著缺失值的增大越來越明顯;均值替代法的ABSE值在各種缺失率下總是最高的,即該方法填充效果最不理想;整列刪除法和期望值最大化法效果通常較好,在樣本量充足的條件下,可適當(dāng)使用;回歸插值法和成對(duì)刪除法效果居中,優(yōu)于均值替代法,劣于刪除處理??傮w上,實(shí)例驗(yàn)證結(jié)果與模擬結(jié)果是一致的。

      圖2 實(shí)例驗(yàn)證結(jié)果的折線圖

      圖3 模擬結(jié)果的折線圖

      四、討論和建議

      (一)討論

      對(duì)比本文和前人研究的結(jié)果可以發(fā)現(xiàn),刪除法在低缺失率(小于10%)的情況下應(yīng)用效果最好,這與國(guó)內(nèi)外大多數(shù)研究結(jié)論一致。當(dāng)數(shù)據(jù)樣本缺失率較?。ú怀^10%)且缺失值呈現(xiàn)隨機(jī)分布時(shí),整列刪除方法的處理效果比較好;但是,當(dāng)樣本缺失率較大或缺失值未服從完全隨機(jī)分布時(shí),該方法可能會(huì)因刪除大量樣本而降低檢驗(yàn)功效,并產(chǎn)生較大的偏差。在心理學(xué)研究中,大多數(shù)問卷調(diào)查和實(shí)驗(yàn)設(shè)計(jì)的樣本量都不是很充足,使用該方法時(shí)應(yīng)結(jié)合具體情況,綜合考慮樣本量、缺失率、統(tǒng)計(jì)功效等因素。另外,當(dāng)使用結(jié)構(gòu)方程模型(Structural Equation Model)構(gòu)建心理模型時(shí),如進(jìn)行驗(yàn)證性因素分析或路徑分析時(shí),使用成對(duì)刪除法處理缺失數(shù)據(jù)可能導(dǎo)致樣本協(xié)方差矩陣非正定,對(duì)參數(shù)估計(jì)和模型擬合產(chǎn)生影響,所以此時(shí)應(yīng)慎重選用成對(duì)刪除法。

      在本研究中,模擬數(shù)據(jù)和實(shí)測(cè)數(shù)據(jù)都顯示,均值替代法所得出的結(jié)果是最差的。從原理上講,這種方法建立在完全隨機(jī)缺失的假設(shè)之上,會(huì)使樣本離散程度減小,方差變小,但是通常對(duì)變量的均值估計(jì)不會(huì)產(chǎn)生影響。只是這種方法假設(shè)各個(gè)變量之間是相互獨(dú)立的,而無論是模擬中用到的回歸模型,還是實(shí)證研究中測(cè)量得到的各個(gè)變量,大都存在著某種相關(guān)關(guān)系,難以滿足獨(dú)立性假設(shè)。

      (二)建議

      筆者詳細(xì)探討了SPSS軟件中5種缺失值處理方法的優(yōu)劣,為研究者處理缺失數(shù)據(jù)提供了多種方法選擇。現(xiàn)對(duì)各種缺失值處理方法的優(yōu)劣進(jìn)行總結(jié),以供心理學(xué)研究者和SPSS使用者參考。

      刪除法(包括整列刪除和成對(duì)刪除):方便快捷,但容易損失數(shù)據(jù)信息。該方法適合于樣本量充足、缺失率較小、缺失數(shù)據(jù)呈現(xiàn)隨機(jī)分布的情況。

      均值替換法:方便快捷,但效果較差。該方法可用于缺失率較低、研究精度要求不高、海量數(shù)據(jù)的填充處理。

      期望值最大化法:當(dāng)缺失率較高時(shí),該方法能得到比較準(zhǔn)確的估計(jì)結(jié)果。但是,該方法運(yùn)算時(shí)間較長(zhǎng),對(duì)計(jì)算機(jī)硬件要求高。

      回歸插值法:該方法在低缺失率下處理效果可以和刪除法相媲美,高缺失率下的表現(xiàn)還有待檢驗(yàn),運(yùn)算時(shí)間較短,但應(yīng)用時(shí)應(yīng)注意變量之間的相關(guān)關(guān)系假定。

      猜你喜歡
      替代法期望值最大化
      物理方法之等效替代法
      初識(shí)等效替代法
      勉縣:力求黨建“引領(lǐng)力”的最大化
      Advantages and Disadvantages of Studying Abroad
      劉佳炎:回國(guó)創(chuàng)業(yè)讓人生價(jià)值最大化
      基于改進(jìn)數(shù)學(xué)期望值的瀝青性能評(píng)價(jià)模型
      石油瀝青(2018年4期)2018-08-31 02:29:40
      例說等效替代法
      重新審視你的期望值
      媽媽寶寶(2017年4期)2017-02-25 07:00:58
      距跟外側(cè)韌帶替代法治療跟腓韌帶缺失的慢性踝關(guān)節(jié)外側(cè)不穩(wěn)
      戴夫:我更愿意把公益性做到最大化
      北海市| 巫山县| 嫩江县| 惠安县| 许昌市| 龙川县| 灵璧县| 阿鲁科尔沁旗| 武城县| 神农架林区| 台东县| 全南县| 达日县| 茌平县| 武清区| 巴彦淖尔市| 山阳县| 葵青区| 陆川县| 大新县| 宜阳县| 澳门| 石泉县| 阳谷县| 涟水县| 蒲江县| 曲麻莱县| 平邑县| 渭南市| 孟村| 绥中县| 隆子县| 柯坪县| 农安县| 金溪县| 德阳市| 布拖县| 商洛市| 论坛| 湟中县| 出国|