殘差在線性回歸分析中的作用研究

2020-10-16 08:48:44崔俊富陳金偉

牡丹江大學(xué)學(xué)報(bào) 2020年10期

崔俊富陳金偉崔偉

（1.南京航空航天大學(xué)經(jīng)濟(jì)與管理學(xué)院，江蘇南京 211106；2.山東女子學(xué)院經(jīng)濟(jì)學(xué)院，山東濟(jì)南 250300；3.南京審計(jì)大學(xué)經(jīng)濟(jì)學(xué)院，江蘇南京 211815；4.深圳國(guó)育未來(lái)教育科學(xué)研究院，北京 100875）

一、引言

發(fā)現(xiàn)經(jīng)濟(jì)變量之間的關(guān)系是經(jīng)濟(jì)學(xué)研究的重要內(nèi)容，回歸分析是比較常用的方法?；貧w分析將變量分為響應(yīng)變量和自變量，通過(guò)自變量的已知或設(shè)定值去預(yù)測(cè)響應(yīng)變量的均值?；貧w分析又可以分為線性回歸分析和非線性回歸分析，因?yàn)閮?yōu)良的性質(zhì)，線性回歸分析的應(yīng)用性遠(yuǎn)遠(yuǎn)超過(guò)非線性回歸分析。線性回歸分析關(guān)鍵是尋找總體回歸線使得響應(yīng)變量的條件均值恰好落在這條線上，即：[1]

了解總體信息需要耗費(fèi)巨大的人力物力財(cái)力，因此在經(jīng)濟(jì)運(yùn)行分析中總體信息往往是很難獲得的。于是統(tǒng)計(jì)學(xué)相繼發(fā)展了統(tǒng)計(jì)調(diào)查和統(tǒng)計(jì)推斷等領(lǐng)域，其中，統(tǒng)計(jì)推斷指的是通過(guò)樣本的信息來(lái)推測(cè)總體的信息。線性回歸分析同樣面臨總體信息不易獲得，而使用樣本信息對(duì)總體情況進(jìn)行推斷的情況，也就是找到樣本回歸曲線來(lái)推斷總體回歸曲線，樣本回歸曲線的函數(shù)形式為

但是，線性方程組可能是相容的，也可能是不相容的。這時(shí)形成的線性方程組就是不相容的，無(wú)法求解系數(shù)。后來(lái)數(shù)理統(tǒng)計(jì)學(xué)家指出，統(tǒng)計(jì)推斷不需要求出能通過(guò)所有樣本點(diǎn)的回歸線，只需要求出距離樣本點(diǎn)最近的回歸線即可。[2]因?yàn)?/p>

這個(gè)方程組是相容的，可得

這種求解方式是對(duì)樣本點(diǎn)的一種“近似”，不能完全反應(yīng)樣本點(diǎn)的信息，也就是說(shuō)存在一定的誤差，真實(shí)的樣本回歸線形式應(yīng)該是

其中，e為殘差項(xiàng)（Residual），反映隨機(jī)干擾對(duì)樣本回歸的影響，可以認(rèn)為是隨機(jī)誤差項(xiàng)ε的實(shí)現(xiàn)值。經(jīng)典線性回歸模型需要特定的假設(shè)，只有當(dāng)這些假設(shè)符合時(shí)，才能確?；貧w模型的準(zhǔn)確性，其中最重要的是關(guān)于隨機(jī)誤差（殘差）的假定，即期望為0；方差為常數(shù)；相互獨(dú)立；自變量與誤差項(xiàng)不相關(guān)；符合正態(tài)分布

二、變量的分布

變量分布是統(tǒng)計(jì)研究的重要依據(jù)，因?yàn)榉植紱Q定了變量的性質(zhì)。了解了參數(shù)和響應(yīng)變量的分布情況，就可以對(duì)參數(shù)和響應(yīng)變量的性質(zhì)進(jìn)行相應(yīng)的討論，例如假設(shè)檢驗(yàn)、預(yù)測(cè)分析等等。由于自變量是確定的，參數(shù)、響應(yīng)變量的分布與隨機(jī)誤差（殘差）的分布是一致的。隨機(jī)誤差符合均值為0，方差為的正態(tài)分布，因此參數(shù)和響應(yīng)變量的分布也符合正態(tài)分布。[4]

（一）響應(yīng)變量的分布

三、回歸模型的擬合評(píng)價(jià)

模型建立僅是擬合數(shù)據(jù)的第一步，還必須對(duì)模型的數(shù)據(jù)擬合效果進(jìn)行評(píng)價(jià)。如果擬合效果不良，說(shuō)明建立的模型需要進(jìn)行優(yōu)化。殘差項(xiàng)含有響應(yīng)變量的部分信息，因此殘差就成為判斷回歸模型擬合效果的重要依據(jù)，主要應(yīng)用于線性檢驗(yàn)、模型設(shè)定、信息準(zhǔn)則等領(lǐng)域。[5]

（一）線性檢驗(yàn)

參數(shù)的顯著性檢驗(yàn)反映了自變量對(duì)于響應(yīng)變量模擬是否有貢獻(xiàn)，通過(guò)了顯著性檢驗(yàn)可以確定該參數(shù)對(duì)應(yīng)的自變量對(duì)于響應(yīng)變量模擬有貢獻(xiàn)，未通過(guò)顯著性檢驗(yàn)可以確定該參數(shù)對(duì)應(yīng)的自變量對(duì)于響應(yīng)變量模擬沒(méi)有貢獻(xiàn)。

（1）分參數(shù)檢驗(yàn)

其中，cjj為矩陣

如果上述t統(tǒng)計(jì)量超過(guò)了顯著性水平確定的臨界值或者由該t統(tǒng)計(jì)量計(jì)算的P值過(guò)小，那么可以拒絕零假設(shè)，也就是分參數(shù)不為0。[3]

（2）總體線性檢驗(yàn)

分參數(shù)t檢驗(yàn)可以了解每一個(gè)參數(shù)的情況，但是參數(shù)較多的時(shí)候單獨(dú)進(jìn)行檢驗(yàn)效率不高，而且t檢驗(yàn)的次數(shù)過(guò)多會(huì)使得犯錯(cuò)誤的概率加大，或者不需要知曉每一個(gè)參數(shù)的具體情況只需要了解總體線性情況，這時(shí)可以選擇總體線性檢驗(yàn)。[6]在原假設(shè)β1=β2=…=βp=0的情況下，構(gòu)造統(tǒng)計(jì)量

F統(tǒng)計(jì)量和決定系數(shù)R2的構(gòu)造都用到了SST=SSR+SSE，可以確定二者之間存在聯(lián)系，通過(guò)變換，二者可以相互導(dǎo)出。相對(duì)而言，決定系數(shù)R2比較粗糙，F(xiàn)統(tǒng)計(jì)量比決定系數(shù)R2具有更嚴(yán)格的統(tǒng)計(jì)理論支撐，更加準(zhǔn)確。

（二）模型設(shè)定

自變量選擇是多元線性回歸模型構(gòu)建的關(guān)鍵內(nèi)容，是選擇線性的模型還是非線性的模型，是選擇少變量形式還是多變量形式都需要討論。

（1）失擬檢驗(yàn)

失擬指的是所選擇的模型可能是錯(cuò)誤的，不能擬合現(xiàn)有的數(shù)據(jù)，也就無(wú)法得出有意義的結(jié)論。最初的失擬檢驗(yàn)需要對(duì)不同的自變量的值進(jìn)行重復(fù)觀測(cè)，假定響應(yīng)變量在xi水平上有ni個(gè)值，yij表示第j個(gè)觀測(cè)值，則殘差平方和可以表示為

如果上述F統(tǒng)計(jì)量超過(guò)了顯著性水平確定的臨界值或者由該F統(tǒng)計(jì)量計(jì)算的P值過(guò)小，那么可以拒絕零假設(shè)，也就是存在失擬，模型需要重新設(shè)定。上述檢驗(yàn)要求獲得在xi水平上的重復(fù)觀測(cè)值，實(shí)際情況當(dāng)中，特別是多元線性回歸中很難獲得重復(fù)觀測(cè)值。Daniel和Wood（1980），Joglekar，Schuenemeyer和 LaRiccia(1989)利用最近鄰的思想來(lái)近似作為重復(fù)觀測(cè)值，進(jìn)而進(jìn)行失擬檢驗(yàn)，得出了一些有益結(jié)論。[7-8]

（2）比較嵌套檢驗(yàn)

嵌套模型也經(jīng)常用于自變量選擇問(wèn)題，所謂嵌套模型指的是構(gòu)建兩個(gè)以上的模型，其中一個(gè)模型包含另一個(gè)模型的所有變量，并且至少包含一個(gè)以上的其他變量，使用嵌套模型可以非常有效地比較自變量是否對(duì)解釋響應(yīng)變量有貢獻(xiàn)，而且可以一次檢驗(yàn)許多自變量?？梢詷?gòu)建[9]

對(duì)于自變量xp+1，…，xp+m是否貢獻(xiàn)了有價(jià)值的信息，在原假設(shè)βp+1=…=βp+m=0的情況下，可以構(gòu)造統(tǒng)計(jì)量

其中，SSER為簡(jiǎn)化模型殘差平方和，SSEC為完全模型殘差平方和。如果上述F統(tǒng)計(jì)量超過(guò)了顯著性水平確定的臨界值或者由該F統(tǒng)計(jì)量計(jì)算的P值過(guò)小，那么可以拒絕零假設(shè)，也就是完全模型比簡(jiǎn)化模型可以對(duì)響應(yīng)變量提供更強(qiáng)的解釋力。

（三）信息準(zhǔn)則

除了失擬檢驗(yàn)和比較嵌套檢驗(yàn)外，自變量的選擇還可以最小化赤池信息準(zhǔn)則（AIC）、施瓦茨信息準(zhǔn)則（SBIC）和漢南—奎因信息準(zhǔn)則（HQIC）[5]

其中，L為似然函數(shù)

上述準(zhǔn)則的基本思想都是對(duì)所添加的回歸變量施加懲罰，當(dāng)所增加的回歸變量減少AIC、SBIC和HQIC時(shí)，才增加該回歸變量，否則就不能增加。因?yàn)樾畔?zhǔn)則需要S2來(lái)導(dǎo)出，因此該方法實(shí)際上也是考察殘差信息的變化。[10-12]

四、回歸模型的預(yù)測(cè)

除了對(duì)現(xiàn)有的數(shù)據(jù)進(jìn)行描述，回歸模型最重要的應(yīng)用是進(jìn)行預(yù)測(cè)。已經(jīng)知道，利用現(xiàn)有的數(shù)據(jù)建立的回歸模型存在隨機(jī)誤差，那么回歸模型預(yù)測(cè)的數(shù)據(jù)也必然存在誤差，而且預(yù)測(cè)數(shù)據(jù)的誤差與現(xiàn)有數(shù)據(jù)描述的殘差存在聯(lián)系，這種聯(lián)系通過(guò)影響預(yù)測(cè)數(shù)據(jù)的分布得以體現(xiàn)。[13]

（一）響應(yīng)變量均值的預(yù)測(cè)

可知，E(y)在置信水平100×(1-α)%的置信區(qū)間為

（二）響應(yīng)變量個(gè)別值預(yù)測(cè)

響應(yīng)變量預(yù)測(cè)的隨機(jī)誤差為[1]

可知，y在置信水平100×(1-α)%的置信區(qū)間為

五、假定與異常值診斷

線性回歸模型的有效性需要?dú)埐罘先舾杉俣?，只有符合這些假定才能導(dǎo)出參數(shù)、響應(yīng)變量的分布，進(jìn)行假設(shè)檢驗(yàn)，預(yù)測(cè)響應(yīng)變量。一旦假定不符合，線性回歸模型的有效性就受到很大影響。如果零均值假定不符合，那么上述對(duì)于參數(shù)、響應(yīng)變量、響應(yīng)變量預(yù)測(cè)值的期望的討論將不再有效，難以知曉這些變量的均值情況。如果常數(shù)方差假定不符合，那么參數(shù)、響應(yīng)變量、響應(yīng)變量預(yù)測(cè)值的方差將不可獲知。如果正態(tài)分布假定不符合，意味著參數(shù)、響應(yīng)變量、響應(yīng)變量預(yù)測(cè)值也不能用正態(tài)分布進(jìn)行描述。對(duì)于這些假定不相符可以使用一些方法加以克服，例如對(duì)數(shù)變換、廣義最小二乘法等等。殘差不符合假定一種常見(jiàn)原因是有異常值，某幾個(gè)異常值就可能導(dǎo)致殘差出現(xiàn)較大波動(dòng)。通過(guò)觀察殘差可以幫助確定異常值，主要有4種方法，分別是標(biāo)準(zhǔn)化殘差、學(xué)生化殘差、PRESS殘差和R-學(xué)生化殘差。[14]標(biāo)準(zhǔn)化殘差相對(duì)簡(jiǎn)單直觀

如果某一個(gè)數(shù)據(jù)點(diǎn)的標(biāo)準(zhǔn)化殘差、學(xué)生化殘差、PRESS殘差和R-學(xué)生化殘差遠(yuǎn)遠(yuǎn)大于其他數(shù)據(jù)點(diǎn)，那么基本可以判斷該點(diǎn)為異常值點(diǎn)。異常值的出現(xiàn)可能出現(xiàn)兩種結(jié)果，一種是杠桿點(diǎn)，不影響模型擬合，另一種是強(qiáng)影響點(diǎn)，對(duì)模型的擬合有較大影響。前者可以通過(guò)矩陣h對(duì)角線元素的值來(lái)進(jìn)行判斷，后者可以參考庫(kù)克距離。[15-16]

庫(kù)克距離較大的點(diǎn)對(duì)參數(shù)的估計(jì)有較大的影響，如果剔除第i個(gè)點(diǎn)估計(jì)的參數(shù)出現(xiàn)了較大的移動(dòng)，例如達(dá)到了庫(kù)克距離確定的置信域邊界，那么該點(diǎn)為強(qiáng)影響點(diǎn)。異常值的出現(xiàn)通常意味著比較艱難的選擇，異常值含有部分信息，有可能這些信息是模擬需要的關(guān)鍵信息，刪除異常值可能使模型擬合的更好，但是可能丟失了關(guān)鍵信息，而不處理異常值又影響了模型擬合，所以對(duì)于異常值的處理要非常的謹(jǐn)慎，最好的方式是收集更多的數(shù)據(jù)幫助進(jìn)行更準(zhǔn)確的判斷。

六、結(jié)語(yǔ)

發(fā)現(xiàn)經(jīng)濟(jì)變量之間的關(guān)系是經(jīng)濟(jì)學(xué)研究的重要內(nèi)容，回歸分析是比較常用的方法。數(shù)據(jù)的隨機(jī)性導(dǎo)致線性回歸模型分成回歸項(xiàng)和殘差項(xiàng)兩個(gè)組成部分，回歸項(xiàng)解釋的響應(yīng)變量信息越多，說(shuō)明回歸模型性質(zhì)越優(yōu)良，反之，殘差項(xiàng)解釋的響應(yīng)變量信息越多，說(shuō)明回歸模型性質(zhì)越差。本文對(duì)殘差在回歸分析中的作用進(jìn)行了總結(jié)討論，發(fā)現(xiàn)殘差的信息可以幫助確定數(shù)據(jù)分布、進(jìn)行擬合評(píng)價(jià)、預(yù)測(cè)響應(yīng)變量、判斷異常值等。因此，對(duì)殘差進(jìn)行分析不僅可以確定線性回歸模型的擬合情況，還可以幫助模型的優(yōu)化調(diào)整。線性回歸模型建立并模擬數(shù)據(jù)集之后，一定要通過(guò)觀察殘差分布圖，進(jìn)行正態(tài)分布檢驗(yàn)等形式對(duì)殘差進(jìn)行分析討論，挖掘殘差當(dāng)中有價(jià)值的信息，從而準(zhǔn)確判斷現(xiàn)有模型的價(jià)值并加以優(yōu)化。

99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

殘差在線性回歸分析中的作用研究

一、引言

二、變量的分布