崔俊富 陳金偉 崔 偉
(1.南京航空航天大學(xué)經(jīng)濟(jì)與管理學(xué)院,江蘇 南京 211106;2.山東女子學(xué)院經(jīng)濟(jì)學(xué)院,山東 濟(jì)南 250300;3.南京審計(jì)大學(xué)經(jīng)濟(jì)學(xué)院,江蘇 南京 211815;4.深圳國(guó)育未來(lái)教育科學(xué)研究院,北京 100875)
發(fā)現(xiàn)經(jīng)濟(jì)變量之間的關(guān)系是經(jīng)濟(jì)學(xué)研究的重要內(nèi)容,回歸分析是比較常用的方法?;貧w分析將變量分為響應(yīng)變量和自變量,通過(guò)自變量的已知或設(shè)定值去預(yù)測(cè)響應(yīng)變量的均值?;貧w分析又可以分為線性回歸分析和非線性回歸分析,因?yàn)閮?yōu)良的性質(zhì),線性回歸分析的應(yīng)用性遠(yuǎn)遠(yuǎn)超過(guò)非線性回歸分析。線性回歸分析關(guān)鍵是尋找總體回歸線使得響應(yīng)變量的條件均值恰好落在這條線上,即:[1]
了解總體信息需要耗費(fèi)巨大的人力物力財(cái)力,因此在經(jīng)濟(jì)運(yùn)行分析中總體信息往往是很難獲得的。于是統(tǒng)計(jì)學(xué)相繼發(fā)展了統(tǒng)計(jì)調(diào)查和統(tǒng)計(jì)推斷等領(lǐng)域,其中,統(tǒng)計(jì)推斷指的是通過(guò)樣本的信息來(lái)推測(cè)總體的信息。線性回歸分析同樣面臨總體信息不易獲得,而使用樣本信息對(duì)總體情況進(jìn)行推斷的情況,也就是找到樣本回歸曲線來(lái)推斷總體回歸曲線,樣本回歸曲線的函數(shù)形式為
但是,線性方程組可能是相容的,也可能是不相容的。這時(shí)形成的線性方程組就是不相容的,無(wú)法求解系數(shù)。后來(lái)數(shù)理統(tǒng)計(jì)學(xué)家指出,統(tǒng)計(jì)推斷不需要求出能通過(guò)所有樣本點(diǎn)的回歸線,只需要求出距離樣本點(diǎn)最近的回歸線即可。[2]因?yàn)?/p>
這個(gè)方程組是相容的,可得
這種求解方式是對(duì)樣本點(diǎn)的一種“近似”,不能完全反應(yīng)樣本點(diǎn)的信息,也就是說(shuō)存在一定的誤差,真實(shí)的樣本回歸線形式應(yīng)該是
其中,e為殘差項(xiàng)(Residual),反映隨機(jī)干擾對(duì)樣本回歸的影響,可以認(rèn)為是隨機(jī)誤差項(xiàng)ε的實(shí)現(xiàn)值。經(jīng)典線性回歸模型需要特定的假設(shè),只有當(dāng)這些假設(shè)符合時(shí),才能確?;貧w模型的準(zhǔn)確性,其中最重要的是關(guān)于隨機(jī)誤差(殘差)的假定,即期望為0;方差為常數(shù);相互獨(dú)立;自變量與誤差項(xiàng)不相關(guān);符合正態(tài)分布
變量分布是統(tǒng)計(jì)研究的重要依據(jù),因?yàn)榉植紱Q定了變量的性質(zhì)。了解了參數(shù)和響應(yīng)變量的分布情況,就可以對(duì)參數(shù)和響應(yīng)變量的性質(zhì)進(jìn)行相應(yīng)的討論,例如假設(shè)檢驗(yàn)、預(yù)測(cè)分析等等。由于自變量是確定的,參數(shù)、響應(yīng)變量的分布與隨機(jī)誤差(殘差)的分布是一致的。隨機(jī)誤差符合均值為0,方差為的正態(tài)分布,因此參數(shù)和響應(yīng)變量的分布也符合正態(tài)分布。[4]
模型建立僅是擬合數(shù)據(jù)的第一步,還必須對(duì)模型的數(shù)據(jù)擬合效果進(jìn)行評(píng)價(jià)。如果擬合效果不良,說(shuō)明建立的模型需要進(jìn)行優(yōu)化。殘差項(xiàng)含有響應(yīng)變量的部分信息,因此殘差就成為判斷回歸模型擬合效果的重要依據(jù),主要應(yīng)用于線性檢驗(yàn)、模型設(shè)定、信息準(zhǔn)則等領(lǐng)域。[5]
參數(shù)的顯著性檢驗(yàn)反映了自變量對(duì)于響應(yīng)變量模擬是否有貢獻(xiàn),通過(guò)了顯著性檢驗(yàn)可以確定該參數(shù)對(duì)應(yīng)的自變量對(duì)于響應(yīng)變量模擬有貢獻(xiàn),未通過(guò)顯著性檢驗(yàn)可以確定該參數(shù)對(duì)應(yīng)的自變量對(duì)于響應(yīng)變量模擬沒(méi)有貢獻(xiàn)。
(1)分參數(shù)檢驗(yàn)
其中,cjj為矩陣
如果上述t統(tǒng)計(jì)量超過(guò)了顯著性水平確定的臨界值或者由該t統(tǒng)計(jì)量計(jì)算的P值過(guò)小,那么可以拒絕零假設(shè),也就是分參數(shù)不為0。[3]
(2)總體線性檢驗(yàn)
分參數(shù)t檢驗(yàn)可以了解每一個(gè)參數(shù)的情況,但是參數(shù)較多的時(shí)候單獨(dú)進(jìn)行檢驗(yàn)效率不高,而且t檢驗(yàn)的次數(shù)過(guò)多會(huì)使得犯錯(cuò)誤的概率加大,或者不需要知曉每一個(gè)參數(shù)的具體情況只需要了解總體線性情況,這時(shí)可以選擇總體線性檢驗(yàn)。[6]在原假設(shè)β1=β2=…=βp=0的情況下,構(gòu)造統(tǒng)計(jì)量
F統(tǒng)計(jì)量和決定系數(shù)R2的構(gòu)造都用到了SST=SSR+SSE,可以確定二者之間存在聯(lián)系,通過(guò)變換,二者可以相互導(dǎo)出。相對(duì)而言,決定系數(shù)R2比較粗糙,F(xiàn)統(tǒng)計(jì)量比決定系數(shù)R2具有更嚴(yán)格的統(tǒng)計(jì)理論支撐,更加準(zhǔn)確。
自變量選擇是多元線性回歸模型構(gòu)建的關(guān)鍵內(nèi)容,是選擇線性的模型還是非線性的模型,是選擇少變量形式還是多變量形式都需要討論。
(1)失擬檢驗(yàn)
失擬指的是所選擇的模型可能是錯(cuò)誤的,不能擬合現(xiàn)有的數(shù)據(jù),也就無(wú)法得出有意義的結(jié)論。最初的失擬檢驗(yàn)需要對(duì)不同的自變量的值進(jìn)行重復(fù)觀測(cè),假定響應(yīng)變量在xi水平上有ni個(gè)值,yij表示第j個(gè)觀測(cè)值,則殘差平方和可以表示為
如果上述F統(tǒng)計(jì)量超過(guò)了顯著性水平確定的臨界值或者由該F統(tǒng)計(jì)量計(jì)算的P值過(guò)小,那么可以拒絕零假設(shè),也就是存在失擬,模型需要重新設(shè)定。上述檢驗(yàn)要求獲得在xi水平上的重復(fù)觀測(cè)值,實(shí)際情況當(dāng)中,特別是多元線性回歸中很難獲得重復(fù)觀測(cè)值。Daniel和Wood(1980),Joglekar,Schuenemeyer和 LaRiccia(1989)利用最近鄰的思想來(lái)近似作為重復(fù)觀測(cè)值,進(jìn)而進(jìn)行失擬檢驗(yàn),得出了一些有益結(jié)論。[7-8]
(2)比較嵌套檢驗(yàn)
嵌套模型也經(jīng)常用于自變量選擇問(wèn)題,所謂嵌套模型指的是構(gòu)建兩個(gè)以上的模型,其中一個(gè)模型包含另一個(gè)模型的所有變量,并且至少包含一個(gè)以上的其他變量,使用嵌套模型可以非常有效地比較自變量是否對(duì)解釋響應(yīng)變量有貢獻(xiàn),而且可以一次檢驗(yàn)許多自變量??梢詷?gòu)建[9]
對(duì)于自變量xp+1,…,xp+m是否貢獻(xiàn)了有價(jià)值的信息,在原假設(shè)βp+1=…=βp+m=0的情況下,可以構(gòu)造統(tǒng)計(jì)量
其中,SSER為簡(jiǎn)化模型殘差平方和,SSEC為完全模型殘差平方和。如果上述F統(tǒng)計(jì)量超過(guò)了顯著性水平確定的臨界值或者由該F統(tǒng)計(jì)量計(jì)算的P值過(guò)小,那么可以拒絕零假設(shè),也就是完全模型比簡(jiǎn)化模型可以對(duì)響應(yīng)變量提供更強(qiáng)的解釋力。
除了失擬檢驗(yàn)和比較嵌套檢驗(yàn)外,自變量的選擇還可以最小化赤池信息準(zhǔn)則(AIC)、施瓦茨信息準(zhǔn)則(SBIC)和漢南—奎因信息準(zhǔn)則(HQIC)[5]
其中,L為似然函數(shù)
上述準(zhǔn)則的基本思想都是對(duì)所添加的回歸變量施加懲罰,當(dāng)所增加的回歸變量減少AIC、SBIC和HQIC時(shí),才增加該回歸變量,否則就不能增加。因?yàn)樾畔?zhǔn)則需要S2來(lái)導(dǎo)出,因此該方法實(shí)際上也是考察殘差信息的變化。[10-12]
除了對(duì)現(xiàn)有的數(shù)據(jù)進(jìn)行描述,回歸模型最重要的應(yīng)用是進(jìn)行預(yù)測(cè)。已經(jīng)知道,利用現(xiàn)有的數(shù)據(jù)建立的回歸模型存在隨機(jī)誤差,那么回歸模型預(yù)測(cè)的數(shù)據(jù)也必然存在誤差,而且預(yù)測(cè)數(shù)據(jù)的誤差與現(xiàn)有數(shù)據(jù)描述的殘差存在聯(lián)系,這種聯(lián)系通過(guò)影響預(yù)測(cè)數(shù)據(jù)的分布得以體現(xiàn)。[13]
可知,E(y)在置信水平100×(1-α)%的置信區(qū)間為
響應(yīng)變量預(yù)測(cè)的隨機(jī)誤差為[1]
可知,y在置信水平100×(1-α)%的置信區(qū)間為
線性回歸模型的有效性需要?dú)埐罘先舾杉俣?,只有符合這些假定才能導(dǎo)出參數(shù)、響應(yīng)變量的分布,進(jìn)行假設(shè)檢驗(yàn),預(yù)測(cè)響應(yīng)變量。一旦假定不符合,線性回歸模型的有效性就受到很大影響。如果零均值假定不符合,那么上述對(duì)于參數(shù)、響應(yīng)變量、響應(yīng)變量預(yù)測(cè)值的期望的討論將不再有效,難以知曉這些變量的均值情況。如果常數(shù)方差假定不符合,那么參數(shù)、響應(yīng)變量、響應(yīng)變量預(yù)測(cè)值的方差將不可獲知。如果正態(tài)分布假定不符合,意味著參數(shù)、響應(yīng)變量、響應(yīng)變量預(yù)測(cè)值也不能用正態(tài)分布進(jìn)行描述。對(duì)于這些假定不相符可以使用一些方法加以克服,例如對(duì)數(shù)變換、廣義最小二乘法等等。殘差不符合假定一種常見(jiàn)原因是有異常值,某幾個(gè)異常值就可能導(dǎo)致殘差出現(xiàn)較大波動(dòng)。通過(guò)觀察殘差可以幫助確定異常值,主要有4種方法,分別是標(biāo)準(zhǔn)化殘差、學(xué)生化殘差、PRESS殘差和R-學(xué)生化殘差。[14]標(biāo)準(zhǔn)化殘差相對(duì)簡(jiǎn)單直觀
如果某一個(gè)數(shù)據(jù)點(diǎn)的標(biāo)準(zhǔn)化殘差、學(xué)生化殘差、PRESS殘差和R-學(xué)生化殘差遠(yuǎn)遠(yuǎn)大于其他數(shù)據(jù)點(diǎn),那么基本可以判斷該點(diǎn)為異常值點(diǎn)。異常值的出現(xiàn)可能出現(xiàn)兩種結(jié)果,一種是杠桿點(diǎn),不影響模型擬合,另一種是強(qiáng)影響點(diǎn),對(duì)模型的擬合有較大影響。前者可以通過(guò)矩陣h對(duì)角線元素的值來(lái)進(jìn)行判斷,后者可以參考庫(kù)克距離。[15-16]
庫(kù)克距離較大的點(diǎn)對(duì)參數(shù)的估計(jì)有較大的影響,如果剔除第i個(gè)點(diǎn)估計(jì)的參數(shù)出現(xiàn)了較大的移動(dòng),例如達(dá)到了庫(kù)克距離確定的置信域邊界,那么該點(diǎn)為強(qiáng)影響點(diǎn)。異常值的出現(xiàn)通常意味著比較艱難的選擇,異常值含有部分信息,有可能這些信息是模擬需要的關(guān)鍵信息,刪除異常值可能使模型擬合的更好,但是可能丟失了關(guān)鍵信息,而不處理異常值又影響了模型擬合,所以對(duì)于異常值的處理要非常的謹(jǐn)慎,最好的方式是收集更多的數(shù)據(jù)幫助進(jìn)行更準(zhǔn)確的判斷。
發(fā)現(xiàn)經(jīng)濟(jì)變量之間的關(guān)系是經(jīng)濟(jì)學(xué)研究的重要內(nèi)容,回歸分析是比較常用的方法。數(shù)據(jù)的隨機(jī)性導(dǎo)致線性回歸模型分成回歸項(xiàng)和殘差項(xiàng)兩個(gè)組成部分,回歸項(xiàng)解釋的響應(yīng)變量信息越多,說(shuō)明回歸模型性質(zhì)越優(yōu)良,反之,殘差項(xiàng)解釋的響應(yīng)變量信息越多,說(shuō)明回歸模型性質(zhì)越差。本文對(duì)殘差在回歸分析中的作用進(jìn)行了總結(jié)討論,發(fā)現(xiàn)殘差的信息可以幫助確定數(shù)據(jù)分布、進(jìn)行擬合評(píng)價(jià)、預(yù)測(cè)響應(yīng)變量、判斷異常值等。因此,對(duì)殘差進(jìn)行分析不僅可以確定線性回歸模型的擬合情況,還可以幫助模型的優(yōu)化調(diào)整。線性回歸模型建立并模擬數(shù)據(jù)集之后,一定要通過(guò)觀察殘差分布圖,進(jìn)行正態(tài)分布檢驗(yàn)等形式對(duì)殘差進(jìn)行分析討論,挖掘殘差當(dāng)中有價(jià)值的信息,從而準(zhǔn)確判斷現(xiàn)有模型的價(jià)值并加以優(yōu)化。
牡丹江大學(xué)學(xué)報(bào)2020年10期