• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      殘差在線性回歸分析中的作用研究

      2020-10-16 08:48:44崔俊富陳金偉
      牡丹江大學(xué)學(xué)報(bào) 2020年10期
      關(guān)鍵詞:殘差線性顯著性

      崔俊富 陳金偉 崔 偉

      (1.南京航空航天大學(xué)經(jīng)濟(jì)與管理學(xué)院,江蘇 南京 211106;2.山東女子學(xué)院經(jīng)濟(jì)學(xué)院,山東 濟(jì)南 250300;3.南京審計(jì)大學(xué)經(jīng)濟(jì)學(xué)院,江蘇 南京 211815;4.深圳國(guó)育未來(lái)教育科學(xué)研究院,北京 100875)

      一、引言

      發(fā)現(xiàn)經(jīng)濟(jì)變量之間的關(guān)系是經(jīng)濟(jì)學(xué)研究的重要內(nèi)容,回歸分析是比較常用的方法?;貧w分析將變量分為響應(yīng)變量和自變量,通過(guò)自變量的已知或設(shè)定值去預(yù)測(cè)響應(yīng)變量的均值?;貧w分析又可以分為線性回歸分析和非線性回歸分析,因?yàn)閮?yōu)良的性質(zhì),線性回歸分析的應(yīng)用性遠(yuǎn)遠(yuǎn)超過(guò)非線性回歸分析。線性回歸分析關(guān)鍵是尋找總體回歸線使得響應(yīng)變量的條件均值恰好落在這條線上,即:[1]

      了解總體信息需要耗費(fèi)巨大的人力物力財(cái)力,因此在經(jīng)濟(jì)運(yùn)行分析中總體信息往往是很難獲得的。于是統(tǒng)計(jì)學(xué)相繼發(fā)展了統(tǒng)計(jì)調(diào)查和統(tǒng)計(jì)推斷等領(lǐng)域,其中,統(tǒng)計(jì)推斷指的是通過(guò)樣本的信息來(lái)推測(cè)總體的信息。線性回歸分析同樣面臨總體信息不易獲得,而使用樣本信息對(duì)總體情況進(jìn)行推斷的情況,也就是找到樣本回歸曲線來(lái)推斷總體回歸曲線,樣本回歸曲線的函數(shù)形式為

      但是,線性方程組可能是相容的,也可能是不相容的。這時(shí)形成的線性方程組就是不相容的,無(wú)法求解系數(shù)。后來(lái)數(shù)理統(tǒng)計(jì)學(xué)家指出,統(tǒng)計(jì)推斷不需要求出能通過(guò)所有樣本點(diǎn)的回歸線,只需要求出距離樣本點(diǎn)最近的回歸線即可。[2]因?yàn)?/p>

      這個(gè)方程組是相容的,可得

      這種求解方式是對(duì)樣本點(diǎn)的一種“近似”,不能完全反應(yīng)樣本點(diǎn)的信息,也就是說(shuō)存在一定的誤差,真實(shí)的樣本回歸線形式應(yīng)該是

      其中,e為殘差項(xiàng)(Residual),反映隨機(jī)干擾對(duì)樣本回歸的影響,可以認(rèn)為是隨機(jī)誤差項(xiàng)ε的實(shí)現(xiàn)值。經(jīng)典線性回歸模型需要特定的假設(shè),只有當(dāng)這些假設(shè)符合時(shí),才能確?;貧w模型的準(zhǔn)確性,其中最重要的是關(guān)于隨機(jī)誤差(殘差)的假定,即期望為0;方差為常數(shù);相互獨(dú)立;自變量與誤差項(xiàng)不相關(guān);符合正態(tài)分布

      二、變量的分布

      變量分布是統(tǒng)計(jì)研究的重要依據(jù),因?yàn)榉植紱Q定了變量的性質(zhì)。了解了參數(shù)和響應(yīng)變量的分布情況,就可以對(duì)參數(shù)和響應(yīng)變量的性質(zhì)進(jìn)行相應(yīng)的討論,例如假設(shè)檢驗(yàn)、預(yù)測(cè)分析等等。由于自變量是確定的,參數(shù)、響應(yīng)變量的分布與隨機(jī)誤差(殘差)的分布是一致的。隨機(jī)誤差符合均值為0,方差為的正態(tài)分布,因此參數(shù)和響應(yīng)變量的分布也符合正態(tài)分布。[4]

      (一)響應(yīng)變量的分布

      三、回歸模型的擬合評(píng)價(jià)

      模型建立僅是擬合數(shù)據(jù)的第一步,還必須對(duì)模型的數(shù)據(jù)擬合效果進(jìn)行評(píng)價(jià)。如果擬合效果不良,說(shuō)明建立的模型需要進(jìn)行優(yōu)化。殘差項(xiàng)含有響應(yīng)變量的部分信息,因此殘差就成為判斷回歸模型擬合效果的重要依據(jù),主要應(yīng)用于線性檢驗(yàn)、模型設(shè)定、信息準(zhǔn)則等領(lǐng)域。[5]

      (一)線性檢驗(yàn)

      參數(shù)的顯著性檢驗(yàn)反映了自變量對(duì)于響應(yīng)變量模擬是否有貢獻(xiàn),通過(guò)了顯著性檢驗(yàn)可以確定該參數(shù)對(duì)應(yīng)的自變量對(duì)于響應(yīng)變量模擬有貢獻(xiàn),未通過(guò)顯著性檢驗(yàn)可以確定該參數(shù)對(duì)應(yīng)的自變量對(duì)于響應(yīng)變量模擬沒(méi)有貢獻(xiàn)。

      (1)分參數(shù)檢驗(yàn)

      其中,cjj為矩陣

      如果上述t統(tǒng)計(jì)量超過(guò)了顯著性水平確定的臨界值或者由該t統(tǒng)計(jì)量計(jì)算的P值過(guò)小,那么可以拒絕零假設(shè),也就是分參數(shù)不為0。[3]

      (2)總體線性檢驗(yàn)

      分參數(shù)t檢驗(yàn)可以了解每一個(gè)參數(shù)的情況,但是參數(shù)較多的時(shí)候單獨(dú)進(jìn)行檢驗(yàn)效率不高,而且t檢驗(yàn)的次數(shù)過(guò)多會(huì)使得犯錯(cuò)誤的概率加大,或者不需要知曉每一個(gè)參數(shù)的具體情況只需要了解總體線性情況,這時(shí)可以選擇總體線性檢驗(yàn)。[6]在原假設(shè)β1=β2=…=βp=0的情況下,構(gòu)造統(tǒng)計(jì)量

      F統(tǒng)計(jì)量和決定系數(shù)R2的構(gòu)造都用到了SST=SSR+SSE,可以確定二者之間存在聯(lián)系,通過(guò)變換,二者可以相互導(dǎo)出。相對(duì)而言,決定系數(shù)R2比較粗糙,F(xiàn)統(tǒng)計(jì)量比決定系數(shù)R2具有更嚴(yán)格的統(tǒng)計(jì)理論支撐,更加準(zhǔn)確。

      (二)模型設(shè)定

      自變量選擇是多元線性回歸模型構(gòu)建的關(guān)鍵內(nèi)容,是選擇線性的模型還是非線性的模型,是選擇少變量形式還是多變量形式都需要討論。

      (1)失擬檢驗(yàn)

      失擬指的是所選擇的模型可能是錯(cuò)誤的,不能擬合現(xiàn)有的數(shù)據(jù),也就無(wú)法得出有意義的結(jié)論。最初的失擬檢驗(yàn)需要對(duì)不同的自變量的值進(jìn)行重復(fù)觀測(cè),假定響應(yīng)變量在xi水平上有ni個(gè)值,yij表示第j個(gè)觀測(cè)值,則殘差平方和可以表示為

      如果上述F統(tǒng)計(jì)量超過(guò)了顯著性水平確定的臨界值或者由該F統(tǒng)計(jì)量計(jì)算的P值過(guò)小,那么可以拒絕零假設(shè),也就是存在失擬,模型需要重新設(shè)定。上述檢驗(yàn)要求獲得在xi水平上的重復(fù)觀測(cè)值,實(shí)際情況當(dāng)中,特別是多元線性回歸中很難獲得重復(fù)觀測(cè)值。Daniel和Wood(1980),Joglekar,Schuenemeyer和 LaRiccia(1989)利用最近鄰的思想來(lái)近似作為重復(fù)觀測(cè)值,進(jìn)而進(jìn)行失擬檢驗(yàn),得出了一些有益結(jié)論。[7-8]

      (2)比較嵌套檢驗(yàn)

      嵌套模型也經(jīng)常用于自變量選擇問(wèn)題,所謂嵌套模型指的是構(gòu)建兩個(gè)以上的模型,其中一個(gè)模型包含另一個(gè)模型的所有變量,并且至少包含一個(gè)以上的其他變量,使用嵌套模型可以非常有效地比較自變量是否對(duì)解釋響應(yīng)變量有貢獻(xiàn),而且可以一次檢驗(yàn)許多自變量??梢詷?gòu)建[9]

      對(duì)于自變量xp+1,…,xp+m是否貢獻(xiàn)了有價(jià)值的信息,在原假設(shè)βp+1=…=βp+m=0的情況下,可以構(gòu)造統(tǒng)計(jì)量

      其中,SSER為簡(jiǎn)化模型殘差平方和,SSEC為完全模型殘差平方和。如果上述F統(tǒng)計(jì)量超過(guò)了顯著性水平確定的臨界值或者由該F統(tǒng)計(jì)量計(jì)算的P值過(guò)小,那么可以拒絕零假設(shè),也就是完全模型比簡(jiǎn)化模型可以對(duì)響應(yīng)變量提供更強(qiáng)的解釋力。

      (三)信息準(zhǔn)則

      除了失擬檢驗(yàn)和比較嵌套檢驗(yàn)外,自變量的選擇還可以最小化赤池信息準(zhǔn)則(AIC)、施瓦茨信息準(zhǔn)則(SBIC)和漢南—奎因信息準(zhǔn)則(HQIC)[5]

      其中,L為似然函數(shù)

      上述準(zhǔn)則的基本思想都是對(duì)所添加的回歸變量施加懲罰,當(dāng)所增加的回歸變量減少AIC、SBIC和HQIC時(shí),才增加該回歸變量,否則就不能增加。因?yàn)樾畔?zhǔn)則需要S2來(lái)導(dǎo)出,因此該方法實(shí)際上也是考察殘差信息的變化。[10-12]

      四、回歸模型的預(yù)測(cè)

      除了對(duì)現(xiàn)有的數(shù)據(jù)進(jìn)行描述,回歸模型最重要的應(yīng)用是進(jìn)行預(yù)測(cè)。已經(jīng)知道,利用現(xiàn)有的數(shù)據(jù)建立的回歸模型存在隨機(jī)誤差,那么回歸模型預(yù)測(cè)的數(shù)據(jù)也必然存在誤差,而且預(yù)測(cè)數(shù)據(jù)的誤差與現(xiàn)有數(shù)據(jù)描述的殘差存在聯(lián)系,這種聯(lián)系通過(guò)影響預(yù)測(cè)數(shù)據(jù)的分布得以體現(xiàn)。[13]

      (一)響應(yīng)變量均值的預(yù)測(cè)

      可知,E(y)在置信水平100×(1-α)%的置信區(qū)間為

      (二)響應(yīng)變量個(gè)別值預(yù)測(cè)

      響應(yīng)變量預(yù)測(cè)的隨機(jī)誤差為[1]

      可知,y在置信水平100×(1-α)%的置信區(qū)間為

      五、假定與異常值診斷

      線性回歸模型的有效性需要?dú)埐罘先舾杉俣?,只有符合這些假定才能導(dǎo)出參數(shù)、響應(yīng)變量的分布,進(jìn)行假設(shè)檢驗(yàn),預(yù)測(cè)響應(yīng)變量。一旦假定不符合,線性回歸模型的有效性就受到很大影響。如果零均值假定不符合,那么上述對(duì)于參數(shù)、響應(yīng)變量、響應(yīng)變量預(yù)測(cè)值的期望的討論將不再有效,難以知曉這些變量的均值情況。如果常數(shù)方差假定不符合,那么參數(shù)、響應(yīng)變量、響應(yīng)變量預(yù)測(cè)值的方差將不可獲知。如果正態(tài)分布假定不符合,意味著參數(shù)、響應(yīng)變量、響應(yīng)變量預(yù)測(cè)值也不能用正態(tài)分布進(jìn)行描述。對(duì)于這些假定不相符可以使用一些方法加以克服,例如對(duì)數(shù)變換、廣義最小二乘法等等。殘差不符合假定一種常見(jiàn)原因是有異常值,某幾個(gè)異常值就可能導(dǎo)致殘差出現(xiàn)較大波動(dòng)。通過(guò)觀察殘差可以幫助確定異常值,主要有4種方法,分別是標(biāo)準(zhǔn)化殘差、學(xué)生化殘差、PRESS殘差和R-學(xué)生化殘差。[14]標(biāo)準(zhǔn)化殘差相對(duì)簡(jiǎn)單直觀

      如果某一個(gè)數(shù)據(jù)點(diǎn)的標(biāo)準(zhǔn)化殘差、學(xué)生化殘差、PRESS殘差和R-學(xué)生化殘差遠(yuǎn)遠(yuǎn)大于其他數(shù)據(jù)點(diǎn),那么基本可以判斷該點(diǎn)為異常值點(diǎn)。異常值的出現(xiàn)可能出現(xiàn)兩種結(jié)果,一種是杠桿點(diǎn),不影響模型擬合,另一種是強(qiáng)影響點(diǎn),對(duì)模型的擬合有較大影響。前者可以通過(guò)矩陣h對(duì)角線元素的值來(lái)進(jìn)行判斷,后者可以參考庫(kù)克距離。[15-16]

      庫(kù)克距離較大的點(diǎn)對(duì)參數(shù)的估計(jì)有較大的影響,如果剔除第i個(gè)點(diǎn)估計(jì)的參數(shù)出現(xiàn)了較大的移動(dòng),例如達(dá)到了庫(kù)克距離確定的置信域邊界,那么該點(diǎn)為強(qiáng)影響點(diǎn)。異常值的出現(xiàn)通常意味著比較艱難的選擇,異常值含有部分信息,有可能這些信息是模擬需要的關(guān)鍵信息,刪除異常值可能使模型擬合的更好,但是可能丟失了關(guān)鍵信息,而不處理異常值又影響了模型擬合,所以對(duì)于異常值的處理要非常的謹(jǐn)慎,最好的方式是收集更多的數(shù)據(jù)幫助進(jìn)行更準(zhǔn)確的判斷。

      六、結(jié)語(yǔ)

      發(fā)現(xiàn)經(jīng)濟(jì)變量之間的關(guān)系是經(jīng)濟(jì)學(xué)研究的重要內(nèi)容,回歸分析是比較常用的方法。數(shù)據(jù)的隨機(jī)性導(dǎo)致線性回歸模型分成回歸項(xiàng)和殘差項(xiàng)兩個(gè)組成部分,回歸項(xiàng)解釋的響應(yīng)變量信息越多,說(shuō)明回歸模型性質(zhì)越優(yōu)良,反之,殘差項(xiàng)解釋的響應(yīng)變量信息越多,說(shuō)明回歸模型性質(zhì)越差。本文對(duì)殘差在回歸分析中的作用進(jìn)行了總結(jié)討論,發(fā)現(xiàn)殘差的信息可以幫助確定數(shù)據(jù)分布、進(jìn)行擬合評(píng)價(jià)、預(yù)測(cè)響應(yīng)變量、判斷異常值等。因此,對(duì)殘差進(jìn)行分析不僅可以確定線性回歸模型的擬合情況,還可以幫助模型的優(yōu)化調(diào)整。線性回歸模型建立并模擬數(shù)據(jù)集之后,一定要通過(guò)觀察殘差分布圖,進(jìn)行正態(tài)分布檢驗(yàn)等形式對(duì)殘差進(jìn)行分析討論,挖掘殘差當(dāng)中有價(jià)值的信息,從而準(zhǔn)確判斷現(xiàn)有模型的價(jià)值并加以優(yōu)化。

      猜你喜歡
      殘差線性顯著性
      漸近線性Klein-Gordon-Maxwell系統(tǒng)正解的存在性
      基于雙向GRU與殘差擬合的車輛跟馳建模
      線性回歸方程的求解與應(yīng)用
      基于殘差學(xué)習(xí)的自適應(yīng)無(wú)人機(jī)目標(biāo)跟蹤算法
      基于遞歸殘差網(wǎng)絡(luò)的圖像超分辨率重建
      基于顯著性權(quán)重融合的圖像拼接算法
      電子制作(2019年24期)2019-02-23 13:22:26
      二階線性微分方程的解法
      基于視覺(jué)顯著性的視頻差錯(cuò)掩蓋算法
      一種基于顯著性邊緣的運(yùn)動(dòng)模糊圖像復(fù)原方法
      論商標(biāo)固有顯著性的認(rèn)定
      济宁市| 房山区| 根河市| 安国市| 成安县| 夏邑县| 壤塘县| 宁晋县| 万荣县| 广南县| 潮安县| 温宿县| 太谷县| 垦利县| 安顺市| 临海市| 威宁| 邳州市| 余庆县| 巫溪县| 中卫市| 无极县| 林西县| 同仁县| 墨竹工卡县| 金平| 禄劝| 普格县| 郓城县| 崇明县| 孟州市| 潞西市| 利川市| 江源县| 新巴尔虎左旗| 襄樊市| 巨野县| 思南县| 大埔区| 合肥市| 乌鲁木齐县|