李非
[摘?????????? 要]? 如何在教學(xué)中用案例展開(kāi)相應(yīng)的統(tǒng)計(jì)研究以及預(yù)測(cè),通過(guò)案例對(duì)統(tǒng)計(jì)結(jié)果變動(dòng)進(jìn)行多次試驗(yàn)。預(yù)測(cè)變動(dòng)的結(jié)果對(duì)多元線性回歸方程的整體會(huì)不會(huì)造成影響,或者是造成怎樣的影響?舉出實(shí)例進(jìn)行分析與討論,同時(shí)將模型與其他的方法相結(jié)合,這樣檢測(cè)結(jié)果的準(zhǔn)確性才能得到更多保障,讓學(xué)生直觀地理解多元統(tǒng)計(jì)分析。
[關(guān)??? 鍵?? 詞]? 多元線性回歸;預(yù)測(cè)模型;案例分析
[中圖分類號(hào)]? G712??????????? ?? ??????? [文獻(xiàn)標(biāo)志碼]? A???????? ????????????? [文章編號(hào)]? 2096-0603(2019)08-0086-02
一、引言
(一)研究背景
在統(tǒng)計(jì)教學(xué)中,涉及元統(tǒng)計(jì)分析時(shí),其中多元線性回歸方法是最常見(jiàn)常用的,也是最難理解的。在使用多元線性回歸方法時(shí),需要建立回歸方程,將自變量和因變量之間的關(guān)系、兩者之間的聯(lián)系進(jìn)行相應(yīng)的分析與討論。
由于線性回歸在不少行業(yè)中都得到了廣泛應(yīng)用,學(xué)生一定要理解清楚。在教學(xué)中,一般需要做的就是兩件事,一是評(píng)定自變量對(duì)因變量的影響程度,二是最優(yōu)方案的偏離度。通過(guò)這一系列實(shí)驗(yàn)的驗(yàn)證、分析、討論,然后總結(jié),從而進(jìn)行相應(yīng)的比較。
本文通過(guò)從不同角度的分析,探索了多元線性回歸統(tǒng)計(jì)預(yù)測(cè)模型的運(yùn)用情況,這樣在教學(xué)中可以讓學(xué)生更好的理解和應(yīng)用。
(二)研究創(chuàng)新點(diǎn)
本文將統(tǒng)計(jì)教學(xué)之中的線性回歸理論與一定的數(shù)學(xué)模型相結(jié)合,對(duì)隨機(jī)變量以及其他變量之間的關(guān)系展開(kāi)相應(yīng)的分析與研究,讓學(xué)生能夠更直觀地理解多元線性回歸這個(gè)問(wèn)題。通過(guò)已知的數(shù)據(jù)展開(kāi)一定的分析和統(tǒng)計(jì),建立相應(yīng)的預(yù)測(cè)以及統(tǒng)計(jì)模型,對(duì)未來(lái)的變化展開(kāi)預(yù)測(cè),從而讓學(xué)生能夠更加準(zhǔn)確的理解,并且本文利用實(shí)例作為補(bǔ)充,進(jìn)一步加深了研究的可行性,提高了研究具有的價(jià)值和意義。
二、多元線性回歸統(tǒng)計(jì)預(yù)測(cè)模型的建立
多元線性回歸分析一般分為兩步,第一步是建多元線性回歸方程。參考因變量與多個(gè)自變量的觀測(cè)數(shù)值,根據(jù)實(shí)驗(yàn)情況,分析和討論因變量受到自變量的影響情況和因變量自身的線性影響情況,想要選擇最適合的多元線性回歸方程,必須選擇有顯著線性影響的自變量才行。
第二步是在測(cè)定因變量受不同自變量影響程度的同時(shí),把多元線性回歸方程的最優(yōu)偏離度測(cè)定出來(lái)。
(一)建立預(yù)測(cè)模型
設(shè)因變量y與自變量x1,x2,…,xm-1的現(xiàn)實(shí)測(cè)量數(shù)據(jù)共有n組
其中y作為一個(gè)可觀測(cè)的隨機(jī)變量,它的變化被m-1個(gè)非隨機(jī)因素x1,x2,…,xm-1和ε共同影響。假設(shè)y與x1,x2,…,xm-1有著下列的線性關(guān)系:
y=β0+β1x1+β2x2+...+βm-1xm-1+ε??(2.1)
在這個(gè)式子中,自變量是x1,x2,…,xm-1,因變量是y,未知參數(shù)是β0,β1,β2,...,βm-1一共m個(gè);ε是誤差項(xiàng),認(rèn)為是均值為零,方差為σ2>0的不可觀測(cè)的隨機(jī)變量,通常假定ε~N(0,σ2)。
在進(jìn)行了n(n≥p)次獨(dú)立觀測(cè)后,得到n組樣本數(shù)據(jù),即(2.1)式用矩陣形式表示為:
Y=Xβ+εε~N(1,σ2In)????(2.2)
(二)模型的參數(shù)估計(jì)
在確定了回歸的理論模型后,下一步就是通過(guò)收集、整理樣本數(shù)據(jù)對(duì)模型的未知參數(shù)進(jìn)行參數(shù)估計(jì)。我們常用的經(jīng)典估計(jì)方法就是普通最小二乘法。
根據(jù)最小二乘法β0,β1,β2,...,βm-1,設(shè)一個(gè)Q值,這個(gè)值是未知參數(shù)向量的非負(fù)二次函數(shù)。Q值越小越好,它表示的是在多次觀察中總的誤差程度。即:
有最小值。由于Q是β0,β1,β2,...,βm-1的非負(fù)二次式,最小值一定存在。
矩陣A滿秩,然后求解這個(gè)矩陣方程,得:
(三)檢驗(yàn)回歸模型
回歸模型初步建立起來(lái)后,接下來(lái)就是要檢驗(yàn)多元線性回歸關(guān)系的顯著性,就是將多個(gè)自變量與因變量的線性關(guān)系進(jìn)行檢驗(yàn)。
1.對(duì)回歸方程進(jìn)行擬合優(yōu)度檢驗(yàn)
擬合優(yōu)度即SST=SSR+SSE,就是對(duì)樣本值進(jìn)行觀測(cè),測(cè)得擬合度。
其中要測(cè)定判定系數(shù)R2,這個(gè)值反應(yīng)的是因變量y的總變差與自變量所解釋的那部分變差之間的比重,建立成數(shù)學(xué)模型即為:
擬合效果通過(guò)R2的值來(lái)反應(yīng),R2介于0與1之間,接近于1,表明實(shí)際觀測(cè)值和回歸方程之間的擬合度越好,接近于0,擬合度越差。
2.檢驗(yàn)回歸模型的顯著性
由于在多元線性回歸中,回歸系數(shù)顯著性檢驗(yàn)的t檢驗(yàn)和回歸方程顯著性檢驗(yàn)的F檢驗(yàn)不等價(jià)了,于是,F(xiàn)檢驗(yàn)顯著只能說(shuō)明線性回歸效果對(duì)自變量x整體是顯著的,但不能說(shuō)明這個(gè)結(jié)果對(duì)每一個(gè)自變量x的效果都顯著。反之也不成立。所以要分別對(duì)回歸系數(shù)和回歸方程進(jìn)行檢驗(yàn)。
3.檢驗(yàn)回歸系數(shù)的顯著性
在多元線性回歸中,每個(gè)自變量對(duì)因變量的影響的顯著性,通過(guò)回歸方程檢驗(yàn)是不行的,因此針對(duì)每個(gè)回歸系數(shù),都要進(jìn)行顯著性檢驗(yàn)。于是假設(shè),H0 ∶ βj=0?圮H1 ∶ βj≠0檢驗(yàn)統(tǒng)計(jì)量t為
如果回歸效果沒(méi)有預(yù)期的理想,可以采用后退的依次剔除法,根據(jù) tj的大小,依次剔除 tj相對(duì)的不顯著自變量,最后將剩余的顯著因素進(jìn)行一次回歸。
(四)殘差分析
回顧之前的多元線性回歸方程,我們是假設(shè)模型建立起來(lái)的,所以還需要對(duì)這個(gè)模型進(jìn)行殘差分析,剔除模型假設(shè)由于缺乏真實(shí)性的影響。我們一般采用DW檢驗(yàn)。這個(gè)基本思路是:由于殘差是按照時(shí)間順序收集的,根據(jù)(2.7)公式,如果是正相關(guān),那么殘差的相鄰值之間就會(huì)比較接近,分子項(xiàng)相對(duì)較小,于是DW值也會(huì)比較小;如果是負(fù)相關(guān),就正好相反。
三、多元線性回歸統(tǒng)計(jì)預(yù)測(cè)模型的應(yīng)用
(一)計(jì)算預(yù)測(cè)的模型
由于一般統(tǒng)計(jì)模型所使用的參數(shù)變量都比較多,計(jì)算量也很大,所以一般采用計(jì)算機(jī)軟件來(lái)操作,如SPSS、SAS、TSP等。預(yù)測(cè)模型時(shí),一般采用如下步驟。
首先,輸入具體數(shù)據(jù)。以SPSS為例,在數(shù)據(jù)編輯窗口中輸入搜集到的數(shù)據(jù)。
然后,確定分析方法。
最后,進(jìn)行回歸分析。軟件會(huì)直接計(jì)算出回歸預(yù)測(cè)的結(jié)果。
(二)案例
本文就是在教學(xué)中舉出相應(yīng)的案例,讓學(xué)生能夠通過(guò)一些實(shí)驗(yàn)驗(yàn)證與分析,判斷自變量在線性影響程度上對(duì)因變量的作用,將影響顯著的自變量選出并進(jìn)行一定的分析與討論,自主找到多元回歸的最優(yōu)方案。
另外,在此基礎(chǔ)之上,確定模型統(tǒng)計(jì)是否準(zhǔn)確,有效評(píng)定影響因子及最優(yōu)方案偏離度,并將結(jié)果運(yùn)用到多元線性回歸方程中,也是本文的目的所在。
案例:我國(guó)民航客運(yùn)量(萬(wàn)人)基本會(huì)受到以下幾個(gè)因素的影響,x1民航航線里程(萬(wàn)公里)、x2來(lái)華旅游入境人數(shù)(萬(wàn)人)、x3消費(fèi)額(億元)、x4國(guó)民收入(億元)、x5鐵路客運(yùn)量(萬(wàn)人)。(民航客運(yùn)量1998至2013年統(tǒng)計(jì)數(shù)據(jù)來(lái)自《中國(guó)統(tǒng)計(jì)數(shù)據(jù)庫(kù)》)
通過(guò)對(duì)模型進(jìn)行一定的運(yùn)用,然后對(duì)回歸方程的擬合情況得出了相應(yīng)的結(jié)果。通過(guò)軟件計(jì)算,得到結(jié)果如下:模型的標(biāo)準(zhǔn)估計(jì)的誤差為49.480,負(fù)相關(guān)系數(shù)為0.999,判定系數(shù)0.997,由此可知,模型擬合效果較好;而DW值為1.994,接近于2,可認(rèn)定為模型不存在自相關(guān)。接下來(lái)進(jìn)行方差分析,平方和=1.38287,殘差的平方和=24482.857,總計(jì)平方和=1.38487,回歸方程的F值=1128.862。所以,自變量對(duì)因變量的影響是顯著的。
最后進(jìn)行殘差統(tǒng)計(jì),預(yù)測(cè)值的標(biāo)準(zhǔn)誤差19.563~38.794之間,殘差-50.234~79.844之間。
根據(jù)數(shù)據(jù)統(tǒng)計(jì)可以看出,殘差在基本假設(shè)范圍內(nèi),所以說(shuō)模型的設(shè)定是可行的。
通過(guò)上述計(jì)算得出的回歸模型、影響因素、固定因素以及其他的一些因素,都說(shuō)明了自變量對(duì)因變量有很大的影響,并且它們之間還是線性關(guān)系。通過(guò)數(shù)據(jù)可以看到一些結(jié)論:民航客運(yùn)量的增加或者減少和民航里程增加、來(lái)華游客增加、鐵路客運(yùn)量減少都有著正相關(guān)。足以說(shuō)明模型的擬合情況還是不錯(cuò)的,它的預(yù)測(cè)結(jié)果也不是盲目定論的,也是合乎情理的、可靠的,值得相信的。
在現(xiàn)實(shí)生活中,有很多這樣的事例,都可以說(shuō)明因變量與自變量之間的關(guān)系,且因變量會(huì)受其他因素的影響,并且會(huì)隨之而改變,并且影響因素不止兩個(gè),當(dāng)影響因素達(dá)到了一定的數(shù)量,才能更好地解釋因變量的變化原因。學(xué)生通過(guò)理解這個(gè)案例,可以舉一反三,達(dá)到教學(xué)目的。
四、結(jié)論
第一,本文深入分析和詳細(xì)介紹了如何建立和運(yùn)用多元線性回歸模型的步驟,并且進(jìn)行了實(shí)例分析,從實(shí)例分析的結(jié)果可以看到,多元線性回歸模型的擬合效果明顯,預(yù)測(cè)結(jié)果真實(shí)有效,學(xué)生容易理解,也容易掌握,可以自主分析。
第二,本文研究的多元線性回歸模型,是在多個(gè)變量中選擇有顯著影響的變量,選用的模型對(duì)變量的控制在預(yù)測(cè)范圍內(nèi)。
第三,由于多元線性回歸的統(tǒng)計(jì)預(yù)測(cè)模型,在其他學(xué)科上也有著廣泛的應(yīng)用,藉此說(shuō)明本模型在后期相關(guān)學(xué)科的教學(xué)研究上也存在可行性。
參考文獻(xiàn):
[1]仇海全,曹炳元.模糊線性規(guī)劃的一種解法[A].中國(guó)運(yùn)籌學(xué)會(huì)第八屆學(xué)術(shù)交流會(huì)論文集[C],2014.
[2]徐百興.關(guān)于企業(yè)產(chǎn)品決策的LP/CPV集成數(shù)學(xué)模型的最優(yōu)解計(jì)算公式[A].1998中國(guó)控制與決策學(xué)術(shù)年會(huì)論文集[C],2013.
[3]楊吉會(huì).一類灰正項(xiàng)幾何規(guī)劃的解法[A].中國(guó)運(yùn)籌學(xué)會(huì)模糊信息與模糊工程分會(huì)第五屆學(xué)術(shù)年會(huì)論文集[C],2010.