呂林靜
(海南大學(xué)金融統(tǒng)計(jì)系, ???70228)
地區(qū)生產(chǎn)總值與固定資產(chǎn)投資額的數(shù)據(jù)分析
呂林靜
(海南大學(xué)金融統(tǒng)計(jì)系, ???70228)
運(yùn)用探索性數(shù)據(jù)分析的方法定量地分析各地全社會(huì)固定資產(chǎn)投資對(duì)于地區(qū)經(jīng)濟(jì)增長(zhǎng)的拉動(dòng)作用;分別運(yùn)用最小二乘法和三組耐抗線的方法進(jìn)行回歸擬合,并且通過(guò)將原始?xì)埐钸M(jìn)行不同尺度下的轉(zhuǎn)換、對(duì)每個(gè)樣本杠桿率進(jìn)行計(jì)算以及殘差箱線圖判斷異常值點(diǎn),綜合分析之后找出異常值,然后對(duì)去掉異常值點(diǎn)后的數(shù)據(jù)進(jìn)行最小二乘法的回歸,求出擬合直線,最后分別求出兩種方法下的均方誤差并對(duì)擬合模型的優(yōu)劣進(jìn)行評(píng)價(jià)。
地區(qū)生產(chǎn)總值; OLS; 三組耐抗線; 異常值
國(guó)內(nèi)生產(chǎn)總值是指在一定時(shí)期內(nèi)一個(gè)國(guó)家或地區(qū)的經(jīng)濟(jì)中所生產(chǎn)出的全部最終產(chǎn)品和勞務(wù)的價(jià)值,是衡量國(guó)家經(jīng)濟(jì)狀況的最佳指標(biāo),不但可反映一個(gè)國(guó)家的經(jīng)濟(jì)表現(xiàn),更可以反映一國(guó)的國(guó)力與財(cái)富。實(shí)際統(tǒng)計(jì)中,一般以支出法為標(biāo)準(zhǔn)來(lái)計(jì)算國(guó)內(nèi)生產(chǎn)總值。在支出法中,投資支出直接構(gòu)成了國(guó)內(nèi)生產(chǎn)總值的一部分,而固定資產(chǎn)投資又是投資支出的重要組成部分。地區(qū)生產(chǎn)總值是指本地區(qū)所有常住單位在一定時(shí)期內(nèi)生產(chǎn)活動(dòng)的最終成果,是國(guó)內(nèi)生產(chǎn)總值在不同地區(qū)的具體化。因此,研究地區(qū)生產(chǎn)總值與固定資產(chǎn)投資的關(guān)系是有必要的,本文主要對(duì)地區(qū)生產(chǎn)總值和固定資產(chǎn)投資總額的關(guān)系進(jìn)行研究。
為了定量地研究地區(qū)生產(chǎn)總值與固定資產(chǎn)投資額的關(guān)系,筆者選擇了地區(qū)生產(chǎn)總值以及各地區(qū)全社會(huì)固定資產(chǎn)投資額作為研究對(duì)象,選取的樣本為2014年中國(guó) 31 個(gè)省市的地區(qū)生產(chǎn)總值與全社會(huì)固定資產(chǎn)投資額。相關(guān)數(shù)據(jù)來(lái)源于統(tǒng)計(jì)局發(fā)行的 《中國(guó)統(tǒng)計(jì)年鑒——2015》。其中,31個(gè)省市的生產(chǎn)總值在《中國(guó)統(tǒng)計(jì)年鑒——2015》“國(guó)民經(jīng)濟(jì)核算”下的 “地區(qū)生產(chǎn)總值和指數(shù)”中,全社會(huì)固定資產(chǎn)投資在《中國(guó)固定資產(chǎn)投資統(tǒng)計(jì)年鑒——2015》“固定資產(chǎn)投資”下的“各地區(qū)全社會(huì)固定資產(chǎn)投資”中。
為了便于分析,把各地區(qū)的地區(qū)生產(chǎn)總值記作Y,各地區(qū)全社會(huì)固定資產(chǎn)投資記作X。為了初步分析地區(qū)生產(chǎn)總值(Y)與全社會(huì)固定資產(chǎn)投資額(X)的關(guān)系,可以作出以X為橫坐標(biāo),Y為縱坐標(biāo)的散點(diǎn)圖。通過(guò)對(duì)散點(diǎn)圖的觀察可以發(fā)現(xiàn)兩者間存在著某種線性關(guān)系,于是假設(shè)地區(qū)生產(chǎn)總值與全社會(huì)固定資產(chǎn)投資額有著密切聯(lián)系,下文進(jìn)一步探討與研究。
3.1 圖形分析
通過(guò)繪制地區(qū)生產(chǎn)總值和全社會(huì)固定資產(chǎn)投資額這兩個(gè)箱線圖,如圖1、圖2所示。對(duì)比可得知,地區(qū)生產(chǎn)總值和全社會(huì)固定資產(chǎn)投資額數(shù)據(jù)的中位數(shù)離下四分位數(shù)比離上四分位數(shù)近得多,數(shù)據(jù)均呈現(xiàn)出左偏分布,并且地區(qū)生產(chǎn)總值有三個(gè)明顯的離群值。三個(gè)離群值分別為廣東省,江蘇省和山東省的地區(qū)生產(chǎn)總值,筆者認(rèn)為,是由于上述三省為沿海省份,經(jīng)濟(jì)更為發(fā)達(dá)而導(dǎo)致的。
圖1 各地區(qū)生產(chǎn)總值與全社會(huì)固定資產(chǎn)投資額的散點(diǎn)圖
圖2 各地區(qū)生產(chǎn)總值與全社會(huì)固定資產(chǎn)投資額的箱線圖
通過(guò)對(duì)各地區(qū)生產(chǎn)總值和全社會(huì)固定資產(chǎn)投資額莖葉圖的繪制,如圖3、圖4所示,可以直觀地看出,這兩個(gè)批的分布均是偏斜的,且各地生產(chǎn)總值還有三個(gè)邊遠(yuǎn)數(shù)據(jù)點(diǎn)。與從箱線圖中得出的結(jié)論一致。
圖3 地區(qū)生產(chǎn)總值莖葉圖
圖4 全社會(huì)固定資產(chǎn)投資莖葉圖
3.2 線性分析——最小二乘法
通過(guò)對(duì)地區(qū)生產(chǎn)總值與全社會(huì)固定資產(chǎn)投資額的簡(jiǎn)單線性分析可知,地區(qū)生產(chǎn)總值與全社會(huì)固定資產(chǎn)投資額之間的相關(guān)系數(shù)為0.777 854,調(diào)整后的相關(guān)系數(shù)為0.770 194,且通過(guò)了t檢驗(yàn)和F檢驗(yàn),符合假設(shè)檢驗(yàn)的條件。但由于調(diào)整后的相關(guān)系數(shù)只有0.770 194,故擬合效果不是很理想。
表2 最小二乘法回歸結(jié)果
根據(jù)相關(guān)數(shù)據(jù)進(jìn)行最小二乘回歸分析,可以得到的最小二乘法模型為:
(1)
(2726.172) (0.141 014)
t=(-0.406 127) (10.076 95)
R2=0.777 854F=101.545 0n=31
圖5 最小二乘法下擬合直線
由于原始數(shù)據(jù)具有一定的非對(duì)稱性,并且在地區(qū)生產(chǎn)總值數(shù)據(jù)右側(cè)的尾部有離群值存在,無(wú)法正確判斷兩者的數(shù)據(jù)分布情況,考慮到嚴(yán)謹(jǐn)性,我們嘗試進(jìn)行數(shù)據(jù)變換。
霍格林指出:數(shù)據(jù)變換可以保持批中數(shù)據(jù)的次序;可以保持一個(gè)批的字母值,不計(jì)由于數(shù)據(jù)點(diǎn)之間作內(nèi)插造成的小差異;保證了原始批中非常靠近的點(diǎn),在重新表達(dá)后批中也非常靠近,至少相對(duì)于新尺度很靠近;保證函數(shù)沒有尖銳的拐角;并且由初等函數(shù)來(lái)規(guī)定,以便差不多用最簡(jiǎn)單的手持計(jì)算器就可以快而方便地做重新表達(dá)。因此數(shù)據(jù)變換可以達(dá)到令人滿意的效果,下面進(jìn)行一系列的數(shù)據(jù)變換,以期將不對(duì)稱的數(shù)據(jù)變?yōu)閷?duì)稱的數(shù)據(jù),并且消除異常值。
4.1 以10為底的對(duì)數(shù)尺度數(shù)據(jù)變換
將地區(qū)生產(chǎn)總值和全社會(huì)固定資產(chǎn)投資額進(jìn)行對(duì)數(shù)變換后,分別對(duì)數(shù)據(jù)做出箱線圖,如圖6所示。
圖6 分別對(duì)地區(qū)生產(chǎn)總值和全社會(huì)固定 資產(chǎn)投資額進(jìn)行對(duì)數(shù)變換后的箱線圖
通過(guò)箱線圖可以看出,經(jīng)過(guò)對(duì)數(shù)變換后,這兩個(gè)批的數(shù)據(jù)與變換前相比較為對(duì)稱,但是離群值變多。由于最小二乘回歸線不提供耐抗性,一個(gè)野的數(shù)據(jù)點(diǎn)就可以支配控制擬合線,若用這兩個(gè)新的數(shù)據(jù)批,估計(jì)出的參數(shù)就不穩(wěn)定,顯然,對(duì)數(shù)變換的效果不理想。
4.2 平方根變換
為方便表示,記A=Y^1/2,B=X^1/2,做出箱線圖,如圖7所示。
圖7 分別對(duì)地區(qū)生產(chǎn)總值和全社會(huì)固定 資產(chǎn)投資額開平方根后的箱線圖
通過(guò)箱線圖可以看出,經(jīng)過(guò)平方根變換后,這兩個(gè)批的數(shù)據(jù)均比較對(duì)稱,且對(duì)全社會(huì)固定資產(chǎn)投資額進(jìn)行平方根變換后,沒有離群值的存在,但地區(qū)生產(chǎn)總值經(jīng)平方根變換后存在三個(gè)異常值。因此,平方根變換的效果不夠理想。
4.3 四次方根變換
為方便表示,記M=Y^1/4,N=X^1/4。對(duì)數(shù)據(jù)做出箱線圖,如圖8所示。
圖8 分別對(duì)地區(qū)生產(chǎn)總值和全社會(huì)固定 資產(chǎn)投資額開四次方根后的箱線圖
觀察箱線圖,可以發(fā)現(xiàn)經(jīng)過(guò)四次方根變換后,這兩個(gè)批的數(shù)據(jù)均比較對(duì)稱,但地區(qū)生產(chǎn)總值經(jīng)四次方根變換后存在兩個(gè)異常值,全社會(huì)固定資產(chǎn)投資額經(jīng)四次方根變換后存在一個(gè)離群值。因此,經(jīng)過(guò)四次方根變換后,這兩個(gè)批的異常值并不能消失,由于野值使OLS法估計(jì)出的參數(shù)不穩(wěn)定,因此,四次方根變換同樣不能達(dá)到理想的效果。
經(jīng)過(guò)上述數(shù)據(jù)變換,這兩個(gè)批中的異常值并不能被消除,考慮到對(duì)經(jīng)濟(jì)意義的解釋,我們不再繼續(xù)進(jìn)行數(shù)據(jù)變換。由于最小二乘回歸線不提供耐抗性,一個(gè)野的數(shù)據(jù)點(diǎn)就可以支配控制擬合線,使它給出一個(gè)完全引入歧途的Y和X之間關(guān)系的概括公式,而三組耐抗線則避免了這個(gè)困難,因此我們采用三組耐抗線的方法對(duì)各地區(qū)生產(chǎn)總值(Y)和全社會(huì)固定資產(chǎn)投資額(X)的關(guān)系進(jìn)行探索。
對(duì)于數(shù)據(jù)(x,y),首先把x的值按升序排序使得x1≤x2≤…≤xn,然后在這些排過(guò)序的值的基礎(chǔ)上,將(xi,yi)分割成三個(gè)組(左組,中組,右組),使組的大小盡可能的相等,見表3。
表3 分組后數(shù)據(jù)
在三個(gè)組中,我們分別求出x和y的中位數(shù),得到三個(gè)組的總括點(diǎn)(XL,XL),(XM,XM), 以及(XR,YR)。組內(nèi)總括點(diǎn)使得擬合線具有耐抗性,為了更好地?cái)M合數(shù)據(jù),我們以斜率b0和中心值XM來(lái)進(jìn)行擬合。求得的(XL,YL),(XM,YM),(XR,YR),分別為(6 470.33,8 051.605),(13 843.22,15 714.63),(25 512.365,32 179.695)。因此初始斜率為:
(2)
(3)
數(shù)據(jù)點(diǎn)分成的三個(gè)組以及初始線的殘差,見表4。
表4 地區(qū)生產(chǎn)總值和全社會(huì)固定資產(chǎn)投資額——三個(gè)組和初始?xì)埐?/p>
(4)
(5)
因此,一次調(diào)整后的斜率為:
(6)
(7)
可以看到,δ1按絕對(duì)值大小比b0小得多,但超過(guò)了b0絕對(duì)值的1 %,還不是可以忽略不計(jì)的。于是,做第二步迭代。分別求出X和R(1)的中位數(shù),得到三個(gè)組的總括點(diǎn):(6 470.33,133.475 271 3),(13 843.22,-534.939 879 3),(25 512.365,178.002 558 6),通過(guò)計(jì)算可以得出:
(8)
(9)
因此,二次迭代后斜率為:
(10)
(11)
可以看到,δ2的絕對(duì)值比b0的絕對(duì)值小得多,且小于b0絕對(duì)值的1 %(0.012 671),于是停止迭代。因此,結(jié)果的擬合線為:
(12)
圖9 三組耐抗線下擬合直線
離這條線的殘差對(duì)全社會(huì)固定資產(chǎn)投資額(X)的散點(diǎn)圖如圖10所示。
圖10 擬合耐抗線后地區(qū)生產(chǎn)總值殘差 對(duì)全社會(huì)固定資產(chǎn)投資額散點(diǎn)圖
總體來(lái)看,除去在外值之后,散點(diǎn)圖較為平坦??梢钥闯?,稍微異常的數(shù)據(jù)點(diǎn)幾乎對(duì)于概括了數(shù)據(jù)主體部分的直線沒有影響。
圖11 最小二乘回歸殘差對(duì)全社會(huì)固定資產(chǎn)投資額散點(diǎn)圖
上圖為最小二乘殘差對(duì)全社會(huì)固定資產(chǎn)總額的散點(diǎn)圖,可以看出它與圖10很相似,但是這個(gè)圖提示一個(gè)略微向下的趨勢(shì)。這就是說(shuō),如果去掉一個(gè)稍微負(fù)斜率的直線后,最小二乘殘差看起來(lái)會(huì)更水平一些。
6.1 異常點(diǎn)分析
6.1.1 殘差圖
(13)
將各省的全社會(huì)固定資產(chǎn)投資(X)與其殘差(ri)畫圖分析,見圖12。
圖12 最小二乘回歸原始?xì)埐顖D
由圖12可看到有一個(gè)點(diǎn)明顯超出10 000的范圍,而另兩個(gè)點(diǎn)也略超出10 000,則可判定有異常值的存在。嚴(yán)重超出1 000的樣本為廣東,略超出10 000的有上海、北京。
6.1.2 杠桿率圖
(14)
圖13 杠桿率圖
在本實(shí)例中,由于此模型為一元線性回歸模型,只有截距與斜率兩個(gè)參數(shù),又因?yàn)橐还灿?1個(gè)樣本數(shù)據(jù),因此這31個(gè)殘差的平均杠桿率為2 /31,即0. 064 5。而從圖中可以看出有兩個(gè)殘差的杠桿率遠(yuǎn)遠(yuǎn)大于其平均杠桿率,即山東和江蘇,有一個(gè)殘差的杠桿率略微大于其平均杠桿率,為西藏。
6.1.3 標(biāo)準(zhǔn)化殘差圖
(15)
(16)
(17)
(18)
從圖14可以看出,由于標(biāo)準(zhǔn)化后的殘差消除了異方差,且服從正態(tài)分布,則其標(biāo)準(zhǔn)化殘差的絕對(duì)值超過(guò)Za/2(1.96)的概率為0.05,而由圖看出有一個(gè)值明顯超出了1.96,還有一個(gè)值略微超過(guò)1.96,可找到超過(guò)1.96的異常值分別為廣東、上海。
圖14 標(biāo)準(zhǔn)化殘差圖
6.1.4.殘差箱線圖
從上四分?jǐn)?shù)Fu向上跨出dF的3/2倍,從下四分?jǐn)?shù)向下跨出dF的3/2倍,得到兩個(gè)截?cái)帱c(diǎn),把這兩個(gè)截?cái)帱c(diǎn)之外的觀測(cè)值當(dāng)作離群值。根據(jù)這一定義,直接畫出殘差的箱線圖即可一目了然地發(fā)現(xiàn)離群值,即廣東、上海、北京、浙江四地,如圖15所示。
圖15 殘差箱線圖
通過(guò)以上對(duì)于異常點(diǎn)的不同分析,可看出廣東、上海在4種方式的異常點(diǎn)判斷中均出現(xiàn)了三次,但廣東每次都是遠(yuǎn)遠(yuǎn)超出標(biāo)準(zhǔn),而上海有兩次都是超出標(biāo)準(zhǔn)不多;北京出現(xiàn)了兩次,且每次都是稍微超出標(biāo)準(zhǔn)而被選為異常點(diǎn);山東、江蘇、浙江、西藏僅僅出現(xiàn)了一次。綜合以上分析,筆者認(rèn)為應(yīng)將廣東省剔除,以避免異常值對(duì)于回歸擬合的影響。
6.2 模型優(yōu)化
將廣東省對(duì)應(yīng)的數(shù)據(jù)剔除之后,再次進(jìn)行最小二乘回歸,回歸結(jié)果如下:
表5 改進(jìn)后的最小二乘法回歸結(jié)果
(19)
(185 9.479) (0.097 576)
t=(-0.295 814) (13.531 30)
R2=0.867 359 F=183.096 1 n=30
圖16 改進(jìn)后的散點(diǎn)圖和擬合直線
6.3 模型優(yōu)化效果評(píng)價(jià)
用均方誤差來(lái)比較直接用最小二乘法擬合的直線與剔除異常點(diǎn)后用最小二乘法擬合的直線效果的優(yōu)劣。
通過(guò)計(jì)算得出最初的最小二乘回歸的均方誤差為6.193 5×107,優(yōu)化后的均方誤差為2.873 3×107,由此明顯看出去掉一個(gè)離群點(diǎn)后的擬合偏誤要小得多,模型的優(yōu)化是有效的。
由三組耐抗線算得的均方誤差為7.332 9×107,大于用最初的最小二乘法算出的均方誤差6.193 5×107。
圖17 原始數(shù)據(jù)下三組耐抗線與最小二乘法殘差的比較
將原始樣本數(shù)據(jù)的最小二乘法計(jì)算于三組耐抗線計(jì)算所得到的殘差畫在一張圖中,得到圖17。其中藍(lán)色的圈代表運(yùn)用最小二乘法擬合得到的殘差,綠色的圈表示運(yùn)用三組耐抗線進(jìn)行擬合后得到的殘差。
通過(guò)觀察殘差對(duì)X(全社會(huì)固定資產(chǎn)投資額)的散點(diǎn)圖可以發(fā)現(xiàn),運(yùn)用三組耐抗線方法得到的殘差中有距離均值非常遠(yuǎn)的點(diǎn),而最小二乘法得到的殘差到中心的距離則沒有三組耐抗線的殘差距中心遠(yuǎn)。由此可以看出,三組耐抗線本身具有耐抗性,它不因個(gè)別偏離較大的點(diǎn)而劇烈影響所擬合的參數(shù)值。因此即便有差異很大的點(diǎn),它也會(huì)將離群點(diǎn)對(duì)擬合參數(shù)的影響降到很小,因此在殘差圖上就可能出現(xiàn)某些離群點(diǎn)距離擬合直線上對(duì)應(yīng)點(diǎn)的距離很大的情況。而最小二乘法則不然,因?yàn)樗沟脷埐钇椒胶妥钚?,因而考慮到了包括異常值在內(nèi)的所有的數(shù)。對(duì)于越偏遠(yuǎn)的點(diǎn),最小二乘法的擬合效果越差,因?yàn)樗鼮榱耸箽埐畹钠椒胶妥钚。赡軙?huì)舍去其他擬合效果較好的模型。因此對(duì)于異常值較多或者偏離較遠(yuǎn)的情況下,三組耐抗線的方法相對(duì)于最小二乘法更加可靠。但在上述數(shù)據(jù)中,由于僅有一個(gè)野值,并且其離群的程度不是很大,因此由三組耐抗線算得的均方誤差要大于最小二乘法算出的均方誤差。
[1] (美)(D.C.霍格林)David C.Hoaglin. 探索性數(shù)據(jù)分析[M].陳忠璉,郭德媛,譯.北京:中國(guó)統(tǒng)計(jì)出版社, 1998.
[2] 江克寧.地區(qū)生產(chǎn)總值與固定資產(chǎn)投資關(guān)系的實(shí)證分析[J].統(tǒng)計(jì)與決策,2015(17):97-100.
[3] 吳建群.探索性數(shù)據(jù)分析在能源消費(fèi)中的應(yīng)用探討——人均生活能源消費(fèi)和人均GDP的關(guān)系研究[J].現(xiàn)代商貿(mào)工業(yè),2011(17):46-47.
2017-03-14
呂林靜(1997-),女,海南??谌耍芯糠较?yàn)榻?jīng)濟(jì)學(xué),電話:17889982336。
F127;P224
A
1671-4733(2017)04-0118-05
淮南職業(yè)技術(shù)學(xué)院學(xué)報(bào)2017年4期