王純杰, 張?jiān)娪?/p>
(長春工業(yè)大學(xué) 數(shù)學(xué)與統(tǒng)計(jì)學(xué)院, 吉林 長春 130012)
婚姻是人類社會(huì)生活的重要體現(xiàn),對(duì)社會(huì)的結(jié)構(gòu)影響重大[1]。20世紀(jì)70年代末以來,中國離婚率持續(xù)增加,引起了國內(nèi)外學(xué)者的關(guān)注。建模過程中選擇9個(gè)指標(biāo)[2-4],考察這些因素對(duì)婚姻狀況的影響,通過運(yùn)用回歸分析模型探究變量粗離婚率與各相關(guān)指標(biāo)的關(guān)系。文中建立了全因素模型、逐步回歸模型、嶺回歸模型[5],并結(jié)合數(shù)學(xué)模型實(shí)際意義給出結(jié)論與建議。
文中研究數(shù)據(jù)為1996-2014年的19條縱向年度數(shù)據(jù),所研究的地區(qū)為全國范圍。研究的因變量選定為粗離婚率。解釋變量的選擇從三個(gè)角度入手:一是經(jīng)濟(jì)水平(居民消費(fèi)水平、房地產(chǎn)住宅投資);二是受教育水平(年度普通本??普猩鷶?shù)、研究生招生數(shù));三是社會(huì)參數(shù)水平(第三產(chǎn)業(yè)GDP貢獻(xiàn)率、第三產(chǎn)業(yè)增加值、移動(dòng)電話普及率、男性人口、女性人口)。變量聲明和源數(shù)據(jù)分別見表1和表2。
表1 變量聲明
表2 源數(shù)據(jù)
設(shè)隨機(jī)變量y與p個(gè)解釋變量x1,x2,…,xp的線性回歸模型[6-7]為:
y=β0+β1x1+β2x2+…+βpxp+ε
(1)
式中:β0,β1,β2,…,βp——p+1個(gè)未知參數(shù);
β0——回歸常數(shù);
β1,β2,…,βp——回歸系數(shù);
y——被解釋變量;
x1,x2,…,xp——p個(gè)可以精確測(cè)量并控制的一般變量,稱為解釋變量;
ε——隨機(jī)誤差,對(duì)隨機(jī)誤差項(xiàng)假定
(2)
對(duì)一個(gè)實(shí)際問題,如果獲得n組觀測(cè)數(shù)據(jù)(xi1,xi2,…xip,yi)(i=1,2,…,n),則線性回歸模型可表示為
(3)
上式的矩陣形式為
y=Xβ+ε
(4)
其中
(5)
X是一個(gè)n×(p+1)階矩陣,稱為回歸設(shè)計(jì)矩陣或資料矩陣。
(6)
(7)
移項(xiàng)得
(8)
當(dāng)(X′X)-1存在時(shí),即得回歸參數(shù)的最小二乘估計(jì)為
(9)
式(9)為經(jīng)驗(yàn)回歸方程。
在建模之前,首先對(duì)各指標(biāo)進(jìn)行相關(guān)性分析。經(jīng)SAS軟件corr過程步得到y(tǒng)與9個(gè)解釋變量的相關(guān)矩陣見表3。
表3 全模型Pearson相關(guān)系數(shù)
可以看出,y與各解釋變量的相關(guān)系數(shù)基本都屬于0.8~1.0范圍內(nèi)。
但通過表3也可以明顯看出,各解釋變量之間存在高度相關(guān)性,這說明全模型存在著實(shí)際回歸問題中常出現(xiàn)的多重共線性。顯然,直接使用全模型進(jìn)行回歸是不合理的。
為解決多重共線性問題,文中的思路是使用逐步回歸法選取最優(yōu)變量集,在最優(yōu)子集基礎(chǔ)上再進(jìn)行普通最小二乘回歸。取顯著水平aentry=0.1,aremoval=0.15情況下,SAS程序在9個(gè)解釋變量中選擇了3個(gè),分別為x1,x3,x5,見表4。
表4 逐步回歸模型匯總
入選變量的p值均小于0.05,通過了顯著性檢驗(yàn)。此時(shí)對(duì)最優(yōu)變量集做普通最小二乘回歸,并用方差膨脹因子法檢驗(yàn)多重共線性,分別見表5和表6。
表5 選模型方差分析
表6 選模型擬合優(yōu)度
此時(shí),Pr<0.000 1,即基于逐步回歸所生成的選模型顯著有效,R2=0.992 1,即選模型擬合程度為99.21%。這樣看來,逐步回歸后基于最優(yōu)子集的選模型很好地?cái)M合了源數(shù)據(jù)。
選模型的參數(shù)估計(jì)和假設(shè)檢驗(yàn)結(jié)果見表7。
表7 選模型參數(shù)估計(jì)及多重共線性檢驗(yàn)
顯然在選模型下的回歸系數(shù)均通過了檢驗(yàn),即各解釋變量系數(shù)均顯著不為0。此時(shí)方差膨脹因子也在正常范圍內(nèi),認(rèn)為選模型沒有出現(xiàn)多重共線性。由表中讀出參數(shù)的估計(jì)值,可得模型:
y= 1.735 2+0.000 10x1+0.010 92x3-
0.032 81x5
(10)
由于實(shí)際問題是錯(cuò)綜復(fù)雜的,因此在建立實(shí)際問題的回歸模型時(shí),會(huì)出現(xiàn)某一因素或某些因素隨著解釋變量觀測(cè)值的變化而變化,導(dǎo)致隨機(jī)誤差項(xiàng)產(chǎn)生不同的方差,違背了方差齊性的原假設(shè)公式,也就是常說的異方差現(xiàn)象。模型(10)的殘差直觀來看較為分散且沒有明顯趨勢(shì),但為給出更可靠的結(jié)果,文中進(jìn)行spearman相關(guān)系數(shù)檢驗(yàn),以判斷基于逐步回歸的選模型是否存在異方差性,見表8。
可見,在置信水平為0.05的情況下,選模型不存在異方差現(xiàn)象。但倘若模型違背了隨機(jī)誤差項(xiàng)是無關(guān)的這一條假設(shè),就會(huì)存在自相關(guān)現(xiàn)象。為判斷模型(10)是否存在自相關(guān)性,運(yùn)用DW法檢驗(yàn)。
表8 選模型spearman相關(guān)系數(shù)法判斷異方差
表9 選模型DW檢驗(yàn)自相關(guān)
根據(jù)樣本量n=19與解釋變量數(shù)目p=4(包含常數(shù)項(xiàng)),查DW分布表,得到臨界值dL=0.97,dU=1.68,依照DW準(zhǔn)則模型落入不能確定區(qū)域。
為消除這一現(xiàn)象,對(duì)選模型進(jìn)行一步box-cox變換,見表10。
表10 box-cox變換模型擬合優(yōu)度
變換后模型擬合程度為99.11%。選取lambda=1.4,對(duì)模型(10)變換。
根據(jù)box-cox變換后輸出的參數(shù)估計(jì)結(jié)果,y(1.4)對(duì)x的回歸方程為:
68+0.000 10x1-0.002 54x3-0.038 50x5
(11)
(12)
為解決模型多重共線性問題,選擇從模型的數(shù)據(jù)角度考慮,采用剔除解釋變量的方法來克服多重共線性的影響,最終得到模型(12),但這始終是基于普通最小二乘估計(jì)。而近40年來,統(tǒng)計(jì)學(xué)家還對(duì)普通最小二乘估計(jì)提出了一些改進(jìn)方法。目前,嶺回歸就是最有影響的一種新的估計(jì)方法,在此,文中列舉嶺回歸建模結(jié)果以作參考。
考慮到變量的量綱問題,先將數(shù)據(jù)標(biāo)準(zhǔn)化。由于嶺參數(shù)k不是唯一確定的,所以得到的嶺回歸估計(jì)模型是一個(gè)估計(jì)族,選定k的過程就顯得至關(guān)重要,文中結(jié)合標(biāo)準(zhǔn)化后的嶺跡圖與標(biāo)準(zhǔn)化后的方差膨脹因子選擇k。若采用方差擴(kuò)大因子法,當(dāng)k≥0.016時(shí),方差擴(kuò)大因子小于10,故建議在此范圍內(nèi)選取k。同時(shí)結(jié)合嶺跡圖法選取k=0.016。
在用嶺回歸進(jìn)行變量選擇時(shí)發(fā)現(xiàn),解釋變量x4有相對(duì)穩(wěn)定且絕對(duì)值較小的嶺回歸系數(shù),可以剔除該變量。又因?yàn)閤2,x3,x6和x9的嶺回歸系數(shù)很不穩(wěn)定,且隨著k的增加很快趨于0,這些自變量也是可以剔除的。最終剩余變量為x1,x5,x7,x8,即可用這些變量建立回歸方程。
當(dāng)k=0.016時(shí),選模型標(biāo)準(zhǔn)化嶺回歸方程為:
0.36x7+0.064x8
(13)
嶺回歸模型均方誤差RMSE=0.130 38。相比于表6逐步回歸后選模型下的均方誤差,雖略有增大,但屬于可接受范圍內(nèi)。造成這種情況的原因是在嶺回歸最優(yōu)子集篩選時(shí)存在一定人為主觀因素,相比于逐步回歸篩選更為活躍,因此可能導(dǎo)致均方根誤差的變化。宏觀上講,嶺回歸模型的建立也是成功的,它同逐步回歸下box-cox模型一樣,能夠解決多重共線性問題。
文中雖已經(jīng)得到了較為完善且結(jié)果良好的模型,但仍需探討模型所存在提升的空間。散點(diǎn)圖矩陣如圖1所示。
圖1 散點(diǎn)圖矩陣
由圖1可見,y與部分解釋變量存在著較為明顯的曲線走勢(shì)。如y與x2,x3等解釋變量大致為指數(shù)函數(shù)形式。從社會(huì)意義方面考慮,指數(shù)也是更符合隨穩(wěn)定年增長率而增長的粗離婚率現(xiàn)象[8-9],以x2為例可以假設(shè)存在關(guān)系。
y=exp(β0+β1x2)
(14)
基于這種思想,嘗試將對(duì)因變量y進(jìn)行一步對(duì)數(shù)變換,再進(jìn)行普通最小二乘回歸。將因變量y進(jìn)行對(duì)數(shù)變換,得到新變量yt,即有關(guān)系
yt=ln(y)
(15)
此時(shí)基于變換后的yt進(jìn)行全模型普通最小二乘回歸,分別見表11和表12。
表11 非線性回歸方差分析
表12 非線性回歸擬合優(yōu)度
與普通最小二乘全模型相比較,非線性回歸模型均方根誤差從0.061 38減小為0.043 77,體現(xiàn)了非線性模型的穩(wěn)定性與優(yōu)越性,這說明了對(duì)因變量y的對(duì)數(shù)變換是合理的,提高了方程的擬合程度。若想更為精確的擬合問題,可以選擇在對(duì)數(shù)變換基礎(chǔ)上進(jìn)行后續(xù)多種方法的回歸分析。
在研究單一因變量y的過程中,首先根據(jù)模型變量之間的關(guān)系、誤差項(xiàng)之間的關(guān)系,針對(duì)模型存在的異方差和自相關(guān)現(xiàn)象進(jìn)行了診斷與消除。其次針對(duì)模型多重共線性問題使用逐步回歸法進(jìn)行消除,并以嶺回歸法作為參考[6]。最終建立了逐步回歸模型、嶺回歸模型,均得到了擬合度高、實(shí)際意義清晰的模型。兩個(gè)模型雖形式上各有不同,但縱觀其反映的社會(huì)問題大同小異。文中采用擬合程度最高且有代表性的box-cox變換逐步回歸模型(12)為文中最終結(jié)論。
顯然,此模型的意義符合實(shí)際情況,影響回歸方程的變量為x1、x3、x5。x1與y的正相關(guān)系數(shù)說明隨著社會(huì)經(jīng)濟(jì)水平的進(jìn)步,離婚率會(huì)隨之增加。但因x1只是經(jīng)濟(jì)水平的一個(gè)宏觀體現(xiàn),并不能完全概括社會(huì)的經(jīng)濟(jì)水平。所以對(duì)y的影響率較低,x1每增加一個(gè)單位,y會(huì)增加0.000 1。反觀x2并未入選模型,可以認(rèn)為與其說受教育水平對(duì)離婚率有所影響,不如說學(xué)歷高低會(huì)對(duì)離婚率產(chǎn)生影響。而代表社會(huì)服務(wù)業(yè)水平的x5也入選了模型,符合社會(huì)服務(wù)業(yè)發(fā)展對(duì)人民生活及思想的影響。
宏觀來講,y受到經(jīng)濟(jì)因素、教育水平因素以及社會(huì)因素三個(gè)方面的影響。首先,隨著社會(huì)的進(jìn)步、經(jīng)濟(jì)水平的不斷提升,離婚率也會(huì)隨之增加。其次,高學(xué)歷人群的婚姻相比低學(xué)歷更為穩(wěn)定。最后,社會(huì)的變遷對(duì)人民婚姻情況也有所影響,伴隨著社會(huì)第三產(chǎn)業(yè)也就是服務(wù)業(yè)水平的提升,婚姻卻變得更為脆弱。
鑒于以上分析,為穩(wěn)定全社會(huì)婚姻的穩(wěn)定性,文中提出如下建議:
隨著社會(huì)主義市場(chǎng)經(jīng)濟(jì)的不斷推進(jìn),傳統(tǒng)的倫理道德受到?jīng)_擊,新的倫理道德觀念還未建成。我國人民對(duì)婚姻的看法應(yīng)從根本上實(shí)現(xiàn)轉(zhuǎn)型,擺脫老舊的封建思想如童養(yǎng)媳、門當(dāng)戶對(duì)、重男輕女,也不該不經(jīng)篩選地效仿外來文化如AA制婚姻、性解放、三八界限婚姻。結(jié)合文中回歸模型與社會(huì)情況,當(dāng)下常出現(xiàn)將擇偶價(jià)值觀建立在高強(qiáng)度經(jīng)濟(jì)基礎(chǔ)上的情況,這種趨勢(shì)是病態(tài)的、不被接受的。顯然,與基于愛情婚姻相比,建立在經(jīng)濟(jì)水平上的婚姻是不穩(wěn)定的。由此呼吁我國社會(huì)建設(shè)健康積極的婚姻觀念、擇偶觀念以及婚后生活觀念,以減少大批量離婚對(duì)社會(huì)帶來的不穩(wěn)定性。
參考文獻(xiàn):
[1] 俞文書.少數(shù)民族地區(qū)族際離婚的特點(diǎn)及原因研究[J].懷化學(xué)院學(xué)報(bào),2016,35(1):61-65.
[2] 解韜.我國成年殘疾人口的婚姻狀況及其影響因素研究[J].人口學(xué)刊,2014,36(4):54-63.
[3] 楊文山.臺(tái)灣地區(qū)的婚姻擠壓[M].北京:中國人口出版社,2005.
[4] 李銀河.當(dāng)代中國人的擇偶標(biāo)準(zhǔn)[J].中國社會(huì)科學(xué),1989(4):61-74.
[5] 馮虹,趙一凡,艾青.中國超大城市新生代農(nóng)民工婚姻狀況及其影響因素析:基于2015年全國流動(dòng)人口動(dòng)態(tài)監(jiān)測(cè)調(diào)查數(shù)據(jù)[J].北京聯(lián)合大學(xué)學(xué)報(bào),2017(1):63-69.
[6] 何曉群,劉文卿.應(yīng)用回歸分析[M].4版.北京:中國人民大學(xué)出版社,2015.
[7] 孫建英.概率論與數(shù)理統(tǒng)計(jì)中的數(shù)學(xué)建模案例[J].長春工業(yè)大學(xué)學(xué)報(bào):自然科學(xué)版,2014,35(2):224-226
[8] 薛菁.進(jìn)城務(wù)工對(duì)農(nóng)民工婚姻生活影響研究[J].科學(xué)·經(jīng)濟(jì)·社會(huì),2013,31(3):148-152.
[9] 祝平燕,王芳.返鄉(xiāng)相親:新生代農(nóng)民工的一種擇偶形態(tài)-以豫東S村為例[J].中國青年研究,2013(9):51-60.