(西安財(cái)經(jīng)大學(xué)統(tǒng)計(jì)學(xué)院 陜西 西安 710100)
工資是勞動(dòng)者勞動(dòng)收入的主要組成部分,是GDP核算的重要依據(jù)之一,它可以用來衡量和反應(yīng)收入、分配與勞動(dòng)力發(fā)展水平。有效進(jìn)行工資預(yù)測,為勞動(dòng)經(jīng)濟(jì)決策提供依據(jù),對研究勞動(dòng)經(jīng)濟(jì)發(fā)展趨勢有重要意義。
隨著線性回歸模型的應(yīng)用越來越廣泛,已經(jīng)有研究開始注意到線性回歸模型的穩(wěn)定性這個(gè)問題。特別是當(dāng)模型中的變量是線性相關(guān)時(shí),它違背了線性回歸模型的基本假設(shè)。如何修改這些假設(shè)以滿足基本假設(shè)成為解決多重共線性問題的關(guān)鍵。通用解會(huì)丟失變量提供的有用信息,降低模型的解釋度,從而影響模型的應(yīng)用價(jià)值。不同嶺回歸方法,該方法是給保持無偏的,有用的信息模型變量的估計(jì),具有較小的平均平方誤差獲得的模型參數(shù),從而穩(wěn)定模型參數(shù)以改善模型的解釋這個(gè)問題的能力。嶺回歸是解決數(shù)據(jù)共線性這種病態(tài)特征的有效方法,是最小二乘法的改進(jìn),估計(jì)的參數(shù)能真正反映自變量與因變量之間的客觀聯(lián)系,在一些領(lǐng)域獲得了成功應(yīng)用。
隨著我國綜合實(shí)力日益增強(qiáng),我國居民的工資水平也在不斷提高,影響工資的因素有很多,需要多個(gè)方面進(jìn)行說明。本文以工資為模型的內(nèi)生變量Y,選取了受教育年限X1、居住區(qū)域X2、性別X3、工作經(jīng)驗(yàn)X4、是否為工會(huì)成員X5、每小時(shí)工資X6、年齡X7、種族X8、職業(yè)類型X9、工作部門X10為模型的外生變量。
根據(jù)已經(jīng)選取的10個(gè)外生變量對模型的內(nèi)生變量工資進(jìn)行回歸,來建立線性回歸模型
Y=β0+β1X1+β2X2+…+β10X10+ε
(1)
對模型(1)進(jìn)行進(jìn)一步分析。首先對已有數(shù)據(jù)進(jìn)行標(biāo)準(zhǔn)化,去除量綱對回歸方程所帶來的影響。用SPSS軟件運(yùn)行并輸出結(jié)果。其中第一列為嶺參數(shù)k,軟件默認(rèn)值k從0~1,步長為0.05,共有21個(gè)k值。第二列是決定系數(shù)R2,第3~12列是標(biāo)準(zhǔn)化嶺回歸系數(shù),其中第一行k=0的數(shù)值就是普通最小二乘估計(jì)的標(biāo)準(zhǔn)化回歸系數(shù)。
通過觀察圖1、圖2,發(fā)現(xiàn)變量X6、變量X7、變量X9、變量X10是共線的且比較穩(wěn)定,因此我們決定剔除這三個(gè)變量,用Y與其余自變量做嶺回歸。
圖1 嶺跡圖
圖2 相關(guān)系數(shù)與嶺回歸參數(shù)的關(guān)系
通過上面的分析,我們把嶺參數(shù)步長改為0.02,范圍減小到0.2。再用SPSS軟件對剔除后的變量做嶺回歸。
圖3 嶺跡圖
圖4 相關(guān)系數(shù)與嶺回歸參數(shù)的關(guān)系
由SPSS結(jié)果發(fā)現(xiàn)R2在k=0.04到k=0.06之間發(fā)生比較大的變動(dòng),從0.269 11變到0.268 35,因而可以選取嶺參數(shù)k=0.05。然后定k=0.05,重新做嶺回歸。
計(jì)算結(jié)果如表1所示。
表1 Ridge Regression with k=0.05
表2 ANOVA table
表3 Variables in the Equation
得到Y(jié)對X1,X2,X3,X4,X5,X8的標(biāo)準(zhǔn)化嶺回歸方程為
未標(biāo)準(zhǔn)化的嶺回歸方程為
本文通過對因變量工資水平與十一個(gè)自變量的相關(guān)系數(shù)矩陣,用SPSS軟件畫出嶺跡圖,通過分析嶺跡圖剔除影響較小的幾個(gè)因素,對剔除變量后的數(shù)據(jù)重新做嶺回歸,并改變步長,從而確定k值,然后用軟件做出模型結(jié)果。
由于在實(shí)際社會(huì)經(jīng)濟(jì)中的數(shù)據(jù)具有很強(qiáng)的相關(guān)性,在回歸過程中時(shí)很可能出現(xiàn)多重共線性問題,通過共線性分析得到預(yù)測變量具有很強(qiáng)的共線性。因此,本文采用嶺估計(jì)方法消除了預(yù)測變量間的共線性,得到了更加穩(wěn)定的回歸系數(shù)估計(jì)值,根據(jù)建立的嶺回歸預(yù)測模型可以預(yù)測出新的樣本的工資水平,且模型通過了驗(yàn)證。