• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      嶺回歸在消除多重共線性中的應(yīng)用

      2020-11-24 06:56:36林樂義
      關(guān)鍵詞:共線性回歸系數(shù)回歸方程

      林樂義

      (皖江工學(xué)院 基礎(chǔ)部, 安徽 馬鞍山 243031)

      回歸分析方法、回歸算法以及回歸模型,都是現(xiàn)階段統(tǒng)計(jì)學(xué)的重要組成,回歸分析作為一個(gè)重要的統(tǒng)計(jì)分析技術(shù),其使用率高、應(yīng)用范圍廣。利用該技術(shù)建立數(shù)學(xué)模型,表達(dá)數(shù)據(jù)之間的相互關(guān)系時(shí),由于模型中解釋變量之間存在高度相關(guān)關(guān)系,令該數(shù)學(xué)模型估計(jì)失真,以此需要通過消除多重共線性,實(shí)現(xiàn)數(shù)學(xué)模型的精準(zhǔn)估計(jì)。多重共線性也可稱作多重相關(guān)性,指自變量之間存在線性相關(guān)現(xiàn)象,當(dāng)自變量之間存在完全線性關(guān)系時(shí),則自變量之間的相關(guān)性絕對(duì)值為1;當(dāng)自變量之間完全沒有線性關(guān)系時(shí),自變量之間的相關(guān)性為0。上述說明的是2種極端的自變量線性相關(guān)關(guān)系,通常來說,目前極易出現(xiàn)的是線性程度不同的相關(guān)現(xiàn)象,自變量之間的相關(guān)性絕對(duì)值在0到1之間變化。

      針對(duì)回歸分析的多重共線性問題,文獻(xiàn)[1]提出嶺回歸中基于廣義交叉核實(shí)法的最優(yōu)模型平均估計(jì)方法,在存在異方差的背景下,考察了組合不同嶺參數(shù)下嶺估計(jì)量的模型平均方法,并在廣義交叉核實(shí)法的框架下構(gòu)造了相應(yīng)的權(quán)重選擇準(zhǔn)則,使用蒙特卡洛模擬考察了所提出的模型平均方法在有限樣本下的有效性,利用該方法對(duì)一組乙炔反應(yīng)工藝的數(shù)據(jù)進(jìn)行了分析,所得到的結(jié)論進(jìn)一步表明,模型平均法在實(shí)際數(shù)據(jù)分析工作中具有較高應(yīng)用價(jià)值。文獻(xiàn)[2]提出部分線性變系數(shù)模型的約束嶺估計(jì)方法,該方法研究了部分線性變系數(shù)模型在線性部分存在多重共線性和參數(shù)分量附加約束條件時(shí)的估計(jì)問題。基于profile最小二乘估計(jì)和嶺回歸估計(jì)方法,構(gòu)造了參數(shù)分量的約束profile嶺估計(jì),并研究了其性質(zhì)。但是以上2種方法的多重共線性處理效果較差,導(dǎo)致得到的回歸系數(shù)不貼合實(shí)際。

      針對(duì)上述方法存在的問題,本文提出全新的處理方法。該方法利用嶺回歸修正解釋變量之間的多重共線性,并通過篩除重復(fù)度高、相似性強(qiáng)的自變量,消除多重共線性,得到的回歸系數(shù)更貼合實(shí)際,為回歸分析技術(shù)的改進(jìn)和發(fā)展,提供有效的技術(shù)支持。

      1 嶺回歸在消除多重共線性中的應(yīng)用

      1.1 確認(rèn)多重共線性的影響程度

      在投入嶺回歸消除多重共線性的方法中,需要預(yù)先確認(rèn)多重共線性的影響指標(biāo)。該影響指標(biāo)就是存在大量精確相關(guān)關(guān)系或高度相關(guān)關(guān)系的解釋變量,影響模型估計(jì)精準(zhǔn)程度的指標(biāo)[3-4]。已知建立一個(gè)多元線性回歸模型需要一定條件,即回歸模型外生變量組成的設(shè)計(jì)矩陣,為列滿秩矩陣,同時(shí)該模型要求列滿秩矩陣W的秩表現(xiàn)為F(W)=b+1,說明矩陣列向量之間不存在不全為零的b+1個(gè)數(shù),用n0、n1、n2、…、nb表示,則有:

      n0+n1xi1+n2xi2+…+nbxib=0

      (1)

      上式中:i=1,2,…,m表示數(shù)量;x1、x2、…、xb表示分析模型的外生變量。此時(shí)的外生變量x之間存在嚴(yán)重的線性關(guān)系[5]。當(dāng)變量之間的共線性程度較強(qiáng)時(shí),設(shè)回歸模型為:

      y=β0+β1x1+β2x2+…+βbxb+k

      (2)

      式中:β0、β1、β2、…、βb表示與分析模型外生變量xb相對(duì)應(yīng)的回歸系數(shù);k表示固定常數(shù)。當(dāng)上述模型的解釋變量之間存在公式(1)的狀況時(shí),矩陣W的秩F(W)

      根據(jù)上圖可知,外生變量的發(fā)生概率隨著模型參數(shù)的增加而提升。因此假設(shè)1個(gè)多元線性回歸模型內(nèi)存在2個(gè)外生變量,此時(shí)的回歸模型可設(shè)置為二元化模型,計(jì)算公式為:

      y=β0+β1x1+β2x2+k′

      (3)

      式中的k′為二元化模型下的固定常數(shù)。外生變量x1與x2具有完全共線性;若x2=μx1時(shí),μ為變量控制參量,此時(shí)的二元線性回歸模型,可變?yōu)楹?jiǎn)單一元線性回歸模型:

      y=β0+(β1+μβ2)x1+k′

      (4)

      上述模型可以對(duì)(β1+μβ2)的取值進(jìn)行估計(jì),但并沒有辦法確定β1、β2各自的估計(jì)值[7]。此時(shí)的回歸模型完全失去統(tǒng)計(jì)分析意義,模型多重共線性非常嚴(yán)重。計(jì)算多重線性與模型真實(shí)值之間的差異指標(biāo):

      (5)

      上式中:g(*)表示預(yù)測(cè)函數(shù);f(*)表示評(píng)估函數(shù);σ表示對(duì)β值的約束參量;η、η′是對(duì)W、W′的限制條件標(biāo)準(zhǔn)值;d表示差異指標(biāo)。當(dāng)d值為正時(shí),說明多重線性對(duì)模型的影響較弱,消除多重共線性只需利用嶺回歸即可;當(dāng)d值為負(fù)時(shí),則說明多重共線性嚴(yán)重,需要調(diào)整嶺回歸的k值[8]。

      1.2 獲取嶺回歸k值

      圖中的rx1~rx9表示嶺跡分析曲線,根據(jù)曲線走勢(shì)可知,不同的k值會(huì)直接影響嶺跡曲線,因此需要計(jì)算2種情況下的嶺估計(jì)量k值。一種是普通嶺估計(jì)量值,

      (6)

      i=1,2,…,c.

      (7)

      上式中k2表示廣義嶺估計(jì)的k值。需要注意的是,無論是普通嶺估計(jì)結(jié)果還是廣義嶺估計(jì)結(jié)果,在獲取嶺回歸k值時(shí),都要按照實(shí)際目標(biāo)來選擇。根據(jù)全新的k值改進(jìn)嶺回歸方程,改進(jìn)后的公式為:

      (8)

      公式中:W′、W為已知的矩陣和轉(zhuǎn)置矩陣,y為上述公式所求的線性回歸方程;k表示公式(6)、(7)獲取的k值;s表示修正系數(shù);△T表示需要剔除的計(jì)算偏差[11]。綜合上述所求,獲得取值不同的嶺回歸k值,實(shí)現(xiàn)對(duì)嶺回歸方程的優(yōu)化改進(jìn)。

      1.3 篩除自變量嶺回歸消除多重共線性

      根據(jù)改進(jìn)后的嶺回歸進(jìn)行分析,以解釋變量是否具有線性相關(guān)性為分析依據(jù),將解釋自變量劃分為2個(gè)部分,實(shí)施對(duì)回歸模型的區(qū)別分析。該分析需要篩除自變量,以此達(dá)到對(duì)多重共線性全面消除的目的。嶺回歸標(biāo)準(zhǔn)化處理數(shù)據(jù),比較標(biāo)準(zhǔn)化嶺回歸系數(shù),選取自變量,設(shè)置步長(zhǎng)為a的嶺跡表,并繪制相應(yīng)的嶺跡圖,結(jié)合k值確定自變量系數(shù)大小、常數(shù)項(xiàng)的取值范圍。根據(jù)公式(8)選取嶺估計(jì)曲線趨于平穩(wěn)處的k值,已知經(jīng)公式(8)計(jì)算,獲得的步長(zhǎng)為a的嶺參數(shù)k值如表1所示[12]。

      表1 步長(zhǎng)為a的嶺參數(shù)k值表

      根據(jù)嶺跡分析法可知,在初始階段和分析末段,嶺跡大致處于穩(wěn)定,此時(shí)的k值更加符合計(jì)算要求。去掉嶺回歸系數(shù)集合中,相對(duì)來說較穩(wěn)定、且絕對(duì)值較小的自變量xi,以及隨著k值變化而快速接近于0的自變量x0,篩選后的自變量記為xj。檢驗(yàn)剩余自變量的顯著性,表2為顯著性測(cè)試結(jié)果[13]。

      表2 顯著性結(jié)果

      由于剔除自變量會(huì)損失模型中的有價(jià)值信息,因此根據(jù)上表中的顯著性分析結(jié)果,對(duì)剔除后剩余自變量xj,進(jìn)行分位數(shù)回歸分析,保證剩余變量的可靠程度。當(dāng)自變量的系數(shù)均為正數(shù)時(shí),說明這些系數(shù)與因變量呈正相關(guān)關(guān)系,意味著待分析指標(biāo)q1、q2、…、qn對(duì)因變量指標(biāo)起到了促進(jìn)作用,即因變量指標(biāo)隨著待分析指標(biāo)qn的變大而增大。選取分位點(diǎn)r,對(duì)篩除自變量進(jìn)行分位數(shù)回歸,令r=0.1,0.2,0.3,0.4,0.5,0.6,0.7,0.8,0.9,其中當(dāng)r=0.8時(shí)的分位數(shù)回歸參數(shù),如表3所示[14]。

      表3 r=0.8時(shí)的分位數(shù)回歸

      根據(jù)上表中參考數(shù)據(jù),計(jì)算各個(gè)分位點(diǎn)回歸方程的嶺回歸系數(shù),得到圖3所示的分位點(diǎn)系數(shù)值。

      圖中的x2、x3、x6、x7為篩除后的自變量。根據(jù)上圖可知,在分位點(diǎn)0.1~0.7區(qū)間內(nèi),自變量的系數(shù)變化較為平穩(wěn);而0.7~0.8區(qū)間內(nèi),除了自變量x2的系數(shù)逐漸減小,其他系數(shù)均保持緩慢增長(zhǎng)趨勢(shì);而在0.8~0.9階段,自變量x2、x6的系數(shù)變化強(qiáng)度大,且方向相反,可知分析指標(biāo)對(duì)因變量的影響是不同的[15]。在文獻(xiàn)[1]所提出應(yīng)用方法的基礎(chǔ)上,結(jié)合嶺回歸實(shí)現(xiàn)對(duì)多重共線性消除的研究目的。

      2 實(shí)驗(yàn)檢測(cè)

      為驗(yàn)證嶺回歸的可靠性和適用程度,提出對(duì)比實(shí)驗(yàn),將嶺回歸應(yīng)用下的多重共線性消除方法,與文獻(xiàn)提出的傳統(tǒng)消除方法進(jìn)行比較,分析不同應(yīng)用下的多重共線性消除效果。

      2.1 實(shí)驗(yàn)準(zhǔn)備

      鑒于數(shù)據(jù)的可靠性和真實(shí)性,調(diào)查國(guó)家某一機(jī)構(gòu)上一年度的銷售指標(biāo),將該指標(biāo)作為參考對(duì)象,已知該指標(biāo)包含12個(gè)月份,具體數(shù)據(jù)如表4所示。

      表4 實(shí)驗(yàn)測(cè)試指標(biāo)

      建立可靠度評(píng)估模型和數(shù)據(jù)預(yù)測(cè)模型,以此評(píng)估4種方法的多重共線性消除結(jié)果,可靠度模型為:

      r(x)=1-σk(w,v)

      (9)

      式中:X表示消除結(jié)果;σk表示評(píng)估標(biāo)準(zhǔn)為k時(shí)的數(shù)據(jù)允許變化量;w表示支持度;v表示滿意度。同時(shí)預(yù)測(cè)模型為:

      (10)

      公式中:γ表示共線性結(jié)果;ε表示預(yù)測(cè)限制參量;n表示預(yù)測(cè)次數(shù);φi表示共線性的有效參數(shù)。利用上述模型對(duì)應(yīng)用效果進(jìn)行檢測(cè),分析并得出實(shí)驗(yàn)結(jié)論。

      2.2 結(jié)果分析

      將嶺回歸應(yīng)用下的多重線性消除測(cè)試結(jié)果作為實(shí)驗(yàn)組,將文獻(xiàn)[1]所提出的傳統(tǒng)方法應(yīng)用下的測(cè)試結(jié)果作為對(duì)照組,圖4、圖5為此次實(shí)驗(yàn)測(cè)試結(jié)果。

      分析上述2組測(cè)試結(jié)果可知,嶺回歸篩除后的自變量集中分布在期望曲線2側(cè);而文獻(xiàn)[1]提出方法,剔除后的自變量仍然呈分散狀態(tài),不與期望曲線有相關(guān)性,可見所提出方法下,嶺回歸可以更好消除多重共線性,得到的回歸系數(shù)更貼合實(shí)際。

      2.3 實(shí)例比較

      設(shè)定因變量y表示中國(guó)國(guó)民總收入,自變量x1、x2、x3、x4、x5分別表示就業(yè)人員數(shù)、財(cái)政收入、能源生產(chǎn)總量、國(guó)有單位工資總額和城鎮(zhèn)集體工資總額。根據(jù)《中國(guó)統(tǒng)計(jì)年鑒》得到2010—2014年的相關(guān)數(shù)據(jù)如表5:

      表5 相關(guān)數(shù)據(jù)

      在SAS軟件上,診斷出模型中存在非常嚴(yán)重的多重共線性問題,利用本文方法和文獻(xiàn)[2]所提出的部分線性變系數(shù)模型的約束嶺估計(jì)方法分別對(duì)多重共線性進(jìn)行處理。

      利用部分線性變系數(shù)模型的約束嶺估計(jì)方法所得到的回歸方程為:

      y=-431189+6013224x1-0.18088x2

      +0.44051x3+5.69125x4-13.63786x5

      (11)

      利用本文方法所得到的回歸方程為:

      y=-305467.46+4.315x1+1.50x2+0.264x3+4.535x4+1.388x5

      (12)

      根據(jù)公式(11)可以看到方程中,自變量x2、x5的系數(shù)為負(fù),與事實(shí)不符,是由多重共線性所導(dǎo)致,因此部分線性變系數(shù)模型的約束嶺估計(jì)方法求出的回歸方程不利于模型的解釋;而公式(12)可以看出,回歸系數(shù)的符號(hào)符合實(shí)際意義,說明利用本文方法可以有效解決多重共線性問題。

      3 結(jié)語

      引入嶺回歸消除多重共線性,通過了解多重共線性的影響程度,獲取普通意義上和廣域意義上的k值,確保篩除后的自變量可以保留基本價(jià)值信息,保證回歸系數(shù)真實(shí)可靠。此次對(duì)嶺回歸的應(yīng)用分析較為復(fù)雜,計(jì)算較為困難,今后的研究可以簡(jiǎn)化一些分析與計(jì)算過程。

      猜你喜歡
      共線性回歸系數(shù)回歸方程
      采用直線回歸方程預(yù)測(cè)桑癭蚊防治適期
      線性回歸方程的求解與應(yīng)用
      線性回歸方程要點(diǎn)導(dǎo)學(xué)
      銀行不良貸款額影響因素分析
      文氏圖在計(jì)量統(tǒng)計(jì)類課程教學(xué)中的應(yīng)用
      ——以多重共線性內(nèi)容為例
      走進(jìn)回歸分析,讓回歸方程不再是你高考的絆腳石
      不完全多重共線性定義存在的問題及其修正建議
      多元線性回歸的估值漂移及其判定方法
      電導(dǎo)法協(xié)同Logistic方程進(jìn)行6種蘋果砧木抗寒性的比較
      多元線性模型中回歸系數(shù)矩陣的可估函數(shù)和協(xié)方差陣的同時(shí)Bayes估計(jì)及優(yōu)良性
      余庆县| 萨迦县| 南华县| 博爱县| 林甸县| 曲阜市| 彰武县| 台南市| 云林县| 长垣县| 隆回县| 万山特区| 朝阳县| 巴塘县| 正镶白旗| 韶关市| 合川市| 安国市| 射洪县| 扎兰屯市| 思南县| 乾安县| 济南市| 徐闻县| 莒南县| 常熟市| 宣恩县| 平阳县| 郸城县| 普兰店市| 六枝特区| 徐水县| 东乌珠穆沁旗| 中方县| 漳浦县| 五莲县| 平山县| 靖边县| 澄迈县| 高邮市| 桓台县|