• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      二元選擇分位回歸的自適應LASSO改進

      2018-11-02 08:54李楚進張翠霞
      經(jīng)濟數(shù)學 2018年2期

      李楚進 張翠霞

      摘 要 為避免模型出現(xiàn)過擬合,將自適應LASSO變量選擇方法引入二元選擇分位回歸模型,利用貝葉斯方法構建Gibbs抽樣算法并在抽樣中設置不影響預測結果的約束條件‖β‖=1以提高抽樣值的穩(wěn)定性.通過數(shù)值模擬,表明改進的模型有更為良好的參數(shù)估計效率、變量選擇功能和分類能力.

      關鍵詞 應用統(tǒng)計數(shù)學;分位回歸;自適應LASSO; 變量選擇;二元選擇模型

      中圖分類號 O212.1 文獻標識碼 A

      Abstract Binary quantile regression model with the adaptive LASSO penalty is proposed for overfitting problems by presenting a Bayesian Gibbs sampling algorithm to estimate parameters. In the process of sampling, the restriction on ‖β‖=1 is motivated to improve the stability of the sampling values. Numerical analysis show there are better improvements of the proposed method in parameter estimation, variable selection and classification.

      Key words applied statistics & mathematics; quantile regression; adaptive LASSO; variable selection; binary regression

      1 引 言

      二元選擇模型是一種離散選擇模型,被廣泛用于經(jīng)濟、醫(yī)學、生物和教育等領域,其常見形式有線性概率模型、Probit模型和Logit模型等.這些模型均為條件均值模型,刻畫的是響應變量的平均水平.當數(shù)據(jù)出現(xiàn)尖峰后尾或結構突變等特征時,用條件均值并不能夠準確揭示變量之間的關系.Koenker和Bassett(1978)[1]系統(tǒng)介紹了分位回歸的思想.分位回歸聚焦在條件分位數(shù)上,通過變動分位水平來揭示特定情形下響應變量與解釋變量的關系,挖掘的信息更加具體、豐富.特別的,Manski(1975)[2]闡述了二元選擇分位回歸的思想,并提出模型參數(shù)的極大得分估計.Yu和Moyeed(2001)[3]證明了在不考慮數(shù)據(jù)原始分布時,利用非對稱拉普拉斯分布(ALD)來建立貝葉斯分位數(shù)回歸是一種非常自然且有效的方法.Benoit和Van den Poel(2012)[4]年提出了基于ALD 的二元選擇分位回歸模型的貝葉斯估計方法.

      為了消除因缺少重要解釋變量而造成的模型偏差,通常將盡可能多的變量納入模型,而這又可能會使模型出現(xiàn)過擬合問題.因此,如何從眾多變量中選出重要變量來構建模型意義重大.Tibshirani(1996) [5]提出LASSO方法,通過對解釋變量施加非線性約束以實現(xiàn)變量的壓縮與選擇.但實際上,解釋變量對響應變量的影響程度往往是各不相同的,從而添加LASSO懲罰項得到的估計量一般是有偏的.Zou(2006) [6]考慮引入權重向量來克服LASSO過度壓縮參數(shù)的問題,提出了改進的自適應LASSO算法;并且指出,如果能合理選擇權重向量,自適應LASSO的效果會很好.Benoit、Alhamzawi和Yu(2013)[7]將LASSO方法引入二元選擇分位回歸模型以研究高維問題,利用Laplace似然比與似然先驗構建估計,并通過貝葉斯MCMC實現(xiàn)參數(shù)估計,證實模型改進效果很好.Hashem、Vinciontti、 Alhamzawi和Yu(2016)[8]將組LASSO引入二元選擇分位回歸模型,利用貝葉斯Gibbs抽樣估計模型參數(shù),并實現(xiàn)對群組內(nèi)變量的選擇.Ji、Lin和Zhang(2012)[9]用隨機搜索變量方法結合二元選擇分位回歸進行建模,實證和數(shù)值分析都有很好的表現(xiàn).

      這里,嘗試利用貝葉斯方法構建基于自適應LASSO的二元選擇分位回歸模型,通過數(shù)值模擬和實證分析來驗證該模型的參數(shù)估計效率、變量選擇功能和分類能力等.

      5 結 論

      為避免分位回歸模型出現(xiàn)過擬合,引入自適應LASSO變量選擇方法改進模型. 首先,提出一種自適應的Laplace先驗,對不同的解釋變量系數(shù)考慮不同程度的懲罰,建立基于自適應LASSO二元選擇分位回歸的貝葉斯分層模型.接著,構造一種容易實現(xiàn)的Gibbs抽樣算法,特別在抽樣過程中施加不影響預測結果的約束條件‖β‖=1以提高抽樣值的穩(wěn)定性,并基于后驗樣本對模型進行參數(shù)估計.隨后,通過數(shù)值模擬表明,所采用的貝葉斯Gibbs算法是恰當?shù)摹⒂行У?,得到的參?shù)估計值能夠準確和全面地反應各解釋變量對響應變量的影響程度,并通過比較分析說明基于自適應LASSO變量選擇方法改進的模型具有良好的變量選擇能力和分類能力.最后,利用改進模型對UCI機器學習公開數(shù)據(jù)集中的德國信用數(shù)據(jù)進行建模分析,并考慮與其它模型進行對比分析.實證結果表明,自適應LASSO二元選擇分位回歸方法能夠準確刻畫數(shù)據(jù)的分布特征,識別出對個人信用有重要影響的因素,便于信貸機構決策者有針對性地對申請者進行信用評估,降低非重要因素的搜集成本和管理成本等.

      參考文獻

      [1] Roger Koenker, Gilbert Bassett, Regression Quantiles [J]. Econometrica, 1978, 46(1):33-50.

      [2] Charles F. Manski, Maximum score estimation of the stochastic utility model of choice [J]. Journal of Econometrics, 1975, 3(3):205-228.

      [3] Keming Yu, Rana A. Moyeed, Bayesian quantile regression [J]. Statistics & probability Letters, 2001, 54(4):437-447.

      [4] Dries F. Benoit, Dirk Van den Poel, Binary quantile regression: a Bayesian approach based on the asymmetric Laplace distribution [J].Journal of Applied Econometrics, 2012, 27(7):1174-1188.

      [5] Robert Tibshirani, Regression shrinkage and selection via the LASSO [J].Journal of the Royal Statistical Society, Series B, 1996, 58(1):267-288.

      [6] Hui Zou, The adaptive LASSO and its oracle properties [J]. Journal of the American Statistical Association, 2006, 101(476):1418-1429.

      [7] Dries F. Benoit, Rahim Alhamzawi, Keming Yu, Bayesian lasso binary quantile regression [J].Computational Statistics, 2013, 28(6):2861-2873.

      [8] Hussein Hashem, Veronica Vinciontti, Rahim Alhamzawi, Keming Yu., Quantile regression with group lasso for classification [J]. Advances in Data Analysis and Classification, 2016, 10(3):375-390.

      [9] Yonggang Ji, Nan Lin, Baoxue Zhang, Model selection in binary and tobit quantile regression using the Gibbs sampler[J]. Computational Statistics & Data Analysis, 2012, 56(4): 827-839.

      [10]Beong In Yun, Transformation methods for finding multiple roots of nonlinear equations [J]. Applied Mathematics and Computation, 2010, 217(2): 599-606.

      阳原县| 江津市| 宿松县| 綦江县| 穆棱市| 拉萨市| 万州区| 克东县| 阿勒泰市| 潼关县| 娄烦县| 通渭县| 县级市| 米易县| 朝阳区| 丹寨县| 宁都县| 葵青区| 蕉岭县| 吉安市| 大港区| 故城县| 盐源县| 兴和县| 定兴县| 原阳县| 南华县| 汨罗市| 油尖旺区| 墨竹工卡县| 岳普湖县| 东明县| 嘉黎县| 肥西县| 日照市| 阿克苏市| 界首市| 仁化县| 将乐县| 庆元县| 安阳县|