• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      基于L曲線方法的Lasso正則化參數(shù)選擇 ①

      2022-03-02 13:32:36吳煒明王延新
      關(guān)鍵詞:參數(shù)估計(jì)正則準(zhǔn)則

      吳煒明, 王延新

      1.寧波工程學(xué)院 理學(xué)院, 浙江 寧波 315211; 2.安徽工業(yè)大學(xué) 商學(xué)院, 安徽 馬鞍山 243032

      大數(shù)據(jù)時(shí)代已經(jīng)到來, “數(shù)據(jù)”貫穿了生活的方方面面, 在各行各業(yè)中都起著舉足輕重的作用. 各個(gè)領(lǐng)域?yàn)榱送诰驖摬氐臄?shù)據(jù)價(jià)值, 對已有數(shù)據(jù)進(jìn)行分析建模, 但同時(shí)也面臨著真實(shí)場景過于復(fù)雜, 易出現(xiàn)高維數(shù)據(jù)的情況. 在變量維數(shù)p遠(yuǎn)大于樣本量n的情況下, 傳統(tǒng)低維統(tǒng)計(jì)分析方法往往顯得力不從心. 首先模型的準(zhǔn)確性難以得到保證, 其次在解釋變量大量增加的情況下, 模型對于問題的可解釋性變差, 分析的焦點(diǎn)被模糊, 并且在高維變量情況下, 模型的復(fù)雜度提高, 計(jì)算量增加, 存在一定的求解困難. 因此, 在建模過程中, 變量選擇顯得尤為重要.

      高維數(shù)據(jù)變量選擇最常用的方法是基于罰函數(shù)的正則化方法[1], 它可以同時(shí)進(jìn)行變量選擇和參數(shù)估計(jì). 稀疏正則化方法的一般框架為

      (1)

      其中:l(β)為損失函數(shù),pλ(·)為罰函數(shù),λ為正則化參數(shù). 常用的正則化方法有Lasso[2],adaptive Lasso[3],relaxed Lasso[4],SCAD[5],MCP[6]等. 在實(shí)際應(yīng)用中, 上述方法的正則化參數(shù)λ的調(diào)節(jié)是非常重要的, 正則化參數(shù)λ的選擇決定了模型的性能. 目前常采用CV(交叉驗(yàn)證)[7], GCV(廣義交叉驗(yàn)證)[8], AIC(赤池信息準(zhǔn)則)[9],BIC(貝葉斯信息準(zhǔn)則)[8]等多種準(zhǔn)則選擇正則化參數(shù)λ, 但是每種方法都有各自的優(yōu)缺點(diǎn). CV方法的預(yù)測誤差小, 但計(jì)算量龐大, 而且沒有完整理論推導(dǎo), 且解釋性較差. GCV方法容易產(chǎn)生過擬合現(xiàn)象[8], 從而不滿足變量選擇的一致性要求. AIC準(zhǔn)則可以權(quán)衡估計(jì)模型的復(fù)雜度和模型擬合數(shù)據(jù)的優(yōu)良性, 但也易出現(xiàn)過擬合現(xiàn)象. BIC準(zhǔn)則選擇的模型更加接近于真實(shí)模型, 但是它只考慮了變量選擇, 參數(shù)估計(jì)的效果不一定好. Hansen[10]針對嶺回歸問題提出最優(yōu)化參數(shù)選擇的L曲線法. L曲線方法簡單易行, 不受模型誤差方差的影響, 但L曲線方法不一定適用于Lasso正則化參數(shù)的選擇.

      鑒于以上原因, 本文運(yùn)用L曲線的思想, 提出一種新的L曲線準(zhǔn)則(LC)選擇Lasso正則化參數(shù). 通過數(shù)值模擬, 比較CV,GCV,BIC與LC在Lasso方法中模型選擇和參數(shù)估計(jì)的效果. 最后將該方法運(yùn)用在實(shí)際數(shù)據(jù)中, 分析探討2019年186個(gè)國家經(jīng)濟(jì)自由指數(shù)的影響因素.

      1 Lasso估計(jì)原理與方法

      1.1 Lasso估計(jì)

      考慮線性模型:

      y=Xβ+σε

      (2)

      其中:y=(y1,y2, …,yn)T為響應(yīng)變量;X=[x1,x2, …,xp]∈Rn×p為解釋變量所組成的樣本數(shù)據(jù),xj=(x1j,x2j, …,xnj)T,j=1,2,…,p為解釋變量;β=(β1,β2, …,βp)T為線性方程的回歸系數(shù);ε=(ε1,ε2, …,εn)T為隨機(jī)誤差, 并且εi服從均值為0, 方差為1的獨(dú)立同分布.

      1996年, 文獻(xiàn)[2]提出了Lasso方法, 通過對回歸系數(shù)的L1范數(shù)進(jìn)行懲罰來壓縮回歸系數(shù), 并使絕對值較小的回歸系數(shù)被自動壓縮為0, 從而同時(shí)實(shí)現(xiàn)參數(shù)估計(jì)和變量選擇, 基于線性回歸的Lasso模型為

      (3)

      1.2 參數(shù)選擇方法

      正則化參數(shù)λ的選擇決定了模型的性能, 因此參數(shù)λ的選擇至關(guān)重要. 目前Lasso方法常通過CV,GCV,AIC,BIC等多種方法來確定參數(shù).

      1) CV方法是一種無假設(shè), 可以直接進(jìn)行參數(shù)估計(jì)的變量選擇的方法. 其思想是在給定樣本中, 拿出大部分樣本進(jìn)行建模(訓(xùn)練集), 留小部分樣本用建立的模型進(jìn)行預(yù)測(測試集), 并計(jì)算小部分樣本的預(yù)測誤差, 記錄誤差平方和. 它的優(yōu)點(diǎn)是預(yù)測誤差小, 但是計(jì)算量龐大, 而且沒有完整的理論依據(jù)推導(dǎo), 解釋性較差. CV方法的公式如下:

      (4)

      2) GCV計(jì)算過程簡單, GCV具體形式為

      (5)

      但文獻(xiàn)[8]指出GCV方法容易產(chǎn)生過擬合現(xiàn)象, 即在參數(shù)選擇時(shí),λ容易過小, 則非零β數(shù)量就會過多, 造成模型的過擬合, 從而不滿足變量選擇的一致性要求.

      3) 基于BIC準(zhǔn)則的正則化參數(shù)選擇大致對應(yīng)于在適當(dāng)?shù)呢惾~斯公式中最大化選擇真實(shí)模型的后驗(yàn)概率, BIC準(zhǔn)則定義如下:

      (6)

      理論上已經(jīng)證明BIC準(zhǔn)則滿足模型選擇的一致性要求, 由BIC準(zhǔn)則選擇的模型更加接近于真實(shí)模型, 但是它只考慮了變量選擇, 參數(shù)估計(jì)的效果不一定好. 在高維情形下的BIC準(zhǔn)則可見文獻(xiàn)[10].

      2 基于LC準(zhǔn)則的正則化參數(shù)選擇

      2.1 嶺回歸中的L曲線準(zhǔn)則

      嶺回歸模型[11]為:

      (7)

      其中λ≥0為正則化參數(shù). 嶺估計(jì)的罰函數(shù)是L2范數(shù), 不能把系數(shù)壓縮到零, 因此不能產(chǎn)生稀疏解. 嶺參數(shù)的選擇會在很大程度上影響估計(jì)的結(jié)果.

      (8)

      其中:ρ表示殘差范數(shù),η表示解范數(shù), ′表示對參數(shù)λ求導(dǎo).

      2.2 Lasso中的L曲線準(zhǔn)則

      圖1 Lasso正則化的L曲線

      圖2 Lasso正則化L曲線

      3 數(shù)值模擬與實(shí)際應(yīng)用

      3.1 數(shù)值模擬

      本節(jié)通過數(shù)值模擬, 來比較在CV,GCV,BIC,LC下通過Lasso正則化方法進(jìn)行變量選擇以及參數(shù)估計(jì).

      為比較估計(jì)精確性, 需計(jì)算模型誤差

      (9)

      通過多次的重復(fù)試驗(yàn), 用以下指標(biāo)來評價(jià)不同參數(shù)選擇方法下Lasso估計(jì)的模型性能. “MME”表示模型誤差ME的中位數(shù); “SD”表示模型誤差ME的標(biāo)準(zhǔn)差; “C”表示100次重復(fù)實(shí)驗(yàn)中非零系數(shù)被正確估計(jì)為非零個(gè)數(shù)的均值; “IC”表示100次重復(fù)實(shí)驗(yàn)中零系數(shù)被錯(cuò)誤估計(jì)為非零個(gè)數(shù)的均值; “Underfit”表示欠擬合, 即在100次模擬實(shí)驗(yàn)中將非零系數(shù)錯(cuò)誤估計(jì)為零的比例; “Correctfit”表示正確擬合, 即在100次模擬實(shí)驗(yàn)中將非零系數(shù)正確估計(jì)為非零的比例; “Overfit”表示過擬合, 即100次模擬實(shí)驗(yàn)中選擇了所有重要變量并且包含了非零系數(shù)的比例.

      表1和表2分別展示了低維數(shù)據(jù)和高維數(shù)據(jù)兩種情況, 在不同的隨機(jī)誤差水平下, 運(yùn)用多種變量選擇的方法進(jìn)行Lasso估計(jì). 從參數(shù)估計(jì)誤差角度來看, Lasso估計(jì)在LC準(zhǔn)則下誤差比CV方法選擇的模型誤差小, 但是比BIC準(zhǔn)則選擇的模型誤差大, 即Lasso估計(jì)在LC準(zhǔn)則下參數(shù)估計(jì)的效果介于CV方法和BIC準(zhǔn)則之間. 從模型的稀疏性角度來看, Lasso估計(jì)在LC準(zhǔn)則下選擇模型較CV,GCV,BIC具有更高的正確擬合比例, 具有更低的過擬合比例, 即LC準(zhǔn)則下的Lasso估計(jì)能夠選擇較稀疏的模型. 從變量選擇的一致性角度來看, Lasso估計(jì)在LC準(zhǔn)則下的系數(shù)估計(jì)效果比CV,GCV,BIC都好, 即LC準(zhǔn)則下Lasso估計(jì)所選擇的變量的一致性較好.

      表1 低維數(shù)據(jù)模擬

      表2 高維數(shù)據(jù)模擬

      續(xù)表2

      3.2 實(shí)例分析

      本節(jié)在kaggle平臺下載2019年世界186個(gè)國家的經(jīng)濟(jì)自由指數(shù)的相關(guān)數(shù)據(jù), 該數(shù)據(jù)集共有13個(gè)變量, 涵蓋186個(gè)國家的12項(xiàng)自由指標(biāo), 從財(cái)產(chǎn)權(quán)到財(cái)務(wù)自由, 分別為: 財(cái)產(chǎn)權(quán)X1; 司法效力X2; 政府誠信X3; 稅收負(fù)擔(dān)X4; 政府支出X5; 財(cái)政健康X6; 商業(yè)自由X7; 勞工自由X8; 貨幣自由X9; 貿(mào)易自由X10; 投資自由X11; 財(cái)務(wù)自由X12; 經(jīng)濟(jì)自由指數(shù)Y. 對數(shù)據(jù)進(jìn)行缺失值和異常值處理, 剩下173個(gè)國家的樣本數(shù)據(jù). 把經(jīng)濟(jì)自由指數(shù)作為響應(yīng)變量, 其余12個(gè)變量作為解釋變量, 進(jìn)行實(shí)例分析建模.

      通過分析, 從表3可以看出, 經(jīng)濟(jì)自由指數(shù)與其余各因素呈現(xiàn)較強(qiáng)的線性關(guān)系, 即有線性模型:

      (10)

      其中:yi表示第i個(gè)國家的經(jīng)濟(jì)自由指數(shù)(得分),xij為第i個(gè)國家的第j個(gè)變量,εi是均值為0, 方差為σ2的隨機(jī)誤差項(xiàng).

      表3 線性模型結(jié)果

      利用OLS(最小二乘估計(jì)),CV,GCV,BIC和LC下的Lasso估計(jì)對該數(shù)據(jù)進(jìn)行分析. 變量選擇結(jié)果如表4所示. 從變量選擇的數(shù)量來看, 最小二乘估計(jì) (OLS) 選擇了所有的變量, CV下的Lasso罰估計(jì)也選擇了全部12個(gè)變量, 沒有達(dá)到變量選擇的目的; GCV和BIC準(zhǔn)則下的Lasso估計(jì)分別選擇了11個(gè)和12個(gè)變量; 通過LC準(zhǔn)則的Lasso罰估計(jì)選擇了3個(gè)重要變量, 分別為X3,X4,X5, 模型也更為稀疏.

      4 結(jié)論

      本文討論了Lasso正則化方法在變量選擇和參數(shù)估計(jì)中的應(yīng)用, 針對Lasso正則化提出了LC準(zhǔn)則, 從而更好地確定在不同數(shù)據(jù)情況下的最優(yōu)正則化參數(shù). 數(shù)據(jù)模擬和實(shí)際應(yīng)用的結(jié)果都表明, Lasso估計(jì)在LC準(zhǔn)則下能夠選擇較稀疏的模型, 且有較高的概率選擇與真實(shí)情況相吻合的模型, 模型選擇效果好. 另外LC準(zhǔn)則下的模型的誤差較小, 參數(shù)估計(jì)效果好. 本文的LC準(zhǔn)則同樣可以推廣到非線性模型中.

      表4 不同方法下的參數(shù)估計(jì)結(jié)果

      猜你喜歡
      參數(shù)估計(jì)正則準(zhǔn)則
      基于新型DFrFT的LFM信號參數(shù)估計(jì)算法
      具非線性中立項(xiàng)的二階延遲微分方程的Philos型準(zhǔn)則
      剩余有限Minimax可解群的4階正則自同構(gòu)
      類似于VNL環(huán)的環(huán)
      Logistic回歸模型的幾乎無偏兩參數(shù)估計(jì)
      基于向前方程的平穩(wěn)分布參數(shù)估計(jì)
      基于Canny振蕩抑制準(zhǔn)則的改進(jìn)匹配濾波器
      基于競爭失效數(shù)據(jù)的Lindley分布參數(shù)估計(jì)
      一圖讀懂《中國共產(chǎn)黨廉潔自律準(zhǔn)則》
      有限秩的可解群的正則自同構(gòu)
      嘉祥县| 靖州| 金秀| 盐边县| 嘉禾县| 陈巴尔虎旗| 合山市| 句容市| 凭祥市| 天门市| 平安县| 太湖县| 如东县| 顺平县| 县级市| 西丰县| 桐柏县| 信宜市| 长沙县| 建平县| 阜南县| 锦州市| 康保县| 盘锦市| 栾川县| 海口市| 昌宁县| 施秉县| 平安县| 丰都县| 策勒县| 蒙阴县| 梁山县| 红河县| 南昌县| 敦化市| 宜黄县| 汉中市| 会昌县| 壤塘县| 清流县|