• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      Logistic 回歸模型的一種改進(jìn)彈性網(wǎng)估計(jì)

      2022-07-01 23:37:30蔣仕旗戴家佳
      關(guān)鍵詞:雙重懲罰性質(zhì)

      蔣仕旗 戴家佳

      (貴州大學(xué)數(shù)學(xué)與統(tǒng)計(jì)學(xué)院,貴陽(yáng)550025)

      1 引言

      Logistic 回歸是一種解決分類(lèi)問(wèn)題流行且有效的方法.對(duì)于某一分類(lèi)問(wèn)題,它的解決效果和解釋能力取決于擬合模型的變量及其對(duì)應(yīng)的參數(shù)估計(jì)值,故對(duì)它而言,有效估計(jì)參數(shù)和選取變量是十分重要的.在現(xiàn)有的方法中,能同時(shí)有效解決Logistic 回歸這兩方面問(wèn)題的方法是正則化法[1],該方法考慮在優(yōu)化的損失函數(shù)上添加一個(gè)懲罰項(xiàng)來(lái)估計(jì)參數(shù),同時(shí)通過(guò)將部分參數(shù)直接壓縮為零來(lái)間接選取重要變量,其中彈性網(wǎng)(Elastic net)[2]是該方法的突出代表之一.

      Elastic net[3]通過(guò)聯(lián)合Lasso 和Ridge 來(lái)一并估計(jì)參數(shù)和間接識(shí)別(剔除)重要變量,但它具有兩大不足:第一,缺乏oracle 性質(zhì)[4],即選取出的變量不具有一致性?第二,缺少自適應(yīng)分組效應(yīng)[5,6],即它沒(méi)有考慮具有強(qiáng)相關(guān)關(guān)系的變量對(duì)響應(yīng)變量的具體影響[7].為克服Elastic net 的第一個(gè)不足,Ghosh[4]將Adaptive lasso[8]和Ridge 兩者結(jié)合起來(lái),建立Adaptive elastic net 方法來(lái)使選出的變量具有一致性. 然而,使Adaptive elastic net 具有oracle 性質(zhì)的自適應(yīng)系數(shù)向量W1是不易正確設(shè)置的,它一般由參數(shù)的初始估計(jì)和常數(shù)δ確定. Algamal 和Lee[9,10]指出若W1設(shè)置不對(duì),則Adaptive elastic net 在選擇變量時(shí)存在偏差且具有較差的擬合表現(xiàn). 為此,可使用Ridge 估計(jì)量及其標(biāo)準(zhǔn)誤差之比去表示W(wǎng)1. 當(dāng)變量的方差表現(xiàn)出對(duì)估計(jì)具有重要影響時(shí),也可將變量的標(biāo)準(zhǔn)差設(shè)置為W1.此外,W1也可由變量的類(lèi)間平方和(BSS)與類(lèi)內(nèi)平方和(WSS)之比刻畫(huà)[11].這些方法均可改善Adaptive elastic net 的變量選取功能,提高Logistic 回歸的預(yù)測(cè)表現(xiàn)[12]. 為解決Elastic net 的第二個(gè)缺陷,Jia 等人[5]依據(jù)Elastic net 估計(jì)量的絕對(duì)值大小,通過(guò)賦予參數(shù)不同的Lasso 和Ridge 懲罰,提出了Partly adaptive elastic net. Partly adaptive elastic net 在Logistic 回歸上取得了良好的預(yù)測(cè)效果[6],但它在給予參數(shù)懲罰約束時(shí)沒(méi)有考慮參數(shù)對(duì)應(yīng)變量的取值范圍,這可能會(huì)抹殺一些取值極端的重要變量.另外,在求取Logistic 回歸的參數(shù)方法中,還存在Van 等人[13]提出的先對(duì)參數(shù)進(jìn)行分組后對(duì)各組參數(shù)進(jìn)行不同Ridge 懲罰的Generalized ridge. Generalized ridge 具有自適應(yīng)分組效應(yīng),并且其含有的Adaptive ridge 也享有自適應(yīng)分組效應(yīng),能成功用于估計(jì)Logistic 回歸和線(xiàn)性回歸的參數(shù)[14,15]. 但Generalized ridge 不擁有選取變量的功能且適用情形較窄.

      綜合現(xiàn)有解決Elastic net 不足的方法,可知Adaptive lasso 和Adaptive ridge 分別擁有oracle 性質(zhì),自適應(yīng)分組效應(yīng),故可通過(guò)結(jié)合這兩者去同時(shí)避免Elastic net 現(xiàn)存的兩大缺陷,這種組合懲罰可稱(chēng)為雙重自適應(yīng)彈性網(wǎng)(Double adaptive elastic net).

      Tan[16]指出在Elastic net 懲罰中,加入變量的相關(guān)系數(shù)有助于改善Elastic net 在分組效應(yīng)上的表現(xiàn). 故在雙重自適應(yīng)彈性網(wǎng)中,Adaptive ridge 可用變量的相關(guān)系數(shù)來(lái)刻畫(huà). 在一些嚴(yán)格的假設(shè)條件下,雙重自適應(yīng)彈性網(wǎng)享有oracle 性質(zhì)和自適應(yīng)分組效應(yīng),這確保了它能一起有效解決Logistic回歸的參數(shù)估計(jì)和變量選取問(wèn)題,并提高Logistic 回歸的擬合表現(xiàn),這在模擬和實(shí)例研究上得到了驗(yàn)證.

      2 統(tǒng)計(jì)方法

      考慮一般的Logistic 回歸模型[17]:

      其中πi=P(yi= 1|X=Xi),Xi= (1, xi1, xi2, ··· , xip)T,β= (β0, β1, β2, ··· , βp)T,yi ∈{0,1},i=1,2, ··· , n.β可通過(guò)最小化負(fù)的對(duì)數(shù)似然函數(shù)L(β)所得,其中

      欲使估計(jì)而得的?β含有oracle 性質(zhì), 自適應(yīng)分組效應(yīng)和選取重要變量等特性, 可通過(guò)組合Adaptive lasso 和Adaptive ridge 懲罰來(lái)解決, 這種懲罰可叫雙重自適應(yīng)彈性網(wǎng)(Double adaptive

      elastic net),其估計(jì)β的公式為

      為求解式(2.1)中的β,可吸取Reid 和Tibshirani[19]使用坐標(biāo)梯度法和牛頓法求解β的做法來(lái)求取,式(2.1)可重寫(xiě)為

      由于λ1h?1(t)W1可能存在小于零的系數(shù),以致其難以把某些無(wú)關(guān)變量對(duì)應(yīng)的參數(shù)壓縮到零.故可抹去h?1(t),式(2.3)可改寫(xiě)為

      步驟1:產(chǎn)生β的初始解?

      步驟2:計(jì)算g(t), h(t)?

      步驟3:由式(2.4)去計(jì)算β(t+1)?

      步驟4:重復(fù)步驟2 和步驟3 直至收斂.

      3 統(tǒng)計(jì)性質(zhì)及其證明

      此小節(jié)給出Double adaptive elastic net 具有的一些性質(zhì)及其證明.

      3.1 Oracle 性質(zhì)

      C1I(β0)是一個(gè)正定矩陣?

      C2 存在一個(gè)含有β0的開(kāi)集Ω,使得對(duì)于任意的β ∈Ω,存在函數(shù)M(·),滿(mǎn)足

      且對(duì)任意的p維向量u,有E(M(X)(XT u)3)<∞?則Γn(u)?Γn(0)=A1+A2+A3,其中

      對(duì)于A(yíng)1,由Taylor 展開(kāi)式可知,

      再由中心極限定理可知,

      由大數(shù)定律可知,

      由條件C2可知,

      由式(3.1),式(3.2),式(3.3)和Slutsky 定理可得

      再由式(3.4),式(3.5)和式(3.6)可知,對(duì)于任給的u,

      從而

      3.2 自適應(yīng)分組效應(yīng)

      4 模擬及實(shí)例分析

      為有效評(píng)估并比較Double adaptive elastic net,Elastic net 及其部分改進(jìn)法的性能,本節(jié)分別在一組模擬例子和實(shí)例上進(jìn)行實(shí)驗(yàn).實(shí)驗(yàn)的評(píng)價(jià)指標(biāo)選用F1, Accuracy, AUC?實(shí)驗(yàn)的訓(xùn)練集量:測(cè)試集量=3:1.

      4.1 模擬研究

      為檢驗(yàn)Double adaptive elastic net 是否能有效避免Elastic net 在自適應(yīng)分組效應(yīng)上的不足,可使用具有自適應(yīng)分組效應(yīng)的模擬數(shù)據(jù)來(lái)進(jìn)行評(píng)估(檢測(cè)). 然而,公認(rèn)且能代表具有自適應(yīng)分組效應(yīng)的數(shù)據(jù)并不常見(jiàn),但它可參考[2]和[4]中模擬數(shù)據(jù)3 的設(shè)置去生成.模擬數(shù)據(jù)3 是一個(gè)公認(rèn)并具有分組效應(yīng)的數(shù)據(jù),與之相反,只需將模擬數(shù)據(jù)3 中重要變量所對(duì)應(yīng)的參數(shù)設(shè)置不盡相同即可得到具有自適應(yīng)分組效應(yīng)的模擬數(shù)據(jù),即此類(lèi)數(shù)據(jù)可通過(guò)模型

      表1和表2分別展示了Double adaptive elastic net 和一些正則化法在變量存在中度(高度)相關(guān)關(guān)系,重要變量存在自適應(yīng)分組效應(yīng)情形上的預(yù)測(cè)表現(xiàn). 表1和表2表明,Double adaptive elastic net的表現(xiàn)優(yōu)于原始的Elastic net,與表現(xiàn)最好的Partly adaptive elastic net 相當(dāng)且隨著樣本量n的增大而變得更好,這暗指Double adaptive elastic net 具有解決選取重要變量存在自適應(yīng)分組效應(yīng)問(wèn)題的能力.同時(shí),也發(fā)現(xiàn)由于Double adaptive elastic net 可視為以Adaptive elastic net 為載體的改進(jìn)法,故它的預(yù)測(cè)精度絕大程度上仍然受制于參數(shù)β的初始估計(jì)?β?. 若?β?不是β的一個(gè)優(yōu)良估計(jì),則Double adaptive elastic net 的預(yù)測(cè)精度是較差的.

      表1 各方法在具有自適應(yīng)分組效應(yīng)的中度相關(guān)情形上的性能比較

      表2 各方法在具有自適應(yīng)分組效應(yīng)的高度相關(guān)情形上的性能比較

      4.2 離婚成因研究

      為研究離婚成因,Y?ntem 和?lhan[20]收集了一個(gè)由170 對(duì)夫妻在54 個(gè)離婚測(cè)量指標(biāo)(DPS)上的得分表現(xiàn)所構(gòu)成的數(shù)據(jù)集DPD.在數(shù)據(jù)集DPD 上,響應(yīng)變量為Class,其中Class=1 表示離婚,Class= 0 表示未離婚. 54 個(gè)測(cè)量指標(biāo)x1, x2, ··· , x54的取值均從{0,1,2,3,4}中獲取,絕大部分特征間具有強(qiáng)相關(guān)關(guān)系(這可由圖1來(lái)說(shuō)明). 因而,Double adaptive elastic net 和一些Elastic net改進(jìn)法是適合探索影響離婚的主要因素(特征). 各方法的預(yù)測(cè)精度如表3所示.

      圖1 各特征與其他特征的ρ 高于0.8 的占比,其中 表示占比為0.8 的等高線(xiàn)

      表3 各方法在DPD 上的預(yù)測(cè)精度比較

      由表3可知,Double adaptive elasic net 識(shí)別出了41 個(gè)影響離婚的特征,高于表現(xiàn)最好的Elastic net 和其他方法選取出的特征數(shù),但它的表現(xiàn)與Elastic net 是相同的,也能很好解決離婚預(yù)測(cè)問(wèn)題.

      5 總結(jié)

      本文通過(guò)加權(quán)組合Adaptive lasso 和Adaptive ridge,提出了同時(shí)享有oracle 性質(zhì)和自適應(yīng)分組效應(yīng)的雙重自適應(yīng)彈性網(wǎng)(Double adaptive elasic net),并使用模擬和真實(shí)數(shù)據(jù)評(píng)估了它對(duì)Logistic回歸的提升表現(xiàn).評(píng)估結(jié)果表明,在含有自適應(yīng)分組效應(yīng)的中度(高度)相關(guān)情形上,雙重自適應(yīng)彈性網(wǎng)的提升效果不弱于現(xiàn)有的彈性網(wǎng)及其改進(jìn)法,具有良好的預(yù)測(cè)精度. 然而,雙重自適應(yīng)彈性網(wǎng)的應(yīng)用范圍可能是較窄的,這是因?yàn)槭顾鼡碛衞racle 性質(zhì)的自適應(yīng)系數(shù)向量W1是難以確定的. 盡管雙重自適應(yīng)彈性網(wǎng)的W1可由參數(shù)β的初始估計(jì)?β?來(lái)確定,但當(dāng)?β?不是一個(gè)優(yōu)良估計(jì)時(shí),該方法的表現(xiàn)是較差的. 于是,未來(lái)可將雙重自適應(yīng)彈性網(wǎng)中W1的確定作為下一步的研究方向,以完善并推廣雙重自適應(yīng)彈性網(wǎng)的性質(zhì)和適用領(lǐng)域.

      猜你喜歡
      雙重懲罰性質(zhì)
      自然與成長(zhǎng)的雙重變奏
      隨機(jī)變量的分布列性質(zhì)的應(yīng)用
      完全平方數(shù)的性質(zhì)及其應(yīng)用
      神的懲罰
      小讀者(2020年2期)2020-03-12 10:34:06
      Jokes笑話(huà)
      九點(diǎn)圓的性質(zhì)和應(yīng)用
      化解“雙重目標(biāo)”之困
      厲害了,我的性質(zhì)
      懲罰
      真正的懲罰等
      翼城县| 钟祥市| 济源市| 论坛| 曲松县| 淮北市| 卫辉市| 太康县| 集安市| 阳城县| 聊城市| 依兰县| 类乌齐县| 垣曲县| 灵武市| 彭水| 桐城市| 大化| 英德市| 马龙县| 公主岭市| 上杭县| 布拖县| 绿春县| 长兴县| 晋州市| 酉阳| 屯昌县| 甘德县| 宜君县| 屯门区| 安顺市| 通海县| 泽普县| 密云县| 彰武县| 南木林县| 洮南市| 定襄县| 土默特左旗| 湖南省|