高羽飛, 來 鵬, 何孟霜, 夏文俊
(南京信息工程大學數(shù)學與統(tǒng)計學院, 南京 210044)
為了對超高維數(shù)據(jù)進行分析, 眾多學者展開了研究.Fan等[1]提出基于Pearson相關系數(shù)的SIS超高維特征篩選方法; Zhu等[2]提出可用于篩選非線性相關變量的SIRS特征篩選方法; Li等[3]在更一般的情況下,提出基于距離相關系數(shù)的DC方法, 實現(xiàn)了在無模型假設條件下對超高維數(shù)據(jù)進行變量篩選,并適用于對分組預測變量和多元響應變量的篩選; Wu等[4]提出基于條件分位數(shù)的自由模型特征篩選方法(conditional quantile screening, CQSIS), 該法可用于處理刪失數(shù)據(jù)問題; 在此基礎上, Liu等[5]提出適用于給定變量條件下的超高維分位數(shù)獨立篩選方法; Cui等[6]依據(jù)超高維判別分析問題中響應變量是分類變量的特點,提出基于經驗條件分布的邊際特征篩選方法; Liu等[7]利用條件距離相關系數(shù),構造出針對超高維數(shù)據(jù)的條件特征篩選過程.以上方法已經在很大程度上改進了傳統(tǒng)方法對超高維數(shù)據(jù)分析的不足,但研究更穩(wěn)健、有效的特征篩選方法仍然十分有意義.
近年來,模型平均思想在統(tǒng)計學上被廣泛運用,它通過對不同的估計模型或者預測模型進行加權,綜合考慮它們的性能,進而達到提高模型效率且降低模型誤差的目的.Hansen等[8]提出在不確定異方差誤差設置下,利用最小化交叉驗證準則篩選權重對M個非嵌套近似模型加以組合來提高估計效果的JMA(jackknife model averaging)估計方法; Liang等[9]認為模型平均集成了模型選擇過程中固有的不確定性, 通過對候選模型適當加權可以提高擬合模型的預測能力; Chen等[10]利用模型平均邊際回歸半?yún)?shù)懲罰方法對超高維動態(tài)時間序列數(shù)據(jù)進行了處理分析; Gao等[11]基于留一交叉驗證, 提出可用于縱向數(shù)據(jù)以及包含異方差誤差時間序列數(shù)據(jù)的模型平均方法.本文受模型平均思想的啟發(fā),擬將其與條件分位數(shù)篩選方法(CQSIS)相結合,給出基于模型平均的穩(wěn)健超高維數(shù)據(jù)特征篩選方法.
為了研究MASIS的理論性質,假設[4]:
(H1) 關于正的常數(shù)c和M以及α∈(0,1/4), 1≤s≤m, 有+∞>M≥maxk∈Aτs‖dk,τs‖≥mink∈Aτs‖dk,τs‖>2cn-α>0;
(H2) 在Qτ(Y)的領域內,F(y)是二階可微的.Y的密度函數(shù)f(y)一致有界且不靠近0和無窮, 其導數(shù)f′(y)也是一致有界的.
定理1在條件(H1)和(H2)下, 對于正的常數(shù)c8,c9,c10和c11, 有
(1)
其中Sn,m=max{Sn,τs,s=1,…,m}.進而, 若mink∈Awk≥2cn-α,則
(2)
(3)
(4)
則
(5)
(6)
根據(jù)文獻[4],得
(7)
(8)
(9)
結合式(4)~(6), (9), 得
(10)
而
(11)
(12)
例1考慮線性回歸模型Yi=X1i+3X2i+1.5X3i+2X4i+εi, 當ρ和殘差εi滿足: i)ρ=0.5,εi服從t(1)分布; ii)ρ=0.8,εi服從標準柯西分布時, 模擬結果見表1和表2.從表1和表2中的結果不難看出, MASIS、SIRS以及DC篩選出所有真實重要變量需要的模型規(guī)模相似且都較小, 與真實模型非常接近; 而SIS篩選時, 雖然4個真實的重要變量也能篩選出來, 但穩(wěn)定性不高.比較Pa值, MASIS和SIRS方法均以趨于1的概率在200次試驗中將真實重要變量篩選出來, 而DC方法稍差, SIS方法表現(xiàn)最差.
表1 ρ=0.5時殘差εi服從t(1)分布的篩選模擬結果
表2 ρ=0.8時殘差εi服從標準柯西分布的篩選模擬結果
例2考慮帶有交互項的可加模型Yi=3sinX1i+4cos2X2i+2exp(X3iX4i)+εi, 當ρ和殘差εi滿足: i)ρ=0.8,εi服從標準正態(tài)分布; ii)ρ=0.9,εi服從標準柯西分布時, 模擬結果見表3和表4.從模擬結果可以看出, MASIS方法篩選出所有真實重要變量需要的模型規(guī)模相似且均較小, 與真實模型非常接近; DC方法的總體篩選效果一般, 且穩(wěn)定性較差, 而SIS和SIRS方法雖然也可以篩選出4個真實的重要變量,但穩(wěn)定性都很低.比較Pa值,很明顯MASIS方法幾乎以趨于1的概率在200次試驗中能將真實重要變量全部篩選出, 而DC方法稍差, SIS和SIRS方法表現(xiàn)很差.
表3 ρ=0.8時殘差εi服從標準正態(tài)分布的篩選模擬結果
表4 ρ=0.9殘差εi服從標準柯西分布的篩選模擬結果
將MASIS特征篩選方法用于對轉基因小鼠心肌病數(shù)據(jù)的分析中, 篩選出小鼠體內與Ro1相關的基因.轉基因小鼠心肌病數(shù)據(jù)中共有30個小鼠樣本,對應的基因數(shù)有6 319個, 從實例分析的結果可知[4], 與Ro1相關的基因為Msa.2134.0, Msa.2877.0, Msa.26025.0, Msa.15442.0和Msa.10108.0.
考慮MASIS方法包括第一步的局部篩選以及第二步的加權后篩選, 為了避免遺漏可能的重要變量, 采用2個不同排序篩選變量數(shù)d.第一步選擇較大的d=100, 第二步選擇較小的d值來確定篩選模型的規(guī)模, 篩選結果如表5所示.結果表明,當篩選模型的規(guī)模達到15時,5個相關基因全被篩選出,而文獻[7]利用條件分位數(shù)篩選方法(CQSIS)完全篩選出所需模型的最小規(guī)模為29.本文方法縮小了篩選模型的規(guī)模, 說明MASIS篩選方法在一定程度上改進了條件分位數(shù)篩選方法(CQSIS).
表5 MASIS方法對轉基因小鼠心肌病數(shù)據(jù)的篩選結果
為了進一步研究這15個基因與Ro1之間的關系, 分別建立LASSO、神經網(wǎng)絡和分類回歸樹模型.建模預測結果如圖1所示.模擬結果證實, 分類回歸樹模型的預測情況最好.
圖1 回歸預測圖及標準差σ(上圖為訓練集,下圖為測試集)Fig.1 Regression forecasting and standard deviation (the training set is shown in the figure above, and the test set is shown in the figure below)
本文提出基于模型平均思想的穩(wěn)健超高維特征篩選方法(MASIS), 分析其確定性篩選性質,并給出了MASIS方法理論性質的證明.通過蒙特卡洛模擬,驗證了MASIS方法在處理線性問題和非線性問題時具有很好的穩(wěn)健性,同時該方法相比較于其他方法,能更好地處理超高維數(shù)據(jù)中經常出現(xiàn)的異構性和交互作用等問題.自由模型假設的條件,使得該方法具有更廣泛的使用范圍.數(shù)值模擬和實例分析的特征篩選結果顯示,MASIS方法比之前的篩選方法能更有效、更穩(wěn)健地篩選出理想的特征變量,對現(xiàn)有方法進行了恰當?shù)馗倪M.