• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      部分線性模型下Adaptive Dantzig Selector方法的漸近正態(tài)性

      2018-06-23 12:22:54李丹丹劉琳
      關鍵詞:樣本數(shù)正態(tài)維數(shù)

      李丹丹,劉琳

      (廣西大學數(shù)學與信息科學學院,廣西 南寧 530004)

      1 引言

      變量選擇是進行數(shù)據(jù)分析以及統(tǒng)計建模過程中比較重要的部分.近年來,由于大量超高維數(shù)據(jù)的涌現(xiàn),變量選擇引起了學者的高度重視.隨著研究的不斷深入,越來越多的變量選擇方法與相對應的算法被提出.其中最典型的代表是Lasso(Least Absolute Shrinkage and Selection Operator)方法.Lasso[1]方法的提出迅速引起了很多學者的關注,在研究的過程中Lasso方法的局限性也突顯出來,文獻[2]指出Lasso方法給出的估計不具有相合性以及大樣本性質(zhì).為了解決這一問題,文獻[3]提出DS(Dantzig Selector)方法,并研究了DS估計損失的非漸進界,但沒有得出其漸進性質(zhì).之后文獻[4]和文獻[5]分別提出了處理超高維數(shù)據(jù)的ADS(Adaptive Dantzig Selector)方法和DASSO算法.在目前的文獻中對ADS方法的研究仍較少,現(xiàn)考慮當維數(shù)隨樣本數(shù)以指數(shù)速度增長時,在部分線性模型下ADS方法的漸近正態(tài)性質(zhì).

      2 ADS方法及其性質(zhì)

      2.1 部分線性模型下 ADS估計的定義

      設X=(X1,X2,···,Xp)T是p維協(xié)變量,Y是響應變量,β=(β1,β2,···,βp)T為p維非零的參數(shù)向量,g(t)為未知的非參數(shù)函數(shù),且g(·)光滑,ε是隨機誤差,E(ε/X,t)=0,則部分線性模型[6]形式如下:

      對(1)式兩邊分別求關于t的條件期望,得到

      聯(lián)立(1)(2)兩式可得

      下面利用核估計方法,令mX(t)=E(X/t),mY(t)=E(Y/t),其中mX(t),mY(t)的估計

      K(·)為核函數(shù),h為窗寬.下面定義部分線性模型的DS[7]估計為:

      其中,λ為調(diào)整參數(shù).令

      定義 2.1部分線性模型下的ADS估計,

      則所求解為ADS估計值,記為

      此時非參數(shù)部分g(t)的估計為選取權重函數(shù)令W=diag(ω1,ω2,···,ωp),其中是的相合估計,f(·)是正的減函數(shù),且f(0)=∞.

      2.2 ADS估計的漸近正態(tài)性

      設真實參數(shù)值稀疏,其中

      首先給出半?yún)?shù)模型中的正則條件:

      1 設核函數(shù)K(·)關于原點對稱,支撐區(qū)間為[?1,1],存在常數(shù)M1和M2,有 0≤M1≤M2,使得

      2

      3t的密度函數(shù)不為0,與mX(t),mY(t)都是二階導數(shù)連續(xù)有界,其中mX(t),mY(t)估計選擇的窗寬h的階數(shù)為

      接下來給出四個條件假設:

      (a)假設誤差項ε1,···,εn獨立同分布,并對某常數(shù)1≤d≤2,L>0和K,對任意的x≥0和i=1,2,···,εi,p(|εi|>x)≤Kexp(?Lxd)的尾概率均滿足,使維數(shù)p隨著樣本數(shù)n以指數(shù)速度exp(nα)增長,其中0<α<1.

      (b)假設初始估計滿足其中ηj是依賴于β的未知常數(shù),滿足如下不等式

      (c)設q為通過變量選擇得到的變量個數(shù),記為|A|.由q=O(nc1),0

      成立,其中k為常數(shù),Σ是p×p維矩陣,ΣAA是Σ中|A|×|A|維子矩陣組成,0

      (d)設

      其中XAi表示矩陣XA的第i列.

      說明:假設條件(a)保證了維數(shù)p隨著樣本數(shù)n以指數(shù)速度exp(nα)增長,對于(b)中系數(shù)的初始估計的取法,Huang[8]提出在適當條件下可以用邊際回歸估計量來作為ALasso(Adaptive Least Absolute Shrinkage and Selection Operator)方法的初始估計,類似的方法,可在(b)中取

      先用邊際回歸估計量得到回歸系數(shù)的初始估計再用來作為ADS方法的權重,結(jié)合(c)(d)假設可得在部分線性模型下ADS方法的漸近正態(tài)性,下面給出具體的證明.

      定理 2.1若及假設條件(a)至(d)成立時,p隨著樣本數(shù)n以指數(shù)速度exp(nα)增長,其中0<α<1.則部分線性模型ADS參數(shù)估計量滿足

      證明根據(jù)設(4)式的解為其中

      I為單位陣,K=(Kij)n×n.由假設條件 (a)至(d),則有

      根據(jù)條件(d),令則

      所以由slutsky定理,得

      通過上述得到維數(shù)p關于樣本數(shù)n以指數(shù)速度增加時,在部分線性模型下ADS方法具有漸近正態(tài)性,即在處理超高維稀疏數(shù)據(jù)時,可以達到有效降維和確保模型準確率的目的.下面通過數(shù)值模擬來驗證該方法的可行性與優(yōu)越性.

      3 數(shù)值模擬

      假設數(shù)據(jù)取自模型為

      其中g(t)=sin(2πt),t服從 [0,1]上的均勻分布ε~N(0,1),真實參數(shù)β有六個非零分量β=(1,3,1,3,1/2,1/2,0,···,0)取n=50,非參數(shù)估計核函數(shù)為Epanechnikov核,K(μ)=0.75(1?μ2)+,調(diào)整參數(shù)采用BIC懲罰參數(shù)選取法,取維數(shù)p=100,500,在R軟件編輯程序,并重復運行1000次,取其非零系數(shù)估計結(jié)果的平均數(shù)進行匯總為如表1所示.

      表1 兩種方法的系數(shù)估計平均值

      通過數(shù)值模擬結(jié)果可以看出,當p?n時,ADS方法得到的估計值與Lasso方法相比更接近真值,故驗證了該方法的優(yōu)良性.

      下面通過實例進一步驗證在大眾點評網(wǎng)數(shù)據(jù)中的可行性.

      4 實例分析

      本文將 ADS方法用于大眾點評網(wǎng)數(shù)據(jù) (http://www.dianping.com/beijing),數(shù)據(jù)集共由1000多家美食類商家數(shù)據(jù)組成,主要選取了消費者關心的信息指標以及直接影響消費者決策判斷的數(shù)據(jù)進行收集.將銷售量作為響應變量記為:Y,將店鋪星級、店鋪動態(tài)評分(即口味、環(huán)境、服務)、人均消費價格、好評,一般,差評的數(shù)量,以及32種菜系等40個指標作為協(xié)變量記為:X1,X2,X3,···,X39,X40.通過分析,可得Y與X符合部分線性模型條件,找出與Y存在較顯著的非線性關系的協(xié)變量,將其作為非參數(shù)模型中g(·)的協(xié)變量.在R軟件中,可利用LARS算法與DASSO算法,同時采用五折交叉驗證法選取懲罰參數(shù)λ,結(jié)果如表2所示,其中兩種方法系數(shù)估計值全為0的已略去.

      表2 模型非零系數(shù)的估計值

      將預測模型代入檢測集中得出模型的驗證結(jié)果如表3所示:

      表3 兩種方法驗證結(jié)果比較

      在表3中,CSR(Correct Selection Rate)表示模型選擇的正確率,即在檢測集中能正確預測出的個數(shù)/檢測集的總個數(shù),MSE(Mean Square Error)表示均方誤差值表示檢測集中的數(shù)據(jù),表示預測結(jié)果取整后的值,N(Number)表示模型中被選入變量的個數(shù).從表3的驗證結(jié)果中可以看出:

      1.對于CRS值,Lasso方法所對應的CRS值為80.95%小于ADS方法的83.72%;

      2.對于MSE值,模型中Lasso方法對應的MSE值是大于ADS方法的MSE值;

      3.對于N值,在模型中Lasso方法比ADS方法在變量選擇時多選入了2個變量,且ADS方法能從40個變量中準確的選出7個對銷售量有顯著影響的特征變量.

      結(jié)合上述結(jié)論,得出ADS方法在實際應用中的可行性以及高精準性.

      5 結(jié)論

      本文首先給出部分線性模型下ADS方法的定義,并證明了在超高維情況下,p維數(shù)隨樣本數(shù)n以指數(shù)速度增長時,在部分線性模型下ADS方法的漸近正態(tài)性質(zhì).然后通過數(shù)值模擬并結(jié)合大眾點評網(wǎng)美食店鋪的數(shù)據(jù),通過比較ADS方法與Lasso方法的計算結(jié)果,進一步驗證了在部分線性模型下ADS方法在處理超高維稀疏性數(shù)據(jù)時的大樣本性質(zhì),以及在實際應用中的可行性以及高精準性.

      [1]Tibshirani R.Regression shrinkage and selection via the Lasso[J].Journal of the Royal Statistical Society,2011,73(3):273-282.

      [2]Zhao P,Yu B.Stagewise Lasso[J].Journal of Machine Learning Research,2014,8(12):2701-2726.

      [3]Candes E,Tao T.The Dantzig Selector:statistical estimation whenpis much larger thann[J].The Annals of Statistics,2007,35(6):2392-2404.

      [4]Dicker L,Lin X.Parallelism,uniqueness,and large-sample asymptotics for the Dantzig selector[J].Canadian Journal of Statistics,2013,41(1):23-35.

      [5]James G M,Radchenko P.A generalized Dantzig selector with shrinkage tuning[J].Biometrika,2009,96(2):323-337.

      [6]董凱.高維數(shù)據(jù)部分線性模型的變量選擇[D].北京:北京工業(yè)大學圖書館,2012.

      [7]Li F.Variable selection and parameter estimation for partially linear models via Dantzig selector[J].Metrika,2013,76(2):225-238.

      [8]Huang J,Ma S.Adaptive lasso for sparse high-dimensional regression models[J].Statistica Sinica,2006,18(4):1603-1618.

      [9]Dicker L H.Regularized Regression Methods for Variable Selection and Estimation[D].Boston:Harvard University,2010.

      猜你喜歡
      樣本數(shù)正態(tài)維數(shù)
      β-變換中一致丟番圖逼近問題的維數(shù)理論
      勘 誤 聲 明
      一類齊次Moran集的上盒維數(shù)
      雙冪變換下正態(tài)線性回歸模型參數(shù)的假設檢驗
      關于齊次Moran集的packing維數(shù)結(jié)果
      涉及相變問題Julia集的Hausdorff維數(shù)
      基于泛正態(tài)阻抗云的諧波發(fā)射水平估計
      半?yún)?shù)EV模型二階段估計的漸近正態(tài)性
      三時間間隔圓錐補償姿態(tài)更新算法性能分析
      田間鑒定雜交棉品種純度的適宜時期和樣本數(shù)
      棉花科學(2014年4期)2014-04-29 00:44:03
      科技| 罗山县| 镇沅| 昌乐县| 开封县| 安丘市| 长岭县| 习水县| 兰坪| 肃宁县| 桑日县| 惠水县| 双鸭山市| 沙河市| 华宁县| 宁河县| 杭锦旗| 化德县| 灌南县| 英吉沙县| 梁山县| 宣恩县| 涿州市| 徐州市| 雅江县| 勐海县| 房山区| 固镇县| 玉树县| 盐山县| 本溪| 青浦区| 开平市| 安福县| 罗甸县| 保德县| 盘锦市| 武城县| 长武县| 西乌珠穆沁旗| 洪泽县|