石躍勇 鄧世容 焦雨領(lǐng) 徐德義
[摘 要]以統(tǒng)計學(xué)習(xí)(statistical learning)課程中基于高維線性模型的LASSO正則化為例,項目組給出了其基于原始對偶有效集(primal dual active set)方法的求解過程,并進(jìn)行了相應(yīng)的實證分析,期望培養(yǎng)學(xué)生對統(tǒng)計學(xué)習(xí)課程的學(xué)習(xí)興趣和應(yīng)用新近文獻(xiàn)方法進(jìn)行高維數(shù)據(jù)分析的實踐經(jīng)驗。
[關(guān)鍵詞]原始對偶有效集方法; 高維稀疏; LASSO正則化;實證分析
[中圖分類號] G642 [文獻(xiàn)標(biāo)識碼] A [文章編號] 2095-3437(2019)05-0101-03
一、引言
大數(shù)據(jù)的興起和普遍,引起了學(xué)界和業(yè)界日益廣泛的重視[1-2]。在大數(shù)據(jù)時代,如在氣候研究、網(wǎng)絡(luò)交易、圖像處理等諸多領(lǐng)域,人們可以輕松獲得PB級、EB級、ZB級甚至更大量級的海量數(shù)據(jù)。直觀上看,大數(shù)據(jù)具有樣本量大或維度高等顯著特點。如何對大數(shù)據(jù)進(jìn)行建模和分析,提取蘊(yùn)藏其中的有用信息,進(jìn)而指導(dǎo)實際生產(chǎn)生活有著重要的現(xiàn)實意義。然而,大數(shù)據(jù)由于存在Volume(大量)、Velocity(高速)、Variety(多樣)、Value(價值)等特性[2],給相應(yīng)的存儲、分析和應(yīng)用帶來了巨大的挑戰(zhàn)。特別地,有一類特殊的大數(shù)據(jù),其具有很高的維度(可以達(dá)到數(shù)萬、數(shù)十萬甚至更高),而樣本量往往只有數(shù)十至數(shù)百,通常還具有復(fù)雜的結(jié)構(gòu),我們稱之為高維數(shù)據(jù)。數(shù)據(jù)的高維度一方面可以反映研究對象更多的特征和屬性,可能使得相關(guān)的數(shù)據(jù)分析更能接近事物的本原,但另一方面也會產(chǎn)生“維數(shù)災(zāi)難”( the curse of dimensionality)[3],可能會帶來較為嚴(yán)重的過擬合(over-fitting)或不適定性(ill-posed)等諸多問題。所幸的是,在實際問題中,高維數(shù)據(jù)通常具有所謂的稀疏性結(jié)構(gòu),即影響某種結(jié)果的因素有很多,但關(guān)鍵影響因素卻較少?;谙∈栊约僭O(shè),人們可以借助于統(tǒng)計學(xué)習(xí)(機(jī)器學(xué)習(xí))中的正則化方法[3]對高維數(shù)據(jù)進(jìn)行建模、分析和應(yīng)用。
正則化方法是處理高維數(shù)據(jù)的利器,也是統(tǒng)計學(xué)習(xí)(機(jī)器學(xué)習(xí))等學(xué)科的重要內(nèi)容,其模型、理論和計算等方面的研究是人們關(guān)注的焦點[1,3]。由于實際問題中高維數(shù)據(jù)不斷地、大量地涌現(xiàn),當(dāng)下一個重要的發(fā)展趨勢是:人們在進(jìn)行數(shù)據(jù)分析和統(tǒng)計計算時,越來越注重快速算法的導(dǎo)向,即兼顧統(tǒng)計性質(zhì)(如無偏性、相合性等[4])和數(shù)學(xué)收斂的同時,在保證精度(估計誤差、預(yù)測誤差等)相當(dāng)?shù)那疤嵯?,希望設(shè)計高效的算法使得計算速度越快越好。這一趨勢在大數(shù)據(jù)高速發(fā)展的大背景下日益顯著和越發(fā)重要,可在此基礎(chǔ)上進(jìn)一步研究適用于分布式環(huán)境下的稀疏化學(xué)習(xí)理論和算法。
統(tǒng)計學(xué)習(xí)是一套以理解數(shù)據(jù)為目的的龐大工具集[5],其研究對象和內(nèi)容與模式識別、機(jī)器學(xué)習(xí)、數(shù)據(jù)挖掘等學(xué)科有大量的交叉和重疊,是數(shù)據(jù)科學(xué)的重要組成部分,廣泛應(yīng)用于社會生活的各個方面。在當(dāng)前大數(shù)據(jù)研究蓬勃發(fā)展的大背景下,統(tǒng)計學(xué)習(xí)的課堂教學(xué)和學(xué)科發(fā)展的研究顯得尤為重要。鑒于統(tǒng)計學(xué)習(xí)學(xué)科具有日新月異、發(fā)展迅速等特點,在統(tǒng)計學(xué)習(xí)的教學(xué)過程中,一個重要的趨勢是,除了講授經(jīng)典的理論和方法,還應(yīng)當(dāng)引導(dǎo)學(xué)生閱讀新近的文獻(xiàn),鼓勵學(xué)生運(yùn)用文獻(xiàn)中新的建模和計算方法開展數(shù)據(jù)分析與應(yīng)用,并結(jié)合Julia、Matlab、Python或R等軟件進(jìn)行相應(yīng)的數(shù)值模擬和實證分析。特別地,R (https://www.r-project.org/)作為一款自由的編程軟件,提供大量最新的開源的方法和算法程序包,社區(qū)成熟,參與者眾多,在Linux、Mac、Windows平臺下均可方便地進(jìn)行安裝和使用,深受學(xué)界歡迎。學(xué)生在統(tǒng)計學(xué)習(xí)課程中學(xué)習(xí)使用 R 軟件,熟練掌握R技能,并將所學(xué)方法用R編程實現(xiàn),有助于其更為深刻地聯(lián)系理論和理解問題,且能夠更為有效地拓展實際應(yīng)用,提高學(xué)習(xí)的興趣和實戰(zhàn)的能力[6]。
線性模型是研究其他統(tǒng)計模型的基礎(chǔ),線性模型正則化[3,5]的理論和計算是統(tǒng)計學(xué)習(xí)的基本內(nèi)容和研究熱點,其中又以LASSO正則化(即[?1]正則化)模型尤為重要,因為LASSO正則化模型的求解屬于凸優(yōu)化問題,凸性可以保證模型的解具有良好的理論分析性質(zhì)和數(shù)值收斂結(jié)果。LASSO正則化在壓縮感知(信號、圖像處理)和變量選擇(高維特征降維)的建模和計算中均得到了廣泛的應(yīng)用。本文使用文獻(xiàn)[7]中發(fā)展的原始對偶有效集方法,對高維線性模型的LASSO正則化問題進(jìn)行了應(yīng)用,對一組高維基因微陣列數(shù)據(jù)進(jìn)行了變量選擇實證分析,并將計算結(jié)果與著名的R統(tǒng)計軟件包glmnet進(jìn)行比較,在開闊學(xué)生視野、拓寬研究思路、豐富學(xué)習(xí)內(nèi)容的同時,期望加深學(xué)生對正則化模型及其計算的理解。
二、模型與方法
其中[y∈Rn]是響應(yīng)變量,[X∈Rn×p]是設(shè)計矩陣,[β∈Rp]是待估系數(shù)向量,[ò∈Rn]是噪聲向量。不失一般性,我們考慮噪聲滿足正態(tài)(高斯)分布[ò~N(0, σ2In)],這里[In]表示[n×n]單位矩陣。進(jìn)一步地,我們設(shè)定數(shù)據(jù)滿足高維情形[p>n],并假設(shè)向量[β]的非零分量個數(shù)是稀疏的。由于[p>n],傳統(tǒng)的統(tǒng)計方法(如最小二乘)對求解模型(1)的參數(shù)估計已不再適用,因為得到的解不是唯一的。基于稀疏性假設(shè),我們考慮高維線性模型的LASSO正則化如下:
其中[?]和[‖?‖1]分別表示歐式范數(shù)([?2]范數(shù))和[?1]范數(shù),[λ>0]為調(diào)節(jié)參數(shù)(正則化參數(shù))。問題的求解可以直接調(diào)用R軟件中廣受歡迎的glmnet軟件包[3],該包基于坐標(biāo)下降(coordinate descent)算法,可以求解線性模型和logistic模型的[?1]正則化問題,具體使用方法可以查閱軟件包的參考手冊或教材[5]第6章第6.6節(jié)實驗2的內(nèi)容。
文獻(xiàn)[7]發(fā)展了一種原始對偶有效集方法并結(jié)合一種連續(xù)化策略求解問題(2),方法英文簡記為PDASC。該方法在壓縮感知(一維信號和二維磁共振圖像)中進(jìn)行了有效的應(yīng)用,其主要步驟概括為:
1.基于問題中目標(biāo)泛函[Qβ]的坐標(biāo)極小值[β*](原始變量)給出對偶變量[d*=XT(y-Xβ*)],且對LASSO模型給出關(guān)系表達(dá)式[β*=Sλ(β*+d*)],其中[Sλ(t)=max(|t|-λ,0)sgn(t)]為軟閾值算子;
2.對LASSO模型有[|β*j+d*j|>T*?β*j≠0]成立,其中[T*=λ],從而可以構(gòu)造有效集[A*=j:|β*j+d*j|> T*]和非有效集[I*=(A*)c];
3.設(shè)[βk]和[dk]分別逼近[β*]和[d*],基于[βk]和[dk]得到[Ak+1=j:|βkj+dkj|> T*]和[Ik+1=(Ak+1)c],根據(jù)構(gòu)造知[Ak+1]和[Ik+1]分別逼近[A*]和[I*],再基于[Ak+1]和[Ik+1]求解一個低維最小二乘問題得到[βk+1]和[dk+1],對[k]作循環(huán),設(shè)置停機(jī)準(zhǔn)則([Ak=Ak+1]或[k≥K],[K]為某個正整數(shù)),得到一個給定[λ]的估計[β(λ)=βk+1];
4.考慮一串[λ]格子點序列[λss],其中[λs=λ0ρs],[λ0=||XTy||∞],[0<ρ<1],對于每個[λs]用步驟3得到估計[β(λs)],再結(jié)合連續(xù)化策略(continuation strategy)得到整個解的路徑[{β(λs)}s],最后根據(jù)BIC或HBIC等調(diào)節(jié)參數(shù)選擇準(zhǔn)則選擇最優(yōu)的[λ]和最優(yōu)的解[β(λ)]。
可以看出,PDASC方法操作簡便、實施簡單,關(guān)鍵之處是同時利用原始變量和對偶變量的信息確定一個有效集(相比之下,經(jīng)典的LARS方法僅僅使用了對偶變量的信息),然后在有效集上求解一個低維問題。PDAS算法具有局部超線性的收斂速度,而連續(xù)化策略可以使得問題的求解具有良好的初值(因為PDAS方法屬于Newton型算法,其收斂性依賴于初值的選?。?,再配合PDAS算法的局部超線性收斂性,可以使得整體的PDASC步驟計算速度非??臁L貏e地,在理論上,文獻(xiàn)[7]在LASSO正則化下證明了PDAS的局部一步收斂性(推廣了現(xiàn)有的局部超線性收斂結(jié)果),并且在壓縮感知框架下證明了PDASC對于LASSO模型的全局收斂性。更多關(guān)于PDASC方法的理論細(xì)節(jié)和實施步驟(算法偽代碼、調(diào)節(jié)參數(shù)選擇準(zhǔn)則等)參見文獻(xiàn)[7]。在高通量生物醫(yī)學(xué)研究中,例如基因關(guān)聯(lián)研究和基因表達(dá)研究,基于正則化的變量選擇方法被大量應(yīng)用,而設(shè)計具有較高精度的快速算法求解相應(yīng)正則化問題是應(yīng)用的關(guān)鍵。在下一節(jié),我們運(yùn)用PDASC方法對DNA微陣列基因表達(dá)數(shù)據(jù)在高維LASSO模型框架下展開計算和分析,以期望獲得較為合理的具有一定生物學(xué)意義的結(jié)果。
三、實證分析
根據(jù)文獻(xiàn)[8],我們對ISLR軟件包[5]中的NCI60微陣列數(shù)據(jù)進(jìn)行實證分析,主要目標(biāo)是在高維LASSO模型框架下比較glmnet和PDASC兩種方法的計算速度和精度。NCI60數(shù)據(jù)包含了來自64個癌細(xì)胞系的6830個基因的表達(dá)水平,關(guān)于該數(shù)據(jù)的更多信息可在網(wǎng)站http://genome-www.stanford.edu/nci60/ 上獲取。我們的研究目的是考察第1個基因和余下所有基因的關(guān)系。在線性模型(1)下,該數(shù)據(jù)的響應(yīng)變量[y]是長度為64的數(shù)值向量,其給出了第1個基因的表達(dá)水平;設(shè)計矩陣[X]是維度為[ 64 × 6829]的矩陣,其表示了剩余的6829個基因的表達(dá)水平。故該數(shù)據(jù)有[n=64],[p=6829],滿足[p>n],從而是一個高維數(shù)據(jù),于是我們在正則化模型(2)下求解問題。對于glmnet和PDASC兩種計算方法,我們均采用文獻(xiàn)[9]中的voting準(zhǔn)則選擇調(diào)節(jié)參數(shù)[λ]。對于兩種方法(Method),我們采用的比較指標(biāo)包括計算時間(Time,單位:秒)、模型大小(MS,即非零元素個數(shù))、預(yù)測誤差(PE)和選擇的基因(Gene,即設(shè)計矩陣[X]對應(yīng)的列),其中Time為速度指標(biāo),其余為精度指標(biāo),結(jié)果如表1所示。由表1可知,PDASC的PE比glmnet大,但計算速度比glmnet快,且選擇的基因個數(shù)比glmnet少。由表1還可知,PDASC選擇的基因集合是glmnet選擇基因集的真子集,這說明了PDASC基因集具有一定的顯著性和代表性。我們在表2中列出了兩種方法相同基因的估計系數(shù),發(fā)現(xiàn)雖然兩種方法給出的估計系數(shù)絕對值不同,但符號相同,說明二者表達(dá)的生物學(xué)意義是一樣的。特別地,表2中PDASC給出的Gene估計系數(shù)絕對值要比glmnet給出的大,注意到PDASC基因集比glmnet基因集小,從而在一定意義上說明PDASC方法可以更為集中而精確地選擇到顯著的自變量集。 值得注意的是,為了使結(jié)果更具有說服力,還應(yīng)該使用兩種方法對NCI60數(shù)據(jù)分析作交叉驗證(cross validation),以獲得更為穩(wěn)健的速度和精度結(jié)果,可參考教材[5]第6章第6.6節(jié)實驗2的相關(guān)內(nèi)容。
四、結(jié)語
本文對統(tǒng)計學(xué)習(xí)課程中基于高維線性模型的LASSO正則化的計算問題進(jìn)行了拓展訓(xùn)練,結(jié)合統(tǒng)計學(xué)習(xí)學(xué)科發(fā)展迅速的特點,通過引入文獻(xiàn)中一種新的原始對偶有效集方法對高維基因微陣列數(shù)據(jù)作實證分析,并與著名的glmnet包的計算結(jié)果進(jìn)行了比較。
通過本文內(nèi)容的介紹和實證,我們希望拋磚引玉,引導(dǎo)同學(xué)們在學(xué)習(xí)教材內(nèi)容的同時,更加注重將課本知識與最新的科研方法相結(jié)合,多檢索、多思考、多動手,為以后在學(xué)界從事科研教學(xué)或在業(yè)界進(jìn)行數(shù)據(jù)挖掘工作打下良好的基礎(chǔ)。
與此同時,除了學(xué)生們的“學(xué)”,我們認(rèn)為大數(shù)據(jù)時代下統(tǒng)計學(xué)習(xí)學(xué)科的快速發(fā)展也對老師們的“教”提出了新的更高的要求。廣大教師必須要更加切實地轉(zhuǎn)變教學(xué)思想,目標(biāo)和眼界要聚焦于領(lǐng)袖學(xué)校和行業(yè)巨頭的發(fā)展動態(tài),不斷適應(yīng)社會發(fā)展,及時更新統(tǒng)計學(xué)習(xí)教材,運(yùn)用多種教學(xué)方法和軟件手段來培養(yǎng)學(xué)生的學(xué)習(xí)興趣和操作經(jīng)驗,鼓勵學(xué)生更加注重案例分析和社會實踐,鞏固學(xué)生掌握傳統(tǒng)經(jīng)典知識的同時,把握好“課堂所學(xué)”與“社會所需”之間的緊密聯(lián)系,激發(fā)學(xué)生大膽探索適應(yīng)大數(shù)據(jù)時代發(fā)展的新思想、新理論、新方法和新應(yīng)用。
[ 參 考 文 獻(xiàn) ]
[1] 焦雨領(lǐng).稀疏約束下反問題理論與算法的研究[D].武漢:武漢大學(xué)博士學(xué)位論文,2014.
[2] 徐德義,林志恒.對大數(shù)據(jù)時代大學(xué)統(tǒng)計教學(xué)的認(rèn)識與思考[J].大學(xué)教育,2015(11):183-184.
[3] Hastie, T, Tibshirani, R, Friedman, J. Elements of statistical learning: data mining, inference, and prediction (second edition)[M]. Springer, 2009.
[4] 鄭明,陳子毅,汪嘉岡.數(shù)理統(tǒng)計講義[M].上海:復(fù)旦大學(xué)出版社,2006.
[5] [美]詹姆斯(James, G.)等著,王星等譯. 統(tǒng)計學(xué)習(xí)導(dǎo)論——基于R應(yīng)用[M].北京:機(jī)械工業(yè)出版社,2015.
[6] 鄧世容,石躍勇.蒙特卡洛方法在概率論與數(shù)理統(tǒng)計教學(xué)中的應(yīng)用[J].科教導(dǎo)刊(上旬刊),2018(1):111-112.
[7] Fan Q, Jiao Y, Lu X. A primal dual active set algorithm with continuation for compressed sensing[J]. IEEE Transactions on Signal Processing, 2014, 62(23):6276-6285.
[8] Shi Y, Cao Y, Yu J, Jiao Y. High-dimensional variable selection with the generalized SELO penalty [J].Jounal of Mathematics, 2018, 38(6), 900-998.
[9] Huang J, Jiao Y, Lu X, Zhu L. Robust decoding from 1-bit compressive sampling with ordinary and regularized least squares [J]. SIAM Journal on Scientific Computing, 2018, 40(4):A2062-A2086.
[責(zé)任編輯:林志恒]