陳善雄, 劉小娟, 陳春蓉,鄭方園
(1.西南大學(xué) 計算機(jī)與信息科學(xué)學(xué)院,重慶 400715; 2.貴州工程應(yīng)用技術(shù)學(xué)院 信息工程學(xué)院,貴州 畢節(jié) 551700)
針對Lasso問題的多維權(quán)重求解算法
陳善雄1,2*, 劉小娟1,2, 陳春蓉1,鄭方園1
(1.西南大學(xué) 計算機(jī)與信息科學(xué)學(xué)院,重慶 400715; 2.貴州工程應(yīng)用技術(shù)學(xué)院 信息工程學(xué)院,貴州 畢節(jié) 551700)
(*通信作者電子郵箱csxpml@163.com)
最小絕對收縮和選擇算子(Lasso)在數(shù)據(jù)維度約減、異常檢測方面有著較強(qiáng)的計算優(yōu)勢。針對Lasso用于異常檢測中檢測精度不高的問題,提出了一種基于多維度權(quán)重的最小角回歸(LARS)算法解決Lasso問題。首先考慮每個回歸變量在回歸模型中所占權(quán)重不同,即此屬性變量在整體評價中的相對重要程度不同,故在LARS算法計算角分線時,將各回歸變量與剩余變量的聯(lián)合相關(guān)度納入考慮,用來區(qū)分不同屬性變量對檢測結(jié)果的影響;然后在LARS算法中加入主成分分析(PCA)、獨立權(quán)數(shù)法、基于Intercriteria相關(guān)性的指標(biāo)的重要度評價(CRITIC) 法這三種權(quán)重估計方法,并進(jìn)一步對LARS求解的前進(jìn)方向和前進(jìn)變量選擇進(jìn)行優(yōu)化。最后使用Pima Indians Diabetes數(shù)據(jù)集驗證算法的優(yōu)良性。實驗結(jié)果表明,在更小閾值的約束條件下,加入多維權(quán)重后的LARS算法對Lasso問題的解具有更高的準(zhǔn)確度,能更好地用于異常檢測。
最小絕對收縮和選擇算子;變量選擇; 最小角回歸;多元線性回歸;加權(quán)
大數(shù)據(jù)時代,數(shù)據(jù)挖掘已展現(xiàn)出其魅力,如何使用數(shù)理統(tǒng)計模型從海量數(shù)據(jù)中挖掘有效信息越來越受到業(yè)界的關(guān)注。在建立模型初期,一般會選擇盡可能多的自變量(屬性集)減小因缺少重要自變量而出現(xiàn)的模型偏差,但建模過程中需要尋找對結(jié)果變量解釋力最強(qiáng)的自變量集合,即通過對自變量選擇來提高模型的預(yù)測精度與準(zhǔn)確度[1]。統(tǒng)計學(xué)中常用的模型之一是線性回歸模型,而對線性回歸模型而言,模型的準(zhǔn)確性主要取決于變量的選擇和回歸系數(shù)的取值。在Frank等[2]提出的 Ridge Regression算法和Bireman[3]提出的 Nonnegative Garrote算法的啟發(fā)下,Tibshirani[4]提出了一種稱之為最小絕對收縮和選擇算子(Least absolute shrinkage and selection operator, Lasso) 的新的變量選擇方法。該算法通過構(gòu)造一個懲罰函數(shù)來壓縮系數(shù),在回歸系數(shù)的絕對值之和小于一個常數(shù)的約束條件下,使殘差的平方最小化,Lasso方法作為一種壓縮估計,具有較高的檢測精度和較好的參數(shù)收斂一致性。進(jìn)一步,Efron等[5]提出最小角回歸(Least Angle Regression, LARS)算法來支撐Lasso問題的解法,并進(jìn)一步提出了修正的LARS算法,該算法通過消除了回歸系數(shù)β異號的情況來得到Lasso問題的解。修正的LARS算法采用逐步回歸,每一步路徑都保持當(dāng)前的殘差與所有入選變量的相關(guān)性都相同,同時滿足Lasso解與當(dāng)前逼近保持同向的要求,保證最優(yōu)結(jié)果,降低算法復(fù)雜度[6-7]。但LARS算法在求解過程中,利用了自變量的均分的“角分線”方向?qū)庀蛄窟M(jìn)行逼近,并沒有考慮到不同變量對最終解的權(quán)重影響。
因此本文提出了采用多維權(quán)重的方式計算變量的權(quán)重,考慮到不是所有屬性項(變量)都影響著檢測結(jié)果,每個回歸變量在回歸模型中所占權(quán)重不同,即此屬性變量在整體評價中的相對重要程度不同,因此,在LARS算法計算“角分線”時,將各回歸變量與剩余變量的聯(lián)合相關(guān)度納入考慮,用來區(qū)分不同屬性變量對檢測結(jié)果的影響。實驗通過PimaIndiansDiabetes數(shù)據(jù)集,兩組評價指標(biāo)對本文提出的方法進(jìn)行了討論,其結(jié)果表明加入多維權(quán)重的LARS對Lasso問題的解答具有更高的準(zhǔn)確性能。
1.1Lasso問題描述
存在多維自變量設(shè)Xj∈Rn(j=1,2,…,m),因變量y∈Rn,且每組自變量Xj都有對應(yīng)的因變量y,用自變量Xj對因變量y進(jìn)行線性回歸,在限定回歸系數(shù)β的L1范數(shù)小于t的情況下,求使得殘差平方和最小的回歸系數(shù)β的估值。因此,線性 Lasso 回歸模型可以表示為:
y=Xβ+e
(1)
其中:β是j維列向量,為待估參數(shù);誤差向量e滿足E(e)=0,且 Var(e)=σ2。并且假定E(y|X)=β1x1+β2x2+…+βjxj。注意該模型是稀疏模型,即β1,β2,…,βj中有很多系數(shù)為零。變量選擇的目的就是根據(jù)獲取的數(shù)據(jù)來識別模型中哪些系數(shù)為零,并估計其他非零參數(shù),即尋找構(gòu)建稀疏模型的參數(shù)。需要求解的問題寫成矩陣表達(dá)式為:
(α,β)=arg min‖y-Xβ-α‖2; ‖β‖1≤t
(2)
1.2LARS算法
LARS算法很好地解決了Lasso問題,其建立在前向選擇算法和前向梯度算法的基礎(chǔ)上,逐步前進(jìn)步長適中,降低計算復(fù)雜度的同時又盡可能地保留了信息相關(guān)性。LARS算法的基本步驟如下:
1)LARS算法判斷自變量xK與y的相關(guān)度,用相關(guān)度最大的xK對y進(jìn)行逼近。
2)直到另一個xP具有相同的對y的相關(guān)度,即rxKy=rxPy,此時開始從xK與xP的“角分線”方向xU逼近y。
3)同樣的,當(dāng)出現(xiàn)第三個xT對y相關(guān)度與xU相同時,將xT納入到逼近隊列中,選擇三個向量共同的“角分線”方向xU進(jìn)行新一輪逼近,此時“角分線”表示高維空間中各向量的平分線。
4)逐步逼近直到殘差小于某個閾值或所有自變量都參與進(jìn)逼近,算法結(jié)束。
圖1中,兩個自變量x1與x2與因變量y相關(guān)度rx1y>rx2y,用x1進(jìn)行逼近,直至β1x1與y的殘差和x1、x2的相關(guān)度相同,即殘差處于x1與x2的角平分線上,此后用x1與x2的角平分線方向逼近因變量y。
圖1 LARS算法求解步驟
2.1 多維權(quán)重的LARS方法分析
在LARS逐步回歸過程中,將所有入選變量視為同等重要進(jìn)行角回歸,每次逼近選擇與y最大相關(guān)度xj,考慮到每個回歸變量xj在回歸模型中所占權(quán)重不同,即此指標(biāo)在整體評價中的相對重要程度不同,將自變量xj與剩余變量的聯(lián)合相關(guān)度納入考慮。每一次逼近,將xj與y的相關(guān)度及Xj在整體指標(biāo)中所占重要程度同時作為選擇逼近特征的條件。
對于x1、x2,原LARS選擇對y逼近變量的條件是回歸變量對y的相關(guān)度,此時由rx1y>rx2y,將x1作為第一逼近變量;我們將自變量xj對整個系統(tǒng)的貢獻(xiàn)率作為逼近條件之一,此時新的相關(guān)度為:
(3)
其中:WXj為自變量xj對系統(tǒng)的貢獻(xiàn)率,計算方法將在下面詳細(xì)描述;u、v為常數(shù)。將自變量對y相關(guān)度與對系統(tǒng)的貢獻(xiàn)率的乘積作為逼近條件,必然會增加判斷條件的值域,為了保留系統(tǒng)逼近的穩(wěn)定性,將乘積限制在某個值域范圍內(nèi),即規(guī)定在[v,u]內(nèi)。
圖2 加入多維權(quán)重后X與y的相關(guān)性變化
圖3 加入多維權(quán)重后的X前進(jìn)方向
將上述過程應(yīng)用到多維高階系統(tǒng),將m個特性指標(biāo)及n個對象用矩陣表示為:
(4)
或者表示為:
(5)
則應(yīng)變量Y用矩陣表示為:
(6)
回歸過程中,WXi有多種計算方法,本文采用以下三種權(quán)重確定方法來控制回歸過程。
1)主成分分析法。
統(tǒng)計學(xué)中,主成分分析(PrincipleComponentAnalysis,PCA)借用正交變換進(jìn)行降維[8-9],將數(shù)據(jù)變換到一個新的坐標(biāo)系統(tǒng)中,使數(shù)據(jù)投影的最大方差處于第一坐標(biāo)(稱為第一主成分),第二方差處于第二坐標(biāo)(稱為第二主成分),依此類推。變換后,保留了數(shù)據(jù)集的低階主成分,忽略高階主成分,確定起支配作用的因素,通常保留總體信息利用率高于85%的前m個主成分。借用主成分分析法的思想,同時保留所有成分的評價值,確定每個成分的方差貢獻(xiàn)率,算法步驟如下:
對樣本進(jìn)行如下標(biāo)準(zhǔn)化變換:
(7)
其中:
(8)
將相關(guān)系數(shù)矩陣R作為每個特征的信息利用率:
R=[rij]n×m=ZTZ/(n-1)
(9)
其中:
rij=∑zij·zij/(n-1)
(10)
2)獨立性權(quán)數(shù)法。
利用數(shù)據(jù)統(tǒng)計學(xué)中的多元回歸方法,對特征的復(fù)相關(guān)系數(shù)進(jìn)行排序,復(fù)相關(guān)系數(shù)越大,所重復(fù)的信息越多,信息利用率響應(yīng)越小,權(quán)重越小。計算方式如下:
(11)
(12)
由R與權(quán)重為負(fù)比例關(guān)系,取復(fù)相關(guān)系數(shù)的倒數(shù)作為評分,經(jīng)歸一化處理得到權(quán)重系數(shù),最終的權(quán)重表示為:
(13)
3)CRITIC法。
在獨立權(quán)數(shù)法的基礎(chǔ)上,更進(jìn)一步,基于Intercriteria相關(guān)性的指標(biāo)的重要度評價法(CRiteriaImportanceThoughIntercriteriaCorrelation,CRITIC)是由Diakoulaki[10]提出的一種客觀權(quán)重賦權(quán)法,它以確定指標(biāo)的客觀權(quán)數(shù)來評價指標(biāo)間的對比強(qiáng)度和沖突性為基礎(chǔ)。標(biāo)準(zhǔn)差的大小表明在同一指標(biāo)內(nèi),各方案取值差距的大小,可用標(biāo)準(zhǔn)差表現(xiàn)對比強(qiáng)度;各指標(biāo)間的沖突性是以指標(biāo)之間的相關(guān)性為基礎(chǔ),可用相關(guān)度表示沖突性[11]。計算步驟如下:
第j個指標(biāo)與其他指標(biāo)的沖突性量化指標(biāo)為:
(14)
其中,rtj表示評價指標(biāo)Xt和Xj之間的相關(guān)系數(shù):
(15)
Cj表示第j個指標(biāo)所包含的信息量:
(16)
Cj越大,表示j個評價指標(biāo)所包含的信息量越大[12-13],該指標(biāo)的重要性也就越大,則第j個指標(biāo)的客觀權(quán)重表示為:
(17)
以上所述三個方法得到權(quán)重后,將權(quán)重Rj集中化后表示權(quán)重對前進(jìn)方向的影響:
(18)
2.2 算法步驟
為獲得穩(wěn)定的數(shù)值解,對式(2)進(jìn)行預(yù)處理和歸一化,消去常數(shù)α,并使結(jié)果向量y和自變量向量Xj(j=1,2,…,m)零均值且l2范數(shù)歸一。
定義指標(biāo)集A={sj1xj1,sj2xj2,…,sjlxjl,…,sjkxjk}?{1,2,…,m},存在從X中選出的滿足指標(biāo)集A的列向量XA,使其與y同向。
XA=[sj1xj1,sj2xj2,…,sjlxjl,…,sjkxjk]∈Rn×k
(19)
其中sjl為符號變量:
(20)
定義XA中向量的“角分線”uA:
(21)
其中:1A為長度為|A|0所有元素為1的列向量;uA是角分線上的單位矢量;wA可理解為選中的變量集XA中每個屬性Xl對角分線的貢獻(xiàn)度。為改變前進(jìn)方向與前進(jìn)變量的選擇,對wA進(jìn)行加權(quán)處理。
(22)
sj=sign{C};j∈A
(23)
a=XTuA或aj=〈xj,uA〉
(24)
此時算法沿uA方向前進(jìn)的長度為:
(25)
式中min上面的加號表示在此輪逼近中,只計算集合中正數(shù)的最小值。每個A中的自變向量相應(yīng)增加γwA,同時加入權(quán)重控制逼近方向:
(26)
βA=βA+γw′
(27)
(28)
之后需要引入新的元素:
A+=A∪{j′}
(29)
其中j′是為式(25)取最小值的j,為了符合Lasso解要求與當(dāng)前逼近保持同向,在最早出現(xiàn)異號的步長為:
(30)
輸入 自變量集X,因變量集Y,誤差項ε;
輸出 式(2)中的回歸系數(shù)β。
1)
程序準(zhǔn)備;
2)
數(shù)據(jù)預(yù)處理,對X、Y歸一化;
3)
4)
5)
6)
7)
Rweight=PCA(X)或Rweight=IW(X)或Rweight=CRITIC(X)
8)
集中化Rweight;
9)
10)
LARS循環(huán)中rate=Rweight(1:row(w),:) ;w′=w*rate;
11)
循環(huán)結(jié)束;
12)
返回回歸系數(shù)β。
算法加入權(quán)重分析,增加了計算步驟,使得計算時間增加,但統(tǒng)計模型中各自變向量與因變向量的前進(jìn)機(jī)制不變,空間復(fù)雜度與原算法保持一致。
3.1 數(shù)據(jù)集
數(shù)據(jù)集采用美國約翰·霍普金斯大學(xué)應(yīng)用物理實驗室(AppliedPhysicsLaboratory,TheJohnsHopkinsUniversity)提供的皮馬印第安人糖尿病數(shù)據(jù)集(PimaIndiansDiabetesDataSet)[14]。該數(shù)據(jù)記錄了768個體征性能描述與糖尿病陰陽性樣本,包括8個屬性變量和一個分類值,分類值中“1”表示檢測結(jié)果為陽性,“0”表示檢測結(jié)果為陰性。將8個不同屬性值作為輸入自變量Xj,是否患病作為輸出因變量Y驗證算法,檢測目標(biāo)是在原LARS算法結(jié)果上對檢測結(jié)果準(zhǔn)確度加以改進(jìn)。
3.2 驗證條件
為了更直觀地對本文提出的方法性能進(jìn)行評估比較,本文采用ROC曲線展示結(jié)果。參與者糖尿病檢測陰陽性為二元分類問題,檢測的結(jié)果有以下四種類型:
1)真陽性(TruePositive,TP):檢測為陽性,實際上也為陽性。2)偽陽性(FalsePositive,FP):檢測為陽性,實際卻為陰性。3)真陰性(TrueNegative,TN):檢測為陰性,實際上也為陰性。4)偽陰性(FalseNegative,FN):檢測為陰性,實際卻為陽性。
通過ROC空間四個基礎(chǔ)類型統(tǒng)計,P表示正例,N表示負(fù)例,采用以下三個性質(zhì)作為檢查標(biāo)準(zhǔn):
1)準(zhǔn)確度(ACCuracy,ACC):
ACC=(TP+TN)/(P+N)
2)真陰性率(TruePositiveRatio,TPR):
TPR=TP/P=TP/(TP+FN)
3)陰性預(yù)測值(NegativePredictiveValue,NPV):
NPV=TN/(TN+FN)
3.3 實驗結(jié)果
對于閾值t,從0開始以0.01為步長進(jìn)行增加至1,以陰陽性為因變量,8個屬性特征性能值為自變量,繪出準(zhǔn)確度、陽性預(yù)測值、真陰性率的變化曲線。
圖4展示了在PimaIndiansDiabetes數(shù)據(jù)集下,Lasso算法每輪循環(huán)后準(zhǔn)確度以及Lasso算法每輪循環(huán)后的三項檢查指標(biāo)的綜合最優(yōu)值。
NPV表示檢測為陽性的人中實際為陽性即檢測正確的比例,圖4中顯示,加入權(quán)重后Lasso解法的NPV均有所提高,其中,加入主成分分析后NPV提高5.16個百分點,采用獨立權(quán)數(shù)法NPV提高5.58個百分點,采用CRITIC法NPV提高5.1個百分點。
與NPV相比較,真陰性率(TPR)又稱命中率,表示檢測為陽性的人中檢測正確的比例。圖4中顯示,PCA對算法前進(jìn)方向的改變使得TPR提高13個百分點,獨立權(quán)數(shù)法使TPR提高14個百分點,CRITIC使TPR提高13個百分點。
準(zhǔn)確度(ACC)表示在因變量陽性和陰性的總和中,經(jīng)Lasso求解判斷正確的個體點的個數(shù),即檢測為陽性、實際也陽性與檢測為陰性、實際也為陰性的人數(shù)的總和,可以看出,加入主成分分析使得ACC增加了0.32個百分點,加入CRITIC法對ACC無影響,加入獨立權(quán)數(shù)法后的Lasso解法使得ACC提高了0.32個百分點,三個方法都使ACC保持不變或有所提高。
綜合以上三個指標(biāo),可以發(fā)現(xiàn)加入多維度權(quán)重的前進(jìn)方向后,系統(tǒng)最優(yōu)解的閾值減小,代表系統(tǒng)回歸系數(shù)絕對值之和小于某一更小的閾值,即在更苛刻的閾值范圍內(nèi)滿足要求。
圖 4 不同檢測標(biāo)準(zhǔn)曲線
圖5展示了在PimaIndiansDiabetes數(shù)據(jù)集下,Lasso算法每輪循環(huán)因變量與角分線方向的殘量的平方和(SumofSquaredResiduals,SSR),而SSR平穩(wěn)的轉(zhuǎn)折點就對應(yīng)了Lasso在PimaIndiansDiabetes數(shù)據(jù)集中進(jìn)行回歸的最佳自變量系數(shù)。
圖5 因變量與角分線方向的殘量的平方曲線
由圖5可以看出,加入不同權(quán)重判定后,SSR的整體走向完全一致,且最佳系數(shù)處對應(yīng)的殘量基本保持一致,加入權(quán)重后不會改變Lasso解法原有的優(yōu)點。最佳自變量系數(shù)有明顯的增大,此時所對應(yīng)的因變量與角分線方向的殘量有所變化,其中:加入主成分分析法的Lasso解法增加了5.1個百分點的殘量,加入獨立權(quán)數(shù)法降低了2.1個百分點的殘量,加入CRITIC法降低了2.1個百分點的殘量,即加入獨立權(quán)數(shù)法和CRITIC法后最后的回歸結(jié)果更接近真實因變量。
綜合以上指標(biāo),加入獨立權(quán)數(shù)法后Lasso解的準(zhǔn)確性最高,其次是CRITIC法和主成分分析法。加入權(quán)重通過改變回歸系數(shù)方向提高解準(zhǔn)確性,表1展示了原始的回歸系數(shù)β以及加入主成分分析法后的β-PCA,加入獨立權(quán)數(shù)法后的β-IW,加入CRITIC法后的β-CRITIC。從表1中可以看出,β-IW對應(yīng)的回歸系數(shù)相對于原始回歸系數(shù)有一定減小,取值區(qū)間變窄,但其收斂性沒有改變,而且從圖5中可以看出,其回歸結(jié)果更加準(zhǔn)確。
表1 不同方法回歸系數(shù)
本文針對Lasso問題的解法即LARS算法的選擇變量與前進(jìn)方向過程,提出了基于多維權(quán)重的LARS算法,提高了Lasso問題解的準(zhǔn)確性,并且保持原Lasso的參數(shù)估計具有穩(wěn)定的回歸系數(shù)、較少參數(shù)數(shù)量的同時具有較好的參數(shù)收斂一致性,并采用PimaIndiansDiabetes數(shù)據(jù)集驗證算法的有效性。由于自變量集維數(shù)較大,計算權(quán)重的準(zhǔn)確度存在瑕疵,因此以后研究中需要進(jìn)一步優(yōu)化嵌入的確定權(quán)重的算法,以提升回歸算法在利用權(quán)重改變前進(jìn)變量和前進(jìn)方向選擇時的精度和準(zhǔn)確度。
)
[1] 馬景義,張辛連,蘇治,等.廣義線性模型組LASSO路徑算法[J].中國科學(xué):數(shù)學(xué),2015,45(10):1725-1738.(MAJY,ZHANGXL,SUZ,etal.AnalgorithmfortheestimationofregularizationpathsofgeneralizedlinearmodelswithgroupLASSOpenalty[J].SCIENTIASINICAMathematica, 2015, 45(10): 1725-1738.)
[2]FRANKIE,FRIEDMANJH.Astatisticalviewofsomechemometricsregressiontools[J].Technometrics, 1993, 35(2): 109-135.
[3]BREIMANL.Bettersubsetregressionusingthenonnegativegarrote[J].Technometrics, 1995, 37(4): 373-384.
[4]TIBSHIRANIR.RegressionshrinkageandselectionviatheLasso[J].JournaloftheRoyalStatisticalSociety.SeriesB(Methodological), 1996, 58(1): 267-288.
[5]EFRONB,HASTIET,JOHNSTONEI,etal.Leastangleregression[J].TheAnnalsofStatistics, 2004, 32(2): 407-499.
[6] 李鋒,蓋玉潔,盧一強(qiáng).測量誤差模型的自適應(yīng)LASSO變量選擇方法研究[J].中國科學(xué):數(shù)學(xué),2014,44(9):983-1006.(LIF,GAIYJ,LUYQ.AdaptiveLASSOformeasurementerrormodels[J].SCIENTIASINICAMathematica, 2014, 44(9): 983-1006.)
[7]MARAHIELMA.IntroducingLassopeptidesasamolecularscaffoldfordrugdesign[J].JournalofPeptideScience, 2014, 20:S27-S28.
[8]SHAHBEIGS,POURGHASSEMH.Fastandautomaticalgorithmforopticdiscextractioninretinalimagesusingprinciple-component-analysis-basedpreprocessingandcurvelettransform[J].JournaloftheOpticalSocietyofAmericaA—OpticsImageScienceandVision, 2013, 30(1): 13-21.
[9]WANGJ,WANGJ.Forecastingstockmarketindexesusingprinciplecomponentanalysisandstochastictimeeffectiveneuralnetworks[J].Neurocomputing, 2015, 156: 68-78.
[10]DIAKOULAKID,MAVROTASG,PAPAYANNAKISL.Determiningobjectiveweightsinmultiplecriteriaproblems:theCRITICmethod[J].Computers&OperationsResearch, 1995, 22(7): 763-770。
[11]ALHAMZAWIR,YUKM.BayesianLasso-mixedquantileregression[J].JournalofStatisticalComputationandSimulation, 2014, 84(4): 868-880.
[12]KAULA.Lassowithlongmemoryregressionerrors[J].JournalofStatisticalPlanningandInference, 2014, 153: 11-26.
[13]LILH,MOR.Acomprehensivedecision-makingapproachbasedonhierarchicalattributemodelforinformationfusionalgorithms’performanceevaluation[J].MathematicalProblemsinEngineering, 2014, 2014:ArticleID124156.
[14]BACHEK,LICHMANM.UCImachinelearningrepository[DB/OL].Irvine,CA:UniversityofCalifornia. [2016- 09- 20].http://archive.ics.uci.edu/ml.
ThisworkispartiallysupportedbytheNationalNaturalScienceFoundationofChina(61303227),thePlanofGuizhouProvincialScienceandTechnologyTalentsinUniversities(KEHEKY[2016]098),theJointFundofGuizhouScienceandTechnologyAgency(KEHELH[2016]7053).
CHEN Shanxiong, born in 1981, Ph.D., associate professor. His research interests include compressed sensing, anomaly detection, pattern recognition.
LIU Xiaojuan, born in 1990, M. S., assistant. Her research interests include pattern recognition, neural network.
CHEN Chunrong, born in 1995, M. S. candidate. Her research interest include data mining, intelligent information processing.
ZHENG Fangyuan, born in 1994, M. S. candidate. His research interest include anomaly detection, network security.
Method for solving Lasso problem by utilizing multi-dimensional weight
CHEN Shanxiong1,2*, LIU Xiaojuan1,2, CHEN Chunrong1, ZHENG fangyuan1
(1.CollegeofComputerandInformationScience,SouthwestUniversity,Chongqing400715,China; 2.SchoolofInformationEngineering,GuizhouUniversityofEngineeringScience,BijieGuizhou551700,China)
Least absolute shrinkage and selection operator (Lasso) has performance superiority in dimension reduction of data and anomaly detection. Concerning the problem that the accuracy is low in anomaly detection based on Lasso, a Least Angle Regression (LARS) algorithm based on multi-dimensional weight was proposed. Firstly, the problem was considered that each regression variable had different weight in the regression model. Namely, the importance of the attribute variable was different in the overall evaluation. So, in calculating angular bisector of LARS algorithm, the united correlation of regression variable and residual vector was introduced to distinguish the effect of different attribute variables on detection results. Then, the three weight estimation methods of Principal Component Analysis (PCA), independent weight evaluation and CRiteria Importance Though Intercriteria Correlation (CRITIC) were added into LARS algorithm respectively. The approach direction and approach variable selection in the solution of LARS were further optimized. Finally, the Pima Indians Diabetes dataset was used to prove the optimal property of the proposed algorithm. The experimental results show that, the LARS algorithm based on multi-dimensional weight has a higher accuracy than the traditional LARS under the same constraint condition with smaller threshold value, and can be more suitable for anomaly detection.
Least absolute shrinkage and selection operator (Lasso); variable selection; Least Angle Regression (LARS); Multiple Linear Regression (MLR); weighting
2016- 11- 07;
2017- 01- 12。 基金項目:國家自然科學(xué)基金資助項目(61303227);貴州省普通高等學(xué)??萍及渭馊瞬胖С钟媱濏椖?黔教合KY字[2016] 098);貴州省科技廳聯(lián)合基金資助項目(黔科合LH字[2016]7053) 。
陳善雄(1981—),男,重慶人,副教授,博士,主要研究方向:壓縮感知、異常檢測、模式識別; 劉小娟(1990—),女,四川廣安人,助教,碩士,主要研究方向:模式識別、神經(jīng)網(wǎng)絡(luò); 陳春蓉(1995—),女,重慶人,碩士研究生,主要研究方向:數(shù)據(jù)挖掘、智能信息處理;鄭方園(1994—),男,河南焦作人,碩士研究生,主要研究方向:異常檢測、網(wǎng)絡(luò)安全。
1001- 9081(2017)06- 1674- 06
10.11772/j.issn.1001- 9081.2017.06.1674
TP181;TP301.6
A