常麗娜 張培愛
(暨南大學(xué)信息科學(xué)技術(shù)學(xué)院廣州510632)
多任務(wù)Lasso回歸法在恒星光譜物理參量估計中的應(yīng)用?
常麗娜 張培愛?
(暨南大學(xué)信息科學(xué)技術(shù)學(xué)院廣州510632)
多任務(wù)學(xué)習(xí)方法在機(jī)器學(xué)習(xí)、計算機(jī)視覺、人工智能領(lǐng)域已得到廣泛關(guān)注,利用任務(wù)間的相關(guān)性,將多個任務(wù)同時學(xué)習(xí)的效果優(yōu)于每個任務(wù)單獨學(xué)習(xí)的情況.采用多任務(wù)Lasso回歸法(Multi-task Lasso Regression)用于恒星光譜物理參量的估計,不僅可以獲取不同物理參量間的共同的特征信息,而且也可以很好地保留不同物理參量的特有的補(bǔ)充信息.使用恒星大氣模擬模型合成光譜庫ELODIE中的光譜數(shù)據(jù)和美國大型巡天項目Sloan發(fā)布的SDSS實測光譜數(shù)據(jù)進(jìn)行實驗,模型估算精度優(yōu)于相關(guān)文獻(xiàn)中的方法,特別是對重力加速度(lgg)和化學(xué)豐度([Fe/H])的估計.實驗中通過改變光譜的分辨率,施加不同信噪比(SNR)的噪聲,來說明模型的穩(wěn)定性強(qiáng).結(jié)果表明,模型精度受光譜分辨率和噪聲的影響,但噪聲對其影響更大,可見,多任務(wù)Lasso回歸法不僅操作簡便,穩(wěn)定性強(qiáng),而且也提高了模型的整體預(yù)測精度.
恒星:基本參數(shù),方法:數(shù)據(jù)分析,方法:統(tǒng)計,方法:其它諸多方面
現(xiàn)在的大口徑兼大視場望遠(yuǎn)鏡,如我國的郭守敬望遠(yuǎn)鏡[1?2],美國的Sloan數(shù)字巡天望遠(yuǎn)鏡[3?4]等,可以得到大量的光譜數(shù)據(jù).如何在海量光譜數(shù)據(jù)中測量出恒星光譜的物理參量也成為了天體光譜數(shù)據(jù)處理中最基本、最重要的內(nèi)容.恒星光譜物理參量主要有表面有效溫度(Teff)、重力加速度(lgg)與化學(xué)豐度([Fe/H]).目前,人們研究提出了多種關(guān)于恒星光譜物理參量自動估計的方法,主要有人工神經(jīng)網(wǎng)絡(luò)(Arti fi cial Neural Network,ANN)算法和最近鄰算法(Minimum Distance Method,MDM).如由Bailer-Jones設(shè)計的820:5:5:1結(jié)構(gòu)的ANN[5]用于恒星表面有效溫度的預(yù)測,2000年又開發(fā)了雙隱層、多感知器的前饋ANN系統(tǒng);Fuentes等的K-近鄰算法[6]、Allende的加權(quán)平均算法[7]、Zhang等的變窗寬非參數(shù)回歸法[8?9]等都是MDM的變形.
由于光譜數(shù)據(jù)海量的特點,以及光譜在傳輸、接收過程中往往受到大量噪聲的干擾,例如光子噪聲、天光線以及設(shè)備的噪聲等,影響了最終恒星光譜物理參量的估計效果.在進(jìn)行模型預(yù)測前,要對高維數(shù)據(jù)降維、剔除噪聲干擾,相關(guān)的方法有主成分分析(PCA)、濾波法等.Tibshirani于1996年提出的Lasso[10](Least Absolute Shrinkage Selection and Operator)算法由于其計算速度快、精度高,備受青睞.恒星光譜包含了恒星中物理參量的信息,但目前許多模型分開考慮恒星光譜物理參量,失去了物理參量間潛在的聯(lián)系.近年來,在機(jī)器學(xué)習(xí)、計算機(jī)視覺、人工智能領(lǐng)域,多任務(wù)學(xué)習(xí)(Multi-task Learning,MTL)方法引起了眾多學(xué)者的研究興趣,目的是獲取不同任務(wù)間的潛在關(guān)系,將多個相關(guān)任務(wù)同時學(xué)習(xí),進(jìn)而充分利用任務(wù)間豐富的信息.這樣的學(xué)習(xí)方法有利于任務(wù)的互相學(xué)習(xí),更能突顯它能提高預(yù)測模型的預(yù)測效果和泛化性能的優(yōu)勢.比如,Evgeniou等[11]使用多任務(wù)支持向量機(jī)的方法用于提高消費者消費偏好的預(yù)測準(zhǔn)確率;Bakker等[12]通過實驗說明了在少量圖像類別情況下多任務(wù)分類方法能夠提高分類器的泛化性能.雖然使用Lasso可以對每個任務(wù)獨立地進(jìn)行有效的學(xué)習(xí)[13],但它忽略了任務(wù)間潛在的聯(lián)系,易造成數(shù)據(jù)的過度擬合,影響最終模型的表現(xiàn)效果.在多任務(wù)學(xué)習(xí)中,Liu等[14]通過有效的L21范式最小化可以讓不同的任務(wù)獲取共同的特征,然而這種約束過強(qiáng),沒有考慮每個任務(wù)所特有的特征信息,可能會降低預(yù)測模型的泛化性能.而本文使用的多任務(wù)Lasso可以克服這些不足,在對多個任務(wù)同時學(xué)習(xí)的同時,不僅可以獲取不同任務(wù)間的共同的特征信息,而且也可以很好地保留不同任務(wù)的補(bǔ)充信息[15].如果將建模分析每個物理參量的問題看作一個任務(wù),則可將物理參量同時建模分析的問題轉(zhuǎn)換為多任務(wù)學(xué)習(xí)問題,從真正意義上實現(xiàn)物理參量的同時建模分析.然后在多任務(wù)Lasso的基礎(chǔ)上進(jìn)行通常的線性回歸對恒星光譜物理參量lg Teff、lg g、[Fe/H]進(jìn)行估計,它避免了多個任務(wù)分開獨立計算的繁瑣,更重要的是提高了恒星光譜物理參量的整體估計精度和預(yù)測模型的泛化性能.
在大數(shù)據(jù)時代的背景下,多任務(wù)處理變得尤為重要.假設(shè)有m個任務(wù),給定數(shù)據(jù)n是樣本數(shù),d是樣本特征變量數(shù),j=1,···,m. Xj所對應(yīng)的響應(yīng)變量對于恒星光譜,涉及的所有物理參量對應(yīng)的光譜數(shù)據(jù)是一樣的,即對所有任務(wù),輸入樣本Xj是相同的,但本文使用的方法不限于此,它具有更廣的適用性.需要預(yù)測的線性回歸模型[16]為:
其中,wj∈Rn×1,表示任務(wù)j的回歸系數(shù)向量.為了同時計算m個任務(wù)的m個回歸系數(shù)向量,即W=(w1,···,wj,···,wm),需要優(yōu)化的多任務(wù)Lasso模型為:
雖然傳統(tǒng)的Lasso使用稀疏回歸(基于L1-范式)可以有效、獨立地對每個任務(wù)進(jìn)行預(yù)測,但它忽略了任務(wù)間潛在的聯(lián)系,易造成數(shù)據(jù)的過度擬合.基于L21范式的組稀疏可以讓不同的任務(wù)獲取共同的特征,然而這種約束過強(qiáng),沒有考慮每個任務(wù)所特有的特征信息,可能會影響預(yù)測模型的泛化性能.上述(2)式中,不同任務(wù)在獲取共同的特征信息的同時,正則化項D又能有效地保留不同任務(wù)的特有補(bǔ)充信息.
對于(2)式的求解采用加速梯度法[17](Accelerated Gradient Method,AGM),AGM不像傳統(tǒng)的梯度法,在每次迭代中只用最近的點作為當(dāng)前的搜索點,而是用前兩個點的一個線性組合作為新的搜索點,使收斂速度更快.同時,為了確定參數(shù)λ1、λ2,我們使用交叉驗證(Cross Validation)進(jìn)行參數(shù)優(yōu)選.
實驗數(shù)據(jù)一:選取恒星大氣模擬模型合成光譜庫ELODIE中的1 800條光譜數(shù)據(jù)用于實驗,所有的光譜均已經(jīng)過流量校準(zhǔn).所有樣本的光譜波長λ=421~650 nm,光譜的分辨率Δλ=1 nm.3個物理參量的數(shù)據(jù)范圍分別為:Teff:3700~13386 K,lg g:0.00~4.80 dex,[Fe/H]:?2.94~1.00 dex.
實驗數(shù)據(jù)二:選取美國大型巡天項目Sloan發(fā)布的SDSS-DR7中的4 000條恒星光譜數(shù)據(jù).這些光譜來自102個板塊(0266—0367),每個板塊最多可觀測到640條光譜.實際中隨機(jī)選用每個板塊的部分恒星光譜數(shù)據(jù)用于實驗,在對數(shù)波長格式下將其移動到靜止波長,截取共同波長λ=398~794 nm,并使用線性插值按照分辨率Δλ=0.1 nm對光譜進(jìn)行采樣.3個物理參量的數(shù)據(jù)范圍分別為:Teff:4163~9685 K,lg g:1.26~4.99 dex,[Fe/H]:?3.44~0.18 dex.
為了更精確地對溫度進(jìn)行描述,實驗中用溫度的對數(shù)值lg Teff代替溫度Teff.對每個物理參量的測量效果,采用平均絕對誤差δ(mean absolute error:δ)、誤差的標(biāo)準(zhǔn)差v(standard deviation:v)和平均誤差u(mean error:u)來度量.
基于ELODIE合成光譜數(shù)據(jù),在實驗中隨機(jī)選取ELODIE合成光譜庫中的1 800條光譜,分成兩部分,75%的樣本作為訓(xùn)練集,剩下25%的樣本作為測試集.每條光譜在訓(xùn)練和測試之前,首先進(jìn)行二范數(shù)行歸一化的預(yù)處理,歸一化操作為:已知n條d維的光譜數(shù)據(jù)然后用多任務(wù)Lasso回歸法對恒星光譜物理參量做估計.我們把這種方法同文獻(xiàn)[18-19]的方法做對比,有基于主成分分析的非參數(shù)回歸法(PCA+non-parameter)、基于Haar小波的非參數(shù)回歸法(Haar+non-parameter)、基于主成分分析的支持向量機(jī)回歸法(PCA+SVR)、基于Haar小波的支持向量機(jī)回歸法(Haar+SVR).參量lg Teff、lg g、[Fe/H]平均絕對誤差δ和誤差的標(biāo)準(zhǔn)差v的統(tǒng)計結(jié)果見表1.
表1 多任務(wù)Lasso回歸法和相關(guān)文獻(xiàn)方法對ELODIE數(shù)據(jù)lgTeff、lgg、[Fe/H]的預(yù)測結(jié)果誤差的比較Table 1 The error comparison of the predicted lgTeff,lgg,and[Fe/H]in the ELODIE data estimated with the multi-task Lasso regression and the methods in the related literature
由表1可見,多任務(wù)Lasso回歸方法對恒星光譜物理參量的預(yù)測效果優(yōu)于相關(guān)文獻(xiàn)中的方法,尤其是對lgg和[Fe/H]的預(yù)測.觀察表2,3個物理參量lgTeff、lgg、[Fe/H]的平均誤差均在0附近,說明系統(tǒng)偏差較小;且lgTeff、lgg、[Fe/H]的預(yù)測值與真值之間的相關(guān)系數(shù)分別達(dá)到0.985 3、0.966 1、0.779 8;計算不同物理參量間的相關(guān)性,lgg的殘差與[Fe/H]殘差的相關(guān)性為0.256 9,Teff殘差與[Fe/H]殘差的相關(guān)性為0.218 9,但是Teff的殘差與lgg殘差的相關(guān)性僅為0.181 5,可見,3個物理量間存在相關(guān)性,但并不是很強(qiáng),這可能與物理參量本身的性質(zhì)有關(guān),或是恒星的演化影響了彼此間的相關(guān)性.圖1對上述情況進(jìn)行了直觀描述,lgTeff、lgg、[Fe/H]的估計值有著很好的擬合效果,其中l(wèi)gTeff的樣本點分布均勻,只有極少數(shù)偏離真實值較遠(yuǎn),擬合效果最好;誤差的正態(tài)分布圖進(jìn)一步說明了多任務(wù)Lasso回歸模型適合進(jìn)行恒星光譜物理參量的估計.對于[Fe/H]的估計值與真值的對比圖,可以發(fā)現(xiàn)有若干偏離真值較遠(yuǎn)的點,造成的原因有:(1)這些點可能來自不同的星體,而不同星體之間屬性差別較大;(2)觀測或儀器的偶然因素造成部分?jǐn)?shù)據(jù)偏離真值較大;(3)[Fe/H]本身的復(fù)雜性影響了其性能的規(guī)律性表現(xiàn).
表2 多任務(wù)Lasso回歸法對ELODIE數(shù)據(jù)lgTeff、lgg、[Fe/H]的預(yù)測結(jié)果Table 2 The predicted results of lgTeff,lgg,and[Fe/H]in the ELODIE data estimated with the multi-task Lasso regression
魯棒性也是衡量模型優(yōu)越性的因素之一,為此將所有光譜的分辨率從Δλ=1 nm分別變化到2 nm、3 nm,并分別對這些光譜添加信噪比(Signal to Noise Ratio,SNR)依次為SNR=20,50,100,150,200的噪聲.圖2描述了平均絕對誤差δ在Δλ=1 nm,2 nm,3 nm下隨不同信噪比SNR的變化趨勢.3個物理參量的預(yù)測精度受光譜分辨率、噪聲的影響,當(dāng)分辨率從Δλ=1 nm變化到Δλ=3 nm,兩種誤差結(jié)果隨之增大,預(yù)測精度降低.信噪比越低,對3個物理參量的估計結(jié)果影響越大,隨著信噪比的增大,誤差逐漸減小,當(dāng)SNR=100時,誤差基本趨于穩(wěn)定.綜合來講,噪聲對3個物理參量預(yù)測效果的影響大于分辨率對它們的影響.誤差的標(biāo)準(zhǔn)差在天文學(xué)中又叫誤差的彌散度,對比3個物理參量的誤差的標(biāo)準(zhǔn)差,lgTeff的v值相對最小,也說明了模型在預(yù)測lgTeff時穩(wěn)定性最強(qiáng),[Fe/H]次之,lgg相對最差.
針對恒星光譜物理參量的估計,本文又作了進(jìn)一步的實驗.由于根據(jù)恒星溫度的不同,可以將恒星光譜分為7大類:O:>25000 K;B:11000~25000 K;A:7500~11000 K;F:6000~7500 K;G:5000~6000 K;K:3500~5000 K;M:<3500 K,則計算實驗所用ELODIE光譜數(shù)據(jù)的不同光譜類型的物理參量的平均絕對誤差δ,實驗結(jié)果見圖3.其中對F類恒星光譜,即有效溫度Teff在6000~7500 K時,物理參量誤差較大,但仍在誤差允許的范圍內(nèi).
為更好地說明該模型的有效性,下面將其應(yīng)用于SDSS實測光譜數(shù)據(jù).隨機(jī)選取SDSS實測光譜庫中的4 000條光譜,分成兩部分,75%的樣本作為訓(xùn)練集,剩下25%的樣本作為測試集.每條光譜在訓(xùn)練和測試之前,首先進(jìn)行二范數(shù)行歸一化的預(yù)處理,然后用多任務(wù)Lasso回歸法對3個物理參量做估計.表3描述了所有光譜的分辨率從Δλ= 0.1 nm,分別變化到Δλ=0.2 nm,Δλ=0.3 nm的3種誤差結(jié)果.圖4對不同類型恒星光譜物理參量的平均絕對誤差進(jìn)行了描述.可見,SDSS實測數(shù)據(jù)中3個物理參量的預(yù)測效果要比ELODIE合成數(shù)據(jù)的預(yù)測效果好,但是有一些共同點:lgTeff的精度最高, [Fe/H]次之,lgg相對最差;平均誤差u都在0附近,說明系統(tǒng)偏差小.在不改變光譜分辨率的情況下,lgTeff、lgg、[Fe/H]的預(yù)測值與真實值的相關(guān)系數(shù)R分別為:0.991 7, 0.893 6,0.959 9.以上情況也說明了多任務(wù)Lasso回歸法針對不同的數(shù)據(jù)集,對恒星光譜物理參量的估計是穩(wěn)定的,預(yù)測模型的泛化性能比較好.另一方面,類似于ELODIE數(shù)據(jù),不同物理參量間存在相關(guān)性,但不是很強(qiáng),lgg的殘差與[Fe/H]殘差的相關(guān)性為0.310 6,Teff殘差與[Fe/H]殘差的相關(guān)性為0.233 2,Teff的殘差與lgg殘差的相關(guān)性為0.260 6.這也是大樣本巡天光譜數(shù)據(jù)自動分析面臨的問題,只有考慮了影響光譜的各種因素和演化模型,大樣本恒星光譜物理參量的估計才能完全自動化.
表3 SDSS數(shù)據(jù)物理參量lgTeff、lgg、[Fe/H]在不同分辨率下的實驗結(jié)果Table 3 The error analysis of lgTeff,lgg,and[Fe/H]with di ff erent resolutions in the physical parameters of SDSS data
圖1 左圖是光譜物理參量lgTeff、lgg、[Fe/H]的估計值與ELODIE真實值的對比;右圖是lgTeff、lgg、[Fe/H]的誤差直方圖及正態(tài)分布情況.Fig.1 Left:the comparison of the estimated spectral physical parameters lgTeff,lgg,and[Fe/H]in the ELODIE data with their real values.Right:the histogram and normal distribution of lgTeff,lgg,and [Fe/H]residuals
圖2 平均絕對誤差在分辨率Δλ=1 nm,2 nm,3 nm、信噪比SNR=20,50,100,150,200和無噪聲下的曲線圖Fig.2 The mean absolute error curves with the SNR of 20,50,100,150,200,and full,and the resolution of Δλ=1 nm,2 nm,and 3 nm,respectively
圖3 ELODIE數(shù)據(jù)中不同類型恒星光譜的lgTeff、lgg、[Fe/H]的平均絕對誤差曲線圖Fig.3 The mean absolute error curves of lgTeff,lgg,and[Fe/H]in the ELODIE data for di ff erent types of stellar spectra
圖4 SDSS數(shù)據(jù)中不同類型恒星光譜的lgTeff、lgg、[Fe/H]的平均絕對誤差曲線圖Fig.4 The mean absolute error curves of lgTeff,lgg,and[Fe/H]in the SDSS data for di ff erent types of stellar spectra
文章采用的多任務(wù)Lasso回歸法,將多個物理參量同時建模估計的問題轉(zhuǎn)化為MTL的問題,從而可充分利用各物理參量間潛在的信息,從真正意義上實現(xiàn)了物理參量的同時建模分析,避免了繁瑣的計算,且從整體上提高了模型的預(yù)測精度和泛化性能.使用多任務(wù)Lasso回歸法對恒星光譜物理參量進(jìn)行估計,預(yù)測精度優(yōu)于相關(guān)文獻(xiàn)方法的預(yù)測結(jié)果,尤其是對lgg和[Fe/H]的估計.基于不同的光譜數(shù)據(jù)庫ELODIE合成數(shù)據(jù)庫和SDSS實測數(shù)據(jù)庫進(jìn)行實驗,說明該模型對恒星光譜物理參量進(jìn)行估計的有效性.為驗證模型的穩(wěn)定性,實驗中改變光譜的分辨率,施加不同信噪比的噪聲,結(jié)果表明,模型精度受分辨率和噪聲的影響,但噪聲對其影響更大.綜上考慮,多任務(wù)Lasso回歸法操作簡便,穩(wěn)定性強(qiáng),估算精度高,但其需要每個任務(wù)所對應(yīng)的樣本特征數(shù)目相同,所以還有待繼續(xù)研究去突破這一限制,以能將其應(yīng)用于更廣泛的領(lǐng)域.
[1]Cui X Q,Zhao Y H,Chu Y Q,et al.RAA,2012,12:1197
[2]Zhao G,Zhao Y H,Chu Y Q,et al.RAA,2012,12:723
[3]Noterdaeme P,Petitjean P,Carithers W C,et al.A&A,2012,547:L1
[4]Paris I,Petitjean P,Aubourg E,et al.A&A,2012,548:A66
[5]Bailer-Jones C A L.A&A,2000,357:197
[6]Fuentes O,Gulati R K.RMxAC,2001,10:209
[7]Allende P C.AN,2004,325:604
[8]張健楠,吳福朝,羅阿理,等.天文學(xué)報,2005,46:406
[9]Zhang J N,Wu F C,Luo A L,et al.ChA&A,2006,30:176
[10]Tibshirani R.JSTOR,1996,58:267
[11]Evgeniou T,Pontil M.ACM,2004:109
[12]Bakker B,Heskes T.JMLR,2003,4:83
[13]Huang T,Gong H P,Yang C,et al.CBAC,2012,43:46
[14]Liu J,Ji S,Ye J.Proceedings of the 25th Conference on Uncertainty in Arti fi cal Intelligence.Arlington: AUAI Press,2009:339
[15]Liu F,Chong Y W,Chen H F,et al.NeuroImage,2013,84:466
[16]Zhou J,Yuan L,Liu J,et al.ACM,2011:814
[17]Nesterov Y.Gradient Methods for Minimizing Composite Objective Function.CORE Discussion Paper 2007/76 September 2007
[18]張健楠,吳福朝,羅阿理,等.光譜學(xué)與光譜分析,2009,29:1131
[19]盧瑜,李鄉(xiāng)儒,王永俊,等.光譜學(xué)與光譜分析,2013,33:2010
Application of Multi-task Lasso Regression in the Stellar Parametrization
CHANG Li-na ZHANG Pei-ai
(College of Information Science and Technology,Jinan University,Guangzhou 510632)
The multi-task learning approaches have attracted the increasing attention in the fi elds of machine learning,computer vision,and arti fi cial intelligence.By utilizing the correlations in tasks,learning multiple related tasks simultaneously is better than learning each task independently.An efficient multi-task Lasso(Least Absolute Shrinkage Selection and Operator)regression algorithm is proposed in this paper to estimate the physical parameters of stellar spectra.It not only makes di ff erent physical parameters share the common features,but also can e ff ectively preserve their own peculiar features.Experiments were done based on the ELODIE data simulated with the stellar atmospheric simulation model,and on the SDSS data released by the American large survey Sloan.The precision of the model is better than those of the methods in the related literature,especially for the acceleration of gravity(lgg)and the chemical abundance([Fe/H]).In the experiments,we changed the resolution of the spectrum, and applied the noises with di ff erent signal-to-noise ratio(SNR)to the spectrum,so as to illustrate the stability of the model.The results show that the model is in fl uenced by both the resolution and the noise.But the in fl uence of the noise is larger than that of the resolution.In general,the multi-task Lasso regression algorithm is easy to operate, has a strong stability,and also can improve the overall accuracy of the model.
stars:fundamental parameters,methods:data analysis,methods:statistical,methods:miscellaneous
P144;
A
10.15940/j.cnki.0001-5245.2015.01.004
2014-05-16收到原稿,2014-08-06收到修改稿
?教育部人文社會科學(xué)研究一般項目(11YJAZH118)資助?qzhzhang@163.com