張 茜,張健楠,趙永恒
(1. 中國(guó)科學(xué)院國(guó)家天文臺(tái),北京 100101;2. 中國(guó)科學(xué)院大學(xué),北京 100049;3. 中國(guó)科學(xué)院光學(xué)天文重點(diǎn)實(shí)驗(yàn)室 (國(guó)家天文臺(tái)),北京 100101)
星系光譜分類對(duì)于研究星系的形成與演化具有重要意義。傳統(tǒng)星系分類方法包括:基于形態(tài)學(xué)的哈勃分類法,根據(jù)星系外形將星系分為橢圓星系、旋渦星系、棒旋星系和不規(guī)則星系;基于顏色的分類法,文[1]分析斯隆數(shù)字巡天(Sloan Digital Sky Survey, SDSS)數(shù)據(jù)時(shí)發(fā)現(xiàn)顏色星等圖服從雙峰分布,藍(lán)色星系和紅色星系各有峰值,雙峰之間為綠谷;基于光譜的BPT診斷圖[2]的分類方法,經(jīng)過多年的改進(jìn)形成了基于線強(qiáng)比診斷圖的分類方法,目前常用的經(jīng)驗(yàn)分割線有文[3]提出的用于識(shí)別純恒星形成星系(Star-Forming, SF)的分割線,文[4]提出的用于識(shí)別純活動(dòng)星系核星系的分割線[4],以及文[5]和文[6]分別提出的用于區(qū)分低電離核發(fā)射線區(qū)(Low-Ionization Nuclear Emission-Line Region, LINER)星系和Seyfert2星系的分割線。
大型巡天項(xiàng)目的實(shí)施為天文領(lǐng)域提供了海量光譜數(shù)據(jù),例如2dF, 6dF, RAVE, SDSS, LAMOST, GAIA等,其中LAMOST DR5發(fā)布的星系光譜多達(dá)15萬余條,必須研究光譜自動(dòng)分類技術(shù)用于大規(guī)模光譜數(shù)據(jù)的分類研究。傳統(tǒng)的基于譜線檢測(cè)或BPT圖的星系光譜分類方法需要進(jìn)行星族成分合成,由于此過程復(fù)雜且耗時(shí),不適用于海量光譜數(shù)據(jù)的處理,無法直接用于光譜自動(dòng)分類。相比之下,基于機(jī)器學(xué)習(xí)的光譜自動(dòng)分類方法更適用于海量天文數(shù)據(jù)的分析研究。目前有許多機(jī)器學(xué)習(xí)方法成功應(yīng)用于天體分類,包括監(jiān)督型和無監(jiān)督型分類方法。無監(jiān)督型分類方法有主成分分析法,它廣泛應(yīng)用于星系光譜的識(shí)別與分類,例如斯隆巡天項(xiàng)目中的光譜處理系統(tǒng)就是利用星系光譜主成分進(jìn)行識(shí)別[7],另外,文[8]成功將k均值方法應(yīng)用于星系光譜分類,分類結(jié)果能很好地體現(xiàn)星系的演化過程。監(jiān)督型分類方法有許多,例如文[9]使用基于Fisher判別分析的有監(jiān)督特征提取方法對(duì)類星體和正常星系分類,文[10]使用支持向量機(jī)方法對(duì)活動(dòng)天體和非活動(dòng)天體分類。
聚類屬于無監(jiān)督型方法,具有算法簡(jiǎn)單、收斂速度快和準(zhǔn)確率高的特點(diǎn)。聚類主要依賴于數(shù)據(jù)特征進(jìn)行自動(dòng)分類,過程獨(dú)立且受主觀因素影響小,相較于監(jiān)督型方法,不需要提供已有標(biāo)簽數(shù)據(jù)進(jìn)行訓(xùn)練,同時(shí)聚類結(jié)果中數(shù)量較少的簇有助于發(fā)現(xiàn)稀有天體。本文針對(duì)LAMOST DR5中星系光譜數(shù)據(jù),設(shè)計(jì)了雙層聚類方法對(duì)星系光譜進(jìn)行聚類分析。
針對(duì)星系光譜的特點(diǎn)和不同聚類算法的特點(diǎn),提出了雙層聚類方法對(duì)星系光譜進(jìn)行聚類分析。第1層采用k均值聚類算法[11]將星系光譜分為吸收線星系和發(fā)射線星系,k均值聚類算法簡(jiǎn)單,能夠快速收斂,對(duì)于大數(shù)據(jù)處理具有伸縮性,適用于大規(guī)模星系光譜處理。第2層采用CLARA聚類算法[12]將發(fā)射線星系分為5個(gè)子類,CLARA算法簡(jiǎn)單,對(duì)噪聲不敏感,適用于大規(guī)模數(shù)據(jù)處理。
k均值(k-means)聚類算法的核心內(nèi)容是將數(shù)量為n的樣本劃分為k類,并且每個(gè)樣本點(diǎn)到聚類中心的距離平方和最小。
k-means算法基本步驟如下:
輸入:n個(gè)樣本和聚類個(gè)數(shù)k。
輸出:將樣本劃分為k類。
(1)從n個(gè)樣本中選取k個(gè)初始點(diǎn)作為初始聚類中心;
(2)計(jì)算每個(gè)樣本點(diǎn)與聚類中心的距離,將樣本劃分到距離它最近的聚類中心所屬的類;
(3)重新計(jì)算每一類中所有樣本點(diǎn)的平均值作為新的聚類中心,并計(jì)算每個(gè)樣本點(diǎn)到它所在類的聚類中心的距離平方和D;
(4)判斷聚類中心和D是否改變,若改變,更新聚類中心后重復(fù)(2)、(3)步,否則聚類結(jié)束。
影響聚類效果的因素有很多,k值的選取、初始聚類中心的選取方法以及距離度量方法都影響聚類效果。k值的選取方法包括憑經(jīng)驗(yàn)選取和按密度選取。挑選初始聚類中心常用的方法有4種:(1)隨機(jī)選取k個(gè)樣本作為初始聚類中心;(2)隨機(jī)采用樣本空間中10%的數(shù)據(jù)做預(yù)聚類,預(yù)聚類的初始聚類中心也是隨機(jī)挑選的;(3)根據(jù)樣本的取值范圍均勻地隨機(jī)選取k個(gè)聚類中心;(4)考慮權(quán)重的k-means++方法,隨機(jī)選取第1個(gè)聚類中心后,計(jì)算所有點(diǎn)到聚類中心的距離,將距離作為權(quán)重選擇下一個(gè)聚類中心,目的是使距離大的點(diǎn)被選中的概率更大,然后重復(fù)選取k個(gè)聚類中心。距離度量方法有歐氏距離、曼哈頓距離、余弦距離和相關(guān)距離等。
本文聚類實(shí)驗(yàn)中,在考慮光譜的特點(diǎn)并對(duì)比多種距離后,選取相關(guān)距離作為距離度量方法,相關(guān)距離為d=1-ρ,其中ρ為相關(guān)系數(shù),用于判斷隨機(jī)變量X與Y的相關(guān)程度,其表達(dá)式為
(1)
其中,cov(X,Y)為X與Y的協(xié)方差;E(X)為X的期望;D(X)為X的方差;ρ取值范圍為[-1, 1],絕對(duì)值越大,表明X與Y的相關(guān)度越高。
K-means聚類算法對(duì)噪聲敏感度高,k中心點(diǎn)(k-medoids)[13]聚類是對(duì)k-means的改進(jìn),k-means算法更新聚類中心是求取類內(nèi)平均值,而k-medoids將每個(gè)點(diǎn)代替聚類中心,降低離群點(diǎn)對(duì)聚類結(jié)果的影響。
k-medoids算法基本步驟如下:
輸入:n個(gè)樣本和聚類個(gè)數(shù)k。
輸出:將樣本劃分為k類。
(1)從n個(gè)樣本中選取k個(gè)初始點(diǎn)作為初始聚類中心;
(2)計(jì)算所有樣本點(diǎn)到聚類中心的距離,將樣本劃分到距離最近的聚類中心所在的類;
(3)隨機(jī)選擇一個(gè)非聚類中心點(diǎn),計(jì)算此點(diǎn)代替原聚類中心的總代價(jià),重復(fù)此步驟直到所有非聚類中心點(diǎn)都被判斷過;
(4)判斷每個(gè)非聚類中心點(diǎn)代替原中心點(diǎn)的總代價(jià),若有小于0的,從中挑選出總代價(jià)最小的一個(gè)所對(duì)應(yīng)的非聚類中心點(diǎn),將此點(diǎn)作為新的聚類中心;
(5)重復(fù)(3)、(4)步,直到聚類中心點(diǎn)不變,聚類結(jié)束。
判斷能否用新的非聚類中心點(diǎn)Oh代替原聚類中心點(diǎn)Oi,對(duì)于每一個(gè)非中心點(diǎn)Oj都要滿足如下規(guī)則:無論Oj原來屬于Oi類還是另一個(gè)Om類,當(dāng)Oh替換Oi后,Oj會(huì)分配給距離它最近的類,可以是Oi或Om,也可以是新的類Oh。
新的非聚類中心點(diǎn)Oh代替原聚類中心點(diǎn)Oi的總代價(jià)是所有非中心點(diǎn)對(duì)象產(chǎn)生的代價(jià)之和。計(jì)算公式如下:
(2)
其中,Cjih表示Oj在Oi被Oh代替后產(chǎn)生的代價(jià),即Oj到原聚類中心的距離與Oj到新聚類中心的距離之差。若總代價(jià)為負(fù),Oi能被Oh替換,若總代價(jià)為正,則說明原聚類中心Oi不需要變化。
由于k-medoids聚類算法需要窮舉類內(nèi)點(diǎn)以達(dá)到尋找最優(yōu)解的目的,此方法只適用于小規(guī)模數(shù)據(jù)。CLARA是對(duì)k-medoids聚類算法的改進(jìn),用抽樣樣本代表全部數(shù)據(jù)計(jì)算聚類中心,能夠應(yīng)用于大規(guī)模數(shù)據(jù)聚類。
CLARA算法基本步驟如下:
輸入:n個(gè)樣本,聚類個(gè)數(shù)k,抽樣次數(shù)m。
輸出:將樣本劃分為k類。
(1)重復(fù)m次從全部樣本中抽取(40 + 2k)個(gè)樣本,每次重復(fù)執(zhí)行(2)~(4)步驟;
(2)對(duì)此樣本集使用k-medoids聚類,選出k個(gè)聚類中心;
(3)計(jì)算全部樣本中每個(gè)非聚類中心點(diǎn)到聚類中心的距離,將其劃分到距離最近的聚類中心所在的類;
(4)計(jì)算(3)步中的總代價(jià),若小于當(dāng)前值,則此聚類中心作為最佳聚類中心應(yīng)用于全部樣本,否則返回步驟(1),開始下一循環(huán)。
本文采用的數(shù)據(jù)是從LAMOST DR5的153 093條星系光譜中隨機(jī)選取的30 000條光譜。
因?yàn)槿鄙傧鄳?yīng)的測(cè)光設(shè)備,LAMOST采用相對(duì)流量定標(biāo),即選擇質(zhì)量較好的F型矮星作為標(biāo)準(zhǔn)星,得到儀器的響應(yīng)曲線,但是這些標(biāo)準(zhǔn)星的紅化可能導(dǎo)致連續(xù)譜的不確定性,因此,需要對(duì)光譜進(jìn)行重定標(biāo)。本文采用斯隆的u, g, r, i, z波段的petrosian星等,在一定程度上校正LAMOST的連續(xù)譜。
重定標(biāo)之后對(duì)光譜進(jìn)行退紅移處理,將其移至靜止波長(zhǎng)后,對(duì)光譜進(jìn)行重采樣,采樣波長(zhǎng)區(qū)間為360~900 nm,采樣間隔為0.1 nm。
為降低噪聲、環(huán)境等因素的影響,需要對(duì)光譜進(jìn)行流量標(biāo)準(zhǔn)化,本文采用Sunit標(biāo)準(zhǔn)化方法。假設(shè)x是一條光譜,記為x=(x1,x2,…,xn)T,它是n維歐氏空間中的一個(gè)向量,流量標(biāo)準(zhǔn)化方法為[9]
(3)
在去除無法進(jìn)行重定標(biāo)和紅移為壞值的光譜后,剩余27 272條星系光譜用于聚類實(shí)驗(yàn)。
使用k-means聚類算法和CLARA聚類算法對(duì)LAMOST DR5中星系光譜進(jìn)行聚類。實(shí)驗(yàn)分為兩層,第1層用k-means將星系光譜分為吸收線星系和發(fā)射線星系,第2層用CLARA將發(fā)射線星系光譜細(xì)分類。
第1層,使用k-means聚類算法,將預(yù)處理后的27 272條星系光譜分為發(fā)射線星系和吸收線星系。以年老恒星為主的早型星系的光譜以吸收線為主,發(fā)射線很弱甚至無法被探測(cè)到,相對(duì)年輕的晚型星系中有一部分與早型星系相似,發(fā)射線很弱,更晚型的星系中吸收線逐漸失去主導(dǎo)地位,發(fā)射線越來越明顯。為使發(fā)射線和吸收線特征更為突出,將光譜去除連續(xù)譜。采用中值濾波方法擬合連續(xù)譜,用光譜流量減去連續(xù)譜得到譜線信息,對(duì)譜線信息進(jìn)行聚類。
考慮到還有同時(shí)具有發(fā)射線和恒星成分的一類星系,選取k值為3,用k-means++方法獲取初始聚類中心,使用相關(guān)距離作為距離度量方法。
第2層,使用CLARA聚類算法,將第1層聚類得到的發(fā)射線星系再進(jìn)行細(xì)分類。連續(xù)譜可以反映一部分發(fā)射線星系的特征,因此,這一層聚類不需要去除連續(xù)譜。選取r波段信噪比大于5的共12 689條星系光譜,為避免天光線的影響,用中值濾波法去噪,濾波窗口寬度為5。考慮到一部分樣本僅在波長(zhǎng)為360~790 nm有流量值,且CLARA聚類算法依賴于樣本點(diǎn),所以選擇360~790 nm范圍內(nèi)的光譜進(jìn)行實(shí)驗(yàn)。
抽樣次數(shù)為100,使用相關(guān)距離作為距離度量方法。為選取較優(yōu)的k值,圖1是簇內(nèi)誤差平方和隨k值變化的曲線,依據(jù)肘部法則,在k=5時(shí)觀察到明顯肘型,因此選取k=5。
圖1 簇內(nèi)誤差平方和隨k值變化圖
Fig.1 The graph of SSE changing withkvalue
K-means聚類算法將27 272條星系光譜分為3簇cluster1, cluster2, cluster3,通過每一簇的聚類中心(圖2)可以看出其星系類型。發(fā)射線星系光譜以發(fā)射線為主,cluster1發(fā)射線明顯,為恒星成分很弱的強(qiáng)發(fā)射線星系,吸收線星系光譜的吸收線占主導(dǎo)地位,發(fā)射線很弱甚至無法被探測(cè)到,由此看出cluster2屬于吸收線星系,cluster3發(fā)射線弱,為有恒星成分的弱發(fā)射線星系。
圖2 第1層聚類的聚類中心。(a), (b), (c)分別為cluster1, cluster2和cluster3的聚類中心
Fig.2 The clustering centers of the first layer. The clustering center of cluster1, cluster2and cluster3are shown on (a), (b) and (c)
為探究聚類的穩(wěn)定性,將k-means聚類方法應(yīng)用于不同信噪比子集,分別從27 272條星系光譜中取r波段信噪比大于5、10、15、20的4個(gè)子集,分別包含23 465、15 593、9 120、5 166條光譜。將k-means用于每個(gè)子集,得到的聚類中心見圖3,圖3中4行圖分別為r波段信噪比大于5、10、15、20的4個(gè)子集的聚類中心,為了便于比較,將得到的聚類中心分別按發(fā)射線星系、吸收線星系和弱發(fā)射線星系排列,3列分別為cluster1, cluster2和cluster3簇的聚類中心,mem表示此類所含樣本個(gè)數(shù),由不同子集的聚類中心都能反映出發(fā)射線星系、吸收線星系和弱發(fā)射線星系,由圖3可以看出,k-means聚類算法能夠穩(wěn)定聚類出這3種星系。
圖3 不同信噪比子集的聚類中心。4行由上至下分別為r波段信噪比大于5、10、15、20的4個(gè)子集的聚類中心,3列分別為每個(gè)子集的3個(gè)聚類中心,其中mem表示此類所含光譜數(shù)
Fig.3 The clustering centers of differentSNRsubsets. The four rows from top to bottom are the cluster centers of the four subsets with r-band SNR greater than 5, 10, 15, and 20, and the three columns are the three cluster centers of each subset, wherememindicates the number of data in the cluster
計(jì)算每一條光譜與每個(gè)聚類中心的距離,第i個(gè)簇clusteri的每一個(gè)樣本與第j個(gè)聚類中心centerj的距離統(tǒng)計(jì)圖見圖4,其中,3列圖分別為3個(gè)簇中每一個(gè)樣本與聚類中心的距離統(tǒng)計(jì)圖,不同顏色代表不同信噪比的數(shù)據(jù)集。整體來看,clusteri與其本身的聚類中心距離相較于其他聚類中心更近。由圖4中左列可以看出,簇cluster1與center1的距離靠近0,與另兩個(gè)聚類中心距離遠(yuǎn),明顯的3個(gè)峰表明第1個(gè)簇與另兩個(gè)簇區(qū)分度明顯。簇cluster2和cluster3在同一信噪比子集下,距離其本身的聚類中心距離更近,如圖中第2列cluster2在信噪比大于0時(shí)(紅色),距離center1-3的統(tǒng)計(jì)圖峰值分別為1、0.65、0.8。雖然簇cluster2和cluster3與其類內(nèi)聚類中心的距離分布沒有接近0,但是從不同信噪比子集下的距離分布可以看出,隨著信噪比的提高,簇cluster2和cluster3與其類內(nèi)聚類中心的距離越來越靠近0,如cluster2-center2圖中,隨著信噪比的提高,峰值從0.65降至0.4。
圖4 第1層聚類簇與聚類中心的距離統(tǒng)計(jì)圖。圖為第i個(gè)簇clusteri的每一個(gè)樣本與第j個(gè)聚類中心centerj的距離統(tǒng)計(jì)圖,顏色表示不同信噪比的數(shù)據(jù)集
Fig.4 The distance statistical graph of the clusters and the cluster centers of the first layer. The figure shows the distance statistics of each sample of thei-th cluster clusteriand thej-th cluster center centerj, and the colors represent different signal-to-noise ratio data sets
每個(gè)樣本與聚類中心相關(guān)距離分布代表著類內(nèi)距離分布,類內(nèi)光譜的疊加得到的聚類中心信噪比提高,與相對(duì)信噪比較低的樣本數(shù)據(jù)的相關(guān)性達(dá)不到1,所以,cluster2-cneter2和cluster3-center3的距離分布沒有接近0。從這個(gè)分布情況也可以看出,cluster2和cluster3的類內(nèi)分布不夠緊致。
將此聚類結(jié)果與傳統(tǒng)分類方法的結(jié)果進(jìn)行比較。傳統(tǒng)的區(qū)分吸收線星系和發(fā)射線星系常使用S/Nλ≥3作為判斷依據(jù),這里S/Nλ為譜線λ的信噪比。文[3-4]篩選發(fā)射線星系對(duì)Hα,Hβ,[O III]λ5007和[N II]λ6585 4條譜線都采用S/Nλ≥3的篩選條件,但文[6]發(fā)現(xiàn),對(duì)4條譜線都進(jìn)行篩選會(huì)使一些弱發(fā)射線星系被忽略,所以本文只對(duì)Hα進(jìn)行篩選。
聚類結(jié)果中cluster1和cluster3為發(fā)射線星系,cluster2為吸收線星系,與用Hα分類的結(jié)果進(jìn)行比較(表1),聚類結(jié)果與用Hα分類的結(jié)果一致的數(shù)目在聚類每一類中的占比分別為97.79%、80.80%、84.52%。對(duì)于全部數(shù)據(jù),k-means聚類結(jié)果中有89.0%的星系與Hα分類結(jié)果一致。
表1 k-means聚類結(jié)果與Hα篩選結(jié)果數(shù)目比較
每個(gè)簇的光譜顏色星等圖見圖5,黃色散點(diǎn)為全部光譜樣本分布,黑色散點(diǎn)為每一簇中光譜的分布。顏色星等圖服從雙峰分布,兩端分布為紅色和藍(lán)色部分,過渡區(qū)為綠谷,可以明顯看出發(fā)射線星系cluster1分布在藍(lán)色區(qū)域,吸收線星系cluster2分布在紅色區(qū)域,具有弱發(fā)射線的cluster3分布在綠谷,這符合早型星系大多為紅色,晚型星系大多為藍(lán)色的基本規(guī)律。
圖5 第1層聚類結(jié)果的顏色星等圖。(a), (b), (c)分別為cluster1, cluster2和cluster3的顏色星等圖,其中黃色散點(diǎn)為全部光譜樣本,黑色散點(diǎn)為每一類光譜樣本
Fig.5 Plots of u-g vs. g-r of the first layer of clustering. The plots of u-g vs. g-r of cluster1, cluster2and cluster3are shown on the left, middle and right. The yellow scatter points is the whole spectral samples and the black scatter points is the spectrum of each class
由實(shí)驗(yàn)結(jié)果可以看出,k-means聚類算法可以快速高效地將星系光譜聚類為吸收線星系和發(fā)射線星系,對(duì)于大規(guī)模數(shù)據(jù),k-means聚類也能快速收斂,聚類結(jié)果能夠體現(xiàn)星系的物理性質(zhì),與傳統(tǒng)的分類結(jié)果基本一致,因此,k-means聚類方法對(duì)星系分類是可行的,聚類中心可以為星系自動(dòng)分類系統(tǒng)提供模板,與基于譜線分析得到的高信噪比模板相比,此模板抗噪性更強(qiáng)。
用CLARA聚類將第1層聚類中的發(fā)射線星系分為emi1-emi5共5個(gè)子類,其數(shù)目及類型見表2,其聚類中心是類內(nèi)的一條光譜(圖6第1列)。
與第1層聚類相同,計(jì)算每一條光譜與每個(gè)聚類中心的距離,得到第i個(gè)簇clusteri的每一個(gè)樣本與第j個(gè)聚類中心centerj的距離統(tǒng)計(jì)圖,結(jié)果表明,每個(gè)簇到其聚類中心最近,接近于0,到其他聚類中心相對(duì)較遠(yuǎn),每個(gè)簇對(duì)5個(gè)聚類中心的距離統(tǒng)計(jì)圖都有5個(gè)明顯峰值,可以表明類間區(qū)分度明顯。
表2 第2層聚類結(jié)果
聚類結(jié)果與BPT圖分類相比較,用BPT分類法求每一類中每條光譜的類型。BPT圖分類方法基于線強(qiáng)比,需要測(cè)量Hα,Hβ,[O III]λ5007和[N II]λ6585 4條譜線的線強(qiáng)。普遍認(rèn)為星系光譜是由多種恒星光譜組合而成,首先用星族分析軟件STARLIGHT擬合星系光譜中的恒星成分,之后用原星系光譜減去擬合譜,得到包含發(fā)射線、噪聲和低頻背景成分的光譜,然后用窗口寬度為201的中值濾波去除低頻背景成分,最后分別使用單高斯擬合Hβ和[O III]λ5007線,用多高斯擬合[N II]λ6548、Hα、[N II]λ6585 3條譜線,利用(4)式計(jì)算線強(qiáng),其中λ1和λ2為譜線對(duì)應(yīng)波長(zhǎng)的兩端點(diǎn),F(xiàn)I(λ)為觀測(cè)流量,F(xiàn)C(λ)為連續(xù)譜。
(4)
由于星族成分合成過程對(duì)光譜質(zhì)量要求較高和部分發(fā)射線太弱導(dǎo)致無法高斯擬合等問題,僅有8 122條發(fā)射線星系光譜用BPT方法求得其類型,emi1-emi5對(duì)應(yīng)BPT分類結(jié)果見表3。將每一類結(jié)果在BPT圖中表示(圖6中列),其中,背景密度圖是所有發(fā)射線星系的BPT圖分布,紅色散點(diǎn)是每一類中所有光譜在BPT圖中對(duì)應(yīng)的點(diǎn)。
表3 第2層聚類結(jié)果與BPT圖分類法的結(jié)果比較
圖6第2列BPT圖中,紅色的經(jīng)驗(yàn)分割線為文[3]提出的純恒星形成星系分割線,簡(jiǎn)稱K03(公式5),此線以下為恒星形成星系。藍(lán)色分割線為文[4]提出的純活動(dòng)星系核分割線,簡(jiǎn)稱K01(公式6),此線以上為活動(dòng)星系核,混合型星系位于K03與K01分割線之間。綠色分割線為文[6]提出的用于區(qū)分Seyfert2和LINER的分割線,簡(jiǎn)稱CF10(公式7),此線以上為Seyfert2星系,以下為L(zhǎng)INER星系。
log10([O III]/Hβ)=0.61/[log10([N III]/Hα)-0.05]+1.3 ,
(5)
log10([O III]/Hβ)=0.61/[log10([N III]/Hα)-0.47]+1.19 ,
(6)
log10([O III]/Hβ)=0.01log10([N III]/Hα)+0.48 .
(7)
從聚類結(jié)果的BPT圖和表3中各類星系的數(shù)量可以看出,emi1大部分分布在K01分割線之下,包括恒星形成星系和混合型星系;emi2大部分在K03分割線之下,有84.00%光譜為恒星形成星系;emi3與第1類相似,大部分為恒星形成星系,包含少量活動(dòng)星系核;emi4位于K03分割線之下,有84.31%的光譜為恒星形成星系,不同于第2類,emi4的[O III]λ5007與Hβ的線強(qiáng)比偏大,對(duì)應(yīng)聚類中心光譜,emi4相較emi2發(fā)射線更強(qiáng),連續(xù)譜更平緩,吸收線成分更弱;emi5中有61.42%的星系為復(fù)合型星系和活動(dòng)星系核,與emi2和emi4這兩類恒星形成星系相比,emi5的聚類中心光譜的恒星成分占主導(dǎo)地位,發(fā)射線很弱,而emi2和emi4的聚類中心中發(fā)射線很強(qiáng),占主導(dǎo)地位。整體來看恒星成分越少,發(fā)射線越強(qiáng),星系在BPT圖中分布越偏向于恒星形成星系,這符合恒星形成星系的特點(diǎn),這類星系具有大量恒星形成區(qū),能夠觀測(cè)到來自中央?yún)^(qū)域的強(qiáng)窄發(fā)射線,這在emi2和emi4的聚類中心光譜中也有所體現(xiàn)。
畫出聚類結(jié)果的顏色星等圖(圖6第3列),黃色散點(diǎn)是包括吸收線星系在內(nèi)的所有星系光譜對(duì)應(yīng)的顏色星等圖,黑色散點(diǎn)是第2層聚類中每一類對(duì)應(yīng)的顏色星等圖。從emi2和emi4可以看出SF更偏向于藍(lán)色,且發(fā)射線越強(qiáng)顏色越藍(lán),emi1和emi3屬于綠谷,emi5更偏向于紅色,這與目前提出的活動(dòng)星系核更可能為早型星系的觀點(diǎn)[11]一致。同時(shí),從emi2,emi4到emi1,emi3最后到emi5,隨著活動(dòng)星系核數(shù)量的增加,在顏色星等圖上反映出從藍(lán)色到紅色的變化過程,這與文[14]提出的活動(dòng)星系核活動(dòng)抑制了恒星的形成,因此,與它可能是星系顏色穿越綠谷的原因這一觀點(diǎn)一致。
BPT圖分類方法步驟復(fù)雜,對(duì)光譜質(zhì)量要求高,實(shí)驗(yàn)第2層中發(fā)射線星系能全部被CLARA算法劃分,而BPT圖只能分類出其中的一大部分,由此可以看出CLARA算法的優(yōu)越性。CLARA算法對(duì)光譜質(zhì)量要求低,不需要擬合恒星成分,方法簡(jiǎn)單有效,針對(duì)大規(guī)模星系光譜能夠快速有效分類,適用于大規(guī)模數(shù)據(jù)自動(dòng)分析處理,同時(shí)分類結(jié)果能夠很好地反映星系的演化過程。
圖6 第2層聚類的聚類中心、BPT圖和顏色星等圖。(a), (b), (c)列分別為聚類中心、BPT圖和顏色星等圖,1~5行分別為emi1-emi5類。BPT圖中黑色背景密度圖為全部發(fā)射線星系樣本分布,紅色散點(diǎn)為每一類的光譜樣本,顏色星等圖中黃色散點(diǎn)為全部光譜樣本,黑色散點(diǎn)為每一類光譜樣本
Fig.6 The clustering centers, u-g vs. g-r plots and BPT diagram of the second layer of clustering.The left, middle, right column are clustering centers, BPT diagram and u-g vs. g-r plots, and lines 1-5 are emi1-emi5. In the PBT diagram, the black background density map shows the sample distribution of all emission line galaxies, and the red scatter points is sample distribution of emi1-emi5. In the u-g vs. g-r plots, the yellow scatter points is the whole spectral samples and the black scatter points is the spectrum of each class
針對(duì)LAMOST DR5星系光譜數(shù)據(jù),使用k-means聚類算法成功將星系光譜分為吸收線星系和發(fā)射線星系,與基于譜線檢測(cè)的分類結(jié)果基本一致。k-means聚類算法簡(jiǎn)單高效,適用于大規(guī)模星系光譜自動(dòng)分析處理,聚類結(jié)果能夠很好地反映星系的性質(zhì),與傳統(tǒng)分類結(jié)果基本一致,因此,聚類方法對(duì)星系分類是可行的,聚類中心能夠?yàn)樾窍倒庾V自動(dòng)分類提供3種類型模板,相較于基于譜線分析得到的高信噪比模板,聚類中心作為模板抗噪性更強(qiáng)。
使用CLARA聚類算法將發(fā)射線星系細(xì)分類,結(jié)果與BPT圖分類和顏色星等圖分類結(jié)果存在預(yù)期的相關(guān)性,能夠反映星系的演化過程。CLARA聚類算法對(duì)光譜質(zhì)量要求較低,不需要擬合恒星成分,方法簡(jiǎn)單有效,能夠直接依據(jù)譜線特征實(shí)現(xiàn)自動(dòng)聚類,適用于大規(guī)模數(shù)據(jù)自動(dòng)分析處理,能夠?yàn)楣庾V自動(dòng)分類提供模板。
致謝:郭守敬望遠(yuǎn)鏡(大天區(qū)面積多目標(biāo)光纖光譜望遠(yuǎn)鏡, LAMOST)是中國(guó)科學(xué)院建設(shè)的國(guó)家重大科學(xué)項(xiàng)目。該項(xiàng)目由國(guó)家發(fā)展和改革委員會(huì)提供資金。LAMOST由中國(guó)科學(xué)院國(guó)家天文臺(tái)運(yùn)營(yíng)和管理。