徐守坤 王 超 莊麗華 高新華
(常州大學(xué)信息科學(xué)與工程學(xué)院常州213164)
鄰近疏散星團(tuán)(距離比較近的疏散星團(tuán))給我們提供了研究天體物理學(xué)中一些問(wèn)題的機(jī)會(huì),譬如恒星演化、銀河距離尺度、銀河結(jié)構(gòu),因?yàn)樗鼈兊木嚯x可以基于精確的三角視差數(shù)據(jù)直接確定[1?4].
那么我們的首要工作是檢測(cè)出這些鄰近疏散星團(tuán)成員.要進(jìn)行鄰近疏散星團(tuán)成員檢測(cè)就需要恒星大數(shù)據(jù)(覆蓋范圍廣、數(shù)據(jù)量大、多維度的恒星樣本)和高效的成員檢測(cè)方法.之前由于恒星大數(shù)據(jù)比較匱乏,很多學(xué)者只是針對(duì)特定區(qū)域(包含疏散星團(tuán)的一個(gè)小區(qū)域)進(jìn)行成員判定的研究,提出了一些成員判定方法,而這些成員判定方法能否用于在大數(shù)據(jù)中進(jìn)行鄰近疏散星團(tuán)的成員檢測(cè)有待驗(yàn)證.早期用于確定疏散星團(tuán)成員的方法是Vasilevskis-Sanders方法(簡(jiǎn)稱VS方法), 由Vasilevskis等[5]提出, 再由Sanders[6]在其基礎(chǔ)上加以改進(jìn),Zhao等[7]又進(jìn)一步提出了改進(jìn)方案,使VS方法能處理不等精度的自行數(shù)據(jù).VS方法的基本原理是假設(shè)成員星和場(chǎng)星的自行或者視向速度都符合高斯分布,然后用極大似然法估計(jì)高斯分布中的參數(shù),再計(jì)算每一顆恒星的成員概率,通常認(rèn)為成員概率大的恒星是成員星的可能性比較大[7].但是,有學(xué)者表示VS方法有一定的局限性[8],當(dāng)成員星數(shù)量遠(yuǎn)小于場(chǎng)星時(shí),效果可能不好,當(dāng)成員星和場(chǎng)星在速度空間重合時(shí),結(jié)果也可能不理想.另外,VS方法不適合處理高維數(shù)據(jù)(三維及以上),因?yàn)楫?dāng)數(shù)據(jù)維數(shù)增大時(shí),需要確定的高斯模型參數(shù)的數(shù)量也會(huì)隨之增加,計(jì)算將會(huì)變得繁瑣[9].還有一點(diǎn),我們發(fā)現(xiàn)VS方法只能用于僅存在一個(gè)疏散星團(tuán)和場(chǎng)星的情況,因?yàn)樗腔诨旌细咚鼓P偷木垲惙椒╗10],當(dāng)有多個(gè)疏散星團(tuán)存在時(shí),需要引入更多的高斯模型.因此,VS方法不適用于數(shù)據(jù)分布相對(duì)復(fù)雜的大數(shù)據(jù).
后來(lái),針對(duì)VS方法的局限性,Sampedro等[11]提出了一種改進(jìn)方法.與VS方法不同的是該方法假設(shè)每顆恒星與高密度中心點(diǎn)之間的距離符合高斯分布,能夠充分利用恒星的多個(gè)數(shù)據(jù)(自行、視向速度、位置、視差等),并且高斯模型參數(shù)的數(shù)量不會(huì)隨著數(shù)據(jù)維數(shù)的增高而變多,因?yàn)樗恍枰?jì)算距離的概率密度函數(shù)(高斯模型),因此,該方法在處理高維數(shù)據(jù)(三維及以上)時(shí)比較便利.但是,不足之處是該方法需要對(duì)數(shù)據(jù)進(jìn)行模型假設(shè)(參數(shù)方法),另外,該方法還需要不斷地迭代尋找恰當(dāng)?shù)母呙芏戎行狞c(diǎn),過(guò)程繁瑣.
近期,Gao等[9,12]提出用一種在數(shù)據(jù)挖掘中比較經(jīng)典的算法——DBSCAN聚類算法(Density-Based Spatial Clustering of Applications with Noise)[13]來(lái)確定疏散星團(tuán)成員.Gao等[9,12]使用NGC 188所在天區(qū)內(nèi)的1046顆恒星的三維運(yùn)動(dòng)學(xué)數(shù)據(jù)(兩維自行和視向速度)確定了疏散星團(tuán)NGC 188的成員星,通過(guò)對(duì)成員星的二維空間位置分布圖(赤經(jīng)和赤緯)以及顏色-星等圖的分析,證實(shí)他們得到的成員星是可靠的.DBSCAN算法有兩個(gè)很重要的輸入?yún)?shù)(Eps和MinPts),Eps為鄰域半徑,MinPts為稠密區(qū)域的密度閾值.DBSCAN算法的原理可以總結(jié)為:隨機(jī)訪問(wèn)數(shù)據(jù)集中的任意一個(gè)點(diǎn),判斷其Eps鄰域內(nèi)的點(diǎn)個(gè)數(shù)是否大于等于MinPts,如果符合條件的話,則該點(diǎn)為核心點(diǎn),該點(diǎn)與其Eps鄰域內(nèi)的點(diǎn)形成一個(gè)小簇,再判斷該核心點(diǎn)Eps鄰域內(nèi)的點(diǎn)是否為核心點(diǎn),如果存在核心點(diǎn)的話,則將以這些核心點(diǎn)為中心的小簇合并成一個(gè)大簇,如此迭代,直到所有點(diǎn)都被訪問(wèn)過(guò).與前面的成員判定方法相比,DBSCAN算法不做任何模型假設(shè)(非參數(shù)方法),因而可以發(fā)現(xiàn)任意形狀的簇,同時(shí)可以比較便利地處理三維及以上的高維數(shù)據(jù).
目前,新一代的恒星大數(shù)據(jù)已經(jīng)發(fā)布——Gaia Data Release 2(Gaia-DR2)[14].基于Gaia-DR2星表[14],我們獲取了距離太陽(yáng)小于100 pc的594284顆恒星樣本,用恒星的五維數(shù)據(jù)(三維空間位置和兩維自行)構(gòu)建了一個(gè)五維相空間,以Gao等[9,12]針對(duì)特定區(qū)域進(jìn)行成員判定的工作為基礎(chǔ),我們嘗試采用DBSCAN算法進(jìn)行距離太陽(yáng)100 pc區(qū)域內(nèi)的鄰近疏散星團(tuán)成員檢測(cè).
我們的疏散星團(tuán)成員檢測(cè)工作需要高精度的天體測(cè)量數(shù)據(jù),Gaia-DR2的發(fā)布給我們提供了機(jī)會(huì).Gaia-DR2是歐洲航空局公布的Gaia衛(wèi)星的第2期數(shù)據(jù),Gaia衛(wèi)星的科學(xué)目標(biāo)是闡述銀河系的組成與演化[15].Gaia-DR2中包含了13億顆恒星的位置、視差和自行數(shù)據(jù)以及17億顆恒星的測(cè)光數(shù)據(jù),視差和位置數(shù)據(jù)的誤差大概是0.3 mas,自行的誤差大概是0.7 mas·yr?1[14,16].我們從Gaia-DR2星表[14]中選取了距離太陽(yáng)100 pc以內(nèi)的594284顆恒星樣本,通過(guò)計(jì)算,我們發(fā)現(xiàn):在100 pc處0.3 mas的視差誤差僅會(huì)導(dǎo)致3 pc的距離誤差,可用以下誤差傳遞公式[17]計(jì)算:
其中,σd是距離誤差,表示太陽(yáng)與恒星之間的距離d對(duì)視差π求導(dǎo),距離與視差的關(guān)系由(2)式給出,σπ表示視差π的誤差.因此,我們選取的594284顆恒星樣本的數(shù)據(jù)精度較高,滿足DBSCAN算法對(duì)于數(shù)據(jù)精度的要求.利用位置和視差數(shù)據(jù),計(jì)算了每顆恒星在三維位置空間中的坐標(biāo),坐標(biāo)中心為太陽(yáng),用(α,δ,π)分別表示恒星的赤經(jīng)、赤緯、視差,那么恒星在以pc為單位的三維位置空間中的坐標(biāo)(X,Y,Z)可以用以下公式[18]計(jì)算:
圖1為樣本中594284顆恒星在三維位置空間中的分布圖.
圖1 594284顆恒星樣本的三維位置空間分布圖.太陽(yáng)(藍(lán)點(diǎn))位于三維位置空間的中心Fig.1 The distribution of 594284 sample stars in a 3D position space.The Sun(blue point)is located in the center of the 3D position space
最終,我們可以使用594284顆恒星的三維空間位置以及兩維自行數(shù)據(jù)來(lái)進(jìn)行疏散星團(tuán)成員檢測(cè).由于我們的實(shí)驗(yàn)需要計(jì)算恒星之間的歐氏距離,而三維位置數(shù)據(jù)和兩維自行數(shù)據(jù)的單位是不一致的,為了避免某一維數(shù)據(jù)在計(jì)算距離時(shí)占據(jù)主導(dǎo)地位(不同單位的數(shù)據(jù)的值域是不一樣的),我們將每一維數(shù)據(jù)標(biāo)準(zhǔn)化到[0,1]區(qū)間內(nèi),采用以下公式[19]進(jìn)行處理:
其中,x表示初始數(shù)據(jù),min(x)和max(x)分別代表初始數(shù)據(jù)的最小值和最大值,x′表示標(biāo)準(zhǔn)化后的無(wú)量綱值.
(Eps,MinPts)是DBSCAN算法的2個(gè)非常重要的輸入?yún)?shù),它們的選取會(huì)直接影響到我們的聚類效果[20?21].Ester等[13]提出用k-dist圖確定DBSCAN算法的輸入?yún)?shù),并且他們已經(jīng)證實(shí)k-dist圖在二維數(shù)據(jù)中的可行性,我們嘗試將它應(yīng)用到五維數(shù)據(jù)集中.k-dist圖就是用按k-dist值(每個(gè)點(diǎn)與它的第k個(gè)最近鄰之間的距離)排序后的點(diǎn)編號(hào)和排序后的k-dist值繪制的曲線圖.繪制曲線之前,我們需要計(jì)算每個(gè)點(diǎn)與其他點(diǎn)的歐氏距離.對(duì)于我們所使用的594284顆恒星樣本,我們用以下公式計(jì)算每顆恒星與其他恒星之間的距離:
其中,d(i,j)表示第i顆恒星與第j顆恒星之間的距離,n表示數(shù)據(jù)維數(shù),xin與xjn分別表示第i顆恒星與第j顆恒星的第n維數(shù)據(jù).假設(shè)恒星總數(shù)為N,就會(huì)得到N個(gè)包含N?1個(gè)距離值的序列,然后將序列按升序排序,得到每顆恒星的距離序列[22],最后繪制k-dist圖.圖1就是我們繪制的恒星樣本的k-dist圖,為了便于觀察,對(duì)于每個(gè)k,我們都取排序后的前800個(gè)k-dist值.
通過(guò)觀察圖2,我們發(fā)現(xiàn)當(dāng)k取到9之后,曲線開始趨于穩(wěn)定,其中的原因是隨著k的增大,成員星的k-dist值變化很緩慢,而場(chǎng)星的k-dist值變化則比較快[9],當(dāng)k取到9之后,成員星的k-dist值基本都小于場(chǎng)星.考慮到恒星本身以及它的9個(gè)近鄰,因而我們?nèi)inPts=10.再觀察圖3(恒星樣本的9-dist值圖),我們發(fā)現(xiàn)藍(lán)色虛線正好將曲線分成兩部分,虛線兩側(cè)數(shù)據(jù)變化趨勢(shì)明顯不同,并且左側(cè)數(shù)據(jù)明顯少于右側(cè)數(shù)據(jù),符合成員星與場(chǎng)星的數(shù)量差異,因此,我們暫且將虛線左側(cè)全部取為成員星,虛線右側(cè)取為場(chǎng)星.此時(shí),藍(lán)色虛線是成員星與場(chǎng)星的9-dist值的分界處,所以我們?nèi)ps為虛線處的9-dist值,即Eps=0.0023.
根據(jù)k-dist圖我們得到了DBSCAN算法的兩個(gè)輸入?yún)?shù),Eps=0.0023,MinPts=10.從圖3中我們發(fā)現(xiàn)虛線左側(cè)大概包含150個(gè)k-dist值,依據(jù)k-dist圖的原理[13],虛線左側(cè)的150個(gè)k-dist值包含核心點(diǎn)與邊界點(diǎn),按照核心點(diǎn)和邊界點(diǎn)的定義[13],我們知道核心點(diǎn)是高密度的點(diǎn)(Eps鄰域內(nèi)包含的點(diǎn)個(gè)數(shù)大于等于MinPts),可以選為成員星,而邊界點(diǎn)是比較特殊的一類點(diǎn),它們位于核心點(diǎn)的Eps鄰域內(nèi),但自身Eps鄰域內(nèi)的點(diǎn)個(gè)數(shù)少于MinPts,為此,我們畫出了核心點(diǎn)與邊界點(diǎn)的自行矢點(diǎn)圖(圖4).通過(guò)觀察,我們發(fā)現(xiàn)兩組核心點(diǎn)的自行各自是相近的,部分邊界點(diǎn)的自行與核心點(diǎn)相差較大,并且分布比較分散,不符合成員星自行相近的特點(diǎn),因此,我們將這部分不符合成員星特征的邊界點(diǎn)(圖4中黃色矩形框內(nèi)的點(diǎn))排除掉,保留核心點(diǎn)和剩下的邊界點(diǎn),最終得到135顆候選成員星.如圖5和圖6所示,我們使用DBSCAN算法一共檢測(cè)到兩個(gè)疏散星團(tuán),根據(jù)成員星的赤道坐標(biāo)(赤經(jīng)與赤緯)和三角視差對(duì)應(yīng)的距離,我們確定這兩個(gè)疏散星團(tuán)為Hyades和Coma.圖5為候選成員星的三維空間分布圖,圖中顯示兩個(gè)疏散星團(tuán)的成員均位于高密度區(qū)域,需要說(shuō)明的是,從恒星樣本的三維位置空間分布圖(圖1)可以看出,樣本中恒星數(shù)量過(guò)大,而成員星數(shù)量遠(yuǎn)小于場(chǎng)星,在三維位置空間中,大量的場(chǎng)星會(huì)遮擋住成員星,因此,我們只畫出候選成員星的三維空間分布圖.圖6為候選成員星與場(chǎng)星的自行矢點(diǎn)圖,圖中兩個(gè)疏散星團(tuán)成員的自行是各自相近的,只有個(gè)別孤立的點(diǎn)可能是混入的場(chǎng)星.依據(jù)候選成員星與場(chǎng)星的自行矢點(diǎn)圖(圖6),我們剔除掉兩顆很有可能是場(chǎng)星的候選成員星(圖中紅色矩形框內(nèi)的點(diǎn))之后,共得到133顆成員星,其中95顆屬于Hyades,另外38顆屬于Coma.圖7為我們畫出的成員星與場(chǎng)星的二維空間分布圖,圖中兩個(gè)疏散星團(tuán)成員都是各自成團(tuán)的,說(shuō)明我們得到的成員星是可靠的.另外,圖8和圖9分別為Coma和Hyades成員星的顏色-星等圖,兩幅圖均清晰地顯示了星團(tuán)主序,進(jìn)一步證實(shí)了我們獲取的成員星的可靠性.
圖2 594284顆恒星樣本的k-dist圖(k=1,2,3,4,5,6,7,8,9,10)Fig.2 The k-dist graphs of 594284 sample stars(k=1,2,3,4,5,6,7,8,9,10)
圖3 恒星樣本的9-dist圖.藍(lán)色虛線是成員星與場(chǎng)星的分界處Fig.3 The 9-dist graph of sample stars.The blue dashed line is the border of the members and field stars
圖4 核心點(diǎn)(紅點(diǎn))與邊界點(diǎn)(藍(lán)點(diǎn))的自行矢點(diǎn)圖.黃色矩形框內(nèi)的點(diǎn)為排除掉的點(diǎn).pmRA與pmDEC分別為赤經(jīng)和赤緯方向上的自行Fig.4 The proper-motion vector point diagram of the core points(red dots)and border points(blue dots).The points in the yellow rectangles are the points which are excluded.pmRA and pmDEC are proper motions in the right ascension and declination directions,respectively
圖5 135顆候選成員星在三維位置空間中的分布情況Fig.5 The distribution of 135 candidate members in the 3D position space
圖6 135顆候選成員星(紅點(diǎn))與場(chǎng)星(黑點(diǎn))的自行矢點(diǎn)圖.藍(lán)色和黃色橢圓區(qū)域分別代表Hyades和Coma的成員星.紅色矩形框內(nèi)的點(diǎn)為混入的場(chǎng)星.pmRA與pmDEC分別為赤經(jīng)和赤緯方向上的自行Fig.6 The proper-motion vector point diagram of the 135 candidate members(red dots)and field stars(black dots).The blue and yellow ellipse represent the members of the Hyades and Coma clusters,respectively.The red rectangle represents the field stars mixing into the members.pmRA and pmDEC are proper motions in the right ascension and declination directions,respectively
圖7 成員星(紅點(diǎn))與場(chǎng)星(黑點(diǎn))的二維空間分布圖.藍(lán)色和黃色橢圓區(qū)域分別代表Hyades和Coma的成員星Fig.7 The 2D projected spatial distribution of members(red dots)and field stars(black dots).The blue and yellow ellipse represent members of the Hyades and Coma clusters,respectively
圖8 38顆Coma成員星的顏色-星等圖.黑點(diǎn)和圓圈分別為核心點(diǎn)與邊界點(diǎn).BP與RP是恒星的兩種照相星等,BP-RP為恒星的顏色Fig.8 The color-magnitude diagram of the 38 members of Coma cluster.The black dots and circles are the core and border points,respectively.BP and RP are two types of photo magnitude of stars.BP-RP is color of stars
圖9 95顆Hyades成員星的顏色-星等圖.黑點(diǎn)和圓圈分別為核心點(diǎn)與邊界點(diǎn).BP與RP是恒星的兩種照相星等,BP-RP為恒星的顏色Fig.9 The color-magnitude diagram of 95 members of Hyades cluster.The black dots and circles are the core and border points,respectively.BP and RP are two types of photo magnitude of stars.BP-RP is color of stars
獲取了可靠成員星之后,我們利用Gaia-DR2中的視差數(shù)據(jù)重新確定了兩個(gè)疏散星團(tuán)的距離.我們選取的594284顆恒星樣本中絕大多數(shù)恒星(大約93%)的視差數(shù)據(jù)的相對(duì)誤差(σπ/π)<0.2,圖10為594284顆恒星視差的相對(duì)誤差分布情況.
圖10 距離太陽(yáng)100 pc以內(nèi)的594284顆恒星視差的相對(duì)誤差分布Fig.10 The relative parallax errors of 594284 sample stars within a distance of 100 pc to the Sun
我們先根據(jù)成員星的視差和視差的誤差分別計(jì)算了兩個(gè)星團(tuán)的加權(quán)平均視差,通過(guò)以下公式[18]計(jì)算:
其中,wi表示第i顆成員星的權(quán)值,πi和σπi分別表示第i顆成員星的視差以及視差對(duì)應(yīng)的誤差,和分別表示星團(tuán)的加權(quán)平均視差和對(duì)應(yīng)的誤差,S表示星團(tuán)的成員星數(shù)量.根據(jù)星團(tuán)的加權(quán)平均視差和對(duì)應(yīng)的誤差,我們可以算出星團(tuán)的距離和對(duì)應(yīng)誤差可以用以下公式[18]計(jì)算:
最終,Hyades的視差確定為(21.51±0.10)mas,對(duì)應(yīng)的距離為(46.5±0.3)pc,Coma的視差確定為(11.77±0.06)mas,對(duì)應(yīng)的距離為(84.9±0.4)pc,我們確定的星團(tuán)距離與之前Gao[18]計(jì)算的結(jié)果基本一致.
在本文中,我們借鑒Gao等[9,12]針對(duì)特定區(qū)域的疏散星團(tuán)成員判定工作,將DBSCAN算法拓展到恒星大數(shù)據(jù)中進(jìn)行成員檢測(cè).基于Gaia-DR2星表,為了獲得更加可靠的成員星,我們使用恒星的五維數(shù)據(jù)(三維空間位置以及兩維自行)進(jìn)行檢測(cè).考慮到位置數(shù)據(jù)和自行的單位不一致,為了得到更好的聚類效果,我們就將每一維數(shù)據(jù)標(biāo)準(zhǔn)化到[0,1]區(qū)間內(nèi).借助k-dist圖,我們確定了DBSCAN算法的輸入?yún)?shù)(Eps,MinPts),證實(shí)了k-dist圖在高維數(shù)據(jù)(三維及以上)中的可行性.最終,我們?cè)诰嚯x100 pc范圍以內(nèi)的594284顆恒星中檢測(cè)到133顆可靠成員星,它們被分成兩組(Hyades和Coma),證實(shí)了DBSCAN算法在鄰近疏散星團(tuán)成員檢測(cè)上的可行性.
DBSCAN算法是一種基于密度的聚類算法,它通過(guò)統(tǒng)計(jì)每個(gè)點(diǎn)鄰域內(nèi)的點(diǎn)個(gè)數(shù)來(lái)確定該點(diǎn)的密度,不像VS方法這樣的參數(shù)方法需要對(duì)數(shù)據(jù)進(jìn)行模型假設(shè),因而它可以發(fā)現(xiàn)任意形狀的簇,另外,它也不需要復(fù)雜的數(shù)學(xué)計(jì)算,適用于高維數(shù)據(jù)的聚類,所以,我們可以將它用于大數(shù)據(jù)中的五維相空間成員檢測(cè).近期,天文學(xué)家逐漸意識(shí)到DBSCAN算法的潛力,繼Gao等[9,12]首次將它用于疏散星團(tuán)成員判定之后,Castro-Ginard等[23]提出用一種將DBSCAN算法與神經(jīng)網(wǎng)絡(luò)相結(jié)合的方法進(jìn)行疏散星團(tuán)成員檢測(cè),他們將該方法應(yīng)用到Tycho-Gaia Astrometric Solution(TGAS)[24]數(shù)據(jù)中,并用Gaia-DR2中的測(cè)光數(shù)據(jù)驗(yàn)證該方法的可靠性,在他們的實(shí)驗(yàn)中,他們也是使用的五維數(shù)據(jù)(二維位置、視差以及兩維自行)進(jìn)行檢測(cè),但他們沒(méi)有對(duì)五維數(shù)據(jù)進(jìn)行標(biāo)準(zhǔn)化處理(五維數(shù)據(jù)的單位是不一樣的).而本文的工作與Castro-Ginard等[23]做的并不一樣,我們是直接從Gaia-DR2星表中選取了距離100 pc以內(nèi)的恒星樣本,利用樣本中的位置和視差數(shù)據(jù)計(jì)算得到每顆恒星的三維空間位置,再結(jié)合樣本中的兩維自行數(shù)據(jù),總共五維數(shù)據(jù)用于成員檢測(cè),在用DBSCAN算法聚類之前,對(duì)五維數(shù)據(jù)進(jìn)行了標(biāo)準(zhǔn)化處理,最后用二維空間位置(赤經(jīng)和赤緯)和顏色-星等圖對(duì)所得的成員星進(jìn)行了驗(yàn)證.此外,值得一提的是,DBSCAN算法不僅可以用于疏散星團(tuán)成員的確定,還具備在較大的數(shù)據(jù)空間中發(fā)現(xiàn)未知高密度結(jié)構(gòu)的能力,近期Bhattacharya等[25]通過(guò)DBSCAN算法分析了疏散星團(tuán)Czernik 20和NGC 1857的空間形態(tài)特征,發(fā)現(xiàn)一個(gè)先前未知的超密結(jié)構(gòu).需要指出的是,DBSCAN算法也有它的缺陷,在確定疏散星團(tuán)成員時(shí),它無(wú)法計(jì)算出每一顆恒星的成員概率,而且對(duì)數(shù)據(jù)精度的要求較高,另外,由于DBSCAN算法的兩個(gè)輸入?yún)?shù)(Eps和MinPts)是針對(duì)全局?jǐn)?shù)據(jù)的,當(dāng)數(shù)據(jù)集中數(shù)據(jù)分布不均勻時(shí)(存在多個(gè)密度相差較大的簇),有些相對(duì)松散的簇可能會(huì)被遺漏掉,因此,在距離太陽(yáng)100 pc以內(nèi)區(qū)域中,除了我們檢測(cè)到的兩個(gè)疏散星團(tuán),可能還存在著其他星團(tuán).
致謝 感謝審稿人提出的寶貴意見(jiàn)以及編輯的辛苦工作.