• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      基于XGBoost算法的恒星/星系分類研究?

      2019-04-18 07:57:30張文輝林基明
      天文學(xué)報(bào) 2019年2期
      關(guān)鍵詞:測光星系恒星

      李 超 張文輝 林基明

      (1 桂林電子科技大學(xué)信息與通信工程學(xué)院 桂林 541004)

      (2 桂林電子科技大學(xué)認(rèn)知無線電與信息處理教育部重點(diǎn)實(shí)驗(yàn)室 桂林 541004)

      (3 桂林電子科技大學(xué)廣西云計(jì)算與大數(shù)據(jù)協(xié)同創(chuàng)新中心 桂林 541004)

      (4 桂林電子科技大學(xué)廣西高校云計(jì)算與復(fù)雜系統(tǒng)重點(diǎn)實(shí)驗(yàn)室 桂林 541004)

      1 引言

      近些年來,隨著各國空間科學(xué)技術(shù)的進(jìn)步和大型巡天項(xiàng)目的不斷開展,天文數(shù)據(jù)量已經(jīng)呈指數(shù)式增長,數(shù)據(jù)量也以TB量級,甚至以PB量級來計(jì)量,天文學(xué)顯然已經(jīng)發(fā)展到了一個(gè)前所未有的階段,即大數(shù)據(jù)-巨信息量-全波段時(shí)代[1].面對如此龐大而又復(fù)雜的天文數(shù)據(jù),如何進(jìn)行高效而且準(zhǔn)確的數(shù)據(jù)分析顯得極為重要.

      恒星/星系分類一直是天文數(shù)據(jù)分析的基本內(nèi)容之一,而且人們對它的研究最早可以追溯到18世紀(jì)[2].基于形態(tài)、啟發(fā)式分割等原始的恒星/星系分類方法在之前被廣泛應(yīng)用.隨著機(jī)器學(xué)習(xí)的不斷發(fā)展,越來越多基于恒星/星系分類算法的研究也隨之展開.如嚴(yán)太生等[3]通過去除離群化數(shù)據(jù),并且使用自動(dòng)聚類的方法,對SDSS-DR6 (Sloan Digital Sky Survey Data Release 6)的測光數(shù)據(jù)進(jìn)行恒星/星系的分類,結(jié)果表明自動(dòng)聚類算法具有較高的效率;Vasconcellos等[4]使用了約13種不同的決策樹算法對SDSSDR7的測光數(shù)據(jù)進(jìn)行了恒星/星系分類研究,結(jié)果表明功能樹決策樹算法在恒星/星系分類的這個(gè)問題上要優(yōu)于其他決策樹算法;Sevilla-Noarbe等[5]基于SDSS-DR9 (SDSS Data Release 9)測光圖像目錄中給定的特征數(shù)據(jù)集,做了Boosted決策樹在恒星/星系分類問題上的應(yīng)用研究,實(shí)驗(yàn)結(jié)果表明Boosted決策樹的分類性能要優(yōu)于SDSS數(shù)據(jù)集中給定的type測光分類器;Kim等[6]提出了一個(gè)深度卷積網(wǎng)絡(luò)框架,并將其應(yīng)用到天文圖像數(shù)據(jù)中進(jìn)行恒星/星系的分類,取得了非常好的效果;李俊峰等[7]通過深度置信網(wǎng)絡(luò)(Deep Belief Network,DBN)、神經(jīng)網(wǎng)絡(luò)(Neural Network,NN)和支持向量機(jī)(Support Vector Machine,SVM)等算法對SDSS數(shù)據(jù)分類的性能對比,研究并分析了3種自動(dòng)光譜分類算法是否適用;劉蓉等[8]提出了一種非參數(shù)回歸與Adaboost (Adaptive boosting)相結(jié)合且對恒星光譜進(jìn)行MK分類的方法,將恒星按照其光譜型和光度型進(jìn)行分類,同時(shí)識(shí)別出其光譜型的次型;Xan等[9]在集成學(xué)習(xí)的背景下探索了天文學(xué)中恒星/星系的分類,并給出了合理的解釋.雖然在天文學(xué)領(lǐng)域,已經(jīng)研究并使用了很多優(yōu)秀的算法,但是這些算法都存在一些問題,比如泛化能力弱.即在亮源集有很高的分類正確率,但在暗源集分類正確率低的問題始終無法得到有效的解決.

      到目前為止,國內(nèi)外將XGBoost (eXtreme Gradient Boosting)算法應(yīng)用到天文數(shù)據(jù)挖掘領(lǐng)域的并不多見,尤其是用來研究恒星/星系的分類.基于此,本文研究了基于XGBoost的恒星/星系分類算法,首次將XGBoost方法應(yīng)用到SDSS-DR7測光數(shù)據(jù)之中,并將XGBoost與功能樹(Function Tree,FT)、Adaboost、隨機(jī)森林(Random Forest,RF)、梯度提升決策樹(Gradient Boosting Decision Tree,GBDT)、堆疊降噪自編碼(Stacked Denoising AutoEncoders,SDAE)和DBN等模型的分類效果進(jìn)行對比,驗(yàn)證XGBoost方法在天文學(xué)研究中的應(yīng)用價(jià)值.

      2 斯隆數(shù)字巡天

      迄今為止,世界上已經(jīng)有非常多的巡天項(xiàng)目投入使用,但是在眾多巡天項(xiàng)目中,SDSS被認(rèn)為是最成功,也是最有影響力的一個(gè).SDSS的測光系統(tǒng)分別對天體進(jìn)行u、g、r、i、z 5個(gè)波段的測量.本文使用的測光數(shù)據(jù)只針對r波段.在測光數(shù)據(jù)中,同時(shí)帶有光譜證認(rèn)參數(shù)和測光參數(shù)的數(shù)據(jù)集僅占全部測光數(shù)據(jù)集的極少一部分,剩下的絕大部分只有測光參數(shù).這意味著,本文提出的XGBoost恒星/星系分類模型可能是對那些沒有光譜證認(rèn)參數(shù)的天體進(jìn)行準(zhǔn)確分類的一個(gè)有效方法.

      3 提升算法

      提升算法基于這樣一種思想:即對于任何一個(gè)復(fù)雜的任務(wù)來說,將多個(gè)專家的判斷進(jìn)行適當(dāng)?shù)木C合所得出的最終判斷,要比其中任何一個(gè)專家單獨(dú)的判斷好.實(shí)際上,這和“三個(gè)臭皮匠頂個(gè)諸葛亮”的道理是相似的.提升算法是一種非常常用的統(tǒng)計(jì)學(xué)習(xí)方法,其應(yīng)用非常廣泛并且有很好的效果.在分類問題中,首先,它通過更新訓(xùn)練樣本的權(quán)重,能夠?qū)W習(xí)到多個(gè)分類器.然后,再將這些分類器進(jìn)行線性組合,以此來提高分類器的分類性能.

      3.1 GBDT原理

      梯度提升決策樹[10](GBDT)算法本質(zhì)上是一種以決策樹作為基函數(shù)的提升算法.梯度提升決策樹模型可以表示為決策樹的加法模型:

      其中,x表示樣本數(shù)據(jù)集,T(x;θm)表示決策樹,θm表示決策樹的參數(shù),M表示決策樹的個(gè)數(shù).梯度提升樹使用前向分布算法.首先,它需要確定初始的提升樹f0(x)=0.然后,根據(jù)前向分布算法得出第m步的模型:

      其中,fm?1(x)是當(dāng)前的模型.最后,根據(jù)經(jīng)驗(yàn)風(fēng)險(xiǎn)最小化確定下一棵決策樹的參數(shù)θm:

      式中,yi表示第i個(gè)樣本的真實(shí)標(biāo)簽,N表示數(shù)據(jù)樣本的個(gè)數(shù).當(dāng)L采用平方誤差形式的損失函數(shù)時(shí):

      其中,y表示所有樣本數(shù)據(jù)的真實(shí)標(biāo)簽.這時(shí),損失函數(shù)變?yōu)?

      如果是對于分類問題,GBDT算法需要將基分類器限制為分類樹.雖然訓(xùn)練數(shù)據(jù)中的輸入和輸出之間可能存在著較為復(fù)雜的關(guān)系,但是決策樹模型本身固有的特點(diǎn)決定了決策樹的線性組合可以很好地?cái)M合訓(xùn)練數(shù)據(jù),并得到模型參數(shù).

      3.2 XGBoost原理

      XGBoost[11]也是提升算法的一種.與傳統(tǒng)的GBDT在優(yōu)化時(shí)使用一階導(dǎo)數(shù)信息不同,XGBoost在優(yōu)化時(shí)做出了很好的改進(jìn).它通過對損失函數(shù)進(jìn)行2階泰勒展開,在保留一階導(dǎo)數(shù)信息的同時(shí)也加入了2階導(dǎo)數(shù)的信息,這樣可以使得模型在訓(xùn)練集上更快地收斂.不僅如此,XGBoost為了控制模型的復(fù)雜程度,還在損失函數(shù)中添加了一個(gè)正則項(xiàng),防止模型出現(xiàn)過擬合.XGBoost算法具體推導(dǎo)過程如下.設(shè)D={(xi,yi)}(|D|=n,xi∈Rd,yi∈R)為一個(gè)擁有n個(gè)樣本、每個(gè)樣本有d個(gè)特征的數(shù)據(jù)集;xi表示第i個(gè)樣本數(shù)據(jù).樹的集成模型通過K(樹的數(shù)目)個(gè)相加函數(shù)來預(yù)測最終結(jié)果:

      其中,F= {f(x)=wq(x)}(q:Rd→T,w∈RT)(q表示將樣本實(shí)例Rd映射到相應(yīng)葉索引的結(jié)構(gòu),T表示葉子節(jié)點(diǎn)的數(shù)目,RT為葉子節(jié)點(diǎn)權(quán)重w的空間)代表了一個(gè)決策樹的函數(shù)空間,樣本xi和預(yù)測值的函數(shù)關(guān)系記為?;wq(x)把每一個(gè)節(jié)點(diǎn)映射成一個(gè)值,即f(x)的值;fk表示第k棵樹的模型.每一個(gè)fk對應(yīng)著一個(gè)獨(dú)立的樹結(jié)構(gòu)q和葉子節(jié)點(diǎn)的權(quán)值w.為了學(xué)習(xí)模型中使用的函數(shù)集,故定義正則化目標(biāo)函數(shù)如下:

      其中,l是一個(gè)用來衡量預(yù)測值和真實(shí)值yi之間差異的可微凸損失函數(shù),?表示模型復(fù)雜度的懲罰項(xiàng),γ表示葉子數(shù)目的正則化參數(shù),用來抑制節(jié)點(diǎn)繼續(xù)向下分裂,λ表示葉子權(quán)重的正則化參數(shù).目標(biāo)是最小化損失函數(shù)

      其中,L(t)表示第t棵樹的目標(biāo)函數(shù);表示前t?1棵樹的輸出值之和,構(gòu)成前t?1棵樹的預(yù)測值;ft表示第t棵樹的模型,ft(xi)表示第t棵樹的輸出結(jié)果,相加構(gòu)成最新的預(yù)測值.定義gi和hi:

      去掉常數(shù)項(xiàng),第t次迭代后的損失函數(shù)變?yōu)?

      定義Ij={i|q(xi)=j}作為葉子節(jié)點(diǎn)j的實(shí)例集,根據(jù)(12)式得:

      其中,wj表示葉子節(jié)點(diǎn)j的權(quán)重.對于固定的決策樹的結(jié)構(gòu)q(x),可以計(jì)算得出葉子節(jié)點(diǎn)j的最優(yōu)權(quán)重:

      (15)式作為衡量樹結(jié)構(gòu)質(zhì)量的指標(biāo),可以用來計(jì)算樹結(jié)構(gòu)q的得分.即便如此,想要列舉出所有可能的樹結(jié)構(gòu)q幾乎不可能.因此,需要使用貪心算法迭代地在每一個(gè)已有的葉子節(jié)點(diǎn)添加分支.假定IL和IR是劃分后左右子樹葉子節(jié)點(diǎn)的集合,即I=IL∪IR,則劃分后的損失函數(shù)如下:

      4 實(shí)驗(yàn)測試

      4.1 數(shù)據(jù)集介紹

      為了能與已有算法進(jìn)行更好的比較,本研究采用的恒星/星系數(shù)據(jù)集是使用SQL(Structured Query Language)指令在SDSS數(shù)據(jù)庫中提取,并且與文獻(xiàn)[4]保持一致.數(shù)據(jù)特征如表1所示.

      表1 用于SDSS-DR7恒星/星系分類的特征Table 1 The features for SDSS-DR7 star/galaxy classification

      4.2 實(shí)驗(yàn)分析

      4.2.1 特征重要性測試

      通過對數(shù)據(jù)特征仿真,得知數(shù)據(jù)特征的重要程度如圖1所示,其中F score是表示特征重要程度的參數(shù).

      圖1 特征的重要程度Fig.1 Feature importance

      4.2.2 XGBoost模型優(yōu)化

      XGBoost使用貪心算法,其具體算法流程如下.使用柵格搜索對XGBoost算法進(jìn)行參數(shù)調(diào)優(yōu),樹的深度為6,學(xué)習(xí)率為0.01,在710次迭代下模型收斂,達(dá)到最優(yōu)值,利用訓(xùn)練好的模型進(jìn)行實(shí)驗(yàn).

      ?

      4.2.3 實(shí)驗(yàn)方法及模型對比

      為了能更好地評估XGBoost模型在恒星/星系分類上的性能,使用了十折交叉驗(yàn)證的方法(將完整的數(shù)據(jù)集分為10等份,其中1份作為測試集,剩余9份作為訓(xùn)練集),并且與文獻(xiàn)[4]中的FT (分類性能優(yōu)于其他傳統(tǒng)決策樹算法)、RF、GBDT、Adaboost和目前已經(jīng)使用的新的算法如DBN、SDAE等作對比,詳細(xì)的對比結(jié)果如表2.同樣,為了保證對比分類結(jié)果的有效性,采用與文獻(xiàn)[4]一致的分類性能衡量指標(biāo)(CP),即星系的分類正確率,其定義如下:

      表2 SDSS-DR7星系分類正確率Table 2 The accuracy of SDSS-DR7 galaxy classification

      從通過仿真實(shí)驗(yàn)得出的表2中可以看出,XGBoost的星系分類準(zhǔn)確率要優(yōu)于FT.尤其是在暗星等區(qū)間,XGBoost相比FT提高了近10%的準(zhǔn)確率.而與其他較為先進(jìn)的DBN[12]、SDAE、RF、Adaboost、GBDT相比,在modelMag值為20.5–21的最暗星等區(qū)間,也提高了2%–5%的星系分類準(zhǔn)確率,由此可見,XGBoost算法模型具有更強(qiáng)的泛化能力,在恒星星系分類問題上的表現(xiàn)優(yōu)于其他算法.另外,本文利用modelMag屬性值為14–19的約88萬條數(shù)據(jù),來測試XGBoost、GBDT和Adaboost在亮星等數(shù)據(jù)集上訓(xùn)練模型時(shí)的效率.使用亮源是因?yàn)樵诎敌堑然蛘咦畎敌堑葦?shù)據(jù)量小的數(shù)據(jù)集上,對比結(jié)果差異不明顯.結(jié)果如表3所示.

      之所以沒有測試其他模型的訓(xùn)練時(shí)間,是因?yàn)槠渌P偷男窍捣诸悳?zhǔn)確率要遠(yuǎn)低于以上3個(gè)模型.實(shí)驗(yàn)結(jié)果表明,在數(shù)據(jù)集不變的情況下,XGBoost在訓(xùn)練模型上所消耗的時(shí)間要遠(yuǎn)遠(yuǎn)低于GBDT和Adaboost.相對于GBDT,XGBoost使用了2階信息,可以更快地在訓(xùn)練集上收斂.因此,XGBoost不僅在準(zhǔn)確率上優(yōu)于其他模型,而且在效率上也遠(yuǎn)高于GBDT和Adaboost.

      表3 模型訓(xùn)練時(shí)間Table 3 The time of the model training

      5 總結(jié)與展望

      本文通過使用SDSS-DR7測光數(shù)據(jù)集,并且采用十折交叉驗(yàn)證的方法,研究了基于XGBoost算法的恒星/星系的分類問題.最后通過使用經(jīng)驗(yàn)值調(diào)參、柵格搜索等常用方法對模型不斷調(diào)優(yōu),基于星系分類準(zhǔn)確率的評價(jià)指標(biāo),與FT、Adaboost、RF、GBDT、SDAE、DBN等模型進(jìn)行對比.實(shí)驗(yàn)結(jié)果表明,調(diào)優(yōu)后的XGBoost算法模型在恒星/星系數(shù)據(jù)集上的分類效果要遠(yuǎn)好于其他模型.同時(shí),在訓(xùn)練模型時(shí),XGBoost要比GBDT和Adaboost更加高效.因此,無論是準(zhǔn)確性還是高效性,XGBoost模型無疑都具有更加明顯的優(yōu)勢.雖然,在恒星/星系暗源的準(zhǔn)確性還有待進(jìn)一步提高,但是,我相信隨著XGBoost算法在天文學(xué)數(shù)據(jù)挖掘方面的研究逐步深入,天文學(xué)相關(guān)領(lǐng)域?qū)?huì)快速發(fā)展.

      猜你喜歡
      測光星系恒星
      跟著星系深呼吸
      迄今發(fā)現(xiàn)的最大星系
      軍事文摘(2022年10期)2022-06-15 02:29:38
      (18)刺殺恒星
      恒星的演化
      恒星不恒
      奧秘(2018年10期)2018-10-25 05:38:56
      星系大碰撞
      本月話題機(jī)內(nèi)測光系統(tǒng)
      影像視覺(2017年10期)2018-01-31 23:20:26
      地外星系
      太空探索(2016年1期)2016-07-12 09:55:58
      不同種手機(jī)測光類軟件在林業(yè)中的試用探析
      相機(jī)探秘測光指南
      读书| 波密县| 英吉沙县| 柳江县| 琼中| 云龙县| 金平| 东台市| 大渡口区| 福泉市| 花莲县| 中方县| 东平县| 丹棱县| 固始县| 壶关县| 无锡市| 秭归县| 当阳市| 菏泽市| 射洪县| 南投市| 紫云| 论坛| 海伦市| 乌鲁木齐县| 襄汾县| 龙胜| 天门市| 视频| 县级市| 沁阳市| 商洛市| 龙胜| 大新县| 芦山县| 万宁市| 威宁| 梨树县| 沈阳市| 江永县|