• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      基于DenseNet 的天體光譜分類方法?

      2020-01-16 08:02:16王奇勛
      天文研究與技術(shù) 2020年1期
      關(guān)鍵詞:類星體星系天體

      王奇勛, 趙 剛, 范 舟

      (1.中國(guó)科學(xué)院光學(xué)天文重點(diǎn)實(shí)驗(yàn)室,北京 100101;2.中國(guó)科學(xué)院大學(xué)天文與空間科學(xué)學(xué)院,北京 100049)

      1 研究背景與意義

      隨著科學(xué)技術(shù)的發(fā)展和觀測(cè)設(shè)備不斷升級(jí),天文數(shù)據(jù)呈現(xiàn)爆炸式增長(zhǎng)。人工智能技術(shù)能夠輔助天文學(xué)家處理分析海量天文數(shù)據(jù),發(fā)現(xiàn)新的特殊天體和物理規(guī)律。天體光譜數(shù)據(jù)的智能處理正由傳統(tǒng)機(jī)器學(xué)習(xí)方法逐步轉(zhuǎn)向深度學(xué)習(xí)[1-3],主要采用基于計(jì)算機(jī)視覺(jué)的技術(shù)手段。文[1]提出了使用5層卷積神經(jīng)網(wǎng)絡(luò)估計(jì)大氣參數(shù)的方法。文[2]提出使用自編碼算法的神經(jīng)網(wǎng)絡(luò)對(duì)斯隆數(shù)字巡天(Sloan Digital Sky Survey,SDSS)光譜進(jìn)行恒星大氣物理參數(shù)的估計(jì)。文[3]提出使用深度神經(jīng)網(wǎng)絡(luò)模型并構(gòu)造分類器對(duì)光譜進(jìn)行分類。文[4]提出使用卷積神經(jīng)網(wǎng)絡(luò)檢測(cè)太陽(yáng)黑子。深度學(xué)習(xí)方法較機(jī)器學(xué)習(xí)在處理天體光譜數(shù)據(jù)上的精度、魯棒性和泛化性都有明顯提升。

      大天區(qū)面積多目標(biāo)光纖光譜天文望遠(yuǎn)鏡(The Large Sky Area Multi-Object Fibre Spectroscopic Telescope,LAMOST,又叫郭守敬望遠(yuǎn)鏡)是一架新型的大視場(chǎng)兼?zhèn)浯罂趶酵h(yuǎn)鏡,在大規(guī)模光學(xué)光譜觀測(cè)和大視場(chǎng)天文學(xué)研究方面居國(guó)際領(lǐng)先地位。郭守敬望遠(yuǎn)鏡是世界上光譜獲取率最高的望遠(yuǎn)鏡,每個(gè)觀測(cè)夜采集萬(wàn)余條光譜。截止LAMOST DATA RELEASE 5 v1,已產(chǎn)生900多萬(wàn)條光譜。光譜類別的劃分是所有天文研究的前提,正確的分類可以減少天文學(xué)家對(duì)數(shù)據(jù)的篩選、清洗工作,同時(shí)可以提高郭守敬望遠(yuǎn)鏡數(shù)據(jù)的使用效率。光譜自動(dòng)分類是從上千維的光譜數(shù)據(jù)中選擇和提取對(duì)分類識(shí)別最有效的特征構(gòu)建特征空間。天體光譜與其類別之間的關(guān)系是高度非線性的,實(shí)際觀測(cè)中又存在大量來(lái)自儀器、天氣方面的噪聲。傳統(tǒng)的機(jī)器學(xué)習(xí)與模板匹配方法在非線性關(guān)系的探索上表現(xiàn)不佳,而深度學(xué)習(xí)在非線性關(guān)系探索和表示方面有天然的優(yōu)勢(shì),理論上高深度的神經(jīng)網(wǎng)絡(luò)可以擬合任意復(fù)雜的函數(shù)關(guān)系。

      因此,本文基于郭守敬望遠(yuǎn)鏡光譜數(shù)據(jù)特點(diǎn)對(duì)DenseNet[5]網(wǎng)絡(luò)結(jié)構(gòu)進(jìn)行優(yōu)化,并利用優(yōu)化后的結(jié)構(gòu)模型對(duì)光譜數(shù)據(jù)進(jìn)行分類訓(xùn)練與檢測(cè),提出了基于DenseNet的光譜自動(dòng)分類處理方法。本方法用于阿里云天池天文數(shù)據(jù)挖掘大賽——天體光譜智能分類,并在843支參賽隊(duì)伍的3次數(shù)據(jù)評(píng)比中獲得了2次第一、1次第三的成績(jī),證明了該模型在保證分類精度的同時(shí),具有極強(qiáng)的魯棒性、泛化性,適用于光譜的自動(dòng)分類。

      2 數(shù)據(jù)集以及類別

      本文數(shù)據(jù)集選自國(guó)家天文臺(tái)與阿里云天池主辦的“天文數(shù)據(jù)挖掘大賽”發(fā)布的郭守敬望遠(yuǎn)鏡光譜數(shù)據(jù)①天文數(shù)據(jù)挖掘大賽:https://tianchi.aliyun.com/competition/entrance/231646/information,共449 384條。隨機(jī)抽取其中89 877條光譜作為驗(yàn)證集數(shù)據(jù),其余作為原始的訓(xùn)練數(shù)據(jù)。海量不同但具有同一類別的光譜數(shù)據(jù),可以顯著提高模型的泛化能力,同時(shí)使模型在驗(yàn)證數(shù)據(jù)集上擁有很強(qiáng)的適應(yīng)性。

      郭守敬望遠(yuǎn)鏡數(shù)據(jù)集中的每一條光譜提供了369~910 nm波長(zhǎng)范圍內(nèi)的一系列輻射強(qiáng)度值。該競(jìng)賽是純粹的數(shù)據(jù)挖掘比賽,光譜數(shù)據(jù)不含波長(zhǎng)信息,但所有光譜數(shù)據(jù)的波段區(qū)間和采樣點(diǎn)相同,采樣點(diǎn)個(gè)數(shù)都是2 600個(gè)。

      在目前的郭守敬望遠(yuǎn)鏡巡天數(shù)據(jù)發(fā)布中,光譜主要分為恒星(STAR)、星系(GALAXY)、類星體(QSO)和未知(UNKNOWN)天體4大類,本文僅對(duì)恒星、星系和類星體3類天體光譜進(jìn)行分類。

      3 分類模型

      天體光譜數(shù)據(jù)是天體的點(diǎn)源光經(jīng)過(guò)色散形成的、分布在不同波長(zhǎng)下流量強(qiáng)度的序列。根據(jù)其吸收線、發(fā)射線的位置、強(qiáng)弱、寬度等性質(zhì),天文學(xué)家可以判斷天體的類別??梢哉f(shuō),天體光譜在一維坐標(biāo)系下的“樣子”決定了它的類別,這種“樣子”決定“類別”的任務(wù)天然適合于卷積神經(jīng)網(wǎng)絡(luò)。傳統(tǒng)的卷積神經(jīng)網(wǎng)絡(luò)預(yù)訓(xùn)練模型都是針對(duì)二維圖像數(shù)據(jù)構(gòu)建并訓(xùn)練得到的,并不適用于一維天體光譜數(shù)據(jù)。為此基于計(jì)算機(jī)視覺(jué)領(lǐng)域廣泛應(yīng)用的DenseNet網(wǎng)絡(luò)結(jié)構(gòu),針對(duì)光譜數(shù)據(jù)進(jìn)行修改,建立了適用光譜數(shù)據(jù)的一維卷積神經(jīng)網(wǎng)絡(luò)模型解決天體光譜數(shù)據(jù)分類任務(wù)。網(wǎng)絡(luò)模型結(jié)構(gòu)如圖1。網(wǎng)絡(luò)模型通過(guò)N+1個(gè)密集模塊(Dense Block)結(jié)構(gòu)依次連接,在密集模塊中采用密集型連接結(jié)構(gòu)解決深層網(wǎng)絡(luò)帶來(lái)的梯度彌散問(wèn)題。

      圖1 本文使用的深度神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)。藍(lán)色框中是密集模塊結(jié)構(gòu)。黃色框中是過(guò)渡模塊(Transition Block)結(jié)構(gòu)。輸入數(shù)據(jù)依次通過(guò)N+1個(gè)密集模塊并得到新的特征,最終輸出對(duì)輸入光譜的預(yù)測(cè)Fig.1 The structure of deep neural network in this paper.The blue box represented the Dense Block structure.The yellow box represented the Transition Block structure.The input data flowed through N+1 Dense Block in turn to generate new feature maps,and subsequently the prediction result was generated

      數(shù)據(jù)流的處理過(guò)程為,歸一化的光譜數(shù)據(jù)經(jīng)過(guò)卷積層后進(jìn)入密集模塊,經(jīng)過(guò)N+1次密集模塊特征提取得到高維特征圖,隨后對(duì)每個(gè)高維特征圖進(jìn)行全局平均,平均后的值再經(jīng)過(guò)全連接層輸出該光譜所屬類別的概率預(yù)測(cè)值。

      除最后一個(gè)密集模塊外,所有密集模塊后連接一個(gè)卷積層和一個(gè)池化層。二者的目的都是為了減少計(jì)算量,卷積層從數(shù)據(jù)維度上降低計(jì)算量,池化層從數(shù)據(jù)尺度上降低計(jì)算量,這兩層的連接記為過(guò)渡模塊。但是池化層通過(guò)將兩個(gè)相鄰的數(shù)據(jù)點(diǎn)平均成一個(gè)數(shù)據(jù)點(diǎn),將原始數(shù)據(jù)的尺度變成了原來(lái)的一半,使得不同尺度下密集模塊間不能再進(jìn)行密集型的連接。為了進(jìn)一步增強(qiáng)不同尺度下特征的聯(lián)系和重用,對(duì)原DenseNet結(jié)構(gòu)進(jìn)行改進(jìn),在兩個(gè)過(guò)渡模塊間增加了額外的過(guò)渡模塊跨層連接,如圖2。

      圖2 兩個(gè)過(guò)渡模塊間額外的過(guò)渡模塊。額外的過(guò)渡模塊進(jìn)一步增強(qiáng)了不同尺度下特征的聯(lián)系和重用Fig.2 Additional transition blocks between two transition blocks.Additional transition block enhances the connection and reuse of feature maps at different scales

      密集模塊通過(guò)卷積模塊(Conv Block)密集型連接構(gòu)成,如圖3。密集型連接使得在同一個(gè)密集模塊中,所有卷積層的輸入來(lái)源于前面所有層的輸出,加強(qiáng)了不同特征間的聯(lián)系,也緩解了深度神經(jīng)網(wǎng)絡(luò)在訓(xùn)練時(shí)遇到的梯度彌散問(wèn)題。試驗(yàn)中使用2個(gè)卷積模塊連接。更少的卷積模塊使分類精度下降,更多的卷積模塊不僅不會(huì)帶來(lái)更高的精度提升,而且使計(jì)算量急劇增加。

      卷積模塊作為具體的特征提取結(jié)構(gòu),需要對(duì)輸入數(shù)據(jù)進(jìn)行針對(duì)性的構(gòu)建。本文使用的天體光譜數(shù)據(jù)具有發(fā)射線、吸收線等物理特征,由于這些元素的譜線寬度、位置不確定,使用多個(gè)卷積步長(zhǎng)(1、11、25、41)的卷積層分別對(duì)輸入的數(shù)據(jù)進(jìn)行卷積,將得到的不同卷積尺度下的卷積結(jié)果合并到一起后,使用卷積步長(zhǎng)為1的卷積層進(jìn)行不同卷積尺度下的整合,如圖4,使得神經(jīng)網(wǎng)絡(luò)模型可以對(duì)元素譜線進(jìn)行更好的適應(yīng)與學(xué)習(xí)。其中批歸一化(Batch normalization)[6]-特征重標(biāo)定結(jié)構(gòu)(Squeeze-and-Excitation block)[7]-修正線性單元(Rectified Linear Unit)[8]依次連接的處理加在每一次卷積層前。批歸一化和修正線性單元都是為了進(jìn)一步緩解深度神經(jīng)網(wǎng)絡(luò)在訓(xùn)練時(shí)遇到的梯度彌散問(wèn)題。

      圖3 密集模塊Fig.3 Dense block

      卷積層前的特征重標(biāo)定結(jié)構(gòu)使神經(jīng)網(wǎng)絡(luò)模型對(duì)產(chǎn)生的新特征進(jìn)行再次選擇。這個(gè)選擇的過(guò)程通過(guò)對(duì)原始特征賦權(quán)重實(shí)現(xiàn)。通過(guò)學(xué)習(xí)的方式自動(dòng)獲取每個(gè)特征的重要程度,然后依照這個(gè)重要程度提升有用的特征,并抑制對(duì)光譜分類任務(wù)用處不大的特征。具體的實(shí)現(xiàn)方式如圖5。原始特征圖通過(guò)全局平局池化轉(zhuǎn)換為點(diǎn)向量,隨后通過(guò)全連接層,輸出每個(gè)特征圖對(duì)應(yīng)的權(quán)重,最后將原始特征圖與該權(quán)重相乘,輸出加權(quán)后的新特征圖。

      圖4 卷積模塊。合并多個(gè)卷積尺度(1、11、25、41)下的特征圖,并抽取新的特征Fig.4 Conv block.The new feature maps are generated by extracting merged feature maps which are convoluted from multiple scales(1, 11, 25 and 41)

      圖5 壓縮激勵(lì)模塊。原始特征圖通過(guò)全局平均池化和全連接后產(chǎn)生對(duì)應(yīng)的權(quán)重。原始特征與該權(quán)重相乘后輸出新的特征圖Fig.5 SE block.The feature maps generate corresponding weight through global average pooling and full connection.The new feature maps are generated by multiplying the original feature maps and the corresponding weight

      4 分類網(wǎng)絡(luò)模型訓(xùn)練

      4.1 數(shù)據(jù)歸一化

      由于不同天體視星等、曝光時(shí)間不同,觀測(cè)到的光譜流量差異巨大。為使分類網(wǎng)絡(luò)模型更加魯棒,能夠適應(yīng)不同流量差異,更快地學(xué)習(xí)各天體類別間的差異,對(duì)分類網(wǎng)絡(luò)的輸入數(shù)據(jù)進(jìn)行歸一化處理。如(1)式:

      其中,F(xiàn)為原始光譜流量數(shù)據(jù);Fmin和Fmax為原始光譜流量數(shù)據(jù)的最小值和最大值。光譜歸一化前后如圖6,圖6(a)是3條光譜歸一化前的流量可視化展示,圖6(b)是歸一化后的流量展示。歸一化前不同光譜的流量不在同一數(shù)量級(jí),歸一化后不同光譜的流量統(tǒng)一。歸一化有利于卷積神經(jīng)網(wǎng)絡(luò)更加快速地學(xué)習(xí)不同天體光譜間的特征差異,使神經(jīng)網(wǎng)絡(luò)關(guān)注的重點(diǎn)不包含流量因素。歸一化使神經(jīng)網(wǎng)絡(luò)的訓(xùn)練速度加快,精度提升。

      圖6 歸一化前后對(duì)比。(a)歸一化前的光譜;(b)歸一化后的光譜Fig.6 The specturm data before and after normalization.(a)The pre-normalized spectrum;(b)The normalized spectrum

      4.2 數(shù)據(jù)增強(qiáng)

      實(shí)驗(yàn)數(shù)據(jù)中恒星、星系和類星體3類天體所占比例為98.5∶1.2∶0.3,數(shù)據(jù)極度不平衡,恒星類型遠(yuǎn)多于其他兩類,如圖7。不平衡的數(shù)據(jù)使卷積神經(jīng)網(wǎng)絡(luò)的分類效果下降,數(shù)據(jù)擴(kuò)充是非常必要的。通過(guò)在星系、類星體數(shù)據(jù)上增加具有具體物理意義的噪聲進(jìn)行過(guò)采樣擴(kuò)充數(shù)據(jù),從而增加星系、類星體的比例;在恒星類型數(shù)據(jù)上進(jìn)行欠采樣,減少該類別的比例。通過(guò)數(shù)據(jù)擴(kuò)充,恒星、星系和類星體3類天體的比例平衡到1∶1∶1。

      在星系、類星體數(shù)據(jù)增加的噪聲是模擬天體光譜在產(chǎn)生過(guò)程中不可避免的噪聲情況。實(shí)驗(yàn)?zāi)M了3種噪聲:CCD電子噪聲、CCD壞像元和宇宙高能射線。

      4.2.1 CCD電子噪聲

      天體光譜最終的接收端是CCD相機(jī)。來(lái)自遙遠(yuǎn)天體的光經(jīng)過(guò)色散后被CCD相機(jī)接收,通過(guò)光電效應(yīng)產(chǎn)生電子,光子信息以電子的形式被記錄下來(lái)。由于CCD相機(jī)在工作時(shí)產(chǎn)生的電子也會(huì)被自身接收,從而天體光譜產(chǎn)生的電子與CCD自身的電子同時(shí)被CCD當(dāng)做光子信息記錄,由此產(chǎn)生CCD電子噪聲。CCD工作帶來(lái)的電子噪聲在信噪比越低時(shí)越明顯。通過(guò)生成一個(gè)2 600列的高斯隨機(jī)數(shù)模擬CCD電子噪聲,隨后加在歸一化后的天體光譜上進(jìn)行過(guò)采樣擴(kuò)充數(shù)據(jù)。增加模擬CCD電子噪聲前后的光譜可視化如圖8。第1、2、3列展示了隨機(jī)選取的恒星、星系、類星體天體類型光譜,第1、2行分別展示了對(duì)應(yīng)的天體類型的原始光譜和模擬CCD電子噪聲后的光譜。

      圖7 原始數(shù)據(jù)中恒星、星系和類星體數(shù)量占比Fig.7 The proportion of stars,galaxies and quasars in raw data

      圖8 原始數(shù)據(jù)與增強(qiáng)后數(shù)據(jù)的可視化結(jié)果。第1、2、3列表示隨機(jī)選取的恒星、星系、類星體天體類型光譜。第1行為原始光譜,第2行為模擬CCD電子噪聲后的光譜,第3行為模擬CCD壞像元后的光譜,第4行為模擬宇宙高能射線后的光譜,第5行為依次模擬CCD電子噪聲、宇宙高能射線、CCD壞像元后的光譜Fig.8 Visualization of raw data and augmented data.Columns 1, 2 and 3 represent the spectra of randomly selected stars,galaxies and quasars, respectively.Rows 1, 2, 3, 4 and 5 represent the original spectrum, the spectrum adding the electronic noise of CCD,the spectrum adding the bad pixels of CCD, the spectrum adding the cosmic high-energy ray,and the spectrum adding the electronic noise of CCD,the cosmic high-energy ray and the bad pixels of CCD,respectively

      4.2.2 CCD壞像元

      CCD相機(jī)的接收端難免出現(xiàn)故障,導(dǎo)致接收不到任何強(qiáng)度的光子信息。在光譜上的表現(xiàn)為某一波段的流量強(qiáng)度為0。雖然實(shí)際情況下,這種存在壞像元影響的光譜極少,但為了擴(kuò)充數(shù)據(jù),并使分類模型具有更強(qiáng)的泛化性和魯棒性,通過(guò)將歸一化后的光譜中某一隨機(jī)波段、隨機(jī)長(zhǎng)度的流量置為0模仿CCD壞像元。增加模擬CCD壞像元前后的光譜可視化如圖8。第1、2、3列展示了隨機(jī)選取的恒星、星系、類星體天體類型光譜,第1、3行分別展示了對(duì)應(yīng)的天體類型的原始光譜和模擬CCD壞像元后的光譜。

      4.2.3 宇宙高能射線

      在CCD相機(jī)接收光譜信息的同時(shí),宇宙中的高能射線有幾率直接打在CCD相機(jī)的接收端,使得某一隨機(jī)波長(zhǎng)處的流量強(qiáng)度極高。同樣的,宇宙高能射線對(duì)光譜數(shù)據(jù)造成干擾的情況不多,但為了擴(kuò)充數(shù)據(jù)和增加分類模型的泛化性和魯棒性,通過(guò)將歸一化后的光譜中某一隨機(jī)波長(zhǎng)處的流量置為1模仿宇宙高能射線。增加模仿宇宙高能射線前后的光譜可視化如圖8。第1、2、3列展示了隨機(jī)選取的恒星、星系、類星體天體類型光譜,第1、4行分別展示了對(duì)應(yīng)的天體類型的原始光譜和模擬宇宙高能射線后的光譜。

      4.2.4 綜合增強(qiáng)

      在光譜數(shù)據(jù)的實(shí)際產(chǎn)生過(guò)程中,CCD電子噪聲、CCD壞像元和宇宙高能射線的影響同時(shí)存在。為了使擴(kuò)充的數(shù)據(jù)更加貼近真實(shí)情況,對(duì)光譜數(shù)據(jù)同時(shí)增加這3種噪聲的模擬。順序依次是:原始光譜->模擬CCD電子噪聲->模擬宇宙高能射線->模擬CCD壞像元。綜合考慮這3種噪聲前后的光譜可視化如圖8。第1、2、3列展示了隨機(jī)選取的恒星、星系、類星體天體類型光譜,第1、5行分別展示了對(duì)應(yīng)的天體類型的原始光譜和依次模擬了CCD電子噪聲、宇宙高能射線、CCD壞像元后的光譜。

      4.3 模型訓(xùn)練

      在訓(xùn)練卷積神經(jīng)網(wǎng)絡(luò)時(shí)使用亞當(dāng)(Adam)優(yōu)化器更新網(wǎng)絡(luò)權(quán)重[9],使用交叉熵作為目標(biāo)損失函數(shù)(Loss)。卷積神經(jīng)網(wǎng)絡(luò)中所有卷積層權(quán)重采用He式均勻方差縮放初始化(He Uniform Variance Scaling Initializer)[10]。神經(jīng)網(wǎng)絡(luò)共迭代訓(xùn)練60次,初始學(xué)習(xí)率設(shè)置為0.01,分別在第10、30、50次時(shí)減小到初始學(xué)習(xí)率的十分之一。訓(xùn)練過(guò)程如圖9,訓(xùn)練的前10次,由于學(xué)習(xí)率很大,驗(yàn)證集上的目標(biāo)損失函數(shù)很不穩(wěn)定。隨著學(xué)習(xí)率的減小和訓(xùn)練的增加,訓(xùn)練集和測(cè)試集上的目標(biāo)損失函數(shù)都趨于穩(wěn)定,并且慢慢變小。30次訓(xùn)練后驗(yàn)證集目標(biāo)損失函數(shù)幾乎不再下降。為了防止過(guò)擬合,最終保留訓(xùn)練了35次的權(quán)重作為最終的模型。

      圖9 模型訓(xùn)練過(guò)程中目標(biāo)損失函數(shù)的變化Fig.9 Loss change progress during model training

      5 分類網(wǎng)絡(luò)模型結(jié)果與關(guān)注區(qū)域可視化

      將驗(yàn)證集數(shù)據(jù)在訓(xùn)練好的卷積神經(jīng)網(wǎng)絡(luò)上進(jìn)行結(jié)果測(cè)試。驗(yàn)證集數(shù)據(jù)共89 877條,恒星、星系和類星體數(shù)量占比與原始數(shù)據(jù)一致。

      5.1 各類別F1分?jǐn)?shù)及混淆矩陣

      構(gòu)建的卷積神經(jīng)網(wǎng)絡(luò)在驗(yàn)證數(shù)據(jù)進(jìn)行分類,分類結(jié)果與驗(yàn)證數(shù)據(jù)的真實(shí)標(biāo)簽對(duì)比得到每一類的精確率、召回率和F1分?jǐn)?shù),如表1,混淆矩陣如表2。恒星類別天體光譜具有更強(qiáng)的特征,得到的恒星類別的精確率、召回率和F1分?jǐn)?shù)均最高,F(xiàn)1分?jǐn)?shù)達(dá)到了0.998 7。星系與類星體的F1分?jǐn)?shù)相近,但星系類型的召回率更高,類星體類型的精確率更高。

      表1 驗(yàn)證數(shù)據(jù)集上的精確率、召回率和F1分?jǐn)?shù)Table 1 Precision,recall and F1-score on validation data set

      表2 驗(yàn)證數(shù)據(jù)集上的混淆矩陣Table 2 Confusion matrix on validation data set

      從混淆矩陣可以看出,恒星類型預(yù)測(cè)錯(cuò)誤的光譜中,160條預(yù)測(cè)成了星系,18條預(yù)測(cè)成了類星體,星系占比89.89%,類星體占比10.11%。星系類型預(yù)測(cè)錯(cuò)誤的光譜中,25條預(yù)測(cè)成了恒星,3條預(yù)測(cè)成了類星體,恒星占比89.29%,類星體占比10.71%。類星體類型預(yù)測(cè)錯(cuò)誤的光譜中,20條預(yù)測(cè)成恒星,6條預(yù)測(cè)成星系,恒星占比76.92%,星系占比23.08%。對(duì)于本文的卷積神經(jīng)網(wǎng)絡(luò),同時(shí)考慮恒星、星系和類星體3種類型,恒星和星系具有更高的相似性。在類星體與恒星、星系相似性的比較中,類星體與恒星更加相似。

      將本文模型的分類效果與傳統(tǒng)機(jī)器神經(jīng)網(wǎng)絡(luò)方法、深度信念網(wǎng)絡(luò)[3]和未改進(jìn)的DenseNet[4]分類效果進(jìn)行了對(duì)比,恒星、星系、類星體的平均指標(biāo)如表3。傳統(tǒng)神經(jīng)網(wǎng)絡(luò)出現(xiàn)了欠擬合問(wèn)題,精確率、召回率和F1分?jǐn)?shù)都顯著低于其它方法,正是由于深層網(wǎng)絡(luò)的梯度彌散或梯度爆炸所致。深度信念網(wǎng)絡(luò)和DenseNet不同程度地解決了梯度彌散或梯度爆炸問(wèn)題,精確率、召回率和F1分?jǐn)?shù)有了明顯提升。本文方法在DenseNet基礎(chǔ)上進(jìn)一步提升了各方面指標(biāo)。

      表3 驗(yàn)證數(shù)據(jù)集上各方法平均分類指標(biāo)Table 3 Average precision,recall and F1-score of various methods on validation data set

      5.2 關(guān)注區(qū)域可視化

      卷積神經(jīng)網(wǎng)絡(luò)擬合的光譜數(shù)據(jù)與天體類型間的關(guān)系是自主學(xué)習(xí)的,而天體類別是根據(jù)其物理意義進(jìn)行劃分的。希望神經(jīng)網(wǎng)絡(luò)自主學(xué)習(xí)到天體反映在光譜上具有物理意義的譜線特征,這樣的神經(jīng)網(wǎng)絡(luò)具有更高的可解釋性。為了檢驗(yàn)本文訓(xùn)練得到的模型是否真正學(xué)到了可以反映天體類型的特征譜線,使用類激活映射(Class Activation Mapping[11],CAM)方法對(duì)神經(jīng)網(wǎng)絡(luò)模型在預(yù)測(cè)分類時(shí)關(guān)注的重點(diǎn)區(qū)域進(jìn)行了可視化。CAM是一種神經(jīng)網(wǎng)絡(luò)關(guān)注區(qū)域可視化方法,如圖10,具體流程為:(1)獲取神經(jīng)網(wǎng)絡(luò)預(yù)測(cè)類別C;(2)獲取全局池化后全連接層到類別C的權(quán)重w;(3)使用權(quán)重w加權(quán)求和全局池化前的所有特征圖,得到求和后的特征圖M;(4)歸一化M并插值到原圖大小。

      圖10 類激活映射Fig.10 Class activation mapping

      隨機(jī)選擇分類正確的恒星、星系、類星體和分類錯(cuò)誤的光譜,將神經(jīng)網(wǎng)絡(luò)在不同波段處關(guān)注的強(qiáng)弱展示在原始光譜上,如圖11。第1~3行分別展示了2條隨機(jī)選擇的分類正確的恒星、星系和類星體光譜及神經(jīng)網(wǎng)絡(luò)關(guān)注的區(qū)域,第4~5行展示了分類錯(cuò)誤的光譜及神經(jīng)網(wǎng)絡(luò)關(guān)注的區(qū)域。光譜中越黃、越亮的波段,代表神經(jīng)網(wǎng)絡(luò)更加關(guān)注這些區(qū)域在分類時(shí)的貢獻(xiàn);越藍(lán)、越暗的波段,代表神經(jīng)網(wǎng)絡(luò)更加忽視這些區(qū)域在分類時(shí)的貢獻(xiàn)。恒星與星系、類星體在光譜上的顯著差異,使其具有較強(qiáng)的氫元素的吸收線,這也是恒星大氣相對(duì)于星系、類星體獨(dú)有的特點(diǎn)。神經(jīng)網(wǎng)絡(luò)在對(duì)第1行的兩條恒星光譜分類時(shí),重點(diǎn)關(guān)注了氫元素的吸收線,和物理規(guī)律是一致的。神經(jīng)網(wǎng)絡(luò)在對(duì)第2~3行的星系、類星體分類時(shí),即使存在一定紅移,模型也重點(diǎn)關(guān)注了特定元素的發(fā)射線、發(fā)射帶。神經(jīng)網(wǎng)絡(luò)在對(duì)第4~5行錯(cuò)誤分類時(shí)關(guān)注區(qū)域相對(duì)彌散,關(guān)鍵的特征譜線因?yàn)樾旁氡鹊偷仍蛟诠庾V中不顯著,神經(jīng)網(wǎng)絡(luò)找不到關(guān)鍵的特征譜線。本文訓(xùn)練的神經(jīng)網(wǎng)絡(luò)模型在進(jìn)行分類時(shí),可以定位到具有具體物理意義的特征譜線。對(duì)于分類結(jié)果,該模型具有更強(qiáng)的可解釋性。

      6 總 結(jié)

      本文基于在計(jì)算機(jī)視覺(jué)領(lǐng)域廣泛應(yīng)用的DenseNet網(wǎng)絡(luò)結(jié)構(gòu),針對(duì)光譜數(shù)據(jù)進(jìn)行修改,建立了適用光譜數(shù)據(jù)的一維卷積神經(jīng)網(wǎng)絡(luò)模型解決天體光譜數(shù)據(jù)分類問(wèn)題。通過(guò)模擬CCD電子噪聲、CCD壞像元和宇宙高能射線平衡數(shù)據(jù)中不同天體類型的數(shù)量。本文的卷積神經(jīng)網(wǎng)絡(luò)模型在隨機(jī)選取的89 877條光譜測(cè)試中,恒星、星系、類星體的F1分?jǐn)?shù)分別為0.998 7、0.912 7、0.914 7。為了檢驗(yàn)該卷積神經(jīng)網(wǎng)絡(luò)模型的可解釋性,對(duì)神經(jīng)網(wǎng)絡(luò)模型在分類時(shí)關(guān)注的區(qū)域進(jìn)行可視化,結(jié)果表明,本文的卷積神經(jīng)網(wǎng)絡(luò)可以自主學(xué)習(xí)到各類天體對(duì)應(yīng)的特征譜線,具有較強(qiáng)的可解釋性。本方法被用于阿里云天池天文數(shù)據(jù)挖掘大賽——天體光譜智能分類,并在843支參賽隊(duì)伍的3次數(shù)據(jù)評(píng)比中獲得了2次第一、1次第三的成績(jī),證明該模型在保證分類精度的同時(shí),具有極強(qiáng)的魯棒性、泛化性,適用于光譜的自動(dòng)分類。

      圖11 關(guān)注區(qū)域可視化Fig.11 The visualization results of the regions of interest

      致謝:感謝中國(guó)虛擬天文臺(tái)提供的數(shù)據(jù)資源和技術(shù)支持。感謝國(guó)家天文臺(tái)-阿里云天文大數(shù)據(jù)聯(lián)合研究中心、阿里云天池大數(shù)據(jù)眾智平臺(tái)對(duì)本文工作的支持。

      猜你喜歡
      類星體星系天體
      跟著星系深呼吸
      迄今發(fā)現(xiàn)的最大星系
      軍事文摘(2022年10期)2022-06-15 02:29:38
      太陽(yáng)系中的小天體
      太空探索(2020年10期)2020-10-22 03:59:40
      類星體的精準(zhǔn)測(cè)距
      科學(xué)(2020年3期)2020-01-06 04:02:51
      測(cè)量遙遠(yuǎn)天體的秘籍
      一分鐘認(rèn)識(shí)深空天體
      星系大碰撞
      地外星系
      太空探索(2016年1期)2016-07-12 09:55:58
      黑洞的透射效應(yīng)和類星體的光度
      河南科技(2015年8期)2015-03-11 16:24:18
      新天體類型罕見(jiàn)
      德江县| 昌平区| 太和县| 山东省| 北京市| 板桥市| 玉溪市| 梁山县| 高邑县| 铜陵市| 泸水县| 城口县| 怀集县| 元阳县| 通化市| 奈曼旗| 永昌县| 怀远县| 双城市| 沂南县| 云龙县| 汝州市| 丰原市| 丰县| 肇州县| 谷城县| 邳州市| 怀远县| 汉沽区| 滨州市| 乌海市| 兴仁县| 东丰县| 新郑市| 阿鲁科尔沁旗| 新野县| 信丰县| 休宁县| 天峻县| 凤阳县| 酒泉市|