• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      一種星系形態(tài)分類(lèi)的新方法

      2022-07-18 00:56:48王林倩羅阿理逯亞坤郭小雨
      天文研究與技術(shù) 2022年4期
      關(guān)鍵詞:星系透鏡準(zhǔn)確率

      王林倩,邱 波*,羅阿理,孔 嘯,逯亞坤,郭小雨

      (1. 河北工業(yè)大學(xué),天津 300401;2. 中國(guó)科學(xué)院國(guó)家天文臺(tái),北京 100101)

      隨著天文觀測(cè)儀器的發(fā)展和觀測(cè)技術(shù)的進(jìn)步,大型數(shù)字巡天計(jì)劃如斯隆數(shù)字巡天(Sloan Digital Sky Survey, SDSS)[1],COSMOS巡天(Cosmic Evolution Survey, COSMOS)[2],大口徑全天巡視望遠(yuǎn)鏡(Large Synoptic Survey Telescope, LSST)[3]等逐步實(shí)施,星系觀測(cè)數(shù)據(jù)呈現(xiàn)爆炸式增長(zhǎng)的趨勢(shì)。

      星系是眾多天體中的一類(lèi),主要由恒星、恒星遺骸、星際氣體、塵埃和暗物質(zhì)等組成,并受引力綁定。星系的形態(tài)與星系的形成、演化有著密切的聯(lián)系,是探究星系物理的重要參數(shù)。隨著機(jī)器學(xué)習(xí)和深度學(xué)習(xí)在各個(gè)領(lǐng)域的應(yīng)用,星系形態(tài)的自動(dòng)分類(lèi)方法也迅速發(fā)展。文[4]用多個(gè)支持向量機(jī)(Support Vector Machine, SVM)對(duì)星系形態(tài)進(jìn)行螺旋星系、橢圓星系和不規(guī)則星系的分類(lèi),最高分類(lèi)準(zhǔn)確率為96.8%。文[5]以5萬(wàn)多幅星系圖片為訓(xùn)練集,經(jīng)過(guò)100多次的嘗試,首次提出用卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行模型訓(xùn)練,最終以均方根為0.074 92獲得了 “銀河動(dòng)物園挑戰(zhàn)賽” 的冠軍。文[6]利用SDSS DR12中17 344幅恒星和47 656幅星系圖像,提出一個(gè)類(lèi)似視覺(jué)幾何組(Visual Geometry Group, VGG)的11層深度卷積神經(jīng)網(wǎng)絡(luò),實(shí)現(xiàn)了對(duì)恒星、星系的分類(lèi),測(cè)試集的準(zhǔn)確率分別達(dá)到99.52%和99.48%。文[7]對(duì)來(lái)自EFIGI目錄的旋渦星系、橢圓星系、透鏡星系和不規(guī)則星系進(jìn)行分類(lèi),提取星系圖像的顏色特征、紋理特征和形狀特征,并用二進(jìn)制正弦余弦算法選擇最相關(guān)的特征,最后用K最鄰近(K-Nearest Neighbor, KNN)方法對(duì)4類(lèi)星系分類(lèi)的準(zhǔn)確率分別為97.43%,100%,79.48%和100%,平均分類(lèi)準(zhǔn)確率為94.2%。文[8]提出了一種星系形態(tài)的分類(lèi)網(wǎng)絡(luò)daMCOGCNN,該方法對(duì)不規(guī)則星系進(jìn)行了數(shù)據(jù)增強(qiáng),使用不同的激活函數(shù)構(gòu)建卷積神經(jīng)網(wǎng)絡(luò),橢圓星系、旋渦星系和不規(guī)則星系分類(lèi)準(zhǔn)確率達(dá)到97%。文[9]結(jié)合數(shù)據(jù)增強(qiáng)技術(shù)和深度學(xué)習(xí)方法實(shí)現(xiàn)了對(duì)透鏡星系、橢圓星系和旋渦星系的分類(lèi),此模型的分類(lèi)準(zhǔn)確率達(dá)到90.2%,驗(yàn)證準(zhǔn)確率達(dá)到88.3%。文[10]提取星系圖像的非冗余色彩特征,并提出一種尋找最優(yōu)特征子集的方法,最后利用極端機(jī)器學(xué)習(xí)(Extreme Machine Learning, EML)對(duì)橢圓星系、旋渦星系、透鏡星系和不規(guī)則星系進(jìn)行分類(lèi),總體分類(lèi)準(zhǔn)確率達(dá)到98%。

      然而,目前對(duì)于星系形態(tài)分類(lèi)研究領(lǐng)域還存在分類(lèi)類(lèi)別少、分類(lèi)樣本類(lèi)間比例失衡等問(wèn)題,此前研究多是對(duì)橢圓星系、渦旋星系、透鏡星系進(jìn)行二分類(lèi)或三分類(lèi)。面對(duì)更多類(lèi)型的星系形態(tài)數(shù)據(jù),當(dāng)前的分類(lèi)方法準(zhǔn)確率比較低,因此迫切需要一種能準(zhǔn)確區(qū)分更多星系形態(tài)的方法。我們的目標(biāo)是找到一種方法能夠?qū)崿F(xiàn)旋渦星系、橢圓星系、透鏡星系以及不規(guī)則星系自動(dòng)分類(lèi),甚至可以實(shí)現(xiàn)不同數(shù)據(jù)庫(kù)中4類(lèi)不同形態(tài)星系的自動(dòng)分類(lèi)。如圖1,本文對(duì)來(lái)自不同數(shù)據(jù)庫(kù)中的星系圖像進(jìn)行裁剪和下采樣,從而剔除質(zhì)量差的數(shù)據(jù),同時(shí)對(duì)數(shù)據(jù)進(jìn)行去噪和增強(qiáng),減小圖像噪聲和樣本類(lèi)間比例失衡對(duì)分類(lèi)模型的影響。之后我們提出了一種更高效的星系形態(tài)自動(dòng)分類(lèi)網(wǎng)絡(luò)GMC-net,回避了圖像特征提取和選擇、分類(lèi)器選擇這些難題,從而實(shí)現(xiàn)了4類(lèi)不同形態(tài)星系的高效分類(lèi)。

      圖1 星系形態(tài)分類(lèi)整體流程圖

      1 數(shù) 據(jù)

      本文主要使用SDSS DR16,Galaxy Zoo2和EFIGI目錄的數(shù)據(jù)。3個(gè)數(shù)據(jù)庫(kù)的測(cè)光數(shù)據(jù)都來(lái)源于斯隆數(shù)字巡天[11]。斯隆數(shù)字巡天得到的原始數(shù)據(jù)為u,g,r,i和z波段數(shù)據(jù),但u和z波段多是近紫外和近紅外波段,且包含的有用信息非常少。g,r和i波段數(shù)據(jù)已經(jīng)足夠還原比較真實(shí)的星系圖像,所以當(dāng)前相關(guān)研究一般采用g,r和i波段數(shù)據(jù)合成的圖像[12-13]。

      1.1 數(shù)據(jù)獲取

      EFIGI目錄[14]中的測(cè)光和光譜數(shù)據(jù)是從SDSS DR5目錄獲得的,目錄中星系按形態(tài)主要分為橢圓形、透鏡狀、旋渦形、不規(guī)則形和矮形(Dwarf),這5類(lèi)又分為不同的子類(lèi)。利用星系形態(tài)參數(shù)T(T∈[-6, 11],T為整數(shù),分別代表不同形態(tài)星系的類(lèi)型)可以篩選不同形態(tài)的星系,表1展示了各類(lèi)星系的選擇標(biāo)準(zhǔn),最終從EFIGI目錄獲得920幅旋渦星系、289幅橢圓星系、531幅透鏡星系和248幅不規(guī)則星系的圖像。

      星系動(dòng)物園(Galaxy Zoo2)[15]包括11個(gè)任務(wù)和37個(gè)響應(yīng),同一個(gè)樣本超過(guò)20人對(duì)其分類(lèi)才會(huì)統(tǒng)計(jì),文[15]給出每個(gè)分類(lèi)任務(wù)干凈樣本閾值范圍以及11個(gè)具體分類(lèi)任務(wù),為保證所選樣本更準(zhǔn)確,此次設(shè)置的閾值均大于建議閾值,表1注釋部分對(duì)各個(gè)參數(shù)閾值設(shè)置進(jìn)行了詳細(xì)解釋?zhuān)罱K在Galaxy Zoo2獲得3 095幅旋渦星系、4 208幅橢圓星系、1 805幅透鏡星系以及235幅不規(guī)則星系。

      本文采用最新發(fā)布的SDSS DR16[16]測(cè)光數(shù)據(jù),該數(shù)據(jù)星表可以在CasJobs[17]中通過(guò)星系specObjID與Galaxy星表交叉得到相應(yīng)星系的赤經(jīng)和赤緯。除了表1所述的主要查詢標(biāo)準(zhǔn)限制,還有如下設(shè)置:所有圖像設(shè)置紅移下限為0.001、紅移上限為0.025,通量下限為50、通量上限為500及0.01的圖像縮放因子,設(shè)置提取前2 000個(gè)數(shù)據(jù)。目前不規(guī)則星系物理?xiàng)l件的限制未知,因此未得到不規(guī)則星系。DR16中各類(lèi)星系數(shù)量分布不均,在此人工篩選去除了雙重的、合并的以及包含許多未知對(duì)象的圖像,最終得到913幅旋渦星系、1 956幅橢圓星系和805幅透鏡星系的圖像。

      表1 星系數(shù)據(jù)選擇標(biāo)準(zhǔn)

      1.2 星系圖像預(yù)處理

      卷積神經(jīng)網(wǎng)絡(luò)對(duì)尺寸小的數(shù)據(jù)學(xué)習(xí)能力更強(qiáng),且訓(xùn)練速度快[18]。為了減小圖像中存在的不必要相鄰信息對(duì)實(shí)驗(yàn)結(jié)果的影響,我們首先對(duì)星系數(shù)據(jù)進(jìn)行剪裁并下采樣[19]。以透鏡星系為例,如圖2,424 × 424 pixel的圖像剪裁成164 × 164 pixel,之后將圖像下采樣到80 × 80 pixel。

      圖2 星系剪裁及下采樣

      圖像在相機(jī)捕捉、信息傳輸、數(shù)字圖像轉(zhuǎn)化等過(guò)程中存在噪聲干擾,噪聲的疊加嚴(yán)重影響圖像質(zhì)量,進(jìn)而導(dǎo)致圖像的本質(zhì)特征發(fā)生改變。對(duì)星系形態(tài)進(jìn)行分類(lèi)時(shí),保存圖像中星系的外形輪廓和紋理信息至關(guān)重要,所以本文對(duì)圖像采用邊緣導(dǎo)向的非局部均值去噪方法[20]。首先,對(duì)圖像采用二階差分索貝爾(Sobel)算子抽取邊緣;其次,將邊緣信息與原有的噪聲圖像共同構(gòu)建一個(gè)非局部協(xié)同濾波框架;最后,將邊緣信息參與噪聲圖像的修復(fù)。去噪效果如圖3,由圖3可以看出,去噪之后星系周?chē)脑肼朁c(diǎn)消失,且圖像有了更多、更明顯的邊緣紋理信息。

      圖3 圖像去噪效果

      數(shù)據(jù)集中不規(guī)則星系和透鏡星系的數(shù)量相對(duì)較少,數(shù)據(jù)集的類(lèi)間比例失衡會(huì)影響模型的可靠性。所以本文采用數(shù)據(jù)增強(qiáng)的方法增加不規(guī)則星系和透鏡星系的個(gè)數(shù)。數(shù)據(jù)增強(qiáng)效果如圖4,數(shù)據(jù)增強(qiáng)方式為[21]

      圖4 數(shù)據(jù)增強(qiáng)效果

      旋轉(zhuǎn):星系圖像具有旋轉(zhuǎn)不變性,利用圖像的這一性質(zhì)對(duì)圖像進(jìn)行隨機(jī)旋轉(zhuǎn),旋轉(zhuǎn)范圍設(shè)置為30°;

      縮放:縮放范圍為0.7~1.3倍;

      翻轉(zhuǎn):沿著垂直軸和水平軸隨機(jī)翻轉(zhuǎn)每幅圖像;

      平移:圖像中的對(duì)象可能不在幀中心,并且在不同方向有偏移,我們對(duì)每幅圖像進(jìn)行水平和垂直隨機(jī)平移,平移范圍為0~10像素。

      2 分類(lèi)網(wǎng)絡(luò)介紹

      2.1 GMC-net網(wǎng)絡(luò)構(gòu)架

      如圖5,典型的ConvNet[22]由輸入層、卷積層、池化層、全連接層和輸出層構(gòu)成。輸入層主要預(yù)處理初始化數(shù)據(jù),卷積層主要進(jìn)行特征提取,池化層主要進(jìn)行特征壓縮來(lái)減小過(guò)擬合,全連接層主要起到分類(lèi)器的作用。

      圖5 卷積神經(jīng)網(wǎng)絡(luò)通用結(jié)構(gòu)

      本文受Lenet5網(wǎng)絡(luò)參數(shù)量少易訓(xùn)練的啟發(fā),結(jié)合不同激活函數(shù)和批量標(biāo)準(zhǔn)化(Batch Normalization, BN)層的特點(diǎn),搭建了GMC-net網(wǎng)絡(luò)。該網(wǎng)絡(luò)不僅訓(xùn)練的參數(shù)量少,還因批量標(biāo)準(zhǔn)化層的加入大大提高了網(wǎng)絡(luò)的收斂速度,獲得了很高的分類(lèi)準(zhǔn)確率。

      圖6是GMC-net整體構(gòu)架圖,該網(wǎng)絡(luò)有1個(gè)輸入層、5個(gè)卷積層、1個(gè)全連接層和1個(gè)輸出層。表2是對(duì)GMC-net構(gòu)架中各層的參數(shù)設(shè)置。GMC-net網(wǎng)絡(luò)的卷積層后都有1個(gè)批量標(biāo)準(zhǔn)化層和最大池化層。批量標(biāo)準(zhǔn)化層可以加快收斂速度和訓(xùn)練速度,池化層對(duì)卷積得到的特征進(jìn)行特征壓縮來(lái)減小過(guò)擬合。此外,GMC-net網(wǎng)絡(luò)采用不同的激活函數(shù)相互協(xié)調(diào):為更好輸入到下一層,前兩層使用雙曲正切激活函數(shù)(Tanh)[23];為使模型的收斂速度穩(wěn)定、計(jì)算速度更快,中間第3和第4卷積層使用修正線性單元ReLU(Rectified linear unit)激活函數(shù)[24];為抑制神經(jīng)元死亡,第5卷積層采用Leaky ReLU激活函數(shù)[25]。經(jīng)過(guò)第5卷積層之后的特征由Flatten()函數(shù)展開(kāi)為一維數(shù)組,并輸入第1全連接層,此處使用的激活函數(shù)為ReLU,輸出為1 600。由于該網(wǎng)絡(luò)是四分類(lèi)模型,所以輸出層的神經(jīng)元設(shè)置為4,激活函數(shù)為softmax。

      表2 GMC-net體系結(jié)構(gòu)概述

      圖6 GMC-net整體構(gòu)架

      2.2 其他分類(lèi)網(wǎng)絡(luò)介紹

      本文還用了文[5]提出的卷積神經(jīng)網(wǎng)絡(luò)、文[22]提出的AlexNet網(wǎng)絡(luò)、文[12]提出的ResNet-26網(wǎng)絡(luò)以及文[13]針對(duì)星系形態(tài)分類(lèi)提出的C2分類(lèi)網(wǎng)絡(luò)。

      表3分別對(duì)Dieleman網(wǎng)絡(luò)、AlexNet網(wǎng)絡(luò)、ResNet-26網(wǎng)絡(luò)以及C2網(wǎng)絡(luò)的整體結(jié)構(gòu)進(jìn)行了簡(jiǎn)單介紹,構(gòu)架圖中可以清楚地看到整體網(wǎng)絡(luò)的層數(shù)、每層所在的位置、每層濾波器數(shù)量及大小的設(shè)置參數(shù)、所用池化層的池化方式以及Dropout層的丟棄率等。此外4個(gè)分類(lèi)網(wǎng)絡(luò)所有的卷積層采用ReLU激活函數(shù)。

      表3 其他分類(lèi)網(wǎng)絡(luò)簡(jiǎn)介

      3 實(shí)驗(yàn)結(jié)果分析及討論

      在本節(jié)中,我們首先介紹評(píng)估模型的性能指標(biāo),之后用不同網(wǎng)絡(luò)對(duì)星系數(shù)據(jù)進(jìn)行分類(lèi)并與類(lèi)似的研究進(jìn)行對(duì)比。

      3.1 評(píng)價(jià)指標(biāo)參數(shù)

      我們通過(guò)混淆矩陣(如表4)可以求得衡量分類(lèi)模型的性能指標(biāo):準(zhǔn)確率、精確率、召回率以及F1分?jǐn)?shù)調(diào)和值。

      表4 混淆矩陣

      準(zhǔn)確率(Accuracy)反映分類(lèi)模型所有判斷正確的結(jié)果占總觀測(cè)值的比重;精確率(Precision)是模型預(yù)測(cè)為陽(yáng)性的所有結(jié)果中,預(yù)測(cè)正確的比重;召回率(Recall)是在真實(shí)值為陽(yáng)性的所有結(jié)果中,預(yù)測(cè)正確的比重;F1分?jǐn)?shù)是精確率和召回率的調(diào)和平均數(shù)。準(zhǔn)確率、精確率、召回率及F1分?jǐn)?shù)的計(jì)算公式分別為

      (1)

      (2)

      (3)

      (4)

      3.2 訓(xùn)練和驗(yàn)證

      本文的程序采用Python編寫(xiě),運(yùn)行在2.80 GHz Intel(R)Core(TM)i9-10900F CPU,16 GB內(nèi)存和64位Windows系統(tǒng)的桌面上,并使用RTX 2070 super GPU加速計(jì)算。在模型訓(xùn)練過(guò)程中,由于批量大小取決于數(shù)據(jù)集大小以及圖形處理器的能力,綜合考慮我們將批量大小設(shè)置為64。

      本文首先對(duì)綜合數(shù)據(jù)集中(Galaxy Zoo2, SDSS DR16和EFIGI目錄)的4種不同形態(tài)星系進(jìn)行分類(lèi)測(cè)試。在模型訓(xùn)練開(kāi)始前,首先將數(shù)據(jù)集按7.5∶2.5分為訓(xùn)練集和驗(yàn)證集,并對(duì)兩者分別進(jìn)行數(shù)據(jù)增強(qiáng),最終數(shù)據(jù)集構(gòu)成如表5。

      表5中的數(shù)據(jù)集1(Data set 1)是來(lái)自SDSS DR16,Galaxy Zoo2和EFIGI目錄的綜合數(shù)據(jù)集。由于表1中透鏡星系和不規(guī)則星系數(shù)量相對(duì)其他兩類(lèi)較少,為減少類(lèi)間比例失衡問(wèn)題對(duì)分類(lèi)模型的影響,對(duì)透鏡星系和不規(guī)則星系進(jìn)行數(shù)據(jù)增強(qiáng)。數(shù)據(jù)集2(Data set 2)是EFIGI目錄單獨(dú)構(gòu)成的數(shù)據(jù)集,原始數(shù)據(jù)為920幅旋渦星系、289幅橢圓星系、531幅透鏡星系和248幅不規(guī)則星系,為保持各類(lèi)形態(tài)星系類(lèi)間比例均衡,對(duì)每類(lèi)星系也進(jìn)行了不同程度的數(shù)據(jù)增強(qiáng)。最終數(shù)據(jù)集1中16 572幅圖像作為訓(xùn)練集,5 522幅圖像作為測(cè)試集;數(shù)據(jù)集2中4 037幅圖像作為訓(xùn)練集,1 226幅圖像作為測(cè)試集。

      表5 數(shù)據(jù)集信息

      在訓(xùn)練及驗(yàn)證過(guò)程中,我們對(duì)GMC_net網(wǎng)絡(luò)、C2網(wǎng)絡(luò)、AlexNet網(wǎng)絡(luò)和Dieleman網(wǎng)絡(luò)以及ResNet-26網(wǎng)絡(luò)的可訓(xùn)練參數(shù)量進(jìn)行了統(tǒng)計(jì),如圖7。

      網(wǎng)絡(luò)可訓(xùn)練參數(shù)量反映該網(wǎng)絡(luò)計(jì)算過(guò)程中的復(fù)雜程度,是決定模型訓(xùn)練速度的重要因素。參數(shù)越多說(shuō)明網(wǎng)絡(luò)越復(fù)雜,同一設(shè)備下訓(xùn)練該網(wǎng)絡(luò)所消耗的時(shí)間越長(zhǎng),且越復(fù)雜的網(wǎng)絡(luò)對(duì)計(jì)算機(jī)性能的要求越高。從圖7可以看出,AlexNet網(wǎng)絡(luò)和ResNet-26網(wǎng)絡(luò)的可訓(xùn)練參數(shù)遠(yuǎn)遠(yuǎn)大于其他3個(gè)網(wǎng)絡(luò)。其中Dieleman網(wǎng)絡(luò)的可訓(xùn)練參數(shù)約362萬(wàn),C2網(wǎng)絡(luò)的約357萬(wàn),GMC_net網(wǎng)絡(luò)的約293萬(wàn)。從可訓(xùn)練參數(shù)量來(lái)看,GMC_net網(wǎng)絡(luò)的可訓(xùn)練參數(shù)最少,在訓(xùn)練速度上占了很大優(yōu)勢(shì)。

      圖7 各個(gè)網(wǎng)絡(luò)可訓(xùn)練參數(shù)量統(tǒng)計(jì)

      圖8顯示了5種卷積神經(jīng)網(wǎng)絡(luò)架構(gòu)在訓(xùn)練時(shí),訓(xùn)練集的準(zhǔn)確率、驗(yàn)證集的準(zhǔn)確率隨訓(xùn)練次數(shù)的變化趨勢(shì)(所有的權(quán)重和偏差在訓(xùn)練開(kāi)始時(shí)都是隨機(jī)的),我們展示了20個(gè)epochs與準(zhǔn)確率的關(guān)系圖。從圖8可以看出,5個(gè)分類(lèi)網(wǎng)絡(luò)的準(zhǔn)確率都呈現(xiàn)迅速上升之后趨于穩(wěn)定的趨勢(shì),其中,AlexNet網(wǎng)絡(luò)在訓(xùn)練10次左右開(kāi)始收斂,訓(xùn)練集的準(zhǔn)確率最高為92.3%,驗(yàn)證集的準(zhǔn)確率最高為90.0%;Dieleman網(wǎng)絡(luò)在訓(xùn)練7次左右趨于穩(wěn)定,訓(xùn)練集的準(zhǔn)確率最高為96.3%,驗(yàn)證集的準(zhǔn)確率最高為95.2%;ResNet-26網(wǎng)絡(luò)在訓(xùn)練16次左右趨于穩(wěn)定,收斂速度相對(duì)較慢,訓(xùn)練集的準(zhǔn)確率最高為98.2%,驗(yàn)證集的準(zhǔn)確率最高為97.8%;C2網(wǎng)絡(luò)在訓(xùn)練6次左右趨于穩(wěn)定,訓(xùn)練集的準(zhǔn)確率最高為98.5%,驗(yàn)證集的準(zhǔn)確率最高為97.9%;GMC_net網(wǎng)絡(luò)在訓(xùn)練4次左右趨于穩(wěn)定,訓(xùn)練集的準(zhǔn)確率最高為99.53%,驗(yàn)證集的準(zhǔn)確率最高為99.18%。從圖8可以看出,GMC_net網(wǎng)絡(luò)在訓(xùn)練過(guò)程中準(zhǔn)確率最高,在各個(gè)網(wǎng)絡(luò)訓(xùn)練最佳的情況下,AlexNet網(wǎng)絡(luò)和ResNet-26網(wǎng)絡(luò)耗時(shí)最多,GMC_net網(wǎng)絡(luò)耗時(shí)最少。

      圖8 準(zhǔn)確率與訓(xùn)練次數(shù)關(guān)系曲線圖

      綜上,GMC_net網(wǎng)絡(luò)的可訓(xùn)練參數(shù)最少,且訓(xùn)練過(guò)程中訓(xùn)練集和驗(yàn)證集的準(zhǔn)確率均能保持穩(wěn)定且高于其他網(wǎng)絡(luò),在收斂速度上超過(guò)了其他網(wǎng)絡(luò),總體來(lái)看,GMC_net表現(xiàn)最好。

      3.3 不同方法的分類(lèi)結(jié)果對(duì)比

      表6是GMC_net對(duì)數(shù)據(jù)集1中驗(yàn)證集測(cè)試得到的混淆矩陣,通過(guò)混淆矩陣可以計(jì)算得到相應(yīng)的準(zhǔn)確率、精確率、召回率和F1分?jǐn)?shù)。

      由表6可以得出,本次實(shí)驗(yàn)最終對(duì)旋渦星系的分類(lèi)精確率為98.29%,召回率為98.44%,F(xiàn)1分?jǐn)?shù)為98.36%;橢圓星系的分類(lèi)精確率為98.49%,召回率為99.03%,F(xiàn)1分?jǐn)?shù)為98.75%;透鏡星系的分類(lèi)精確率為99.18%,召回率為98.89%,F(xiàn)1分?jǐn)?shù)為99.03%;不規(guī)則星系的分類(lèi)精確率為99.91%,召回率為99.34%,F(xiàn)1分?jǐn)?shù)為98.36%;總體分類(lèi)準(zhǔn)確率為98.93%。

      表6 數(shù)據(jù)集1驗(yàn)證集分類(lèi)測(cè)試的混淆矩陣

      表7展示了數(shù)據(jù)集1中5 522幅驗(yàn)證集在5個(gè)分類(lèi)網(wǎng)絡(luò)的最終分類(lèi)結(jié)果對(duì)比,表中的準(zhǔn)確率、精確率以及召回率都是各個(gè)網(wǎng)絡(luò)多次重復(fù)驗(yàn)證后的最佳結(jié)果。

      從表7可以看到,AlexNet和Dieleman的準(zhǔn)確率、精確率和召回率均小于其他網(wǎng)絡(luò),兩者的F1分?jǐn)?shù)相比其他網(wǎng)絡(luò)也偏低;ResNet-26雖然精確率比C2網(wǎng)絡(luò)高,但是準(zhǔn)確率、召回率和F1分?jǐn)?shù)略低于C2網(wǎng)絡(luò);GMC_net在5個(gè)網(wǎng)絡(luò)中獲得了最高的準(zhǔn)確率,其精確率、召回率和F1分?jǐn)?shù)也高。從最終分類(lèi)效果來(lái)看,GMC_net的分類(lèi)性能優(yōu)于其他網(wǎng)絡(luò)。

      表7 不同網(wǎng)絡(luò)驗(yàn)證結(jié)果對(duì)比

      為進(jìn)一步證明本文方法的可行性,我們針對(duì)表1中來(lái)自EFIGI目錄的星系重新利用GMC_net進(jìn)行單獨(dú)訓(xùn)練分類(lèi)并與其他方法進(jìn)行對(duì)比。為保持類(lèi)間比例均衡,我們將來(lái)自EFIGI目錄的星系擴(kuò)展為表5中的數(shù)據(jù)集2。根據(jù)文[7, 10]的數(shù)據(jù)描述,我們所選的數(shù)據(jù)集包含兩者所用的樣本(涉及的樣本類(lèi)型均選取所有子類(lèi))。其中文[7]提取了星系圖像的顏色特征、紋理特征(灰度共生矩陣,其中包含熵、對(duì)比度、相關(guān)性、能量等信息)以及形狀特征,并用二進(jìn)制正弦余弦算法選擇最相關(guān)的特征,之后用K最鄰近算法進(jìn)行分類(lèi)測(cè)試。文[10]是利用四元數(shù)極坐標(biāo)復(fù)指數(shù)變換矩陣從星系彩色圖像中提取色彩特征并進(jìn)行特征篩選,最終利用極限學(xué)習(xí)機(jī)進(jìn)行分類(lèi)。

      從表8可以看出,在都使用EFIGI目錄做數(shù)據(jù)集的前提下,文[7]對(duì)EFIGI目錄中的橢圓星系、旋渦星系、透鏡星系和不規(guī)則星系進(jìn)行分類(lèi),效果最好的分類(lèi)精確率為92.7%,F(xiàn)1分?jǐn)?shù)為88.68%;文[10]對(duì)4類(lèi)星系進(jìn)行分類(lèi)的最佳結(jié)果總體召回率為98.78%,F(xiàn)1分?jǐn)?shù)為98.74%;未進(jìn)行去噪處理時(shí),GMC_no的召回率低于文[10]的召回率,去噪之后,GMC對(duì)EFIGI目錄中橢圓星系、旋渦星系、透鏡星系和不規(guī)則星系分類(lèi)的總體分類(lèi)準(zhǔn)確率、精確率、召回率以及F1分?jǐn)?shù)均有提高,且比文[7, 10]得到的準(zhǔn)確率、精確率、召回率和F1分?jǐn)?shù)都高。

      表8 與其他研究方法的對(duì)比結(jié)果

      其次,文[7, 10]中的方法一方面在特征選擇、分類(lèi)器選擇上有很大困難,且處理、運(yùn)算過(guò)程比較復(fù)雜;另一方面文[7, 10]存在星系分類(lèi)樣本類(lèi)間比例嚴(yán)重失衡的問(wèn)題,導(dǎo)致模型更容易關(guān)注樣本數(shù)量多的類(lèi)別,從而影響模型的魯棒性。而本文方法對(duì)圖像進(jìn)行了預(yù)處理,一是用非局部均值去噪,減小噪聲對(duì)圖像的影響,二是我們對(duì)不同形態(tài)的星系分別進(jìn)行了數(shù)據(jù)增強(qiáng),減小了由于樣本量小、樣本類(lèi)間比例分布不均對(duì)實(shí)驗(yàn)結(jié)果的影響,最后采用GMC_net分類(lèi)網(wǎng)絡(luò)完美避開(kāi)了圖像特征提取和選擇、分類(lèi)器的選擇難題,所以綜合來(lái)看本文的分類(lèi)方法是非??尚械摹?/p>

      3.4 GMC_net網(wǎng)絡(luò)卷積特征可視化

      本文最后利用Grad-CAM[26]技術(shù)對(duì)GMC_net卷積特征進(jìn)行了可視化解釋?zhuān)珿ard-CAM以熱力圖與原圖結(jié)合的方式展示各類(lèi)形態(tài)星系經(jīng)過(guò)卷積之后的特征,Gard-CAM圖可以反映卷積神經(jīng)網(wǎng)絡(luò)對(duì)預(yù)測(cè)輸出的貢獻(xiàn)分布,分?jǐn)?shù)越高表示原始圖像對(duì)應(yīng)區(qū)域?qū)W(wǎng)絡(luò)的響應(yīng)越高、貢獻(xiàn)越大。

      GMC_net不同卷積層所提取特征不同,最開(kāi)始提取星系邊緣、角落等,之后邊緣檢測(cè)提取簡(jiǎn)單形狀。在高層中,特征圖利用高級(jí)特征的組合識(shí)別抽象斑點(diǎn)。以旋渦星系為例,在第4卷積層中,圖9特征圖的合并圖中每個(gè)要素圖的可區(qū)分性更強(qiáng),這正是分類(lèi)模型所期望的。利用Gard-CAM對(duì)經(jīng)過(guò)4層卷積的特征進(jìn)行可視化,圖中清楚地展現(xiàn)了其核心中間的突起及渦旋星系旋的臂狀結(jié)構(gòu),特征貢獻(xiàn)度由內(nèi)向外螺旋遞減,進(jìn)一步清楚地展現(xiàn)了GMC_net在星系形態(tài)的星系輪廓特征、紋理特征提取及處理方面的高性能。

      圖9 旋渦星系經(jīng)GMC_net卷積后特征可視化

      4 總結(jié)與展望

      星系的形態(tài)與星系的形成、演化有著密切的聯(lián)系,是探究星系物理的重要參數(shù)。目前對(duì)于星系形態(tài)分類(lèi)研究領(lǐng)域依然存在分類(lèi)類(lèi)別少、圖像特征選擇困難、各類(lèi)形態(tài)星系樣本分布不均、分類(lèi)的準(zhǔn)確率較低等問(wèn)題。針對(duì)以上問(wèn)題,本文提出了一種基于卷積神經(jīng)網(wǎng)絡(luò)的星系形態(tài)分類(lèi)方法,實(shí)現(xiàn)了對(duì)旋渦星系、橢圓星系、透鏡星系和不規(guī)則星系的高效分類(lèi)。本文首先對(duì)星系圖像進(jìn)行剪切、下采樣、去噪、數(shù)據(jù)增強(qiáng)等一系列處理,保證樣本的多樣性、均衡性,減小圖像噪聲和樣本類(lèi)間比例失衡對(duì)分類(lèi)模型的影響;其次,我們構(gòu)建了一個(gè)針對(duì)星系形態(tài)分類(lèi)卷積神經(jīng)網(wǎng)GMC-net,此網(wǎng)絡(luò)可以自動(dòng)提取星系圖像的特征,并根據(jù)形態(tài)進(jìn)行自動(dòng)分類(lèi),避開(kāi)了特征提取和選擇、分類(lèi)器選擇的難題。我們利用形態(tài)分類(lèi)方法對(duì)綜合數(shù)據(jù)集(SDSS DR16,Galaxy Zoo2和EFIGI目錄組合)不同形態(tài)的星系進(jìn)行了分類(lèi)。從實(shí)驗(yàn)分類(lèi)結(jié)果來(lái)看,旋渦星系、橢圓星系、透鏡星系和不規(guī)則外形星系分類(lèi)精確率分別為98.29%,98.49%,99.18%和99.91%,召回率分別為98.44%,99.03%,98.89%和99.34%;對(duì)來(lái)自EFIGI目錄中4種形態(tài)星系的分類(lèi)平均準(zhǔn)確率也達(dá)到了99.34%。實(shí)驗(yàn)結(jié)果表明,形態(tài)分類(lèi)方法比其他方法表現(xiàn)更好,可以更有效地用于星系的形態(tài)分類(lèi)。

      本文雖然在一定程度上解決了星系形態(tài)分類(lèi)的問(wèn)題,取得了相應(yīng)的進(jìn)展,仍然存在一些不足之處有待進(jìn)一步探索:(1)為保證所選數(shù)據(jù)樣本更準(zhǔn)確,本文在Galaxy Zoo2中選擇的閾值偏大,對(duì)該數(shù)據(jù)集應(yīng)用不夠充分。(2)在SDSS DR16中由于對(duì)不規(guī)則星系的物理參數(shù)還未有統(tǒng)計(jì)研究,本文未直接從DR16中得到不規(guī)則星系。星系形態(tài)分類(lèi)需要大量的樣本,獲取數(shù)據(jù)的方式也很多,未來(lái)在數(shù)據(jù)方面可以從數(shù)據(jù)庫(kù)利用率以及五波段測(cè)光數(shù)據(jù)應(yīng)用等方面進(jìn)行研究。(3)本文構(gòu)建的GMC_net網(wǎng)絡(luò)可以自動(dòng)提取星系形態(tài)特征,并自動(dòng)對(duì)星系形態(tài)分類(lèi)。從分類(lèi)結(jié)果來(lái)看,分類(lèi)準(zhǔn)確率很高,但其中透鏡星系、橢圓星系及渦旋星系錯(cuò)分的圖像相對(duì)多一點(diǎn),且對(duì)錯(cuò)分的樣本難以區(qū)分。所以在未來(lái)分類(lèi)系統(tǒng)研究中可以嘗試構(gòu)建專(zhuān)家系統(tǒng)與神經(jīng)網(wǎng)絡(luò)相結(jié)合的混合模型,即神經(jīng)網(wǎng)絡(luò)專(zhuān)家系統(tǒng),以提升模型的分類(lèi)性能。

      猜你喜歡
      星系透鏡準(zhǔn)確率
      “透鏡及其應(yīng)用”知識(shí)延伸
      跟著星系深呼吸
      迄今發(fā)現(xiàn)的最大星系
      軍事文摘(2022年10期)2022-06-15 02:29:38
      “透鏡”知識(shí)鞏固
      “透鏡及其應(yīng)用”知識(shí)拓展
      “透鏡”知識(shí)鞏固
      乳腺超聲檢查診斷乳腺腫瘤的特異度及準(zhǔn)確率分析
      健康之家(2021年19期)2021-05-23 11:17:39
      不同序列磁共振成像診斷脊柱損傷的臨床準(zhǔn)確率比較探討
      2015—2017 年寧夏各天氣預(yù)報(bào)參考產(chǎn)品質(zhì)量檢驗(yàn)分析
      高速公路車(chē)牌識(shí)別標(biāo)識(shí)站準(zhǔn)確率驗(yàn)證法
      平舆县| 杭州市| 石河子市| 塔河县| 竹北市| 五华县| 乌审旗| 广昌县| 三都| 宁乡县| 舞阳县| 合川市| 娱乐| 广丰县| 台东县| 武城县| 天门市| 桂林市| 双城市| 英山县| 大关县| 婺源县| 定西市| 沂源县| 浮山县| 沅江市| 金沙县| 田东县| 曲阜市| 沂源县| 浮梁县| 滦平县| 金山区| 滨海县| 左权县| 南和县| 博白县| 德惠市| 清徐县| 开阳县| 白朗县|