• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      一種快速確定聚類中心的光譜聚類方法

      2020-11-04 13:41:24周永祥楊海峰蔡江輝尚曉群
      關(guān)鍵詞:中心點(diǎn)置信度預(yù)處理

      周永祥,楊海峰,蔡江輝,尚曉群

      (太原科技大學(xué) 計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院,太原 030024)

      隨著技術(shù)的發(fā)展,先進(jìn)的天文望遠(yuǎn)鏡能夠獲取越來(lái)越多的光譜數(shù)據(jù)。在大數(shù)據(jù)時(shí)代的背景下,首要問(wèn)題便是天文工作者們?nèi)绾翁幚砗A繑?shù)據(jù)。之前的人眼識(shí)別已無(wú)法滿足這項(xiàng)巨大工程的需求,因此很多工作者們將目光投向了計(jì)算機(jī)的自動(dòng)處理。

      目前,有很多研究工作都放在天文與計(jì)算機(jī)結(jié)合上,比如:將自動(dòng)聚類算法[1]應(yīng)用到星系和恒星分類中,利用神經(jīng)網(wǎng)絡(luò)算法[2]對(duì)恒星和星系的圖像進(jìn)行分類,結(jié)果表明神經(jīng)網(wǎng)絡(luò)算法可以很好的運(yùn)用在恒星和星系圖像的分類中。Ball[3]等人利用決策樹對(duì)光譜數(shù)據(jù)進(jìn)行分類并且也取得很好的測(cè)試結(jié)果。有人利用模糊分類與神經(jīng)網(wǎng)絡(luò)算法[4]對(duì)非線性數(shù)據(jù)進(jìn)行分類,發(fā)現(xiàn)模糊分類與神經(jīng)網(wǎng)絡(luò)可以很好地處理復(fù)雜數(shù)據(jù)類型。Moore等人[5]運(yùn)用數(shù)學(xué)形態(tài)學(xué)方法對(duì)CCD圖像進(jìn)行分類,發(fā)現(xiàn)能很好地區(qū)分出星系,但是將其應(yīng)用到恒星中時(shí)錯(cuò)分率較高。軌跡聚類應(yīng)用到光譜的天光分析中[6],最終取得不錯(cuò)的效果。還有一種聚類也用光譜數(shù)據(jù)進(jìn)行了測(cè)試[7],效果也很好。

      本文是對(duì)LAMOST DR5的光譜數(shù)據(jù)進(jìn)行分析處理,主要意圖是運(yùn)用全新的預(yù)處理方法對(duì)光譜數(shù)據(jù)進(jìn)行數(shù)據(jù)預(yù)處理,此預(yù)處理方法利用不同恒星光譜數(shù)據(jù)在不同波段表現(xiàn)性質(zhì)不同的特點(diǎn),將特定波段的波形轉(zhuǎn)化為具體的數(shù)據(jù),之后計(jì)算這些具體數(shù)據(jù)的密度和距離,通過(guò)密度和距離挑選出合適的奇異點(diǎn),從這些奇異點(diǎn)中選出可靠的聚類中心,最后利用K近鄰來(lái)生成所有的簇。FDCC是一種獨(dú)特的聚類中心點(diǎn)快速確定的聚類方法,大多數(shù)聚類算法的難點(diǎn)都在于怎么確定中心點(diǎn),而FDCC能夠快速地確定聚類中心點(diǎn)所在,之后,可以直接利用簡(jiǎn)單的K近鄰方法來(lái)確定簇,這樣可以減少程序運(yùn)行的時(shí)間。

      1 相關(guān)研究

      1.1 LAMOST簡(jiǎn)介

      在本文中,數(shù)據(jù)集全部來(lái)自LAMOST DR5V3,LAMOST[8-9]也被稱為郭守敬望遠(yuǎn)鏡,它一次性可拍攝4 000張光譜圖像。文中的DR5光譜數(shù)據(jù)就是LAMOST從2011年十月到2017年六月獲取的全部光譜數(shù)據(jù),這其中一共包括4 151個(gè)區(qū)域和9 026 365個(gè)光譜數(shù)據(jù),并且信噪比大于10的光譜數(shù)據(jù)達(dá)到了7 775 981條。在大視場(chǎng)天文學(xué)研究上,郭守敬望遠(yuǎn)鏡是居于國(guó)際領(lǐng)先地位的大科學(xué)裝置。

      1.2 聚類技術(shù)

      科技的發(fā)展使得大數(shù)據(jù)時(shí)代來(lái)臨,在海量數(shù)據(jù)面前,如何設(shè)計(jì)好所需的算法極為重要。聚類技術(shù)[10]是算法中的一部分,這類技術(shù)不同于分類,它無(wú)需訓(xùn)練數(shù)據(jù)來(lái)訓(xùn)練模型,直接可以對(duì)現(xiàn)實(shí)數(shù)據(jù)進(jìn)行處理,由于這種特性,這項(xiàng)技術(shù)在問(wèn)世之后得到了飛速的發(fā)展。多數(shù)聚類算法是使用某種度量方法將數(shù)據(jù)按照簇間不相似及簇內(nèi)相似進(jìn)行劃分,當(dāng)然在很多工作中,聚類也可用于數(shù)據(jù)預(yù)處理,比如聚類算法可用于離散化處理。聚類技術(shù)可以被分為四種方向,分別是基于劃分,基于層次,基于密度,基于網(wǎng)格。這四種方向都有自己的代表算法,并且對(duì)于數(shù)據(jù)如何聚類都有各自的理論。在基于劃分的聚類方法中,K-Means是其代表算法,這種方法多數(shù)是使用距離度量,其中歐式距離使用頻率最高。并且K-Means有很多變種,分別是利用均值,眾數(shù)和中心點(diǎn)等等,從而對(duì)其中心點(diǎn)的選擇進(jìn)行優(yōu)化,為了能夠處理海量數(shù)據(jù),有人對(duì)K-Means的分布式算法進(jìn)行優(yōu)化設(shè)計(jì)。基于層次的聚類算法主要分為兩種,一種是自底向上的凝聚層次聚類,另一種是自頂向下的分裂層次聚類。這類聚類方向的代表算法有birch,針對(duì)初始凝聚和分裂聚類算法死板的缺點(diǎn),很多論文都研究出如何在分裂和凝聚的過(guò)程更好的評(píng)估中間過(guò)程得到的簇,并且針對(duì)這種聚類算法選擇好的度量比較困難,對(duì)于有缺省值的數(shù)據(jù)對(duì)象也無(wú)法很好的處理?;诿芏鹊木垲惙椒▽?duì)識(shí)別球狀分布有很好的效果,這種聚類思想依賴于密度半徑和鄰域?qū)ο髠€(gè)數(shù),其中代表算法是DBSCAN,針對(duì)DBSCAN需要設(shè)置參數(shù)的缺點(diǎn),提出OPTICS算法對(duì)DBSCAN進(jìn)行改進(jìn),這種密度聚類思想對(duì)于聚類有很好的效果,并且能識(shí)別出多種數(shù)據(jù)。與以上三種數(shù)據(jù)驅(qū)動(dòng)形式的聚類方向不同,基于網(wǎng)格的聚類是將數(shù)據(jù)空間轉(zhuǎn)化為網(wǎng)格的形式,以網(wǎng)格形式上進(jìn)行聚類操作,主要的代表算法是STING統(tǒng)計(jì)信息網(wǎng)格算法。以上就是四種基本的聚類思想,根據(jù)其相應(yīng)理論,經(jīng)過(guò)后人持續(xù)的研究,如今已取得很大的成果。

      2 聚類算法FDCC

      本節(jié)將對(duì)聚類算法FDCC進(jìn)行詳細(xì)描述,在2.1節(jié)介紹FDCC的主要思想,并且在2.2節(jié)詳細(xì)介紹FDCC的算法步驟,最終在2.3節(jié)中對(duì)算法進(jìn)行理論分析。

      2.1 算法的思想

      本文的思想主要是首先對(duì)天文光譜數(shù)據(jù)進(jìn)行預(yù)處理實(shí)現(xiàn)數(shù)據(jù)降維,之后利用距離和密度的關(guān)系快速找出聚類中心,最后根據(jù)聚類中心快速聚類。本文算法FDCC分為兩步,第一步對(duì)天文光譜數(shù)據(jù)進(jìn)行預(yù)處理,提取出發(fā)射線位置上的置信度信息,這里的提取信息是將發(fā)射線區(qū)間中的波形變成一個(gè)具體的值來(lái)表示存在此發(fā)射線的置信度,在此文中,給定的發(fā)射線都會(huì)被用在數(shù)據(jù)預(yù)處理中,在提取出特定發(fā)射線的置信度后,第二步計(jì)算所有數(shù)據(jù)的密度和距離,利用密度和距離確定出數(shù)據(jù)中的奇異點(diǎn),之后從奇異點(diǎn)中選出合適的聚類中心,最終通過(guò)K近鄰得出聚類結(jié)果。

      2.2 FDCC聚類算法描述

      本文的算法是分為兩步,第一步是數(shù)據(jù)預(yù)處理,數(shù)據(jù)預(yù)處理得出存在此發(fā)射線的置信度,發(fā)射線存在與否和波長(zhǎng)位置,還有波形都有關(guān),一個(gè)發(fā)射線存在的位置越靠近特定的波長(zhǎng)位置時(shí),它就越可靠,并且如果左右兩邊的波形越對(duì)稱,它就會(huì)更加可靠。在給定特定發(fā)射線的波長(zhǎng)位置之后,需要在每個(gè)發(fā)射線的波長(zhǎng)位置上確定一個(gè)合適的波長(zhǎng)區(qū)間來(lái)提取發(fā)射線,此處波長(zhǎng)范圍需恰當(dāng),因?yàn)樵诠庾V數(shù)據(jù)中,很多發(fā)射線的波長(zhǎng)位置相距較近。因此應(yīng)避免在提取一條發(fā)射線的時(shí)候還包含了其他的發(fā)射線。有了發(fā)射線的波長(zhǎng)區(qū)間,便可以在這個(gè)特定的波長(zhǎng)區(qū)間中提取發(fā)射線存在的置信度。首先找出區(qū)間中所有的峰值,如果在發(fā)射線波長(zhǎng)位置附近沒(méi)有峰值的存在,那么表明不存在此發(fā)射線,此發(fā)射線的置信度也被設(shè)置為0.一條好的發(fā)射線存在的位置應(yīng)當(dāng)盡可能地靠近在特定的發(fā)射線波長(zhǎng)附近,所以當(dāng)發(fā)射線存在的位置越靠近特定發(fā)射線波長(zhǎng)位置時(shí),它就越可靠。在本階段,最靠近此發(fā)射線位置峰值的波長(zhǎng)值與此發(fā)射線波長(zhǎng)值相減得到的絕對(duì)值,將之稱為間距,這個(gè)間距越小,那么發(fā)射線存在的置信度就越高,因此間距的倒數(shù)才能用來(lái)組成發(fā)射線的置信度。接下來(lái)需要評(píng)判波形的對(duì)稱性,本階段需要用到的是左右兩邊的高度和寬度,分別記錄下左右兩邊的寬度Wl和Wr,之后根據(jù)斜率的變化,記錄下兩邊的高度Hl和Hr,之后通過(guò)公式1來(lái)計(jì)算出差異d,公式(1)如下:

      (1)

      差異d越小,表明存在此發(fā)射線的置信度越高,因此差異d的倒數(shù)才能組成發(fā)射線置信度。因此,在整個(gè)預(yù)處理過(guò)程中,間距的倒數(shù)和差異d的倒數(shù)共同組成這個(gè)發(fā)射線的置信度,置信度將變成一個(gè)具體的值。在整個(gè)數(shù)據(jù)預(yù)處理的過(guò)程中,全部發(fā)射線均需進(jìn)行上述提取過(guò)程,將這些給定的發(fā)射線分別變成一個(gè)具體的數(shù)值。每條天文光譜數(shù)據(jù)在經(jīng)過(guò)數(shù)據(jù)預(yù)處理后,都會(huì)變成相對(duì)低維的數(shù)據(jù),這樣實(shí)現(xiàn)了數(shù)據(jù)降維。本身的光譜數(shù)據(jù)具有幾千維,經(jīng)過(guò)數(shù)據(jù)預(yù)處理后,數(shù)據(jù)變成了幾十維的數(shù)據(jù),大大減少了后續(xù)聚類過(guò)程的運(yùn)行時(shí)間。

      在完成數(shù)據(jù)預(yù)處理階段之后,第二步需要對(duì)數(shù)據(jù)進(jìn)行聚類處理,即進(jìn)入到下一個(gè)聚類階段,此階段的主要思想是中心點(diǎn)的密度和距離與其他點(diǎn)不同,聚類中心點(diǎn)應(yīng)當(dāng)是密度高且相互距離遠(yuǎn),噪聲點(diǎn)與之不同,它的特點(diǎn)是距離遠(yuǎn)但密度低,較于其他的點(diǎn),它們不屬于任何一個(gè)簇且密度較低。首先算法計(jì)算所有點(diǎn)之間的距離,得出一個(gè)距離矩陣,并且初始化密度半徑閾值dc,根據(jù)距離矩陣和dc,利用公式(2)可得到每個(gè)點(diǎn)的密度。

      ρi=∑f(dij-dc)

      (2)

      (3)

      得到每個(gè)點(diǎn)的密度之后,再根據(jù)每個(gè)點(diǎn)的密度計(jì)算每個(gè)點(diǎn)的距離。文中的距離是只計(jì)算與比本身密度大的點(diǎn)之間的距離,利用公式(3)可以得到距離。

      δi=min(dij)(ρj≥ρi)

      (4)

      對(duì)于密度最大的點(diǎn),它的距離就是距離矩陣中最遠(yuǎn)的距離。最后每個(gè)點(diǎn)都將自己的距離和密度相乘得到一個(gè)新的變量γ.通過(guò)新的變量γ來(lái)選出符合條件的奇異點(diǎn),假設(shè)γ的分布是一種正態(tài)分布,大部分正常的點(diǎn)都會(huì)落在區(qū)間(μ-5σ,μ+5σ),落在區(qū)間外的點(diǎn)就會(huì)被判定為奇異點(diǎn)。得到這些奇異點(diǎn)后,還需要進(jìn)一步排除掉奇異點(diǎn)中的偽中心點(diǎn)。真正中心點(diǎn)的距離和密度應(yīng)當(dāng)不會(huì)相差過(guò)大,根據(jù)這一假設(shè)可以將偽中心點(diǎn)全部排除,之后剩下的就是聚類中心點(diǎn)。得到這些中心點(diǎn)之后,再利用k近鄰來(lái)得到聚類中所有的簇。算法的偽代碼如下所示:

      算法1 FDCC(Fast Determination of Clustering Center)

      輸入:數(shù)據(jù)A;中心點(diǎn)個(gè)數(shù)K;百分比percent;調(diào)整幅度r

      輸出:聚類的簇C

      For給定發(fā)射線do 提取發(fā)射線的置信度

      IF發(fā)射線波長(zhǎng)位置附近有峰值的存在then

      dis =abs(最靠近此發(fā)射線位置峰值的波長(zhǎng)值-此發(fā)射線波長(zhǎng)值)

      記錄下左右兩邊的寬度Wl和Wr

      記錄下兩邊的高度Hl和Hr

      計(jì)算所有數(shù)據(jù)的距離得出距離矩陣mat_dis,最大距離max_dis,最小距離min_dis

      While r > 0

      For i in range(2)

      If i==0

      dc=min_dis+(max_dis-min_dis)*((percent-r)/100)

      If i == 1

      dc=min_dis + (max_dis-min_dis)*((percent + r)/100)

      根據(jù)公式(2),dc和距離矩陣mat_dis計(jì)算每個(gè)點(diǎn)ρi

      根據(jù)公式(3),ρi計(jì)算距離δi

      γ=ρi×δi

      根據(jù)γ選出奇異點(diǎn),根據(jù)奇異點(diǎn)的距離和密度找出中心點(diǎn)center

      Iflen(center)==K

      使用K近鄰得到所有的簇

      Fitness1=mean(所有簇的簇內(nèi)距離)

      Fitness2=mean(所有簇的簇間距離)

      C=fitness最大時(shí)得到的簇

      2.3 算法分析

      在此算法中,算法預(yù)處理對(duì)數(shù)據(jù)進(jìn)行降維,這大大減少了算法所需要的時(shí)間和空間,并且本算法的時(shí)間復(fù)雜度是○(nlogN),算法的增長(zhǎng)趨勢(shì)并不快,再加上降維處理,使得算法本身實(shí)際的時(shí)間復(fù)雜度要低于理論上的時(shí)間復(fù)雜度。因?yàn)閿?shù)據(jù)預(yù)處理進(jìn)行了降維,這也降低了空間復(fù)雜度。本文聚類算法中密度半徑閾值dc極為重要,為了能夠找出最好的密度半徑閾值dc,算法使用爬山法來(lái)找密度半徑閾值dc,檢驗(yàn)這個(gè)密度半徑閾值dc好壞的思想是簇間距離大,簇內(nèi)距離小,因此可以根據(jù)簇間和簇內(nèi)距離計(jì)算出此密度半徑閾值dc的fitness,通過(guò)fitness和爬山法選出最好的密度半徑閾值dc,并且得到最好的聚類形成的簇和聚類中心點(diǎn),這樣就能保證聚類結(jié)果的質(zhì)量。

      3 實(shí)驗(yàn)分析

      3.1 實(shí)驗(yàn)方案

      本次實(shí)驗(yàn)環(huán)境是WINDOWS 10操作系統(tǒng),Intel(R)Core(TM)i7-6700HQ的CPU和8.0GB內(nèi)存。本階段實(shí)驗(yàn)從三個(gè)方面評(píng)估FDCC:準(zhǔn)確率、召回率和運(yùn)行效率。

      本次實(shí)驗(yàn)使用的是LAMOST DR5中的恒星數(shù)據(jù),經(jīng)過(guò)精心挑選而得到五個(gè)數(shù)據(jù)集,五個(gè)數(shù)據(jù)集的數(shù)量分別是2 000,8 000,16 000,18 000,20 000.每個(gè)數(shù)據(jù)集只有A類和K類恒星數(shù)據(jù),并且每類都各占一半,具體可從表1中查看。在挑選發(fā)射線的時(shí)候,我們選擇了13條發(fā)射線,分別是:H_delta:4101.734;H_beta:4861.325;OIII_4959:4958.911;OIII_5007:5006.843;Hel_5876:5875.67;OI_6300:6300.304;NII_6548:6548.040;H_alpha:6562.800;NII_6584:6583.460;SII_6717:6716.440;Ca_K:3933.66;Ca_H:3968.45;Na_D:5891.94.該算法的預(yù)處理過(guò)程將這13條發(fā)射線變成具體的置信度來(lái)進(jìn)行聚類。

      對(duì)于聚類算法初始化,需要提前給出中心點(diǎn)個(gè)數(shù)k,爬山法中開始的百分比percent和百分比左右調(diào)整的幅度r.這里k初始化為2,因?yàn)橹挥袃深悢?shù)據(jù),產(chǎn)生出來(lái)的也只有兩個(gè)聚類中心點(diǎn)。開始的百分比percent初始化為15,百分比左右調(diào)整的幅度r初始化為3.對(duì)于對(duì)比算法,本文實(shí)驗(yàn)選了四種聚類算法,分別是DJ-Cluster[11],hierCluster,K-Means和DBSCAN.這四種聚類算法將分別用到上述的五個(gè)數(shù)據(jù)集中,得到四類算法的準(zhǔn)確率,召回率和時(shí)間,將之與本文中的聚類算法進(jìn)行比較。

      3.2 準(zhǔn)確率分析

      本文針對(duì)不同量級(jí)的光譜數(shù)據(jù)集,對(duì)FDCC算法以及四種同類算法進(jìn)行了準(zhǔn)確率對(duì)比實(shí)驗(yàn),實(shí)驗(yàn)結(jié)果如表2所示,其準(zhǔn)確率的對(duì)比柱狀圖如圖1所示。

      表2 五種算法在五種數(shù)據(jù)集下的準(zhǔn)確率Tab.2 Accuracy of five algorithms on five data sets

      圖1 同類算法的準(zhǔn)確率比較分析Fig.1 Accuracy analysis of five algorithms under five different data sets

      從圖1的柱狀圖中可以看出雖然隨著數(shù)據(jù)量的增加,本文聚類算法的準(zhǔn)確率有著下降的趨勢(shì),但是趨勢(shì)很小,并且在數(shù)據(jù)量達(dá)到一定數(shù)量的情況下,這種下降的趨勢(shì)在慢慢消失,可以從灰色柱狀來(lái)查看FDCC算法的準(zhǔn)確率,可以看到在測(cè)試到Data D的時(shí)候,算法的準(zhǔn)確率就開始保持平穩(wěn),雖然有著微弱的下降,但是下降的趨勢(shì)已經(jīng)在消失,并且從表2中也可以看到Data D和Data E的準(zhǔn)確率在約去小數(shù)點(diǎn)后兩位數(shù)之后已經(jīng)保持一致。

      從圖1中看出,其他對(duì)比算法的準(zhǔn)確率并不會(huì)出現(xiàn)較大的差異。DJ-Cluster和hierCluster算法一直保持著較低的準(zhǔn)確率,這兩類算法無(wú)法正確的對(duì)光譜數(shù)據(jù)進(jìn)行聚類,聚類出來(lái)得簇會(huì)出現(xiàn)較多或者較少得情況。K-Means和DBSCAN這兩類算法的準(zhǔn)確率一直都處于中等水平。這兩類算法對(duì)于簇的個(gè)數(shù)劃分準(zhǔn)確。但是劃分中也會(huì)出現(xiàn)錯(cuò)誤,因而準(zhǔn)確率不會(huì)很高。本文聚類算法CCFD對(duì)簇的劃分是準(zhǔn)確的,并且兩個(gè)簇中的數(shù)據(jù)也很少有錯(cuò)誤的劃分結(jié)果。具體的準(zhǔn)確率信息都呈現(xiàn)在表2中,并且圖1也用柱狀圖表現(xiàn)出來(lái)。

      3.3 召回率分析

      圖2和表3反映了算法在五種數(shù)據(jù)集下的召回率,從五種算法的對(duì)比中可以看出CCFD在召回率上依舊保持最高,雖然在Data A,B,C,D下,召回率有所下降,但是當(dāng)數(shù)據(jù)量達(dá)到18 000到20 000的時(shí)候,CCFD的召回率已經(jīng)開始不下降了,并且保持了平穩(wěn)狀態(tài)。因?yàn)閿?shù)據(jù)量的增加,使得情況變得復(fù)雜,特殊數(shù)據(jù)就會(huì)增加,在這種情況下,有一些特殊數(shù)據(jù)無(wú)法被分到正確的簇中,召回率就會(huì)有所下降,但是大數(shù)據(jù)量達(dá)到一定程度的時(shí)候,這些特殊數(shù)據(jù)的數(shù)量也會(huì)保持穩(wěn)定,結(jié)果就會(huì)保持平穩(wěn)。從表2中可以看出召回率在整個(gè)數(shù)據(jù)集實(shí)驗(yàn)中都是比較接近的,這說(shuō)明幾乎所有的數(shù)據(jù)都會(huì)被分到一個(gè)簇中,并且大部分的數(shù)據(jù)都會(huì)被分對(duì),而我們挑選的數(shù)據(jù)都是屬于兩個(gè)簇的,這也符合數(shù)據(jù)情況。而且錯(cuò)分的個(gè)數(shù)都比較少,因而可以達(dá)到這種高效果。但是其他對(duì)比算法沒(méi)有這種高效果。

      表3 五種算法在五種數(shù)據(jù)集下的召回率Tab.3 Recall rate of five algorithms on five data sets

      圖2 同類算法的召回率分析Fig.2 Recall rate analysis of five algorithms under five different data sets

      從圖2對(duì)比算法中來(lái)看,各對(duì)比算法對(duì)光譜數(shù)據(jù)處理的結(jié)果都比不上FDCC,這是因?yàn)槊總€(gè)對(duì)比算法都是處理三千多維數(shù)據(jù),這種高維數(shù)據(jù)進(jìn)行的聚類,必然會(huì)有很多維度來(lái)影響聚類的結(jié)果。其他對(duì)比算法中都分成了不止兩個(gè)簇,因而其他對(duì)比算法的效果都是比較不理想。從圖2中可以看出DJ-Cluster和hierCluster此兩種聚類不適合這種高維光譜數(shù)據(jù),它們都會(huì)將數(shù)據(jù)分成好幾個(gè)簇,得到的結(jié)果很差,因而召回率必然都會(huì)很低。

      3.4 運(yùn)行效率

      圖3說(shuō)明了五種算法的運(yùn)行時(shí)間,在圖3中分別測(cè)試了Data A,C,E,數(shù)據(jù)量分別是2 000,16 000和20 000,在三種數(shù)據(jù)集中,Data A中只有DJ-Cluster有著較長(zhǎng)的運(yùn)行時(shí)間,并且它在其他兩種數(shù)據(jù)集中也有著很長(zhǎng)的運(yùn)行時(shí)間,其余四種算法在Data A下運(yùn)行時(shí)間都相差不大,沒(méi)有比較大的差異,這可能是數(shù)據(jù)量很小,算法在處理速度上無(wú)法展現(xiàn)出較大的差異。在Data C下,五種算法就開始表現(xiàn)出各自的差異,DJ-Cluster的運(yùn)行效率依舊是最低,運(yùn)行時(shí)間是最長(zhǎng)的。而hierCluster的運(yùn)行時(shí)間排在了第二位中,但是相較于DJ-Cluster,hierCluster的運(yùn)行時(shí)間是比較短的。之后便是DBSCAN,K-Means和本文聚類算法。K-Means和本文聚類算法在時(shí)間上的差異很小,本文聚類算法比K-Means要低一點(diǎn)。雖然兩種聚類算法在運(yùn)行時(shí)間上差不多,但是在這種運(yùn)行時(shí)間下,本文聚類算法的準(zhǔn)確率和召回率都是比較高的,要遠(yuǎn)遠(yuǎn)地優(yōu)于K-Means.從Data E中來(lái)看,五種算法都可以看出差異的大小,此時(shí)由于算法的緣故,DJ-Cluster依然有很長(zhǎng)的運(yùn)行時(shí)間,hierCluster和DBSCAN也有明顯的運(yùn)行時(shí)間差異,很明顯,hierCluster聚類算法有較長(zhǎng)的運(yùn)行時(shí)間,在Data E下,K-Means的運(yùn)行時(shí)間依然要高于本文聚類算法一點(diǎn)。從整體上來(lái)看,本文中的聚類算法相較于其他算法在光譜數(shù)據(jù)上的表現(xiàn)依舊有很好的性能。

      圖3 同類算法的運(yùn)行效率分析Fig.3 Time efficiency of five algorithms under three data sets

      本文聚類算法識(shí)別的部分光譜如圖4和圖5所示。本文在比較這部分工作中分別選取了A類和K類恒星聚類中心點(diǎn)、三個(gè)邊緣點(diǎn),從光譜圖像中可以看出A和K類中心點(diǎn)都具備各自恒星光譜的特征,但是這些邊緣點(diǎn)的特征是很難識(shí)別出來(lái)的,這也符合聚類結(jié)果的特點(diǎn),中心點(diǎn)數(shù)據(jù)比邊緣點(diǎn)數(shù)據(jù)具備著更加明顯的特征。

      圖4 A型恒星光譜數(shù)據(jù)Fig.4 Spectral data of class A-type star

      圖5 K類恒星光譜數(shù)據(jù)Fig.5 Spectral data of class K-type star

      4 結(jié)論

      本文對(duì)恒星光譜數(shù)據(jù)的聚類算法進(jìn)行研究,并且提出了一種快速確定聚類中心的光譜聚類方法(FDCC).恒星光譜數(shù)據(jù)通常都是高維數(shù)據(jù),具有很高的復(fù)雜度,為克服這種困難,本文提出了對(duì)光譜發(fā)射線進(jìn)行數(shù)據(jù)預(yù)處理來(lái)對(duì)數(shù)據(jù)進(jìn)行降維,之后利用密度和距離快速的確定聚類中心點(diǎn),最后利用中心點(diǎn)和K近鄰算法來(lái)找出所有的簇。文中通過(guò)實(shí)驗(yàn)將之與其他聚類算法對(duì)比,得到的結(jié)果表明FDCC可以運(yùn)用到光譜數(shù)據(jù)中。對(duì)于更多種類和更多數(shù)量的恒星數(shù)據(jù),需要在后續(xù)研究中進(jìn)一步解決。

      猜你喜歡
      中心點(diǎn)置信度預(yù)處理
      硼鋁復(fù)合材料硼含量置信度臨界安全分析研究
      Scratch 3.9更新了什么?
      如何設(shè)置造型中心點(diǎn)?
      電腦報(bào)(2019年4期)2019-09-10 07:22:44
      正負(fù)關(guān)聯(lián)規(guī)則兩級(jí)置信度閾值設(shè)置方法
      基于預(yù)處理MUSIC算法的分布式陣列DOA估計(jì)
      淺談PLC在預(yù)處理生產(chǎn)線自動(dòng)化改造中的應(yīng)用
      漢字藝術(shù)結(jié)構(gòu)解析(二)中心點(diǎn)處筆畫應(yīng)緊奏
      絡(luò)合萃取法預(yù)處理H酸廢水
      尋找視覺(jué)中心點(diǎn)
      大眾攝影(2015年9期)2015-09-06 17:05:41
      置信度條件下軸承壽命的可靠度分析
      軸承(2015年2期)2015-07-25 03:51:04
      合肥市| 连云港市| 甘孜| 嫩江县| 福贡县| 泰顺县| 永州市| 南陵县| 灌阳县| 潞西市| 黄浦区| 长阳| 墨竹工卡县| 芦山县| 北碚区| 长治市| 资源县| 海伦市| 安康市| 松阳县| 济南市| 伊金霍洛旗| 灵丘县| 崇明县| 永城市| 弥勒县| 开化县| 江永县| 盈江县| 临潭县| 荣昌县| 呼玛县| 布尔津县| 肥乡县| 嘉禾县| 怀集县| 香河县| 兴业县| 四子王旗| 田阳县| 工布江达县|