今天演講的內(nèi)容包括三方面:FAST早期科學(xué)數(shù)據(jù)中心、網(wǎng)絡(luò)傳輸?shù)膯?wèn)題、我們自主知識(shí)產(chǎn)權(quán)FAST分布式計(jì)算軟件架構(gòu)和具體處理的問(wèn)題。最后還有一些天文普及。
2014年9月中國(guó)科學(xué)院國(guó)家天文臺(tái)與貴州師范大學(xué)共同簽署了FAST早期科學(xué)數(shù)據(jù)中心,耗費(fèi)1年半的時(shí)間建立,我們?cè)缙诳茖W(xué)數(shù)據(jù)中心是在FAST運(yùn)行階段探索FAST數(shù)據(jù)的創(chuàng)術(shù)、存儲(chǔ)、計(jì)算、安全和管理的最高效、最穩(wěn)定、最經(jīng)濟(jì)的方法。
數(shù)據(jù)的網(wǎng)絡(luò)傳輸非常重要,F(xiàn)AST建好以后,就有大量的數(shù)據(jù)要來(lái),首先要解決的就是傳輸?shù)膯?wèn)題。FAST數(shù)據(jù)傳輸?shù)耐ㄓ嵔Y(jié)構(gòu)并不簡(jiǎn)單,從貴陽(yáng)到FAST現(xiàn)場(chǎng)一共是300公里,這300公里,要跨省,要跨州、跨縣,一共有21個(gè)周轉(zhuǎn)節(jié)點(diǎn),當(dāng)時(shí)是2個(gè)G的專線直接拉到我們實(shí)驗(yàn)室。傳輸結(jié)構(gòu)主要包括兩條線,一旦出現(xiàn)問(wèn)題,數(shù)據(jù)保證不會(huì)中斷,這是我們通訊的結(jié)構(gòu)。
FAST脈沖性搜索分布式超算硬件機(jī)構(gòu),我們走的路還是有借鑒意義的。在FAST計(jì)算里面,我們有四種計(jì)算節(jié)點(diǎn),A計(jì)算節(jié)點(diǎn)在每一臺(tái)服務(wù)器里面加8塊GPU卡,其中2個(gè)CPU,一共有10臺(tái),這個(gè)計(jì)算節(jié)點(diǎn)我們的理論峰值可以到664T浮點(diǎn)預(yù)算。
第二種計(jì)算節(jié)點(diǎn)B,每一臺(tái)PC級(jí)加2塊GPU卡,一個(gè)CPU,一共有60臺(tái),峰值我們可以達(dá)到1.02的浮點(diǎn)計(jì)算。
第三種計(jì)算節(jié)點(diǎn),我們是每一臺(tái)服務(wù)器我們兩塊GPU再加一個(gè)CPU,一共是14臺(tái),總的計(jì)算結(jié)果是235P浮點(diǎn)預(yù)算。
第四種可以看得更簡(jiǎn)單,很一般的PC機(jī),每一臺(tái)PC機(jī)只有一塊GPU加一個(gè)CPU,最高峰值是378的浮點(diǎn)預(yù)算。所有144個(gè)節(jié)點(diǎn)的理論峰值2.16P浮點(diǎn)預(yù)算,就是每秒2000萬(wàn)億次浮點(diǎn)預(yù)算。
CPU+GPU的計(jì)算節(jié)點(diǎn)是有自主知識(shí)產(chǎn)權(quán)設(shè)置定制的,從這個(gè)角度來(lái)說(shuō),我們這個(gè)還是非常經(jīng)濟(jì)和低成本的運(yùn)轉(zhuǎn),我們覺得非常非常合適貴州的實(shí)際情況。
我們數(shù)量級(jí)的提高了脈沖星的搜索速度,原來(lái)一臺(tái)計(jì)算機(jī)單線程要用6004秒,但是我們用自主設(shè)定的設(shè)備計(jì)算只需36秒,計(jì)算速度提高了200倍。在搜索速度方面,F(xiàn)AST要求我們的計(jì)算要求壓力越來(lái)越大,但是我們只要再增加設(shè)備把架構(gòu)一擴(kuò)充,還可以上百倍增加這個(gè)速度。
數(shù)據(jù)計(jì)算出來(lái)以后,得到一些侯選題,從這些候選題里就可以找到我們需要的東西。以前用人的眼睛來(lái)找,現(xiàn)在利用計(jì)算機(jī)能不能找出來(lái),這關(guān)系到人工智能深度學(xué)習(xí)的問(wèn)題。
計(jì)算處理是怎樣一個(gè)過(guò)程呢?從FAST下線以后到現(xiàn)在,我們一共收到的數(shù)據(jù)是1.436PB,也就是10的15次方?,F(xiàn)在大概收到2個(gè)PB不到,數(shù)據(jù)量很大,而且這些數(shù)據(jù)越往后面會(huì)越多。
拿到數(shù)據(jù),我們第一件事兒就是要消除觀測(cè)數(shù)據(jù)中的干擾信號(hào)。搜索脈沖星形,必須消除觀測(cè)數(shù)據(jù)中的干擾信號(hào)。第二就是消色散,脈沖星發(fā)出的射電信號(hào)在星際介質(zhì)中會(huì)產(chǎn)生色散,就像陽(yáng)光通過(guò)棱鏡會(huì)散開成彩色光帶,這是因?yàn)椴煌念l率的信號(hào)在介質(zhì)中傳播速度不同而導(dǎo)致的。從脈沖星發(fā)出脈沖信號(hào),經(jīng)過(guò)漫長(zhǎng)的時(shí)間,再通過(guò)復(fù)雜而遙遠(yuǎn)的星際介質(zhì),頻率高的先到達(dá)FAST的接收天線,頻率低的后到,整個(gè)信號(hào)波長(zhǎng)就會(huì)被拉開了,我要消色散就是要解決這一問(wèn)題。
消色散以后,我們?cè)谕ㄟ^(guò)快速傅里葉變換計(jì)算消色散信號(hào)中包含的周期信號(hào),從而得到一個(gè)正確投射。
最后就是折疊的問(wèn)題,為了增加信號(hào),我們需要將消色散后的信號(hào)按周期疊加,在這些周期信號(hào)里面信號(hào)很弱,但是疊加能讓它們?cè)鰪?qiáng)。這其中有很大的工作量,人工去做要花很長(zhǎng)的時(shí)間,所以現(xiàn)在人工智能很火,深度機(jī)器學(xué)習(xí)很火,我們用深度機(jī)器學(xué)習(xí)來(lái)找,效果很不錯(cuò)。目前我們中心的19個(gè)波束接收機(jī)已經(jīng)全部投入使用,產(chǎn)生的觀測(cè)數(shù)據(jù)量每天至少19TB,搜索計(jì)算任務(wù)艱巨。
FAST找到脈沖星開啟了中國(guó)重大的科學(xué)基礎(chǔ)設(shè)備系統(tǒng)研創(chuàng)性的脈沖星,這是中國(guó)天眼首先發(fā)現(xiàn)兩顆脈沖星,第一顆脈沖星距我們地球是1.6萬(wàn)光年,我記得周期是1.83秒,第二顆距我們地球是4.1萬(wàn)光年,周期是590毫秒。最近我們協(xié)助國(guó)家天文臺(tái)發(fā)現(xiàn)90多顆新脈沖星候選體,證實(shí)了65個(gè)新脈沖星,其中包含了FAST發(fā)現(xiàn)的首個(gè)毫秒脈沖星,是至今發(fā)現(xiàn)的射電流量最弱的高能毫秒脈沖星之一。如果我們能夠找到毫秒級(jí)以上的脈沖星,那就是諾貝爾成就。
剛才在休息的時(shí)候,我問(wèn)了歐陽(yáng)院士,我說(shuō)你怎么看流浪地球,歐陽(yáng)院士說(shuō)那是胡扯。為啥呢?太陽(yáng)是恒星,它是有壽命的。當(dāng)太陽(yáng)已經(jīng)走到主星系的這個(gè)地方,再過(guò)50億年,我們太陽(yáng)要變成紅際星,最后消亡。時(shí)間應(yīng)該是50億年的嘛,怎么就是70年了呢?太陽(yáng)最后變成超紅際星,有可能變成中繼星,還有另一種可能變成黑洞。
我們做了脈沖星及候選體數(shù)據(jù)庫(kù)平臺(tái),我們?yōu)殛P(guān)心脈沖星的天文學(xué)家和天文愛好者提供脈沖星的候選體等等有關(guān)方面的信息。我們建設(shè)天文網(wǎng)絡(luò)社區(qū),非常歡迎天文學(xué)家或者同學(xué)們來(lái)訪問(wèn),這個(gè)社區(qū)里面有很多新的東西。
根據(jù)我們最近的了解,我們使用19個(gè)波束接收機(jī)接收數(shù)據(jù),已是原來(lái)單波束的4倍,隨著調(diào)試順利進(jìn)行,觀測(cè)時(shí)間在逐步增多,數(shù)據(jù)量至少是單波束數(shù)據(jù)量的19乘4倍,也就是19個(gè)波束接收的數(shù)據(jù)每秒是38G,一年要接收19個(gè)PB,經(jīng)過(guò)處理至少要存儲(chǔ)10到15個(gè)PB,就我們現(xiàn)在的計(jì)算處理能力,要滿足這么大的數(shù)據(jù)量,我們理論上的2.16PF的峰值預(yù)算還不夠,所以我們還在擴(kuò)大。但是未來(lái)發(fā)射的數(shù)據(jù)量可以到多少,如果是1ZB,那么數(shù)據(jù)量就非常非常驚人了。所以既然這么大的數(shù)據(jù)量,將來(lái)從FAST現(xiàn)場(chǎng)到貴陽(yáng),就不是100G光纖解決問(wèn)題,而是400G光纖。
我們要大力支持FAST的科學(xué)研究,所以我們?cè)缙诳茖W(xué)數(shù)據(jù)中心大力支持天文臺(tái)做這個(gè)工作,我覺得有以下幾條意義。
第一,它符合全省大數(shù)據(jù)戰(zhàn)略及大數(shù)據(jù)產(chǎn)業(yè)發(fā)展規(guī)劃。
第二,天文科學(xué)將是展示貴州文化旅游形象的珍貴名片。
第三,這有助于幫助我省科研大數(shù)據(jù)方面取得突破和樹立典型。
第四,它有助于幫助我國(guó)、世界科學(xué)家通過(guò)數(shù)據(jù)中心的計(jì)算資源和數(shù)據(jù)資源獲得諾貝爾獎(jiǎng)級(jí)發(fā)現(xiàn)。
第五,這助于貴州培養(yǎng)、吸引和積聚大數(shù)據(jù)處理和分析方面的科研型和應(yīng)用型的人才。(編輯/侯幫虎)