文/陳剛
大科學(xué)的數(shù)據(jù)是現(xiàn)代科學(xué)研究的根本,數(shù)據(jù)平臺的建設(shè)將保障和促進(jìn)科學(xué)研究的順利開展。
現(xiàn)代科學(xué)研究項(xiàng)目往往規(guī)模巨大。高能物理、基因組學(xué)、蛋白組學(xué)、天體物理學(xué)等大科學(xué)工程都是以數(shù)據(jù)為中心的學(xué)科,這些大科學(xué)工程產(chǎn)生越來越多的數(shù)據(jù),迫切需要建立大規(guī)模的數(shù)據(jù)中心對數(shù)據(jù)進(jìn)行存儲(chǔ)、管理、分析和處理。
以高能物理實(shí)驗(yàn)為例,當(dāng)今以歐洲大型強(qiáng)子對撞機(jī)LHC(Large Hadron Collider)為代表的一批高能物理實(shí)驗(yàn)每年產(chǎn)生的數(shù)據(jù)多達(dá)數(shù)十PB,需要建立一大批數(shù)據(jù)中心聯(lián)合對數(shù)據(jù)進(jìn)行分析處理。過去十多年來,國際高能物理的同行在全球范圍內(nèi)建立了近兩百個(gè)數(shù)據(jù)中心,利用網(wǎng)格技術(shù)將這些數(shù)據(jù)中心聯(lián)合起來形成一個(gè)統(tǒng)一的數(shù)據(jù)處理平臺,為LHC的物理研究提供支撐。這種多數(shù)據(jù)中心聯(lián)合形成的網(wǎng)格平臺很好地解決了海量數(shù)據(jù)開放融合、高效處理的問題。
高能物理采用完全開放融合共享的計(jì)算模式,海量基礎(chǔ)數(shù)據(jù)、計(jì)算能力、存儲(chǔ)能力、傳輸能力等等對于全球合作成員都是開放共享的。這種模式確保了所有的數(shù)據(jù)中心高效地分擔(dān)數(shù)據(jù)處理的任務(wù),同時(shí)使物理學(xué)家能夠在世界上任何一個(gè)地方訪問數(shù)據(jù)資源和計(jì)算資源。可以說,高能物理是科研大數(shù)據(jù)的先驅(qū),也是科研大數(shù)據(jù)的典型成功案例。
分布式的數(shù)據(jù)中心首先需要強(qiáng)大的網(wǎng)絡(luò)支撐。高能物理網(wǎng)格平臺采用1Gbps~40Gbps的專用國際網(wǎng)絡(luò)鏈路把這些近兩百個(gè)數(shù)據(jù)中心連在一起,利用這些網(wǎng)絡(luò)鏈路進(jìn)行數(shù)據(jù)的傳輸和計(jì)算任務(wù)的全局調(diào)度。每年在這些數(shù)據(jù)中心之間的數(shù)據(jù)交換達(dá)數(shù)百PB。
大科學(xué)裝置產(chǎn)生的海量數(shù)據(jù)需要經(jīng)過高效的處理和分析才能獲得研究結(jié)果。因此,建立高水平的數(shù)據(jù)中心為科學(xué)研究提供數(shù)據(jù)處理基礎(chǔ)環(huán)境是科學(xué)研究的重要工作之一。數(shù)據(jù)中心包括硬件環(huán)境和基礎(chǔ)軟件環(huán)境兩大部分,硬件環(huán)境包括數(shù)據(jù)存儲(chǔ)、計(jì)算環(huán)境、網(wǎng)絡(luò)環(huán)境三大資源。實(shí)驗(yàn)產(chǎn)生的海量數(shù)據(jù)需要安全可靠地記錄保存起來,同時(shí)又能被高效的訪問。存儲(chǔ)系統(tǒng)需要根據(jù)科研數(shù)據(jù)的規(guī)模及處理模式進(jìn)行仔細(xì)的規(guī)劃設(shè)計(jì),以滿足數(shù)據(jù)分析的需求。一般而言,科學(xué)計(jì)算對數(shù)據(jù)的訪問往往既需要高吞吐率,又需要高并發(fā)率,這就要求數(shù)據(jù)存儲(chǔ)系統(tǒng)能支撐高I/O吞吐能力和高并發(fā)訪問能力。數(shù)據(jù)中心一般配備分布式的并行存儲(chǔ)系統(tǒng),如GPFS, ZFS, Lustre等等。這些存儲(chǔ)系在性能和容量規(guī)模上都后很好的可擴(kuò)展性,從而能夠很好的滿足作為大規(guī)模數(shù)據(jù)中心的需求。高能物理研究所的數(shù)據(jù)中心對Lustre進(jìn)行了改進(jìn)優(yōu)化,建立的高性能海量數(shù)據(jù)存儲(chǔ)系統(tǒng)性能達(dá)到國際同行先進(jìn)水平,可滿足大規(guī)模數(shù)據(jù)處理的需求。
數(shù)據(jù)中心的基礎(chǔ)軟件部分主要用于硬件資源和服務(wù)資源的管理。資源管理系統(tǒng)用于對存儲(chǔ)資源、計(jì)算資源及網(wǎng)絡(luò)資源進(jìn)行管理和調(diào)度。由于許多大科學(xué)工程的數(shù)據(jù)處理和計(jì)算軟件不是標(biāo)準(zhǔn)的商業(yè)軟件,這些科學(xué)計(jì)算應(yīng)用軟件需要針對科學(xué)項(xiàng)目進(jìn)行自主開發(fā)。基礎(chǔ)軟件一方面將硬件平臺進(jìn)行屏蔽,另一方面提供通用軟件庫來支撐科學(xué)計(jì)算應(yīng)用軟件的開發(fā)。這樣做的好處是能夠讓科學(xué)家把精力放在與科學(xué)研究相關(guān)的軟件開發(fā)上而不必關(guān)心底層硬件的特性。這種模式也更便于科學(xué)計(jì)算軟件向新的計(jì)算機(jī)硬件平臺上的移植。
以高能物理為例,物理學(xué)家開發(fā)了用于描述粒子相互作用的軟件包GEANT4。該軟件包用來模擬粒子穿過介質(zhì)時(shí)與介質(zhì)發(fā)生作用的過程,幫助物理學(xué)家理解或預(yù)測實(shí)驗(yàn)產(chǎn)生的結(jié)果和數(shù)據(jù),并為實(shí)驗(yàn)裝置的設(shè)計(jì)、數(shù)據(jù)的分析處理提供依據(jù)。另外,物理學(xué)家還開發(fā)了各種通用的數(shù)字計(jì)算和物理分析軟件包,如物理分析框架ROOT。ROOT是一個(gè)面向?qū)ο蟮臄?shù)據(jù)分析框架工具,可用于大規(guī)模數(shù)據(jù)的分析處理和可視化。高能物理的數(shù)據(jù)中心普遍采用這些軟件包作為數(shù)據(jù)處理的基礎(chǔ),而物理學(xué)家在此基礎(chǔ)上建立自己的數(shù)據(jù)處理系統(tǒng)。
事實(shí)上,以高能物理為代表的科研大數(shù)據(jù)研究一直在推動(dòng)著計(jì)算、網(wǎng)絡(luò)、存儲(chǔ)等大數(shù)據(jù)基礎(chǔ)技術(shù)的發(fā)展。2004年開始建立面向數(shù)據(jù)密集型計(jì)算的高能物理數(shù)據(jù)中心,目前擁有近10PB的海量存儲(chǔ)空間,超萬核的計(jì)算能力。高能物理研究所在教育網(wǎng)和科技網(wǎng)的幫助下建立了通過TEIN2/ORIENT和升級后的ORIENTplus到歐洲的高速鏈路,每年的國際數(shù)據(jù)交換達(dá)到3PB以上。高能物理數(shù)據(jù)中心每年為LHC實(shí)驗(yàn)的完成超過500萬個(gè)計(jì)算任務(wù),為Higgs粒子的發(fā)現(xiàn)等重大物理成果的產(chǎn)出做出了貢獻(xiàn)。同時(shí)該數(shù)據(jù)中心還為其它高能物理、天文、生物等多個(gè)領(lǐng)域提供數(shù)據(jù)和計(jì)算服務(wù),有力支撐了大亞灣中微子實(shí)驗(yàn)在海量的事例中發(fā)現(xiàn)中微子第三種振蕩模式,被美國《科學(xué)》雜志評選為2012年度十大科學(xué)突破之一。
高能物理研究所有力支撐了大亞灣中微子實(shí)驗(yàn)在海量的事例中發(fā)現(xiàn)中微子第三種振蕩模式,被美國《科學(xué)》雜志評選為2012年度十大科學(xué)突破之一。
借鑒高能物理海量數(shù)據(jù)處理的技術(shù)與經(jīng)驗(yàn),高能物理研究所正在建設(shè)一個(gè)開放融合的科研大數(shù)據(jù)應(yīng)用中心,通過將數(shù)據(jù)中心的功能進(jìn)行外延,與大科學(xué)工程的數(shù)據(jù)獲取系統(tǒng)、數(shù)據(jù)處理和展示等系統(tǒng)進(jìn)行整合,力圖成為大科學(xué)工程領(lǐng)域大數(shù)據(jù)的集散地和數(shù)據(jù)加工廠。
科研大數(shù)據(jù)應(yīng)用中心的特點(diǎn)首先表現(xiàn)在數(shù)據(jù)開放性上。系統(tǒng)集分布式數(shù)據(jù)獲取和整合、存儲(chǔ)、共享、傳輸、處理與展現(xiàn)與一體,通過將平臺和應(yīng)用的分工細(xì)化,提供不同級別的大數(shù)據(jù)基礎(chǔ)支撐服務(wù)。大數(shù)據(jù)應(yīng)用的研究者、開發(fā)者只需要利用平臺開放的數(shù)據(jù)獲取能力,獲取需要的數(shù)據(jù),或整合平臺已有數(shù)據(jù),并調(diào)用已有的存儲(chǔ)、計(jì)算以及數(shù)據(jù)挖掘工具工作,即可以最高的效率、最低的成本達(dá)到研究及應(yīng)用的目標(biāo)。實(shí)際上,高能物理領(lǐng)域一直是按照這個(gè)模式開展工作,該平臺將這種模式從高能物理擴(kuò)大到其它大數(shù)據(jù)領(lǐng)域。
科研大數(shù)據(jù)應(yīng)用中心的另一個(gè)特點(diǎn)表現(xiàn)在數(shù)據(jù)融合能力上??蒲写髷?shù)據(jù)應(yīng)用中心的數(shù)據(jù)是流動(dòng)的且不斷更新的。一方面,高能所基于自身科研需求,可以聚合其他領(lǐng)域科學(xué)應(yīng)用的海量數(shù)據(jù)。另一方面,基于志愿計(jì)算的分布式數(shù)據(jù)采集技術(shù)是高能所獨(dú)有的優(yōu)勢,采用該技術(shù)可以實(shí)現(xiàn)對互聯(lián)網(wǎng)海量數(shù)據(jù)的有效采集,具有時(shí)效性、廣泛性與精準(zhǔn)性的顯著特征。最后,通過數(shù)據(jù)合作、交換,可以整合更多領(lǐng)域的科研數(shù)據(jù)、物聯(lián)網(wǎng)數(shù)據(jù)、互聯(lián)網(wǎng)數(shù)據(jù)等海量數(shù)據(jù)。這些來源不同的數(shù)據(jù)依托科研大數(shù)據(jù)應(yīng)用中心,實(shí)現(xiàn)高效、便捷、可控的分享、交換、融合,最終促進(jìn)跨學(xué)科交叉創(chuàng)新,實(shí)現(xiàn)數(shù)據(jù)價(jià)值的最大化。目前該數(shù)據(jù)應(yīng)用中心整合了對撞機(jī)(如歐洲大型強(qiáng)制對撞機(jī)、北京正負(fù)電子對撞機(jī))實(shí)驗(yàn)數(shù)據(jù)、大亞灣中微子實(shí)驗(yàn)數(shù)據(jù)、羊八井宇宙線實(shí)驗(yàn)數(shù)據(jù)、高能天體物理數(shù)據(jù)以及核分析數(shù)據(jù)等一大批自然科學(xué)數(shù)據(jù)資源,同時(shí)還采集了大規(guī)模的互聯(lián)網(wǎng)數(shù)據(jù),為相關(guān)科學(xué)領(lǐng)域和交叉學(xué)科提供服務(wù)。
科研大數(shù)據(jù)應(yīng)用中心的特點(diǎn)還表現(xiàn)在數(shù)據(jù)跨地域的傳輸與共享方面??蒲写髷?shù)據(jù)的特點(diǎn)是需要進(jìn)行跨地域的海量數(shù)據(jù)交換。國內(nèi)數(shù)據(jù)中心之間的數(shù)據(jù)交換仍存在帶寬資源不足的問題。為了解決這一難題,高能物理研究所正在建設(shè)高能物理數(shù)據(jù)傳輸虛擬專用網(wǎng)(CHEPDTN),采用軟件定義網(wǎng)絡(luò)技術(shù)和網(wǎng)絡(luò)架構(gòu)(SDN),充分利用已有的網(wǎng)絡(luò)基礎(chǔ)設(shè)施(設(shè)備)和資源(IPv4和IPv6帶寬),滿足跨地域的高能物理實(shí)驗(yàn)合作單位之間的高速、穩(wěn)定、安全的數(shù)據(jù)傳輸需求。目前CHEPDTN連接了高能物理研究所、山東大學(xué)、上海交通大學(xué)和中國科技大學(xué),實(shí)現(xiàn)科學(xué)數(shù)據(jù)的高速傳輸。與普通的云計(jì)算中心相比,建設(shè)中的科研大數(shù)據(jù)應(yīng)用中心既有工具(云計(jì)算平臺)又有金礦(數(shù)據(jù)),同時(shí)整合了科研、互聯(lián)網(wǎng)、物聯(lián)網(wǎng)等多領(lǐng)域的數(shù)據(jù)。良好的體系結(jié)構(gòu)和新技術(shù)新思想的引入正在推動(dòng)整個(gè)平臺的健康發(fā)展?,F(xiàn)代大科學(xué)都是數(shù)據(jù)驅(qū)動(dòng)的,大科學(xué)工程在數(shù)據(jù)獲取、存儲(chǔ)與處理、數(shù)據(jù)傳輸與共享、數(shù)據(jù)展現(xiàn)等方面有著強(qiáng)烈的需求。在應(yīng)用需求的引導(dǎo)下,高能物理等大科學(xué)領(lǐng)域在過去幾十年中積累了大量的大數(shù)據(jù)存儲(chǔ)、處理和共享等技術(shù)和經(jīng)驗(yàn)。大科學(xué)的數(shù)據(jù)是現(xiàn)代科學(xué)研究的根本,數(shù)據(jù)平臺的建設(shè)將保障和促進(jìn)科學(xué)研究的順利開展。科研大數(shù)據(jù)技術(shù)的研究和發(fā)展反過來可應(yīng)用于整個(gè)社會(huì)的大數(shù)據(jù)行業(yè)。