?
中國科學(xué)院高能物理研究所 陳剛大數(shù)據(jù)技術(shù)在高能物理中的應(yīng)用
現(xiàn)代大科學(xué)的標志為大科學(xué)機構(gòu)、大科學(xué)工程和大科學(xué)裝置。大科學(xué)裝置常產(chǎn)生海量的數(shù)據(jù),因此在大數(shù)據(jù)技術(shù)領(lǐng)域提出了巨大挑戰(zhàn)。國內(nèi)外高能物理實驗研究是典型的大科學(xué)裝置,同時在不斷推動大數(shù)據(jù)技術(shù)及應(yīng)用的發(fā)展。在應(yīng)用需求的引導(dǎo)下,高能物理領(lǐng)域積累了大量的大數(shù)據(jù)存儲、計算處理和共享等技術(shù)和經(jīng)驗。
高能物理的目標就是探索物質(zhì)微觀結(jié)構(gòu)、宇宙起源等自然規(guī)律。目前已經(jīng)證明微觀世界有六種夸克(quarks),還有六種輕子(leptons),這些一起組成了宇宙萬物。這些粒子之間的相互組合主要有三種相互作用力:電磁相互作用力、強相互作用力以及熱相互作用力,當然,還有第四種力,那就是萬有引力。
高能物理,也叫粒子物理。我國也有很多高能物理的實驗,其中一個就是BEPCII/BESIII對撞機,它是世界先進的雙環(huán)對撞機,5年內(nèi)將積累5PB的數(shù)據(jù),需要萬個CPU用于數(shù)據(jù)分析,中國、美國、德國、俄羅斯、日本等36個研究所參與合作。
另外,在亞灣反應(yīng)堆做中微子實驗,有38個研究所300多名科學(xué)家參與合作,產(chǎn)生了4PB以上數(shù)據(jù)。在2012年發(fā)現(xiàn)中微子第三種震蕩,精確測量θ13同時,利用西藏羊八井得天獨厚的優(yōu)勢,中意、中日合作進行宇宙線實驗,每年產(chǎn)生超過200TB的原始數(shù)據(jù),數(shù)據(jù)需從羊八井傳回高能所,在傳到日本、意大利進行分析處理,合作單位能夠?qū)崟r訪問數(shù)據(jù)。
圖1 典型的本地集群架構(gòu)
在高能物理領(lǐng)域,實驗數(shù)據(jù)采集之后,還要面臨數(shù)據(jù)的傳輸、保存,以及計算等一系列的挑戰(zhàn)。這將會產(chǎn)生大量的數(shù)據(jù),這個大數(shù)據(jù)的特點是隨機變量空間很大,產(chǎn)生的末態(tài)粒子極其豐富;精確測量需要大樣本。在計算過程中,也是非常復(fù)雜的,末態(tài)的模式復(fù)雜(隨機變量)。物理圖像還原非常復(fù)雜,如圖像處理、模式識別技術(shù);擬合及誤差估計。
高能物理大數(shù)據(jù)的處理過程如下:第一,數(shù)據(jù)獲取與記錄。從探測器獲取Raw Data、蒙特卡洛產(chǎn)生數(shù)字化的二進制格式的電子信號;第二,數(shù)據(jù)處理。處理后Raw/MC Raw產(chǎn)生相關(guān)物理信息,如動量、對撞頂點等;第三,數(shù)據(jù)挖掘。由上千個屬性組成的DST事例文件,提供物理學(xué)家進行分析,并最后產(chǎn)生物理結(jié)果。
在“大數(shù)據(jù)(big data)”時代,PB級甚至EB的科學(xué)研究數(shù)據(jù)尤其需要在存儲模式、技術(shù)架構(gòu)、共享傳輸、全球協(xié)同、高效處理等方面有所突破。
計算平臺的發(fā)展歷程,與計算機發(fā)展歷程是完全一致的,經(jīng)歷了從大型機,經(jīng)集群,到網(wǎng)格,再到云計算的演變。本地計算集群是基礎(chǔ),計算網(wǎng)格是“集群之集群”,需要整合計算資源。而云計算更注重平臺的通用性,提高資源利用率。因此需要對云計算與網(wǎng)格計算加以整合。
圖1是一個典型的本地集群架構(gòu)。這個系統(tǒng)目前也仍在使用,但是隨著CPU的計算能力、存儲量越來越大的時候,系統(tǒng)就會出現(xiàn)問題。
目前世界上最成功的一個網(wǎng)格系統(tǒng),實際上就是用來做高能物理的。它有若干分層,0級、1級、2級、3級,甚至一直到4級,這樣一個分布式的計算環(huán)境。0級中心主要接收原始數(shù)據(jù),保存在磁帶系統(tǒng)中,并進行第一遍數(shù)據(jù)重建,向Tier1分發(fā)數(shù)據(jù);一級中心(13個)主要提供原始數(shù)據(jù)備份,執(zhí)行數(shù)據(jù)重建、分析等任務(wù),并提供數(shù)據(jù)分發(fā)等網(wǎng)格服務(wù);二級中心(〉160個)主要執(zhí)行模擬、數(shù)據(jù)分析等任務(wù)。
當然,計算集群或網(wǎng)格存在不足之處,如CPU資源利用率不足、遺留程序與操作系統(tǒng)不匹配、調(diào)度不靈活、運維成本高等問題。這時,就需要引入虛擬化和云計算。
虛擬計算集群在物理機和RMS(資源管理系統(tǒng))之間構(gòu)造虛擬層,將物理機虛擬化,形成多個虛擬機。同時,將RMS安裝在虛擬機上,對用戶完全透明,減少運維工作量,提高資源利用率。
歐洲核子研究中心的“CERN Cloud”是世界最大的虛擬集群之一,它基于Openstack構(gòu)建,并于2013年開始運行。統(tǒng)一管理兩個數(shù)據(jù)中心(日內(nèi)瓦與布達佩斯),其規(guī)模為4600個物理機,12.5萬顆CPU核,15000個虛擬機,2016年還將擴充資源。根據(jù)集群任務(wù)動態(tài)創(chuàng)建或刪除虛擬機,平均10秒鐘創(chuàng)建/刪除一個虛擬機。據(jù)了解,CERN團隊獲得Openstack巴黎峰會SuperUser大獎。
在國內(nèi),我們有自己的實驗和計算環(huán)境。例如,之前提到的BESIII分布式計算系統(tǒng),采用Pilot與計算插件技術(shù),整合合作單位的計算資源,能夠根據(jù)用戶作業(yè)的數(shù)目進行實時的虛擬機動態(tài)創(chuàng)建和刪除,實現(xiàn)資源彈性管理。共14個站點,分布在中國,美國,俄羅斯和意大利。
在先進信息化環(huán)境的支撐下,BESIII實驗一直領(lǐng)跑全球tau-粲物理研究。2013年3月宣布發(fā)現(xiàn)了奇特態(tài)候選者——帶電類粲偶素Zc(3900);2013年6月18日,《自然》(nature)雜志就此發(fā)表了題為“夸克‘四重奏’打開了物質(zhì)世界一扇嶄新的大門)”的新聞報道;這一成果被國際物理學(xué)頂級期刊、美國物理學(xué)會主編的《物理》雜志選為2013年國際物理學(xué)領(lǐng)域重要成果,在11個入選項目中位列第一;《粒子物理手冊》2014版收錄Zc(3900),是唯一收錄的在我國發(fā)現(xiàn)的新粒子!
高能物理的應(yīng)用不同于互聯(lián)網(wǎng)文本數(shù)據(jù)挖掘,它具有以下特點:數(shù)據(jù)以對象方式存儲,使用C++庫訪問;非〈key,value〉類型計算;隨機訪問;復(fù)雜的數(shù)據(jù)類型。
高能物理領(lǐng)域,實際上是一個大科學(xué)、大需求、大數(shù)據(jù)、大計算、大發(fā)現(xiàn)的過程。它要求多種計算技術(shù),推動了信息化技術(shù)的發(fā)展。同時,多種信息化支撐手段也在推動高能物理科學(xué)的進步,這是一個相輔相成的過程。
(本文整理自中國科學(xué)院高能物理研究所副所長陳剛在第四屆中國科研信息化發(fā)展研討會上的演講“高能物理中的大數(shù)據(jù)技術(shù)”)