• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      高能物理實驗的數(shù)據(jù)密集型計算*

      2013-02-24 05:52:22陳和生
      中國科學院院刊 2013年4期
      關(guān)鍵詞:高能物理數(shù)據(jù)處理粒子

      文/陳和生 陳 剛

      中國科學院高能物理研究所北京100049

      高能物理實驗的數(shù)據(jù)密集型計算*

      文/陳和生 陳 剛

      中國科學院高能物理研究所北京100049

      高能物理一直是信息技術(shù)發(fā)展的主要推動者之一。現(xiàn)代高能物理產(chǎn)生的海量數(shù)據(jù)對計算機技術(shù)提出巨大的挑戰(zhàn)。為了應對這些挑戰(zhàn),國內(nèi)外高能物理領(lǐng)域的科學家根據(jù)數(shù)據(jù)處理的特點建立新的計算平臺用于傳輸、儲存及分析處理PB量級的數(shù)據(jù)。文章介紹了現(xiàn)代高能物理實驗及數(shù)據(jù)處理的發(fā)展,并描述了高能物理的計算模型以及以網(wǎng)格技術(shù)為代表的數(shù)據(jù)密集型計算平臺;詳細介紹了數(shù)據(jù)密集型網(wǎng)格平臺在LHC實驗、BESIII實驗中的應用以及中國的數(shù)據(jù)密集型網(wǎng)格平臺。并對云計算等新技術(shù)在高能物理領(lǐng)域的應用進行了展望。

      高能物理,大數(shù)據(jù),數(shù)據(jù)密集型計算,網(wǎng)格,云計算

      DOI 10.3969/j.issn.1000-3045.2013.04.010

      1 高能物理簡介

      高能物理,又稱為粒子物理,是物理學一個前沿分支。其科學目標是研究組成物質(zhì)的最小單元及其相互作用規(guī)律。物質(zhì)由原子組成,原子由原子核和電子組成。原子核由質(zhì)子和中子組成。質(zhì)子和中子則是由夸克組成的。粒子間的相互作用由中間波色子傳遞?,F(xiàn)代高能物理研究的主要目標包括深入檢驗標準模型、探索超越標準模型的新粒子和新現(xiàn)象(更高的能量標度)。粒子物理與宇宙學和天體物理的交叉產(chǎn)生了交叉前沿學科——粒子天體物理。最新的天文觀察結(jié)果表明,宇宙中存在暗物質(zhì)和暗能量,分別占宇宙物質(zhì)總量的23%和73%,而迄今為止標準模型描述的物質(zhì)只占4%。高能物理面臨巨大的挑戰(zhàn),正處于重大歷史性突破的前夜。高能物理實驗要求大型的科學實驗裝置,包括大型加速器和探測器。目前世界上最大的高能物理實驗裝置是在日內(nèi)瓦歐洲核子中心(CERN)的大型強子對撞機(LHC)[1],其主要物理目標是尋找希格斯(Higgs)粒子,超對稱(Supersymmetric)粒子以及其他新物理現(xiàn)象。人們還在探討建立更高能量的物理直線對撞機(ILC)或Higgs工廠,對LHC發(fā)現(xiàn)的新物理和新粒子進行更精確的研究。另外還有許多非加速器物理實驗正在探索超越標準模型的物理現(xiàn)象,包括粒子天體物理實驗,宇宙線觀測、中微子物理實驗(如測量中微子質(zhì)量的順序,CP破壞……),尋找暗物質(zhì)等等。這些實驗尋找稀有事例,需要建設龐大的探測器,往往也是大科學裝置。

      高能物理是實驗科學,實驗驗證理論并推動理論發(fā)展。理論物理學家利用實驗觀測的結(jié)果來驗證理論,并提出推論或新的理論。新的理論又需要新的實驗來驗證。因此,實驗是高能物理研究的基礎(chǔ),而實驗的數(shù)據(jù)處理是物理分析研究的關(guān)鍵。高能物理實驗的傳統(tǒng)是根據(jù)其數(shù)據(jù)處理及物理分析的需求特點,結(jié)合信息技術(shù)建立自己的信息平臺。該平臺為數(shù)據(jù)的采集、存儲、處理和分析,物理模擬及合作交流提供支撐。

      圖1 20世紀70年代的實驗,粒子在探測器(泡室)中的徑跡

      圖2 布魯克海文實驗室STAR實驗,金核與金核對撞產(chǎn)生的粒子在探測器的徑跡

      2 高能物理實驗和數(shù)據(jù)發(fā)展趨勢

      過去幾十年高能物理實驗的規(guī)模和復雜度都發(fā)生了巨大的變化。實驗規(guī)模和復雜度的提高意味著數(shù)據(jù)量的增加和數(shù)據(jù)分析難度的增加。但是高能物理的計算模式基本不變?,F(xiàn)代實驗的數(shù)據(jù)采集系統(tǒng)對實驗數(shù)據(jù)進行采集、甄別和快速過濾,形成實驗原始數(shù)據(jù)。海量數(shù)據(jù)存儲系統(tǒng)記錄原始數(shù)據(jù),用于后續(xù)數(shù)據(jù)分析處理。高能物理實驗的精度依賴于數(shù)據(jù)的統(tǒng)計量,尋找稀有事例實驗的數(shù)據(jù)量越來越大。原始數(shù)據(jù)在所謂的離線(相對于在線數(shù)據(jù)采集)計算系統(tǒng)中進行處理和分析。離線處理包括以下工作:(1)根據(jù)實驗裝置的特性和工作狀態(tài)對原始數(shù)據(jù)的校準刻度;(2)根據(jù)粒子與實驗探測器介質(zhì)相互作用的性質(zhì)對刻度后的數(shù)據(jù)進行事例重建,鑒別出具有明確物理意義的粒子及對應的物理參數(shù);(3)對鑒別出來的粒子進行分類篩選,找出特定的物理事例并進行物理研究分析。所有這些計算都涉及大規(guī)模的數(shù)據(jù)處理,同時可能產(chǎn)生更多的重建數(shù)據(jù)和蒙特卡洛模擬數(shù)據(jù)。另外,隨著實驗中粒子能量的不斷提高,數(shù)據(jù)的復雜度也越來越高。圖1[2]和圖2顯示的是早期高能物理實驗和最新實驗中的粒子徑跡數(shù)量的對比。

      高能物理實驗的發(fā)展使實驗的規(guī)模和復雜度不斷提高,實驗數(shù)據(jù)產(chǎn)生、分析和處理對計算環(huán)境不斷提出巨大的挑戰(zhàn)。以20世紀末世界上最大的對撞機LEP(Large Electron Positron collider)為例,它的4個實驗在1989—2000年整個實驗期間積累的數(shù)據(jù)總共不到20TB。而最新的LHC對撞機實驗每年采集的數(shù)據(jù)就達15PB以上。因此高能物理實驗需要通過大規(guī)模的國際合作來進行數(shù)據(jù)分析。早期的高能物理實驗的數(shù)據(jù)分析可以在一個數(shù)據(jù)中心內(nèi)完成。20世紀80年代末之前,由于網(wǎng)絡性能的限制,數(shù)據(jù)處理和分析也只能局限在一個數(shù)據(jù)中心中。從20世紀90年代開始,高能物理實驗的規(guī)模出現(xiàn)了巨大的提升,來自世界各國的科學家聯(lián)合參加同一個實驗,實驗的數(shù)據(jù)需要在多個數(shù)據(jù)中心進行分析處理?;ヂ?lián)網(wǎng)的出現(xiàn)和普及為數(shù)據(jù)及計算資源的遠程訪問和共享提供了條件。WWW網(wǎng)頁應運而生,不僅成為高能物理學家的基本交流手段,更帶來一次深刻信息技術(shù)的革命,產(chǎn)生極為巨大的影響。隨著包括對撞機實驗、宇宙線實驗等在內(nèi)的新的高能物理實驗的發(fā)展,數(shù)據(jù)的規(guī)模將進一步擴大。數(shù)據(jù)的處理不僅需要更高性能的網(wǎng)絡的支撐,同時還需要最新的存儲技術(shù)、計算機技術(shù)來應對新的挑戰(zhàn)。

      3 高能物理數(shù)據(jù)處理基礎(chǔ)環(huán)境和相關(guān)技術(shù)

      高能物理實驗產(chǎn)生的數(shù)據(jù)經(jīng)過高效處理和分析才能獲得物理結(jié)果。因此,建立高性能數(shù)據(jù)處理基礎(chǔ)環(huán)境是高能物理實驗的重要工作之一,包括硬件環(huán)境和軟件環(huán)境兩大類。硬件環(huán)境包括數(shù)據(jù)存儲、計算環(huán)境、網(wǎng)絡環(huán)境三大資源。實驗產(chǎn)生的海量數(shù)據(jù)需要安全可靠地保存起來,同時又能高效地訪問。因此存儲系統(tǒng)需要根據(jù)實驗數(shù)據(jù)的規(guī)模及處理模式進行仔細設計,以滿足實驗需求。對撞機實驗的對撞事例彼此沒有關(guān)聯(lián),宇宙線粒子事例間也沒有關(guān)聯(lián)。因此高能物理數(shù)據(jù)的特點是海量,同時互不關(guān)聯(lián)。盡管數(shù)據(jù)的格式有可能不同,但高能物理的實驗數(shù)據(jù)都是以數(shù)據(jù)文件的方式存儲的。目前每個數(shù)據(jù)文件的大小都在幾個GB的量級。由于數(shù)據(jù)文件是沒有關(guān)聯(lián)的,因此可以啟動一批獨立的計算作業(yè)同時對數(shù)據(jù)文件進行分別處理。一般情況下,一個數(shù)據(jù)中心會同時提交上千個甚至上萬個作業(yè),這些作業(yè)會同時訪問成千上萬個數(shù)據(jù)文件,這就要求數(shù)據(jù)存儲系統(tǒng)具有很高的聚合I/O吞吐能力以適應高并發(fā)訪問請求。高能物理數(shù)據(jù)中心一般配備分布式的存儲系統(tǒng),如GPFS、ZFS、Lustre等等?,F(xiàn)代高能物理實驗的規(guī)模巨大,因此實驗的數(shù)據(jù)常被分散到若干個數(shù)據(jù)中心進行存儲和分析處理??紤]到數(shù)據(jù)安全,數(shù)據(jù)有時還采用異地備份。

      就計算環(huán)境而言,高能物理數(shù)據(jù)絕大部分是以可分割及相對獨立數(shù)據(jù)文件方式保存和處理的,因此并不需要大規(guī)模的內(nèi)存共享的并行計算任務。高能物理的計算環(huán)境主要采用松耦合的計算集群系統(tǒng)。這種計算集群造價比較便宜,宜于升級。為了有效地利用遍布世界各地的實驗合作單位的數(shù)據(jù)中心建立分布式的數(shù)據(jù)處理環(huán)境,高速網(wǎng)絡是現(xiàn)代高能物理實驗數(shù)據(jù)處理不可缺少的條件。數(shù)據(jù)中心之間至少需要Gbps級、10Gbps級甚至更高的網(wǎng)絡帶寬進行數(shù)據(jù)的傳輸和交換。

      高能物理數(shù)據(jù)處理基礎(chǔ)環(huán)境的軟件部分主要包括資源管理系統(tǒng)和通用軟件包兩部分。資源管理系統(tǒng)用于對存儲資源、計算資源及網(wǎng)絡資源進行管理和調(diào)度。高能物理領(lǐng)域常根據(jù)數(shù)據(jù)處理的特點建立自己的數(shù)據(jù)格式以提高數(shù)據(jù)的存儲及訪問的效率和便利性。還開發(fā)針對大規(guī)模數(shù)據(jù)傳輸及廣域網(wǎng)數(shù)據(jù)管理的系統(tǒng),實現(xiàn)海量數(shù)據(jù)在數(shù)據(jù)中心之間的傳輸和管理。

      盡管世界各地的高能物理實驗的研究目標不同,實驗也不同,但所涉及的物理過程具有很高的相似性。這為建立通用軟件進行共享提供了可能,例如,物理學家開發(fā)的用于描述粒子相互作用的軟件包GEANT4[3]。該軟件包用來模擬粒子穿過介質(zhì)時與物質(zhì)發(fā)生作用的過程,從而幫助物理學家理解或預測實驗產(chǎn)生的數(shù)據(jù),為實驗設計、數(shù)據(jù)分析處理提供依據(jù)。另外,物理學家還開發(fā)了各種通用的數(shù)字計算和物理分析軟件包,如物理分析框架ROOT[4]。ROOT是一個面向?qū)ο蟮臄?shù)據(jù)分析框架工具,可用于大規(guī)模數(shù)據(jù)的分析處理和可視化。由于這些軟件工具全部是開源的,幾乎全世界的高能物理實驗均采用這些軟件包作為數(shù)據(jù)處理的基礎(chǔ),并在此基礎(chǔ)上建立自己的數(shù)據(jù)處理系統(tǒng)。

      高能物理數(shù)據(jù)的處理分析建立在上述的基礎(chǔ)環(huán)境之上。數(shù)據(jù)處理涉及到以下任務及技術(shù):

      3.1 物理模擬

      高能物理對撞產(chǎn)生的終態(tài)粒子(或者宇宙線)在探測器介質(zhì)中的運動過程會與介質(zhì)發(fā)生相互作用,從而留下時間、位置及能量沉積等信息。這些信息將被用來決定終態(tài)粒子的物理參數(shù),如能量、動量、運動方向和粒子種類等等。由于粒子與介質(zhì)的作用過程十分復雜,且具有隨機性,因此必須用蒙特卡洛方法來模擬這些反應的詳細過程,并數(shù)字化。

      在高能物理實驗裝置設計階段,需要對探測器做大量的模擬研究,以了解實驗裝置對終態(tài)粒子的響應,判斷該裝置能否滿足物理目標的要求,并優(yōu)化裝置的設計。在探測器開始運行前,物理模擬數(shù)據(jù)還被用來檢驗數(shù)據(jù)分析軟件的正確性和可靠性。

      為達到足夠的模擬精度,物理模擬必須產(chǎn)生與實際實驗采集數(shù)量相當?shù)氖吕?,因此模擬過程也將產(chǎn)生海量的數(shù)據(jù),而且是一個巨大的任務。

      3.2 數(shù)據(jù)重建及物理分析

      高能物理實驗裝置用來記錄終態(tài)粒子穿過裝置介質(zhì)時留下的信息。每個信息記錄點稱為一個擊中點或著火點(hit)。這些擊中點的信息通過快速篩選和組合作為實驗的原始數(shù)據(jù)記錄并保存到存儲系統(tǒng)中。原始數(shù)據(jù)需要通過篩選、模式識別及粒子鑒別才能變成具有物理意義的數(shù)據(jù)。這一過程叫做事例重建,產(chǎn)生的數(shù)據(jù)叫做重建數(shù)據(jù)。事例重建前先對探測器采集到的原始數(shù)據(jù)進行刻度和校準,然后進行徑跡(及終態(tài)粒子在探測器中留下的軌跡)的尋找和擬合以及粒子的鑒別等。隨著高能物理實驗能量的不斷提高,實驗裝置規(guī)模越來越大,采集的數(shù)據(jù)也越來越復雜,每個事例的數(shù)據(jù)信息個數(shù)甚至以百萬計。重建過程因此非常復雜。

      事例重建是高能物理數(shù)據(jù)處理最重要的環(huán)節(jié),同時也是計算量最大的任務。事例重建同樣可以在計算集群上進行。由于事例重建可能需要同時在數(shù)以千計的CPU上進行,每個事例重建的計算任務都需要從存儲系統(tǒng)上快速地讀取數(shù)據(jù),計算結(jié)果產(chǎn)生的重建數(shù)據(jù)也需要輸出到存儲系統(tǒng),因此事例重建需要能承受高并發(fā)訪問高吞吐率的存儲系統(tǒng)。高能物理除了采用前面提到的分布式存儲系統(tǒng)以外,還根據(jù)特定的數(shù)據(jù)訪問模式,設計開發(fā)了dCache、DPM等存儲系統(tǒng)。這些系統(tǒng)都為高能物理數(shù)據(jù)處理提供了高性能的數(shù)據(jù)存儲服務。

      重建數(shù)據(jù)被用來進行物理分析,并獲得最終的物理結(jié)果。物理學家通過交互式或者批作業(yè)的方式對數(shù)據(jù)進行分析,選取自己感興趣的事例,從中尋找物理規(guī)律或新的發(fā)現(xiàn)。物理分析過程中需要讀取重建數(shù)據(jù),并對數(shù)據(jù)進行判選。這個過程同樣需要存儲系統(tǒng)的支撐。有時還需要可視化工具對事例進行展示,方便物理分析的進行。前面介紹的ROOT工具提供了優(yōu)良的數(shù)據(jù)可視化手段。目前物理學家還在基于ROOT等工具開發(fā)3D展示的系統(tǒng),為物理分析提供更好的可視化服務。

      3.3 網(wǎng)格及分布式數(shù)據(jù)共享和處理

      截至2012年底,僅LHC實驗就積累了超過150PB的數(shù)據(jù)。未來幾年世界高能物理的實驗數(shù)據(jù)將超過1 000PB。這樣的數(shù)據(jù)量需要超大規(guī)模的計算資源。網(wǎng)格技術(shù)把分布于全世界的存儲、計算資源整合到一起,形成一個超高性能的通用的計算用基礎(chǔ)設施。它提供的服務將包括:足夠的計算和存儲能力,用于數(shù)據(jù)的處理、模擬和分析;高速網(wǎng)絡,用于各合作機構(gòu)之間海量數(shù)據(jù)的傳輸;高效的資源互相訪問工具,從而實現(xiàn)將大量的工作有效地分配給世界各地的合作成員。

      國際高能物理領(lǐng)域建立了一系列分布式網(wǎng)格計算系統(tǒng),并聯(lián)合形成面向高能物理等大科學的網(wǎng)格平臺,其中包括歐洲的國際高能物理網(wǎng)絡WLCG[5]、美國的TeraGrid等等。網(wǎng)格平臺為LHC等大型高能物理實驗的數(shù)據(jù)處理及分析需求提供了保障。

      圖3 北京譜儀BESIII

      4 典型案例

      4.1 北京譜儀

      北京正負電子對撞機BEPC和北京譜儀是國際上粲物理能區(qū)性能最好的高能物理實驗裝置。第三代探測器BESIII[6](圖3)的物理目標包括輕強子譜測量、粲偶素研究、粲介子物理、t物理以及新物理探索。BESIII從2009年開始采集數(shù)據(jù),將至少繼續(xù)運行10年。未來幾年BESIII的數(shù)據(jù)規(guī)模將達到10PB以上。BESIII實驗的數(shù)據(jù)分析在實驗停止運行后還將繼續(xù)進行若干年,實驗數(shù)據(jù)的生命期至少達15年以上。

      BESIII數(shù)據(jù)處理軟件BOSS(BESIII Offline Software System)是實驗組根據(jù)探測器的特性以及物理目標自行開發(fā)的。該軟件系統(tǒng)采用C++和面向?qū)ο蠹夹g(shù)在科學Linux(Scientific Linux)平臺上進行開發(fā)。BESIII數(shù)據(jù)處理及物理分析軟件包括軟件框架、模擬軟件、刻度、事例重建和物理分析工具5個部分。

      數(shù)據(jù)存儲是BESIII實驗的重大挑戰(zhàn)之一。最經(jīng)濟高效的數(shù)據(jù)存儲解決方案是支撐BESIII數(shù)據(jù)處理和物理分析的保障。BESIII數(shù)據(jù)存儲包括分級存儲(HSM,Hierarchical Storage Management)系統(tǒng)和并行文件兩部分。BESIII分級存儲系統(tǒng)稱為GRASS(Grid-enabled Advanced Storage System),是在歐洲粒子物理中心的CASTOR系統(tǒng)基礎(chǔ)上開發(fā)的,包括IBM TotalStorage 3854磁帶庫和LTO-4磁帶驅(qū)動器組成的磁帶庫系統(tǒng),以及磁盤陣列組成的磁盤池以及GRASS存儲管理系統(tǒng)3部分。并行文件系統(tǒng)基于Lustre文件系統(tǒng)進行優(yōu)化改進,并采用低端硬件平臺建立。該系統(tǒng)對Lustre的穩(wěn)定性和并發(fā)訪問性能等進行了改進。到2012年底,并行文件系統(tǒng)的容量達3PB,并發(fā)訪問性能達到25GB/s以上。

      BESIII實驗數(shù)據(jù)處理的另一個重大挑戰(zhàn)是數(shù)據(jù)共享和分布式處理。BESIII實驗是大型國際合作,需要在國際合作成員之間進行高效及時的數(shù)據(jù)共享,同時海量數(shù)據(jù)集中在一個數(shù)據(jù)中心進行處理本身就不是理想的方案。因此BESIII采用了網(wǎng)格技術(shù)。

      BESIII網(wǎng)格平臺由高能物理所的一個中心站點和國內(nèi)外的若干格衛(wèi)星站點組成。網(wǎng)格平臺采用gLite(未來將升級成EMI)為中間件,同時也可以與中國國家網(wǎng)格的GOS中間件實現(xiàn)互操作。計算任務可在網(wǎng)格站點之間全局調(diào)度。網(wǎng)格平臺的數(shù)據(jù)傳輸管理采用DIRAC系統(tǒng),可高效智能地實現(xiàn)站點間的數(shù)據(jù)傳輸。BESIII網(wǎng)格系統(tǒng)將計算任務和數(shù)據(jù)調(diào)度到俄羅斯、美國、德國及國內(nèi)的數(shù)據(jù)中心,每年完成的計算作業(yè)達數(shù)百萬個,為BESIII數(shù)據(jù)處理提供重要支撐。

      圖4 LHC的4個主要實驗:Alice、ATLAS、CMS和LHCb

      4.2 LHC實驗

      LHC位于日內(nèi)瓦的CERN。它建造在周長為26.66公里的地下隧道里。兩束能量各為7TeV的質(zhì)子在LHC中進行對撞。來自全世界超過6 000名科學家參加LHC的4個主要實驗:ALICE、ATLAS、CMS、LHCb(圖4)。這4個實驗將探索粒子物理學最前沿的課題,包括尋找質(zhì)量起源的Higgs粒子以及超對稱粒子等?;玖W雍虷iggs粒子的相互作用使基本粒子具有質(zhì)量。2011年12月LHC的CMS實驗和Atlas實驗宣布觀察到類似于Higgs的粒子。隨著數(shù)據(jù)的積累,Higgs粒子的實驗證據(jù)得到了進一步確認。LHC的第二個重要目標是尋找暗物質(zhì)??茖W家希望通過LHC能發(fā)現(xiàn)暗物質(zhì)粒子。LHC將在人類對物質(zhì)結(jié)構(gòu)的認識方面實現(xiàn)一次重大跨越。

      中科院高能物理所、原子能研究院、北京大學、清華大學、南京大學、山東大學、中國科技大學、華中師范大學等分別參加了LHC的4個實驗。

      LHC對撞機和4個實驗于2009年投入運行,每年將產(chǎn)生約15PB的原始數(shù)據(jù)。實驗將運行20年以上,儲存這些數(shù)據(jù)并進行分析處理,這對計算系統(tǒng)是一個巨大的挑戰(zhàn)。實驗物理分析需要至少20萬個CPU和海量的數(shù)據(jù)存儲系統(tǒng)。由于數(shù)千個物理學家分布在世界各地,為了方便高效地進行物理數(shù)據(jù)分析研究,LHC采用分級式(Tier)的計算平臺,將實驗數(shù)據(jù)復制到各地區(qū)數(shù)據(jù)分析中心。這種解決方案就是WLCG(圖5)。LHC實驗決定采用相對便宜的硬件來建立其計算環(huán)境,而不采用昂貴的高端數(shù)據(jù)服務器和計算機。這種方式和Google采取的策略相似。WLCG所謂的分級結(jié)構(gòu)由0—2級等規(guī)模不同的計算中心組成。各地區(qū)的一級中心(Tier-1)與CERN的零級中心(Tier-0)之間至少需要10Gbps的網(wǎng)絡帶寬。二級中心(Tier-2)與一級中心之間的網(wǎng)絡則至少需要2.5Gbps。零級中心負責數(shù)據(jù)的備份及向其他中心的數(shù)據(jù)分發(fā),一級中心往往由參加LHC實驗的成員國建立,二級中心則由規(guī)模較大的研究機構(gòu)建立。LHC實驗能夠利用該網(wǎng)格系統(tǒng)存儲和分析數(shù)據(jù)。WLCG在全球的網(wǎng)格站點達200余個,大規(guī)模網(wǎng)格系統(tǒng)的一個重要挑戰(zhàn)就是數(shù)據(jù)安全問題。WLCG不能依賴于防火墻系統(tǒng),因為這將成為大規(guī)模數(shù)據(jù)傳輸?shù)钠款i,因此采用數(shù)字身份認證和授權(quán)的手段來保證數(shù)據(jù)不被非法訪問。

      WLCG作為世界上最大的網(wǎng)格平臺之一,目前裝備了超過25萬個CPU核及150PB的存儲資源,每年完成數(shù)億CPU小時的計算任務,為LHC實驗的數(shù)據(jù)分析處理提供了不可或缺的支撐,特別是為Higgs粒子的發(fā)現(xiàn)做出了巨大貢獻。

      圖5 WLCG分級結(jié)構(gòu)

      圖6 中國網(wǎng)格站點(CN-IHEP)的運行水平位列世界前列

      4.3 WLCG中國站點

      2006年高能物理所代表ATLAS和CMS中國合作組與CERN簽署協(xié)議,加入WLCG的建設和運行,支持ATLAS和CMS實驗的海量數(shù)據(jù)處理。在中科院知識創(chuàng)新重大項目的支持下,于2008年在高能物理所建立了WLCG網(wǎng)格平臺二級站點。該網(wǎng)格站點由約1 600個CPU核組成計算資源,640TB的磁盤組成存儲系統(tǒng)。計算資源采用刀片式服務器。磁盤存儲采用廉價的硬件設備,配備dCache和DPM作為存儲管理系統(tǒng)。該系統(tǒng)的優(yōu)點是性能好,可靠性高且易管理。網(wǎng)格平臺通過中國科技網(wǎng)建立了到歐洲和北美的高速網(wǎng)絡帶寬。與歐洲的網(wǎng)絡連接采用ORIENTplus鏈路,與美國的網(wǎng)絡連接采用Gloriad鏈路。每年與歐洲及北美之間交換3PB以上的數(shù)據(jù)。2013年初在中國科技網(wǎng)的幫助下,對與歐洲的網(wǎng)絡寬帶進行了大規(guī)模升級,目前的國際數(shù)據(jù)傳輸性能達到4.6Gb/s以上。高能物理所還建立了CA安全認證授權(quán)中心。該授權(quán)中心是國內(nèi)唯一通過歐洲網(wǎng)格安全授權(quán)組織(EUGridPMA)和亞太網(wǎng)格安全授權(quán)組織(APGridPMA)的雙重認證的授權(quán)系統(tǒng),為高能物理等領(lǐng)域使用網(wǎng)格系統(tǒng)的個人簽發(fā)CA證書,同時還為網(wǎng)格平臺的主機以及服務簽發(fā)CA證書。多年來,中國網(wǎng)格站點在全球近200個網(wǎng)格站點中運行水平一直處于世界領(lǐng)先地位(圖6),特別是被ATLAS國際合作組評為Leadership站點。該網(wǎng)格站點每年提供超過1 200多萬CPU小時的計算服務,完成550余萬個計算作業(yè),處理的數(shù)據(jù)超過3PB,為ATLAS、CMS實驗的物理分析(尤其是對2012年7月Higgs玻色子的重大發(fā)現(xiàn))做出了重要的貢獻。

      網(wǎng)格平臺不僅提供計算和數(shù)據(jù)處理服務,同時還幫助實現(xiàn)了人力資源的共享。2009年6月,高能物理所為CMS建立了CMSROC@Beijing區(qū)域運行中心。CMSROC@Beijing是繼美國費米實驗室和德國電子同步加速器研究所之后的第3個區(qū)域運營中心。這是CMS首次將遠程運行從歐洲、北美擴展到了亞洲。3個運行中心分別位于3個不同的時區(qū),每個運行中心值班8小時,這樣就實現(xiàn)了24小時輪班制。這種輪班制可以有效地保證CMS實驗的順利進行。區(qū)域運行中心幫助中國物理學家更方便地參與CMS實驗的研究活動。

      5 總結(jié)和展望

      隨著計算機及網(wǎng)絡技術(shù)的不斷發(fā)展,高能物理數(shù)據(jù)處理的技術(shù)與手段也在不斷發(fā)展。在LHC實驗建造初期,單個數(shù)據(jù)處理中心的CPU能力、磁盤容量都不能滿足LHC實驗海量數(shù)據(jù)處理的要求,因此LHC建立了分布式的網(wǎng)格平臺將數(shù)據(jù)處理的任務分發(fā)到全世界近200個數(shù)據(jù)中心。由于當時網(wǎng)絡帶寬的限制,LHC的數(shù)據(jù)處理任務的分發(fā)采用的是以數(shù)據(jù)為中心的模式,即將計算任務提交到存放有相應數(shù)據(jù)的數(shù)據(jù)中心進行運行。最近幾年,網(wǎng)絡性能大幅提升,數(shù)據(jù)中心可以用10Gbps甚至數(shù)十Gbps的高速網(wǎng)絡進行連接。因此WLCG將數(shù)據(jù)處理任務分發(fā)改成了以CPU為中心的模式,即實時地將數(shù)據(jù)傳送到CPU空閑的數(shù)據(jù)中心,并在該數(shù)據(jù)中心進行處理。這為計算任務的調(diào)度分發(fā)提供了更大的靈活性。

      WLCG提供了數(shù)據(jù)密集型計算的一個成功范例。WLCG實際上已經(jīng)為許多其他領(lǐng)域的數(shù)據(jù)密集型計算提供了強有力的平臺,為生物醫(yī)學、天體物理、地質(zhì)地理、氣象研究等非高能物理領(lǐng)域的科學計算提供了廣泛的支持。以中國的站點為例,該站點不僅為LHC實驗提供服務,還為中科院大連化學物理所的蛋白質(zhì)結(jié)構(gòu)研究、中科院大學的地球動力學研究、國際病毒藥物篩選Wisdom項目以及國際核磁共振及結(jié)構(gòu)生物學WeNMR項目提供計算及數(shù)據(jù)處理服務,為這些科學研究做出了重要貢獻。

      計算機及網(wǎng)絡技術(shù)的發(fā)展似乎在弱化分布式網(wǎng)格平臺的必要性,但是高能物理實驗的規(guī)模不斷提升、實驗數(shù)據(jù)量飛速增長,海量數(shù)據(jù)的處理需要新技術(shù)的支持。下一代高能物理實驗,如未來直線加速器實驗,大型宇宙線觀測實驗等將產(chǎn)生更大規(guī)模更復雜的數(shù)據(jù)。這些都將對計算技術(shù)提出新的挑戰(zhàn)。分布式的計算平臺為高能物理的國際合作提供了更大的方便,同時也大大降低了實驗成本。因此分布式計算平臺仍將是高能物理數(shù)據(jù)處理和計算的重要模式。

      云計算是當前熱門的計算模式。但是由于高能物理數(shù)據(jù)量太大,且基本上是一次寫多次讀,采用商業(yè)云平臺需要的網(wǎng)絡開銷太大。根據(jù)LHC等實驗的測試和評估表明,采用商業(yè)云的成本要高于目前的網(wǎng)格平臺。但虛擬化技術(shù)為跨平臺的計算任務調(diào)度和資源整合提供了技術(shù)條件。云計算技術(shù)在提高資源利用率、靈活的可伸縮性及可管理性方面表現(xiàn)出了巨大的優(yōu)勢,吸引了包括高能物理在內(nèi)的多個領(lǐng)域開始測試和應用。CERN啟動了虛擬機項目CernVM[7,8],并在此基礎(chǔ)上發(fā)起LHC云計算項目[9],為LHC提供虛擬化的應用環(huán)境。同時,CERN還啟動lxcloud項目[10]支持批處理計算服務,以提高資源利用率并簡化管理。高能物理所計算中心在對高能物理實際應用需求進行詳細分析后,認為只要能夠滿足需求的技術(shù)都是好技術(shù),因此并沒有簡單地拋棄已有技術(shù),而是結(jié)合現(xiàn)有的技術(shù)優(yōu)勢,包括網(wǎng)格計算、志愿計算、海量存儲、下一代互聯(lián)網(wǎng)及網(wǎng)絡安全等,在云存儲系統(tǒng)、虛擬集群系統(tǒng)、BESIII云計算系統(tǒng)及云安全等方面展開研究和應用。計算中心在現(xiàn)有海量存儲技術(shù)基礎(chǔ)上,基于實際需求設計與開發(fā)了一套云存儲系統(tǒng)HepyCloud,輕松管理PB級乃至數(shù)十PB的存儲空間。計算中心結(jié)合志愿計算[11,12]、虛擬化技術(shù)以及網(wǎng)格計算等技術(shù),啟動BESIII彈性云計算項目,不僅將BESIII計算任務分布到合作單位的計算系統(tǒng),還將任務分發(fā)到互聯(lián)網(wǎng)上的個人計算機中運行。而對于BESIII的用戶來說,仍使用原有的作業(yè)提交方式,而不用關(guān)心作業(yè)被分發(fā)到本地集群、WLCG網(wǎng)格站點或者中國國家網(wǎng)格CNGrid站點上,還是個人計算機上執(zhí)行。

      應當看到,云計算概念目前還沒有統(tǒng)一認識和定義,每個行業(yè)都從自身的角度來看待,還在不斷的發(fā)展和完善。新的技術(shù)還將不斷涌現(xiàn)。但是無論如何,技術(shù)是為應用而服務的,應用始終是推動技術(shù)發(fā)展的源動力。高能物理的數(shù)據(jù)處理及計算平臺仍會借助于新的信息技術(shù),同時也將推動數(shù)據(jù)技術(shù)的發(fā)展。

      1大型強子對撞機LHC:http://lhc-machine-outreach.web. cern.ch/lhc-machine-outreach/introduction.htm.

      2 Bubble chamber:D meson production and decay,CERNEX-68681.

      3 GEANT4,a toolkit for the simulation of the passage of particles through matter:http://geant4.cern.ch/.

      4 ROOT:http://root.cern.ch/drupal/content/about.

      5 WLCG:http://lcg.web.cern.ch/LCG/

      6北京譜儀:http://bes3.ihep.ac.cn/

      7 Predrag Buncic et al.CernVM,http://cernvm.cern.ch/ cernvm.

      8 Buncic P et al.CernVM—a virtual appliance for LHC applications,Proceedings of Science,PoS(ACAT08)012, 2009.

      9 Segal B,Buncic P et al.LHC Cloud Computing with CernVM,Proceedings of the 13th International Workshop onAdvanced Computing andAnalysis Techniques in Physics Research.February 22-27,2010,Jaipur,India.

      10 Tony Cass,Sebastien Goasguen et al.The batch virtualization project at CERN.EGEE09 conference,Barcelona.

      11中國科學院志愿計算網(wǎng)站:http://casathome.ihep.ac.cn.

      12 David P.Anderson and Gilles Fedak,The Computational and Storage Potential of Volunteer Computing.Sixth IEEE International Symposium on Cluster Computing and the Grid,73-80.

      陳和生中科院院士,中科院高能物理所研究員,北京正負電子對撞機國家實驗室主任。1998—2011年任中科院高能物理所所長,歷任中國物理學會副理事長、中國高能物理學會理事長、國際未來加速器委員會委員、國際高能物理計算技術(shù)委員會委員、亞洲未來加速器委員會主席等職。長期從事粒子物理實驗,對發(fā)現(xiàn)膠子噴注、檢驗電弱理論、精確測定電弱參數(shù)和中微子代數(shù)等重大研究成果做出了重要貢獻。1995—1997年在北京主持阿爾法磁譜儀大型永磁體系統(tǒng)研制,該磁體于1998年搭乘航天飛機成果進行首次飛行,成為人類送入宇宙的第一大型磁體,并于2011年送至國際空間站長期運行。2004—2009年主持北京正負電子對撞機重大改造工程(BEPCⅡ)建設?,F(xiàn)主持中國散裂中子源工程建設。E-mail:chenhs@ihep.ac.cn

      陳剛男,中科院高能物理所研究員、計算中心主任。1991年開始參加由丁肇中教授領(lǐng)導的大型粒子物理L3實驗和阿爾法磁譜儀(AMS)實驗,負責數(shù)據(jù)處理、物理分析及實驗裝置的設計建造。在從事粒子物理實驗研究工作的同時,還負責高性能計算環(huán)境的研究工作。2004年開始在國內(nèi)建立了高能物理網(wǎng)格計算環(huán)境。2008年負責建立國內(nèi)數(shù)據(jù)密集型網(wǎng)格平臺,為多個大規(guī)??茖W研究項目提供計算平臺服務。目前的主要研究方向包括高性能計算、高性能存儲及網(wǎng)格技術(shù)。E-mail:GangChen@ihep. ac.cn

      (接481頁)than ten years.It has been boosting a range of scientific innovations in CAS.This paper analyzes the trend of the international cyberinfrastructure,reviews the development of the CAS cyberinfrastructure and its applications,and presents its development opportunities,challenges,and the future direction.

      Keywordscyberinfrastructure,applications,science and innovation

      南凱中科院計算機網(wǎng)絡信息中心副主任,博士,研究員,博士生導師。1974年出生。主要研究方向為分布式系統(tǒng)、網(wǎng)絡協(xié)同工作環(huán)境。E-mail:nankai@cnic.ac.cn

      Data Intensive Computing in High Energy Physics

      Chen HeshengChen Gang
      (Institute of High Energy Physics,ChineseAcademy of Sciences,Beijing 100049,China)

      High energy physics(HEP)has always been a pioneer to develop information technologies.Modern HEP creates gigantic data sets which lead the huge challenges to the computer sciences.Scientists of HEP community developed the state-of-art computing platform to distribute,store and process data in PB scale.This report describes the evolution of high energy physics experiments and its computing technologies.The comput-ing models and grid computing as the examples of data intensive computing platform are discussed in details.This report also introduces the application of grid computing in the LHC and BESIII experiments.The Chinese data intensive grid systems are are reported.The prospect of next genertion technologies such as cloud computing is discussed.

      high energy physics,big data,data intensive computing,grid computing,cloud computing

      2013年4月15日

      猜你喜歡
      高能物理數(shù)據(jù)處理粒子
      盛宴已經(jīng)結(jié)束
      認知診斷缺失數(shù)據(jù)處理方法的比較:零替換、多重插補與極大似然估計法*
      心理學報(2022年4期)2022-04-12 07:38:02
      ILWT-EEMD數(shù)據(jù)處理的ELM滾動軸承故障診斷
      基于粒子群優(yōu)化的橋式起重機模糊PID控制
      基于粒子群優(yōu)化極點配置的空燃比輸出反饋控制
      基于希爾伯特- 黃變換的去噪法在外測數(shù)據(jù)處理中的應用
      高能物理中的數(shù)據(jù)分析
      基于Matlab的α粒子的散射實驗模擬
      物理與工程(2014年4期)2014-02-27 11:23:08
      基于兩粒子糾纏態(tài)隱形傳送四粒子GHZ態(tài)
      基于POS AV610與PPP的車輛導航數(shù)據(jù)處理
      遂平县| 略阳县| 攀枝花市| 南部县| 普洱| 西华县| 东光县| 新乡县| 台安县| 大城县| 长海县| 应用必备| 贡山| 辽源市| 无极县| 青河县| 德令哈市| 天柱县| 和顺县| 汝阳县| 岑巩县| 南皮县| 镇赉县| 东安县| 天台县| 金寨县| 湟源县| 酉阳| 榕江县| 惠水县| 万荣县| 冕宁县| 郯城县| 上饶县| 井冈山市| 巴彦淖尔市| 怀安县| 子长县| 福安市| 达拉特旗| 平远县|