基于云計算的代謝組學(xué)數(shù)據(jù)處理研究

2015-07-07 15:44:08孫海濤楊志強孫豐霞

實驗技術(shù)與管理 2015年4期

孫海濤,楊志強,耿越,孫豐霞

(1.山東師范大學(xué)信息技術(shù)管理處,山東濟南 250014;2.山東師范大學(xué)實驗室與設(shè)備管理處,山東濟南 250014;3.山東師范大學(xué)生命科學(xué)學(xué)院,山東濟南 250014)

孫海濤1,楊志強2,耿越3,孫豐霞3

根據(jù)代謝組學(xué)數(shù)據(jù)處理的特點,提出基于云計算的代謝組學(xué)數(shù)據(jù)并行處理方法:云平臺提供多個安裝了開源數(shù)據(jù)處理軟件MZmine的計算資源,一個大規(guī)模的數(shù)據(jù)處理任務(wù)按照保留時間分散到多個計算資源上進行并行計算。作為實例,對來源于小鼠血清樣本的代謝組學(xué)數(shù)據(jù)進行處理。數(shù)據(jù)說明,基于云計算的數(shù)據(jù)處理方法能提高數(shù)據(jù)處理速度,節(jié)約計算成本。

云計算;代謝組學(xué);保留時間;數(shù)據(jù)處理;并行處理

代謝組學(xué)是繼基因組學(xué)和蛋白質(zhì)組學(xué)之后新發(fā)展的生命科學(xué)領(lǐng)域的一個分支,通過對生物體內(nèi)所有代謝物進行定量或定性分析來尋找其與病理變化的關(guān)系[1-3]。Nature先后發(fā)表了多篇利用代謝組學(xué)對人類疾病進行研究的論文[4-5]。我國科研管理部門也發(fā)布了關(guān)于代謝組學(xué)的研究課題[6-7]。核磁共振光譜(NMR)和色譜-質(zhì)譜(HPLC-GS或GC-MS)聯(lián)用是代謝組學(xué)研究中常用的兩種測量手段,每種測量手段都會產(chǎn)生大量的數(shù)據(jù),處理、分析這些數(shù)據(jù)的工作量很大,并且需要專門的數(shù)學(xué)、統(tǒng)計和信息學(xué)工具[8]。

為處理代謝組學(xué)實驗生成的大量數(shù)據(jù),研究者對數(shù)據(jù)處理和分析方法進行了大量研究,并開發(fā)了一些高效率的數(shù)據(jù)處理軟件。在數(shù)據(jù)預(yù)處理階段,針對不同的測量手段,研究人員做了深入的分析,如基于NMR的軟件開發(fā)[9]、液相色譜-質(zhì)譜數(shù)據(jù)高性能分析研究[10]等;也有對數(shù)據(jù)的處理方式進行研究的,如開發(fā)單機版的代謝數(shù)據(jù)處理軟件[11]和在多核計算機上對數(shù)據(jù)并行處理的軟件[12]。對數(shù)據(jù)進行并行處理是提高數(shù)據(jù)處理速度的重要手段,例如質(zhì)譜數(shù)據(jù)處理軟件X!Tandem實現(xiàn)并行以后,原來在單核計算機上需要處理20 h的數(shù)據(jù),在40個核的并行環(huán)境下,只需要30 min,處理速度是原來的40倍[13]。

在實驗數(shù)據(jù)處理過程中,筆者發(fā)現(xiàn):利用單機版的代謝組學(xué)數(shù)據(jù)處理軟件進行高通量計算需要耗費很長時間;而并行軟件又存在著費用高、硬件環(huán)境要求高、部署難度大的問題。為此,將云計算與成熟的開源數(shù)據(jù)處理軟件MZmine相結(jié)合,根據(jù)代謝組學(xué)數(shù)據(jù)處理特點,將一個數(shù)據(jù)處理任務(wù)分解為多個子任務(wù),交由不同的計算資源進行并行計算,最后將結(jié)果匯總,既加快了數(shù)據(jù)處理速度,又從軟硬件兩方面節(jié)約了成本。

1 研究的理論基礎(chǔ)

1.1 代謝組學(xué)數(shù)據(jù)處理流程

代謝組學(xué)數(shù)據(jù)處理分為原始數(shù)據(jù)預(yù)處理和數(shù)據(jù)分析兩個步驟。

在數(shù)據(jù)預(yù)處理階段,樣品經(jīng)過色譜-質(zhì)譜聯(lián)用儀檢測后得到以譜圖的形式顯示的原始數(shù)據(jù),然后由數(shù)據(jù)處理軟件對原始譜圖進行處理,得到樣品組分的數(shù)據(jù)表格。代謝組學(xué)數(shù)據(jù)在經(jīng)過預(yù)處理以后,需要對得到的數(shù)據(jù)進行分析和挖掘,從而發(fā)現(xiàn)有價值的信息。

數(shù)據(jù)預(yù)處理是代謝組學(xué)研究的第一步,也是最關(guān)鍵的一步。在質(zhì)譜檢測實驗中,質(zhì)譜儀的高靈敏度產(chǎn)生了大量的原始數(shù)據(jù),單個樣本文件就有幾百MB甚至幾GB,這些數(shù)據(jù)需要經(jīng)過基線校正、譜峰識別、重疊峰解析、保留時間對齊等處理步驟,才能得到與組分有關(guān)的信息。這個過程既耗時,又有一定難度。

為高效而又準確地處理這些原始數(shù)據(jù),一些儀器生產(chǎn)商和研究機構(gòu)開發(fā)出多種代謝組學(xué)數(shù)據(jù)處理軟件,如Marker Lynx、ChromaTOF、Met Align、MZmine等。本研究選用的數(shù)據(jù)處理軟件MZmine是一款免費的開源軟件,能夠進行可視化數(shù)據(jù)處理和數(shù)據(jù)分析[11],而且具有準確數(shù)據(jù)處理的能力[14]和友好的用戶界面。

1.2 原始數(shù)據(jù)預(yù)處理并行化

并行計算是指同時使用多個計算資源解決計算問題。并行計算具有以下特征:計算任務(wù)能夠分解成多個部分解決,并行后計算速度有很大提高;由不同的計算資源同時執(zhí)行多個任務(wù)[15]。利用云平臺提供的計算資源對代謝組學(xué)數(shù)據(jù)并行處理需要考慮任務(wù)的分解和并行的速度問題。

1.2.1 任務(wù)的并行分解

在色譜-質(zhì)譜檢測中,被分離樣品成分從進樣開始到出現(xiàn)組分濃度極大值的時間稱為組分保留時間(retention time)。在一定的色譜操作條件下,保留時間被用來作為物質(zhì)的定性依據(jù),通常以分(min)為單位[16]。依據(jù)保留時間對樣品進行定性或定量分析是代謝組學(xué)數(shù)據(jù)預(yù)處理的重要手段。在不同保留時間段內(nèi)檢出的物質(zhì)成分和數(shù)量相差很大。有研究者曾經(jīng)對按照保留時間分段的代謝數(shù)據(jù)分別進行處理,匯總結(jié)果證實:分段處理檢測出的成分與未分段處理相同[17]。

MZmine提供了對譜圖按照保留時間分段檢測的功能,參數(shù)Retention time可以設(shè)置為原始數(shù)據(jù)的整個保留時間段,如0～12,或者設(shè)置為0～3、3～6等不同的分段。隨后的數(shù)據(jù)處理將依據(jù)Retention time的設(shè)置進行。圖1是一個原始質(zhì)譜圖按照保留時間平均劃分成4個時間段的示意圖。在實際計算中,這種劃分可以是隨意的,但為了保證檢測數(shù)據(jù)的完整性,要保證分段能覆蓋整個保留時間(圖1是12 min),同時要處理好保留時間重疊區(qū)域在計算完成后的數(shù)據(jù)去重問題。

圖1 質(zhì)譜數(shù)據(jù)分段處理示意圖(t2為3.0～6.0)

1.2.2 并行速度

設(shè)定處理保留時間為t的原始質(zhì)譜數(shù)據(jù)所耗費的時間為ts,則:

其中ti是兩個保留時間之間的時間段;n為計算資源的數(shù)目,如t2為3.0～6.0;在只有一個計算資源的情況下,t1＝t。(2)式的意思是:當(dāng)數(shù)據(jù)并行處理以后,完成任務(wù)耗費的時間由所有計算中最長耗時決定。需要指出的是:(1)盡管ts＝f(t),但實際ts并非由保留時間t決定,而與檢測物的組成有關(guān);(2)如果不考慮額外消耗問題,理論上參與的計算資源越多,單個計算資源所分配的任務(wù)就越少,花費的計算時間也越少,但這是在計算任務(wù)能夠均勻分配的前提下完成的。由于代謝組學(xué)數(shù)據(jù)分析的特殊性,要做到任務(wù)的均勻分解并不容易,因此并不能簡單地認為計算資源n越大,t′s就越小。

1.3 云計算

云計算的概念由IBM公司于2007年提出,是并行計算、分布式計算和網(wǎng)格計算的進一步發(fā)展,能夠給用戶提供可靠的、自定義的資源利用服務(wù),是一種新的分布式計算模式[18-19]。云計算硬件架構(gòu)在大規(guī)模廉價服務(wù)器集群之上,相比功能強大的大型機價格更低廉;通過多個廉價服務(wù)器的冗余,保證了系統(tǒng)的穩(wěn)定性[20]。

利用服務(wù)器集群進行代謝組學(xué)數(shù)據(jù)處理是一種粗粒度的并行處理模式,該模式有2個主要優(yōu)點。

(1)可以按需分配計算資源。在樣品的組分檢測出來之前,雖然可以預(yù)測其組成,但是最終耗時仍需計算決定,所以在固定的保留時間內(nèi),由于組分的差別,有的可能需要更多的計算資源。因此,可以在計算過程中根據(jù)計算進度,隨時提高計算資源的配置,如增加CPU或內(nèi)存等;當(dāng)一個計算任務(wù)完成后,可以釋放計算資源。

(2)計算資源的冗余配置能確保計算安全、高效地進行。在單一計算資源環(huán)境下,如果計算資源出現(xiàn)故障,則計算過程需重新開始(或從某個固定的時間點開始),而采用多計算資源并行計算,則只需對故障資源進行替換,重新計算部分數(shù)據(jù)即可。

將云計算與成熟的代謝組學(xué)處理軟件相結(jié)合以及實現(xiàn)數(shù)據(jù)處理的并行化,是由云計算與代謝組學(xué)數(shù)據(jù)特點共同決定的。首先是數(shù)據(jù)處理過程可以并行化,在提高處理效率的同時又不影響結(jié)果的準確性;其次是云計算架構(gòu)在廉價的服務(wù)器集群上,集群中的每一個計算資源雖然單獨處理超大規(guī)模的數(shù)據(jù)有困難,但是卻能完成分解后的小規(guī)模的數(shù)據(jù)處理任務(wù);再就是利用成熟的單機版數(shù)據(jù)處理軟件可以準確而迅速地完成分解后的任務(wù),而且相比并行數(shù)據(jù)處理軟件更容易

當(dāng)數(shù)據(jù)處理并行化以后,記數(shù)據(jù)處理時間為t′s,則:部署和掌握。

2 數(shù)據(jù)處理

對代謝組學(xué)數(shù)據(jù)進行并行化處理,目的是為了提高數(shù)據(jù)處理的速度,使一個計算規(guī)模很大的數(shù)據(jù)處理任務(wù)能在較短的時間內(nèi)完成。這可以通過以下實驗得到驗證。

2.1 實驗數(shù)據(jù)與并行環(huán)境

并行處理的數(shù)據(jù)來源于小鼠血清樣本。經(jīng)過UPLC-QTOF-MS檢測得到的原始譜圖數(shù)據(jù),共有原始譜圖50個,數(shù)據(jù)保留時間都為12 min。從質(zhì)譜儀得到的數(shù)據(jù)經(jīng)過格式轉(zhuǎn)換后由Mzmine2軟件完成數(shù)據(jù)的預(yù)處理工作。為了便于比較并行時間,本次實驗所使用的計算資源是4個配置相同且滿足Mzmine2安裝要求的硬件平臺。

2.2 數(shù)據(jù)處理

為檢驗并行速度,首先要對樣本原始數(shù)據(jù)進行處理,得到數(shù)據(jù)處理時間,然后進行比較。數(shù)據(jù)處理主要分以下2個過程。

(1)基準時間tb的確定。為了便于討論,文中不以每次計算的具體時間做比較,而是設(shè)定一個基準時間,其余的實際計算時間與之對比得到相對計算時間,這就使計算結(jié)果比較直觀,并排除了樣品本身性質(zhì)的影響,從而使處理結(jié)果具有普遍意義。本文的基準時間設(shè)定為tb＝1,是所有原始數(shù)據(jù)在一個計算資源上一次性計算完成所需要的時間(注:對上述樣本數(shù)據(jù)處理大約用了27 h);

(2)并行時間的確定。將原始數(shù)據(jù)按照保留時間分段,確定不同的分段規(guī)則并記錄所花費的時間,然后將計算時間進行歸一化處理。表1是對同一原始數(shù)據(jù)用不同的任務(wù)分解法所用計算時間的統(tǒng)計。

表1 同一數(shù)據(jù)按不同時間段分解所用計算時間

3 實驗結(jié)果分析

表1說明,第一次數(shù)據(jù)并行處理所需要的時間t′s＝0.47,第二次t′s＝0.27,第二次的并行速度更快一些,大約是單一計算資源完成整個數(shù)據(jù)處理時間的1/4左右。表1還說明,在數(shù)據(jù)并行處理過程中,不同的任務(wù)分解方法并行時間可能不同,按照保留時間平均分解處理任務(wù),并行速度未必是最快;設(shè)想在極端的情況下,如果代謝物的組分集中在保留時間的最后一刻,而仍采取平均分配計算資源的方法,則結(jié)果是多計算資源并行時間與單機計算時間差不多,并行處理并未加快速度。

按保留時間平均分配計算任務(wù),并行時間是由質(zhì)譜儀的工作原理和譜圖的構(gòu)成決定的,即在不同的保留時間段內(nèi),所檢測到的物質(zhì)組成成分和數(shù)量都不相同,因此花費的處理時間也不同。如時間段t2(3～6) 與t1(0～3)相比,檢出的組分數(shù)目與所耗費的時間都要多。至此,基于云計算的代謝組學(xué)并行速度除了與計算資源的配置、數(shù)量有關(guān)外,更與任務(wù)的分解方式有關(guān)。在同樣的計算規(guī)模、同樣的計算資源條件下,計算式為

式中N為代謝物檢出的成分數(shù)目。

按照式(3)來分配計算資源,能使得并行速度最快,但問題是檢測結(jié)束之前N是未知的。實驗證實:根據(jù)譜峰和保留時間來進行任務(wù)分解,并行速度能得到很大提高;Par Jonsson等人的實驗即是按照譜峰劃分不同的時間窗口分別進行計算,從而提高了計算速度[17]。

4 結(jié)束語

隨著代謝組學(xué)研究的開展,高效而準確地處理實驗中產(chǎn)生的大量數(shù)據(jù)是一個艱難的任務(wù)。本文提出了基于云計算的代謝組學(xué)數(shù)據(jù)并行處理模式,將云計算與成熟的代謝組學(xué)數(shù)據(jù)處理軟件相結(jié)合。云計算可以按需提供大量的廉價計算資源,成熟的開源軟件既能保證數(shù)據(jù)得到準確的處理,又能降低研究費用。通過對并行任務(wù)的分解進行的討論可知,以保留時間作為參數(shù),以譜圖的具體構(gòu)成作為任務(wù)分解的依據(jù),可使并行處理速度最快。實驗也證實,對高通量的代謝組學(xué)實驗數(shù)據(jù),采用基于云計算的并行處理方式能顯著地提高計算速度。

References)

[1]亓云鵬,胡杰偉,柴逸峰,等.代謝組學(xué)數(shù)據(jù)處理研究的進展[J].計算機與應(yīng)用化學(xué),2008,25(9):1139-1142.

[2]董繼楊,徐樂,曹紅婷,等.代謝組學(xué)數(shù)據(jù)分析方法及在糖尿病研究中的應(yīng)用[J].波譜學(xué)雜志,2007,24(4):381-393.

[3]張高勤,王玫,王媛,等.海洛因濫用大鼠尿液同體縱向?qū)φ漳Ｐ偷拇x組學(xué)研究[J].中國藥物依賴性雜志,2013,22(2):85-94.

[4]Clayton T A,Lindon J C,Cloarec O,et al.Pharmaco-metabonomic phenotyping and personalized drug treatment[J].Nature,2006,440 (7087):1073-1077.

[5]Holmes E,Loo R L,Stamler J,et al.Human metabolic phenotype diversity and its association with diet and blood pressure[J].Nature,2008,453(7193):396-400.

[6]許赟.美國空軍未來15年科技發(fā)展重點[J].航空科學(xué)技術(shù),2014, 25(1):1-10.

[7]科技部.國家重點基礎(chǔ)研究發(fā)展計劃和重大科學(xué)研究計劃2014年重要支持方向[EB/OL].(2013-02-01)[2014-09-10].http:// www.most.gov.cn/tztg/201302/t20130201_99485.htm.

[8]want E J,Nordstr?m A,Morita H,et al.From exogenous to endogenous:the inevitable imprint of mass spectrometry in metabolomics[J].Journal of Proteome Research,2007,6(2):459-468.

[9]董繼揚,周玲,Cheng Kain-kai,等.Metaproc:一種基于NMR的代謝組學(xué)數(shù)據(jù)處理軟件[C]//第十七屆全國波譜學(xué)學(xué)術(shù)會議論文摘要集.2012:145-146.

[10]李靈巧.GC-MS數(shù)據(jù)高性能分析算法研究[D].桂林:桂林電子科技大學(xué),2011.

[11]Pluskal T,Castillo S,Villar briones A,et al.MZmine 2:Modular framework for processing,visualizing,and analuzing mass spectrometry-based molecular profile data[J].BMC Bioinformatics, 2010,11(1):395-405.

[12]Lommen A,Kools H J.Met Align 3.0:performance enhancement by efficient use of advances in computer hardware[J].Metabolomics,2012,8(4):719-726.

[13]Dexter Duncan and Andrew Link,Vanderbilt University School of Medicine,Parallel Tandem[EB/OL].[2014-09-06].http:// www.thegpm.org/prallel/.

[14]Koh Y,Pasikanti K K,Yap C W,et al.Comparative evaluation of software for retention time alignment of gas chromatography/ time-of-flight mass spectrometry-based metabonomic data[J].Journal of chromatography:A,2010,1217(52):8308-8316.

[15]陳國良,孫廣中,徐云,等.并行計算的一體化研究現(xiàn)狀與發(fā)展趨勢[J].科學(xué)通報,2009,54(8):1043-1049.

[16]張良曉.氣相色譜-質(zhì)譜定性定量分析新方法研究[D].長沙:中南大學(xué),2011.

[17]Jonsson P,Gullberg J,Nordstrom A,et al.A strategy for identifying differences in large series of metabolomic samples analyzed by GC/MS[J].Anal ytical chem,2004,76(6):1738-1745.

[18]Sims K.IBM introduces ready-to-use cloud computing collaboration services get clients started with cloud computing[EB/OL].[2014-09-06].http://www-03.ibm.com/press/us/en/pressrelease/22613.wss.

[19]李喬,鄭嘯.云計算研究現(xiàn)狀綜述[J].計算機科學(xué),2011,38(4): 32-37.

[20]陳康,鄭緯民.云計算:系統(tǒng)實例與研究現(xiàn)狀[J].軟件學(xué)報,2009, 20(5):1337-1348.

Study on metabonomic data processing based on cloud computing

Sun Haitao1,Yang Zhiqiang2,Geng Yue3,Sun Fengxia3
(1.Information Management Department,Shandong Normal University,Jinan 250014,China; 2.Administrative Office of Laboratory and Equipment,Shandong Normal University,Jinan 250014,China; 3.School of Life Sciences,Shandong Normal University,Jinan 250014,China)

Metabonomics is a new study branch of life science research after genomics and proteomics.It is looking for the relationships between metabolites of a creature and its pathological changes.Data processing and analysis are the key link of the metabonomics study.According to the data processing characteristic of metabonomics,a new parallel data processing method based on cloud computing is proposed.A large computing task is divided into several small tasks according to the retention time.An open source software named MZmine is used to analyze these small tasks separately with the computing resources provided by the cloud computing platform.The method could improve the speed of data processing and save the cost.

cloud computing;metabonomics;retention time;data processing;parallel processing

TP393

1002-4956(2015)4-0171-04

2014-09-19

山東省高等學(xué)?？萍加媱濏椖?J14LN56)

孫海濤(1979—),男,山東濟南,碩士,實驗師,主要研究方向為云計算、數(shù)據(jù)處理和支持向量機.

E-mail:sunht＠sdnu.edu.cn