• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      基于云計算的RNA—seq轉(zhuǎn)錄組數(shù)據(jù)分析流程初探

      2017-09-13 13:02紀兆華王立東徐行健劉芳
      科技創(chuàng)新導報 2017年19期
      關(guān)鍵詞:轉(zhuǎn)錄組數(shù)據(jù)分析云計算

      紀兆華+王立東+徐行健+劉芳

      摘 要:隨著二代測序技術(shù)的不斷發(fā)展,轉(zhuǎn)錄組學的研究有了新的工具RNA-seq。RNA-seq可以使用高通量測序技術(shù)快速對細胞某一個狀態(tài)下完整的轉(zhuǎn)錄組進行測序,獲得該轉(zhuǎn)錄組中所有的RNA序列。相比與以往利用芯片和PCR等技術(shù)來研究轉(zhuǎn)錄組,RNA-seq有著許多明顯的優(yōu)勢,所以其應(yīng)用的規(guī)模不斷增加。但是RNA-seq測序結(jié)構(gòu)文件非常大,每一個轉(zhuǎn)錄組樣品都會產(chǎn)生幾Gb到幾十Gb的序列文件,傳統(tǒng)的RNA-seq數(shù)據(jù)分析軟件需要耗費大量的時間和系統(tǒng)資源來完成分析任務(wù)。采用云計算的方法和框架,開發(fā)一套完整的RNA-seq轉(zhuǎn)錄組大數(shù)據(jù)分析軟件,用戶只需輸入RNA-seq測序的原始序列文件,即可得到最終的結(jié)果。

      關(guān)鍵詞:云計算 轉(zhuǎn)錄組 數(shù)據(jù)分析 流程

      中圖分類號:Q78 文獻標識碼:A 文章編號:1674-098X(2017)07(a)-0159-02

      生物信息學是用數(shù)理和信息科學的觀點、理論和方法研究復雜的生命現(xiàn)象,組織和分析呈現(xiàn)指數(shù)增長的生物學數(shù)據(jù)所蘊含的知識和規(guī)律,運用計算機科學與人工智能的手段進行大量生物信息數(shù)據(jù)的收集、加工、存儲、分析與解析的科學。生物信息學的一項主要任務(wù)就是研究如何利用應(yīng)用數(shù)學和計算機等學科中的方法來分析這些數(shù)據(jù),探明數(shù)據(jù)中所包含的生物學意義。在生命科學的各個領(lǐng)域(基因組學、轉(zhuǎn)錄組學等),不論是基礎(chǔ)研究還是應(yīng)用研究,生物信息學都起著重要作用[1]。

      1 轉(zhuǎn)錄組研究中RNA-seq被廣泛使用

      近年來,在轉(zhuǎn)錄組研究中,RNA-seq憑借著諸多優(yōu)勢被廣泛使用,比如無需設(shè)計寡聚核苷酸探針、可以觀測到低表達豐度的調(diào)控基因、可以檢測到非編碼RNA的情況等。然而對RNA轉(zhuǎn)錄組的高通量全測序(whole transcriptome sequencing)會得到非常大的結(jié)果序列文件,其中包含了單端或者雙端的reads序列。這些序列首先需要進行清洗(去接頭等)之后才能繼續(xù)用于之后的分析工作。分析軟件的性能在這一過程中就顯得非常重要,好的軟件不僅需要分析結(jié)果真實可靠,對其運行時性能也有著需求,運行速度過慢或者需求過多的系統(tǒng)資源(如CPU時間、內(nèi)存等),都會極大地降低科研人員的工作效率[2]。

      2 生物信息云有助于應(yīng)對生物信息大數(shù)據(jù)的挑戰(zhàn)

      生物數(shù)據(jù)規(guī)模通常很大,近年來,這些數(shù)據(jù)隨著生物技術(shù)的發(fā)展不斷地增加。高通量測序技術(shù)迅猛發(fā)展,使生物信息學進入了大數(shù)據(jù)時代,由此所引發(fā)的多組學海量生物數(shù)據(jù)更需要利用云的方式來解決存儲和分析等問題。把云計算技術(shù)應(yīng)用到生物信息學的大數(shù)據(jù)中,闡明的面向大數(shù)據(jù)的生物信息云有助于更好地應(yīng)對生物信息大數(shù)據(jù)帶來的新挑戰(zhàn),挖掘生物數(shù)據(jù)中蘊含的大量“寶藏”。隨著以高通量測序技術(shù)為代表的相關(guān)實驗技術(shù)的不斷發(fā)展和普及,科研人員可以更加容易和高效地獲得到大量的生物數(shù)據(jù),其中顯然蘊含著大量的“寶藏”等待人們探索。云計算正是一種通過Internet以服務(wù)的方式,提供動態(tài)可伸縮、虛擬化的資源計算模式。但傳統(tǒng)的分析方法并沒有緊緊跟上,如何應(yīng)對生物信息大數(shù)據(jù)帶來的新挑戰(zhàn),成為了生物信息學當前的一個重要命題[3]。

      3 生物信息學中的研究熱點之一RNA-seq數(shù)據(jù)分析軟件

      對RNA-seq數(shù)據(jù)分析軟件的研究與開發(fā)一直是生物信息學中的研究熱點。對于各個分析任務(wù),也都有傳統(tǒng)的分析軟件可以完成各個工作,如Bowtie、Tophat和Cufflinks[4]等等。也有一些研究人員將這些軟件通過腳本程序組裝成分析流程,如PRADA[5]、wapRNA[6]等等。然而由于使用OpenMP或者Pthread這樣傳統(tǒng)的并行模型,他們無法運行于云計算平臺之上。云計算理念的出現(xiàn),使得分布式并行計算在解決大數(shù)據(jù)問題時的可用性和易用性得到了極大的提升和擴展。終端用戶不必再關(guān)心計算的內(nèi)部細節(jié),只需要將數(shù)據(jù)提交,制定出最終目標,云計算平臺就可以將數(shù)據(jù)分析的結(jié)果返回給用戶,減少了用戶花在數(shù)據(jù)處理中瑣碎細節(jié)上的時間,大大提高了科研和工作效率。對于那些無法容易獲得分布式計算集群使用權(quán)的用戶,云計算中“數(shù)據(jù)即服務(wù)”(DaaS)、“平臺即服務(wù)”(PaaS)、“軟件即服務(wù)”(SaaS)、“基礎(chǔ)設(shè)施即服務(wù)”(IaaS)的理念,也使得他們可以利用云計算中公開的非本地資源來進行科研工作。生物信息學科研工作者近年來也意識到大數(shù)據(jù)帶來的挑戰(zhàn),開發(fā)了一些基于云計算的分析軟件,其中涉及到RNA-seq數(shù)據(jù)分析的主要有MyRNA、Crossbow等。

      云計算正是專門對這類大數(shù)據(jù)問題提出的解決方案。采用HADOOP云計算框架設(shè)計實現(xiàn)RNA-seq大數(shù)據(jù)分析流程[15]。通過優(yōu)化文件存儲與訪問、作業(yè)拆分管理等不同方面,HADOOP框架可以很好地完成生物信息學大數(shù)據(jù)分析作業(yè)。然而使用傳統(tǒng)并行模型開發(fā)的軟件無法直接運行在HADOOP框架之上,需要對其算法重構(gòu)或改寫成MapReduce模式[16],經(jīng)過調(diào)試后才能使用。對RNA-seq大數(shù)據(jù)分析流程中常見的任務(wù)模塊,開發(fā)對應(yīng)的在MapReduce模式下的算法,并將其組合成從數(shù)據(jù)輸入到數(shù)據(jù)輸出的一站式分析流程(analysis pipeline),用戶只需提供RNA-seq原始數(shù)據(jù)集,即可得到最終需要的分析結(jié)果。

      參考文獻

      [1] Mortazavi A, Williams B A, McCue K, Schaeffer L and Wold B 2008 Mapping and quantifying mammalian transcriptomes by RNA-Seq. Nat. Methods5 621.

      [2] Armbrust M, Stoica I, Zaharia M, Fox A, Griffith R, Joseph A D, Katz R, Konwinski A, Lee G, Patterson D and Rabkin A 2010 A view of cloud computing Commun. ACM53 50.

      [3] Dai L, Gao X, Guo Y, Xiao J and Zhang Z 2012 Bioinformatics clouds for big data manipulation. Biol. Direct7 43; discussion 43.

      [4] Langmead B and Salzberg S L 2012 Fast gapped-read alignment with Bowtie 2. Nat. Methods9 357.

      [5] Torres-García W, and Verhaak R G W 2014 PRADA: pipeline for RNA sequencing data analysis. Bioinformatics30 2224.

      [6] Zhao W, and Hu S 2011 wapRNA: a web-based application for the processing of RNA sequences. Bioinformatics27 3076.endprint

      猜你喜歡
      轉(zhuǎn)錄組數(shù)據(jù)分析云計算
      淺析大數(shù)據(jù)時代對企業(yè)營銷模式的影響
      實驗云:理論教學與實驗教學深度融合的助推器
      尚义县| 长武县| 舞钢市| 葫芦岛市| 五台县| 渭南市| 呼和浩特市| 银川市| 卢湾区| 延川县| 小金县| 四子王旗| 云梦县| 余干县| 甘洛县| 彝良县| 泰顺县| 彰化市| 墨竹工卡县| 宜兴市| 岳西县| 榆林市| 自治县| 普定县| 文登市| 南平市| 津南区| 会泽县| 威海市| 无为县| 东山县| 杂多县| 乌兰察布市| 嘉峪关市| 平潭县| 柯坪县| 谢通门县| 桓仁| 璧山县| 塔河县| 佛学|