• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      關(guān)于GSEA在全基因組表達(dá)譜芯片數(shù)據(jù)分析中的應(yīng)用探討

      2020-05-08 09:31:35方燕鄭曉雪
      健康之家 2020年13期
      關(guān)鍵詞:數(shù)據(jù)分析

      方燕 鄭曉雪

      【摘要】近年來,對多組學(xué)層進(jìn)行綜合分析的要求日益突出,從而產(chǎn)生了一些多組學(xué)富集工具。每種方法在通用性方面都有缺點(diǎn)和局限性。在此,基于GSEA程序包以幫助在多個組學(xué)層上計算基于基因集富集分析的組合途徑富集,該軟件包查詢8個不同的路徑數(shù)據(jù)庫,并依賴基因集富集分析算法進(jìn)行單組學(xué)富集分析。最后,將這些分?jǐn)?shù)相結(jié)合,以創(chuàng)建可靠的復(fù)合多組學(xué)途徑富集措施。

      【關(guān)鍵詞】基因集富集分析;數(shù)據(jù)分析;全基因組表達(dá)譜芯片

      1基因集富集分析(GSEA)的相關(guān)概述

      某種治療的分子反應(yīng)或深入了解臨床表型時,基因集或途徑富集技術(shù)是從高維分子組學(xué)數(shù)據(jù)推斷機(jī)械生物學(xué)信息的首選工具。通過不同的統(tǒng)計技術(shù),如過度代表性分析(ORA)或GSEA,能夠識別特定的基因集或特定治療或疾病引發(fā)的分子反應(yīng)/信號途徑。這些集合可能代表特定的分子功能,如基因本體論(GO)、生物學(xué)過程或?qū)嶒?yàn)衍生的基因集所定義。這些基因集可在數(shù)據(jù)庫或分子特征數(shù)據(jù)庫(MSigDB)中公開。目前,已經(jīng)開發(fā)了100種算法來豐富基因集分析,每一個都有自身的優(yōu)點(diǎn)和缺點(diǎn)。原則上,這些方法可以分為兩類:一是純基因集富集,其中算法只關(guān)注一個簡單的特征列表;二是基于拓?fù)涞母患?,其中算法包括來自路徑或網(wǎng)絡(luò)數(shù)據(jù)庫的附加信息,例如,哪些基因或蛋白質(zhì)是直接連接以及它們是如何連接的相互影響。在其最新版本中,GSEA適用于11種不同生物體(包括人、小鼠或大鼠)的轉(zhuǎn)錄組、蛋白質(zhì)組和代謝組數(shù)據(jù)的組合[1]。

      2工作流—收集路徑定義、特征提取和映射

      在過去的幾十年里,已經(jīng)建立了幾個路徑數(shù)據(jù)庫。其中一些是同行評審和人工策劃的,另一些則遵循基于社區(qū)的方法來開發(fā)和確定路徑。然而,這些數(shù)據(jù)庫通常包含自己的格式,提供了路徑定義,這使得一個分析工作流中包含多個數(shù)據(jù)庫變得很麻煩?!癵raphite”和“R”軟件包旨在彌合這一差距,因?yàn)槠淠軌驈?個公開可用的數(shù)據(jù)庫中提供路徑定義——數(shù)量為2。這些數(shù)據(jù)庫中目前可用的人類路徑定義列于括號中:KEGG(311)、Biocarta(247)、Reactome(2208)、NCI/自然路徑交互數(shù)據(jù)庫(212)、HumanCyc(48682)、Panther、smpdb(48668)和PharmGKB(66)。在GSEA工作流程的第一步中,應(yīng)用Graphite軟件包從多達(dá)8個公眾中檢索路徑定義數(shù)據(jù)庫。在數(shù)據(jù)庫中,路徑特征(節(jié)點(diǎn))用不同的ID編碼格式。例如,KEGG數(shù)據(jù)庫使用Entrez基因ID作為轉(zhuǎn)錄物和蛋白質(zhì),而KEGG化合物則使用IDs用于代謝產(chǎn)物。相反,Reactome數(shù)據(jù)庫通過Uniprot標(biāo)識符存儲轉(zhuǎn)錄和蛋白質(zhì),而ChEBI ID則用于代謝產(chǎn)物。進(jìn)一步的代謝物ID格式是CAS編號和Pubchem ID。為了解決這個問題,特別是在一次分析中使用多個路徑數(shù)據(jù)庫時,為所有三個支持的omics層實(shí)現(xiàn)了一個ID映射。為了提高可用性,將這個全面的代謝物映射數(shù)據(jù)集封裝在一個獨(dú)立的AnnotationHub包中,稱為代謝物idmapping(Canzler,2020)。在其當(dāng)前版本中,該軟件包包含超過110萬種化合物,并從四個不同的數(shù)據(jù)庫中收集和集成:Comptox儀表盤12、HMDB3和ChEBI4。

      3基因集富集分析的應(yīng)用

      測定的的組學(xué)數(shù)據(jù)是計算基因集富集分?jǐn)?shù)所必需的,為上一步從外部數(shù)據(jù)庫中提取特定路徑特征中定義的每個omics層加載這些數(shù)據(jù)。在計算富集分?jǐn)?shù)之前,必須進(jìn)行差異表達(dá)分析,以便所有的組學(xué)特征都具有相關(guān)的倍數(shù)變化和P值。預(yù)處理步驟必須在外部完成,不屬于多個SEA的一部分包裝[2]。第二步,GSEA通過在每個omics層上分別應(yīng)用fgsea Rpackage來計算富集分?jǐn)?shù)。最初形式的GSEA算法首次被描述為闡明2型糖尿病的機(jī)理基礎(chǔ),更新和最常用的版本是由Subramanian等人提出的。測量的組學(xué)特征用于差異表達(dá)測試,以得出褶皺變化和相關(guān)P值。這兩個值都用于計算所謂的局部統(tǒng)計,即基于折疊變化方向和對數(shù)轉(zhuǎn)換P值的排序基因列表。在接下來的步驟中,GSEA算法測試基因集是聚集在這些有序基因載體的頂部還是底部。這里使用的fgsea版本是一個高效但精確的實(shí)現(xiàn)了突出的GSEA算法。它的性能是通過實(shí)施累積的GSEA統(tǒng)計計算來實(shí)現(xiàn)的,允許在不同基因集大小之間重用樣本。在多GSEA工作流程的第二部分之后,每個下載的路徑都被分配了基于SEA的富集分?jǐn)?shù)、P值和調(diào)整后的P值分開。

      參考文獻(xiàn):

      [1]劉虎,吳思浛,包楚陽,等.基因集富集分析探討HER2基因?qū)ξ赴┐x的影響[J].安徽醫(yī)科大學(xué)學(xué)報,2020,5(9):1339-1342.

      [2]廖存,廖錫文,韋瑞麗,等.基于全基因組RNA測序數(shù)據(jù)和基因集富集分析方法對直腸癌發(fā)病機(jī)制的初步探討[J].結(jié)直腸肛門外科,2019,25(4):422-426.

      猜你喜歡
      數(shù)據(jù)分析
      電子物證檢驗(yàn)的數(shù)據(jù)分析與信息應(yīng)用研究
      基于matlab曲線擬合的數(shù)據(jù)預(yù)測分析
      商情(2016年40期)2016-11-28 11:28:07
      分眾媒體趨勢下場景營銷的商業(yè)前景
      商(2016年32期)2016-11-24 17:39:41
      佛山某給水管線控制測量探討
      科技資訊(2016年18期)2016-11-15 18:05:53
      SPSS在環(huán)境地球化學(xué)中的應(yīng)用
      考試周刊(2016年84期)2016-11-11 23:57:34
      大數(shù)據(jù)時代高校數(shù)據(jù)管理的思考
      科技視界(2016年18期)2016-11-03 22:51:40
      我校如何利用體育大課間活動解決男生引體向上這個薄弱環(huán)節(jié)
      體育時空(2016年8期)2016-10-25 18:02:39
      Excel電子表格在財務(wù)日常工作中的應(yīng)用
      淺析大數(shù)據(jù)時代背景下的市場營銷策略
      新常態(tài)下集團(tuán)公司內(nèi)部審計工作研究
      中國市場(2016年36期)2016-10-19 04:31:23
      泉州市| 昌黎县| 衡南县| 科尔| 富蕴县| 龙胜| 河源市| SHOW| 怀仁县| 即墨市| 遵义县| 尉氏县| 宣化县| 鄂尔多斯市| 遂平县| 边坝县| 吉首市| 丽水市| 新安县| 平遥县| 麻江县| 奈曼旗| 台北市| 西安市| 故城县| 天门市| 喀喇沁旗| 青河县| 承德市| 马山县| 贡觉县| 兴海县| 临邑县| 澳门| 诏安县| 葫芦岛市| 揭东县| 叙永县| 开原市| 巴彦县| 依兰县|