一種改進的多聚腺苷酸化位點提取方法

2018-11-01 03:04:18張洋子

電腦知識與技術(shù) 2018年19期

張洋子

摘要：多聚腺苷酸化是真核生物基因表達的重要步驟。多聚腺苷酸化位點（Poly（A）位點）標識基因末端，準確識別poly（A）位點有利于確定成熟的mRNA。如果一個基因含有多個poly（A）位點，通過不同poly（A）位點的選擇可以產(chǎn)生不同性質(zhì)的mRNA（Alternative Polyadenylation， APA）。全基因組3末端測序技術(shù)產(chǎn)生了大量包含poly（A）位點信息的序列，如何從這些序列中快速有效地獲取poly（A）位點成為生物學家關(guān)注的焦點。本文針對3末端測序數(shù)據(jù)，通過Perl腳本和生物信息軟件的綜合利用，設(shè)計了poly（A）位點的全基因組提取流程，可有效提取poly（A）位點并對其進行注釋，該方法優(yōu)勢是適用于多種物種，適用性廣，且運行高效。

關(guān)鍵詞：Poly（A）位點；3末端測序技術(shù)；提取流程

中圖分類號：TP311 文獻標識碼：A 文章編號：1009-3044（2018）19-0287-01

1 研究背景和現(xiàn)狀

多聚腺苷酸化（Polyadenylation）是把一段多聚A尾巴加到mRNA上的機制，多聚腺苷酸化位點（Poly（A）位點）標識基因末端，mRNA分子于它們的5末端進行加帽，3端中斷，加上一段多聚A尾巴，加尾過程由多聚腺苷酸聚合酶催化進行，進而形成成熟的mRNA。如果一個基因含有多個poly（A）位點，通過不同poly（A）位點的選擇可以產(chǎn)生不同性質(zhì)的mRNA（Alternative Polyadenylation， APA）。APA通過改變mRNA的3UTR的長度及其性質(zhì)進而改變位于3末端的許多潛在順式調(diào)控模式，從而達到調(diào)控基因表達的目的。

雖然當前已獲得許多物種的poly（A）位點信息，但還有多種物種的poly（A）位點信息尚未提取，一方面Poly（A）位點提取的準確性受測序方法和測序深度影響，另一方面poly（A）位點提取過程沒有流程化處理，較為煩瑣。隨著3末端測序方法的不斷探索和改進，涌現(xiàn)出很多3末端測序方法，比如WTTS-Seq1， 3READS2，3， A-seq4， PAS-seq5。這些實驗方法把焦點集中在3UTR區(qū)域，增加了獲得更多位點的可能性。為了幫助生物學家從海量數(shù)據(jù)中提取出有效的poly（A）位點，本文研究了poly（A）位點提取方法并整合了流程，使運行流暢高效。

2 提取方法

Poly（A）位點的提取方法分為測序數(shù)據(jù)預處理、序列比對至基因組、位點的識別和聚類以及poly（A）位點的注釋4個步驟，方法流程見圖1。

1）測序數(shù)據(jù)預處理：包括質(zhì)量控制以及去除polyA/T尾巴（測序方向決定A/T）；測序后獲得原始序列，序列3端含有連續(xù)的A/T，數(shù)據(jù)格式為FASTQ。質(zhì)量控制的目的是過濾低質(zhì)量的序列，采用FASTX-Toolkit（http：//hannonlab.cshl.edu/fastx_toolkit）進行質(zhì)量控制，再去除3端接頭含有的A/T尾巴，去A/T尾過程允許一定的錯配。

2）序列比對至基因組。將預處理后保留的序列比對至基因組，用TMAP（（https：//github.com/iontorrent/TMAP）將序列比對至參考基因組，參考基因組可從NCBI下載，保留高質(zhì)量比對結(jié)果用于進一步分析。

3）位點的識別和聚類。識別poly（A）位點，根據(jù)比對后的位置以及方向信息，確定poly（A）位點的位置。由于poly（A）位點的微觀不一致性6–8，許多poly（A）位點之間是位置相近，已有研究表明相聚在20nt以上的poly（A）位點可以由不同的poly（A）信號控制，把24bp以內(nèi)的poly（A）位點聚類到一起，認為是1個poly（A）位點。

4） Poly（A）位點的注釋。由于一個基因可能存在多種轉(zhuǎn)錄本或者基因有重疊，在poly（A）位點的注釋過程中，poly（A）位點可能屬于多個區(qū)域，本文采用固定位置優(yōu)先級解決這個問題。

為了檢測方法的有效性，本文從NCBI下載了8組用WTTS-Seq產(chǎn)生的小鼠的共計43，846，314條3末端測序序列，通過本文設(shè)計的poly（A）位點提取方法，識別出56，483個poly（A）位點（每個位點至少有16條序列支持），其中49，783個poly（A）位點注釋到基因內(nèi)，其他poly（A）位點注釋到基因間區(qū)域。約66%（8，122/12，286）個編碼蛋白質(zhì)（Protein coding）基因內(nèi)多于1個poly（A）位點，27% （442/1，665）個長鏈非編碼RNA（Long non-coding RNA， lncRNA）基因內(nèi)多于1個poly（A）位點。

為了進一步檢測該方法提取出的poly（A）位點的可靠性，本文提取了poly（A）位點前100nt的堿基，分析其信號模式，根據(jù)已有的28個poly（A）信號，用滑動窗口掃描前100nt的序列，結(jié)果如圖2表示，AATAAA是最保守的信號，與現(xiàn)有研究一致。

3 結(jié)束語

本文為幫助生物學家快速提取有效的poly（A）位點，針對當前3末端測序技術(shù)得到的海量數(shù)據(jù)，設(shè)計了poly（A）位點的提取方法，流程簡單，運行效率高，適用性廣。為檢測方法的有效性，用3末端測序得到的小鼠序列進行檢測，結(jié)果表明該方法可以提取出位于不同基因類型的poly（A）位點，poly（A）信號模式與當前研究相一致。

參考文獻：

[1] Zhou， X. et al. Accurate profiling of gene expression and alternative polyadenylation with whole transcriptome termini site sequencing （WTTS-Seq）. Genetics，2016（203）：683–697.

[2] Hoque， M. et al. Analysis of alternative cleavage and polyadenylation by 3 [prime] region extraction and deep sequencing. Nat. Methods，2013（10）：133–139.

[3] Li， W. et al. Systematic profiling of poly （A）+ transcripts modulated by core 3end processing and splicing factors reveals regulatory rules of alternative cleavage and polyadenylation. PLoS Genet，2015（11）： e1005166.

[4] Gruber， A. R.， Martin， G.， Keller， W. & Zavolan， M. Cleavage factor Im is a key regulator of 3′ UTR length. RNA Biol，2012（9）：1405–1412.

[5] Shepard， P. J. et al. Complex and dynamic landscape of RNA polyadenylation revealed by PAS-Seq. Rna ，2011（17）：761–772.

[6] Shen， Y. et al. Genome level analysis of rice mRNA 3？？？-end processing signals and alternative polyadenylation. Nucleic Acids Res，2008（36）：3150–3161.

[7] Tian， B.， Hu， J.， Zhang， H. & Lutz， C. S. A large-scale analysis of mRNA polyadenylation of human and mouse genes. Nucleic Acids Res，2005（33）：201–212.

99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

一種改進的多聚腺苷酸化位點提取方法