• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      真核生物基因組注釋的主要步驟及方法

      2017-02-18 07:15:26孫千代徐杰英
      生物學(xué)教學(xué) 2017年12期
      關(guān)鍵詞:真核內(nèi)含子外顯子

      孫千代 徐杰英

      (北京市第九中學(xué) 100041)

      隨著基因組測(cè)序技術(shù)的不斷發(fā)展以及測(cè)序成本的不斷降低,越來越多的真核生物基因組被測(cè)序。然而,基因組序列本身只是一串串由A、T、C、G四個(gè)字母所組成的、枯燥難懂的字符,只有當(dāng)這些字符串的生物學(xué)意義被解讀了,即基因組序列被注釋了,人們才能夠有效地使用基因組序列。由此,在基因組測(cè)序完成之后,要做的第一件事就是進(jìn)行基因組注釋(genome annotation)。

      1 基因組組裝質(zhì)量的評(píng)估

      由于基因組組裝得好壞直接決定了基因組注釋的質(zhì)量,所以在進(jìn)行基因組注釋之前,先要評(píng)估一下基因組組裝的質(zhì)量。目前有許多評(píng)價(jià)指標(biāo)可以用來描述基因組組裝的完整性以及連續(xù)性,其中應(yīng)用得最為廣泛的就是N50數(shù)值(整個(gè)基因組序列長(zhǎng)度的50%是由長(zhǎng)度大于或者等于某個(gè)長(zhǎng)度的序列所構(gòu)成的,這個(gè)長(zhǎng)度即為N50)。一般來說,N50越長(zhǎng),表示組裝的結(jié)果越好。當(dāng)一個(gè)基因組組裝的N50長(zhǎng)度大于或等于這一物種基因的平均長(zhǎng)度,那么表示基因組組裝的質(zhì)量不錯(cuò),可以進(jìn)行后續(xù)的注釋工作。此外,有一些軟件(如BUSCO)采用與N50指標(biāo)互補(bǔ)的方法來評(píng)價(jià)基因組組裝的質(zhì)量。它把基因組組裝后的序列與譜系特異性的一套單拷貝基因進(jìn)行對(duì)比,來確定這些單拷貝基因完整地出現(xiàn)在一條序列上的百分比,借此來評(píng)價(jià)基因組組裝的完整性以及連續(xù)性。如果一個(gè)基因組組裝得不太完整或者N50太短,則需要額外加測(cè)一些序列來提高基因組組裝的結(jié)果,以便于對(duì)基因組進(jìn)行注釋[1]。

      2 基因組重復(fù)序列的鑒定

      真核生物的基因組里面有著大量的重復(fù)序列。例如,人類的基因組里有大約47%甚至更多的重復(fù)序列。重復(fù)序列的存在使基因組注釋復(fù)雜化,并且會(huì)使基因注釋的精度大幅降低。因而,在注釋基因組內(nèi)的基因之前,需要對(duì)基因組內(nèi)的重復(fù)序列進(jìn)行注釋。目前有兩種主要的鑒定重復(fù)序列的方法,即依據(jù)序列相似性的重復(fù)序列鑒定以及重復(fù)序列的從頭鑒定。在很多情況下,是把兩種方法結(jié)合起來進(jìn)行重復(fù)序列的鑒定。當(dāng)把一個(gè)基因組內(nèi)的重復(fù)序列鑒定出來之后,就可以借助軟件RepeatMasker把該基因組內(nèi)所有的重復(fù)序列都標(biāo)記出來,以幫助下一步的基因注釋軟件跳過這些重復(fù)序列[1]。

      3 基因注釋

      基因組注釋的主要內(nèi)容是:鑒定出基因組內(nèi)的基因,確定基因的結(jié)構(gòu)(內(nèi)含子-外顯子的邊界等),并推斷出基因可能的功能(是否編碼蛋白質(zhì)等)。

      目前主要有兩類方法被用來鑒定基因組內(nèi)的基因,并確定它們的結(jié)構(gòu):第一類方法是把來源于同一物種或者親緣關(guān)系較近物種的蛋白質(zhì)序列、表達(dá)序列標(biāo)簽(EST)或者轉(zhuǎn)錄組序列(RNA-seq)與新組裝的基因組序列進(jìn)行比對(duì),根據(jù)序列比對(duì)結(jié)果進(jìn)行基因鑒定和基因結(jié)構(gòu)解析;第二類方法是基于數(shù)學(xué)模型的基因從頭預(yù)測(cè),它利用軟件自帶的參數(shù)文件(包括密碼子使用頻率、外顯子-內(nèi)含子的長(zhǎng)度分布等特征),來區(qū)分基因區(qū)與基因間區(qū),確定基因的外顯子-內(nèi)含子結(jié)構(gòu)?;跀?shù)學(xué)模型的基因預(yù)測(cè)方法的好處是:當(dāng)一個(gè)新測(cè)序的基因組沒有足夠的蛋白質(zhì)序列、表達(dá)序列標(biāo)簽或轉(zhuǎn)錄組序列時(shí)仍然能夠進(jìn)行基因組注釋。但由于軟件所自帶的參數(shù)文件具有物種特異性,而且它們都是來自于非常經(jīng)典的模式生物的基因組。所以,如果所要進(jìn)行基因組注釋的生物與這些模式生物的親緣關(guān)系很遠(yuǎn)時(shí),那么使用基于數(shù)學(xué)模型的基因預(yù)測(cè)方法就會(huì)不太準(zhǔn)確。因此,目前主流的做法是分別使用第一類和第二類方法進(jìn)行基因注釋,然后把兩類方法的基因注釋結(jié)果進(jìn)行整合,并利用一些軟件(如GLEAN)來挑選出針對(duì)于同一個(gè)基因的“最優(yōu)”注釋[2]。

      4 基因組注釋結(jié)果的釋放

      當(dāng)一個(gè)基因組的注釋工作完成之后,首先要把盡可能全面的注釋信息(如基因的外顯子-內(nèi)含子結(jié)構(gòu)、基因的起始密碼子、終止密碼子、基因的選擇性剪切等)以恰當(dāng)?shù)奈募袷?如GFF3格式)存儲(chǔ)起來;然后將基因組的注釋信息提交給大型的生物信息學(xué)公共數(shù)據(jù)庫(kù)(如GenBank 和 Ensembl),或者自己建立一個(gè)小型的數(shù)據(jù)庫(kù),以分享注釋結(jié)果。這樣,基因組注釋的結(jié)果就可以讓更多的人獲得,以促進(jìn)相關(guān)領(lǐng)域的研究工作[2]。

      高質(zhì)量的基因組注釋在重要功能基因的挖掘、致病基因的鑒定以及農(nóng)作物新品種的培育等方面發(fā)揮著巨大的作用。但是,真核生物基因組注釋的工作并不是一勞永逸的,因?yàn)殡S著注釋工具以及測(cè)序技術(shù)的不斷發(fā)展,需要不斷地對(duì)現(xiàn)有的基因組注釋進(jìn)行周期性的更新。因此,真核生物的基因組注釋工作任重而道遠(yuǎn)。

      猜你喜歡
      真核內(nèi)含子外顯子
      外顯子跳躍模式中組蛋白修飾的組合模式分析
      真核翻譯起始因子-5A2在肝內(nèi)膽管癌中的表達(dá)及意義
      線粒體核糖體蛋白基因中內(nèi)含子序列間匹配特性分析
      外顯子組測(cè)序助力產(chǎn)前診斷胎兒骨骼發(fā)育不良
      不同方向內(nèi)含子對(duì)重組CHO細(xì)胞中神經(jīng)生長(zhǎng)因子表達(dá)的影響
      更 正
      外顯子組測(cè)序助力產(chǎn)前診斷胎兒骨骼發(fā)育不良
      內(nèi)含子的特異性識(shí)別與選擇性剪切*
      人類組成型和可變外顯子的密碼子偏性及聚類分析
      人醛縮酶A干擾RNA真核表達(dá)載體的構(gòu)建
      南涧| 南川市| 永川市| 南充市| 西昌市| 阿拉善右旗| 莆田市| 建瓯市| 浦县| 蒲城县| 湖州市| 诏安县| 延安市| 车险| 四川省| 高阳县| 天等县| 体育| 手机| 睢宁县| 琼结县| 黄梅县| 牙克石市| 旬阳县| 昌都县| 商都县| 双桥区| 上高县| 本溪| 古浪县| 郑州市| 永福县| 鞍山市| 横峰县| 共和县| 吉林省| 安庆市| 临泉县| 威海市| 东乡族自治县| 青田县|