• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      植物轉(zhuǎn)錄因子分類、預(yù)測(cè)和數(shù)據(jù)庫(kù)構(gòu)建

      2015-09-14 12:47:16靳進(jìn)樸郭安源何坤張禾朱其慧陳新高歌羅靜初
      生物技術(shù)通報(bào) 2015年11期
      關(guān)鍵詞:結(jié)構(gòu)域基因組家族

      靳進(jìn)樸 郭安源,2 何坤,3 張禾,4 朱其慧,5 陳新 高歌 羅靜初

      基因表達(dá)調(diào)控在動(dòng)植物生長(zhǎng)發(fā)育過(guò)程中具有重要作用,是植物適應(yīng)外界環(huán)境的分子基礎(chǔ),轉(zhuǎn)錄調(diào)控是基因表達(dá)調(diào)控的關(guān)鍵步驟。轉(zhuǎn)錄調(diào)控通過(guò)轉(zhuǎn)錄因子(Transcription factor)蛋白質(zhì)序列中的DNA結(jié)合結(jié)構(gòu)域和靶基因上游啟動(dòng)子區(qū)域特異DNA序列模體結(jié)合而實(shí)現(xiàn)。除DNA結(jié)合結(jié)構(gòu)域(DNA binding domain,DBD)外,轉(zhuǎn)錄因子通常還包含轉(zhuǎn)錄調(diào)控結(jié)構(gòu)域(Transcription regulation domain),主要用于調(diào)控靶基因轉(zhuǎn)錄活性,既可激活轉(zhuǎn)錄,也可抑制轉(zhuǎn)錄。轉(zhuǎn)錄因子中的核定位信號(hào)(Nuclear localization signal,NLS)可引導(dǎo)轉(zhuǎn)錄因子在胞漿內(nèi)合成后通過(guò)核膜進(jìn)入細(xì)胞核。此外,有些轉(zhuǎn)錄因子含寡聚化結(jié)構(gòu)域可形成二聚體或多聚體復(fù)合物,具有更為復(fù)雜的調(diào)控機(jī)制。

      轉(zhuǎn)錄因子種類繁多、功能復(fù)雜,它們通過(guò)與靶基因啟動(dòng)子結(jié)合,激活或抑制其轉(zhuǎn)錄活性,調(diào)控靶基因在不同組織、不同細(xì)胞、不同環(huán)境條件下特異表達(dá),并通過(guò)轉(zhuǎn)錄因子級(jí)聯(lián)調(diào)控網(wǎng)絡(luò),對(duì)許多生命過(guò)程進(jìn)行調(diào)控。例如,果蠅體節(jié)發(fā)育由一類稱為同源異型框(Homeobox)的基因調(diào)控,它們所編碼的蛋白質(zhì)為轉(zhuǎn)錄因子,含長(zhǎng)度為60個(gè)氨基酸的DNA結(jié)合結(jié)構(gòu)域。植物特異轉(zhuǎn)錄因子家族SQUAMOSA promotor binding protein(SBP)成員具有調(diào)控玉米果實(shí)發(fā)育和水稻分蘗等多種功能。

      20世紀(jì)90年代開(kāi)始的人類基因組計(jì)劃,開(kāi)創(chuàng)了生命科學(xué)研究的新時(shí)代。人類基因組計(jì)劃指定的模式生物釀酒酵母、秀麗線蟲(chóng)和果蠅的基因組測(cè)序于2000年前先后完成。擬南芥基因組測(cè)序于2000年底完成。2000年12月15日,就在Nature雜志發(fā)表擬南芥基因組序列分析論文[1]的第2天,Science雜志發(fā)表了題為《擬南芥轉(zhuǎn)錄因子:從基因組水平上比較真核生物轉(zhuǎn)錄因子》的論文[2],首次系統(tǒng)預(yù)測(cè)了擬南芥基因組中的1533個(gè)轉(zhuǎn)錄因子,將它們分為28個(gè)家族,并與酵母、線蟲(chóng)和果蠅等其它3個(gè)真核生物進(jìn)行了系統(tǒng)比較,發(fā)現(xiàn)擬南芥中轉(zhuǎn)錄因子在整個(gè)基因組中所占比例遠(yuǎn)高于上述3個(gè)物種。

      2004年,北京大學(xué)生命科學(xué)學(xué)院朱玉賢、鄧興旺主持的國(guó)家自然科學(xué)基金國(guó)際合作項(xiàng)目,對(duì)擬南芥中預(yù)測(cè)到的轉(zhuǎn)錄因子按家族逐個(gè)克隆,并對(duì)結(jié)果進(jìn)行了初步分析[3]。為配合該課題的順利進(jìn)行,我們構(gòu)建了擬南芥轉(zhuǎn)錄因子數(shù)據(jù)庫(kù)[4](Database of Arabidopsis transcription factors,DATF)。DATF 中 預(yù)測(cè)到的轉(zhuǎn)錄因子數(shù)共1922個(gè),分為64個(gè)家族。此后不久,水稻和楊樹(shù)基因組序列發(fā)布,我們又先后構(gòu)建了水稻轉(zhuǎn)錄因子數(shù)據(jù)庫(kù)[5](Database of rice transcription factors,DRTF)和楊樹(shù)轉(zhuǎn)錄因子數(shù)據(jù)庫(kù)[6](Database of poplar transcription factors,DPTF)。與此同時(shí),苔蘚類植物小立碗蘚(Physcomitrella patens)和綠藻類植物萊茵衣藻(Chlamydomonas reinhardtii)基因組測(cè)序也先后完成,我們又構(gòu)建了植物主要譜系中這兩個(gè)代表性物種的轉(zhuǎn)錄因子數(shù)據(jù)庫(kù)。

      截止2007年,玉米、高粱、棉花、大豆、葡萄等重要經(jīng)濟(jì)作物的基因組測(cè)序尚未完成,但美國(guó)愛(ài)荷華州立大學(xué)植物基因組數(shù)據(jù)庫(kù)PlantGDB收錄了大量植物代表性轉(zhuǎn)錄本(Plant unique transcripts,PUT)序列數(shù)據(jù)[7]。這些PUT序列是由表達(dá)序列標(biāo)簽(Expressed sequence tag,EST)拼接而成,有些是全長(zhǎng)mRNA序列,有些則是mRNA序列片段。我們從17個(gè)物種PUT序列中預(yù)測(cè)了轉(zhuǎn)錄因子,并和上述DATF等5個(gè)已完成基因組測(cè)序物種的轉(zhuǎn)錄因子數(shù)據(jù)庫(kù)整合在一起,構(gòu)建了植物轉(zhuǎn)錄因子數(shù)據(jù)庫(kù)[8](Plant transcription factor database,PlantTFDB),為植物基因組學(xué)、遺傳學(xué)和植物分子生物學(xué)研究提供寶貴的數(shù)據(jù)資源。2010年,玉米、高粱、大豆、葡萄等18個(gè)被子植物,代表性蕨類植物江南卷柏(Selaginella moellendorffii),以及9個(gè)綠藻基因組測(cè)序相繼完成。此外,PlantGDB數(shù)據(jù)庫(kù)也進(jìn)行了更新,并增加了不少新物種。與此同時(shí),許多轉(zhuǎn)錄因子家族、特別是植物特異轉(zhuǎn)錄因子家族的起源、演化、功能等研究成果相繼發(fā)表,轉(zhuǎn)錄因子家族分類也得以更新。為此,我們對(duì)PlantTFDB進(jìn)行了大規(guī)模更新,更新后的第2版包括從49個(gè)物種中預(yù)測(cè)到的53 315個(gè)轉(zhuǎn)錄因子,分為58個(gè)家族[9]。隨著基因組測(cè)序技術(shù)不斷改進(jìn),測(cè)序速度不斷加快。2013年,已有67種植物的基因組測(cè)序完成,我們對(duì)PlantTFDB再次進(jìn)行更新。更新后的第3版共包括129 288個(gè)轉(zhuǎn)錄因子,來(lái)自83個(gè)物種,其中67個(gè)已完成基因組測(cè)序,覆蓋綠色植物各大門(mén)類[10]。

      本文介紹植物轉(zhuǎn)錄因子分類規(guī)則和預(yù)測(cè)方法,以及植物轉(zhuǎn)錄因子數(shù)據(jù)庫(kù)PlantTFDB的概況和注釋信息。

      1 植物轉(zhuǎn)錄因子家族分類

      轉(zhuǎn)錄因子蛋白質(zhì)序列中的DNA結(jié)合結(jié)構(gòu)域DBD在很大程度上決定其與基因上游啟動(dòng)子區(qū)域DNA順式元件結(jié)合的序列特異性[11]。DBD在演化上比較保守,通常用作區(qū)分不同轉(zhuǎn)錄因子家族的主要依據(jù)。2000年,Riechmann等[2]歸納整理了擬南芥中轉(zhuǎn)錄因子家族及其特征,將其分為28個(gè)家族。10多年來(lái),我們先后檢索和閱讀了大量植物轉(zhuǎn)錄因子相關(guān)文獻(xiàn),文章總數(shù)累計(jì)達(dá)7 000余篇。在Riechmann等工作基礎(chǔ)上,根據(jù)已有文獻(xiàn)報(bào)道,總結(jié)了植物轉(zhuǎn)錄因子家族及其結(jié)構(gòu)域序列特征,改進(jìn)了植物轉(zhuǎn)錄因子家族分類規(guī)則,并不斷加以修改和完善,用于植物轉(zhuǎn)錄因子家族劃分和植物基因組中未知轉(zhuǎn)錄因子的預(yù)測(cè)(圖1)。

      圖1 植物轉(zhuǎn)錄因子家族分類規(guī)則

      1.1 單一DNA結(jié)合結(jié)構(gòu)域

      一般說(shuō)來(lái),根據(jù)轉(zhuǎn)錄因子蛋白質(zhì)序列中所含DNA結(jié)合結(jié)構(gòu)域種類,即可確定其屬于某個(gè)特定家族。第3版PlantTFDB數(shù)據(jù)庫(kù)58個(gè)轉(zhuǎn)錄因子家族中,36個(gè)家族(~62%)符合這種家族與DBD一一對(duì)應(yīng)的簡(jiǎn)單規(guī)則,如調(diào)控植物生長(zhǎng)發(fā)育的乙烯不敏感(Ethylene insensitive-like,EIL)轉(zhuǎn)錄因子家族均含EIN結(jié)構(gòu)域,調(diào)控植物花、果實(shí)發(fā)育的SQUAMOSA基因啟動(dòng)子結(jié)合蛋白(SQUAMOSA-promoter binding protein,SBP)均含SBP結(jié)構(gòu)域。

      1.2 禁止結(jié)構(gòu)域

      除上述具有簡(jiǎn)單對(duì)應(yīng)關(guān)系的轉(zhuǎn)錄因子外,某些蛋白質(zhì)家族情況比較復(fù)雜。例如,由兩個(gè)半胱氨酸(Cys,C)和兩個(gè)組氨酸(His,H)組成的C2H2鋅指結(jié)構(gòu),是重要的蛋白質(zhì)序列模體。這類蛋白質(zhì)分子中,有些能與DNA結(jié)合,具有轉(zhuǎn)錄活性;有些則與RNA結(jié)合,具有核酸酶活性,除了能與RNA結(jié)合的C2H2鋅指結(jié)構(gòu)外,它們同時(shí)包含核酸酶相關(guān)RNase_T結(jié)構(gòu)域。因此,我們將RNase_T結(jié)構(gòu)域稱為“禁止結(jié)構(gòu)域”(Forbidden domain),用來(lái)降低轉(zhuǎn)錄因子預(yù)測(cè)中含C2H2鋅指結(jié)構(gòu)的蛋白質(zhì)預(yù)測(cè)的假陽(yáng)性率。又如,半胱氨酸型肽段內(nèi)切酶MCP1B和AtMC2均具有DNA結(jié)合結(jié)構(gòu)域Zf-LSD,但目前尚無(wú)證據(jù)表明它們具備轉(zhuǎn)錄調(diào)控功能。我們用禁止結(jié)構(gòu)域“Peptidase_C14”用來(lái)濾除包含Zf-LSD結(jié)構(gòu)域蛋白質(zhì)中的非轉(zhuǎn)錄因子。除上述兩個(gè)家族外,C3H和MYB家族也含禁止結(jié)構(gòu)域。

      1.3 輔助結(jié)構(gòu)域

      有些轉(zhuǎn)錄因子中除了DBD外,還有其它一些特征結(jié)構(gòu)域,稱為“輔助結(jié)構(gòu)域”(Auxiliary domain)。輔助結(jié)構(gòu)域也可用作轉(zhuǎn)錄因子家族分類的依據(jù)。例如,生長(zhǎng)調(diào)控因子(Growth regulation factor,GRF)轉(zhuǎn)錄因子家族中均含WRC結(jié)構(gòu)域,該結(jié)構(gòu)域中的特征序列為色氨酸(Trp,W)-精氨酸(Arg,R)-半胱氨酸(Cys,C)序列模體WRC。但并非所有含WRC序列模體的蛋白質(zhì)都具有轉(zhuǎn)錄活性,只有既有WRC序列模體又有QLQ序列模體[谷氨酰胺(Gln,Q)-亮氨酸(Leu,L)- 谷氨酰胺(Gln,Q)]的蛋白質(zhì)才是轉(zhuǎn)錄因子。

      1.4 DBD結(jié)構(gòu)域數(shù)

      有些轉(zhuǎn)錄因子中含兩個(gè)或兩個(gè)以上DBD,因此,DBD數(shù)目也常常用來(lái)區(qū)分不同轉(zhuǎn)錄因子家族。典型實(shí)例為AP2和ERF家族。這兩個(gè)家族轉(zhuǎn)錄因子中均含AP2結(jié)構(gòu)域,同屬于AP2/ERF超家族,其中僅含一個(gè)AP2結(jié)構(gòu)域的為ERF家族,含兩個(gè)或兩個(gè)以上的則為AP2家族。又如,MYB轉(zhuǎn)錄因子超家族均含Myb_dna_bind結(jié)構(gòu)域,僅含一個(gè)的為MYB_related家族,而含兩個(gè)或兩個(gè)以上的為MYB家族。

      1.5 超家族

      除上述基于DNA結(jié)合結(jié)構(gòu)域、利用禁止結(jié)構(gòu)域和輔助結(jié)構(gòu)域?qū)Σ煌D(zhuǎn)錄因子家族進(jìn)行分類外,有些轉(zhuǎn)錄因子家族之間的關(guān)系比較復(fù)雜。例如,具有DNA結(jié)合結(jié)構(gòu)域G2-like的轉(zhuǎn)錄因子均屬于GARP超家族,其中同時(shí)還含Response_reg結(jié)構(gòu)域,而有的則僅有G2-like結(jié)構(gòu)域。我們將僅含G2-like結(jié)構(gòu)域的轉(zhuǎn)錄因子歸為G2-like家族,而把兼有G2-like和Response_reg結(jié)構(gòu)域的轉(zhuǎn)錄因子歸為ARR-B家族。

      更為復(fù)雜的是,AP2/ERF超家族中的另外一個(gè)家族RAV同時(shí)含有兩個(gè)DNA結(jié)合結(jié)構(gòu)域,一個(gè)為AP2,另一個(gè)為B3。而B(niǎo)3結(jié)構(gòu)域又是另外一個(gè)超家族B3中兩個(gè)家族的DNA結(jié)合結(jié)構(gòu)域。該超家族中僅含B3結(jié)構(gòu)域的為B3家族,同時(shí)含B3結(jié)構(gòu)域和Auxin_resp輔助結(jié)構(gòu)域的為ARF家族。

      具有同源異型結(jié)構(gòu)域(Homeodomain)的轉(zhuǎn)錄因子是一個(gè)具有多個(gè)家族的超家族,根據(jù)是否具有輔助結(jié)構(gòu)域及輔助結(jié)構(gòu)域類別,可細(xì)分為HD-ZIP、TALE、WOX等家族。

      2 植物轉(zhuǎn)錄因子預(yù)測(cè)

      2.1 預(yù)測(cè)方法

      利用上述家族分類規(guī)則,可以將文獻(xiàn)中已經(jīng)報(bào)道的植物轉(zhuǎn)錄因子分為若干家族,并以此為依據(jù)預(yù)測(cè)已經(jīng)完成基因組測(cè)序的綠色植物基因組中未知轉(zhuǎn)錄因子。早期的預(yù)測(cè)主要采用BLAST序列相似性搜索,即以不同家族的已知轉(zhuǎn)錄因子DBD序列為檢測(cè)序列,設(shè)置恰當(dāng)?shù)膮?shù),用安裝到本地的BLAST軟件包,逐個(gè)搜索不同物種基因組中蛋白質(zhì)編碼序列,并對(duì)搜索結(jié)果進(jìn)行計(jì)算機(jī)和人工篩選,剔除假陽(yáng)性結(jié)果。

      基于隱馬氏模型(Hidden markov model,HMM)的序列分析軟件包HMMER在蛋白結(jié)構(gòu)域識(shí)別方面具有靈敏度高、特異性好的優(yōu)勢(shì),多用于預(yù)測(cè)同一家族的遠(yuǎn)緣同源序列[12]。其主要原理為適當(dāng)選取若干已知種子序列并進(jìn)行多序列比對(duì),基于隱馬氏模型對(duì)序列比對(duì)結(jié)果進(jìn)行分析并構(gòu)建隱馬氏模型,給出模型參數(shù)。因此,我們采用HMMER軟件包為主要轉(zhuǎn)錄因子預(yù)測(cè)工具。歐洲生物信息學(xué)研究所(European bioinformatics institute,EBI)Bateman領(lǐng)導(dǎo)的研究組,利用HMMER軟件包構(gòu)建了蛋白質(zhì)結(jié)構(gòu)域數(shù)據(jù)庫(kù)Pfam[13]。該數(shù)據(jù)庫(kù)還無(wú)償提供他們構(gòu)建的用于預(yù)測(cè)蛋白質(zhì)結(jié)構(gòu)域的隱馬氏模型。上述轉(zhuǎn)錄因子分類規(guī)則中共用到63個(gè)隱馬氏模型,其中52個(gè)取自Pfam數(shù)據(jù)庫(kù),另外11個(gè)當(dāng)時(shí)發(fā)布的第27版(Pfam V27.0)尚未公布。為此,基于文獻(xiàn)和收集到的轉(zhuǎn)錄因子序列,利用HMMER軟件包,我們構(gòu)建了這11個(gè)結(jié)構(gòu)域的隱馬氏模型,用于預(yù)測(cè)植物基因組中的轉(zhuǎn)錄因子(表1)。為提高預(yù)測(cè)的準(zhǔn)確性,我們基于GO注釋[14]、擬南芥信息資源數(shù)據(jù)庫(kù)[15](The Arabidopsis information resource,TAIR)和國(guó)際蛋白質(zhì)序列和功能知識(shí)庫(kù)UniProtKB[16]等相關(guān)信息,人工檢查序列比對(duì)結(jié)果,并參考Pfam確定閾值的方法,為每個(gè)結(jié)構(gòu)域模型確定了一個(gè)閾值。

      基于上述方法和隱馬氏模型,我們構(gòu)建了植物轉(zhuǎn)錄因子預(yù)測(cè)流程,用于預(yù)測(cè)植物基因組中未知轉(zhuǎn)錄因子[17]。

      表1 用于轉(zhuǎn)錄因子預(yù)測(cè)的隱馬氏模型

      2.2 預(yù)測(cè)平臺(tái)

      上述用于轉(zhuǎn)錄因子預(yù)測(cè)的隱馬氏模型可免費(fèi)提供國(guó)內(nèi)外用戶,便于用戶自行構(gòu)建本地轉(zhuǎn)錄因子預(yù)測(cè)系統(tǒng),從基因組水平系統(tǒng)預(yù)測(cè)新測(cè)定的基因組中未知轉(zhuǎn)錄因子。為方便不具備自行構(gòu)建本地轉(zhuǎn)錄因子預(yù)測(cè)系統(tǒng)的廣大用戶,我們?cè)赑lantTFDB數(shù)據(jù)庫(kù)網(wǎng)站中構(gòu)建了在線轉(zhuǎn)錄因子預(yù)測(cè)平臺(tái),用戶可以上載序列,預(yù)測(cè)未知蛋白序列中的轉(zhuǎn)錄因子。目前,模式植物擬南芥的轉(zhuǎn)錄因子調(diào)控機(jī)制研究最為清楚,在PlantTFDB中注釋信息也最為詳盡。用戶若在提交頁(yè)面勾選“Best hit in Arabidopsis thaliana”,預(yù)測(cè)結(jié)果中則包括相似擬南芥轉(zhuǎn)錄因子的超鏈接,供用戶參考。

      3 植物轉(zhuǎn)錄因子數(shù)據(jù)庫(kù)構(gòu)建

      3.1 數(shù)據(jù)庫(kù)概況

      2013年更新的第3版植物轉(zhuǎn)錄因子數(shù)據(jù)庫(kù)PlantTFDB收錄了從83個(gè)物種預(yù)測(cè)到的129 288個(gè)轉(zhuǎn)錄因子,分屬58個(gè)家族(表2)。這83個(gè)物種覆蓋了綠色植物各大譜系,包括10個(gè)綠藻、1個(gè)苔蘚植物、1個(gè)蕨類植物、4個(gè)裸子植物、1個(gè)被子植物基部類群、17個(gè)單子葉植物和49個(gè)雙子葉植物。裸子植物中歐洲云杉(Picea abies)的基因組測(cè)序已經(jīng)完成,填補(bǔ)了舊版PlantTFDB中沒(méi)有裸子植物全基因組預(yù)測(cè)所得轉(zhuǎn)錄因子的空白。顯然,這83個(gè)物種中,被子植物占絕大多數(shù)(~81%),包括單子葉植物水稻、玉米、高粱、小麥、大麥等主要糧食作物,雙子葉植物中棉花、煙草、大豆、番茄、馬鈴薯、黃瓜、西瓜等重要經(jīng)濟(jì)作物,以及葡萄、蘋(píng)果、梨、橙、橘等水果,為作物分子育種研究提供了寶貴資源。而與模式植物擬南芥同一屬的琴葉擬南芥(Arabidopsis lyrata)、同為十字花科的小鹽芥(Thellungiella halophila)和條葉藍(lán)芥(Thellungiella parvula)的轉(zhuǎn)錄因子數(shù)據(jù),則為轉(zhuǎn)錄因子家族的起源、演化和功能研究提供了基礎(chǔ)。

      植物從水生到陸生的演變是生命演化史上的重要事件。橫跨綠色植物各大分支的轉(zhuǎn)錄因子全譜的發(fā)布,使我們可以從轉(zhuǎn)錄調(diào)控水平研究這一重要?dú)v史進(jìn)程。與綠藻相比,陸生植物無(wú)論在轉(zhuǎn)錄因子家族數(shù)目、轉(zhuǎn)錄因子數(shù)目及轉(zhuǎn)錄因子在基因組中所占比例等方面都明顯高于綠藻,與陸生植物更加復(fù)雜的多細(xì)胞形態(tài)發(fā)育相關(guān)[18]。

      3.2 數(shù)據(jù)庫(kù)注釋

      高質(zhì)量的注釋信息是植物轉(zhuǎn)錄因子數(shù)據(jù)庫(kù)PlantTFDB的重要特色。通過(guò)查看注釋信息,從事植物轉(zhuǎn)錄調(diào)控研究的生物學(xué)工作者可獲取該轉(zhuǎn)錄因子序列、功能、表達(dá)、調(diào)控等相關(guān)信息,并通過(guò)文獻(xiàn)信息了解其研究現(xiàn)狀。PlantTFDB中的注釋信息可以分為兩個(gè)層次,第一個(gè)層次為單個(gè)轉(zhuǎn)錄因子的注釋,第二個(gè)層次為家族水平的注釋。

      單個(gè)轉(zhuǎn)錄因子的注釋,除名稱、序列、結(jié)構(gòu)域等基本信息外,也包括與其它重要數(shù)據(jù)庫(kù)的鏈接。此 外, 我 們 從 TAIR、UniProtKB和 AthMap[19]等公共數(shù)據(jù)庫(kù)中全面收集專家校驗(yàn)的功能描述、結(jié)合位點(diǎn)/矩陣、microRNA調(diào)控、激素調(diào)控、相互作用、突變和表型等信息。同時(shí),還通過(guò)整合Entrez Gene[20]、GeneRIF[20]以及通過(guò)文本挖掘和人工校驗(yàn)獲得的文獻(xiàn)信息[18],為收錄的轉(zhuǎn)錄因子提供了相關(guān)的參考文獻(xiàn)列表。此外,我們還收錄了分別基于9個(gè)十字花科物種的基因組比對(duì)和20個(gè)被子植物基因組比對(duì)所得到的轉(zhuǎn)錄因子結(jié)合位點(diǎn)保守元件序列[21,22](表 3)。

      家族水平的注釋除了該家族簡(jiǎn)介和相關(guān)文獻(xiàn)信息外,還包括該家族成員的演化信息,包括所有物種每個(gè)家族成員和每個(gè)物種內(nèi)每個(gè)家族成員兩類比對(duì)信息,以序列圖標(biāo)(Sequence logo)(圖2-A)和系統(tǒng)發(fā)生樹(shù)方式(圖2-B)展示。

      4 結(jié)論與展望

      自2005年首次發(fā)表擬南芥轉(zhuǎn)錄因子數(shù)據(jù)庫(kù)DATF[4]至今已有10年,10年來(lái),我們不斷擴(kuò)充和多次更新植物轉(zhuǎn)錄因子數(shù)據(jù)庫(kù)PlantTFDB。在此期間,德國(guó)波茨坦大學(xué)、丹麥奧胡斯大學(xué)、美國(guó)俄亥俄州立大學(xué)、日本理化學(xué)研究所等單位也構(gòu)建了相應(yīng)的植物轉(zhuǎn)錄因子數(shù)據(jù)庫(kù)(表4)。與這些數(shù)據(jù)庫(kù)相比,PlantTFDB包括的物種最多、注釋信息最豐富、更新最及時(shí)。目前,該數(shù)據(jù)庫(kù)年訪問(wèn)量逾千萬(wàn)次,已成為植物轉(zhuǎn)錄因子功能和演化研究的權(quán)威數(shù)據(jù)庫(kù)和重要數(shù)據(jù)資源,我們構(gòu)建的植物轉(zhuǎn)錄因子家族分類規(guī)則也被國(guó)內(nèi)外同行用于新測(cè)序物種轉(zhuǎn)錄因子預(yù)測(cè)。

      表2 植物轉(zhuǎn)錄因子數(shù)據(jù)庫(kù)PlantTFDB中83個(gè)物種轉(zhuǎn)錄因子及其家族統(tǒng)計(jì)

      續(xù)表

      利用上述數(shù)據(jù)庫(kù)資源,我們與其他課題組合作,對(duì)AP2/EREBP、MYB、SBP等植物轉(zhuǎn)錄因子家族進(jìn)行了演化和功能分析[32-34]。同時(shí),對(duì)擬南芥轉(zhuǎn)錄調(diào)控網(wǎng)絡(luò)進(jìn)行了深入分析,揭示了植物轉(zhuǎn)錄調(diào)控網(wǎng)絡(luò)在結(jié)構(gòu)和演化上的新特征[18]。

      表3 轉(zhuǎn)錄因子個(gè)體水平注釋

      圖2 轉(zhuǎn)錄因子家族水平注釋

      不言而喻,隨著測(cè)序技術(shù)的飛速發(fā)展,更多植物基因組測(cè)序?qū)⑼瓿?,大量基因組、轉(zhuǎn)錄組數(shù)據(jù)不斷發(fā)布。隨著轉(zhuǎn)錄調(diào)控研究不斷深入,轉(zhuǎn)錄因子分類規(guī)則有待改進(jìn)。此外,SELEX等高通量DNA結(jié)合特異性測(cè)定技術(shù)的發(fā)展,為深入研究植物轉(zhuǎn)錄調(diào)控提供了新的契機(jī)。結(jié)合表達(dá)數(shù)據(jù)、啟動(dòng)子區(qū)域和保守元件等信息,預(yù)測(cè)轉(zhuǎn)錄因子下游靶基因,進(jìn)而構(gòu)建高質(zhì)量轉(zhuǎn)錄調(diào)控網(wǎng)絡(luò),探索轉(zhuǎn)錄調(diào)控的分子機(jī)制,必將成為新的研究熱點(diǎn)。開(kāi)發(fā)轉(zhuǎn)錄調(diào)控分析平臺(tái),將植物轉(zhuǎn)錄因子數(shù)據(jù)庫(kù)與數(shù)據(jù)分析整合起來(lái),則是下一步研究目標(biāo)。

      表 4 國(guó)際上主要植物轉(zhuǎn)錄因子數(shù)據(jù)庫(kù)

      [1]Arabidopsis Genome Initiative. Analysis of the genome sequence of the flowering plant Arabidopsis thaliana[J]. Nature, 2000, 408:796-815.

      [2]Riechmann JL, Heard J, Martin G, et al. Arabidopsis transcription factors:genome-wide comparative analysis among eukaryotes[J].Science, 2000, 290:2105.

      [3]Gong W, Shen YP, Ma LG, et al. Genome-wide ORFeome cloning and analysis of Arabidopsis transcription factor genes[J]. Plant Physiol, 2004, 135:773-782.

      [4]Guo A, He K, Liu D, et al. DATF:a database of Arabidopsis transcription factors[J]. Bioinformatics, 2005, 21:2568.

      [5]Gao G, Zhong Y, Guo A, et al. DRTF :a database of rice transcription factors[J]. Bioinformatics, 2006, 22:1286.

      [6]Zhu QH, Guo AY, Gao G, et al. DPTF:a database of poplar transcription factors[J]. Bioinformatics, 2007, 23:1307.

      [7]Duvick J, Fu A, MuppiralaU, et al. PlantGDB :a resource for comparative plant genomics[J]. Nucleic Acids Res, 2008, 36:D959-965.

      [8]Guo AY, Chen X, Gao G, et al. PlantTFDB :a comprehensive plant transcription factor database[J]. Nucleic Acids Res, 2008, 36:D966-969.

      [9]Zhang H, Jin J, Tang L, et al. PlantTFDB 2. 0:update and improvement of the comprehensive plant transcription factor database[J]. Nucleic Acids Res, 2011, 39:D1114-1117.

      [10]Jin J, Zhang H, Kong L, et al. PlantTFDB 3. 0:a portal for the functional and evolutionary study of plant transcription factors[J]. Nucleic Acids Research, 2014, 42:D1182-D1187.

      [11]Weirauch MT, Yang A, Albu M, et al. Determination and inference of eukaryotic transcription factor sequence specificity[J]. Cell,2014, 158:1431-1443.

      [12]Eddy S. HMMERUser’s Guide:Biological sequence analysis using profile hidden Markov models[W]. 2010, http://hmmer.janelia. org/.

      [13]Punta M, Coggill PC, Eberhardt RY, et al. The Pfam protein families database[J]. Nucleic Acids Research, 2012, 40:D290-D301.

      [14]Ashburner M, Ball CA, Blake JA, et al. Gene ontology:tool for the unification of biology. The Gene Ontology Consortium[J]. Nat Genet, 2000, 25(1):25-29.

      [15]Lamesch P, Berardini TZ, Li D, et al. The Arabidopsis Information Resource(TAIR):improved gene annotation and new tools[J].Nucleic Acids Res, 2012, 40:D1202-210.

      [16]UniProt Consortium. Activities at the universal protein resource(UniProt)[J]. Nucleic Acids Research, 2014, 42:D191-D198.

      [17]He K, Guo AY, Gao G, et al. Computational identification of plant transcription factors and the construction of the PlantTFDB database[M]//Computational Biology of Transcription Factor Binding. Humana Press, 2010:351-368.

      [18]Jin J, He K, Tang X, et al. An Arabidopsis transcriptional regulatory map reveals distinct functional and evolutionary features of novel transcription factors[J]. Molecular Biology and Evolution, 2015,32:1767-1773.

      [19]Bulow L, Engelmann S, Schindler M, et al. AthaMap, integrating transcriptional and post-transcriptional data[J]. Nucleic Acids Res, 2009, 37:D983-D986.

      [20]Maglott D, Ostell J, Pruitt KD, et al. Entrez Gene:gene-centered information at NCBI[J]. Nucleic Acids Research, 2011, 39:D52-D57.

      [21]Haudry A, Platts AE, Vello E, et al. An atlas of over 90, 000 conserved noncoding sequences provides insight into crucifer regulatory regions[J]. Nature Genetics, 2013, 45:891-898.

      [22]Baxter L, Jironkin A, Hickman R, et al. Conserved noncoding sequences highlight shared components of regulatory networks in dicotyledonous plants[J]. The Plant Cell Online, 2012, 24:3949-3965.

      [23]Pérez-Rodríguez P, Ria?o-Pachón DM, Corrêa LGG, et al.PlnTFDB:updated content and new features of the plant transcription factor database[J]. Nucleic Acids Research, 2010,38:D822-827.

      [24]Fredslund J. DATFAP:a database of primers and homology alignments for transcription factors from 13 plant species[J].BMC Genomics, 2008, 9:140.

      [25]Mochida K, Yoshida T, Sakurai T, et al. TreeTFDB :An integrative database of the transcription factors from six economically important tree crops for functional predictions and comparative and functional genomics[J]. DNA Research, 2013, 20:151-162.

      [26]Yilmaz A, Nishiyama Jr MY, Fuentes BG, et al. GRASSIUS :a platform for comparative regulatory genomics across the grasses[J]. Plant Physiology, 2009, 149:171.

      [27]Mochida K, Yoshida T, Sakurai T, et al. LegumeTFDB :an integrative database of Glycine max, Lotus japonicus and Medicago truncatula transcription factors[J]. Bioinformatics, 2010, 26:290-291.

      [28]Iida K, Seki M, Sakurai T, et al. RARTF:database and tools for complete sets of Arabidopsis transcription factors[J]. DNA Res,2005, 12:247-256.

      [29]Yilmaz A, Mejia-Guerra MK, Kurz K, et al. AGRIS:the Arabidopsis gene regulatory information server, an update[J].Nucleic Acids Res, 2011, 39:D1118-1122.

      [30]Rushton PJ, Bokowiec MT, Laudeman TW, et al. TOBFAC :the database of tobacco transcription factors[J]. BMC Bioinformatics, 2008, 9:53.

      [31]Romeuf I, Tessier D, Dardevet M, et al. wDBTF:an integrated database resource for studying wheat transcription factor families[J]. BMC Genomics, 2010, 11:185.

      [32]Feng JX, Liu D, Pan Y, et al. An annotation update via cDNA sequence analysis and comprehensive profiling of developmental,hormonal or environmental responsiveness of the Arabidopsis AP2/EREBP transcription factor gene family[J]. Plant Mol Biol,2005, 59:853-68.

      [33]Chen YH, Yang XY, He K, et al. The MYB transcription factor superfamily of Arabidopsis:expression analysis and phylogenetic comparison with the rice MYB family[J]. Plant Mol Biol, 2006,60:107-124.

      [34]Guo AY, Zhu QH, Gu X, et al. Genome-wide identification and evolutionary analysis of the plant specific SBP-box transcription factor family[J]. Gene, 2008, 418:1-8.

      猜你喜歡
      結(jié)構(gòu)域基因組家族
      牛參考基因組中發(fā)現(xiàn)被忽視基因
      HK家族崛起
      蛋白質(zhì)結(jié)構(gòu)域劃分方法及在線服務(wù)綜述
      《小偷家族》
      電影(2019年3期)2019-04-04 11:57:18
      皿字家族
      家族中的十大至尊寶
      重組綠豆BBI(6-33)結(jié)構(gòu)域的抗腫瘤作用分析
      組蛋白甲基化酶Set2片段調(diào)控SET結(jié)構(gòu)域催化活性的探討
      泛素結(jié)合結(jié)構(gòu)域與泛素化信號(hào)的識(shí)別
      基因組DNA甲基化及組蛋白甲基化
      遺傳(2014年3期)2014-02-28 20:58:49
      苏州市| 余干县| 浦县| 潞城市| 库尔勒市| 昌都县| 北宁市| 桦川县| 崇明县| 武强县| 集安市| 松潘县| 天津市| 泌阳县| 宁蒗| 德惠市| 盘山县| 荣昌县| 新郑市| 小金县| 拉萨市| 滨海县| 太康县| 根河市| 揭阳市| 修武县| 丰台区| 石嘴山市| 寿阳县| 临桂县| 罗江县| 茶陵县| 会同县| 利辛县| 青河县| 平湖市| 旬邑县| 常宁市| 曲沃县| 永和县| 石景山区|