魏萌涵 宋慧 王素英 劉海萍 邢璐 解慧芳 王淑君 劉金榮
摘要?鈣依賴蛋白激酶(CDPK)是一類主要的鈣信號(hào)感受器,對(duì)鈣信號(hào)的感知和解碼起重要調(diào)控作用。為揭示CDPK在谷子生長(zhǎng)發(fā)育和抗逆防御機(jī)制中的作用,該研究利用生物信息學(xué)的方法,從谷子基因組中鑒定出28個(gè)SiCPKs基因,對(duì)這些家族成員的基因結(jié)構(gòu)、系統(tǒng)進(jìn)化、染色體定位、基因復(fù)制及其所編碼蛋白的理化性質(zhì)進(jìn)行系統(tǒng)生物信息學(xué)分析。結(jié)果表明,該研究鑒定出的28個(gè)SiCPKs基因所編碼的氨基酸長(zhǎng)度為51.82~68.32 kD,等電點(diǎn)為4.97~9.01,氨基酸序列絕大多數(shù)含有4個(gè)EF-Hand功能域且高度保守;基因結(jié)構(gòu)預(yù)測(cè)結(jié)果表明,大多數(shù)SiCPK基因均含有6~8個(gè)外顯子,染色體定位結(jié)果表明,28個(gè)SiCPKs基因分別定位在8條染色體上,其中9號(hào)染色體上最多(6個(gè)),4號(hào)染色體上沒有;為了進(jìn)一步分析谷子和其他物種的同源進(jìn)化關(guān)系,構(gòu)建了谷子與擬南芥、水稻、萊茵衣藻、小立碗蘚的CDPK進(jìn)化樹,發(fā)現(xiàn)萊茵衣藻與小立碗蘚單獨(dú)聚類,谷子與水稻的親緣關(guān)系比擬南芥近;共線性分析表明,谷子與水稻基因間存在串聯(lián)重復(fù)和片段重復(fù),它們是谷子CDPK家族成員擴(kuò)張的主要?jiǎng)恿?。綜上所述,谷子28個(gè)CDPK基因在進(jìn)化上分為4個(gè)亞家族,基因結(jié)構(gòu)的復(fù)雜程度與進(jìn)化樹聚類存在聯(lián)系,串聯(lián)復(fù)制是基因家族成員擴(kuò)增的進(jìn)化途徑之一。
關(guān)鍵詞?CDPK基因;基因鑒定;系統(tǒng)進(jìn)化;谷子;生物信息學(xué)
中圖分類號(hào)?S188?文獻(xiàn)標(biāo)識(shí)碼?A
文章編號(hào)?0517-6611(2021)01-0083-05
doi:10.3969/j.issn.0517-6611.2021.01.022
Abstract?As one of the Ca2+ sensors,calcium-dependent protein kinase (CDPK) plays vital roles in Ca2+ signal perception and decoding.A genome-wide analysis of SiCPK genes was performed in this study.Twenty-eight SiCPK genes were identified to analyze the properties,gene structure,chromosomal location,system evolution,and the expression of these genes.As the results indicate,the molecular weight was 51.82-68.32 kD,the isoelectric point was 4.97-9.01.Most SiCPK protein contains four EF-Hand functional domains and highly conservative.Gene structure analysis indicated that most of these SiCPK genes share a similar intron-exon structure (6-8 exons).The SiCPK genes were found to be unevenly distributed on chromosomes.For instance,6 SiCPK genes were found on chromosome 9,while none were found on chromosomes 4.In order to further analyze the homologous evolution relationship of Setaria italica and other species,the evolutionary tree was built.The result showed that Chlamydomonas reinhartii and Physcomitrella patens were separately clustered,CDPK in millet (Setaria italic) and relative rice were clustered together.Collinearity analysis showed that tandem duplication and segmental duplication existed in millet and rice CDPK genes,which caused genetic expansion.In conclusion,the twenty-eight SiCPK genes were clustered 4 subgroups,the complexity of the genetic structure and the evolutionary tree had a relationship,and the family members were recruited by chromosome replication.
Key words?CDPK;Gene identification;Systematic evolution;Setaria italic;Bioinformatics
植物在適應(yīng)各種環(huán)境條件的過程中,形成了復(fù)雜的網(wǎng)絡(luò)信號(hào)通路,Ca2+作為胞內(nèi)第二信使在信號(hào)轉(zhuǎn)導(dǎo)通路中起著重要的作用[1]。當(dāng)植物受到外界刺激時(shí),胞質(zhì)中Ca2+濃度變化產(chǎn)生鈣信號(hào),鈣信號(hào)的再次傳遞需要經(jīng)Ca2+結(jié)合蛋白才能完成。在植物中已經(jīng)鑒定出四類鈣傳感/綁定蛋白,它們是鈣調(diào)蛋白(CaM)、類鈣調(diào)蛋白(CaML)、類鈣調(diào)磷酸酶B類蛋白(CBL)和鈣依賴蛋白激酶(CDPK)[2-3],但是CaM、CaML、CBL由于缺少效應(yīng)區(qū),只能作為Ca2+感應(yīng)器傳遞鈣信號(hào),通過與其他靶蛋白的結(jié)合來調(diào)節(jié)其活性[4];而CDPK含有與Ca2+結(jié)合的功能結(jié)構(gòu)域,因此除了具有Ca2+感應(yīng)器的功能,還具有效應(yīng)器的功能,通過改變其自抑制區(qū)的構(gòu)象而改變其活性[5]。鈣依賴蛋白激酶是植物和原生生物所獨(dú)有的一類絲氨酸/蘇氨酸型蛋白激酶,是到目前為止研究最為普遍的Ca2+傳感器之一[6]。在不同植物研究中發(fā)現(xiàn),CDPK可響應(yīng)外界不同刺激,在植物的抗逆脅迫反應(yīng)中起重要的調(diào)控作用[7-9]。谷子是一種古老的抗旱耐瘠作物,具有很強(qiáng)的抗逆性。早在2012年,谷子全基因組序列已經(jīng)公布[10],作物中關(guān)于CDPK基因家族的研究主要集中在水稻、玉米、小麥中,而在谷子中鮮見報(bào)道。該研究通過對(duì)谷子全基因組數(shù)據(jù)庫(kù)的搜索,篩選出CDPK基因家族成員,通過構(gòu)建系統(tǒng)進(jìn)化樹、染色體定位、基因組比較等生物信息學(xué)方法,分析CDPK基因的進(jìn)化關(guān)系,為進(jìn)一步研究SiCPK基因家族功能提供依據(jù)。
1?材料與方法
1.1?谷子CDPK家族蛋白序列的獲得及理化性質(zhì)分析
從Phytozome 11 (https://phytozome.jgi.doe.gov/pz/portal.html#!info?alias=Org_Sitalica)中下載最新的谷子全基因組注釋序列,根據(jù)已報(bào)道的谷子SiCDPK1蛋白序列[11],以及已公布的擬南芥CDPK家族基因的蛋白序列進(jìn)行本地Blast比對(duì),E-value值為le-5,輸出最優(yōu)比對(duì)結(jié)果,根據(jù)比對(duì)長(zhǎng)度(>400 aa)和相似度(>40% )篩選谷子候選CDPK 基因。在Pfam (http://pfam.sanger.ac.uk/)和SMART (http://smart.embl-heidelberg.de/)網(wǎng)站上對(duì)初步獲得的基因做進(jìn)一步鑒定。利用ExPASy (http://expasy.org/)在線工具進(jìn)行氨基酸理化性質(zhì)的分析,包括等電點(diǎn)、分子量、N-末端豆蔻?;疤腔稽c(diǎn)等。
1.2?多序列比對(duì)和系統(tǒng)發(fā)育樹的構(gòu)建
利用MEGA5.0軟件對(duì)該研究鑒定的基因家族的蛋白序列與擬南芥 (Arabidopsis thaliana)、水稻(Oryza sativa)、萊茵衣藻(Chlamydomonas reintmrdtii)、小立碗蘚(Physcomitrella patens)等各個(gè)物種基因組數(shù)據(jù)庫(kù)中已收錄的這些基因家族的序列進(jìn)行同源性分析,利用鄰接算法(Neighbor-Joining)構(gòu)建系統(tǒng)進(jìn)化樹,參數(shù)設(shè)置如下:進(jìn)化樹構(gòu)建方法p-distance,測(cè)試方法Bootstrap,重復(fù)數(shù)1 000。
1.3?基因結(jié)構(gòu)鑒定?在Phytozome11數(shù)據(jù)庫(kù)中可以找到每個(gè)基因相應(yīng)的結(jié)構(gòu)信息,包括外顯子、內(nèi)含子、上下游非編碼區(qū)序列,將這些信息進(jìn)行整理,在GSDS (http://gsds.cbi.pku.edu.cn/)網(wǎng)站進(jìn)行在線分析,繪制基因結(jié)構(gòu)圖[12]。
1.4?染色體定位和基因復(fù)制
根據(jù)Phytozome數(shù)據(jù)庫(kù)上基因注釋信息,獲取SiCPK基因家族染色體位置,利用Mapinspector軟件進(jìn)行染色體定位作圖。在同一個(gè)進(jìn)化樹組內(nèi),在100 kb基因組窗口中同時(shí)出現(xiàn)的2個(gè)或2個(gè)以上基因被稱為串聯(lián)復(fù)制。
2?結(jié)果與分析
2.1?谷子CDPK基因家族成員理化性質(zhì)分析
通過對(duì)谷子基因組數(shù)據(jù)庫(kù)的搜索,并利用Pfam和SMART進(jìn)一步分析,最終確定28個(gè)CDPK基因,并對(duì)其進(jìn)行命名。通過對(duì)CDPK基因所編碼的蛋白質(zhì)結(jié)構(gòu)進(jìn)行分析,發(fā)現(xiàn)均含有EF-hand手型特征結(jié)構(gòu)域,大多數(shù)CDPK含有4個(gè)EF-hand結(jié)構(gòu),只有少數(shù)含有2~3個(gè)(SiCPK22、SiCPK23)(表1),而且EF-hand 功能域之間的距離非常恒定,且高度保守。通過ExPASy工具,對(duì)谷子CDPK基因進(jìn)行了分子量、等電點(diǎn)、豆蔻?;疤腔稽c(diǎn)等理化性質(zhì)分析,發(fā)現(xiàn)SiCPK家族基因的分子量為51.82(SiCPK12)~68.32 kD(SiCPK10)、氨基酸長(zhǎng)度為457(SiCPK12)~618 aa(SiCPK10)、核苷酸長(zhǎng)度為1 374(SiCPK12)~1 857 kb(SiCPK10),其所編碼蛋白的等電點(diǎn)在4.97(SiCPK23)~9.01(SiCPK28)變化,且酸性蛋白居多,第Ⅰ和Ⅱ亞家族蛋白的等電點(diǎn)均小于7,第Ⅲ亞家族只有少數(shù)蛋白的等電點(diǎn)大于7,而Ⅳ亞家族的等電點(diǎn)均大于7(表1)。通過對(duì)CDPK基因家族蛋白翻譯后修飾的分析,發(fā)現(xiàn)大多數(shù)蛋白會(huì)發(fā)生翻譯后N末端豆蔻?;吞腔揎棧ū?),在蛋白行使功能上起著重要作用。
2.2?進(jìn)化樹與基因結(jié)構(gòu)分析
對(duì)谷子CDPK家族基因的基因結(jié)構(gòu)和進(jìn)化樹分析,有助于進(jìn)一步了解谷子CDPK基因進(jìn)化關(guān)系。從進(jìn)化樹中可以看出(圖1左側(cè)),28個(gè)SiCPKs被聚類為4個(gè)亞家族,根據(jù)擬南芥的研究結(jié)果,將這4個(gè)亞家族命名為Group Ⅰ~Ⅳ,其中第三亞家族又被分為兩部分。從進(jìn)化樹中可以看出,28個(gè)SiCPK基因形成了12個(gè)旁系同源基因?qū)?,它們的基因步長(zhǎng)值(bootstrap values)均高于89。通過對(duì)其家族成員的基因結(jié)構(gòu)進(jìn)行分析(圖1右側(cè)),發(fā)現(xiàn)Group Ⅰ家族基因的外顯子個(gè)數(shù)比較恒定,主要為7(除了SiCPK2和SiCPK10分別為1個(gè)和6個(gè));Group Ⅱ家族基因的外顯子個(gè)數(shù)為6~8;Group Ⅲ家族基因的外顯子個(gè)數(shù)為7~8;Group Ⅳ家族基因的外顯子個(gè)數(shù)均為12。從圖1可以看出,同一亞家族或相鄰亞家族之間的基因有相似的基因結(jié)構(gòu)。
2.3?染色體定位與共線性分析
為了解谷子CDPK家族基因的組織形式,繪制了其染色體定位圖(圖2)。28個(gè)CDPK基因分別定位在谷子的8條染色體上。其中9號(hào)染色體上包含的基因數(shù)量最多,含有6個(gè)基因家族成員,8號(hào)染色體上未見有基因定位。12對(duì)旁系同源基因中的11對(duì)(SiCPK5/SiCPK25、SiCPK10/SiCPK24、SiCPK20/SiCPK22、SiCPK1/SiCPK19、SiCPK11/SiCPK16、SiCPK3/SiCPK4、SiCPK6/SiCPK21、SiCPK8/SiCPK18、SiCPK7/SiCPK27、SiCPK12/SiCPK15、SiCPK9/SiCPK17)被定位在不同的染色體上,形成片段重復(fù)。結(jié)果表明,片段重復(fù)和串聯(lián)復(fù)制導(dǎo)致了谷子CDPK基因家族的擴(kuò)張。
2.4?系統(tǒng)進(jìn)化分析及功能預(yù)測(cè)
為了進(jìn)一步分析CDPK基因在不同物種中的進(jìn)化情況,將谷子與擬南芥、水稻、小立碗蘚、萊茵衣藻等物種的蛋白質(zhì)序列構(gòu)建進(jìn)化樹,進(jìn)行系統(tǒng)進(jìn)化分析。從圖3可以看出,由萊茵衣藻、小立碗蘚為代表的低等植物形成一個(gè)外群體,同時(shí)單子葉植物和雙子葉植物也分別單獨(dú)聚類,同是單子葉植物的水稻和谷子在進(jìn)化樹上的親緣關(guān)系比雙子葉植物擬南芥更近。從表2可以看出,CDPK各亞家族的分化發(fā)生在單細(xì)胞植物衣藻之后,小立碗蘚之前。萊茵衣藻作為最簡(jiǎn)單的單細(xì)胞藻類,其11個(gè)CDPK基因均被聚類在第四亞家族,而小立碗蘚及較高等植物的CDPK基因被聚類為4個(gè)亞組,且第四亞家族的基因分布最少。推測(cè)在基因復(fù)雜的復(fù)制過程中可能發(fā)生了基因丟失或基因轉(zhuǎn)換事件。
由圖3可知,幾乎每個(gè)谷子CDPK家族成員都與水稻存在同源對(duì)關(guān)系,在該研究中對(duì)水稻CDPK基因的功能進(jìn)行分析,為以后研究谷子CDPK基因功能奠定基礎(chǔ)。
3?討論
鈣依賴蛋白激酶(CDPK)基因家族是鈣調(diào)蛋白激酶的第三家族[13],它在胞內(nèi)鈣信號(hào)的級(jí)聯(lián)放大及傳遞過程中起著重要作用。通過對(duì)CDPK基因家族成員的理化性質(zhì)、基因結(jié)構(gòu)、翻譯后修飾位點(diǎn)、染色體定位、進(jìn)化關(guān)系等方面的研究,我們對(duì)CDPK家族有了更深入的了解,為以后進(jìn)一步了解其在干旱方面的作用奠定了基礎(chǔ)。
該研究共鑒定出28個(gè)SiCPKs基因,其理化性質(zhì)分析結(jié)果表明,谷子CDPK家族基因的理化性質(zhì)與其他物種的相似,部分CDPK成員N末端存在與膜定位相關(guān)的豆蔻酰化和十六烷?;璧谋J匦蛄蠱GXXC(S/Q)XXT 位點(diǎn),推測(cè)這些結(jié)構(gòu)可能在參與蛋白質(zhì)與質(zhì)膜的可逆結(jié)合或蛋白間相互作用過程中起重要調(diào)控作用。
系統(tǒng)進(jìn)化樹的構(gòu)建有助于分析基因之間的起源關(guān)系,預(yù)測(cè)基因功能。根據(jù)聚類分析,SiCPK基因家族可以分為4個(gè)亞家族(Group Ⅰ、Group Ⅱ、Group Ⅲ 和Group Ⅳ),與其他物種上的CDPK基因家族相似[14-15]。將擬南芥、水稻、小立碗蘚和蘋果的同源基因共同構(gòu)建進(jìn)化樹分析發(fā)現(xiàn),谷子CDPK基因的數(shù)量與擬南芥、水稻相近,但各亞家族所含成員的數(shù)量在這3個(gè)物種中有所區(qū)別,在谷子和水稻中,第一亞家族所含的數(shù)量最多,但在擬南芥中,第二亞家族所含的數(shù)量最多,且谷子和擬南芥的成員趨向于分開聚類,暗示這些分組在單子葉植物與雙子葉植物分化前就已存在;此外,還發(fā)現(xiàn)由萊茵衣藻的9個(gè)CDPK基因被單獨(dú)聚類,且均分布于Group IV,而小立碗蘚的CDPK基因被聚類為4個(gè)亞家族,暗示在苔蘚類和陸生植物分化前CDPK家族基因就已被分為4 類的假設(shè)[16]。盡管植物CDPK基因由同一個(gè)祖先進(jìn)化而來,但在進(jìn)化過程中它們經(jīng)歷了不同的分化模式,最終形成不同的物種。進(jìn)化樹中聚類關(guān)系越近,說明其功能類似的可能性越大,在該研究中發(fā)現(xiàn),谷子CDPK基因幾乎均與水稻存在同源基因,這也為研究谷子CDPK家族基因的功能提供了基礎(chǔ)。谷子CDPK基因結(jié)構(gòu)較為復(fù)雜,外顯子數(shù)目為6~12(除SiCPK2有1個(gè)外顯子),復(fù)雜的基因結(jié)構(gòu)可能會(huì)導(dǎo)致基因結(jié)構(gòu)不穩(wěn)定,且復(fù)制時(shí)易產(chǎn)生可變剪切。植物種屬的CDPK可能來自于蛋白激酶和CaM基因的融合[17],因此,谷子CDPK家族基因的結(jié)構(gòu)差異可能與蛋白激酶或CaM序列的差異有關(guān)。
基因復(fù)制在生物體進(jìn)化過程中起著重要作用,包括串聯(lián)復(fù)制、局部復(fù)制和整個(gè)基因組復(fù)制[18]。谷子的基因組測(cè)序結(jié)果表明,谷子的2號(hào)和9號(hào)染色體分別由水稻的7號(hào)和9號(hào)、3號(hào)和10號(hào)染色體融合而成,并且研究發(fā)現(xiàn),谷子獨(dú)立分化出來之后又發(fā)生了一次特異性染色體融合事件,即谷子的3號(hào)染色體是由水稻的5號(hào)和12號(hào)染色體或高粱的8號(hào)和9號(hào)染色體融合而成。谷子和水稻大約在5 000萬(wàn)年前(50 Mya)開始分化,二者分化之后的基因組結(jié)構(gòu)仍存在明顯的共線性[10]。在該研究中發(fā)現(xiàn),谷子的12對(duì)旁系同源基因中有11對(duì)旁系同源基因位于染色體復(fù)制產(chǎn)生的重復(fù)片段內(nèi),因而可能起源于片段復(fù)制事件,說明片段復(fù)制也是谷子CDPK基因家族擴(kuò)增的一個(gè)主要原因?;虻娜旧w定位是片段重復(fù)和串聯(lián)重復(fù)共同作用的結(jié)果,對(duì)基因家族擴(kuò)展具有重要的推動(dòng)作用。
目前,對(duì)植物CDPK的研究主要集中在模式植物及豆科植物上,谷子CDPK家族基因的生物信息學(xué)研究鮮有深入報(bào)道。該研究以谷子全基因組序列為背景,完成了28個(gè)SiCPK家族基因的生物信息學(xué)分析,也為進(jìn)一步鑒定其功能奠定了基礎(chǔ)。隨著分子生物學(xué)和基因工程技術(shù)的不斷發(fā)展,谷子CDPK基因如何響應(yīng)外界刺激、參與抗逆反應(yīng)信號(hào)轉(zhuǎn)導(dǎo)等都將成為日后研究的重要方向。
參考文獻(xiàn)
[1]TREWAVAS A J,MALH R.Ca2+ signalling in plant cells:The big network![J].Current opinion in plant biology,1998,1(5):428-433.
[2]MCCORMACK E,BRAAM J.Calmodulins and related potential calcium sensors of Arabidopsis[J].New phytologist,2003,159(3):585-598.
[3]KOLUKISAOGLU ,WEINL S,BLAZEVIC D,et al.Calcium sensors and their interacting protein kinases:Genomics of the Arabidopsis and rice CBL-CIPK signaling networks[J].Plant physiology,2004,134(1):43-58.
[4]LUAN S,KUDLA J,RODRIGUEZ-CONCEPCION M,et al.Calmodulins and calcineurin B-like proteins:Calcium sensors for specific signal response coupling in plants[J].The plant cell online,2002,14(S1):S389-S400.
[5]HRABAK E M,CHAN C W,GRIBSKOV M,et al.The Arabidopsis CDPK-SnRK superfamily of protein kinases[J].Plant physiology,2003,132(2):666-680.
[6]HARPER J F,HARMON A.Plants,symbiosis and parasites:A calcium signalling connection[J].Nature reviews molecular cell biology,2005,6(7):555-566.
[7]LUDWIG A A,ROMEIS T,JONES J D G.CDPK-mediated signalling pathways:Specificity and cross-talk[J].Journal of experimental botany,2003,55(395):181-188.
[8]LI A L,WANG X,LESEBERG C H,et al.Biotic and abiotic stress responses through calcium-dependent protein kinase (CDPK) signaling in wheat (Triticum aestivum L.)[J].Plant signaling & behavior,2008,3(9):654-656.
[9]ASANO T,HAYASHI N,KIKUCHI S,et al.CDPK-mediated abiotic stress signaling[J].Plant signaling & behavior,2012,7(7):817-821.
[10]ZHANG G Y,LIU X,QUAN Z W,et al.Genome sequence of foxtail millet (Setaria italica) provides insights into grass evolution and biofuel potential[J].Nature biotechnology,2012,30(6):549-554.
[11]余琴鴦,尹恒,安利佳,等.谷子逆境應(yīng)答相關(guān)的鈣依賴蛋白激酶基因SiCDPK1的克隆與表達(dá)[J].作物學(xué)報(bào),2014,40(9):1531-1539.
[12]GUO A Y,ZHU Q H,CHEN X,et al.GSDS:A gene structure display server[J].Hereditas (Beijing),2007,29(8):1023-1026.
[13]倪天華,魏幼璋.鈣依賴型蛋白激酶(CDPKs)在植物中的生理功能[J].西北農(nóng)林科技大學(xué)學(xué)報(bào)(自然科學(xué)版),2002,30(6):241-246.
[14]LIU W,LI W,HE Q L,et al.Genome-wide survey and expression analysis of calcium-dependent protein kinase in Gossypium raimondii[J].PLoS One,2014,9(6):1-11.
[15]MA P D,LIU J Y,YANG X D,et al.Genome-wide identification of the maize calcium-dependent protein kinase gene family[J].Applied biochemistry and biotechnology,2013,169(7):2111-2125.
[16]CHEN F,F(xiàn)ASOLI M,TORNIELLI G B,et al.The evolutionary history and diverse physiological roles of the grapevine calcium-dependent protein kinase gene family[J].PLoS One,2013,8(12):1-11.
[17]ZHANG X S,CHOI J H.Molecular evolution of calmodulin-like domain protein kinases (CDPKs) in plants and protists[J].Journal of molecular evolution,2001,53(3):214-224.
[18]XU G,GUO C,SHAN H,et al.Divergence of duplicate genes in exon-intron structure[J].Proceedings of the national academy of sciences,2012,109(4):1187-1192.