高曉偉,李鳳敏
(內(nèi)蒙古農(nóng)業(yè)大學(xué) 理學(xué)院, 呼和浩特 010018)
革蘭氏陽(yáng)性細(xì)菌是指在革蘭氏染色劑染色后仍保持原來(lái)的藍(lán)紫色結(jié)晶的細(xì)菌,它廣泛存在于人體中,對(duì)人體的健康危害極大,因此,研究革蘭氏陽(yáng)性細(xì)菌的蛋白質(zhì)亞細(xì)胞定位具有重要的生物學(xué)和醫(yī)學(xué)意義。到目前為止革蘭氏陽(yáng)性菌蛋白亞細(xì)胞定位的研究相對(duì)較少,2007年Shen和Chou[1]建立了一個(gè)分為五類的革蘭氏陽(yáng)性菌數(shù)據(jù)集,利用Gene Ontology-Pseudo Amino Acid離散模型和Optimized evidence theoretic-K-nearest neighbors方法,然后通過(guò)Jackknife測(cè)試和獨(dú)立數(shù)據(jù)集測(cè)試,成功率分別為82.7%和84.1%。2009年Shen和Chou[2]重新建立了四類革蘭氏陽(yáng)性菌亞細(xì)胞定位數(shù)據(jù)集,結(jié)合基因本體等特征信息,最后總的成功率達(dá)到了82.2%。2012年Hu等人[3]構(gòu)建了GP25革蘭氏陽(yáng)性菌亞細(xì)胞定位數(shù)據(jù)集,利用Localization motif算法對(duì)革蘭氏陽(yáng)性菌蛋白質(zhì)亞細(xì)胞定位進(jìn)行預(yù)測(cè),總成功率達(dá)到了85.9%。2016年在第九屆電氣與計(jì)算機(jī)工程國(guó)際會(huì)議上,Julia Rahman等人[4]分別利用Amino Acid Composition和Pseudo Amino Acid Composition特征信息與Physiochemical Property Model特征信息融合對(duì)革蘭氏陽(yáng)性菌蛋白質(zhì)亞細(xì)胞定位進(jìn)行預(yù)測(cè),預(yù)測(cè)成功率均為73.2%。2017年XiaoXuan等人[5]采用新的算法對(duì)四類革蘭氏陽(yáng)性菌亞細(xì)胞定位進(jìn)行預(yù)測(cè),取得了較好的預(yù)測(cè)結(jié)果。在這些預(yù)測(cè)研究中,提取的特征信息沒(méi)有考慮蛋白質(zhì)的結(jié)構(gòu)域(Domain)特征,結(jié)構(gòu)域通常是由50~400個(gè)氨基酸殘基構(gòu)成的球狀實(shí)體,它在蛋白質(zhì)中可以獨(dú)立穩(wěn)定的存在,并且和完成蛋白質(zhì)功能有著密切的關(guān)系[6]。本文基于Swiss-Prot數(shù)據(jù)庫(kù)構(gòu)建了4類共700條革蘭氏陽(yáng)性細(xì)菌蛋白質(zhì)的數(shù)據(jù)集,對(duì)其結(jié)構(gòu)域進(jìn)行搜索和功能分析,找到了細(xì)胞壁區(qū)域蛋白質(zhì)的結(jié)構(gòu)域、細(xì)胞外區(qū)域蛋白質(zhì)的結(jié)構(gòu)域、細(xì)胞質(zhì)區(qū)域蛋白質(zhì)的結(jié)構(gòu)域以及細(xì)胞膜區(qū)域蛋白質(zhì)的結(jié)構(gòu)域。在PDBsum數(shù)據(jù)庫(kù)中進(jìn)一步搜索找到了部分結(jié)構(gòu)域所對(duì)應(yīng)的二級(jí)和三級(jí)結(jié)構(gòu)圖,觀察這些結(jié)構(gòu)圖找到結(jié)構(gòu)域的特征,這些結(jié)構(gòu)域的特征有助于革蘭氏陽(yáng)性細(xì)菌蛋白質(zhì)亞細(xì)胞定位預(yù)測(cè),可以進(jìn)一步了解革蘭氏陽(yáng)性細(xì)菌的發(fā)病原理,有望對(duì)相應(yīng)的疾病進(jìn)行針對(duì)性治療。
數(shù)據(jù)集嚴(yán)格按照以下標(biāo)準(zhǔn)構(gòu)建:(1)從UniProtKB/Swiss-Prot (2018-09)數(shù)據(jù)庫(kù)中檢索關(guān)鍵字“Firmicutes”和“Actinobacteria”的所有蛋白序列;(2)在“Subcellular Location”注釋中選擇該蛋白的不同位置,去除“By similarity”、“Probably”等含糊或不確定的術(shù)語(yǔ);(3)在“Sequence”信息中選擇50-3 000 aa蛋白序列;(4)剔除片段“B”、“X”、“Z”注釋序列;(5)為避免同源性偏差,采用軟件CD-HIT對(duì)蛋白序列進(jìn)行相似比對(duì),序列相似性為25%。完成上述步驟后,得到700條革蘭氏陽(yáng)性菌蛋白質(zhì)序列,它們分成4個(gè)區(qū)域分別是:細(xì)胞壁(Cell wall)22條、細(xì)胞外(Extracell)214條、細(xì)胞質(zhì)(Cytoplasm)252條、細(xì)胞膜(Cell membrane)212條。
在Swiss-Prot數(shù)據(jù)集中的Family&Domains條目下提取每條革蘭氏陽(yáng)性細(xì)菌蛋白質(zhì)的結(jié)構(gòu)域信息,最后發(fā)現(xiàn)細(xì)胞壁區(qū)域含有結(jié)構(gòu)域信息的革蘭氏陽(yáng)性細(xì)菌蛋白質(zhì)有10條,細(xì)胞外區(qū)域有67條蛋白質(zhì)有結(jié)構(gòu)域信息,在細(xì)胞質(zhì)區(qū)域中有78條,而細(xì)胞膜區(qū)域則有61條。進(jìn)一步在PDBsum數(shù)據(jù)庫(kù)找到了這些結(jié)構(gòu)域所對(duì)應(yīng)的二級(jí)和三級(jí)結(jié)構(gòu)圖。表1~表4分別為革蘭氏陽(yáng)性菌4個(gè)位置蛋白質(zhì)所對(duì)應(yīng)的結(jié)構(gòu)域的名稱和數(shù)量,其中小于2條結(jié)構(gòu)域的蛋白質(zhì)區(qū)域沒(méi)有列出。
表1 細(xì)胞壁蛋白質(zhì)結(jié)構(gòu)域個(gè)數(shù)Table 1 Number of cell wall protein domain
表2 細(xì)胞外蛋白質(zhì)結(jié)構(gòu)域個(gè)數(shù)Table 2 Number of extracellular protein domain
表3 細(xì)胞質(zhì)蛋白質(zhì)結(jié)構(gòu)域個(gè)數(shù)Table 3 Number of cytoplasm protein domain
表4 細(xì)胞膜蛋白質(zhì)結(jié)構(gòu)域個(gè)數(shù)Table 4 Number of cell membrane protein domain
由于細(xì)胞壁的蛋白質(zhì)數(shù)量只有22條,所以細(xì)胞壁蛋白質(zhì)的結(jié)構(gòu)域數(shù)量也不是很多,其中出現(xiàn)次數(shù)不小于2次的結(jié)構(gòu)域只有PE結(jié)構(gòu)域和NEAT結(jié)構(gòu)域,在這里分別介紹下這兩個(gè)結(jié)構(gòu)域。PE結(jié)構(gòu)域是高度保守的N端親水性結(jié)構(gòu)域[7]。PE結(jié)構(gòu)域是對(duì)蛋白質(zhì)的翻譯和定位起著重要作用的功能結(jié)構(gòu)域,PE結(jié)構(gòu)域大約有110個(gè)氨基酸殘基。在細(xì)胞壁區(qū)域中一共有5條蛋白質(zhì)含有PE結(jié)構(gòu)域,它們都屬于PE家族。在PDBsum庫(kù)中沒(méi)有找到PE結(jié)構(gòu)域相對(duì)應(yīng)的二級(jí)結(jié)構(gòu)圖和三級(jí)結(jié)構(gòu)圖。
NEAT結(jié)構(gòu)域是調(diào)控鐵元素表面蛋白的特異性保守結(jié)構(gòu)域,大約由125個(gè)氨基酸殘基構(gòu)成,它的二級(jí)結(jié)構(gòu)由1個(gè)螺旋束和C端的β發(fā)夾組成,其中包含9個(gè)平行的β折疊片。革蘭氏陽(yáng)性細(xì)菌中攝取血紅素的最佳系統(tǒng)是lsd系統(tǒng),在lsd系統(tǒng)中細(xì)胞壁作為受體將與血紅素結(jié)合,在細(xì)胞壁中發(fā)揮主要作用的就是高度保守的NEAT結(jié)構(gòu)域[8]。圖1給出的是NEAT結(jié)構(gòu)域的二級(jí)結(jié)構(gòu)圖和三級(jí)結(jié)構(gòu)圖。
圖1 NEAT結(jié)構(gòu)域?qū)?yīng)的結(jié)構(gòu)圖Fig.1 Diagarm of NEAT domain
從表2可以看到細(xì)胞外區(qū)域出現(xiàn)次數(shù)不少于5次的結(jié)構(gòu)域有PINc結(jié)構(gòu)域、N-acetylmuramoyl-L-alanine amidas結(jié)構(gòu)域、PE結(jié)構(gòu)域和Peptidase S8結(jié)構(gòu)域。其中PE結(jié)構(gòu)域是細(xì)胞壁和細(xì)胞膜共有的結(jié)構(gòu)域。在這里我們主要介紹出現(xiàn)次數(shù)最多的PINc結(jié)構(gòu)域,PINc結(jié)構(gòu)域?qū)儆赑IN家族,它具有高度的保守性,通常由150個(gè)氨基酸殘基構(gòu)成。在真核生物中,PINc結(jié)構(gòu)域參與mRNA衰變的過(guò)程,而且具有核糖核酸酶的功能。在原核生物中,PINc結(jié)構(gòu)域是抗毒素(TA)系統(tǒng)的毒性成分,它們的毒性是由于核糖核酸酶活性產(chǎn)生的。PINc結(jié)構(gòu)域蛋白的活性位點(diǎn)由四種保守的酸性氨基酸組成,這些氨基酸參與二價(jià)金屬離子結(jié)合和酶的活性過(guò)程[9]。在PDBsum庫(kù)中并沒(méi)有找到PINc結(jié)構(gòu)域相對(duì)應(yīng)的二級(jí)結(jié)構(gòu)圖和三級(jí)結(jié)構(gòu)圖。
Response regulatory結(jié)構(gòu)域、Histidine kinase結(jié)構(gòu)域和S1 motif結(jié)構(gòu)域是出現(xiàn)在細(xì)胞質(zhì)區(qū)域不少于5次的結(jié)構(gòu)域。由于在PDBsum庫(kù)中沒(méi)有Response regulatory結(jié)構(gòu)域的二級(jí)結(jié)構(gòu)圖和三級(jí)結(jié)構(gòu)圖,在這里主要介紹Histidine kinase結(jié)構(gòu)域和S1 motif結(jié)構(gòu)域。Histidine kinase結(jié)構(gòu)域?qū)儆贖WE家族,Histidine kinase結(jié)構(gòu)域是由二聚組氨酸磷酸受體子域(DPH)和與催化ATP結(jié)合的子域(CA)構(gòu)成,其中DPH是由兩個(gè)螺旋束和一個(gè)發(fā)夾環(huán)連接,形成了4個(gè)螺旋體束,而CA是一個(gè)高度保守的αβ三明治結(jié)構(gòu),由3個(gè)α螺旋和5個(gè)β鏈構(gòu)成。大多數(shù)原核生物信號(hào)轉(zhuǎn)導(dǎo)系統(tǒng)和少數(shù)真核細(xì)胞轉(zhuǎn)導(dǎo)途徑都和Histidine kinase結(jié)構(gòu)域有關(guān)。在革蘭氏陽(yáng)性細(xì)菌的細(xì)胞質(zhì)當(dāng)中,Histidine kinase結(jié)構(gòu)域起到了同源反應(yīng)調(diào)節(jié)劑的作用[10]。在圖2中給出Histidine kinase結(jié)構(gòu)域的二級(jí)結(jié)構(gòu)圖和三級(jí)結(jié)構(gòu)圖。
S1 motif結(jié)構(gòu)域大量存在于RNA結(jié)合蛋白質(zhì)中,該結(jié)構(gòu)域使用特殊的方式和RNA結(jié)合,在細(xì)胞質(zhì)區(qū)域當(dāng)中和mRNA、核糖體相互作用,它對(duì)蛋白質(zhì)的翻譯起到重要的作用。S1 motif結(jié)構(gòu)域和shock蛋白的結(jié)構(gòu)相似,S1 motif結(jié)構(gòu)域一般由70~90個(gè)氨基酸殘基構(gòu)成,由5個(gè)反向平行β的折疊片構(gòu)成[11]。圖3是S1 motif結(jié)構(gòu)域在PDBsum數(shù)據(jù)庫(kù)的二級(jí)結(jié)構(gòu)圖和三級(jí)結(jié)構(gòu)圖。
圖2 Histidine kinase結(jié)構(gòu)域?qū)?yīng)的結(jié)構(gòu)圖Fig.2 Diagarm of Histidine kinase domain
圖3 S1 motif結(jié)構(gòu)域?qū)?yīng)的結(jié)構(gòu)圖Fig.3 Diagarm of S1 motif domain
細(xì)胞膜區(qū)域出現(xiàn)的次數(shù)不小于5次的結(jié)構(gòu)域有ABC transmembrane type-1結(jié)構(gòu)域、Histidine kinase結(jié)構(gòu)域、HAMP結(jié)構(gòu)域,Protein kinase結(jié)構(gòu)域和ABC transporter結(jié)構(gòu)域。其中Histidine kinase結(jié)構(gòu)域是細(xì)胞膜和細(xì)胞質(zhì)區(qū)域共有的結(jié)構(gòu)域,在細(xì)胞質(zhì)區(qū)域的結(jié)構(gòu)域中已經(jīng)介紹過(guò)Histidine kinase結(jié)構(gòu)域,在這主要介紹HAMP結(jié)構(gòu)域和Protein kinase結(jié)構(gòu)域。HAMP結(jié)構(gòu)域是原核生物中跨核膜受體中最后一個(gè)沒(méi)有被人類發(fā)現(xiàn)結(jié)構(gòu)但已經(jīng)被人廣泛熟知存在的結(jié)構(gòu)域。原核生物通過(guò)跨膜受體來(lái)感應(yīng)環(huán)境的變化,其胞內(nèi)和胞外通常由HAMP結(jié)構(gòu)域連接,而且連接點(diǎn)始終位于HAMP結(jié)構(gòu)域的C端,根據(jù)以上特征人們猜想HAMP結(jié)構(gòu)域的結(jié)構(gòu)是由兩個(gè)具有卷曲線圈特性的螺旋體構(gòu)成[12]。
從革蘭氏陽(yáng)性菌到人類,Protein kinase結(jié)構(gòu)域的功能在進(jìn)化上是高度保守的。Protein kinase結(jié)構(gòu)域是由6個(gè)β發(fā)夾,7個(gè)β凸起和13個(gè)螺旋體構(gòu)成的。Protein kinase結(jié)構(gòu)域在多種細(xì)胞過(guò)程中發(fā)揮作用,包括細(xì)胞的分裂、增殖、凋亡和分化。在真核生物中Protein kinase結(jié)構(gòu)域蛋白酶是一類非常廣泛的蛋白家族中的酶,與絲氨酸、蘇氨酸和酪氨酸蛋白酶一樣都具有保守的催化功能。Protein kinase結(jié)構(gòu)域蛋白酶催化ATP轉(zhuǎn)移到蛋白底物側(cè)鏈上的一個(gè)或多個(gè)氨基酸殘基,導(dǎo)致其結(jié)構(gòu)改變從而影響蛋白功能[13]。圖4給出的是Protein kinase結(jié)構(gòu)域在PDBsum數(shù)據(jù)庫(kù)的二級(jí)結(jié)構(gòu)圖和三級(jí)結(jié)構(gòu)圖。
圖4 Protein kinase結(jié)構(gòu)域?qū)?yīng)的結(jié)構(gòu)圖Fig.4 Diagarm of Protein kinase domain
對(duì)革蘭氏陽(yáng)性細(xì)菌蛋白質(zhì)4個(gè)亞細(xì)胞位置上的結(jié)構(gòu)域種類和個(gè)數(shù)分別進(jìn)行了統(tǒng)計(jì),發(fā)現(xiàn)PE結(jié)構(gòu)域是革蘭氏陽(yáng)性菌細(xì)胞壁和細(xì)胞外兩個(gè)區(qū)域共同含有的結(jié)構(gòu)域,其對(duì)蛋白質(zhì)的翻譯起著至關(guān)重要的作用。而Histidine kinase結(jié)構(gòu)域是細(xì)胞質(zhì)區(qū)域和細(xì)胞膜區(qū)域共同含有的結(jié)構(gòu)域,Histidine kinase結(jié)構(gòu)域在同源中反應(yīng)起到了調(diào)節(jié)劑的作用。NEAT結(jié)構(gòu)域是細(xì)胞壁區(qū)域獨(dú)有的結(jié)構(gòu)域,它的主要作用作為細(xì)胞壁受體與血紅素結(jié)合。PINc結(jié)構(gòu)域是細(xì)胞外區(qū)域獨(dú)有的結(jié)構(gòu)域, PINc結(jié)構(gòu)域參與核糖體RNA的過(guò)程同時(shí)也具有核糖核酸酶的功能。細(xì)胞質(zhì)區(qū)域獨(dú)有的結(jié)構(gòu)域是S1 motif結(jié)構(gòu)域,它對(duì)蛋白質(zhì)的翻譯起著重要的作用。Protein kinase結(jié)構(gòu)域是細(xì)胞膜區(qū)域特有的結(jié)構(gòu)域,它影響著蛋白質(zhì)的功能。隨著數(shù)據(jù)庫(kù)的不斷完善,會(huì)找到更多的結(jié)構(gòu)域特征,利用這些特征信息可以更深入的了解革蘭氏陽(yáng)性菌蛋白質(zhì)的結(jié)構(gòu)和功能。