王建國, 趙南南, 何志云, 王 澤
(1.濟南市歷城區(qū)婦幼保健計劃生育服務(wù)中心, 濟南 250100; 2.沈陽師范大學(xué) 生命科學(xué)學(xué)院, 沈陽 110034)
白假絲酵母菌(Candidaalbicans),又稱白色念珠菌,是念珠菌中致病力最強的條件性致病真菌。目前,由于廣譜抗生素、激素、免疫抑制劑等藥物的大量使用,以及器官移植和介入性診療技術(shù)的普遍開展,白假絲酵母菌已成為醫(yī)院內(nèi)獲得性真菌致病感染的首要原因[1-2]。研究顯示,白假絲酵母菌的分泌蛋白,如天冬氨酸酶、絲氨酸肽酶、胞外磷脂酶B等,與其毒力、對人體上皮細胞的粘附、入侵和抑制免疫應(yīng)答等致病行為存在非常重要的聯(lián)系[3-4],已成為白假絲酵母菌相關(guān)疾病治療和預(yù)防的確切靶點[5]。隨著生物信息技術(shù)的長足發(fā)展,已成為揭示微生物分泌蛋白質(zhì)組及其生物學(xué)作用的最有效技術(shù)手段[6]。因此,本研究根據(jù)已公布的白假絲酵母菌的全基因組信息,對其分泌蛋白及其功能進行預(yù)測和初步分析,為全面解析白假絲酵母菌致病機理提供新的思路。
白假絲酵母菌(WO-1)全基因組的6170個ORF序列來源于NCBI數(shù)據(jù)庫(https:∥www.ncbi.nlm.nih.gov/)。
采用軟件SignalP v 4.1(http:∥www.cbs.dtu.dk/services/SignalP/)對白假絲酵母菌WO-1全基因組蛋白的N端是否存在信號肽和酶切位點進行預(yù)測分析;TMHMM server v 2.0軟件(http:∥www.cbs.dtu.dk/services/TMHMM/)和 Phobius軟件(http:∥phobius.sbc.su.se/)預(yù)測蛋白質(zhì)序列跨膜區(qū)的拓撲結(jié)構(gòu)和數(shù)量;TargetP 1.1軟件(http:∥www.cbs.dtu.dk/services/TargetP/)預(yù)測靶標肽段在亞細胞器的定位,確定是否為穿膜信號肽;Big-PI Fungal Predictor v 3.1(http:∥mendel.imp.ac.at/gpi/cgi-bin/gpi_pred_fungi.cgi)預(yù)測蛋白質(zhì)氨基酸序列是否存在GPI錨定位點。符合以下四項標準的序列即為目標分泌蛋白: 1)含有1個N端信號肽; 2)不含跨膜區(qū); 3)沒有線粒體或其他胞內(nèi)細胞器靶定蛋白的信號域; 4)沒有GPI錨定位點。同時利用蛋白質(zhì)數(shù)據(jù)庫Uniprot(http:∥www.uniprot.org/),NCBI數(shù)據(jù)庫(https:∥www.ncbi.nlm.nih.gov/)和Candida Genome Database(http:∥www.candidagenome.org/)對預(yù)測的分泌蛋白及其信號肽進行檢索與驗證分析。
2.1.1 信號肽分析
通過SignalP v 4.1軟件對信號肽及酶切位點進行識別,最終得到376個含N端信號肽的ORFs,占全基因組蛋白序列的6.07%。
2.1.2 膜結(jié)合蛋白分析
采用TMHMM軟件和Phobius軟件對含信號肽的氨基酸序列進行跨膜域的區(qū)分,分辨分泌蛋白和跨膜蛋白。TMHMM軟件分析結(jié)果顯示,376個具信號肽的蛋白中: 1)含2個及以上跨膜區(qū)的有52個,提示該部分蛋白可能作為膜受體,錨定蛋白或者離子通道蛋白; 2)66個含有一個跨膜區(qū); 3)258個無跨膜區(qū)。利用Phobius軟件對篩選的66個具有1個跨膜區(qū)的氨基酸序列進行進一步的驗證,結(jié)果顯示,66個氨基酸序列中有23個不含跨膜區(qū)。最終得到了281個不含跨膜區(qū),且具有分泌信號肽的氨基酸序列。
2.1.3 亞細胞定位分析
利用TargetP 1.1軟件識別待測序列N端前導(dǎo)鏈中線粒體的靶標肽段(mTP)、葉綠體轉(zhuǎn)運肽段(mTP)等細胞器的靶向序列,對待測蛋白質(zhì)進行去向定位分析,運算結(jié)果最終得到279個蛋白質(zhì)具有信號肽分泌途徑。
2.1.4 錨定位點分析
真核生物蛋白轉(zhuǎn)錄后修飾中,GPI錨定比較常見,保證蛋白質(zhì)能夠錨定在細胞膜上。具有分泌信號肽的蛋白質(zhì)如果存在著GPI錨定位點,將不能分泌到細胞外。利用big-PI Fungal Predictor軟件識別出待測氨基酸序列的GPI錨定位點,從而將這些蛋白排除,最終得到216個符合目標標準的氨基酸序列。
白假絲酵母菌(WO-1)基因組的6170個ORF序列共甄選出分泌蛋白216個,占ORF總數(shù)的3.50%。最長的氨基酸序列具有1447個氨基酸,均值是762,主要集中在401~500個氨基酸區(qū)段(見圖1)。經(jīng)過對已公布的白假絲酵母菌數(shù)據(jù)庫的比對分析,預(yù)測的分泌蛋白組中31.9%明確注釋了細胞外定位,33.33%的氨基酸序列未注釋定位。同時,也存在細胞壁、膜泡、線粒體、質(zhì)膜等位置的平行注釋(見圖2)??蓹z索到生物學(xué)功能124個,其中具有水解酶活性的蛋白最多,占11.57%,依次為水解酶活性、肽鏈內(nèi)切酶活性、脂肪酶活性、金屬離子結(jié)合活性、致病原、細胞壁形成、催化活性、針對藥物、饑餓或者溫度的細胞應(yīng)答及轉(zhuǎn)移酶活性等(見圖3),同時存在40.28%的預(yù)測序列并未注釋功能。
圖1 預(yù)測的分泌蛋白ORFs長度
圖2 預(yù)測的分泌蛋白細胞定位分布
圖3 分泌蛋白的注釋功能分析
預(yù)測的分泌蛋白信號肽長度介于12~33個氨基酸殘基(見圖4),其中具有18個氨基酸的信號肽數(shù)量最多。信號肽中非極性及疏水氨基酸(A、V、L、G、I、P)組成出現(xiàn)頻率為52.88%,帶負電荷的酸性氨基酸(D、E)占1.26%,帶正電荷的堿性氨基酸(K、R、H)為5.30%,芳香族氨基酸(W、F、Y)占11.64%,其中亮氨酸(L)出現(xiàn)頻率最高,為20.51%。信號肽C端切割位點前后-3~+3氨基酸組成對信號肽的識別具有重要作用,氨基酸分布數(shù)量最多的是丙氨酸(A),在-1位出現(xiàn)頻率最高,為60.65%,僅-3位和+2位所有氨基酸均出現(xiàn)(見表1)。
圖4 預(yù)測的分泌蛋白信號肽長度分析
表1 預(yù)測的分泌蛋白信號肽氨基酸組成和分布頻率
白假絲酵母菌WO-1可以侵犯人體許多部位,如皮膚、粘膜,甚至引起內(nèi)臟、中樞神經(jīng)系統(tǒng)或全身感染,臨床癥狀錯綜復(fù)雜[7-8]。白假絲酵母菌的分泌蛋白在其致病力、侵染性及感染后癥狀等多種惡性生物行為方面起到了決定性作用。本實驗基于白假絲酵母菌基因組數(shù)據(jù)庫信息,利用生物信息學(xué)預(yù)測算法尋找潛在的白假絲酵母菌分泌蛋白,為更好的破解和阻遏白假絲酵母致病威脅提供有效的數(shù)據(jù)支持。
2001年斯坦福大學(xué)首次公布白假絲酵母菌SC5314的全基因組序列(http:∥www-sequence.stanford.edu/group/candida)[9],Samuel等對白假絲酵母菌SC5314(6165ORF)的分泌蛋白組進行了分析與預(yù)測,并得到283個分泌蛋白[10]。經(jīng)比較發(fā)現(xiàn),WO-1與SC5314分泌蛋白的信號肽特征及各氨基酸使用頻率大體一致,長度多集中在18~21,以亮氨酸(L)、丙氨酸(A)、絲氨酸(S)和異亮氨酸(I)的組成為主,WO-1信號肽切割位點的-3~+3位上20種氨基酸使用頻率具有很高的多態(tài)性,A(丙氨酸)使用頻率最高的為-1,同時切割位點相對不保守,這一現(xiàn)象在其他微生物分泌蛋白中比較常見[11-12]。SC5314 和 WO-1是白假絲酵母菌的兩個亞種,SC5314具有很低的致病性,因此,除去分析軟件的影響,分泌蛋白數(shù)量上的差異在不同程度上顯示了WO-1與SC5314的生物學(xué)特征和功能存在本質(zhì)性的差別。
本文對WO-1的216個分泌蛋白進行詳細的功能檢索和分析,預(yù)測的分泌蛋白中以水解酶活性蛋白居多,主要包括分泌型天冬氨酸酶、磷脂酶、脂肪酶、分泌絲氨酸肽酶以及α-葡萄糖苷酶等,同時,廣泛的涉及到肽鏈內(nèi)切酶活性、脂肪酶活性、金屬離子結(jié)合活性、細胞壁的形成等生物學(xué)功能,甚至參與了針對藥物,饑餓或者溫度的細胞耐受和應(yīng)答過程,說明分泌蛋白可能參與了白假絲酵母菌致病的多個生物學(xué)環(huán)節(jié)。值得注意的是,預(yù)測的分泌蛋白質(zhì)組中近1/3的成員為未注釋功能的蛋白,為我們深入挖掘和理解白假絲酵母菌致病機理等提供了巨大參考數(shù)據(jù)。生物技術(shù)和算法的發(fā)展,也將為白假絲酵母菌致病機制的深入研究提供更有效的支撐。