沼澤紅假單胞菌相似菌株間差異功能模體的篩選和分析

2022-03-03 13:25:54楊艷北馬荊鄂馮育林

江蘇農(nóng)業(yè)科學 2022年3期

楊艷北，許晶，馬荊鄂，馮育林，孫勇

(1.江西中醫(yī)藥大學博士后流動站/正邦集團有限公司博士后工作站，江西南昌 330000；2.南昌師范學院生物技術研究院/江西省地方雞種遺傳改良重點實驗室，江西南昌 330000； 3.南昌師范學院生命科學學院，江西南昌 330000)

沼澤紅假單胞菌是光合細菌的代表菌株之一，屬于益生菌的一種，廣泛作為動物飼料添加劑和水質(zhì)凈化劑使用。在實際應用過程中，沼澤紅假單胞菌菌株種類雜，效果不穩(wěn)定，相似菌株間凈水功能差異大。因此，從功能模體水平上，探索沼澤紅假單胞菌相似菌株間功能差異的機理，對于沼澤紅假單胞菌相似菌株的實際應用具有重要的參考價值。模體也譯為基序，是DNA或蛋白質(zhì)具有的局部保守序列區(qū)域，一般也被稱為功能模體或結構模體，相當于超二級結構，它是蛋白質(zhì)的基本結構單位和功能單位，決定著蛋白質(zhì)的主要功能。蛋白質(zhì)具有結構域和生物功能位點，功能相近的蛋白質(zhì)或同類蛋白質(zhì)家族成員表現(xiàn)出該功能所必需的模體，這個模體不僅反映蛋白質(zhì)的功能位點，而且也作為蛋白質(zhì)家族的識別信號。Prosite(https：//prosite.expasy.org/)是蛋白質(zhì)家族和結構域的數(shù)據(jù)庫，在Prosite數(shù)據(jù)庫中，一些有重要生物學意義的氨基酸序列可以被概括成規(guī)則的表達式，稱作模式，被用于模體的識別，這些模式均具有實驗上證實的結構或功能。

Python是一種功能強大的多用途編程語言，可用于生物信息學分析，尤其Biopython為各式各樣的生物信息學問題提供Python庫。Python有一套自身的語法，使它成為一套可以自行編譯、開發(fā)的完美語言。Python是一種強大的編程語言，適合腳本編寫。本研究以Prosite數(shù)據(jù)庫中下載的用于識別蛋白質(zhì)組序列模體的模式文件為基礎，利用循環(huán)遍歷算法和Python特有的字典數(shù)據(jù)格式，編寫腳本test.py和difference analysis.py，篩選和分析沼澤紅假單胞菌CGA009和YSC3差異功能模體，探索沼澤紅假單胞菌相似菌株間功能差異的機理。

1 材料與方法

試驗于2021年在南昌師范學院生物技術研究院實驗室完成。

1.1 數(shù)據(jù)來源

試驗中沼澤紅假單胞菌CGA009和YSC3蛋白質(zhì)組序列來自于美國國家生物信息中心(NCBI)中已登錄的序列，下載文件分別為GCF_000195775.1_ASM19577v1_protein.faa、GCF_013415845.1_ASM1341584v1_protein.faa。試驗中用于識別蛋白質(zhì)組序列模體的模式文件來自于Prosite數(shù)據(jù)庫(https：//prosite.expasy.org/)，下載文件為prosite. dat。

1.2 研究方法

第1步：在Windows操作系統(tǒng)下安裝Python 3.7.0編程軟件和geany-1.33文本編輯器。

第2步：打開蛋白質(zhì)組序列文件GCF_000195775.1_ASM19577v1_protein.faa，內(nèi)容復制到新的文本文件protein.txt，儲存格式為fasta。打開模體文件prosite.dat，內(nèi)容復制到新的文本文件prosite.txt。將上述3個文件置于同一個文件夾內(nèi)。創(chuàng)建Python運行腳本，命名為test.py。

第3步：打開蛋白質(zhì)組序列文件GCF_013415845.1_ASM1341584v1_protein.faa，內(nèi)容復制到新的文本文件protein.txt，儲存格式為fasta。打開模體文件prosite.dat，內(nèi)容復制到新的文本文件prosite.txt。將上述3個文件置于同一個文件夾內(nèi)。創(chuàng)建Python運行腳本，命名為test.py。

第4步：Python運行腳本test.py具體代碼如下(注意代碼縮進，“#”代表代碼的注釋)。

#導入re模塊

import re

#讀取功能模體,選取PATTERN模式,存儲到新文件中

f = open("prosite_new.txt","a+")

prosite = open("prosite.txt").read()

separator_1 = re.compile(′∥′)

prosite_group = separator_1.split(prosite)

for group in prosite_group:

if "PATTERN" in group:

f.write(str(group))

#讀取新文件中模體的登錄(AC)號，蛋白名稱和序列,存儲到字典prosite_dict

prosite_seq = []

name_motif = []

AC = []

with open(′prosite_new.txt′) as file_object:

for line in file_object:

if line.startswith(′DE′):

name_motif.append(line[5:-2])

if line.startswith(′AC′):

AC.append(line[5:-2])

if line.startswith(′PA′):

prosite_seq.append(line[5:-1])

prosite_seq_str = "".join(prosite_seq)

prosite_seq_motif = prosite_seq_str.split(".")

prosite_seq_motif.pop()

prosite_key_list = [(i, j) for i, j in zip(AC, name_motif)]

prosite_dict = {i : j for i, j in zip(prosite_key_list, prosite_seq_motif)}

#讀取蛋白質(zhì)序列，儲存到字典protein_dict

protein = open("protein.txt").read()

separator = re.compile(′>′)

protein_group = separator.split(protein)

protein_seq = []

name_protein = []

for group in protein_group:

group_new = group.split(" ")

name_protein.append(group_new[0])

protein_seq.append(group_new[1:])

for i in name_protein:

if i == "":

name_protein.remove(i)

protein_seq_new = []

for i in protein_seq:

j = "".join(i)

protein_seq_new.append(j)

protein_seq_new.pop(0)

protein_dict = {i : j for i, j in zip(name_protein, protein_seq_new)}

f1 = open("檢測結果.txt", "a+")

for prosite_dict_key, pattern in prosite_dict.items():

#將Prosite正則表達式轉換為Python正則表達式

pattern = pattern.replace(′{′, ′[^′)

pattern = pattern.replace(′}′, ′]′)

pattern = pattern.replace(′(′, ′{′)

pattern = pattern.replace(′)′, ′}′)

pattern = pattern.replace(′-′, '')

pattern = pattern.replace(′x′, ′.′)

pattern = pattern.replace(′>′, ′$′)

pattern = pattern.replace(′<′, ′^′)

pattern_motif = re.compile(pattern)

for protein_dict_key, protein_seq_group in protein_dict.items():

match_all = pattern_motif.findall(str(protein_seq_group))

match_iter = pattern_motif.finditer(str(protein_seq_group))

if match_all:

f1.write(" " + "**************************" + " " )

f1.write("Prosite的AC號和功能模體名稱： " +

str(prosite_dict_key) + " ")

f1.write("匹配模式： " + str(pattern) + " ")

f1.write("蛋白質(zhì)ID號和名稱： " + str(protein_dict_key) + " ")

f1.write("蛋白質(zhì)序列： " + str(protein_seq_group) + " ")

f1.write(" ")

for t in match_iter:

f1.write("蛋白質(zhì)中的匹配序列：" + str(t.group()) + " ")

f1.write("蛋白質(zhì)中的起始位置： " + str(t.start()) + " ")

f1.write("蛋白質(zhì)中的終止位置： " + str(t.end())+ " ")

f1.write(" " + "**************************" + " ")

第5步：將上述軟件運行后，獲得的2個"檢查結果.txt"文件，分別命名為analysis _1.txt、analysis _2.txt。將上述2個文件置于同一個文件夾內(nèi)。創(chuàng)建Python運行腳本，命名為difference analysis.py。

第6步：Python運行腳本difference analysis.py具體代碼如下(注意代碼縮進，"#"代表代碼的注釋)。

#創(chuàng)建文件

f_0_1 = open("1相同2結果.txt","a+")

f_0_2 = open("2相同1結果.txt","a+")

f_1_1 = open("1差異2結果.txt","a+")

f_1_2 = open("2差異1結果.txt","a+")

#讀取文件內(nèi)容

f_2 = open("analysis_1.txt").readlines()

f_3 = open("analysis_2.txt").readlines()

#篩選差異功能模體并儲存在新文件中

for line in f_2:

if "Prosite的AC號和功能模體名稱：" in line:

if line in f_3:

f_0_1.write(line)

else:

f_1_1.write(line)

for line in f_3:

if "Prosite的AC號和功能模體名稱：" in line:

if line in f_2:

f_0_2.write(line)

else:

f_1_2.write(line)

2 結果與分析

2.1 Python腳本運行結果

Python運行腳本test.py后，在2個不同的文件夾內(nèi)分別自動創(chuàng)建“檢測結果.txt”文本文件，運行結果見圖1(文件過大，只顯示部分運行結果)。輸出結果包括：(1)Prosite的AC號和模體名稱；(2)匹配模式(Python正則表達式)；(3)蛋白質(zhì)ID號(NCBI)和名稱；(4)蛋白質(zhì)序列；(5)蛋白質(zhì)中的匹配序列；(6)蛋白質(zhì)中的起始位置；(7)蛋白質(zhì)中的終止位置。Python運行腳本difference analysis.py后，自動創(chuàng)建含有分析結果的新文件(1相同2結果.txt、2相同1結果.txt、1差異2結果.txt、2差異1結果.txt)，見圖2。輸出結果包括 Prosite的AC號和模體名稱。

2.2 沼澤紅假單胞菌CGA009和YSC3差異功能模體分析

沼澤紅假單胞菌CGA009與YSC3比較，獨有14種功能模體。沼澤紅假單胞菌YSC3與CGA009比較，獨有5種功能模體見表1。

表1 沼澤紅假單胞菌CGA009和YSC3差異功能模體

3 討論與結論

本研究編寫的Python腳本不僅適用于沼澤紅假單胞菌的研究，也廣泛適用于細菌、真菌、動物、植物等所有物種，用于篩選相似物種間的差異功能模體，探索相似物種間功能差異的機理。

沼澤紅假單胞菌CGA009與YSC3比較，獨有14種功能模體。核糖核苷酸還原酶是DNA 合成和修復的關鍵酶和限速酶，對細胞的增殖和分化起著調(diào)控作用，在幾乎所有生物生長和繁殖的生命活動中起著非常重要的作用。DNA聚合酶是催化DNA精確復制的關鍵酶。異檸檬酸裂解酶是乙醛酸支路代謝中的關鍵酶，催化異檸檬酸轉化為琥珀酸和乙醛酸，乙醛酸支路是三羧酸循環(huán)的替代支路?？缒ねǖ赖鞍资菣M跨質(zhì)膜的親水性通道，允許適當大小的離子順濃度梯度通過，包括離子通道、孔蛋白、水孔蛋白等。胰蛋白酶抑制劑是對胰蛋白酶具有抑制作用的一類物質(zhì)，在動物、植物和微生物中都有發(fā)現(xiàn)，在微生物中，胰蛋白酶抑制劑主要來源于酵母菌、鏈霉菌屬等。胰蛋白酶抑制劑屬于絲氨酸蛋白酶抑制劑家族，其分子的活性部位是賴氨酸，主要與胰蛋白酶等酶的絲氨酸結合，使其失活，起到抑制作用。SASP蛋白與雙鏈DNA結合后，導致DNA構象變化，保護DNA骨架結構免受化學試劑或酶的裂解，使DNA對紫外線具有高抗性。位點特異性重組在原核生物DNA重排中起著重要作用。位點特異性重組中，DNA節(jié)段的相對位置發(fā)生移動，從而使DNA序列發(fā)生重排。脯氨酰內(nèi)肽酶廣泛存在于動物、植物和微生物體內(nèi)。脯氨酸內(nèi)肽酶是一類能夠特異性水解多肽鏈中脯氨酸殘基羧基端的內(nèi)切酶，是絲氨酸蛋白酶家族成員之一，其能有效降解小于30個含有脯氨酸殘基的多肽鏈，脯氨酸內(nèi)肽酶能特異性地水解許多含脯氨酸的多肽類神經(jīng)遞質(zhì)和激素。甘氨酰自由基酶共享以甘氨酸為中心的保守區(qū)域，參與多種功能，例如核苷酸、丙酮酸和甲苯的代謝等。乙二醛酶Ⅰ(又稱乳酰谷胱甘肽裂解酶)催化乙二醛途徑的第一步，即催化甲基乙二醛和谷胱甘肽轉化為- 乳酰谷胱甘肽，然后再由乙二醛酶Ⅱ將底物- 乳酰谷胱甘肽轉化為乳酸。乙二醛酶Ⅰ是普遍存在的一種酶，序列很保守。甲基乙二醛破壞細胞平衡，具有毒性，乙二醛酶系統(tǒng)能夠清除過量的甲基乙二醛，維持細胞內(nèi)的動態(tài)平衡。核糖體蛋白參與細胞內(nèi)蛋白質(zhì)合成。NADH脫氫酶參與呼吸鏈反應。吡咯烷酮羧酸肽酶(又稱焦谷氨酰胺基肽酶)是從蛋白質(zhì)的-末端去除焦谷胺酸的酶，存在于細菌和古細菌中。沼澤紅假單胞菌CGA009獨有的14種功能模體，功能主要集中在：(1)DNA 復制、合成、修復、重排和保護；(2)蛋白質(zhì)合成；(3)呼吸鏈的電子轉移；(4)細胞的增殖和分化；(5)生長和繁殖；(6)代謝途徑的補充；(7)離子運輸；(8)清除毒性物質(zhì)甲基乙二醛。

沼澤紅假單胞菌YSC3與CGA009比較，獨有5種功能模體。內(nèi)質(zhì)網(wǎng)靶向序列是存在于內(nèi)質(zhì)網(wǎng)蛋白上的非常保守的靶向序列。類血紅素結構域能與多種分子和蛋白質(zhì)結合。多銅氧化酶含有多個銅結合中心，催化有機底物使其氧化，參與微生物對重金屬銅的抗性，降解多種生物胺的活性。DNA甲基化酶識別DNA的特定序列，并使該序列中的胞嘧啶甲基化，保護細胞自身的DNA不被限制性內(nèi)切酶破壞。視蛋白是一種膜蛋白，有7個跨膜區(qū)，屬于G蛋白偶聯(lián)受體超家族。視蛋白廣泛分布于動物和微生物中，是一種重要的感光物質(zhì)，具有調(diào)節(jié)生物節(jié)律和光周期等多種功能。沼澤紅假單胞菌YSC3獨有的5種功能模體，功能主要集中在：(1)對重金屬銅的抗性；(2)降解生物胺；(3)調(diào)節(jié)生物節(jié)律和光周期。

沼澤紅假單胞菌CGA009對紫外線和化學試劑具有抵抗能力，DNA骨架結構更穩(wěn)定，生長和繁殖性能更強。沼澤紅假單胞菌YSC3，對光照反應更加敏感，對重金屬銅具有抵抗能力，能夠降解生物胺，生存能力更強。本研究編寫的Python腳本，用于篩選相似物種間差異功能模體，探索相似物種間功能差異的機理，該腳本適用于所有物種。