張正東 申鐵 周文衛(wèi) 謝曉堯
摘要:茶樹體內(nèi)的生化反應(yīng)所生成的各種功能性化合物是茶葉具有營養(yǎng)和健康功能的物質(zhì)基礎(chǔ),也是茶葉品質(zhì)的決定因素。這些生化反應(yīng)由茶樹基因編碼的酶催化并組成復(fù)雜的代謝網(wǎng)絡(luò)。首先通過開源工具包jsoup開發(fā)異步數(shù)據(jù)采集程序,從布倫瑞克酶數(shù)據(jù)庫(braunschweig enzyme database,簡稱BRENDA)和美國國立生物技術(shù)信息中心(NCBI)網(wǎng)站上獲取酶序列及其催化反應(yīng)、GI號(hào)、EC編碼對(duì)應(yīng)關(guān)系等相關(guān)信息,建立本地酶數(shù)據(jù)庫;其次從NCBI上下載FASTA格式的茶樹表達(dá)序列標(biāo)簽(expressed sequence tag,簡稱EST)序列數(shù)據(jù),通過GI號(hào)查詢本地酶數(shù)據(jù)庫,得到酶催化反應(yīng)信息,繼而基于超圖思想利用Cytoscape Web API重構(gòu)茶代謝網(wǎng)絡(luò);最后對(duì)EST序列信息進(jìn)行統(tǒng)計(jì)分析,并從多個(gè)維度對(duì)構(gòu)造的代謝網(wǎng)絡(luò)進(jìn)行拓?fù)涮匦?、KEGG路徑、生物意義的深入分析,對(duì)茶樹內(nèi)生化反應(yīng)的理解、新功能基因的挖掘、茶葉品質(zhì)的提升、新茶產(chǎn)品的開發(fā)具有重要意義。
關(guān)鍵詞:Cytoscape Web;EST;超圖;代謝網(wǎng)絡(luò);茶葉
中圖分類號(hào): Q811.4文獻(xiàn)標(biāo)志碼: A
文章編號(hào):1002-1302(2017)11-0029-04[HS)][HT9.SS]
茶是世界上一種重要的飲料[1]。茶葉品質(zhì)是茶葉具有營養(yǎng)和健康功能的物質(zhì)基礎(chǔ),其決定因素是茶葉中的各種功能性化合物[2]。研究表明,茶葉中蘊(yùn)含的活性物質(zhì)能夠促進(jìn)身體健康和預(yù)防多種疾病。比如,茶葉中的多酚類物質(zhì)有很強(qiáng)的抗氧化性和生理活性,具有很好的抗衰老效果[3]。茶多酚及其氧化物能夠吸收放射性物質(zhì)鍶90、鈷60,具有一定的抗輻射作用[4]。此外,茶多酚(主要是兒茶素類化合物)具有預(yù)防多種器官癌癥、代謝綜合征、心血管疾病以及神經(jīng)退行性疾病的作用[5-7]。
茶葉中的功能性化合物來源于茶樹基因編碼的酶[8]。酶是代謝反應(yīng)的生物催化劑,其活性由基因轉(zhuǎn)錄和翻譯的特定氨基酸序列決定[9-12]。茶葉中的酶促反應(yīng)組成復(fù)雜的生化反應(yīng)網(wǎng)絡(luò),即代謝網(wǎng)絡(luò)[13]。代謝網(wǎng)絡(luò)的基本功能是不停地與外界環(huán)境進(jìn)行物質(zhì)和能量交換,維持茶樹體的生命特征[14]。此外,代謝網(wǎng)絡(luò)對(duì)于茶葉中的物質(zhì)合成至關(guān)重要,這些物質(zhì)是決定茶葉品質(zhì)和等級(jí)的關(guān)鍵要素[15-16]。研究茶葉中的酶及其催化的代謝反應(yīng),對(duì)于茶樹品種的開發(fā)、品質(zhì)的提升、新型茶產(chǎn)品的研發(fā)加工具有重要作用。
茶葉酶的特性取決于氨基酸種類和線性排列,這些氨基酸由茶樹基因編碼[17]。因此,本研究通過異步數(shù)據(jù)采集程序從布倫瑞克酶數(shù)據(jù)庫(BRENDA)、美國國立生物技術(shù)信息中心(NCBI)網(wǎng)站上獲取酶序列及其催化反應(yīng)、GI號(hào)、EC編碼等相關(guān)信息,建立本地酶數(shù)據(jù)庫;從NCBI上下載茶樹表達(dá)序列標(biāo)簽(EST)序列數(shù)據(jù),通過查詢本地酶數(shù)據(jù)庫鑒別出EST序列對(duì)應(yīng)的茶葉酶,繼而構(gòu)造茶代謝網(wǎng)絡(luò),從多個(gè)維度對(duì)構(gòu)造的代謝網(wǎng)絡(luò)進(jìn)行拓?fù)涮匦院蜕镄畔⒔y(tǒng)計(jì)分析,并討論分析結(jié)果所蘊(yùn)含的生物學(xué)意義。
1材料與方法
1.1EST數(shù)據(jù)采集
茶樹EST序列數(shù)據(jù)來源于NCBI數(shù)據(jù)庫。在NCBI首頁搜索“Camellia sinensis”,選擇“protein”,共獲得38 619 條FASTA格式的茶樹EST氨基酸序列數(shù)據(jù)。
1.2酶數(shù)據(jù)庫構(gòu)建
酶及其催化反應(yīng)信息來源于BRENDA[18]。BRENDA中共保存了6 759種酶EC編碼、推薦命名和催化反應(yīng)等信息。由于數(shù)據(jù)量較大,本研究利用開源工具包jsoup開發(fā)異步數(shù)據(jù)采集程序,解析BRENDA中所有酶及其催化反應(yīng)的底物和產(chǎn)物等相關(guān)信息。對(duì)于沒有催化反應(yīng)信息的酶,如EC 1.1.1.5,將其過濾掉,最終共獲得5 221個(gè)酶及其催化反應(yīng)數(shù)據(jù)。EST序列的GI號(hào)、酶EC編碼對(duì)應(yīng)關(guān)系數(shù)據(jù)也來源于BRENDA。由于NCBI中序列數(shù)據(jù)會(huì)被不斷完善和修正,當(dāng)EST序列信息被更新時(shí),其GI號(hào)也將被賦予新值,而BRENDA中保留的仍然是舊的GI號(hào),因此,將會(huì)出現(xiàn)1個(gè)EC編碼可能對(duì)應(yīng)多個(gè)GI號(hào)的情況。這種情況下,首先判定EST序列數(shù)據(jù)是否被更新,若被更新,追蹤更新歷史信息并找到最近的GI號(hào),此過程通過異步數(shù)據(jù)采集程序自動(dòng)完成,采集到的數(shù)據(jù)保存在本地酶數(shù)據(jù)庫中。
1.3酶基因篩查
從NCBI上下載的FASTA格式文件的每個(gè)序列都有1個(gè)GI號(hào)作為唯一標(biāo)識(shí),以便于對(duì)序列進(jìn)行監(jiān)控和管理[19]。GI號(hào)位于FASTA文件序列描述信息的第1行(以“>”開始)。通過GI號(hào)查詢本地酶數(shù)據(jù)庫可以獲得酶的EC編碼,進(jìn)而得到酶及其催化反應(yīng)信息。
[HTK]1.4代謝網(wǎng)絡(luò)的構(gòu)建和可視化[HT]
代謝網(wǎng)絡(luò)的可視化采用Cytoscape Web實(shí)現(xiàn)。Cytoscape Web是一款開源、交互式、高可定制的基于瀏覽器的網(wǎng)絡(luò)可視化工具,采用Flex/ActionScript實(shí)現(xiàn),支持GraphML、XGMML、SIF等多種交互文本格式[20]。本研究采用GraphML格式與Cytoscape Web進(jìn)行數(shù)據(jù)交互。Cytoscape Web提供非常豐富的JavaScript API,利用這些API可以設(shè)置點(diǎn)、邊的顏色、形狀、權(quán)重等各種網(wǎng)絡(luò)參數(shù),也可實(shí)現(xiàn)各種回調(diào)方法與網(wǎng)絡(luò)交互。
代謝反應(yīng)可能涉及到多個(gè)底物和產(chǎn)物,普通圖每條邊最多連接2個(gè)頂點(diǎn),因此采用普通圖表示代謝網(wǎng)絡(luò),無論是酶還是化合物作為頂點(diǎn),都要作一些額外限制,很難完整地展現(xiàn)代謝網(wǎng)絡(luò)的全部信息。而超圖(hypergraph)的超邊可以連接多個(gè)頂點(diǎn)[21],普通圖可視為超邊最多連接2個(gè)頂點(diǎn)的超圖特例。超圖可以完整地表示網(wǎng)絡(luò)的全部信息,是代謝網(wǎng)絡(luò)等復(fù)雜網(wǎng)絡(luò)的最佳形式化表示方法。因此,本研究采用有向超圖作為代謝網(wǎng)絡(luò)的形式化表示方法。酶和化合物均作為超圖的頂點(diǎn),菱形表示酶頂點(diǎn),圓形表示化合物頂點(diǎn)。若化合物是酶催化反應(yīng)的底物,在酶和化合物之間有1條有向超邊,方向指向酶;反之,有向超邊方向則指向化合物。構(gòu)造的代謝網(wǎng)絡(luò)如圖1所示。[FL)]
2.2代謝網(wǎng)絡(luò)統(tǒng)計(jì)
在2 414條酶序列重構(gòu)的代謝網(wǎng)絡(luò)中,共有297個(gè)酶促反應(yīng),包含297個(gè)酶和530個(gè)化合物。代謝網(wǎng)絡(luò)最大階為9,最小階為2,平均階為4,階頻數(shù)分布如圖2所示;最大度為101,最小度為1,平均度為2,度頻數(shù)分布如圖3所示。階定義為超邊所連接的點(diǎn)的個(gè)數(shù),即酶促反應(yīng)的化合物數(shù)量;度的定義和普通圖中一樣,為頂點(diǎn)關(guān)聯(lián)的超邊個(gè)數(shù),即化合物參與的代謝反應(yīng)數(shù)量(表2)。
2.3代謝網(wǎng)絡(luò)KEGG路徑分析
代謝網(wǎng)絡(luò)的一個(gè)重要特性是代謝路徑及其所涉及到的化合物,即KEGG路徑分析,這對(duì)于理解構(gòu)建的代謝網(wǎng)絡(luò)在整個(gè)網(wǎng)絡(luò)中的位置和作用有重要意義。因此,本研究將所有的代謝反應(yīng)映射到KEGG路徑。如圖4所示,2個(gè)最大的路徑是次生代謝物、抗生素的生物合成,分別包含44、16個(gè)反應(yīng),這種情況是合理的,因?yàn)檫@2個(gè)路徑位于高層次的分類,包含的反應(yīng)較多;第二大路徑是嘌呤,包含11個(gè)反應(yīng);其他較大的路徑是氨酰-tRNA、半胱氨酸和蛋氨酸、乙醛酸和二甲酸、嘧啶和丙酮酸,每個(gè)均包含7個(gè)反應(yīng);色氨酸、淀粉和蔗糖路徑也包含5個(gè)以上反應(yīng),這些路徑主要是碳相關(guān)網(wǎng)絡(luò)并分布在中心碳代謝周圍。所以構(gòu)造的代謝網(wǎng)絡(luò)主要分布在中心碳代謝周圍,并被單體生物合成路徑圍繞,同時(shí)也包含其他分散的網(wǎng)絡(luò)。
2.4代謝網(wǎng)絡(luò)詳述
整個(gè)代謝網(wǎng)絡(luò)由15個(gè)彼此間沒有交集的獨(dú)立子網(wǎng)絡(luò)組成,其中最大子網(wǎng)絡(luò)由282個(gè)反應(yīng)構(gòu)成,1個(gè)子網(wǎng)絡(luò)由2個(gè)反應(yīng)構(gòu)成,其余13個(gè)子網(wǎng)絡(luò)均由1個(gè)反應(yīng)構(gòu)成。
最大子網(wǎng)絡(luò)包含茶樹碳中心代謝系統(tǒng)的主要網(wǎng)絡(luò),如糖酵解途徑、磷酸戊糖途徑、回補(bǔ)途徑、三羧酸循環(huán)的絕大部分;此外,該網(wǎng)絡(luò)還涵蓋部分氨基酸合成代謝途徑、核苷酸代謝、一碳單位代謝、糖類物質(zhì)代謝、脂肪酸合成與分解代謝等重要代謝途徑,同時(shí)還覆蓋泛醌、NADPH、NADH、ATP、ADP、acetyl-CoA等各類輔因子及輔酶的生成與轉(zhuǎn)化途徑。這些途徑能夠?qū)崿F(xiàn)茶樹主要物質(zhì)分解、能量合成、能量轉(zhuǎn)移等主要的生化活動(dòng)。
另外,該網(wǎng)絡(luò)還涉及相當(dāng)數(shù)量的次生代謝網(wǎng)絡(luò),存在與兒茶素類物質(zhì)代謝相關(guān)的黃酮醇合成酶、苯丙氨酸解氨酶、花白素還原酶等,為將兒茶素類物質(zhì)代謝放到基因組規(guī)模代謝網(wǎng)絡(luò)背景下進(jìn)行研究提供便利;同時(shí),該網(wǎng)絡(luò)還存在沒食子酸、花青素、二氫黃酮、原兒茶酸等具體物質(zhì)的相關(guān)反應(yīng)。
3結(jié)論
茶葉品質(zhì)的決定因素是茶樹體內(nèi)的生化反應(yīng)所生成的各種功能性化合物,這些生化反應(yīng)由茶樹基因編碼的酶催化并組成復(fù)雜的代謝網(wǎng)絡(luò)。研究茶樹的代謝網(wǎng)絡(luò)對(duì)于了解茶樹內(nèi)的生化反應(yīng)、挖掘茶樹的功能基因、提升茶葉的品質(zhì)、開發(fā)新的茶產(chǎn)品具有基礎(chǔ)性與指導(dǎo)性的重要意義。本研究從NCBI上獲得茶樹的EST序列,通過GI號(hào)確定對(duì)應(yīng)的酶及其催化反應(yīng),繼而基于超圖思想構(gòu)造茶樹的代謝網(wǎng)絡(luò),并作拓?fù)浣Y(jié)構(gòu)和生物意義的深入分析。后續(xù)筆者會(huì)不斷地完善數(shù)據(jù)和方法,增加新的功能,如本地BLAST序列比對(duì)。最終,希望提供[FL)]
[FK(W21][TPZZD4.tif][FK)]
[FL(2K2]一款普適工具,輸入任意來源的任意序列均可輕易解析出該序列對(duì)應(yīng)的酶及其催化反應(yīng)信息,構(gòu)建代謝網(wǎng)絡(luò)。
參考文獻(xiàn):
[1]Cabrera C,Artacho R,Giménez R.Beneficial effects of green tea:a review[J]. J Am Coll Nutr,2006,25(2):79-99.
[2]Abuajah C L,Ogbonna A C,Osuji C M.Functional components and medicinal properties of food:a review[J]. J Food Sci Technol,2015,52(5):2522-2529.
[3]Khan N,Mukhtar H.Tea and health:studies in humans[J]. Curr Pharm Des,2013,19(34):6141-6147.
[4]Chen H X,Zhang M,Qu Z H,et al.Antioxidant activities of different fractions of polysaccharide conjugates from green tea(Camellia Sinensis)[J]. Food Chem,2008,106(2):559-563.
[5]Yang C S,Wang X,Lu G,et al.Cancer prevention by tea:animal studies,molecular mechanisms and human relevance[J]. Nat Rev Cancer,2009,9(6):429-439.
[6]Kanwar J,Taskeen M,Mohammad I,et al.Recent advances on tea polyphenols[J]. Front Biosci,2012(4):111-131.
[7]Chen Z M,Lin Z.Tea and human health:biomedical functions of tea active components and current issues[J]. J Zhejiang Univ Sci B,2015,16(2):87-102.
[8]Bonnely S,Davis A L,Lewis J R,et al.A model oxidation system to study oxidised phenolic compounds present in black tea[J]. Food Chem,2003,83(4):485-492.
[9]Yun J,Kang S,Park S,et al.Characterization of a novel amylolytic enzyme encoded by a gene from a soil-derived metagenomic library[J]. Appl Environ Microbiol,2004,70(12):7229-7235.[ZK)]
[10]Annaluru N,Ramalingam S,Chandrasegaran S.Rewriting the blueprint of life by synthetic genomics and genome engineering[J]. Genome Biol,2015,16(1):1-12.
[11]Seelig B.mRNA display for the selection and evolution of enzymes from in vitro-translated protein libraries[J]. Nat Protoc,2011,6(4):540-552.
[12]Karigar C S,Rao S S.Role of microbial enzymes in the bioremediation of pollutants:a review[J]. Enzyme Res,2011(2011):805187.
[13]Caetano-Anollés G,Yafremava L S,Gee H,et al.The origin and evolution of modern metabolism[J]. Int J Biochem Cell Biol,2009,41(2):285-297.
[14]Wagner A,F(xiàn)ell D A.The small world inside large metabolic networks[J]. Proc Biol Sci,2001,268(1478):1803-1810.
[15]Nishikawa T,Gulbahce N,Motter A E.Spontaneous reaction silencing in metabolic optimization[J]. PLoS Comput Biol,2008,4(12):e1000236.
[16]Janga S C,Babu M M.Network-based approaches for linking metabolism with environment[J]. Genome Biol,2008,9(11):239-244.
[17]Griffiths A J F,Miller J H,Suzuki D T,et al.An introduction to genetic analysis:gene-protein relations[M]. 7th ed.New York:W H Freeman,2000.
[18]Scheer M,Grote A,Chang A,et al.BRENDA,the enzyme information system in 2011[J]. Nucleic Acids Res,2011(39):D670-D676.
[19]McGinnis S,Madden T L.BLAST:at the core of a powerful and diverse set of sequence analysis tools[J]. Nucleic Acids Res,2004(32):W20-W25.
[20]Lopes C T,F(xiàn)ranz M,Kazi F,et al.Cytoscape web:an interactive web-based network browser[J]. Bioinformatics,2010,26(18):2347-2348.
[21]Berge C.Packing problems and hypergraph theory:a survey[J]. Ann Discrete Math,1979(4):3-37.
[22]Parkinson J,Blaxter M.Expressed sequence tags:an overview[J]. Methods Mol Biol,2009,533:1-12.[ZK)][HT][HJ][FL)]