王一丹
(山西師范大學 生命科學學院,山西 臨汾041000)
植物在生長期間會形成各類代謝產物,這些產物可滿足植物生長需要,也可促進植物抵抗環(huán)境脅迫,一部分代謝產物也對植物產生毒性,為有效提高相關代謝產物的作用,已經鑒定出一系列針對不同底物的轉運蛋白。MATE系列是發(fā)現的新型蛋白。1998年Morita從副溶血性弧菌中克隆得到第一個MATE蛋白,經過后續(xù)研究發(fā)現,MATE家族在許多物種中含量都很豐富。
現有研究表明,MATE轉運蛋白直接或間接參與植物中各種代謝物的轉運及生理過程。植物MATE基因蛋白質功能分化的前提條件為其家族數目的擴展、對比分析結果表明植物MATE基因的數量顯著高于細菌,如水稻。
進化過程中植物基因組的多倍化和串聯重復是導致MATE基因家族擴增的主要因素。目前很多學者從不同角度研究了擬南芥MATE蛋白,已經確定了10種MATE蛋白的功能。這些蛋白質參與植物器官離子轉運、生物堿和類黃酮等代謝產物的轉運等各種生理過程,例如抗鋁脅迫。由于此蛋白和植物的很多生理活動都密切相關,因而可將其作為育種時的靶基因,以改善許多重要的性狀,例如營養(yǎng)元素吸收和次生代謝產物含量等。
芝麻是一種常見的油料作物,其營養(yǎng)價值高,富含抗氧化劑,例如維生素和木脂素,對人體健康非常有益,尤其是黑芝麻,它比白芝麻更強大,總抗氧化劑能力更強[1]。目前,這些次生代謝產物在芝麻中的積累和運輸機制作用仍然需要研究。蛋白質序列同源性分析技術在研究多基因家族功能方面被廣泛應用,同時也用于對其進行鑒別。對有完整基因組的植物而言,這種方法有很高的適用性。其在應用過程中可以從基因組角度分析多基因家族,所得結果可以為明確其進化機制提供支持,也為相關功能分析起到促進作用。
在進行此項研究時對芝麻基因組進行同源搜索,而確定出特定MATE基因。且根據此基因的位置編碼進行命名為SiMATE1-SiMATE67。
通過蛋白質亞細胞定位預測發(fā)現,芝麻的此基因蛋白分布范圍廣,在質膜、細胞核、液泡中都有一定分布[2],且占比例最高的為質膜上的MATE蛋白,占比達到80.9%。內質網上只有一種MATE蛋白。
SiMATE基因分布在芝麻的全部13條染色體中,每條染色體的分布數為1至17。其中,第2號染色體包含最多的MATE基因,共17條[2]。
相關研究發(fā)現在進化過程中,芝麻基因組經歷了全基因組復制事件。而根據共線性研究結果表明,在其中有兩個共線性亞基因組。統(tǒng)計分析芝麻全基因組復制區(qū)相關的位置信息,而檢測到此區(qū)域中含有20余個SiMATE基因。
近一半的SiMATE基因(33)以串聯復制的形式排列在染色體上,每個成員的蛋白質序列基因簇具有高度相似性,由此可判斷出在此基因家族擴增方面,這兩種類型的復制發(fā)揮了重要作用。
針對此方面的共線性分析結果發(fā)現,在擬南芥中和此基因同源的有27個,且相應的分布范圍廣,分布于大部分染色體上。
此外,全部串聯重復的SiMATE基因中,串聯重復的基因還包括擬南芥中SiMATE49、50的兩個共線基因。根據以上結果進行分析可知,SiMATE的串聯復制大部分是分化后發(fā)生的。
在研究過程中對此基因的系統(tǒng)發(fā)育關系進行分析,并建立了系統(tǒng)發(fā)育樹,進行適當的篩選后,選擇18個各物種的67個芝麻MATE蛋白序列和45個MATE蛋白序列進行構件。系統(tǒng)發(fā)育分析顯示,具有已知功能的10個擬南芥MATE基因中的4個與芝麻MATE基因共線,根據進化樹的拓撲結構,可以將67種芝麻MATE蛋白分為四類。第一組包含數量最多的MATE蛋白,共有62種,其次是第四組包含31種MATE蛋白?;谶@方面的系統(tǒng)發(fā)育關系,可對芝麻MATE蛋白的功能依據已知功能的蛋白來預測。
根據基因進化理論分析可知,基因家族的進化主要表現為其中成員的結構以及相應保守基序的變化。在研究過程中對SiMATE基因的外顯子-內含子結構依據相關注釋信息進行分析,結果發(fā)現SiMATE中有1-28個外顯子,基本上符合聚類所得結果,而內含子的長度存在明顯的差異,統(tǒng)計分析發(fā)現第二組中的基因大部分含6-8個外顯子,而內含子的長度明顯少于上一組。第三組中只有1-3個外顯子,而長度顯著大于其他組。第四組包括11-28個外顯子[2]。
對比以上結果可知,和大豆中MATE蛋白保守基序所得結果很類似,由此可推斷出和其他三組相比,第四組蛋白的功能分化更顯著。
此研究應用芝麻轉錄組數據庫各組織的基因數據進行分析,研究了植物根莖葉等不同組織中SiMATE基因表達情況,結果顯示,在至少兩個組織中檢測到所有Si-MATE基因的轉錄本,在所有組織中有15個基因具有相似的表達水平,在所有組織中有10個基因具有低表達水平。其余的SiMATE基因顯示組織表達特異性。在根部一些基因表達水平明顯高于其他部位,而氣管組織中則低表達。SiMATE44相關的基因大部分在莖和葉中表達,而某些基因,例如SiMATE22和SiMATE20主要在種子中表達,而在其他組織中則較低。
此研究基于同源搜索方法對芝麻基因組進行分析,確定出67種MATE蛋白,且檢測發(fā)現其長度變化區(qū)間為141-1157aa,擬南芥中此蛋白的長度在400-700aa之間,表明與擬南芥相比,芝麻MATE基因家族變異更大。
通過串聯重復分析結果發(fā)現,SiMATE的串聯復制主要出現在芝麻和擬南芥分化后,且這種復制對SiMATE家族擴增有一定促進作用,對比可知此種復制模式和番茄中的類似,可能與基因組的進化有關。在進化期間芝麻出現了全基因組復制事件,且對應的復制區(qū)中,有24個此種基因,但是同時只有3對基因。在復制區(qū)域中,僅復制區(qū)域之一存在18個基因,表明這些基因在復制后經歷了進化事件,例如缺失或染色體重排。這些基因編碼的蛋白質可能具有相似的功能。
具有不同功能的大多數MATE蛋白聚集在不同的組中,第一組中的蛋白主要涉及各種植物,會影響擬南芥中的類黃酮含量。相關研究發(fā)現擬南芥AtTT12和液泡中類黃酮的運輸存在相關性,和野生型相比,相應突變體的種皮外觀產生一定變化,顏色明顯變淺。
第二組中的蛋白質對不同類型毒素的轉運起到一定介導作用。如植物抵抗毒素的作用和擬南芥中的AtALF5存在相關性。首個克隆的植物MATE基因為AtDTX1,在擬南芥中很多毒素的外排都和其相關,也和抗生素的代謝有關,此外研究發(fā)現Cd2+的解毒也受其調節(jié)。如在尼古丁的傳輸中,煙草Nt-JAT1的作用很重要,生物堿的沉積也和其密切相關。
第三組蛋白質參與許多不同的生理過程,包括抗病性、器官發(fā)生、離子遷移等。舉例如擬南芥中下胚軸細胞的生長和AtADS1有一定關聯,不過其具體關系還不是很明確。
擬在研究時與此相關的序列數據來源于TAIR數據庫。從Sinbase2.0數據庫下載芝麻參考基因序列信息。使用57個擬南芥MATE蛋白序列BLASTP來對芝麻蛋白序列進行比對以獲得同源MATE蛋白,并從pfam數據庫中下載MATE域模型文件,然后利用HMMER v3.0軟件通過此文件進行搜索而獲得相應的芝麻基因組,進而確定出芝麻MATE候選蛋白,然后使用pfam和SMART(簡單的模塊化體系結構研究工具),接著針對確定出的候選蛋白序列開展MATE域預測,將其中不存在這種域的蛋白刪去。使用ExPASy在線工具可以預測。
芝麻MATE蛋白的理論等電點和分子量,可以使用WoLFPSORT預測MATE蛋白的亞細胞位置,使用TMHMM Server可預測相應的螺旋結構。
在對SiMATE基因的位置進行分析時,應用了芝麻參考基因組,從而在13條染色體中對其進行定位。且對比分析而將3個同源基因判斷為串聯復制基因,引述了芝麻全基因組復制區(qū)的位置和內部遺傳信息[3]。使用軟件分析芝麻和擬南芥MATE基因之間的共線性。首先,明確了二者間的全部共線性區(qū)域,接著確定出包括SiMATE基因的區(qū)域。這種區(qū)域內的同源MATE基因表現出一定直系同源關系。對共線性基因位置關系通過TBtools軟件[4]工具進行分析而繪圖。
ClustalW在MEGA6.0軟件中[5],使用系統(tǒng)進化樹比較了芝麻MATE蛋白序列和已知功能的植物MATE蛋白序列。相應的物種基因組數據庫下載了45種已知的MATE蛋白序列,為其后續(xù)分析提供支持。
從Sinbase2.0庫中下載相應的結構信息,工具MEME被用于MATE蛋白保守基序的預測。
在此分析時從SesameFG庫中下載各組織轉錄組相關的信息,據此分析表達模式差異。
在這項研究中,鑒定出芝麻基因組67種MATE蛋白。從蛋白質的長度方面來看,與擬南芥相比,芝麻MATE基因家族變異更大。從基因方面來看,SiMATE的大多數串聯復制發(fā)生在芝麻和擬南芥分化之后。從MATE蛋白聚集在不同組中來看,第一組中的蛋白主要涉及各種植物,會影響擬南芥中的類黃酮含量。第二組中的蛋白質介導各種復合物和毒素的轉運和流出。第三組蛋白質和植物的很多生理過程都密切相關。
本文在理解芝麻MATE基因相關論文的基礎上,使用相對通俗易懂的非術語化語言,使沒有相關專業(yè)背景的受眾者能更好地進行閱讀。為后續(xù)的芝麻MATE領域進一步研究提供經驗,也為SiMATE基因家族功能研究提供了重要依據和參考,同時也為無相關學術背景而有志從事該方向的研究者提供綱要似的參考,更為芝麻MATE基因領域的研究擴大了進步的可能。