孫善肖,韓志強(qiáng)
(浙江海洋大學(xué)水產(chǎn)學(xué)院,浙江舟山 316022)
目前有關(guān)物種系統(tǒng)發(fā)育的研究多基于線粒體基因和少量的核基因,如線粒體DNA 的COI、16S rRNA、Cytb 基因和核基因的18S rRNA、28S rRNA 基因[1-5]。僅利用少量分子標(biāo)記開(kāi)展系統(tǒng)發(fā)生關(guān)系的研究常常會(huì)遇到一些問(wèn)題,如標(biāo)記位點(diǎn)少、基因短片段太多等[6-7]。隨著高通量測(cè)序的普及,利用轉(zhuǎn)錄組和基因組數(shù)據(jù)研究物種間的系統(tǒng)發(fā)育關(guān)系已成為可能,GONZáLEZ,et al[8]利用轉(zhuǎn)錄組數(shù)據(jù)對(duì)31 種雙殼貝類的系統(tǒng)發(fā)育關(guān)系進(jìn)行了研究,HUGHES,et al[9]整合了144 種魚(yú)類的基因組數(shù)據(jù)和159 種魚(yú)類的轉(zhuǎn)錄組數(shù)據(jù),采用新的生物信息學(xué)分析方法,篩選出1 105 個(gè)直系同源的外顯子序列作為分子標(biāo)記,構(gòu)建了迄今為止最可靠的魚(yú)類系統(tǒng)演化樹(shù)。目前利用轉(zhuǎn)錄組和基因組構(gòu)建系統(tǒng)發(fā)育樹(shù)的主要的研究方法是通過(guò)OrthoMCL(http://orthomcl.org/orthomcl/)等軟件通過(guò)Blast-to-blast 序列比對(duì),查找物種間1:1 的單拷貝直系同源基因[10],該類型方法存在計(jì)算工作量巨大,隨物種數(shù)增加,計(jì)算量程指數(shù)增長(zhǎng),此外受限于物種序列的注釋水平,低質(zhì)量的注釋會(huì)造成將大量的單拷貝同源序列組裝為旁系同源序列,從而造成大量的物種間單拷貝直系同源基因被誤判為多拷貝基因從而排除在系統(tǒng)進(jìn)化采用的基因位點(diǎn)集外。因此建立一種快速有效的利用基因組數(shù)據(jù)構(gòu)建系統(tǒng)發(fā)育是必要的。
LI Chenhong,et al[11]對(duì)82 種后生動(dòng)物的基因組編碼序列進(jìn)行了blast 比對(duì),建立了一個(gè)可搜索的單拷貝編碼序列數(shù)據(jù)庫(kù)EvolMarkers,用于開(kāi)發(fā)單拷貝標(biāo)記,從而進(jìn)行系統(tǒng)發(fā)育的研究。BUSCO(https://busco.ezlab.org/)是在基因含量層面上來(lái)評(píng)估基因組完整性的軟件,它構(gòu)建了幾個(gè)大進(jìn)化支的單拷貝基因數(shù)據(jù)[12],該數(shù)據(jù)庫(kù)包含了多個(gè)物種的數(shù)據(jù)集合,其中包括真核生物、節(jié)肢動(dòng)物、魚(yú)類、脊椎動(dòng)物、鳥(niǎo)類和哺乳動(dòng)物。該數(shù)據(jù)除了可以用來(lái)評(píng)估基因組完整性,也可以用來(lái)進(jìn)行系統(tǒng)發(fā)育研究。WATERHOUSE,et al[13]利用BUSCO中的哺乳類單拷貝基因構(gòu)建了嚙齒類系統(tǒng)發(fā)育系統(tǒng)樹(shù)。在BUSCO 數(shù)據(jù)庫(kù)中也包含節(jié)肢動(dòng)物的單拷貝基因數(shù)據(jù)庫(kù),這個(gè)數(shù)據(jù)庫(kù)中的所有基因都在節(jié)肢動(dòng)物中存在且只存在一個(gè)拷貝,因此我們就可以以此為標(biāo)準(zhǔn),對(duì)分析物種的基因庫(kù)進(jìn)行搜索,獲得單拷貝直系同源基因用于系統(tǒng)發(fā)育樹(shù)的構(gòu)建。甲殼動(dòng)物是節(jié)肢動(dòng)物在海洋中最重要的類群[14],其基因組結(jié)構(gòu)復(fù)雜、注釋程度低,利用DNA 編碼區(qū)和基因組間blast 比對(duì)尋找同源基因的方法有困難,因此我們嘗試?yán)肂USCO 提供的單拷貝基因數(shù)據(jù)集在甲殼類物種間查找直系同源基因,進(jìn)而用于系統(tǒng)樹(shù)的構(gòu)建。在本研究中我們選取了10 種甲殼綱物種,選擇1 種蛛形綱物種為外群。
本研究共分析了節(jié)肢動(dòng)物門的11 個(gè)物種,除染色大絨螨Dinothrombium tinctorium 為蛛形綱以外,其余物種均為甲殼綱。甲殼綱的10 個(gè)物種中,棕蝦Penaeus aztecus、粉紅色蝦Penaeus duorarum、日本對(duì)蝦Penaeus japonicus、長(zhǎng)毛對(duì)蝦Penaeus penicillatus 以及凡納濱對(duì)蝦Litopenaeus vannamei 等5 種對(duì)蝦所用序列為轉(zhuǎn)錄組數(shù)據(jù)經(jīng)過(guò)de novo 組裝、蛋白翻譯后的氨基酸序列,轉(zhuǎn)錄組原始數(shù)據(jù)下載自NCBI (https://www.ncbi.nlm.nih.gov/)。而葛氏長(zhǎng)臂蝦Palaemon gravieri 為舟山近海海域采樣所得,我們采集鰓和肌肉組織送生物公司測(cè)序得到其轉(zhuǎn)錄組數(shù)據(jù)。甲殼綱的真寬水蚤Eurytemora affinis、端足蟲(chóng)Hyalella azteca、蚤狀蚤Daphnia pulex 和鼠婦Armadillidium vulgare 以及蛛形綱的染色大絨螨等5 個(gè)物種為基于基因組數(shù)據(jù)翻譯的蛋白序列,這些蛋白序列均下載自NCBI,具體信息見(jiàn)表1。
采用Trinity[15]軟件對(duì)上述5 個(gè)物種(棕蝦、粉紅色蝦、日本對(duì)蝦、長(zhǎng)毛對(duì)蝦、凡納濱對(duì)蝦)的轉(zhuǎn)錄組數(shù)據(jù)進(jìn)行de novo 組裝,內(nèi)存設(shè)為100 G,使用的CPU 線程數(shù)為24。其中,使用--left、--rigth 參數(shù)對(duì)雙端數(shù)據(jù)處理,使用--single 對(duì)單端數(shù)據(jù)處理。對(duì)組裝結(jié)果提取最長(zhǎng)的轉(zhuǎn)錄本作為Unigene。
表1 物種數(shù)據(jù)信息見(jiàn)表Tab.1 Species data information is shown in the table
采用Transdecoder[16]軟件對(duì)上述5 種對(duì)蝦的轉(zhuǎn)錄子Unigene 中的編碼區(qū)進(jìn)行識(shí)別,并預(yù)測(cè)蛋白序列。蛋白預(yù)測(cè)步驟分為:(1)首先使用TransDecoder.LongOrfs 命令尋找長(zhǎng)度不小于指定值的ORF,我們?cè)O(shè)置最小值為50;(2)然后使用TransDecoder.Predict 命令進(jìn)行ORF 預(yù)測(cè),得到翻譯后的氨基酸序列。
根據(jù)BUSCO[12]建立了節(jié)肢動(dòng)物1066 個(gè)單拷貝的數(shù)據(jù)庫(kù),參照WATERHOUSE,et al[13]的方法我們利用hmmsearch[17](https://www.ebi.ac.uk/Tools/hmmer/about)對(duì)本文所研究的11 個(gè)物種的氨基酸序列進(jìn)行搜索,CPU 設(shè)為60,其他參數(shù)設(shè)為默認(rèn)值。選取11 個(gè)物種中被標(biāo)記得分最高的單拷貝基因比對(duì)結(jié)果,用自定義的shell 腳本從中提取出基因序列,即得到最終的單拷貝同源基因。
使用MAFFT[18](http://mafft.cbrc.jp/alignment/software/)對(duì)單拷貝同源進(jìn)行多序列比對(duì),使用Gblocks 提取單拷貝同源基因多序列比對(duì)結(jié)果的保守位點(diǎn),序列類型參數(shù)設(shè)為蛋白序列,其余為默認(rèn)參數(shù)。根據(jù)多序列比對(duì)結(jié)果進(jìn)行系統(tǒng)樹(shù)構(gòu)建,使用軟件MEGA-X[19](https://www.megasoftware.net/)的phylogeny 功能構(gòu)建Nj 系統(tǒng)發(fā)育樹(shù),BootStrap 值設(shè)為1 000。
利用高通量測(cè)序平臺(tái)(Illumina HiSeqTM)對(duì)葛氏長(zhǎng)臂蝦進(jìn)行轉(zhuǎn)錄組測(cè)序,得到了原始數(shù)據(jù)(Raw Data)及去除雜質(zhì)之后的高質(zhì)量讀序(Clean reads),結(jié)果如表2 所示。我們共獲得40 282 258 條Clean reads,GC 含量為48.11%,利用Trinity 軟件對(duì)所獲得葛氏長(zhǎng)臂蝦的高質(zhì)量讀序(Clean reads)進(jìn)行組裝,得到23 670 條轉(zhuǎn)錄本(transcripts),進(jìn)一步去冗組裝獲得15 089 條Unigene,N50 為1 909 bp。
使用Trinity 對(duì)下載自NCBI 的棕蝦、粉紅色蝦、日本對(duì)蝦、長(zhǎng)毛對(duì)蝦以及凡納濱對(duì)蝦的轉(zhuǎn)錄組數(shù)據(jù)進(jìn)行組裝,得到Unigene 數(shù)量分別為11 747、118 427、68 077、12 778 和41 397 條。其N50 大小分別為659、484、1 532、511、1 397 bp,具體見(jiàn)表3。從結(jié)果中我們可以得到,日本對(duì)蝦和凡納濱對(duì)蝦的N50 值比較大,組裝結(jié)果質(zhì)量好,尤其是日本對(duì)蝦,其N50 值達(dá)到1 532 bp。
表2 物種數(shù)據(jù)信息表Tab.2 Species data information is shown in the table
表3 5 個(gè)物種轉(zhuǎn)錄組組裝情況表Tab.3 Transcriptome assembly of 5 species
利用hmmsearch 將上述得到的11 個(gè)物種的氨基酸序列與BUSCO 建立的節(jié)肢動(dòng)物單拷貝的數(shù)據(jù)庫(kù)比對(duì),聚類得到的總基因數(shù)為255 976 個(gè),最終篩選出346 個(gè)直系同源單拷貝基因。使用Gblocks 提取多序列比對(duì)結(jié)果的保守位點(diǎn)44 883 個(gè),其聚類情況見(jiàn)表4。
表4 11 個(gè)物種基因聚類結(jié)果表Tab.4 Results of gene of 11 species
基于上述1 個(gè)蛛形綱物種和10 個(gè)甲殼綱物種的11 個(gè)物種的基因組或轉(zhuǎn)錄組數(shù)據(jù)生成了346 個(gè)直系同源單拷貝基因,我們利用MEGA 軟件構(gòu)建了N-j (neighbor-joining)分子系統(tǒng)進(jìn)化樹(shù),氨基酸替代模型選為JTT[20],如圖1 所示。結(jié)果表明,屬于濱對(duì)蝦亞屬的凡納濱對(duì)蝦與屬于囊對(duì)蝦亞屬的日本對(duì)蝦緊密聚為一枝,棕蝦與明對(duì)蝦亞屬的長(zhǎng)毛對(duì)蝦聚為一枝,然后這兩條進(jìn)化枝合在一起與粉紅色蝦聚在一起,這樣,十足目對(duì)蝦科的五個(gè)物種緊密的聚為一枝。葛氏長(zhǎng)臂蝦屬于十足目長(zhǎng)臂蝦科長(zhǎng)臂蝦屬,系統(tǒng)發(fā)育樹(shù)顯示,葛氏長(zhǎng)臂蝦與對(duì)蝦科的總進(jìn)化枝聚在一起,因此本研究中的十足目物種均聚為一個(gè)分枝,接著甲殼綱等足目的鼠婦與之合為一枝,然后端足目的端足蟲(chóng)與上述合枝聚為一枝。這樣包括鼠婦、端足蟲(chóng)和6 種蝦在內(nèi)的等足目、端足目和十足目三個(gè)目的物種合為一個(gè)大的進(jìn)化枝。蚤狀蚤屬于枝角目蚤科,真寬水蚤屬于哲水蚤目寬水蚤科,在我們的進(jìn)化樹(shù)中,這兩個(gè)物種形成了一個(gè)分支,這個(gè)分支與上述大進(jìn)化枝聚合在一起。最后,屬于蛛形綱絨螨目的染色大絨螨作為外群聚在進(jìn)化樹(shù)的最外面。
圖1 11 種節(jié)肢動(dòng)物物種系統(tǒng)發(fā)育樹(shù)Fig.1 Phylogenetic trees of 11 species
通過(guò)對(duì)葛氏長(zhǎng)臂蝦的Unigene 分析發(fā)現(xiàn),其長(zhǎng)度在1 000 bp 以上的有5114 條,占Unigene 總數(shù)的33.89%。而在其他蝦類的轉(zhuǎn)錄組中,例如曾地剛等[21]研究的的凡納濱對(duì)蝦,其過(guò)濾掉低質(zhì)量序列后,得到500 177 條clean reads,其最小長(zhǎng)度為41 bp,最大長(zhǎng)度為620 bp,進(jìn)行組裝拼接后獲得了20 225 條Unigene,長(zhǎng)度范圍從50~8 980 bp。其他海洋生物的轉(zhuǎn)錄組測(cè)序數(shù)據(jù)也可供我們參考,例如口蝦蛄Oratosquilla oratoria 轉(zhuǎn)錄組測(cè)序得到51 305 284 條clean reads,經(jīng)組裝后得到59 054 個(gè)Unigene,N50 為1 807 bp[22];大竹蟶Solen grandis 轉(zhuǎn)錄組去冗余組裝獲得190 856 條Unigenes,N50 為1 875 bp[23]。對(duì)比可知,葛氏長(zhǎng)臂蝦的轉(zhuǎn)錄組存在較多長(zhǎng)片段序列,優(yōu)于凡納濱對(duì)蝦的組裝片段長(zhǎng)度,與口蝦蛄、大竹蟶的拼接結(jié)果相似,同有較高的組裝質(zhì)量。而我們組裝的凡納濱對(duì)蝦結(jié)果優(yōu)于曾地剛等基于高通量測(cè)序的凡納濱對(duì)蝦的轉(zhuǎn)錄組組裝質(zhì)量[19],粉紅色蝦、長(zhǎng)毛對(duì)蝦的Unigene 數(shù)量較多但N50 值卻比較小,可能是包含了太多的短序列,故組裝質(zhì)量一般。
本研究中,選取的十足目的物種為棕蝦、粉紅色蝦、日本對(duì)蝦、長(zhǎng)毛對(duì)蝦、凡納濱對(duì)蝦和葛氏長(zhǎng)臂蝦。除了葛氏長(zhǎng)臂蝦為長(zhǎng)臂蝦科外,其余均為對(duì)蝦科。對(duì)蝦科可以進(jìn)一步劃分成多種對(duì)蝦亞屬,從我們的單拷貝同源基因構(gòu)建的系統(tǒng)發(fā)育樹(shù)可知,囊對(duì)蝦屬和濱對(duì)蝦屬聚為一支。而LAVERY,et al[24]認(rèn)為粉對(duì)蝦屬和濱對(duì)蝦屬聚為一支,他使用對(duì)蝦16S rRNA 以及對(duì)蝦16S rRNA 與COI 數(shù)據(jù)合集構(gòu)了兩種系統(tǒng)發(fā)育樹(shù),結(jié)果支持上述結(jié)果。LAVERY,et al 的這一研究結(jié)果與MAGGIONI,et al[25]的研究結(jié)果一致,他們僅根據(jù)16S rRNA基因序列就得出結(jié)論,即粉對(duì)蝦屬和濱對(duì)蝦屬都是很好的單系群。然而,這些結(jié)果與BALDWIN,et al[26]和GUSMAO,et al 給出的結(jié)果有顯著的差異。GUSMAO,et al 的COI 基因序列大部分來(lái)自BALDWIN,et al,按照BALDWIN,et al 在其論文中描述可見(jiàn),這種差異完全是由于一個(gè)物種的誤認(rèn),即粉對(duì)蝦屬的棕蝦被認(rèn)為是濱對(duì)蝦屬的白濱對(duì)蝦Litopenaeus setiferus 造成的。從這個(gè)問(wèn)題中我們可以看出對(duì)蝦種群的一些很明顯的特征,那就是雖然對(duì)蝦的整個(gè)種群有著物種多樣性,但各對(duì)蝦在外觀上總體上都是比較相似的,這使得很容易錯(cuò)認(rèn)種類。
甲殼綱是節(jié)肢動(dòng)物門中僅次于昆蟲(chóng)綱與蛛形綱的第三個(gè)大綱,現(xiàn)在分為8 個(gè)亞綱、33 目,8 個(gè)亞綱分別為頭甲亞綱、鰓足亞綱、唇甲亞綱、橈足亞綱、蔓足亞綱、鰓尾亞綱、介形亞綱以及軟甲亞綱等[27]。真寬水蚤屬于橈足亞綱哲水蚤目,蚤狀蚤屬于鰓足亞綱枝角目,在我們的系統(tǒng)發(fā)育樹(shù)中,這兩物種卻密切聚為一枝,這一現(xiàn)象不難解釋,雖然鰓足亞綱具有甲殼動(dòng)物中一些原始的特征并與橈足亞綱有所不同,但是它們均屬于切甲類,與軟甲亞綱的物種相比,它們顯然是親緣關(guān)系更近的一個(gè)類群。鼠婦屬于軟甲亞綱囊甲總目等足目,端足蟲(chóng)屬于軟甲亞綱囊甲總目端足目,系統(tǒng)發(fā)育樹(shù)顯示當(dāng)?shù)茸隳康氖髬D與十足目物種聚為一枝后,端足目的端足蟲(chóng)首先與鼠婦聚在一起,這與傳統(tǒng)形態(tài)學(xué)分類中等足目和端足目均屬于軟甲亞綱囊甲總目結(jié)果相吻合。本研究借助已構(gòu)建好的節(jié)肢動(dòng)物直系同源數(shù)據(jù)庫(kù)識(shí)別了較多的直系單拷貝基因,構(gòu)建了可信的系統(tǒng)發(fā)育樹(shù),建立了一種快速可靠的基于基因組和轉(zhuǎn)錄組篩選直系單拷貝基因方法,為海洋生物系統(tǒng)發(fā)育研究提供了獲得直系同源單拷貝基因的方法。