陳 凱 方成池 吳志剛 熊 凡 俞 丹 崔永德 張 琪 王寶強 姜傳奇 宋立榮 王洪鑄 劉煥章 陳曉飛 凌海波 蔡俊雄 李 濤 何舜平 繆 煒 熊 杰 曾宏輝
(1. 中國科學(xué)院水生生物研究所, 武漢 430072; 2. 湖北省生態(tài)環(huán)境科學(xué)研究院, 武漢 430072)
人類活動和氣候變化造成了水生態(tài)系統(tǒng)受損、水生生物多樣性衰退、物種組成改變等負面影響[1—5]。開展全面、準確的水生生物多樣性調(diào)查是建立水生態(tài)評估方法并開展生物多樣性保護的基礎(chǔ)[6]。重要的水生生物包括魚類、水生植物、底棲動物、浮游動物和浮游植物等[7—9]。當(dāng)前, 水生生物調(diào)查主要是通過形態(tài)鑒定這一手段。然而, 這一方法存在諸多缺陷, 包括成本高、耗時、對從業(yè)人員專業(yè)水平要求高及方法難以標準化等[10]。環(huán)境DNA(eDNA)技術(shù)的產(chǎn)生則彌補了上述形態(tài)鑒定方法的不足, 是一種生態(tài)和生物多樣性監(jiān)測的新手段, 也是當(dāng)前的前沿?zé)狳c技術(shù)[6,11—15]。eDNA技術(shù)通過采集水樣, 富集并提取DNA, 進行建庫和高通量測序, 最后通過將測序序列與數(shù)據(jù)庫序列比對獲得物種注釋信息[15]。盡管eDNA技術(shù)在過去10來年中被廣泛應(yīng)用, 但是用于物種鑒定的數(shù)據(jù)庫各式各樣, 并存在分類標準不統(tǒng)一、分類錯誤和覆蓋度不高等問題[16], 這些問題直接影響了應(yīng)用eDNA技術(shù)調(diào)查水生生物多樣性的準確性, 從而制約了eDNA技術(shù)的推廣, 因此亟待建立準確的、綜合性的水生生物eDNA數(shù)據(jù)庫。
針對eDNA參考序列數(shù)據(jù)分散和整合度差, 且缺乏我國各類水環(huán)境水生生物eDNA參考序列庫的問題, 我們通過梳理公共數(shù)據(jù)庫中eDNA數(shù)據(jù)庫的序列信息、Meta信息和分類信息, 同時整合自有的大量水生生物eDNA參考序列, 設(shè)計了eDNA數(shù)據(jù)的收錄標準和存儲格式, 矯正了部分數(shù)據(jù)的分類錯誤,進而構(gòu)建了水生生物eDNA數(shù)據(jù)庫——AeDNA(http://aedna.ihb.ac.cn/)。AeDNA是中國首個綜合性的水生生物eDNA數(shù)據(jù)庫, 將大大促進eDNA技術(shù)在水生生物調(diào)查領(lǐng)域的應(yīng)用。
數(shù)據(jù)來源包括公共數(shù)據(jù)庫和AeDNA團隊貢獻的序列。公共數(shù)據(jù)庫包括NCBI(https://www.ncbi.nlm.nih.gov/)、BOLD(http://www.boldsystems.org/)、SILVA(https://www.arb-silva.de/)和MitoFish(http://mitofish.aori.u-tokyo.ac.jp/download.html)。Ae-DNA團隊貢獻的序列主要有各團隊自行鑒定和測序的各類水生生物條形碼序列數(shù)據(jù)。
數(shù)據(jù)處理包括分類信息矯正和數(shù)據(jù)格式標準化。AeDNA數(shù)據(jù)庫的分類信息以NCBI taxonomy為基礎(chǔ), 并輔以人工矯正。首先通過NCBI taxid構(gòu)建NCBI全部生物類群分類學(xué)數(shù)據(jù)庫, 分類系統(tǒng)以標準的界、門、綱、目、科、屬、種共7個分類層級進行展示, 然后將收錄序列的物種名稱與物種庫進行匹配, 繼而得到序列的標準分類信息。最后將計算得到的標準分類信息進行人工校正。數(shù)據(jù)格式標準化包括制定標準Meta信息收集表, Meta信息(Meta-information)是指與序列相關(guān)的基礎(chǔ)信息, 包括序列名稱、分類信息、序列類型、采樣位置(經(jīng)緯度)、樣品采集地生境、數(shù)據(jù)來源信息和描述信息。標準化格式制定后采用自行編寫的腳本進行統(tǒng)一匯編, 并且統(tǒng)一自動化重命名。
本數(shù)據(jù)庫基于CentOS 8系統(tǒng), React與TypeScript用于網(wǎng)頁前端頁面展示, Django用于網(wǎng)頁后端功能模塊開發(fā), Python用于文本操作和邏輯運行, MongoDB用于數(shù)據(jù)管理。
AeDNA主體結(jié)構(gòu)包括6部分: 主頁、DNA條形碼、基因組、分析平臺、數(shù)據(jù)提交和關(guān)于我們(圖1)。數(shù)據(jù)資源包括收錄的序列、分類學(xué)數(shù)據(jù)、序列相關(guān)的Meta信息及將序列構(gòu)建成用于同源分析的索引。數(shù)據(jù)存儲包括MongoDB和BLAST database, 其中MongoDB用于網(wǎng)頁數(shù)據(jù)原始數(shù)據(jù)展現(xiàn)和Meta信息存儲; BLAST database用于存儲同源分析的索引序列。分析工具包括數(shù)據(jù)展示、數(shù)據(jù)提交和分析平臺。主要功能包括搜索功能、數(shù)據(jù)統(tǒng)計功能、分析功能和數(shù)據(jù)更新功能。
圖1 AeDNA數(shù)據(jù)庫網(wǎng)站構(gòu)架示意圖Fig. 1 Web interface and framework of AeDNA database
搜索功能用戶可以通過分類信息在AeDNA數(shù)據(jù)庫搜索數(shù)據(jù), 也可以結(jié)合通過分類信息、序列名稱、樣品采集地(國家/地區(qū))和生境進行搜索。通過搜索用戶可以獲得目標序列及與目標序列有關(guān)的分類學(xué)信息和Meta統(tǒng)計信息。
數(shù)據(jù)統(tǒng)計功能包括序列統(tǒng)計和Meta信息統(tǒng)計。序列統(tǒng)計呈現(xiàn)了各分類階元的條形碼或基因組數(shù)量; Meta信息統(tǒng)計呈現(xiàn)了各分類階元條形碼序列類型和與其相關(guān)的樣品分布數(shù)據(jù), 如分布國家統(tǒng)計, 地理坐標呈現(xiàn)。
分析功能數(shù)據(jù)庫支持用戶提交序列并通過BLAST程序搜索目標序列在AeDNA數(shù)據(jù)庫中的同源序列, 進一步基于搜索到的同源序列構(gòu)建系統(tǒng)發(fā)育分析(圖1)。BLAST默認程序為BLASTN, 默認比對序列為DNA條形碼數(shù)據(jù)庫的所有類群、所有序列, 默認比對E值為0.1。用戶可以自行選擇比對程序、比對序列類型、比對E值和其他參數(shù)。系統(tǒng)發(fā)育分析中多序列比對工具為Muscle v5, 系統(tǒng)樹算法為TreeBeST, 可視化工具為MSAView。
數(shù)據(jù)更新功能數(shù)據(jù)庫提交分為單項提交和批量提交兩種不同的模式(圖1)。單項提交允許用戶將eDNA數(shù)據(jù)逐條提交到AeDNA, 批量提交允許用戶通過填寫標準信息收集表格提交序列。提交的序列需要經(jīng)過AeDNA后臺審核, 審核通過的序列匯入AeDNA數(shù)據(jù)庫并反饋給用戶, 審核不通過的序列提示用戶再次按照要求提交。
AeDNA包含水生生物DNA條形碼和基因組數(shù)據(jù), 通過整合公共數(shù)據(jù)和AeDNA構(gòu)建團隊測定的條形碼數(shù)據(jù)構(gòu)建而成。數(shù)據(jù)庫集成了60余萬條序列, 其中數(shù)據(jù)庫構(gòu)建團隊貢獻了6萬余條, 以我國各類水體水生生物條形碼數(shù)據(jù)為特色。數(shù)據(jù)庫涉及的生物類型包括2萬余種魚類、1萬余種水生植物、1萬余種底棲動物、1萬余種浮游動物和1萬余種浮游植物(圖2)。
圖2 AeDNA數(shù)據(jù)總覽Fig. 2 Landscape of the data of AeDNA
DNA條形碼DNA條形碼是物種特有、能穩(wěn)定遺傳、可以作為身份標簽的一段DNA序列。每個物種具有多種條形碼序列, 本數(shù)據(jù)庫收錄多個物種多種條形碼序列, 包括18S、ITS、COI、12S、rbcL等38種條形碼數(shù)據(jù)。數(shù)據(jù)由AeDNA團隊通過檢索公用數(shù)據(jù)庫、單一物種條形碼測序、eDNA多物種批量測序和挖掘基因組獲得的條形碼序列組成。DNA條形碼數(shù)據(jù)將為水生生物鑒定、多樣性調(diào)查、保護種/入侵種監(jiān)測及研究提供參考。
數(shù)據(jù)庫包含23418種魚類、11750種水生植物、8817種底棲動物、10320種浮游動物和8953種浮游植物(圖3A)??傆?92758條DNA條形碼序列,其中魚類376201條、水生植物103227條、底棲動物11214條、浮游動物67689條、浮游植物34427條(圖3B)。不同生物類群收錄的條形碼序列有較大差異, 其中魚類以線粒體基因為主, 例如COI、12S等, 還有少量核糖體基因序列和基因組上其他基因序列(圖3C); 水生植物包含葉綠體和ITS序列(核糖體基因); (圖3D); 浮游動物包含以COI為代表的線粒體序列和以18S為代表的核糖體序列(圖3E);除藍藻以外的浮游植物則包含rbcL為代表的葉綠體序列、COI為代表的線粒體序列和18S為代表的核糖體序列(圖3F)。我們發(fā)現(xiàn)高等動植物DNA條形碼多采用進化速率更快的線粒體基因、葉綠體基因和ITS序列, 而浮游動植物除了上述基因外, 還采用更為保守的18S序列(真核藻類)或者16S序列(藍藻), 這與已有研究結(jié)果一致[17—19]。另外, 最新的研究表明以線粒體12S序列作為魚類鑒定的參考條形碼序列相較于COI等條形碼序列能鑒定更多的物種, 鑒定的結(jié)果更準確[19]。本數(shù)據(jù)庫收錄的12S序列5000余條, 后期還將持續(xù)進行增量更新。
圖3 DNA條形碼數(shù)據(jù)統(tǒng)計Fig. 3 Statistics of DNA barcodesA. 數(shù)據(jù)庫已收錄DNA條形碼的物種數(shù)量統(tǒng)計; B. DNA條形碼數(shù)量統(tǒng)計; C—F. 不同水生生物類群DNA條形碼類型統(tǒng)計[C、D、E、F和G分別代表魚類、水生植物、底棲動物、浮游動物和真核浮游植物(僅含真核藻類)]A. The number of species with DNA barcode in the database; B. Statistics of the number of DNA barcodes; C—F. Statistics of the types of DNA barcodes [C, D, E and F represent the DNA barcodes of the fish, plant, Zoobenthos, zooplankton and phytoplankton (only eukaryotic Algae, respectively)]
AeDNA構(gòu)建團隊貢獻了該數(shù)據(jù)庫中的6萬余條DNA條形碼序列, 其中魚類序列5.7萬余條, 水生植物序列500余條, 底棲動物200余條, 浮游動物和浮游植物序列1200余條; AeDNA團隊貢獻的條形碼數(shù)據(jù)具有完備的Meta信息, 除了條形碼類型信息外還包括樣品采集地點、生境類型、圖片、視頻等。從序列所在生境的分布圖可以看出這些序列主要來源于我國各類水體中水生生物, 具有鮮明的特色。樣品采集地除中國臺灣外的其他所有省份均有覆蓋(圖4), 以長江流域和青藏高原為特色。內(nèi)蒙古自治區(qū)、中國臺灣和新疆維吾爾自治區(qū)等沒有分布或分布較少, 未來需要加大采樣力度, 使之覆蓋更廣、更全。
圖4 AeDNA團隊貢獻的DNA條形碼序列地域分布圖Fig. 4 The distribution of DNA barcode sequences contributed by AeDNA team根據(jù)中華人民共和國自然資源部監(jiān)管的標準地圖編輯[審圖號為GS (2016) 1569]Edited based on a standard map supervised by the Ministry of Natural Resources of the People’s Republic of China [No. GS (2016) 1569]
基因組條形碼如上文所述, 每個物種具有多種條形碼序列, 不同類型的條形碼序列長度不同,序列保守性不同, 鑒定精度和解析度不一致, 因此,研究人員針對各類群物種鑒定所用的條形碼不一致。例如, 過去COI序列是魚類鑒定的金標準, 最近發(fā)現(xiàn)12S序列比COI鑒定精度高[19]; 用于大部分真核藻類鑒定的條形碼是18S、ITS、28S、tufA和rbcL等, 但甲藻和異鞭藻用COI, 輪藻則采用與很多高等植物類似的atpA/B、psbA/B等[18]; 藍藻(原核浮游植物)通常采用16S、ITS、rbcL和rpoC1等。原生動物的鑒定通常用18S和COI[17]。因此, 采用DNA條形碼進行物種鑒定缺乏統(tǒng)一標準。
基因組是指某一特定物種細胞內(nèi)的一整套遺傳物質(zhì), 是一個物種所有DNA序列信息的集合?;蚪M某種意義上說是一種 “超級條形碼”, 其鑒定精度和解析度將遠遠超過單獨使用某一個標記基因。當(dāng)前, 大量細胞器基因組和物種基因組的產(chǎn)生,使得基因組的數(shù)目到達了一定的量級, 因此, 利用基因組進行物種鑒定也變?yōu)榭尚小?/p>
本數(shù)據(jù)庫的基因組數(shù)據(jù)包含線粒體基因組、葉綠體基因組以及由“萬種魚基因組計劃”[20]和“萬種原生生物基因組計劃”[21]產(chǎn)出的全基因組測序數(shù)據(jù)。數(shù)據(jù)庫共搜集了5872條細胞器基因組序列, 其中線粒體基因組共3377條, 魚類3118條, 水生植物18條, 浮游動物49條, 浮游植物192條; 葉綠體基因組共2495條, 水生植物1568條, 浮游植物927條(圖5)。后期數(shù)據(jù)庫將大力整合基因組數(shù)據(jù), 尤其是旗艦物種和入侵物種基因組數(shù)據(jù), 同時結(jié)合基因組測序和通過大規(guī)模水環(huán)境樣品采集、測序, 從宏基因組數(shù)據(jù)挖掘環(huán)境基因組來補充未測定基因組的空白。此外, AeDNA進一步將開發(fā)基于基因組水平進行物種鑒定和生物多樣性研究的新方法、新標準。
圖5 AeDNA數(shù)據(jù)庫中基因組數(shù)據(jù)的統(tǒng)計Fig. 5 Statistics of genomes in AeDNA database
AeDNA為水生生物調(diào)查提供參考序列數(shù)據(jù)庫,整合了現(xiàn)有DNA條形碼和基因組數(shù)據(jù), 將促進eDNA技術(shù)在水生生物調(diào)查中的應(yīng)用。當(dāng)前, 數(shù)據(jù)庫為第一版, 未來將進行持續(xù)的數(shù)據(jù)更新, 同時整合更多分析功能, 包括: (1)數(shù)據(jù)庫將新增兩棲動物、藍藻等類群水生生物eDNA數(shù)據(jù), 將繼續(xù)收集、匯編國內(nèi)同行測定的水生生物條形碼數(shù)據(jù)和通過大規(guī)模采集樣品、測序來完善中國境內(nèi)條形碼數(shù)據(jù)庫, 構(gòu)建更具綜合性的水生生物eDNA數(shù)據(jù)庫。樣品來源將涉及中國大部分水域, 將實現(xiàn)對國內(nèi)水生生物eDNA數(shù)據(jù)的全覆蓋。數(shù)據(jù)庫將收集水生生物圖片、視頻信息, 將展現(xiàn)序列、分類信息、影像和Meta信息等數(shù)據(jù)。(2)除了實現(xiàn)對數(shù)據(jù)增量更新的同時, 本數(shù)據(jù)庫將著力于eDNA數(shù)據(jù)質(zhì)量的提升。包括: 基于NCBI分類學(xué)體系的分類系統(tǒng)矯正; 基于聚類分析去除冗余序列和錯誤序列; 基于HMM模型對序列進行修剪等。(3)數(shù)據(jù)庫已建設(shè)有序列比對和系統(tǒng)發(fā)育樹構(gòu)建功能, 后續(xù)將新增: 多樣性分析功能, 如α和β多樣性等; 入侵種和保護種監(jiān)測功能; 各類水生態(tài)指標分析功能和基于eDNA的水生生物評價功能。(4)數(shù)據(jù)庫將建立用戶管理系統(tǒng), 即用戶可以在AeDNA數(shù)據(jù)庫創(chuàng)建賬號, 實現(xiàn)對個人數(shù)據(jù)和分析任務(wù)的長期管理??傮w來說,AeDNA將由專業(yè)團隊進行長期維護, 持續(xù)迭代, 旨在實現(xiàn)水生生物的調(diào)查、監(jiān)測、追溯和預(yù)警的綜合能力。
致謝:
AeDNA網(wǎng)站首頁視頻由中國科學(xué)院水生生物研究所熊雄博士和王浩驊提供素材并進行剪輯。網(wǎng)頁中各類水生生物照片由中國科學(xué)院水生生物研究所谷思雨、繆榮麗、魏朝軍、王府臣、高欣欣、潘婷婷、王慧君、邴厚驊和王紅霞提供。中國科學(xué)院水生生物研究所陳佳在網(wǎng)站網(wǎng)絡(luò)安全管理和維護方面提供了幫助。網(wǎng)站構(gòu)建得到了中國科學(xué)院超級計算環(huán)境武漢分中心的支持。