史東杰 胡金有 朱華 張欣 李榮妮 孫硯勝
摘要:為了獲得紅白錦鯉的基因組信息,篩選與其膚色相關(guān)的基因,采用Illumina高通量測(cè)序技術(shù)對(duì)紅白錦鯉皮膚組織的基因組進(jìn)行測(cè)序,獲得127.23 Gb clean data,Q20堿基比例在95.59%及以上,Q30堿基比例在90.81%及以上,GC含量為37.32%~42.38%,測(cè)序錯(cuò)誤率為0.07。與鯉魚(yú)基因組序列進(jìn)行比對(duì)的結(jié)果顯示,比對(duì)效率為 96.35%。研究共鑒定了1 048 576個(gè)SNPs(單核苷酸多態(tài)性),其中3.12百萬(wàn)~5.40百萬(wàn)個(gè)SNPs位于短reads比對(duì)不到的區(qū)域,其中變異位點(diǎn)位于外顯子區(qū)域的有579 778個(gè)SNPs。SNP位點(diǎn)分布于錦鯉的50條染色體上,不包含scaffold(染色體骨架)。經(jīng)ANNOVAR軟件進(jìn)行功能注釋?zhuān)兒项?lèi)型的SNPs數(shù)量是574 310個(gè),雜合類(lèi)型的SNPs數(shù)量是474 265個(gè)。SNPs位于基因間的數(shù)量最多,SNPs位于基因內(nèi)的外顯子區(qū)域的多態(tài)性最高。通過(guò)對(duì)8個(gè)重要候選基因注釋的理解,發(fā)現(xiàn)微管蛋白LOC109046532、LOC109049213這2個(gè)基因與色素顆粒運(yùn)輸有關(guān)。其中基因LOC109046532含有突變,而另1個(gè)基因LOC109049213則不含有任何突變。8個(gè)候選基因都含有外顯子SNP位點(diǎn),但是沒(méi)有發(fā)現(xiàn)終止密碼子突變。
關(guān)鍵詞:基因組重測(cè)序;錦鯉;體色基因;候選基因
中圖分類(lèi)號(hào): S917 ?文獻(xiàn)標(biāo)志碼: A
文章編號(hào):1002-1302(2019)16-0052-04
收稿日期:2018-05-03
基金項(xiàng)目:北京市財(cái)政局、北京市農(nóng)業(yè)農(nóng)村局觀賞魚(yú)產(chǎn)業(yè)技術(shù)體系北京市創(chuàng)新團(tuán)隊(duì)建設(shè)專(zhuān)項(xiàng)(編號(hào):BAIC03);北京市農(nóng)林科學(xué)院項(xiàng)目(編號(hào):KJCX20170101)。
作者簡(jiǎn)介:史東杰(1985—),女,北京人,碩士,副研究員,主要從事觀賞魚(yú)繁育及養(yǎng)殖技術(shù)的研究工作。
通信作者:朱 華,博士,研究員,主要從事水產(chǎn)繁殖、養(yǎng)殖以及水產(chǎn)養(yǎng)殖環(huán)境水質(zhì)調(diào)控方面的研究與推廣工作。
全基因組重測(cè)序是對(duì)已知參考基因組序列的物種進(jìn)行不同個(gè)體間的基因組測(cè)序,并在此基礎(chǔ)上對(duì)個(gè)體或群體進(jìn)脅迫行差異性分析[1]。近年來(lái),隨著測(cè)序技術(shù)的發(fā)展,人們已經(jīng)在眾多水產(chǎn)動(dòng)物中開(kāi)展了全基因組測(cè)序,目前,鯉魚(yú)(Cyprinus carpio)[2]、大黃魚(yú)(Larimichthys crocea)[3]、半滑舌鰨(Cynoglossus semilaevis)[4]、大西洋鮭(Salmo salar)[5]、鲇魚(yú)(Ictalurus punctatus)[6]、凡納濱對(duì)蝦(Litopenaeus vannamei)[7]和牡蠣(Ostrea gigas Thunberg)[8]等的基因組計(jì)劃已經(jīng)完成。2011年,由中國(guó)水產(chǎn)科學(xué)研究院和中國(guó)科學(xué)院北京基因組研究所共同實(shí)施的“鯉魚(yú)基因組計(jì)劃”成功完成了鯉魚(yú)的全基因組測(cè)序,并繪制了鯉魚(yú)基因組框架圖譜、基因組物理圖譜和高密度連鎖圖譜,進(jìn)而利用各方面的資源和數(shù)據(jù)實(shí)現(xiàn)了鯉魚(yú)基因組的基因識(shí)別定位和精確的功能注釋等。全基因組序列海量數(shù)據(jù)的獲得,為水產(chǎn)基因組輔助育種研究、優(yōu)良品種的快速培育提供了重要基礎(chǔ)。
錦鯉(Cyprinus carpio L.)是經(jīng)濟(jì)合作與發(fā)展組織(OECD)規(guī)定的5種試驗(yàn)生物之一,也是我國(guó)主養(yǎng)的觀賞魚(yú)類(lèi)。該魚(yú)隸屬于鯉形目(Cypriniformes)鯉科(Cyprinidae)鯉屬(Cyprinus)。錦鯉以其雄健的身軀、絢麗的色彩、華麗的斑紋、瀟灑的泳姿、溫順的習(xí)性而享譽(yù)世界,被人們稱為“水中活寶石”。該魚(yú)經(jīng)過(guò)幾百年的自然分化、基因突變、人工選育,形成了體色艷麗、斑紋豐富、鱗片迥異等十三大品系100余個(gè)品種,是目前鯉科魚(yú)類(lèi)種質(zhì)資源和基因組資源最豐富的魚(yú)類(lèi)。本研究通過(guò)對(duì)錦鯉進(jìn)行基因組重測(cè)序,與鯉魚(yú)進(jìn)行參考基因組比對(duì),以期找到大量單核苷酸多態(tài)性位點(diǎn)(SNP)、拷貝數(shù)變異(copy number variation,簡(jiǎn)稱CNV)、插入缺失(insertion/deletion,簡(jiǎn)稱InDel)、結(jié)構(gòu)變異(structure variation,簡(jiǎn)稱SV)等變異信息,分析錦鯉與鯉魚(yú)的遺傳多樣性,同時(shí)研究錦鯉是否有與馴化選擇相關(guān)的差異位點(diǎn),并在測(cè)序的基礎(chǔ)上,篩選出與膚色相關(guān)的候選基因。本研究不僅對(duì)錦鯉基因組輔助育種研究、體色斑紋定向培育提供了重要基礎(chǔ),而且對(duì)鯉科魚(yú)類(lèi)的基礎(chǔ)研究具有重大意義。
1 材料與方法
1.1 試驗(yàn)材料
試驗(yàn)用紅白錦鯉來(lái)自觀賞魚(yú)產(chǎn)業(yè)技術(shù)體系北京市創(chuàng)新團(tuán)隊(duì)通州綜合試驗(yàn)站。從生長(zhǎng)狀態(tài)良好的健康紅白錦鯉成魚(yú)上取適量皮膚組織樣品(設(shè)3個(gè)生物學(xué)重復(fù)),采用TIANamp Genomic DNA Kit(血液/細(xì)胞/組織基因組DNA提取試劑盒)進(jìn)行DNA提取,并通過(guò)瓊脂糖凝膠電泳、NanoDrop檢測(cè)和Qubit定量進(jìn)行DNA樣本的檢測(cè)。取樣前,采用MS-222(Sigma,USA)使試驗(yàn)魚(yú)麻醉后安樂(lè)死,并根據(jù)我國(guó)在科學(xué)技術(shù)方面應(yīng)用的法律法規(guī)人性化對(duì)待試驗(yàn)動(dòng)物。
1.2 試驗(yàn)方法
基因組DNA利用Covaris破碎儀隨機(jī)打斷成長(zhǎng)度為 350 bp 的片段,經(jīng)末端修復(fù)和加A尾后,片段兩端分別連接接頭制備DNA文庫(kù)。文庫(kù)構(gòu)建完成后,先使用Qubit 3.0進(jìn)行初步定量,隨后使用Qseq 100對(duì)文庫(kù)的insert size(插入片段大?。┻M(jìn)行檢測(cè),insert size符合預(yù)期后,使用Q-PCR方法對(duì)文庫(kù)的有效濃度(2 nmol/L)進(jìn)行準(zhǔn)確定量,以保證文庫(kù)的質(zhì)量。庫(kù)檢合格后,根據(jù)文庫(kù)的有效濃度及數(shù)據(jù)產(chǎn)出需求,進(jìn)行Illumina HiSeq X Ten PE150測(cè)序。PE150(Pairend 150 bp)指高通量雙端測(cè)序,每端各測(cè)150 bp。在構(gòu)建的小片段文庫(kù)中,insert DNA,即插入片段是高通量測(cè)序直接測(cè)序的單位。雙端測(cè)序是對(duì)插入片段的兩端進(jìn)行測(cè)序的方法,由于插入片段的長(zhǎng)度分布已知,雙端測(cè)序時(shí)不僅可以知道片段兩端的序列,也能知道這兩段序列之間的長(zhǎng)度,從而便于后續(xù)組裝和比對(duì)。
對(duì)測(cè)序獲得的reads數(shù)據(jù)進(jìn)行質(zhì)量過(guò)濾得到clean reads,用于后續(xù)生物信息學(xué)的分析。將clean reads與參考基因組進(jìn)行比對(duì),基于比對(duì)結(jié)果,使用samtools[9]進(jìn)行去重復(fù)(mark duplicates),使用GATK[10]進(jìn)行局部重比對(duì)(local realignment)、堿基質(zhì)量值校正(base recalibration)等處理,再使用GATK進(jìn)行單核苷酸多態(tài)性(single nucleotide polymorphism,簡(jiǎn)稱SNP)的小片段插入缺失(small InDel)的檢測(cè)、過(guò)濾,并得到最終的SNP和small InDel的位點(diǎn)集。通過(guò)BreakDancer[11]可以得到結(jié)構(gòu)變異(structure variation,簡(jiǎn)稱SV)數(shù)據(jù)集,其中一般以插入(insertion,簡(jiǎn)稱INS)和缺失(deletion,簡(jiǎn)稱DEL)為主。對(duì)SNP、InDel、SV、CNV的檢測(cè)結(jié)果進(jìn)行注釋?zhuān)瑥亩鴮?shí)現(xiàn)DNA水平差異基因挖掘和差異基因功能注釋等。
1.3 數(shù)據(jù)處理與分析
將下機(jī)數(shù)據(jù)進(jìn)行過(guò)濾,得到clean data,將其與指定的參考基因組進(jìn)行序列比對(duì),得到mapped data,進(jìn)行插入片段長(zhǎng)度檢驗(yàn)、隨機(jī)性檢驗(yàn)等文庫(kù)質(zhì)量評(píng)估;進(jìn)行可變剪接分析、新基因發(fā)掘和基因結(jié)構(gòu)優(yōu)化等結(jié)構(gòu)水平分析;根據(jù)基因在樣品中的表達(dá)量進(jìn)行差異表達(dá)分析、差異表達(dá)基因功能注釋和功能富集等表達(dá)水平分析,從而篩選出與體色相關(guān)的功能基因。
2 結(jié)果與分析
2.1 紅白錦鯉基因組重測(cè)序數(shù)據(jù)質(zhì)量評(píng)估
共完成3個(gè)樣品的基因組重測(cè)序分析,通過(guò)高通量測(cè)序法獲得127.23 Gb clean data,Q20堿基的百分比在95.59%及以上,Q30堿基的百分比在90.81%及以上,GC含量為 37.32%~42.38%,測(cè)序錯(cuò)誤率為0.07%。
2.2 紅白錦鯉基因組與參考基因組的比對(duì)
將紅白錦鯉皮膚樣品的clean reads與指定的參考基因組進(jìn)行序列比對(duì)(網(wǎng)址為ftp://ftp.ncbi.nlm.nih.gov/genomes),比對(duì)軟件選擇BWA,結(jié)果顯示,比對(duì)效率為9635%(表1)。
2.3 紅白錦鯉基因組的SNP檢測(cè)及注釋
由圖1、表2可知,利用重測(cè)序變異檢測(cè)方法得到的結(jié)果顯示,以鯉魚(yú)基因組為參考,過(guò)濾掉測(cè)序深度在10X以下的位點(diǎn),共鑒定了1 048 576個(gè)SNPs,其中312萬(wàn)~540萬(wàn)個(gè)SNPs位于短reads比對(duì)不到的區(qū)域,變異位點(diǎn)位于外顯子區(qū)域的有579 778個(gè)SNPs。SNP位點(diǎn)分布于錦鯉的50條染色體上,不包含scaffold(染色體骨架)。用ANNOVAR軟件進(jìn)行功能注釋?zhuān)Y(jié)果顯示,純合類(lèi)型的SNPs數(shù)量為574 310個(gè),雜合類(lèi)型的SNPs數(shù)量為474 265個(gè)。SNPs位于基因間的數(shù)量最多,SNPs位于基因內(nèi)外顯子區(qū)域的多態(tài)性最高,由此可以看出,與鯉魚(yú)相比,紅白錦鯉的變異位點(diǎn)很多,且分布在染色體的各個(gè)位置。
2.4 紅白錦鯉膚色相關(guān)基因注釋及SNP分析
通過(guò)對(duì)8個(gè)重要候選基因注釋的理解,發(fā)現(xiàn)微管蛋白的2個(gè)基因LOC109046532、LOC109049213與色素顆粒運(yùn)輸有關(guān)。其中基因LOC109046532含有突變,而另1個(gè)基因LOC109049213則不含有任何突變。8個(gè)候選基因都含有外顯子SNP位點(diǎn),但是沒(méi)有發(fā)現(xiàn)終止密碼子突變,詳見(jiàn)圖2、表3、表4。
3 討論
在全基因組測(cè)序過(guò)程中,基因組DNA的提取和檢測(cè)是關(guān)鍵。通常情況下,DNA的檢測(cè)主要是通過(guò)NanoDrop檢測(cè)DNA純度(D260 nm/D280 nm值),用Qubit對(duì)DNA濃度進(jìn)行精確定量[12]。其中D260 nm/D280 nm值在1.8~2.0之間,DNA濃度≥20 ng/μL,總量為1 μg以上的DNA樣品被用來(lái)建庫(kù)。在本試驗(yàn)中,紅白錦鯉皮膚樣品DNA的Q20堿基百分比在95.59%及以上,Q30堿基百分比在90.81%及以上,GC含量為37.32%~42.38%,測(cè)序錯(cuò)誤率為0.07%,可見(jiàn)樣品質(zhì)量滿足建庫(kù)測(cè)序要求,且總量滿足2次或者2次以上的建庫(kù)需要。對(duì)測(cè)序獲得的reads數(shù)據(jù)進(jìn)行質(zhì)量過(guò)濾得到clean reads,用于后續(xù)生物信息學(xué)的分析。將clean reads與參考基因組進(jìn)行比對(duì),基于比對(duì)結(jié)果,使用samtools[1]進(jìn)行去重復(fù)(mark duplicates),用GATK[2]進(jìn)行局部重比對(duì)、堿基質(zhì)量值校正等處理,再使用GATK進(jìn)行單核苷酸多態(tài)性的小片段插入缺失(small INDEL)的檢測(cè)、過(guò)濾,并得到最終的SNP和Small INDEL的位點(diǎn)集。通過(guò)BreakDancer[3]可得到結(jié)構(gòu)變異(structure variation,簡(jiǎn)稱SV)數(shù)據(jù)集,其中一般以插入和缺失為主。并對(duì)SNP的檢測(cè)結(jié)果進(jìn)行注釋?zhuān)瑢?shí)現(xiàn)DNA水平差異基因的挖掘和篩選等。利用基因組比對(duì)軟件BWA[1],將過(guò)濾后的clean reads比對(duì)到參考基因組上,統(tǒng)計(jì)比對(duì)結(jié)果。對(duì)于重測(cè)序分析而言,比對(duì)率以及覆蓋度指標(biāo)能反映樣本、建庫(kù)及測(cè)序以及參考序列等的質(zhì)量。在本試驗(yàn)中,將clean reads與鯉魚(yú)參考基因組序列進(jìn)行比對(duì),結(jié)果顯示,mapping率達(dá)到96.3%,說(shuō)明測(cè)序樣本與鯉魚(yú)參考基因組的相似度很高。
SNP檢測(cè)主要使用GATK軟件工具包[2]。根據(jù)clean reads在參考基因組的定位結(jié)果,使用SAMtools[3]進(jìn)行去重復(fù)(mark duplicates),使用GATK進(jìn)行局部重比對(duì)、堿基質(zhì)量值校正等預(yù)處理,以保證檢測(cè)得到的SNP的準(zhǔn)確性,再使用GATK進(jìn)行單核苷酸多態(tài)性的檢測(cè)、過(guò)濾,并得到最終的SNP位點(diǎn)集。SNP是通過(guò)ANNOVAR軟件進(jìn)行注釋的。SNP分布圖通過(guò)R語(yǔ)言ggplot2包進(jìn)行繪制展示。在本試驗(yàn)中,將錦鯉測(cè)序數(shù)據(jù)比對(duì)到參考基因組上,以分析SNP位點(diǎn)的分布情況,為了使SNP連續(xù)顯示,過(guò)濾去除了測(cè)序深度在10X以下的位點(diǎn),共鑒定了1 048 576個(gè)SNPs,其中3.12百萬(wàn)~5.40百萬(wàn)個(gè)SNPs位于短reads比對(duì)不到的區(qū)域,其中變異位點(diǎn)位于外顯子區(qū)域的有579 778個(gè)SNPs。此外,統(tǒng)計(jì)結(jié)果顯示,SNPs位于基因間的數(shù)量最多,SNPs位于基因內(nèi)的外顯子區(qū)域的多態(tài)性最高,由此可以看出,與鯉魚(yú)相比,紅白錦鯉的變異位點(diǎn)很多,且分布在染色體的各個(gè)位置。此外,沒(méi)有發(fā)現(xiàn)外顯子SNP位點(diǎn)含有終止密碼子突變,因此SNP位點(diǎn)并沒(méi)有影響基因的正常編碼和表達(dá)??墒蔷湍壳鞍l(fā)現(xiàn)的SNP位點(diǎn)而言,由于鯉魚(yú)基因組缺乏相應(yīng)的SNP功能注釋信息,無(wú)法看出SNP位點(diǎn)會(huì)對(duì)相應(yīng)基因功能帶來(lái)何種變化,可能需要進(jìn)行進(jìn)一步的功能驗(yàn)證試驗(yàn)。
魚(yú)類(lèi)細(xì)胞形態(tài)變化、定向運(yùn)動(dòng)、胞內(nèi)物質(zhì)(如色素顆粒)與“器官”的移遷(有絲分裂、減數(shù)分裂中的染色體極向移動(dòng))都與微管蛋白的聚合與解聚相關(guān)[13]。微管是由微管蛋白亞基組裝而成的,每個(gè)微管蛋白亞基都是由2個(gè)非常相似的球狀蛋白(α-微管蛋白和β-微管蛋白)結(jié)合而成的異二聚體,這種α-β二聚體是微管組裝的基本結(jié)構(gòu)單位[14]。魚(yú)類(lèi)體色的重要調(diào)控機(jī)制之一是通過(guò)微管蛋白對(duì)色素顆粒的靶向運(yùn)輸[15]。在本試驗(yàn)中,1、5號(hào)基因?yàn)槲⒐艿鞍谆?,與色素顆粒運(yùn)輸有關(guān)。鯉魚(yú)基因組gff的基因信息全部是由美國(guó)國(guó)立生物技術(shù)信息中心(NCBI)網(wǎng)站上Gnomon預(yù)測(cè)軟件進(jìn)行預(yù)測(cè)的結(jié)果,因此該基因組并沒(méi)有完整、真實(shí)的數(shù)據(jù)來(lái)進(jìn)行支撐。因此,由BLAST得到的這8個(gè)候選基因的名稱都是以其在染色體上的位置進(jìn)行命名的,至于其功能也是由預(yù)測(cè)軟件進(jìn)行功能注釋的。
參考文獻(xiàn):
[1]Altshuler D,Pollara V J,Cowles C R,et al. An SNP map of the human genome generated by reduced representation shotgun sequencing[J]. Nature,2000,407(6803):513-516.
[2]水 科. 鯉魚(yú)全基因組序列圖譜繪制完成[N]. 中國(guó)漁業(yè)報(bào),2014-10-13(A03).
[3]陳小明,李佳凱,王志勇,等. 基于簡(jiǎn)化基因組測(cè)序的大黃魚(yú)耐高溫性狀全基因組關(guān)聯(lián)分析[J]. 水生生物學(xué)報(bào),2017,41(4):735-740.
[4]劉 峰. 半滑舌鰨經(jīng)濟(jì)性狀的遺傳評(píng)估及基因組選擇初步研究[D]. 上海:上海海洋大學(xué),2015:37-40.
[5]Davidson W S,Koop B F. ICSASG international collaboration. Sequencing the Atlantic salmon (Salmo salar) genome the old fashioned way[R]. Plant & Animal Genomes XIX Conference,2011,San Diego,CA,USA:33-41.
[6]Liu J. Strategies for efficient assembly and annotation of the catfish whole genome sequence[R]. Plant & Animal Genomes XIX Conference,2011,San Diego,CA,USA:49-53.
[7]張曉軍. 中國(guó)甲殼動(dòng)物學(xué)會(huì)第十一屆年會(huì)暨學(xué)術(shù)研討會(huì)論文摘要集[C]//中國(guó)海洋湖沼學(xué)會(huì)甲殼動(dòng)物學(xué)分會(huì),中國(guó)動(dòng)物學(xué)會(huì)甲殼動(dòng)物學(xué)分會(huì),2011:18-19.
[8]Zhang G F,Guo X M,Li L,et al. The oyster genome project:an update[C]// Ninth International Marine Biotechnology Conference. Qingdao,China,2010:371-379.
[9]Li H,Durbin R. Fast and accurate short read alignment with Burrows-Wheeler transform[J]. Bioinformatics,2009,25(14):1754-1760.
[10]McKenna A,Hanna M,Banks E,et al. The genome analysis toolkit:a MapReduce framework for analyzing next-generation DNA sequencing data[J]. Genome Research,2010,20(9):1297-1303.
[11]Wang K,Li M,Hakonarson H. ANNOVAR:functional annotation of genetic variants from high-throughput sequencing data[J]. Nucleic Acids Research,2010,38(16):e164.
[12]莫惠棟,顧世梁. 基因組長(zhǎng)度的估計(jì)方法[J]. 科學(xué)通報(bào),2000,45(13):1414-1419.
[13]尹云厚. 中藥復(fù)方制劑對(duì)缺氧大鼠微管蛋白和驅(qū)動(dòng)蛋白表達(dá)影響的研究[D]. 長(zhǎng)春:中國(guó)人民解放軍軍需大學(xué),2003:156-158.
[14]Hirokawa N,Takemura R. Kinesin superfamily proteins and their various functions and dynamics[J]. Experimental Cell Research,2004,301(1):50-59.
[15]薛繼鵬. 三聚氰胺、氧化魚(yú)油和脂肪對(duì)瓦氏黃顙魚(yú)生長(zhǎng)和體色的影響[D]. 青島:中國(guó)海洋大學(xué),2011:125-128.