王 暉, 高妍夏, 孫志超, 王 敬, 李季生, 李 娜, 黃 露, 賈漫麗, 謝 巖
(承德醫(yī)學(xué)院蠶業(yè)研究所/河北省高校特產(chǎn)蠶桑應(yīng)用技術(shù)研發(fā)中心,河北承德 067000)
家蠶是一種重要的經(jīng)濟(jì)昆蟲(chóng),同時(shí)也是鱗翅目的模式物種。許多古籍記載、現(xiàn)代分子生物學(xué)研究均表明,家蠶起源于我國(guó),并逐漸擴(kuò)散到亞洲、歐洲等地,經(jīng)過(guò)不斷地馴化、育種,形成許多品種、品系。不同品種的家蠶體色、個(gè)體大小、蠶繭顏色等均存在一定的差異。
分子標(biāo)記在DNA水平表現(xiàn)為多態(tài)性,在動(dòng)物遺傳方面發(fā)揮著重要作用。常用的分子標(biāo)記有擴(kuò)增片段長(zhǎng)度多態(tài)性 (amplified fragment length polymorphism,AFLP)、隨機(jī)擴(kuò)增多態(tài)性DNA標(biāo)記(random amplified polymorphic DNA,RAPD)、簡(jiǎn)單重復(fù)序列(simple sequence repeat,SSR)、單核苷酸多態(tài)性(single nucleotide polymorphism,SNP)、插入缺失(insertion-deletion,Indel)等。SNP是DNA水平的單個(gè)核苷酸的改變而產(chǎn)生的多態(tài)性;Indel則是DNA水平插入或刪除從1 bp至數(shù)百bp長(zhǎng)度的片段而形成的基因多態(tài)性。劉偉等挖掘梯棱羊肚菌全基因組的SNP/Indel位點(diǎn),選擇單胞菌株群體,初步構(gòu)建Indel標(biāo)記的遺傳連鎖圖譜。SNP和Indel位點(diǎn)可以鑒定國(guó)內(nèi)不同優(yōu)良地方雞種基因的同源性。對(duì)于家蠶品種分子水平的鑒定,前期已經(jīng)有了一定的研究報(bào)道。通過(guò)RAPD、SSR分子標(biāo)記初步判定一些家蠶品種之間的多態(tài)性和親緣關(guān)系。針對(duì)家蠶抗血液型膿病新品種混亂的情況,錢荷英等開(kāi)發(fā)了50個(gè)SNP分子標(biāo)記,初步判斷這些SNP分子標(biāo)記可作為鑒定抗病品種的分子標(biāo)記。本研究對(duì)河北省常用家蠶品種的中腸、脂肪體組織進(jìn)行轉(zhuǎn)錄組測(cè)序,挖掘基因中的SNP/Indel位點(diǎn),并對(duì)其分布規(guī)律進(jìn)行分析,以期進(jìn)一步豐富家蠶的SNP/Indel位點(diǎn)數(shù)據(jù)庫(kù),為家蠶優(yōu)良品種選育、親緣關(guān)系鑒定等提供參考。
家蠶白色繭品種東肥(DF,下同)、米色繭品種彩4(C4,下同)幼蟲(chóng)于2019年6月飼養(yǎng)于承德醫(yī)學(xué)院蠶業(yè)所養(yǎng)蠶室,環(huán)境條件:溫度(25±2) ℃,濕度60%~70%,自然光周期。7月份時(shí),解剖5齡成熟期生長(zhǎng)一致家蠶蠶體,分離收集DF、C4的中腸(MG,下同)與脂肪體組織(FB,下同),每個(gè)樣本3個(gè)生物學(xué)重復(fù),液氮速凍,轉(zhuǎn)錄組測(cè)序工作由北京諾禾致源生物科技有限公司完成。
使用RNA提取試劑盒提取總RNA,瓊脂糖凝膠電泳、Nano Photometer 分光光度計(jì)檢測(cè)RNA的純度,Agilent 2100 生物分析儀檢測(cè)RNA的完整性。高通量測(cè)序儀測(cè)得的圖像數(shù)據(jù)經(jīng) CASAVA 堿基識(shí)別轉(zhuǎn)化為序列數(shù)據(jù)(reads),去除低質(zhì)量reads后獲得clean data。使用 GATK(3.7)軟件對(duì)樣本數(shù)據(jù)進(jìn)行變異位點(diǎn)分析,并用 SnpEff(4.3q)軟件對(duì)變異位點(diǎn)進(jìn)行注釋。通過(guò) clusterProfiler(3.4.4)軟件實(shí)現(xiàn)差異表達(dá)基因的 GO富集分析,分析KEGG 通路中差異表達(dá)基因的統(tǒng)計(jì)富集。使用Origin 2021b軟件作圖。
由表1可知,2個(gè)品種家蠶的脂肪體、中腸經(jīng)轉(zhuǎn)錄組測(cè)序后共組裝得到17 915條unigene序列,總長(zhǎng)度為20 545 285 bp,C4的中腸GC含量范圍為50.81%~51.29%,其他組織樣品的GC含量范圍為47.39%~49.81%;Q20均大于97%,Q30均大于92%,轉(zhuǎn)錄組數(shù)據(jù)可以用于后續(xù)分析。
表1 2個(gè)家蠶品種脂肪體、中腸轉(zhuǎn)錄組測(cè)序質(zhì)量統(tǒng)計(jì)
在2個(gè)品種家蠶中,脂肪體組織的SNP位點(diǎn)數(shù)目都小于中腸。C4脂肪體平均檢索到69 756個(gè)SNP位點(diǎn),中腸平均檢索到99 490個(gè)SNP位點(diǎn);DF脂肪體平均檢索到64 676個(gè)SNP位點(diǎn),中腸平均檢索到99 910個(gè)SNP位點(diǎn)(圖1-A)。C4脂肪體、中腸每個(gè)unigene上的平均SNP數(shù)量分別為5.84、7.69個(gè);DF脂肪體、中腸每個(gè)unigene上的平均SNP數(shù)量分別為5.31、7.31個(gè)。
C4脂肪體SNP位點(diǎn)數(shù)量高于DF脂肪體;但是C4中腸SNP位點(diǎn)數(shù)量低于DF中腸。所有組織樣品的SNP位點(diǎn)類型,轉(zhuǎn)換平均數(shù)目均高于顛換。C4脂肪體轉(zhuǎn)換、顛換平均數(shù)目分別為45 302、24 454個(gè);中腸轉(zhuǎn)換、顛換平均數(shù)目分別為64 003、35 486個(gè)。DF脂肪體轉(zhuǎn)換、顛換平均數(shù)目分別為41 494、23 182個(gè);中腸轉(zhuǎn)換、顛換平均數(shù)目分別為62 920、36 990個(gè)。A/G、C/T 2種轉(zhuǎn)換類型在所有SNP類型中所占比例最高,顛換類型中則是A/T占比最高(圖1-B)。
在2個(gè)品種家蠶中,脂肪體組織的Indel位點(diǎn)數(shù)目都小于中腸。C4脂肪體、中腸每個(gè)unigene上的平均Indel數(shù)量分別為0.34、0.50個(gè);DF脂肪體、中腸每個(gè)unigene上的平均Indel數(shù)量分別為0.33、0.56個(gè)(圖2)。在C4脂肪體平均檢測(cè)到4 081個(gè)Indel位點(diǎn),包括2 373個(gè)插入突變和1 708個(gè)缺失突變。堿基插入和缺失突變的范圍分別為1~24、1~67 bp,其中單核苷酸插入、缺失分別占所有Indel位點(diǎn)數(shù)目的35.78%、21.95%。C4中腸平均檢測(cè)到6 452個(gè)Indel位點(diǎn),包括3 797個(gè)插入突變和2 655個(gè)缺失突變。堿基插入和缺失突變的范圍分別為 1~60、1~179 bp,其中單核苷酸插入、缺失分別占所有Indel位點(diǎn)數(shù)目的36.66%、22.41%。在DF脂肪體平均檢測(cè)到 4 082個(gè)Indel位點(diǎn),包括2 427個(gè)插入突變和1 655個(gè)缺失突變。堿基插入和缺失突變的范圍分別為1~21、1~108 bp,其中單核苷酸插入、缺失分別占所有Indel位點(diǎn)數(shù)目的38.99%、21.64%。DF中腸平均檢測(cè)到7 601個(gè)Indel位點(diǎn),包括4 566個(gè)插入突變和3 035個(gè)缺失突變。堿基插入和缺失突變的范圍分別為1~33、1~129 bp,其中單核苷酸插入、缺失分別占所有Indel位點(diǎn)數(shù)目的39.71%、21.43%(圖3-A、圖3-B)。
SNP/Indel位點(diǎn)在家蠶基因組上分布于8個(gè)區(qū)域,在下游區(qū)分布的位點(diǎn)數(shù)最多,占比為28.15%~30.11%;其次是外顯子、基因間隔區(qū)、上游區(qū),占比依次分別為25.80%~31.62%、23.18%~27.29%、12.11%~13.60%;占比最少的是供體剪接位點(diǎn)、受體剪接位點(diǎn),幾乎可忽略不計(jì)(圖4)。
通過(guò)對(duì)含有SNP/Indel位點(diǎn)的基因進(jìn)行GO功能注釋,可分為三大類,即生物學(xué)過(guò)程、分子功能、細(xì)胞組分。富集在生物學(xué)過(guò)程的通路主要有代謝過(guò)程、細(xì)胞過(guò)程、有機(jī)物代謝過(guò)程、主要代謝過(guò)程等(圖5-A)。富集在分子功能的通路主要有膜、細(xì)胞、細(xì)胞組分、細(xì)胞內(nèi)等(圖5-B)。富集在細(xì)胞組分的通路主要有腺嘌呤核苷酸結(jié)合、活躍的跨膜轉(zhuǎn)運(yùn)蛋白活性、肌動(dòng)蛋白結(jié)合等(圖5-C)。
含有SNP/Indel位點(diǎn)的基因進(jìn)行KEGG功能注釋后,發(fā)現(xiàn)大多數(shù)基因主要富集在核糖體、RNA轉(zhuǎn)運(yùn)、氧化磷酸化、剪接體、內(nèi)吞作用、內(nèi)質(zhì)網(wǎng)蛋白質(zhì)加工等與物質(zhì)代謝、能量代謝緊密相關(guān)的代謝通路(圖6),這也與上述GO注釋的結(jié)果相一致。
本研究通過(guò)2個(gè)品種家蠶的中腸和脂肪體的轉(zhuǎn)錄組測(cè)序發(fā)現(xiàn),2個(gè)家蠶品種的脂肪體均檢索到6萬(wàn)多個(gè)SNP位點(diǎn),4 000多個(gè)Indel位點(diǎn);中腸則存在9萬(wàn)多個(gè)SNP位點(diǎn),6 000多個(gè)Indel位點(diǎn)。余東亮等比較家蠶品種P50與C108后部絲腺的SNP/Indel位點(diǎn),共發(fā)現(xiàn)1 584個(gè)SNP位點(diǎn),2 776個(gè)Indel位點(diǎn),結(jié)合本研究結(jié)果,推測(cè)SNP/Indel位點(diǎn)的多少主要與組織類型、品種有關(guān)。C4中腸SNP、Indel的出現(xiàn)頻率分別為1/207、1/3 184 bp,脂肪體SNP、Indel出現(xiàn)頻率分別為1/295、1/5 034 bp;DF中腸SNP、Indel的出現(xiàn)頻率分別為1/206、1/2 703 bp,脂肪體SNP、Indel出現(xiàn)頻率分別為1/318、1/5 033 bp。東海帶魚(yú)肝臟轉(zhuǎn)錄組序列平均每76.8 bp出現(xiàn)1個(gè)SNP;人參果則是約103 bp出現(xiàn)1個(gè)SNP位點(diǎn)。波紋唇魚(yú)肝胰臟、食道、前腸、后腸和直腸轉(zhuǎn)錄組unigene中SNP的發(fā)生頻率為1/490 bp;椰心葉甲嚙小峰轉(zhuǎn)錄組數(shù)據(jù)中平均每1 000 bp出現(xiàn)1個(gè)SNP位點(diǎn);可見(jiàn)SNP位點(diǎn)的出現(xiàn)頻率在不同物種之間差異較大。家蠶中腸和脂肪體SNP位點(diǎn)則以C/T、A/G等2種類型為主,其余4種類型數(shù)量相近,這與其他物種的研究報(bào)道一致。SNP的轉(zhuǎn)換與顛換類型之比為1.69~1.89之間,遠(yuǎn)大于理論值0.5,這種現(xiàn)象被稱為轉(zhuǎn)換偏差,其在許多物種中廣泛存在,這可能與物種適應(yīng)進(jìn)化有關(guān)。
從家蠶中腸、脂肪體轉(zhuǎn)錄組數(shù)據(jù)中篩選到了SNP/Indel位點(diǎn)信息,通過(guò)對(duì)包含有SNP/Indel位點(diǎn)的uningene進(jìn)行GO、KEGG功能注釋,可以初步分析家蠶品種、個(gè)體、組織之間的差異代謝途徑和通路,從而可能將SNP/Indel位點(diǎn)與表型進(jìn)行關(guān)聯(lián),開(kāi)發(fā)出特定的分子標(biāo)記,將來(lái)進(jìn)一步為開(kāi)展分子標(biāo)記輔助家蠶育種研究、品種鑒定、親緣關(guān)系分析等奠定基礎(chǔ)。