錢 強(qiáng), 徐 園, 王亞恒, 周宇荀, 肖君華, 韓 琳, 鮑世民, 李 凱
(1. 東華大學(xué)化學(xué)化工與生物工程學(xué)院, 上海 201620;2. 上海市第十人民醫(yī)院, 上海 200072;3.中國科學(xué)院上海生命科學(xué)院, 上海 200031)
動物遺傳質(zhì)量對實驗結(jié)果有重要影響。近交系小鼠是醫(yī)學(xué)生物學(xué)研究中廣泛應(yīng)用的實驗動物, 其本身的質(zhì)量尤其是個體基因的純合性與不同個體遺傳一致性對實驗結(jié)果的可比性、可重復(fù)性和準(zhǔn)確性起著決定性作用。Taft 等[1]研究表明, 即便少量的遺傳污染也能造成結(jié)果重復(fù)性困擾, 故有必要確認(rèn)品系的遺傳背景以及是否發(fā)生基因突變和遺傳污染。
由于小鼠基因組中單核苷酸多態(tài)性(SNP)位點數(shù)量龐大,且比短串聯(lián)重復(fù)序列(STR)易于實現(xiàn)高通量基因分型,故國際上較知名的實驗動物公司均已使用SNP 分型技術(shù)進(jìn)行遺傳檢測。如2004 年美國 Jackson 實驗室篩選出28 個SNP 位點,用以鑒別48 種近交系小鼠[2],他們額外提供2 000 個SNP的芯片(http://jaxservices.jax.org /genome /snp.html)用于檢測與基因定位;Charles River 實驗室目前采用32個位點和384個位點的兩個SNP組合對小鼠進(jìn)行遺傳檢測(http://www.criver.com); Taconic 實驗室采用96 個位點的SNP 組合對小鼠進(jìn)行遺傳檢測;Harlan 實驗室采用48 個位點的SNP 組合對小鼠進(jìn)行遺傳檢測??梢姡赟NP 小鼠遺傳質(zhì)量檢測方法逐漸成為國際通行標(biāo)準(zhǔn)。
基于多重PCR的SNP分型方案, 是一種高通量與高特異性的SNP分型方案[3]。本研究在PCR-LDR(連接酶檢測反應(yīng))技術(shù)的SNP分型方案被用于小鼠遺傳鑒定的基礎(chǔ)上[4],篩選出染色體上均勻分布的112 個SNP 位點,利用靶向建庫測序技術(shù),以期實現(xiàn)小鼠遺傳質(zhì)量檢測的高通量SNP 分型方案。
本實驗小鼠DNA 源于斯萊克實驗動物有限責(zé)任公司[SCXK(滬)2012-0002], 共有4 批小鼠樣本(4批樣本數(shù)量分別為16、43、6 和60; 有10 個近交系品系分別為C57BL/6、FVB、C3H/He、BALB/c、DBA/2、DBA/1、AKR、CBA、SJL/J、NOD)。動物實驗遵守《實驗動物管理條例》。收集這些小鼠尾組織,-20 ℃保存?zhèn)溆谩?/p>
PCR 儀(A-100),購自杭州朗基科學(xué)儀器有限公司; PCR 儀(Gene Amp PCR system 9600),購自美國Norwalk 公司; 電泳儀(JY600+),購自北京君意東方電泳設(shè)備有限公司; 全自動紫外與可見分析裝置(FR-200A)、生物電泳圖像分析系統(tǒng),均購自上海復(fù)日科技有限公司。PCR 引物(PAGE 純化)購自上海百力格生物技術(shù)有限公司; dNTP(promega)購自上海有漁生物工程有限公司; Taq酶體系和ddH2O屬于實驗室自制的。
從NCBI數(shù)據(jù)庫查找在小鼠品系間中存在較高多態(tài)性的SNP 位點,為了避免連鎖的可能性和提高分辨率,保證結(jié)果準(zhǔn)確可靠,位點篩選原則如下: (1)盡量選擇分布于不同染色體上,包括所有的常染色體與X 染色體,每條染色體所含SNP 最少為3 個,最多為8 個,Y 染色體因為雄性小鼠獨有,且多樣性極低,故未選; (2)盡量選擇品系間差異大的SNP 位點; 我們最終選擇了112 個SNP 位點(圖1)。
使用動物基因組DNA 快速提取試劑盒Tiangen(天根生化科技有限公司),從小鼠尾尖抽取全基因組DNA。吸取1 μL 抽提好的DNA,在1%瓊脂糖凝膠電泳中檢測其濃度,然后將所有的DNA 樣本標(biāo)化到濃度為30 ng/μL。-20 ℃儲存?zhèn)溆谩?/p>
圖1 112 個SNP 位點在染色體上的分布圖Figure 1 Distribution of 112 SNP loci on chromosomes
從NCBI數(shù)據(jù)庫下載含有112 個SNP基因位點的靶向區(qū)域的序列。為了獲得特異性PCR 產(chǎn)物,設(shè)計了含有靶序列和通用序列的嵌合特異性引物。PCR 反應(yīng)的產(chǎn)物大小在200~250 bp,引物長度為20~30 bp,熔解溫度(Tm)為55~65 ℃,GC 含量為20%~80%。為了區(qū)分不同的樣品, 我們設(shè)計了96 對含有索引序列和通用序列的條形碼引物(圖2)。最后使用Illumina 公司的P5 與P7 引物,統(tǒng)一建庫。
圖2 多重PCR 的設(shè)計Figure 2 Design of multiplex PCR
第一輪靶向SNP位點的特異性擴(kuò)增體系為10 μL,含1 μL 小鼠基因組DNA(15~20 ng/μL),1 μL 1×PCR 緩沖液(含15 mmol/μL Mg2+),1 μL 1×PCR輔助劑,1 μL 200 μmol/μL dNTPs,1 μL 引物(0.2 μmol/μL), 0.6 μL 25 mmol/μL Mg2+, 0.1 μL 熱啟動DNA 聚合酶(5U/μL), 再加重蒸H2O 補(bǔ)足10 μL。循環(huán)程序: 94℃15 min, [94℃30 s,60℃1 min, 72℃30 s] 20 個循環(huán)。為了探索最佳的退火溫度,設(shè)計了溫度梯度實驗(56℃, 58℃, 60℃, 62℃, 64℃),電泳結(jié)果表明,在上述溫度范圍內(nèi)PCR 效率沒有明顯的差異,因此所有引物的理論退火溫度均為60℃,故選用60℃為統(tǒng)一的退火溫度。第二輪添加條形碼的PCR 反應(yīng)體系為10 μL,以3 μL 第一輪PCR 產(chǎn)物為模板,1 μL1×10 PCR 緩沖液(含15 mmol/μL Mg2+),1 μL1×PCR 輔助劑,1 μL 200 μmol/μL dNTPs, 0.1 μL 條形碼引物(0.2 μmol/μL),0.6 μL 25 mmol μL Mg2+,0.1 μL 熱啟動DNA 聚合酶(5 U/μL),再加重蒸H2O 補(bǔ)足10 μL。循環(huán)程序:94 ℃15 min, [94 ℃30 s,60 ℃ 1 min,72 ℃30 s]20 個循環(huán)。第二輪產(chǎn)物經(jīng)磁珠純化后,作為建庫模板,10 μL 的反應(yīng)體系,以3 μL 第二輪PCR 產(chǎn)物為模板,1 μL1×10PCR 緩沖液(含15 mmol/μL Mg2+),1 μL 1×PCR 輔助劑,1 μL 200 μmol/μL dNTPs, 0.1 μL P5 與P7 引物(0.5 μmol/μL), 0.6 μL 25 mmol/μL Mg2+, 0.1 μL 熱啟動DNA聚合酶(5 U/μL),再加重蒸H2O補(bǔ)足10 μL。PCR程序為: 94℃ 15 min,[94℃ 30 s, 60℃90 s,72℃30 s]15 個循環(huán),72℃10 min[5]。建庫產(chǎn)物送金唯智生物(蘇州金唯智生物科技有限公司, 中國蘇州)進(jìn)行高通量測序, 使用機(jī)型為illumina X-10, 上機(jī)前產(chǎn)物經(jīng)安捷倫2100質(zhì)控。
首先利用FASTQC[6]對原始序列進(jìn)行質(zhì)控,質(zhì)控完通過使用FASTX-Toolkit[7],根據(jù)條形碼序列的錯配堿基參數(shù)小于1,分離出所有樣本。隨后,使用Cutadapt[8]軟件切除全部接頭,獲得每個樣品的靶序列。通過使用BWA(v0.7.12)[9]和Samtools(v0.1.19)[10]的軟件鑒定SNP 位點。簡言之,將靶序列通過BWA比對到SNP參考序列(小鼠參考基因組mm10),使用Samtools,將sam文件生成mpileup文件,該文件用于SNP位點堿基的統(tǒng)計。對于SNP的檢出,過濾小于15×測序深度位點,雜合子判定標(biāo)準(zhǔn)為等位基因的序列讀長比例在20%~80%。
在某批次小鼠樣本測序中,6 個樣本的原始數(shù)據(jù)總量為685 M,干凈(clean)數(shù)據(jù)為568 M,平均深度為5308×。在這批樣本中總擴(kuò)增子數(shù)量為714 個,有效擴(kuò)增子的數(shù)量為97%,擴(kuò)增子測序深度的中值為3175×。根據(jù)SNP 鑒定時,有效深度不低于15 ×,本批樣本的有效擴(kuò)增子數(shù)量為97%,即97%的擴(kuò)增子最后獲得SNP 數(shù)據(jù)(圖3)。
隨后, 每個擴(kuò)增子深度對平均深度進(jìn)行了歸一化,如此則可直接觀察到平均測序深度對每個擴(kuò)增子的影響, 即可評價總體均一度。從圖4 可以看出,約80%的數(shù)據(jù)分布于平均深度的5倍范圍以內(nèi),較高的總體均一度,使得總體測序量得以降低。
圖3 擴(kuò)增子測序深度Figure 3 Amplicon sequencing depth
圖4 擴(kuò)增子相對深度累積曲線Figue 4 Normalized coverage distribution plots
從各SNP 等位基因所在序列讀長比例(圖5)看,該批次全部樣本為純合子(<20%或>80%),而該批次樣本均為核心群近交系小鼠,符合遺傳質(zhì)量檢測的要求。
同時,我們對該批次不同品系小鼠分別進(jìn)行靶向Hi-SNP 高通量重測序與LDR 鑒定。如表1 所示,Hi-SNP 結(jié)果與LDR 結(jié)果完全吻合。
檢測了4批小鼠樣本(共98個),結(jié)果表明不同來源的同一品系SNP 狀態(tài)完全相同。在4 批樣品中,共選擇了112 個SNP 位點,SNP 位點出的比例分別為99.82%,92.00%,99.10%和90.35%(表2)。同時,樣品在這些位點處基因型是純合的,這證實這些小鼠品系都是純系。
如表2 中所示,4 次測序獲得總數(shù)據(jù)量為32 M序列讀長,經(jīng)過濾后得到干凈數(shù)據(jù)為9 M。最低平均深度為212×,最高深度為9542×,位點鑒定成功率大于90%,樣本鑒定成功率為100%。
SNP 位點在品系間的差異數(shù)量決定了分辨率。針對常見的10 個品系,在兩兩品系之間進(jìn)行位點差異比較,最大差異數(shù)為73 個, 最小差異數(shù)為3個,差異位點平均數(shù)為53個, 差異中位數(shù)為60個(圖6)。
多重PCR 靶向二代測序SNP 分型方法相比于形態(tài)學(xué)、免疫學(xué)以及生物化學(xué)方法有著明顯優(yōu)勢,主要體現(xiàn)在通量大、建庫方便、測序深度高、性價比高、特異性強(qiáng)、分辨率高和價格低廉等方面。
圖5 SNP 位點等位基因序列讀長比例Figure 5 SNP sites allele reads ratio
表1 Hi-SNP 法與LDR 結(jié)果對應(yīng)表(部分)Table 1 Table of Hi-SNP method and LDR results (partial)
表2 數(shù)據(jù)質(zhì)控結(jié)果以及SNP 位點分析結(jié)果Table 2 Data quality control results and SNP sites analysis results
圖6 任意兩個品系差異等位基因數(shù)目的分布圖 Figure 6 Distribution of the number of alleles in any two strains
多重PCR 靶向二代測序方案,在兩端添加的條形碼可以一次對上萬個樣本進(jìn)行標(biāo)記,并在單次上樣可得全部序列,使得高通量的樣本得以快速有效鑒定。在建庫過程中, 只需幾步PCR 反應(yīng)擴(kuò)增,純化后可以直接進(jìn)行測序,建庫方便。在費(fèi)用上,考慮到PCR 的試劑費(fèi)用以及一部分不當(dāng)損耗,分?jǐn)偟矫總€樣本, 引物加上反應(yīng)試劑的費(fèi)用微不足道。同時, 測序一個流通槽的費(fèi)用大約7 000~8 000 元,一個流通槽的大小約為90 G, 全基因組測序深度為10~30X,所需數(shù)據(jù)量為30~90 G,而靶向二代測序SNP分型方案的測序深度達(dá)到了數(shù)百X甚至數(shù)千X(表2),100 個樣本所需數(shù)據(jù)量為4.5 G,90 G可產(chǎn)生2 000 只小鼠的數(shù)據(jù)。分?jǐn)偟矫恐恍∈蟮臏y序費(fèi)用極低。
等位基因比例與PCR-LDR 方法驗證表明,靶向二代測序SNP 分型方案的特異性很高。對于純合子個體樣本,在統(tǒng)計等位基因數(shù)量時,應(yīng)只出現(xiàn)一種等位基因(圖5),等位基因所在的序列讀長比例趨近于0 或1,全部的樣本都為純合子。同時部分小鼠的結(jié)果與PCR-LDR 完全一致,可見所采集的近交系小鼠符合遺傳質(zhì)量檢測要求。
本研究建立的靶向二代測序SNP 分型方案,相比于PCR-LDR 分型方案[11],分辨率大大提高。同時, 112個SNP位點對小鼠進(jìn)行遺傳監(jiān)測的方案比Harlan 實驗室采用48 個位點的SNP 庫對小鼠進(jìn)行遺傳檢測的方案更加有效,通過這112 個SNP位點的信息完全可以鑒定近交系小鼠的品系。
就遺傳質(zhì)量控制的DNA 技術(shù)方法而言,對中國知網(wǎng)文獻(xiàn)調(diào)研可知, 從1986年至今涉及小鼠40篇以上,研究深度上,從早期的血清學(xué)研究[12]、到1990年代的DNA指紋[13]與延續(xù)至今的DNA微衛(wèi)星技術(shù)[14], 及至最近的SNP 鑒定方案[15,16]。從理論上講, 品系間多態(tài)性越好的位點越適合進(jìn)行品系鑒定,但從有關(guān)近交系小鼠最初的培育奠基者數(shù)量極少的現(xiàn)實與檢測結(jié)果來看,短串聯(lián)重復(fù)(STR)往往在不同品系間條帶一致, 僅個別位點能進(jìn)行區(qū)分[17]。
鑒于國內(nèi)應(yīng)用SNP 標(biāo)記分析通量相對較低,尚未建立針對我國常用小鼠進(jìn)行系統(tǒng)而有效遺傳檢測的高通量SNP 位點組合(SNP panel),SNP 遺傳檢測的方法及判定標(biāo)準(zhǔn)上的現(xiàn)狀,本研究通過高通量多重PCR 技術(shù)聯(lián)合二代測序,優(yōu)化出一套可用于小鼠品系遺傳質(zhì)量快速檢測的高通量SNP 鑒定方法,易于標(biāo)準(zhǔn)化流程,非常有利于提高我國的小鼠遺傳質(zhì)量控制的標(biāo)準(zhǔn)。