任 月,王政昆,朱萬(wàn)龍
(云南省高校西南山地生態(tài)系統(tǒng)動(dòng)植物生態(tài)適應(yīng)進(jìn)化及保護(hù)重點(diǎn)實(shí)驗(yàn)室,云南師范大學(xué) 生命科學(xué)學(xué)院, 生物能源持續(xù)開(kāi)發(fā)利用教育部工程研究中心,云南省生物質(zhì)能與環(huán)境生物技術(shù)重點(diǎn)實(shí)驗(yàn)室,云南 昆明 650500)
測(cè)序技術(shù)能夠提供大量的遺傳信息資源,可以描述個(gè)體基因組、轉(zhuǎn)錄信息和群體疾病中的遺傳變異, 隨著基因組分析、基因組操作技術(shù)和高通量分子生物學(xué)的進(jìn)一步突破,基因型和表型之間的關(guān)聯(lián)研究也越來(lái)越受重視。在2004年,雖采用毛細(xì)管測(cè)序儀,獲得人類(lèi)30億堿基基因組序列的原始數(shù)據(jù)[1],但成本較貴,隨后發(fā)展出通量高、成本低的高通量測(cè)序技術(shù)[2],其能夠提取高生物學(xué)價(jià)值的遺傳信息,成為分析種群內(nèi)、種群間以及不同類(lèi)群的遺傳多樣性和遺傳分化程度的基因組學(xué)研究的重要方法之一[3,4],本研究綜述了高通量測(cè)序技術(shù)在動(dòng)物種群遺傳學(xué)究中的主要分析方法,希望為種群遺傳學(xué)研究奠定一定的基礎(chǔ)。
1977年,DNA鏈末端合成終止法作為第一代測(cè)序技術(shù),即Sanger法[5]。其操作步驟簡(jiǎn)單、準(zhǔn)確度高,廣泛應(yīng)用于各個(gè)領(lǐng)域,但其成本高,通量低,因此,2006年發(fā)展出高通量測(cè)序,別稱(chēng)新一代測(cè)序(next-generation sequencing, NGS)。NGS是邊合成邊測(cè)序技術(shù),具有通量高、成本低、速度快和后期數(shù)據(jù)分析處理成熟等優(yōu)點(diǎn),且能夠?qū)蝹€(gè)物種的基因組和轉(zhuǎn)錄組進(jìn)行深入研究,使其廣泛應(yīng)用到科學(xué)研究和醫(yī)療方面[6]。NGS常用的平臺(tái)包括三種,分別為使用橋式 PCR進(jìn)行擴(kuò)增的Illumina的基因組分析儀[2]、使用微乳滴PCR進(jìn)行擴(kuò)增Roche454基因組測(cè)序儀[7]以及使用微球和微乳滴方法進(jìn)行擴(kuò)增的ABLifeTechnologies的SOLiD系統(tǒng)[8]。因NGS具有局域擴(kuò)增偏好性和讀長(zhǎng)短的缺點(diǎn),產(chǎn)生以PacBio的SMART的技術(shù),半導(dǎo)體測(cè)序技術(shù)和納米孔單分子測(cè)序技術(shù)為代表的第三代測(cè)序[9]。測(cè)序技術(shù)的發(fā)展歷程見(jiàn)圖1。
1966年,首次對(duì)果蠅[10]和人類(lèi)[11]的遺傳變異的研究認(rèn)為生物進(jìn)化是種內(nèi)的遺傳變異轉(zhuǎn)化為種間遺傳變異成新群體的過(guò)程,但由于技術(shù)上的局限,僅能檢測(cè)并分析少量基因座的差異性,隨著重測(cè)序技術(shù)的發(fā)展,大量的模式動(dòng)物和野生動(dòng)物種群遺傳學(xué)原始數(shù)據(jù)被挖掘[12],對(duì)種群遺傳學(xué)進(jìn)一步拓展和深化,有利于對(duì)動(dòng)物多樣性的保護(hù)和生物資源的可持續(xù)利用。
根據(jù)表型或基因型的變異性可以推斷出不同群體的親緣關(guān)系[13],利用重測(cè)序獲得生物DNA序列構(gòu)建的系統(tǒng)進(jìn)化樹(shù)是以分支圖或樹(shù)的形式來(lái)描述種群內(nèi)和種群間進(jìn)化順序,來(lái)分析生物進(jìn)化過(guò)程,一般通過(guò)NJ法和ML法構(gòu)建群體的進(jìn)化樹(shù)[14]。主成分分析(PCA)是一種純數(shù)學(xué)的運(yùn)算方法,可以將多個(gè)相關(guān)變量經(jīng)過(guò)線形轉(zhuǎn)換選出較少個(gè)數(shù)的重要變量,減少數(shù)據(jù)的維數(shù),同時(shí)保留數(shù)據(jù)集中的大部分變化,它通過(guò)識(shí)別主成分來(lái)實(shí)現(xiàn)這種減少,沿著主成分?jǐn)?shù)據(jù)的變化,通過(guò)使用幾個(gè)組件,每個(gè)樣本可以用相對(duì)較少的數(shù)字來(lái)表示,而不是用數(shù)千個(gè)變量的值。然后,樣本以圖形可視化,從而可以直觀地評(píng)估樣本之間的相似性和差異性,并確定樣本是否可以分組[15]。
3.2.1 選擇性消除主要包括幾種表現(xiàn)形式
(1)在宏觀進(jìn)化水平上檢測(cè)選擇:在宏觀進(jìn)化水平上檢測(cè)選擇的方法通常在相關(guān)分類(lèi)群中的同源特征或序列的比較上進(jìn)行鉸鏈,可能是保守的功能性的序列,然后以進(jìn)化速率搜索譜系特異性的加速度。
(2)基于基因組的方法:用于檢測(cè)選擇的已知統(tǒng)計(jì)信息是Ka/KS,也稱(chēng)為dn/ds或ω[16]。該統(tǒng)計(jì)量將每個(gè)位點(diǎn)的非同義替換率與每個(gè)位點(diǎn)同義替換的速率進(jìn)行比較。由于同義變化假定為功能沉默,它們的取代率提供了能夠解釋氨基酸改變的速率的基線。相對(duì)過(guò)量的非同義替換表明正在進(jìn)行積極選擇,有利于新的蛋白質(zhì)結(jié)構(gòu)的陰性選擇。
(3)基于頻譜的方法:基于群體內(nèi)等位基因頻率分布的中性檢驗(yàn),即用中性理論作為零假設(shè),Tajima’s D是第一個(gè),也是最常用的檢測(cè)信號(hào)的測(cè)試[17]。
(4)在微觀進(jìn)化水平上檢測(cè)選擇:正向選擇使有利的等位基因在種群中迅速傳播至固定。
3.2.2 微進(jìn)化水平上檢測(cè)包括
(1)有益的突變使附近的搭便車(chē)者變異頻率高,導(dǎo)致所選位點(diǎn)周?chē)倪z傳多樣性在全群體范圍內(nèi)減少。
(2)有益的突變使附近的衍生等位基因頻率較高。
(3)選擇性掃描導(dǎo)致延伸的單倍型純合性,在包含所選等位基因的單倍型上升。
(4)等位基因頻率的差異反映群體特定的選擇作用,導(dǎo)致兩個(gè)群體之間賴特固定指數(shù)增加;將來(lái)自多個(gè)選擇信號(hào)的信息綜合起來(lái)的綜合方法可以提供更好的分辨率,并有助于查明因果變量[18]。
(5)連鎖不平衡的方法:指群體內(nèi)不同座位等位基因間的非隨機(jī)關(guān)聯(lián),即等位基因關(guān)聯(lián),連鎖不平衡水平越高,表明連鎖緊密。
(6)基于種群分化方法:不同種群受到不同的環(huán)境壓力導(dǎo)致種群的適應(yīng)特性不同。比較群體內(nèi)和群體間等位基因頻率的差異的群體分化指標(biāo)是Wright 固定指數(shù)[19]。Fst值相對(duì)較大,表明種群間存在顯著差異,意味該位點(diǎn)在定向選擇。相對(duì)較小的Fst值表明被比較的種群是同質(zhì)的。
圖1 測(cè)序技術(shù)發(fā)展歷程
種群歷史動(dòng)態(tài)以有效種群大小對(duì)時(shí)間發(fā)生變化為參考標(biāo)準(zhǔn),通過(guò)結(jié)合個(gè)體基因組的雜合位點(diǎn)的局部密度變化和種群的多態(tài)性位點(diǎn)或者系統(tǒng)發(fā)生樹(shù)來(lái)反映種群和物種的進(jìn)化歷程[14, 19],有助于對(duì)瀕危物種制定合理有效的保護(hù)策略。種群不同歷史時(shí)期有效群體大小的方法主要采用成對(duì)序列馬可夫溯祖分析(pairwise sequential Markovian coulescent,PSMC)和多序列馬爾科夫溯祖分析(multiple sequential Markoisn cosledcent analysis,MSMC)[21]。
PSMC方法是采用馬爾科夫溯祖模型為二倍體個(gè)體的全基因組數(shù)據(jù)重建有效種群大小變化過(guò)程[20],其可推斷出每個(gè)相關(guān)DNA片段的最新共同祖先,基于合并事件速率和TMRCA的分布,推斷出在給定時(shí)間紀(jì)元的祖先的有效種群大小[22],來(lái)物種保護(hù)提供非常重要的遺傳學(xué)信息。PSMC分析廣泛應(yīng)用于多個(gè)種群歷史動(dòng)態(tài)研究中。但PSMC方法預(yù)測(cè)種群歷史范圍有限,無(wú)法估計(jì)近期的種群歷史狀態(tài),進(jìn)而發(fā)展出MSMC方法[21],通過(guò)MSMC計(jì)算相對(duì)交聯(lián)率可獲得20000年內(nèi)的種群遺傳變化,并詳細(xì)模擬兩種群之間遺傳分化的歷史。結(jié)合MSMC和PSMC兩種方法能擴(kuò)大時(shí)間尺度去獲得種群歷史動(dòng)態(tài)。
綜上所述,通過(guò)高通量測(cè)序和生物信息學(xué)分析結(jié)合,研究物種,尤其是瀕危物種的遺傳變異和分布規(guī)律來(lái)推測(cè)種群歷遺傳進(jìn)化,為物種的保護(hù)奠定了遺傳學(xué)基礎(chǔ)。
物種形成過(guò)程中經(jīng)過(guò)自然選擇,出現(xiàn)表型分化,進(jìn)而影響基因頻率變化。通過(guò)對(duì)相關(guān)DNA的測(cè)序來(lái)篩選整個(gè)基因組中的數(shù)千個(gè)位點(diǎn)。按順序進(jìn)行基因分型,如SNP基因分型,甚至全基因組測(cè)序能夠識(shí)別群體或生態(tài)類(lèi)型之間差異極高位點(diǎn),認(rèn)為這些是適應(yīng)進(jìn)化和生殖孤立的跡象。但是如何將基因組學(xué)方法與其他生態(tài)學(xué)方法結(jié)合來(lái)解決問(wèn)題,特別是那些直接解決從基因到表型到環(huán)境的聯(lián)系,把基因組學(xué)和生態(tài)學(xué)聯(lián)系起來(lái)的方法,建立從基因型到表型,從表型到適應(yīng)和生殖分離的功能聯(lián)系還有待探究。