• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      限制性兩階段多位點(diǎn)全基因組關(guān)聯(lián)分析法在遺傳育種中的應(yīng)用

      2020-06-03 08:02:34賀建波劉方東王吳彬邢光南管榮展蓋鈞鎰
      中國農(nóng)業(yè)科學(xué) 2020年9期
      關(guān)鍵詞:等位等位基因變異

      賀建波,劉方東,王吳彬,邢光南,管榮展,蓋鈞鎰

      限制性兩階段多位點(diǎn)全基因組關(guān)聯(lián)分析法在遺傳育種中的應(yīng)用

      賀建波,劉方東,王吳彬,邢光南,管榮展,蓋鈞鎰

      (南京農(nóng)業(yè)大學(xué)大豆研究所/國家大豆改良中心/農(nóng)業(yè)部大豆生物學(xué)與遺傳育種重點(diǎn)實(shí)驗(yàn)室/作物遺傳與種質(zhì)創(chuàng)新國家重點(diǎn)實(shí)驗(yàn)室/江蘇省現(xiàn)代作物生產(chǎn)協(xié)同創(chuàng)新中心,南京 210095)

      全基因組關(guān)聯(lián)分析(genome-wide association studies,GWAS)通過建立全基因組高密度分子標(biāo)記以檢測基因型與表型間的關(guān)聯(lián)性,已成為動(dòng)植物數(shù)量性狀遺傳解析的主要方法。然而,以往GWAS方法只注重于個(gè)別主要QTL的檢測,而且使用僅有2個(gè)等位變異的SNP標(biāo)記不能檢測自然群體中廣泛存在的復(fù)等位變異,一定程度限制了GWAS的應(yīng)用。限制性兩階段多位點(diǎn)全基因組關(guān)聯(lián)分析方法(RTM-GWAS)首先根據(jù)全基因組高密度SNP標(biāo)記間的連鎖不平衡程度,將多個(gè)相鄰且緊密連鎖的SNP標(biāo)記組成為具有復(fù)等位變異(單倍型)的連鎖不平衡區(qū)段(SNPLDB)標(biāo)記。其次,RTM-GWAS使用由SNPLDB標(biāo)記計(jì)算的遺傳相似系數(shù)矩陣作為群體結(jié)構(gòu)偏差的通用估計(jì),并提取該矩陣的特征向量作為模型協(xié)變量以降低由群體結(jié)構(gòu)偏差導(dǎo)致的假陽性。最后,利用具有復(fù)等位變異的SNPLDB標(biāo)記與建立的多位點(diǎn)復(fù)等位變異模型,RTM-GWAS將性狀遺傳率作為QTL表型變異解釋率的上限,通過兩階段分析策略高效地進(jìn)行全基因組QTL及其復(fù)等位變異的檢測,并最終構(gòu)建多QTL遺傳模型。該法還可以基于性狀小區(qū)觀測值,建立QTL與環(huán)境互作多位點(diǎn)模型,不僅能檢測與環(huán)境有交互作用的主效應(yīng)QTL,還能檢測僅與環(huán)境有交互作用的無主效應(yīng)QTL。RTM-GWAS不僅解決了以往GWAS不能估計(jì)復(fù)等位變異的問題,而且通過使用多位點(diǎn)模型擬合多個(gè)QTL提高了檢測功效并能有效地控制假陽性的膨脹,為全面解析自然群體QTL及其復(fù)等變異提供了通道。該法能估計(jì)出等位基因的效應(yīng)及其在群體內(nèi)的相對頻率,由其結(jié)果建立的QTL-allele矩陣代表了目標(biāo)性狀在群體中的全部遺傳組成,不僅可用于候選基因發(fā)掘,還為群體內(nèi)QTL及其復(fù)等位變異(基因及其復(fù)等位基因)的動(dòng)態(tài)研究(群體遺傳分化以及特有與新生等位變異)提供了新的工具。依據(jù)QTL-allele矩陣,還能進(jìn)一步利用計(jì)算機(jī)模擬產(chǎn)生雜交組合后代基因型,并預(yù)測雜交組合后代純合群體的表現(xiàn),從而進(jìn)行優(yōu)化組合設(shè)計(jì)與分子設(shè)計(jì)育種。此外,RTM-GWAS還適用于雙親雜交后代重組自交系群體以及多親雜交后代巢式關(guān)聯(lián)作圖群體,因避免了群體結(jié)構(gòu)偏離的干擾,檢測功效更高。本文歸納了RTM-GWAS的原理和方法,并綜述了其在遺傳育種研究中的應(yīng)用。

      全基因組關(guān)聯(lián)分析;復(fù)等位變異;SNPLDB標(biāo)記;多位點(diǎn)模型;QTL-allele矩陣

      作物生產(chǎn)涉及的性狀大部分是數(shù)量性狀,研究和解析數(shù)量性狀遺傳基礎(chǔ)不僅對植物遺傳研究有意義,而且也是設(shè)計(jì)育種中組合優(yōu)化設(shè)計(jì)和后代精準(zhǔn)選擇的前提。與質(zhì)量性狀由一個(gè)或少數(shù)幾個(gè)基因控制不同,數(shù)量性狀由大量基因控制,全面準(zhǔn)確解析數(shù)量性狀基因座(quantitative trait locus,QTL)至今仍具有挑戰(zhàn)性[1]。目前,基于分子標(biāo)記的連鎖定位(linkage mapping)和全基因組關(guān)聯(lián)分析(genome-wide association study,GWAS)是QTL/基因定位的2種主要方法。連鎖定位一般基于雙親分離世代群體,如重組自交系群體(recombinant inbred lines,RIL),利用分子標(biāo)記遺傳連鎖圖譜和區(qū)間作圖法進(jìn)行QTL檢測[2-3]。連鎖定位通常只涉及2個(gè)親本,該方法所能檢測的遺傳變異僅限于2個(gè)親本間的遺傳差異,例如在RIL群體中,每個(gè)遺傳位點(diǎn)上最多存在2個(gè)等位基因的差異。因此,基于雙親分離世代群體的連鎖定位往往只能檢測到有限數(shù)量的大效應(yīng)QTL,不能全面檢測QTL及其復(fù)等位變異?;诙嘤H分離世代群體的連鎖定位方法一定程度上豐富了遺傳變異,例如玉米的巢式關(guān)聯(lián)作圖(nested association mapping,NAM)群體由25個(gè)具有共同親本的RIL群體組成,則理論上每個(gè)遺傳位點(diǎn)最多存在26個(gè)等位基因的差異[4-5]。然而,以往NAM群體的統(tǒng)計(jì)分析方法中將各RIL群體視為彼此獨(dú)立的子群體,假定每個(gè)位點(diǎn)在不同RIL群體中具有不同的等位基因效應(yīng)[6],例如由25個(gè)RIL群體組成的NAM群體中,每個(gè)位點(diǎn)具有恒定的50個(gè)等位基因。因此,盡管NAM群體通過一個(gè)共同親本將各RIL群體聯(lián)系起來,但以往NAM群體的統(tǒng)計(jì)分析方法僅僅是多個(gè)RIL群體的聯(lián)合分析,沒能將NAM群體作為一個(gè)統(tǒng)一完整群體,模型中每個(gè)位點(diǎn)的基因型不是真實(shí)的分子標(biāo)記基因型,從而導(dǎo)致每個(gè)位點(diǎn)等位基因數(shù)目與實(shí)際情況有所偏差,進(jìn)而影響QTL的檢測及進(jìn)一步的育種應(yīng)用。

      自然群體/資源群體具有最廣泛的遺傳變異。GWAS利用自然群體大量的歷史重組事件,通過檢測全基因組高密度分子標(biāo)記與表型的相關(guān)性,進(jìn)而篩選與目標(biāo)性狀顯著關(guān)聯(lián)的標(biāo)記位點(diǎn),比之連鎖定位具有更高的檢測精度。GWAS能夠檢測全基因組QTL及其復(fù)等位變異,已經(jīng)成為數(shù)量性狀遺傳解析的重要方法,廣泛應(yīng)用于人類與動(dòng)植物數(shù)量性狀遺傳基礎(chǔ)解析的研究[7-8]。然而,與連鎖定位中群體遺傳結(jié)構(gòu)單一不同,自然群體由于長期的自然和人工選擇等因素往往具有復(fù)雜未知的群體結(jié)構(gòu),而群體結(jié)構(gòu)又可能導(dǎo)致非連鎖位點(diǎn)間產(chǎn)生非隨機(jī)關(guān)聯(lián),進(jìn)而導(dǎo)致GWAS檢測結(jié)果較高的假陽性[9]。目前,研究者已提出多種方法以降低群體結(jié)構(gòu)對GWAS的干擾,其中最常用的方法主要包括結(jié)構(gòu)關(guān)聯(lián)(structured association,SA)[10]、主成分分析(principal components analysis,PCA)[11]和混合線性模型(mixed linear model,MLM)[12]。SA方法是將由STRUCTURE等[13]貝葉斯聚類算法推斷的群體結(jié)構(gòu)作為模型協(xié)變量以控制群體結(jié)構(gòu)的影響。與SA方法類似,PCA方法是將群體遺傳關(guān)系矩陣特征向量作為模型協(xié)變量。在SA和PCA的基礎(chǔ)上,MLM方法又將遺傳背景效應(yīng)作為隨機(jī)效應(yīng)加入線性模型,并將親屬關(guān)系矩陣作為遺傳背景隨機(jī)效應(yīng)的協(xié)方差結(jié)構(gòu),從群體結(jié)構(gòu)和家系結(jié)構(gòu)2個(gè)方面控制群體偏差對GWAS的影響。

      以往GWAS通常基于全基因組SNP分子標(biāo)記,而SNP分子標(biāo)記在一個(gè)標(biāo)記位點(diǎn)上僅有2個(gè)等位變異,不能檢測自然群體中廣泛存在的復(fù)等位變異,不僅一定程度限制了GWAS在育種中的應(yīng)用,由于單個(gè)SNP分子標(biāo)記僅能解析一對等位基因間的遺傳變異,因而這也可能降低GWAS的檢測功效。上述常用的GWAS方法均基于單位點(diǎn)模型,每個(gè)標(biāo)記位點(diǎn)與表型的相關(guān)性測驗(yàn)彼此獨(dú)立進(jìn)行,因此,每個(gè)標(biāo)記位點(diǎn)的效應(yīng)估計(jì)會(huì)受到相鄰位點(diǎn)的影響,從而導(dǎo)致位點(diǎn)表型變異解釋率過高估計(jì),例如檢測的位點(diǎn)總表型變異解釋率可能超過100%。由于GWAS涉及海量的分子標(biāo)記,這將導(dǎo)致多位點(diǎn)模型中變量個(gè)數(shù)遠(yuǎn)大于觀測值數(shù)目,不能直接求解線性模型,這很大程度上限制了多位點(diǎn)模型在GWAS中的應(yīng)用。此外,為了控制單位點(diǎn)模型多重測驗(yàn)導(dǎo)致的全試驗(yàn)水平錯(cuò)誤率增大,以往GWAS通常使用非常嚴(yán)格的顯著水平控制假陽性,例如Bonferroni矯正方法。嚴(yán)格的顯著水平同時(shí)也將導(dǎo)致較高的假陰性,以至于以往GWAS往往僅能檢測到少數(shù)主要QTL,檢測的位點(diǎn)往往僅能解釋表型變異的一小部分,不能全面解析全基因組遺傳位點(diǎn)。

      針對上述GWAS的局限性,He等[14]將多個(gè)相鄰且連鎖不平衡(linkage disequilibrium,LD)程度高的SNP標(biāo)記組成具有復(fù)等位變異的SNPLDB標(biāo)記,并基于多位點(diǎn)復(fù)等位變異模型進(jìn)行全基因組QTL檢測,提出了限制性兩階段多位點(diǎn)全基因組關(guān)聯(lián)分析方法(restricted two-stage multi-locus genome-wide association analysis,RTM-GWAS),該方法不僅解決了以往GWAS不能估計(jì)復(fù)等位變異的問題,而且基于多位點(diǎn)模型通過擬合多個(gè)QTL,提高檢測功效并降低假陽性。RTM-GWAS方法通過全面解析自然群體QTL及其復(fù)等基因,建立群體的遺傳構(gòu)成,以進(jìn)一步應(yīng)用于基因發(fā)掘、群體遺傳分化研究以及最優(yōu)親本組合的全基因組選擇。本文首先總結(jié)RTM-GWAS的原理和方法,然后綜述其在遺傳育種研究中的應(yīng)用。

      1 限制性兩階段全基因組關(guān)聯(lián)分析方法

      RTM-GWAS方法包括2個(gè)關(guān)鍵創(chuàng)新點(diǎn)以解決以往GWAS不能估計(jì)復(fù)等位變異和單位點(diǎn)模型的問題。第一點(diǎn)關(guān)鍵創(chuàng)新是基于全基因組高密度SNP分子標(biāo)記構(gòu)建具有復(fù)等位變異的SNPLDB標(biāo)記,并利用SNPLDB標(biāo)記進(jìn)行QTL檢測。SNPLDB標(biāo)記具有復(fù)等位性,因而可以擬合自然群體中豐富的復(fù)等位變異。第二點(diǎn)關(guān)鍵創(chuàng)新是建立兩階段多位點(diǎn)復(fù)等位變異模型以檢測全基因組QTL,并最終構(gòu)建多QTL遺傳模型。多位點(diǎn)模型不僅解決了以往GWAS單位點(diǎn)模型效應(yīng)估計(jì)有偏的問題,而且由于多位點(diǎn)模型不再涉及多重測驗(yàn)問題,從而可以使用常規(guī)顯著水平,一定程度上能夠降低由多重測驗(yàn)矯正導(dǎo)致的假陰性,提高檢測功效。

      由于GWAS通常涉及海量分子標(biāo)記,直接求解多位點(diǎn)模型將導(dǎo)致模型空間過大而計(jì)算困難。RTM- GWAS方法采用兩階段分析策略以解決GWAS多位點(diǎn)模型計(jì)算耗時(shí)的問題,第一階段將大量與目標(biāo)性狀無關(guān)的分子標(biāo)記淘汰,第二階段基于縮減后的分子標(biāo)記擬合多位點(diǎn)模型。另外,RTM-GWAS計(jì)算程序(https://github.com/njau-sri/rtm-gwas/)基于C++編程語言實(shí)現(xiàn),并借助高度優(yōu)化的高性能線性代數(shù)運(yùn)算庫,使得RTM-GWAS方法具有較高的計(jì)算效率[15]。

      1.1 復(fù)等位變異檢測

      通常SNP標(biāo)記在全基因組的分布不是均勻的,相鄰SNP間的連鎖緊密程度顯示出基因組的區(qū)段特征,區(qū)段內(nèi)的單倍型序列保持不變的一起傳遞給下一代。因此,區(qū)段內(nèi)SNP間的連鎖不平衡程度較高,區(qū)段內(nèi)多個(gè)SNP等位變異的不同組合形式則構(gòu)成了不同的區(qū)段單倍型。區(qū)段單倍型提供了類似復(fù)等位變異的變異特征,比只有2個(gè)等位變異的SNP標(biāo)記,更符合自然群體基因組變異特征。連鎖不平衡是度量自然群體重組歷史的通用指標(biāo),因此可根據(jù)SNP間的連鎖不平衡程度在全基因組范圍內(nèi)尋找這種基因組區(qū)段。RTM-GWAS首先使用基于連鎖不平衡置信區(qū)間的方法確定全基因組范圍內(nèi)的基因組區(qū)段[16]。按設(shè)定的連鎖不平衡標(biāo)準(zhǔn),區(qū)段內(nèi)的SNP可能有多個(gè),最少為一個(gè)。這些SNP組成的單倍型類型作為該位點(diǎn)的等位變異,群體內(nèi)個(gè)體在該位點(diǎn)的基因型由這些SNP組成單倍型確定。這種基于連鎖不平衡區(qū)段構(gòu)建的具有復(fù)等位變異的標(biāo)記類型就稱為SNPLDB標(biāo)記。

      單個(gè)SNP同樣被視為一個(gè)獨(dú)立的SNPLDB標(biāo)記。通過比較不同測序深度的數(shù)據(jù)比較顯示,隨著SNP密度的增加,僅包含一個(gè)SNP的SNPLDB標(biāo)記將減少。例如,利用145 558個(gè)SNP構(gòu)建獲得36 952個(gè)SNPLDB標(biāo)記,其中70.3%的SNPLDB僅包含單個(gè)SNP,而基于平均覆蓋深度大于11×的數(shù)據(jù),78.2%的SNPLDB標(biāo)記都包含多個(gè)SNP[14]。

      SNPLDB標(biāo)記提供了比SNP標(biāo)記更豐富的復(fù)等位變異信息,由于復(fù)等位變異是自然群體/資源群體的自然屬性,SNPLDB標(biāo)記理論上能夠擬合不同等位基因數(shù)目的QTL,基于SNPLDB的QTL檢測也比SNP更加合理。SNPLDB標(biāo)記還可用于分析位點(diǎn)水平不同等位變異在不同亞群中的頻率差異,比SNP標(biāo)記也更適用于群體的遺傳分化特征研究。此外,植物常規(guī)育種是一個(gè)聚合等位基因的遺傳操作過程,將親本材料互補(bǔ)的等位基因聚合到一個(gè)復(fù)合改良個(gè)體中,使其包含產(chǎn)量、品質(zhì)或其他所需性狀的優(yōu)異等位基因[17]。因此,設(shè)計(jì)育種的首要前提就是解析目標(biāo)性狀全基因組QTL及其復(fù)等位變異組成,而基于SNPLDB的QTL檢測為設(shè)計(jì)育種提供了潛在方法。

      1.2 群體結(jié)構(gòu)控制

      以往用于群體結(jié)構(gòu)控制的基于分子標(biāo)記的遺傳關(guān)系矩陣只適合于SNP標(biāo)記[11,18-19],不能用于具有復(fù)等位變異的SNPLDB標(biāo)記。因此,RTM-GWAS利用基于SNPLDB標(biāo)記的遺傳相似系數(shù)矩陣以控制群體結(jié)構(gòu)對GWAS的影響?;赟NPLDB標(biāo)記的個(gè)體(假定二倍體)間的遺傳相似系數(shù)定義為處于狀態(tài)同樣SNPLDB標(biāo)記的比例,即:

      其中,c定義為在第個(gè)SNPLDB上個(gè)體與個(gè)體的共有等位基因數(shù)目(取值為0、1、2),是SNPLDB總個(gè)數(shù)。盡管群體結(jié)構(gòu)由于群體混合或近交程度的變化具有不確定性,但遺傳相似系數(shù)矩陣無需預(yù)先設(shè)定假設(shè),可以作為一種通用方法來估計(jì)群體結(jié)構(gòu)。RTM-GWAS將遺傳相似系數(shù)矩陣的特征向量作為協(xié)變量納入線性模型以矯正群體結(jié)構(gòu)偏差。這里,群體結(jié)構(gòu)效應(yīng)被視為固定效應(yīng)而不是隨機(jī)效應(yīng),因?yàn)槿后w通常是預(yù)先確定的,而不是隨機(jī)形成的[9]。

      1.3 多位點(diǎn)關(guān)聯(lián)分析模型

      盡管GWAS通常涉及數(shù)百萬的分子標(biāo)記,然而大部分標(biāo)記與目標(biāo)性狀并不相關(guān)。為了有效縮減多位點(diǎn)模型空間,RTM-GWAS采用兩階段分析策略。第一階段,基于單位點(diǎn)模型進(jìn)行全基因組位點(diǎn)的關(guān)聯(lián)測驗(yàn),使用常規(guī)顯著水平(例如0.05)對標(biāo)記位點(diǎn)進(jìn)行初步篩選,淘汰與目標(biāo)性狀不相關(guān)的標(biāo)記位點(diǎn)。線性模型可表示如下:

      其中,y表示個(gè)體的表型觀測值;表示總體平均數(shù);w表示遺傳相似系數(shù)矩陣第個(gè)特征向量在個(gè)體上的系數(shù),α為第個(gè)特征向量的效應(yīng),為用于群體結(jié)構(gòu)矯正的特征向量的個(gè)數(shù);x為測驗(yàn)標(biāo)記位點(diǎn)第個(gè)等位基因?qū)τ趥€(gè)體的基因型指示變量,取值0或1;β為第個(gè)等位基因的效應(yīng);為測驗(yàn)標(biāo)記位點(diǎn)的等位基因數(shù)目;ε為假定服從正態(tài)分布的殘差效應(yīng)。該線性模型可以使用回歸分析方法直接求解。

      第二階段,利用如下多位點(diǎn)模型對第一階段篩選得到的標(biāo)記位點(diǎn)進(jìn)行分析,檢測全基因組QTL并最終建立多QTL模型。

      其中,x為第個(gè)位點(diǎn)的第個(gè)等位基因在個(gè)體上的基因型指示變量,取值0或1;β為第個(gè)位點(diǎn)的第個(gè)等位基因的效應(yīng);L為第個(gè)位點(diǎn)的等位基因數(shù)目;為總QTL數(shù)目。其他符號(hào)含義同上。該模型可使用逐步回歸分析方法進(jìn)行求解。由于QTL檢測基于多位點(diǎn)模型,因此,RTM-GWAS檢測的QTL所解釋的總遺傳變異將小于群體總遺傳變異或表型變異解釋率不超過性狀遺傳率。

      1.4 全基因組QTL檢測顯著水平

      由于多位點(diǎn)模型內(nèi)含全試驗(yàn)水平錯(cuò)誤控制的特性,因此,RTM-GWAS方法使用常規(guī)顯著水平0.01和0.05檢測全基因組QTL。這與以往基于單位點(diǎn)模型的GWAS方法不同,基于單位點(diǎn)模型的GWAS往往需要按標(biāo)記一個(gè)一個(gè)進(jìn)行大量獨(dú)立的統(tǒng)計(jì)假設(shè)測驗(yàn),即多重測驗(yàn),此時(shí)常規(guī)顯著水平下的全試驗(yàn)錯(cuò)誤率將大大提高。這種情況下,有必要采取適當(dāng)調(diào)整方法對多重測驗(yàn)進(jìn)行矯正,例如基于Bonferroni方法調(diào)整的顯著水平0.05×10-8,以控制全試驗(yàn)錯(cuò)誤率[20]。但對于RTM-GWAS的多位點(diǎn)模型,所有位點(diǎn)被擬合于一個(gè)線性模型中進(jìn)行聯(lián)合統(tǒng)計(jì)假設(shè)測驗(yàn),因此,使用常規(guī)顯著水平便可以控制全試驗(yàn)錯(cuò)誤率,無需進(jìn)行多重測驗(yàn)矯正。

      根據(jù)逐步回歸方法的特點(diǎn),除給出全模型顯著的位點(diǎn)外,還可以給出每個(gè)入選位點(diǎn)的單獨(dú)概率或顯著性,通常和多重測驗(yàn)的校正概率相近,因而研究者還可根據(jù)需要采用特殊標(biāo)準(zhǔn)選取位點(diǎn)。例如,He等[14]使用常規(guī)顯著水平檢測到139個(gè)大豆百粒重位點(diǎn)(表1),包括22個(gè)大效應(yīng)(2≥1%)位點(diǎn)和117個(gè)小效應(yīng)(2<1%)位點(diǎn),總表型變異解釋率分別為61.8%和36.4%。結(jié)果還包括了采用Bonferroni方法矯正顯著水平檢測的16個(gè)位點(diǎn)中的15個(gè)。因此,盡管沒有必要對RTM-GWAS進(jìn)行多重測驗(yàn)矯正,研究者仍然可以采用更嚴(yán)格的顯著水平從常規(guī)顯著水平下的結(jié)果中篩選個(gè)別顯著程度高的大效應(yīng)位點(diǎn),而無需重新計(jì)算。例如,對于一個(gè)性狀改良的育種方案,育種家可以使用0.05或0.01作為顯著水平檢測QTL,而對于候選基因克隆,研究者可以使用計(jì)算給出的單個(gè)位點(diǎn)的概率來篩選最重要的基因座位。

      表1 中國大豆種質(zhì)資源群體百粒重顯著關(guān)聯(lián)的SNPLDB標(biāo)記位點(diǎn)

      LC QTL:大貢獻(xiàn)(2≥1%)QTL;SC QTL:小貢獻(xiàn)(2<1%)QTL。...:省略了部分?jǐn)?shù)據(jù)。a:Williams 82第一版參考基因組(Wm82.a1)

      LC QTL: large (2≥1%) contribution QTL; SC QTL: small (2<1%) contribution QTL. “...”: data omitted.a: Williams 82 reference genome version 1 (Wm82.a1)

      2 應(yīng)用于自然群體數(shù)量性狀遺傳解析

      自然群體遺傳變異豐富,作物種質(zhì)資源群體更是品種改良的重要基因資源。全面解析自然群體/資源群體大量存在的QTL及其復(fù)等位變異將有助于了解數(shù)量性狀的遺傳規(guī)律以及植物遺傳改良。Zhang等[21]基于由366份地方大豆材料組成的資源群體,分別使用了RTM-GWAS方法和目前最常用的MLM方法對油脂、油酸和亞麻酸含量進(jìn)行GWAS分析(表2)。結(jié)果顯示,在Bonferroni多重測驗(yàn)矯正下,MLM方法對3個(gè)性狀分別檢測到3、18和22個(gè)QTL,表型變異解釋率分別是19.69%、138.76%和206.52%??梢奙LM方法檢測的QTL不僅偏少,而且油酸和亞麻酸含量QTL的表型變異解釋率還遠(yuǎn)超過性狀遺傳率,表明MLM方法中QTL效應(yīng)估計(jì)偏差較大。而RTM-GWAS方法分別檢測到50、98和50個(gè)QTL,表型變異解釋率分別是82.53%、90.29%和83.84%,均小于性狀遺傳率,結(jié)果更為合理。

      表2 基于大豆地方品種資源群體的全基因組關(guān)聯(lián)分析方法比較

      Table 2 Comparisons between RTM-GWAS and MLM for association results obtained from soybean landrace germplasm population

      2:性狀遺傳率估計(jì);2:QTL表型變異解釋率;MLM:混合線性模型方法

      2: trait heritability;2: phenotypic variance explained; MLM: mixed linear model

      He等[14]對包括1 024份大豆材料的中國大豆種質(zhì)資源群體的百粒重進(jìn)行了全基因組關(guān)聯(lián)分析,比較了RTM-GWAS方法與PCA和MLM方法。從分析結(jié)果Q-Q圖可以看出(圖1),未進(jìn)行群體結(jié)構(gòu)控制的單標(biāo)記分析方法(Naive)中所有標(biāo)記都大幅偏離理論值,假陽性非常高,這是因?yàn)樵撊后w包括了野生大豆、地方大豆和大豆育種品種,不同材料又收集自不同的大豆生態(tài)區(qū),形成復(fù)雜的群體結(jié)構(gòu)。通過控制群體結(jié)構(gòu),PCA方法一定程度上降低了假陽性,但仍遠(yuǎn)遠(yuǎn)偏離理論值。MLM方法中所有位點(diǎn)均與理論值較為接近,雖然假陽性大幅降低,但是檢測功效也隨之降低。RTM-GWAS方法表現(xiàn)則比較合理,大部分位點(diǎn)與理論值接近,檢測的QTL大幅高于理論值,既降低了假陽性,又保證了檢測功效。

      中國大豆種質(zhì)資源群體中,RTM-GWAS方法共檢測到139個(gè)百粒重QTL(表1和圖2),包括MLM方法檢測的3個(gè)QTL中的2個(gè),覆蓋前人已報(bào)道百粒重QTL的73%[14]。RTM-GWAS方法同時(shí)估計(jì)出139個(gè)百粒重QTL上402個(gè)等位變異的遺傳效應(yīng)。百粒重QTL及其等位變異效應(yīng)反應(yīng)了百粒重性狀在群體的遺傳構(gòu)成,所有QTL在群體內(nèi)材料上的基因型和等位基因效應(yīng)可進(jìn)一步構(gòu)建為性狀在群體的QTL- allele矩陣(圖3)。QTL-allele矩陣包括了性狀在群體內(nèi)的所有遺傳信息,可進(jìn)一步應(yīng)用于基因發(fā)掘和設(shè)計(jì)育種。

      黑色直線為理論分布參考線

      圖2 中國大豆種質(zhì)資源群體百粒重RTM-GWAS分析Manhattan圖

      橫坐標(biāo)表示材料,按百粒重升序排列,每一列為一個(gè)材料的等位基因組成??v坐標(biāo)表示QTL,每一行為一個(gè)QTL等位基因在材料中的分布。等位基因效應(yīng)大小使用顏色表示,暖色表示正效,冷色表示負(fù)效,顏色深度表示效應(yīng)大小

      3 應(yīng)用于RIL和NAM群體數(shù)量性狀遺傳解析

      越來越多的RIL群體也開始利用重測序技術(shù)獲得全基因組高密度SNP分子標(biāo)記,由于標(biāo)記密度高,不再需要構(gòu)建遺傳連鎖圖譜便可以進(jìn)行QTL檢測,此時(shí)GWAS方法也可應(yīng)用于RIL群體。同樣,RTM-GWAS也適用于由雙親衍生的RIL群體和由多親衍生的NAM群體。但是RTM-GWAS中SNPLDB標(biāo)記根據(jù)基因組區(qū)段單倍型進(jìn)行構(gòu)建,而RIL群體和NAM群體中個(gè)體的位點(diǎn)基因型直接來自于親本,此時(shí)SNPLDB標(biāo)記等位變異應(yīng)從親本單倍型中構(gòu)建。針對RIL群體和NAM群體,RTM-GWAS中SNPLDB標(biāo)記構(gòu)建方法作如下調(diào)整。首先,仍然使用基于連鎖不平衡置信區(qū)間的方法確定全基因組范圍內(nèi)的基因組區(qū)段。然后將區(qū)段內(nèi)的所有SNP在親本中組成的單倍型類型作為該位點(diǎn)的等位變異,群體內(nèi)個(gè)體在該位點(diǎn)的基因型由親本單倍型確定。

      Pan等[22]基于大豆RIL群體的分子標(biāo)記和開花期數(shù)據(jù),比較了不同定位方法(CIM、MLM和RTM-GWAS)和不同標(biāo)記類型(SSR、BIN和SNPLDB)的應(yīng)用效果。結(jié)果顯示,3種方法分別檢測到10、36、67個(gè)BIN-QTL和23、14、86個(gè)SNPLDB-QTL。CIM和MLM方法所檢測位點(diǎn)的表型變異解釋率均超過100%,而RTM-GWAS方法所檢測位點(diǎn)的表型變異解釋率均小于但接近性狀遺傳率。因此,RTM-GWAS方法不僅能檢測較多的QTL,而且能合理估計(jì)QTL表型變異解釋率,更適用于RIL群體的QTL定位研究。

      如前所述,盡管NAM群體通過一個(gè)共同親本將多個(gè)RIL群體聯(lián)系起來,提高了群體的遺傳變異程度,然而以往分析方法卻沒將NAM群體作為一個(gè)統(tǒng)一完整群體。RTM-GWAS可通過構(gòu)建SNPLDB標(biāo)記對NAM群體進(jìn)行統(tǒng)一分析。Li等[23]基于一個(gè)包含4個(gè)大豆RIL群體的NAM群體,比較了基于SNP標(biāo)記的JICIM[6]和MLM方法,以及基于SNPLDB的RTM-GWAS方法(表3)。結(jié)果顯示,3種方法分別檢測到9、7和139個(gè)大豆開花期QTL,表型變異解釋率分別是74.0%、40.6%和81.7%。該NAM群體有5個(gè)親本,理論上位點(diǎn)上最多存在5個(gè)等位基因。而JICIM方法每個(gè)位點(diǎn)等位基因數(shù)目均為8,MLM方法每個(gè)位點(diǎn)等位基因數(shù)目均為2,顯然不符合實(shí)際情況。RTM-GWAS方法每個(gè)位點(diǎn)等位基因數(shù)目最少2個(gè),最多5個(gè),合理地?cái)M合了群體內(nèi)的等位基因變異,更適用于NAM群體。

      表3 基于大豆NAM群體的五種QTL定位方法特點(diǎn)歸納比較

      Table 3 Comparisons of five QTL detection procedures based on soybean NAM population

      4 應(yīng)用于基因與環(huán)境互作遺傳解析

      數(shù)量性狀不僅受多個(gè)QTL的作用,而且還受到QTL之間以及QTL與環(huán)境之間相互作用的影響。QTL與環(huán)境互作通過維持群體遺傳變異在植物環(huán)境適應(yīng)性中起著重要作用。例如,基因與環(huán)境互作效應(yīng)對大豆耐旱性的影響非常大,這是由于干旱程度高度依賴于溫度、濕度、降雨等環(huán)境因素[27]。因此,更好地了解QTL主效應(yīng)以及QTL與環(huán)境互作效應(yīng),對不同環(huán)境下育種策略的制定至關(guān)重要。然而,以往GWAS通?;趥€(gè)體表型平均數(shù)(最佳線性無偏估計(jì)或最佳線性無偏預(yù)測),無法解析QTL與環(huán)境互作效應(yīng)。而RTM-GWAS方法基于數(shù)量性狀的小區(qū)觀測值,通過QTL與環(huán)境互作的多位點(diǎn)模型,不僅能檢測主效應(yīng)QTL,還能夠檢測僅與環(huán)境有交互作用的非主效應(yīng)QTL。QTL與環(huán)境互作線性模型如下:

      其中,e為第個(gè)環(huán)境的效應(yīng),γ為第個(gè)位點(diǎn)上第個(gè)等位基因與第個(gè)環(huán)境的互作效應(yīng)。其他符號(hào)含義同上。RTM-GWAS首先基于模型效應(yīng)檢測QTL,即測驗(yàn)?zāi)P椭蠶TL主效應(yīng)及QTL與環(huán)境互作效應(yīng)的總和是否顯著。此時(shí),QTL主效應(yīng)或QTL與環(huán)境互作效應(yīng)中至少有一項(xiàng)顯著時(shí),RTM-GWAS便可以檢測出QTL。其次,RTM-GWAS分別對QTL主效應(yīng)及QTL與環(huán)境互作效應(yīng)進(jìn)行測驗(yàn),以確定具體的QTL模型。

      Khan等[27]對由2個(gè)RIL群體組成的大豆NAM群體進(jìn)行了苗期耐旱性鑒定,結(jié)果顯示,對于相對根長和相對莖長,基因型與環(huán)境互作效應(yīng)均極顯著。利用RTM-GWAS分別檢測到38和73個(gè)QTL,其中30和55個(gè)QTL主效應(yīng)解釋了26.11%和40.43%的表型變異,16和53個(gè)環(huán)境互作QTL解釋了10.35%的表型變異。結(jié)果進(jìn)一步說明了基因與環(huán)境互作效應(yīng)在大豆耐旱性中起到了重要作用。

      5 應(yīng)用于群體遺傳分化與設(shè)計(jì)育種

      RTM-GWAS方法能夠較充分的檢測出QTL及其相應(yīng)的復(fù)等位變異,由其結(jié)果建立的QTL-allele矩陣則代表了群體目標(biāo)性狀的全部遺傳組成。因此,QTL-allele矩陣可進(jìn)一步用于群體目標(biāo)性狀的遺傳分化與進(jìn)化特征與特有與新生等位變異分析。Zhang等[28]基于包括89個(gè)大豆蛋白質(zhì)含量QTL及其255個(gè)等位基因的QTL-allele矩陣,分析了地方大豆在不同生態(tài)區(qū)間的遺傳分化特征,發(fā)現(xiàn)有32.09%的等位基因?yàn)樯鷳B(tài)區(qū)特有,并總結(jié)出生態(tài)區(qū)間遺傳分化的4種模式。如圖4所示不同生態(tài)區(qū)間等位基因頻率差異不顯著和顯著的各4個(gè)QTL,4個(gè)不顯著QTL基因頻率在6個(gè)生態(tài)區(qū)間相對一致(左邊),4個(gè)顯著的QTL基因頻率在6個(gè)生態(tài)區(qū)間差異較大(右邊)。這為進(jìn)一步闡明QTL/基因的進(jìn)化規(guī)律提供了參考。

      親本組配和后代選擇是常規(guī)育種的2個(gè)主要步驟,QTL-allele矩陣則為親本組配和后代選擇提供了理論依據(jù)。He等[14]使用RTM-GWAS方法對包含1 024份大豆材料的種質(zhì)資源群體的百粒重進(jìn)行了遺傳解析,獲得了包含139個(gè)QTL及其402個(gè)等位基因的QTL-allele矩陣,并進(jìn)一步基于QTL-allele矩陣對所有523 776個(gè)單交組合純合后代群體進(jìn)行了預(yù)測(圖5),結(jié)果顯示部分單交組合后代表現(xiàn)出超親百粒重,最好的20個(gè)組合后代百粒重預(yù)測值相比親本群體提高了12.4%—19.9%(表4)?;谌蚪MQTL-allele矩陣的優(yōu)化組合設(shè)計(jì)與全基因組選擇有本質(zhì)不同,后者假定全基因組標(biāo)記均與目標(biāo)性狀相關(guān),通過構(gòu)建全部標(biāo)記的預(yù)測模型對后代進(jìn)行預(yù)測和選擇,因此,需要對育種后代群體進(jìn)行全基因組標(biāo)記的鑒定,成本高昂。另外,模型構(gòu)建所用群體與實(shí)際育種群體的差異,還可能導(dǎo)致選擇出現(xiàn)嚴(yán)重偏差。由于育種條件的限制,目前,全基因組選擇主要應(yīng)用于動(dòng)物育種研究。而基于QTL-allele矩陣的選擇直接對目標(biāo)性狀位點(diǎn)進(jìn)行獨(dú)立選擇,更符合實(shí)際育種需求,理論上比全基因組選擇更加直接和高效。

      表4 中國大豆種質(zhì)資源群體百粒重改良優(yōu)異組合預(yù)測

      I:北方一熟制春作生態(tài)區(qū);II:黃淮海二熟制春夏作生態(tài)區(qū);III:長江中下游二熟制春夏作生態(tài)區(qū);IV:中南多熟制春夏秋作生態(tài)區(qū);V:西南高原二熟制春夏作生態(tài)區(qū);VI:華南熱帶多熟制四季生態(tài)區(qū)

      兩條虛線分別表示親本觀測值的最大值(上)和最小值(下)。Min.、P25、P50、P75和Max.分別表示組合后代預(yù)測值的最小值、第25百分位數(shù)、第50百分位數(shù)、第75百分位數(shù)和最大值

      6 展望

      本文中介紹了RTM-GWAS的基本原理和初步應(yīng)用于植物遺傳育種研究的效果。RTM-GWAS方法的最重要特點(diǎn)是能將群體內(nèi)的QTL及其相應(yīng)等位變異盡可能多地檢測出來,并能給出等位變異的效應(yīng)及其在群體內(nèi)的相對頻率,因而為全面追蹤群體內(nèi)QTL及其等位變異(基因及其等位基因)的構(gòu)成和網(wǎng)絡(luò)結(jié)構(gòu)提供了基本信息,也為群體內(nèi)QTL及其等位變異(基因及其等位基因)的動(dòng)態(tài)研究(群體遺傳學(xué)研究)提供了新的工具。

      目前,RTM-GWAS方法僅考慮了位點(diǎn)主效應(yīng)及其與環(huán)境互作效應(yīng),其分析模型沒有包括位點(diǎn)間交互作用(上位性效應(yīng))及其與環(huán)境互作效應(yīng)(上位性與環(huán)境互作效應(yīng))。有研究表明上位性效應(yīng)對數(shù)量性狀遺傳變異的貢獻(xiàn)十分重要,考慮上位性效應(yīng)的分析模型可以提高表型變異的擬合程度[30]。但是當(dāng)GWAS模型納入位點(diǎn)交互作用時(shí),百萬級(jí)的分子標(biāo)記數(shù)量將導(dǎo)致計(jì)算困難,因此GWAS中考慮上位性的研究還非常少[31-32]。針對GWAS上位性效應(yīng)解析中計(jì)算困難的問題,研究者也提出一些高效算法,如BOOST[33]、TEAM[34]等。但是這些方法通常針是對人類疾病-對照(case-control)GWAS而建立的,不能直接用于連續(xù)型數(shù)量性狀,限制了其在植物研究中的應(yīng)用。因此,探索高效的上位性分析模型將是RTM-GWAS方法下一步需要考慮的問題。由于RTM-GWAS方法的SNPLDB標(biāo)記具有復(fù)等位性,單個(gè)標(biāo)記不能使用一個(gè)變量進(jìn)行表示,進(jìn)一步增加了上位性模型的復(fù)雜程度。另外,隨著計(jì)算機(jī)技術(shù)的快速發(fā)展,尤其是近幾年圖形處理器技術(shù)的普及應(yīng)用,將有助于在全基因組水平解析數(shù)量性狀的上位性效應(yīng)[35-36]。

      復(fù)雜性狀的遺傳構(gòu)成解析是植物遺傳育種研究的基礎(chǔ),不僅可用于進(jìn)一步研究單個(gè)基因的功能,還可用于輔助育種。上文介紹了基于RTM-GWAS解析的QTL及其等位變異的育種優(yōu)化組合設(shè)計(jì),但以往基于RTM-GWAS方法的組合優(yōu)化設(shè)計(jì)均針對單個(gè)目標(biāo)性狀,而實(shí)際育種是對多個(gè)性狀的綜合選擇。此時(shí),可利用RTM-GWAS獲得的多個(gè)目標(biāo)性狀的QTL-allele矩陣對親本組合后代群體進(jìn)行預(yù)測,獲得各個(gè)目標(biāo)性狀的預(yù)測值。最后,根據(jù)實(shí)際情況,通過設(shè)置性狀權(quán)重建立多個(gè)性狀的綜合選擇指數(shù),進(jìn)而從多個(gè)性狀上對親本組合進(jìn)行綜合選擇。優(yōu)化組合設(shè)計(jì)是常規(guī)育種的第一個(gè)主要步驟,實(shí)際育種中還需要從后代分離群體中選出優(yōu)良家系。Meuwissen等[37]提出的全基因選擇(genomic selection,GS)方法首先基于參考群體建立分子標(biāo)記與表型的線性關(guān)系,然后在待選群體中利用同一套分子標(biāo)記信息預(yù)測個(gè)體的育種值(genomic estimated breeding values,GEBVs),從而達(dá)到后代選擇的目的。但植物育種中單個(gè)組合通常涉及上千個(gè)后代個(gè)體,目前,實(shí)際育種中使用全基因組選擇方法進(jìn)行后代選擇花費(fèi)高昂。在這種情況下,利用QTL-allele矩陣信息進(jìn)行后代選擇可能是另一種有效途徑。將基于SNPLDB標(biāo)記的QTL-allele矩陣用于分子標(biāo)記輔助后代選擇有多種可能的途徑:將SNPLDB標(biāo)記開發(fā)為凝膠電泳標(biāo)記;尋找與SNPLDB標(biāo)記緊密連鎖的凝膠電泳標(biāo)記;開發(fā)SNPLDB標(biāo)記芯片。

      [1] TAM V, PATEL N, TURCOTTE M, BOSSE Y, PARE G, MEYRE D. Benefits and limitations of genome-wide association studies, 2019, 20(8): 467-484.

      [2] LANDER E S, BOTSTEIN D. Mapping mendelian factors underlying quantitative traits using RFLP linkage maps, 1989, 121(1): 185-199.

      [3] ZENG Z B. Precision mapping of quantitative trait loci, 1994, 136(4): 1457-1468.

      [4] YU J, HOLLAND J B, MCMULLEN M D, BUCKLER E S. Genetic design and statistical power of nested association mapping in maize, 2008, 178(1): 539-551.

      [5] MCMULLEN M D, KRESOVICH S, VILLEDA H S, BRADBURY P, LI H, SUN Q, FLINT-GARCIA S, THORNSBERRY J, ACHARYA C, BOTTOMS C, BROWN P, BROWNE C, ELLER M, GUILL K, HARJES C, KROON D, LEPAK N, MITCHELL S E, PETERSON B, PRESSOIR G, ROMERO S, OROPEZA ROSAS M, SALVO S, YATES H, HANSON M, JONES E, SMITH S, GLAUBITZ J C, GOODMAN M, WARE D, HOLLAND J B, BUCKLER E S. Genetic properties of the maize nested association mapping population, 2009, 325(5941): 737-740.

      [6] BUCKLER E S, HOLLAND J B, BRADBURY P J, ACHARYA C B, BROWN P J, BROWNE C, ERSOZ E, FLINT-GARCIA S, GARCIA A, GLAUBITZ J C, GOODMAN M M, HARJES C, GUILL K, KROON D E, LARSSON S, LEPAK N K, LI H, MITCHELL S E, PRESSOIR G, PEIFFER J A, ROSAS M O, ROCHEFORD T R, ROMAY M C, ROMERO S, SALVO S, SANCHEZ VILLEDA H, DA SILVA H S, SUN Q, TIAN F, UPADYAYULA N, WARE D, YATES H, YU J, ZHANG Z, KRESOVICH S, MCMULLEN M D. The genetic architecture of maize flowering time, 2009, 325(5941): 714-718.

      [7] VISSCHER P M, WRAY N R, ZHANG Q, SKLAR P, MCCARTHY M I, BROWN M A, YANG J. 10 years of GWAS discovery: Biology, function, and translation, 2017, 101(1): 5-22.

      [8] HUANG X, HAN B. Natural variations and genome-wide association studies in crop plants, 2014, 65: 531-551.

      [9] PRICE A L, ZAITLEN N A, REICH D, PATTERSON N. New approaches to population stratification in genome-wide association studies, 2010, 11(7): 459-463.

      [10] PRITCHARD J K, STEPHENS M, ROSENBERG N A, DONNELLY P. Association mapping in structured populations, 2000, 67(1): 170-181.

      [11] PRICE A L, PATTERSON N J, PLENGE R M, WEINBLATT M E, SHADICK N A, REICH D. Principal components analysis corrects for stratification in genome-wide association studies, 2006, 38(8): 904-909.

      [12] YU J, PRESSOIR G, BRIGGS W H, VROH BI I, YAMASAKI M, DOEBLEY J F, MCMULLEN M D, GAUT B S, NIELSEN D M, HOLLAND J B, KRESOVICH S, BUCKLER E S. A unified mixed-model method for association mapping that accounts for multiple levels of relatedness, 2006, 38(2): 203-208.

      [13] PRITCHARD J K, STEPHENS M, DONNELLY P. Inference of population structure using multilocus genotype data, 2000, 155(2): 945-959.

      [14] HE J, MENG S, ZHAO T, XING G, YANG S, LI Y, GUAN R, LU J, WANG Y, XIA Q, YANG B, GAI J. An innovative procedure of genome-wide association analysis fits studies on germplasm population and plant breeding, 2017, 130(11): 2327-2343.

      [15] 賀建波, 劉方東, 邢光南, 王吳彬, 趙團(tuán)結(jié), 管榮展, 蓋鈞鎰. 限制性兩階段多位點(diǎn)全基因組關(guān)聯(lián)分析方法的特點(diǎn)與計(jì)算程序作物學(xué)報(bào), 2018, 44(9): 1274-1289.

      HE J B, LIU F D, XING G N, WANG W B, ZHAO T J, GUAN R Z, GAI J Y. Characterization and analytical programs of the restricted two-stage multi-locus genome-wide association analysis., 2018, 44(9): 1274-1289. (in Chinese)

      [16] GABRIEL S B, SCHAFFNER S F, NGUYEN H, MOORE J M, ROY J, BLUMENSTIEL B, HIGGINS J, DEFELICE M, LOCHNER A, FAGGART M, LIU-CORDERO S N, ROTIMI C, ADEYEMO A, COOPER R, WARD R, LANDER E S, DALY M J, ALTSHULER D. The structure of haplotype blocks in the human genome, 2002, 296(5576): 2225-2229.

      [17] GAI J, CHEN L, ZHANG Y, ZHAO T, XING G, XING H. Genome- wide genetic dissection of germplasm resources and implications for breeding by design in soybean, 2012, 61(5): 495-510.

      [18] PATTERSON N, PRICE A L, REICH D. Population structure and eigenanalysis, 2006, 2(12): e190.

      [19] VANRADEN P M. Efficient methods to compute genomic predictions, 2008, 91(11): 4414-4423.

      [20] RISCH N, MERIKANGAS K. The future of genetic studies of complex human diseases, 1996, 273(5281): 1516-1517.

      [21] ZHANG Y, HE J, WANG H, MENG S, XING G, LI Y, YANG S, ZHAO J, ZHAO T, GAI J. Detecting the QTL-allele system of seed oil traits using multi-locus genome-wide association analysis for population characterization and optimal cross prediction in soybean, 2018, 9(1793): 1793.

      [22] PAN L, HE J, ZHAO T, XING G, WANG Y, YU D, CHEN S, GAI J. Efficient QTL detection of flowering date in a soybean RIL population using the novel restricted two-stage multi-locus GWAS procedure, 2018, 131(12): 2581-2599.

      [23] LI S, CAO Y, HE J, ZHAO T, GAI J. Detecting the QTL-allele system conferring flowering date in a nested association mapping population of soybean using a novel procedure, 2017, 130(11): 2297-2314.

      [24] YANG J, HU C, HU H, YU R, XIA Z, YE X, ZHU J. QTLNetwork: mapping and visualizing genetic architecture of complex traits in experimental populations, 2008, 24(5): 721-723.

      [25] MENG L, LI H H, ZHANG L Y, WANG J K. QTL IciMapping: Integrated software for genetic linkage map construction and quantitative trait locus mapping in biparental populations, 2015, 3(3): 269-283.

      [26] BRADBURY P J, ZHANG Z, KROON D E, CASSTEVENS T M, RAMDOSS Y, BUCKLER E S. TASSEL: software for association mapping of complex traits in diverse samples, 2007, 23(19): 2633-2635.

      [27] KHAN M A, TONG F, WANG W, HE J, ZHAO T, GAI J. Analysis of QTL-allele system conferring drought tolerance at seedling stage in a nested association mapping population of soybean [(L.) Merr.] using a novel GWAS procedure, 2018, 248(4): 947-962.

      [28] ZHANG Y, HE J, MENG S, LIU M, XING G, LI Y, YANG S, YANG J, ZHAO T, GAI J. Identifying QTL–allele system of seed protein content in Chinese soybean landraces for population differentiation studies and optimal cross predictions, 2018, 214(9): 157.

      [29] 張英虎. 中國大豆地方品種群體籽粒性狀的遺傳解析及其在設(shè)計(jì)育種中的應(yīng)用[D]. 南京: 南京農(nóng)業(yè)大學(xué), 2014.

      ZHANG Y H. Genetic dissection of seed traits of the Chinese soybean landrace population and its utilization in breeding by design [D]. Nanjing: Nanjing Agricultural University, 2014. (in Chinese)

      [30] FORSBERG S K, BLOOM J S, SADHU M J, KRUGLYAK L, CARLBORG O. Accounting for genetic interactions improves modeling of individual quantitative trait phenotypes in yeast, 2017, 49(4): 497-503.

      [31] MACKAY T F. Epistasis and quantitative traits: using model organisms to study gene-gene interactions, 2014, 15(1): 22-33.

      [32] WEI W H, HEMANI G, HALEY C S. Detecting epistasis in human complex traits, 2014, 15(11): 722-733.

      [33] WAN X, YANG C, YANG Q, XUE H, FAN X, TANG N L, YU W. BOOST: A fast approach to detecting gene-gene interactions in genome-wide case-control studies, 2010, 87(3): 325-340.

      [34] ZHANG X, HUANG S, ZOU F, WANG W. TEAM: efficient two-locus epistasis tests in human genome-wide association study, 2010, 26(12): i217-i227.

      [35] SCHADT E E, LINDERMAN M D, SORENSON J, LEE L, NOLAN G P. Computational solutions to large-scale data management and analysis, 2010, 11(9): 647-657.

      [36] ZHANG F T, ZHU Z H, TONG X R, ZHU Z X, QI T, ZHU J. Mixed linear model approaches of association mapping for complex traits based on omics variants, 2015, 5: 10298.

      [37] MEUWISSEN T H, HAYES B J, GODDARD M E. Prediction of total genetic value using genome-wide dense marker maps, 2001, 157(4): 1819-1829.

      Restricted two-stage multi-locus genome-wide association analysis and its applications to genetic and breeding studies

      HE JianBo, LIU FangDong, WANG WuBin, XING GuangNan, GUAN RongZhan, GAI JunYi

      (Soybean Research Institute, Nanjing Agricultural University/National Center for Soybean Improvement/Key Laboratory of Biology and Genetic Improvement of Soybean (General), Ministry of Agriculture/State Key Laboratory for Crop Genetics and Germplasm Enhancement/Jiangsu Collaborative Innovation Center for Modern Crop Production, Nanjing 210095)

      Genome-wide association studies (GWAS) take genome-wide high-density molecular markers to identify associations between genotype and phenotype, which have been widely used for genetic dissection of quantitative traits in plants and animals. However, previous GWAS methods focused on finding a handful of major loci and were not able to detect multi-allelic genetic variation in natural populations based on bi-allelic SNP marker, which caused limitations in extending application of GWAS. The restricted two-stage multi-locus genome-wide association analysis (RTM-GWAS) firstly groups multiple adjacent and tightly linked SNPs based on linkage disequilibrium to form multi-allelic SNPLDB markers with multiple haplotypes as alleles. Secondly, population structure bias is estimated using the genetic similarity coefficient matrix calculated from SNPLDB marker, and the eigenvectors of the similarity matrix are extracted and incorporated as model covariates to correct for population structure bias and to reduce false positives. Finally, RTM-GWAS utilizes two-stage association analysis to detect genome-wide QTLs and their multiple alleles efficiently based on the SNPLDB marker and multi-locus multi-allele model, and builds the final multi-QTL genetic model with the total QTL genetic contribution restricted to trait heritability. RTM-GWAS can also detect QTL-by-environment interaction effect using plot-based phenotype data, and can detect not only the main effect QTL, but also QTL with only interaction effect with environment. RTM-GWAS solves the issue that multiple alleles are not estimable in previous GWAS, and also improves the detection power and reduces the false positive rate by fitting multiple QTLs simultaneously in a multi-locus model. It provides a potential solution for a relatively thorough detection of genome-wide QTLs and their multiple alleles, and the allele effect and relative frequency can also be estimated. From RTM-GWAS results, a QTL-allele matrix can be constructed as a compact form of the population genetic constitution, and can be further used for gene discovery. QTL-allele matrix also provides a new tool for studies on the dynamic change of QTLs and their multiple alleles (genes and their multiple alleles), such as population genetic differentiation and population-specific and new alleles. According to QTL-allele matrix, the progeny genotype of cross between parental lines can be simulated by using computer simulation, and then the phenotype can be predicted to assist optimal cross design and molecular design breeding. In addition, RTM-GWAS is more efficient in QTL detection for bi-parental recombinant inbred line population and multi-parental nested association mapping population because the population structure bias can be well-controlled. The present paper presents the principles and procedures of the RTM-GWAS method at first, and then provides some potential applications of RTM-GWAS in plant genetic and breeding studies.

      restricted two-stage multi-locus genome-wide association analysis; multiple alleles; SNPLDB marker; multi-locus model; QTL-allele matrix

      10.3864/j.issn.0578-1752.2020.09.002

      2019-08-26;

      2019-11-30

      國家自然科學(xué)基金(31701447)、國家作物育種重點(diǎn)研發(fā)計(jì)劃(2017YFD0101500,2017YFD0102002)、長江學(xué)者和創(chuàng)新團(tuán)隊(duì)發(fā)展計(jì)劃(PCSIRT_17R55)、教育部111項(xiàng)目(B08025)、中央高校基本科研業(yè)務(wù)費(fèi)項(xiàng)目(KYT201801)、農(nóng)業(yè)部國家大豆產(chǎn)業(yè)技術(shù)體系CARS-04、江蘇省優(yōu)勢學(xué)科建設(shè)工程專項(xiàng)、江蘇省JCIC-MCP項(xiàng)目

      賀建波,E-mail:hjbxyz@gmail.com。通信作者蓋鈞鎰,E-mail:sri@njau.edu.cn

      (責(zé)任編輯 李莉)

      猜你喜歡
      等位等位基因變異
      芥菜種子顏色調(diào)控基因TT8的等位變異及其地理分布分析
      ·術(shù)語解析·
      親子鑒定中男性個(gè)體Amelogenin基因座異常1例
      智慧健康(2021年17期)2021-07-30 14:38:32
      變異危機(jī)
      變異
      外引大麥農(nóng)藝性狀SSR關(guān)聯(lián)位點(diǎn)及等位變異表型效應(yīng)分析
      花時(shí)間在餐廳門口等位值嗎
      WHOHLA命名委員會(huì)命名的新等位基因HLA-A*24∶327序列分析及確認(rèn)
      DXS101基因座稀有等位基因的確認(rèn)1例
      變異的蚊子
      揭西县| 芒康县| 县级市| 吴桥县| 绥阳县| 利津县| 淮安市| 德钦县| 朔州市| 石台县| 汉阴县| 铁力市| 百色市| 比如县| 惠东县| 潮安县| 逊克县| 英德市| 内江市| 邻水| 屯昌县| 大足县| 海口市| 贵港市| 耒阳市| 新巴尔虎左旗| 上饶县| 始兴县| 陆川县| 康保县| 鄯善县| 莲花县| 蓬莱市| 三门县| 洞头县| 抚顺县| 玛沁县| 佛坪县| 深圳市| 衢州市| 东丽区|