譚力治,趙毅強(qiáng)
全基因組關(guān)聯(lián)分析中混合模型的原理、優(yōu)化與應(yīng)用
中國農(nóng)業(yè)大學(xué)生物學(xué)院,北京 100193
全基因組關(guān)聯(lián)分析(genome-wide association study,GWAS)是定位基因組中與性狀顯著關(guān)聯(lián)的變異位點(diǎn)的有效方法。隨著表型記錄的完善、高通量基因型分型技術(shù)的發(fā)展,以及統(tǒng)計(jì)方法的改進(jìn),全基因組關(guān)聯(lián)分析在人類疾病、動(dòng)物植物遺傳等領(lǐng)域得到了廣泛的應(yīng)用。假陽性是影響全基因組關(guān)聯(lián)分析結(jié)果可靠性的重要因素之一。為了控制假陽性,除了校正值,GWAS模型從最簡單的方差分析(或用于質(zhì)量性狀的卡方檢驗(yàn))到加入固定效應(yīng)協(xié)變量的普通線性模型(general linear model,GLM),再到加入隨機(jī)效應(yīng)的混合線性模型(mixed linear model,MLM)持續(xù)改進(jìn),控制了多種混雜因素導(dǎo)致的假陽性。將個(gè)體的遺傳效應(yīng)擬合為由基因組親緣關(guān)系矩陣(genomic relationships matrix,GRM)定義的隨機(jī)效應(yīng)是目前常用的方法。由于MLM的參數(shù)估計(jì)大量消耗計(jì)算資源,研究人員不斷嘗試模型求解優(yōu)化和GRM的構(gòu)建優(yōu)化(GRM的構(gòu)建優(yōu)化同時(shí)也提高了計(jì)算效率),最終將基于MLM計(jì)算的時(shí)間復(fù)雜度由O(MN3)逐步改進(jìn)到O(MN),實(shí)現(xiàn)了計(jì)算速度與統(tǒng)計(jì)功效的飛躍。針對(duì)質(zhì)量性狀病例對(duì)照比失衡帶來的假陽性問題,研究人員進(jìn)一步對(duì)廣義混合線性模型(generalized linear mixed model,GLMM)進(jìn)行了校正。本文較全面地介紹了GWAS的基本原理和發(fā)展,著重闡述了GWAS中MLM模型的改進(jìn)和優(yōu)化細(xì)節(jié),同時(shí),列舉了GWAS在農(nóng)業(yè)中的應(yīng)用,包括在植物、動(dòng)物和微生物方面的研究成果,以及基于單倍型的GWAS應(yīng)用。最后,從進(jìn)一步提高GWAS統(tǒng)計(jì)功效和GWAS試驗(yàn)設(shè)計(jì)2個(gè)角度對(duì)GWAS未來的發(fā)展進(jìn)行了展望。
全基因組關(guān)聯(lián)分析;復(fù)雜性狀;隨機(jī)效應(yīng);基因組親緣關(guān)系矩陣;混合線性模型
20世紀(jì)以來,作為一種有效的候選基因定位方法,連鎖分析廣泛用于定位孟德爾性狀和常見疾病的基因和變異[1]。連鎖分析在家系內(nèi)尋找性狀與標(biāo)記等位基因的共分離,對(duì)于單基因性狀的定位具有較高的精度。對(duì)于人類遺傳病等復(fù)雜性狀的遺傳位點(diǎn),由于單個(gè)變異的邊際效應(yīng)過小,其方法具有較大的局限[2]。人類基因組計(jì)劃(human genome project,HGP)在2001年發(fā)表了人類基因組草圖,成為基因組研究的一個(gè)重大進(jìn)步。人類基因組單體型圖計(jì)劃(the international hapmap project,HapMap)于2002年啟動(dòng),旨在建立人類全基因組遺傳變異圖譜。HapMap計(jì)劃基于2個(gè)重要的遺傳概念:其一是遺傳變異和表型變異存在關(guān)聯(lián);其二是標(biāo)記之間的連鎖不平衡(linkage disequilibrium,LD)。在LD區(qū)間內(nèi),變異之間的信息冗余,LD的程度決定需要多少個(gè)遺傳變異來對(duì)全基因組進(jìn)行“標(biāo)記”。這兩點(diǎn)也成為全基因組關(guān)聯(lián)分析(genome-wide association study,GWAS)重要的理論基礎(chǔ)。
在人類基因組計(jì)劃完成后的十年,以Illumina Infinium和Affymetrix原位光刻為代表的高密度芯片分型技術(shù),以及以Solexa為代表的下一代測序技術(shù)(next generation sequencing,NGS)飛速發(fā)展,大大提高了基因分型的通量并降低了分型成本。眾多物種基因組圖譜的繪制和高通量基因型分型技術(shù)的進(jìn)步,為GWAS研究提供了豐富的標(biāo)記信息,促進(jìn)了人類和動(dòng)植物疾病以及復(fù)雜性狀的遺傳定位。另一方面,GWAS的統(tǒng)計(jì)模型從非參數(shù)卡方檢驗(yàn)到普通線性模型(general linear model,GLM)再到混合線性模型(mixed linear model,MLM)持續(xù)改進(jìn),MLM成為當(dāng)前GWAS的首選方法。與其他方法相比,MLM可以同時(shí)捕獲由于群體分層、家系結(jié)構(gòu)和潛在關(guān)聯(lián)而產(chǎn)生的混雜效應(yīng),實(shí)現(xiàn)了更高的統(tǒng)計(jì)功效[2-4]。盡管與簡單的模型相比,基于MLM的GWAS分析計(jì)算量非常大,但隨著研究者的不斷努力,目前大規(guī)模GWAS的計(jì)算已經(jīng)被優(yōu)化到人們可以接受的程度,其算法的時(shí)間復(fù)雜度實(shí)現(xiàn)了O(MN3)—O(MN2)—O(MN1.5)—O(MN)的巨大進(jìn)步[5-7]。
盡管連鎖不平衡也是GWAS的理論基礎(chǔ)之一,GWAS并不依賴于家系而是利用群體的歷史重組信息。常見疾病-常見變異假設(shè)(common disease common variant,CDCV)認(rèn)為常見疾病由多個(gè)在群體中普遍存在的變異共同導(dǎo)致,每個(gè)變異都對(duì)疾病發(fā)生產(chǎn)生貢獻(xiàn)。基于CDCV假設(shè),GWAS使用豐富的單核苷酸多態(tài)(single nucleotide polymorphism,SNP)為標(biāo)記,掃描表型在整個(gè)基因組中的關(guān)聯(lián)信號(hào)。
GWAS中各位點(diǎn)通常獨(dú)立進(jìn)行檢驗(yàn)。對(duì)于二元質(zhì)量性狀,數(shù)據(jù)可以表示為一個(gè)列聯(lián)表,表中每個(gè)元素為具有特定基因型-表型組合類別的個(gè)體數(shù)量,使用卡方檢驗(yàn)判斷類別之間的獨(dú)立性。遺傳模型的類型決定了列表的形式,例如,在顯性或隱性模型的情況下是一個(gè)2×2的列聯(lián)表,而加性模型則用一個(gè)2×3的列聯(lián)表表示。由于加性模型認(rèn)為基因型與表型具有有序關(guān)系,在趨勢或有序的假設(shè)下,也可以使用Cochran- Armitage趨勢檢驗(yàn)來捕捉這種關(guān)系。
在實(shí)際應(yīng)用中,研究人員可能希望加入?yún)f(xié)變量來控制混雜因素,例如,某種疾病的患病概率往往隨著年齡的增長而增加,或者與性別相關(guān)。使用線性模型可以方便地將年齡和性別作為協(xié)變量加入,對(duì)模型進(jìn)行調(diào)整。對(duì)于質(zhì)量性狀,最常用的線性模型是logistic回歸模型[8]。而對(duì)于數(shù)量性狀,則使用GLM。
群體分層是另一類主要的混雜因素。群體分層指亞群體間等位基因頻率的系統(tǒng)性差異。從群體遺傳學(xué)的角度看,群體分層可能由于選擇壓力或者遺傳漂變所致。群體分層可能造成基因型和表型的虛假關(guān)聯(lián)。如圖1所示,子群體1和子群體2之間存在明顯的等位基因頻率差異,單獨(dú)來看,2個(gè)子群體的OR值(odds ratio)均為1。將2個(gè)子群體結(jié)合后,合并后群體的OR值達(dá)到2.87,提示群體分層造成了假陽性結(jié)果。為了識(shí)別真正的關(guān)聯(lián)信號(hào),控制群體分層很有必要[9]。
圖1 群體分層示例
控制群體分層的第一種方法是使用單一群體確保群體同質(zhì)性。第二種方法是基于家系的設(shè)計(jì),從直系子女和全同胞個(gè)體中挑選不同表型的個(gè)體進(jìn)行分析。第三種方法是使用Devlin等[10]提出的基因組控制方法,使用Cochran-Armitage趨勢檢驗(yàn)來計(jì)算膨脹系數(shù),用來校正卡方統(tǒng)計(jì)量的膨脹。然而這些方法存在一些局限性,比如難以獲得足夠符合要求的樣本,方法的適用性有限,以及使用統(tǒng)一的調(diào)整忽略了個(gè)體間基因型的差異。為了解決這些局限,人們開發(fā)了另一種替代方法,即用基因型主成分來捕捉群體結(jié)構(gòu)[11]。主成分分析抽取數(shù)據(jù)中的主要變異,被證明能夠準(zhǔn)確反映種群之間整體的遺傳差異,人們將基因型前幾個(gè)主成分用作協(xié)變量來校正群體分層產(chǎn)生的影響。由于其計(jì)算簡單,效果較好,基于主成分的校正是目前最常用的控制群體分層的方法。
由于目前的全基因組分型芯片或全基因組測序提供的基因座數(shù)量可達(dá)上百萬,因此,GWAS中對(duì)每個(gè)基因座單獨(dú)檢驗(yàn)后的顯著性校正尤為重要。Bonferroni校正是多重檢驗(yàn)校正的經(jīng)典方法,然而,使用Bonferroni校正GWAS閾值可能由于LD的存在而變得過于保守[12]。人中GWAS普遍使用的閾值為5×10-8,該閾值基于假設(shè)獨(dú)立的SNP數(shù)目大約為100萬個(gè),其閾值隨SNP數(shù)目的增加而逐漸嚴(yán)格。相比于Bonferroni校正,F(xiàn)DR(false discovery rate)校正是一種“相對(duì)溫和”的校正方法。該方法不追求完全避免假陽性的結(jié)果,而是將假陽性結(jié)果和真陽性的比例控制在一定范圍內(nèi),一般選擇信號(hào)的前5%作為FDR校正的標(biāo)準(zhǔn)。此外,使用置換檢驗(yàn)(permutation test)來獲得調(diào)整后的顯著性值被認(rèn)為是最好的校正方法,但這種方法的計(jì)算量大,盡管使用其近似方法[13]可以提高計(jì)算效率,但在實(shí)際應(yīng)用中幾乎仍是不可行的。
在線性模型中,通常使用樣本來自亞群的比例或全部基因型計(jì)算所得的主成分(principal component,PC)表示群體結(jié)構(gòu),稱其為Q矩陣[10, 14]。Q矩陣中的協(xié)變量被用作固定效應(yīng)進(jìn)行擬合。該模型表示為=++,其中,和分別是表型和單個(gè)遺傳標(biāo)記(SNP),是殘差。這個(gè)GLM也被稱為Q模型。
除了群體分層,人們意識(shí)到來自個(gè)體的效應(yīng)(或等價(jià)的多基因效應(yīng))也是產(chǎn)生結(jié)果偏倚的因素。個(gè)體效應(yīng)的自相關(guān)結(jié)構(gòu)可以通過個(gè)體之間的親緣關(guān)系矩陣來指示[15],早期在動(dòng)物中多使用基于系譜的親緣關(guān)系矩陣,由于植物系譜往往未知,因此,無法將在動(dòng)物中使用的策略直接用于植物[16]。而使用全基因組遺傳標(biāo)記可方便地計(jì)算基因組親緣關(guān)系矩陣(genomic relationships matrix,GRM)(此處也稱為K),此時(shí)個(gè)體的遺傳效應(yīng)被擬合為由K定義的隨機(jī)效應(yīng)。同時(shí)具有Q和K的模型是MLM,表示為=+++,也稱為Q+K模型[4]。研究表明,Q和Q+K模型較好地控制了假陽性,而且Q+K模型比Q模型或單獨(dú)的K模型表現(xiàn)更好[4, 15]。
在最初的MLM模型中[4],Q+K方法的混合模型方程表示為:
=++++
式中,為表型向量;是除SNP或種群結(jié)構(gòu)以外的固定效應(yīng);是SNP固定效應(yīng);是群體結(jié)構(gòu)固定效應(yīng);是多基因隨機(jī)效應(yīng);是殘差;、、、是分別與、、、對(duì)應(yīng)的設(shè)計(jì)矩陣。隨機(jī)效應(yīng)的方差()=KV,是個(gè)體親緣關(guān)系n階方陣,V為多基因遺傳方差;表型的方差=KV+RV,是n階單位矩陣,V為殘差方陣。通過求解混合模型方程,可獲得、、(固定效應(yīng))的最佳線性無偏估計(jì)值(best linear unbiased estimate,BLUE)和(隨機(jī)效應(yīng))的最佳線性無偏預(yù)測值(best linear unbiased prediction,BLUP)。MLM進(jìn)一步避免了個(gè)體相關(guān)導(dǎo)致的假陽性結(jié)果[17]。
最大似然法(maximum likelihood,ML)或約束最大似然法(restricted maximum likelihood,REML)常用于MLM的方差組分估計(jì)。與GLM相比,MLM的計(jì)算量非常龐大,研究人員從不同角度對(duì)MLM用于GWAS進(jìn)行計(jì)算效率和統(tǒng)計(jì)功效上的優(yōu)化,表1總結(jié)了GWAS中MLM的優(yōu)化模型。Kang等[18]提出了高效混合模型關(guān)聯(lián)(efficient mixed model association,EMMA)法。在似然估計(jì)中,EMMA通過把遺傳方差和殘差方差2個(gè)組分的優(yōu)化簡化為對(duì)兩者比值的優(yōu)化,并通過特征分解簡化參數(shù)估計(jì)中的迭代運(yùn)算,顯著提高了MLM的求解速度。
GWAS中使用成百上千的個(gè)體和成千上萬的標(biāo)記,對(duì)每個(gè)標(biāo)記進(jìn)行檢測時(shí)都估計(jì)一次隨機(jī)效應(yīng)的方差使得全基因組分析效率低下。Kang等[19]又提出了改進(jìn)的高效混合模型關(guān)聯(lián)(efficient mixed-model association expedited,EMMAX)法,該方法認(rèn)為由位點(diǎn)多基因效應(yīng)捕獲的個(gè)體隨機(jī)效應(yīng)在模型中的貢獻(xiàn)很小。基于這樣的假設(shè),EMMAX法把對(duì)隨機(jī)效應(yīng)方差的多次估計(jì)改為單次估計(jì)并將其在模型中固定。EMMAX法可以視作EMMA法的簡化近似方法,在隨機(jī)效應(yīng)方差組分估計(jì)完成后,采用GLM單獨(dú)估計(jì)每個(gè)標(biāo)記的效應(yīng),計(jì)算速度相對(duì)于EMMA獲得了大幅提升。
壓縮MLM法(compressed mixed linear model,CMLM)[20]通過聚類把相近個(gè)體劃分為不同組別,通過組間GRM來替代個(gè)體間GRM實(shí)現(xiàn)對(duì)隨機(jī)效應(yīng)的壓縮。由于隨機(jī)效應(yīng)的計(jì)算和個(gè)體數(shù)的三次方成正比,此方法大大節(jié)省了計(jì)算時(shí)間。Li等[21]對(duì)CMLM算法進(jìn)行改進(jìn),從8種聚類算法與3種組間親緣關(guān)系算法的24種組合中計(jì)算最優(yōu)組合,稱其為增強(qiáng)CMLM(enriched CMLM,ECMLM),把CMLM的檢測功效提高了10%左右。在提出CMLM的同時(shí),Zhang等[20]也提出了提前確定模型的群體參數(shù)(population parameters previously determined,P3D)的兩步法優(yōu)化策略,第一步通過沒有標(biāo)記效應(yīng)的簡化模型估計(jì)總的遺傳方差、殘差以及聚類數(shù)等群體參數(shù),這些參數(shù)作為先驗(yàn)信息在第二步的模型中固定使用。第二步依然使用MLM,把原始表型和已估計(jì)的參數(shù)用于模型中估計(jì)標(biāo)記效應(yīng)。CMLM和P3D可單獨(dú)或聯(lián)合使用來優(yōu)化計(jì)算和提供統(tǒng)計(jì)功效,相對(duì)于常規(guī)MLM獲得數(shù)千倍的效率提升。
Lippert等[5]提出因式譜變換線性混合模型(factored spectrally transformed linear mixed models,F(xiàn)ast-LMM)。該方法的核心是對(duì)GRM進(jìn)行一次特征分解,轉(zhuǎn)化為多個(gè)不相關(guān)的矩陣后使其能使用GLM進(jìn)行高效求解。由于方法并不要求每個(gè)標(biāo)記具有相同的效應(yīng),F(xiàn)ast-LMM方法得到的是各標(biāo)記效應(yīng)的精確估計(jì)。作者將Fast-LMM與EMMAX進(jìn)行比較,在(wellcome trust case control consortium,WTCCC)克羅恩?。–rohn’s disease)數(shù)據(jù)集的4 000與8 000個(gè)標(biāo)記中,F(xiàn)ast-LMM的計(jì)算速度分別為EMMAX的11和5倍。
Aulchenko等[22]首次提出了簡單快速的GRAMMAR法(genome wide rapid association using mixed model and regression)進(jìn)行GWAS。GRAMMAR分為兩步:第一步使用GRM作為隨機(jī)效應(yīng)和除標(biāo)記效應(yīng)外的協(xié)變量做固定效應(yīng)建模。第一步模型的殘差作為第二步模型的表型,第二步使用GLM僅對(duì)每個(gè)標(biāo)記單獨(dú)建模。GRAMMAR法第一步中MLM相對(duì)耗時(shí),而剝離了隨機(jī)效應(yīng)的第二步GLM非常高效。為了改進(jìn)GRAMMAR在標(biāo)記效應(yīng)估計(jì)上的偏差,作者團(tuán)隊(duì)提出了改進(jìn)的二步法GRAMMAR-Gamma[23]。該方法在第一步中通過特征分解加速矩陣運(yùn)算,并構(gòu)造了不考慮標(biāo)記相關(guān)性的簡化得分檢驗(yàn)(score test)統(tǒng)計(jì)量和GRAMMAR-Gamma校正因子。在第二步中仍然使用GLM對(duì)每個(gè)標(biāo)記單獨(dú)建模,但對(duì)檢驗(yàn)統(tǒng)計(jì)量除以GRAMMAR-Gamma因子進(jìn)行校正以獲得更精確的標(biāo)記效應(yīng)的估計(jì)。該方法取得了與標(biāo)準(zhǔn)似然檢驗(yàn)幾乎相同的功效,但極大降低了運(yùn)算時(shí)間。作者使用人類和擬南芥的數(shù)據(jù)發(fā)現(xiàn)GRAMMAR-Gamma的運(yùn)行時(shí)間遠(yuǎn)小于EMMAX和Fast-LMM,在運(yùn)行速度上分別為二者的38和10倍,再次提高了計(jì)算效率。
全基因組高效混合模型關(guān)聯(lián)(genome-wide efficient mixed-model association,GEMMA)法[24]在對(duì)GRM進(jìn)行特征分解之前,對(duì)矩陣求一階和二階導(dǎo)數(shù)。為了避免EMMA中對(duì)每一個(gè)標(biāo)記復(fù)雜的特征分解步驟,使用矩陣向量乘法替代特征分解,轉(zhuǎn)化為只涉及標(biāo)量的遞歸乘法優(yōu)化求解。GEMMA法通過優(yōu)化大型矩陣運(yùn)算,顯著提高了GWAS的運(yùn)行速度,并獲得和EMMA法一致的精確解。使用雜交小鼠的高密度脂蛋白膽固醇(high-density lipoprotein cholesterol,HDL-C)數(shù)據(jù),作者報(bào)道GEMMA的運(yùn)行速度為Fast-LMM的13.6倍,而使用WTCCC的克羅恩病數(shù)據(jù),GEMMA的運(yùn)行速度為Fast-LMM的1.87倍。作者同時(shí)指出,EMMAX與GRAMMAR等近似方法可能導(dǎo)致假陰性,造成GWAS檢測的功效降低。
Fast-LMM的作者進(jìn)一步提出使用全部標(biāo)記的子集構(gòu)建GRM來降低計(jì)算開銷,稱為FaST-LMM- Select[25]。在操作中,作者首先使用GLM對(duì)標(biāo)記進(jìn)行檢驗(yàn)并對(duì)值進(jìn)行升序排序。選取達(dá)到基因組控制因子λ時(shí)對(duì)應(yīng)的標(biāo)記集合,剔除其中強(qiáng)連鎖的標(biāo)記,使用剩余標(biāo)記構(gòu)建性狀特異的GRM。該方法進(jìn)一步降低了計(jì)算成本,且作者發(fā)現(xiàn)相較于使用全部標(biāo)記,該方法能顯著降低假陽性和假陰性率。Wang等[26]提出的SUPER(settlement of mlm under progressively exclusive relationship)方法運(yùn)用了類似的概念來優(yōu)化GRM的構(gòu)建。該方法對(duì)標(biāo)記預(yù)先獲得的值或效應(yīng)值進(jìn)行排序,在劃分好的若干染色體片段中,選取每個(gè)片段中值最低的標(biāo)記并剔除與待測標(biāo)記連鎖的標(biāo)記后,同樣使用剩余標(biāo)記構(gòu)建性狀特異的GRM。經(jīng)作者比較,該方法比FaST-LMM-Select的假陽性更低,并提高了對(duì)遺傳力的估計(jì)。之后發(fā)表的BOLT-LMM[6]法包括兩部分,基礎(chǔ)部分和主流方法一樣采用微效多基因假設(shè)下的混合線性模型。但是在估計(jì)方差組分時(shí)使用共軛梯度法實(shí)現(xiàn)近似計(jì)算,避免了特征分解所需的大量計(jì)算時(shí)間和內(nèi)存。作者采用一種新的回顧性得分檢驗(yàn)并使用類似GRAMMAR-Gamma的方法對(duì)統(tǒng)計(jì)量進(jìn)行校正。BOLT-LMM的改進(jìn)部分借鑒了貝葉斯方法在動(dòng)植育種基因組選擇中的應(yīng)用,認(rèn)為大部分標(biāo)記效應(yīng)較小但存在少部分大效應(yīng)標(biāo)記,其假設(shè)更貼合實(shí)際。作者使用高斯混合分布作為標(biāo)記效應(yīng)的先驗(yàn)分布來擬合貝葉斯線性回歸,通過快速變分法得到近似的表型殘差。最后,基于表型殘差使用同樣的回顧性得分對(duì)每個(gè)標(biāo)記進(jìn)行檢驗(yàn)并使用LD分?jǐn)?shù)回歸(LD score regression,LDSC)[27]對(duì)統(tǒng)計(jì)量進(jìn)行調(diào)整。使用23 294個(gè)人樣本的脂質(zhì)、身高、體重指數(shù)和血壓等定量性狀,作者證明BOLT-LMM具有更高的統(tǒng)計(jì)功效,且運(yùn)行效率相較FaST-LMM-Select、GEMMA和EMMAX等更高。
Jiang等[7]開發(fā)了基于MLM的GWAS工具fastGWA,采用高效的基于網(wǎng)格搜索的約束性最大似然(restricted maximum likelihood,REML)算法fastGWA-REML。在對(duì)GRM稀疏化的基礎(chǔ)上,方差組分估計(jì)時(shí)對(duì)矩陣使用Cholesky分解避免對(duì)其求逆。fastGWA使用了與GRAMMAR-Gamma類似的統(tǒng)計(jì)量檢驗(yàn)關(guān)聯(lián)性。fastGWA方法比其他基于MLM的工具快幾個(gè)數(shù)量級(jí),其內(nèi)存使用量也極大降低。作者抽取了英國生物樣本庫(UK Biobank,UKB)中400 000個(gè)樣本,分別使用fastGWA與BOLT-LMM對(duì)體重指數(shù)進(jìn)行GWAS分析。fastGWA的運(yùn)行時(shí)間為BOLT-LMM的1.22%,內(nèi)存使用量僅為BOLT-LMM的5%,使得Biobank級(jí)的GWAS運(yùn)算成為可能。
上述方法更多聚焦于MLM,尤其是針對(duì)模型中作為隨機(jī)效應(yīng)的GRM的計(jì)算優(yōu)化,個(gè)別方法在構(gòu)建GRM時(shí)做了一些簡化,但是總體思路接近,方法的統(tǒng)計(jì)功效依然與傳統(tǒng)的MLM類似。MLM較好地控制了假陽性,但是人們意識(shí)到,在一定程度上其存在標(biāo)記效應(yīng)和控制效應(yīng)的混雜,造成了一定程度的假陰性結(jié)果。于是一些新的方法嘗試在模型中剝離隨機(jī)效應(yīng),從而解決這類混雜問題。
多位點(diǎn)混合模型(multi-locus mixed-model,MLMM)法[28]采用前向后向選擇組合的逐步選擇策略對(duì)常規(guī)的MLM進(jìn)行改進(jìn)。在前向選擇中,每一步都首先估計(jì)方差組分,將最顯著的標(biāo)記作為固定效應(yīng)的協(xié)變量逐步加入模型,用來壓縮模型中的隨機(jī)效應(yīng)。過程中持續(xù)更新模型的方差組分,直到隨機(jī)效應(yīng)解釋的變異接近于零或達(dá)到指定的循環(huán)數(shù)后結(jié)束前向選擇。類似地,在隨后的后向選擇中逐步把最不顯著的標(biāo)記協(xié)變量從模型中剔除。為了避免近端污染(proximal contamination),作者建議模型中作為協(xié)變量的標(biāo)記不參與GRM的構(gòu)建。
MLMM法使用向前向后逐步回歸消除了一部分檢測標(biāo)記效應(yīng)的混雜問題,增強(qiáng)了GWAS的統(tǒng)計(jì)功效。在此基礎(chǔ)上,Liu等[14]提出交替使用固定效應(yīng)和隨機(jī)效應(yīng)(fixed and random model circulating probability unification,F(xiàn)armCPU)來進(jìn)一步解決模型中混雜問題的方法。對(duì)每一個(gè)標(biāo)記,該方法把篩選后可能的關(guān)聯(lián)位點(diǎn)作為協(xié)變量加入固定效應(yīng)模型來進(jìn)行檢測。而候選關(guān)聯(lián)位點(diǎn)的篩選是在獨(dú)立的隨機(jī)效應(yīng)模型中進(jìn)行,更新候選關(guān)聯(lián)位點(diǎn)后重新進(jìn)入固定效應(yīng)模型對(duì)標(biāo)記進(jìn)行檢測,循環(huán)往復(fù)直到?jīng)]有新的候選關(guān)聯(lián)位點(diǎn)加入到固定效應(yīng)模型中。由于模型中沒有同時(shí)出現(xiàn)固定和隨機(jī)效應(yīng),F(xiàn)armCPU方法避免了不同效應(yīng)的混雜,并同時(shí)控制了假陽性和假陰性。作者團(tuán)隊(duì)針對(duì)FarmCPU的改進(jìn)方法BLINK(Bayesian-information and linkage-disequilibrium iteratively nested keyway)法[29]更是不再使用隨機(jī)效應(yīng)模型,而是使用連鎖不平衡和貝葉斯信息準(zhǔn)則(Bayesian information criterion,BIC)來入選和篩選可能的關(guān)聯(lián)位點(diǎn)。作者使用模擬數(shù)據(jù)對(duì)BLINK和FarmCPU進(jìn)行評(píng)估,發(fā)現(xiàn)BLINK的運(yùn)行速度是FarmCPU的3—4倍,且BLINK更具有發(fā)掘額外遺傳位點(diǎn)的潛力。本文在單個(gè)處理器上(Intel(R) Xeon(R) Gold 6230 CPU @ 2.10GHz)比較了上述模型的單核運(yùn)算時(shí)間。從Galbase數(shù)據(jù)庫[30]下載928個(gè)樣本的基因型數(shù)據(jù),隨機(jī)抽取GGA 11上443 218個(gè)位點(diǎn)用于GWAS測試。表型數(shù)據(jù)使用GCTA[31]進(jìn)行模擬,選擇100、200、400、600、800和928個(gè)樣本進(jìn)行不同樣本量梯度的測試。經(jīng)測試,EMMA、CMLM、SUPER運(yùn)算時(shí)間依次減少,但遠(yuǎn)高于其他模型(圖2)。FastGWA運(yùn)算速度最快,其次為GEMMA、BLINK、FarmCPU,其運(yùn)算時(shí)間在樣本量較大時(shí)明顯低于其他模型。BOLT-LMM、MLMM、FaST-LMM、EMMAX運(yùn)算時(shí)間高于上述4個(gè)模型,可能由于樣本量和標(biāo)記數(shù)目的限制,未能觀察到明顯差距(圖2)。
表1 GWAS中MLM的優(yōu)化模型
圖2 混合模型算法概述與運(yùn)算速度比較
隨著許多大型生物樣本庫和隊(duì)列的建立,基于MLM的GWAS在數(shù)量性狀中取得了巨大的成功。然而大部分人類遺傳病是病例對(duì)照(case-control)研究,屬于二分類的質(zhì)量性狀,患病率較低的疾病還可能出現(xiàn)病例-對(duì)照比極不平衡的現(xiàn)象,這樣的數(shù)據(jù)不滿足MLM中殘差具有方差均等的假設(shè)。當(dāng)存在群體分層,尤其病例-對(duì)照比不平衡時(shí),基于MLM的GWAS可能無法有效地控制Ⅰ型錯(cuò)誤率(假陽性),因此,研究者們對(duì)MLM做出擴(kuò)展,將更適合此類情況的廣義混合線性模型(generalized linear mixed model,GLMM)應(yīng)用于GWAS中,表2匯總了GWAS中GLMM的優(yōu)化模型。
Chen等[32]提出廣義線性混合模型關(guān)聯(lián)檢驗(yàn)(generalized linear mixed model association test,GMMAT),該方法基于殘差異方差的logistic混合模型。方法首先構(gòu)建不含標(biāo)記效應(yīng)的零模型,模型擬合中作者使用懲罰擬似然法(penalized quasi-likelihood,PQL)和平均信息約束最大似然法(average information restricted maximum likelihood,AI-REML)進(jìn)行參數(shù)估計(jì)。估計(jì)得到的模型參數(shù)被固定下來用于所有標(biāo)記,并在此基礎(chǔ)上使用得分檢驗(yàn)對(duì)每個(gè)標(biāo)記效應(yīng)進(jìn)行估計(jì)。作者比較了GMMAT和SAS的PROC GLIMMIX過程,發(fā)現(xiàn)GMMAT在擬合具有一個(gè)方差分量的logistic混合模型時(shí),其運(yùn)算時(shí)間為SAS PROC GLIMMIX的1.5%。此外,在存在不平衡的病例-對(duì)照比的情況下,GMMAT更好地控制了假陽性。
Zhou等[33]提出了可擴(kuò)展的精確廣義混合模型(scalable and accurate implementation of generalized mixed model,SAIGE)法,用于處理病例對(duì)照比失衡的大規(guī)模質(zhì)量性狀數(shù)據(jù)。SAIGE法的步驟與GMMAT類似,但是過程中大量使用了計(jì)算優(yōu)化。SAIGE法第一步使用AI-REML估計(jì)方差組分等參數(shù),使用預(yù)處理共軛梯度法(preconditioned conjugate gradient,PCG)替代矩陣特征分解,節(jié)省了GRM相關(guān)的計(jì)算成本。第二步使用方差比來校準(zhǔn)得分統(tǒng)計(jì)量的方差,并借助鞍點(diǎn)近似法(saddlepoint approximation,SPA)克服二分類性狀中病例對(duì)照比失衡的問題,獲得準(zhǔn)確度高的值。作者從UKB中隨機(jī)抽取了冠狀動(dòng)脈疾病樣本,分別使用BOLT-LMM、GMMAT和SAIGE進(jìn)行GWAS分析。結(jié)果表明,SAIGE的假陽性率顯著優(yōu)于前兩者。SAIGE的時(shí)間復(fù)雜度與BOLT-LMM相同,但由于logistic混合模型的迭代步驟多于MLM,導(dǎo)致其運(yùn)算速度低于BOLT-LMM,但依然快于GMMAT。
同樣使用SPA來校正病例對(duì)照比失衡帶來的假陽性問題,Jiang等[34]開發(fā)的fastGWA-GLMM工具沿用了前序fastGWA法中基于網(wǎng)格搜索的算法估計(jì)方差組分,并使用GRM稀疏化提高計(jì)算效率。作者通過從UKB中隨機(jī)抽取樣本,將fastGWA-GLMM與SAIGE進(jìn)行比較,在樣本量為400 000時(shí),fastGWA-GLMM的運(yùn)行速度為SAIGE的36.8倍,極大地節(jié)省了運(yùn)算成本。
除病例-對(duì)照研究產(chǎn)生的二分類質(zhì)量性狀外,臨床上常使用有序分類測量來衡量疾病的嚴(yán)重程度,如從1—9對(duì)疾病的感染程度打分,1為基本不感染,9為嚴(yán)重感染。把有序分類變量當(dāng)作連續(xù)變量或者降級(jí)為二分類變量使用都不合適,基于此,Bi等[35]提出了比例優(yōu)勢logistic混合模型(proportional odds logistic mixed model,POLMM)法。該方法使用和上述方法相似的統(tǒng)計(jì)架構(gòu),將logistic模型應(yīng)用于有序分類表型,使用PQL與AI-REML對(duì)零模型進(jìn)行擬合并進(jìn)行參數(shù)估計(jì),也通過SPA校準(zhǔn)第二步得分檢驗(yàn)的值。根據(jù)使用的GRM的不同,POLMM法提供DensePOLMM與FastPOLMM 2種實(shí)現(xiàn),DensePOLMM使用稠密矩陣并通過PCG進(jìn)行矩陣加速運(yùn)算,F(xiàn)astPOLMM使用稀疏矩陣,在計(jì)算速度上有優(yōu)勢但統(tǒng)計(jì)功效略低于DensePOLMM。作者使用BOLT- LMM、FastPOLMM-NoSPA和FastPOLMM對(duì)UKB中4種食品偏好的有序分類變量進(jìn)行GWAS。當(dāng)表型分布平衡時(shí),BOLT-LMM獲得與FastPOLMM一致的結(jié)果;當(dāng)表型分布不平衡時(shí),F(xiàn)astPOLMM-NoSPA優(yōu)于BOLT-LMM,而FastPOLMM較前兩者更好地控制了假陽性。
表2 GWAS中GLMM的優(yōu)化模型
使用上述數(shù)據(jù)在單個(gè)處理器上(Intel(R) Xeon(R) CPU E3-1245 v6 @ 3.70GHz)比較不同樣本量下GLMM模型的單核運(yùn)算時(shí)間。與MLM測試相似,fastGWA-GLMM具有最快的運(yùn)算速度,F(xiàn)astPOLMM幾乎與其相同,SAIGE在樣本量較小時(shí)速度較快,在樣本量大于800時(shí)速度顯著降低,DensePOLMM在4種模型中使用了最多的計(jì)算時(shí)間(圖2)。
隨著MLM在GWAS中的引入,越來越多和動(dòng)植物重要性狀關(guān)聯(lián)的基因和位點(diǎn)被發(fā)現(xiàn),推動(dòng)了遺傳學(xué)的發(fā)展。
自從Hansen等[36]使用BSA分析(bulked segregant analysis)首次將GWAS用于海甜菜后,GWAS方法已成功用于植物育種、逆境生長、抵御病蟲害等方面的候選基因鑒定。Atwell等[37]使用EMMA對(duì)擬南芥自交系107種表型進(jìn)行了GWAS分析,鑒定到6種受單基因控制的表型,包括抗病響應(yīng)、開花基因表達(dá)等。
水稻與人類生活息息相關(guān),Zhao等[38]對(duì)不同國家的413種水稻品種開展GWAS分析,利用EMMA鑒定到34個(gè)與植物生理、生長發(fā)育以及植物形態(tài)發(fā)生相關(guān)的候選基因。Huang等[39]采用低深度測序數(shù)據(jù)進(jìn)行基因分型,使用CMLM法將GWAS應(yīng)用于秈稻的14種育種相關(guān)性狀,共篩選出37個(gè)與開花日期和增產(chǎn)性狀顯著相關(guān)的QTL,該分析促進(jìn)了水稻優(yōu)良農(nóng)藝性狀的遺傳解析以及品種的選育。在全球950個(gè)水稻品種中,Huang等[40]使用CMLM分別對(duì)其中的地方粳稻群體、地方秈稻群體與全部品種進(jìn)行GWAS分析,定位到32個(gè)與開花日期和農(nóng)藝性狀顯著相關(guān)的QTL。產(chǎn)量是備受關(guān)注的農(nóng)業(yè)性狀之一,研究人員在利用TASSEL開展的基于混合線性模型的14種高產(chǎn)水稻品種的GWAS分析中,找到1 152個(gè)和高產(chǎn)相關(guān)的顯著位點(diǎn),同時(shí)檢測到8個(gè)高產(chǎn)相關(guān)滲入?yún)^(qū)段,揭示了高產(chǎn)相關(guān)基因由于受到人工馴化而發(fā)生了遺傳結(jié)構(gòu)的改變[41]。
作為另一種重要的農(nóng)作物,玉米中的GWAS研究也已廣泛開展。Wang等[42]通過TASSEL軟件在114種玉米自交系品種中定位到18個(gè)與抗黑穗病顯著相關(guān)的變異位點(diǎn),同時(shí)揭示了玉米抗黑穗病的遺傳機(jī)理。Li等[43]利用CMLM在368種玉米自交系的103萬個(gè)變異位點(diǎn)中鑒定出74個(gè)與籽粒油分和脂肪酸形成相關(guān)的候選基因,結(jié)合eQTL(expression QTL)與共表達(dá)分析發(fā)現(xiàn)有三分之一的候選基因與油分的代謝途徑相關(guān)。同樣,研究人員使用CMLM進(jìn)行GWAS分析,發(fā)現(xiàn)玉米的早花性狀與220個(gè)遺傳標(biāo)記顯著關(guān)聯(lián),其中大部分關(guān)聯(lián)位點(diǎn)與擬南芥同源[44]。綠色保持是植物延緩衰老的一種表現(xiàn)形式,Sekhon等[45]通過測定葉綠素?zé)晒鈪?shù)v/m指示植物延緩衰老的程度,使用GAPIT軟件進(jìn)行關(guān)聯(lián)分析,鑒定到64個(gè)與其顯著相關(guān)的候選基因,其中14個(gè)基因已被證明與衰老過程相關(guān)。作者同時(shí)構(gòu)建了延緩衰老與正常衰老基因的共表達(dá)網(wǎng)絡(luò),對(duì)候選基因的生物學(xué)功能作出系統(tǒng)解釋。Chao等[46]通過TASSEL軟件對(duì)玉米內(nèi)核鋅濃度進(jìn)行GWAS分析,鑒定到鋅-煙酰胺轉(zhuǎn)運(yùn)蛋白基因,并驗(yàn)證了該基因過表達(dá)能夠使玉米粒中鋅濃度增加31.6%,實(shí)現(xiàn)玉米中鋅的生物強(qiáng)化。
GWAS也是動(dòng)物遺傳分析的主要研究方法之一,通過定位影響家畜重要經(jīng)濟(jì)性狀的變異位點(diǎn)和候選基因,幫助研究者更好地理解性狀的遺傳機(jī)制,在家畜育種和改良方面起到重要的推動(dòng)作用。
在1 027頭杜洛克和二花臉雜交的F2代群體的GWAS分析中,Ren等[47]發(fā)掘出多個(gè)與復(fù)雜性狀顯著相關(guān)的候選基因:使用SAS的GLM模型發(fā)現(xiàn)豬耳朵大小受到PPARD進(jìn)化保守區(qū)域變異的影響;使用R包GenABEL發(fā)現(xiàn)在糖原分解的級(jí)聯(lián)激活中發(fā)揮作用,其突變導(dǎo)致骨骼肌糖酵解潛能增加,進(jìn)而影響豬肉產(chǎn)量[48]。Wang等[49]在82頭母豬中使用CMLM進(jìn)行GWAS分析,鑒定到266個(gè)與豬出生重顯著相關(guān)的QTL。Guo等[50]分別使用MLM與貝葉斯混合模型,共定位到15個(gè)與仔豬數(shù)目與死亡率性狀有關(guān)的候選基因。Gozalo-Marcilla等[51]使用GEMMA對(duì)來自8個(gè)具有不同遺傳背景的275 590頭豬的背腩厚度性狀進(jìn)行GWAS分析,共定位到264個(gè)位點(diǎn)與背腩厚度顯著關(guān)聯(lián),鑒定了64個(gè)與脂肪代謝相關(guān)的候選基因。
雞的GWAS分析大多聚焦于生長、產(chǎn)蛋與抗病性狀。Gu等[52]使用烏骨雞與白洛克雞雜交的F2群體,利用PLINK軟件定位到基因組中3個(gè)與雞體重相關(guān)的區(qū)段。該課題組后續(xù)進(jìn)行了多個(gè)種雞不同表型性狀的GWAS研究,包括羽毛形態(tài)、胡須與雞冠形態(tài)等方面[53-54],同時(shí)使用祖先單倍型對(duì)雞的生長性狀進(jìn)行精細(xì)定位,篩選出9個(gè)關(guān)鍵的候選區(qū)段供進(jìn)一步研究[55]。在400只中國雞的生殖性狀GWAS分析中,F(xiàn)an等[56]利用PLINK軟件鑒定到19個(gè)與蛋重、產(chǎn)蛋數(shù)等性狀相關(guān)的QTL,定位到、、等17個(gè)候選基因。Li等[57]使用GEMMA對(duì)839只母雞的多個(gè)蛋殼晶體結(jié)構(gòu)相關(guān)性狀進(jìn)行GWAS分析,鑒定到GGA1上55.6—69.1 Mb區(qū)間內(nèi)部621個(gè)顯著信號(hào),注釋到、、、、和等參與調(diào)節(jié)胞質(zhì)鈣離子濃度生物過程的基因。Guo等[58]通過建立肉雞外翻-內(nèi)翻畸形(valgus-varus deformity,VVD)病例組與對(duì)照組,基于233個(gè)樣本使用GEMMA進(jìn)行GWAS分析,篩選到5個(gè)與VVD顯著相關(guān)的變異,并將GWAS與轉(zhuǎn)錄組分析整合,定位到重要的易感基因。
羊是中國重要的農(nóng)業(yè)動(dòng)物,其種類繁多,且具有豐富的遺傳資源[59]。Demars等[60]使用PLINK對(duì)2種羔羊開展GWAS后定位到與高產(chǎn)表型和排卵率顯著關(guān)聯(lián),揭示了在羔羊卵巢發(fā)育功能中的關(guān)鍵作用,為探索生育障礙提供了重要依據(jù)。He等[61]將GWAS分析用于3個(gè)不同品種的中國本土綿羊,使用CMLM在雙角羊和四角羊中鑒定到和2個(gè)候選基因,幫助理解綿羊角發(fā)育的分子調(diào)控。
水產(chǎn)養(yǎng)殖的遺傳收益總體上高于陸地農(nóng)業(yè)動(dòng)物[62],水產(chǎn)的抗病育種具有重要的經(jīng)濟(jì)意義。大西洋鮭魚普遍受到細(xì)菌性腎病的侵?jǐn)_,Holborn等[63]使用GenABEL對(duì)507只大西洋鮭魚對(duì)細(xì)菌性腎病下的抗性進(jìn)行GWAS分析,發(fā)現(xiàn)其抗性為多基因性狀,并定位到2個(gè)與細(xì)菌性腎病抗性顯著相關(guān)的QTL。Peng等[64]使用PLINK對(duì)黃河鯉魚體重、體長和胴體重量等性狀進(jìn)行QTL定位,鑒定出多個(gè)與神經(jīng)發(fā)育,基礎(chǔ)代謝相關(guān)的基因,為黃河鯉魚生長性狀的選育提供了遺傳材料。黃花魚同樣是我國的傳統(tǒng)養(yǎng)殖魚類之一,黃花魚具有明顯的性別二態(tài)性,雌性黃花魚的生長性狀顯著優(yōu)于雄性。LIN等[65]對(duì)905只黃花魚(463只雌性,442只雄性)開展GWAS分析,使用TASSEL在第21染色體處發(fā)現(xiàn)22個(gè)QTL與性別決定顯著相關(guān),鑒定到包括調(diào)控精子發(fā)育、雌性激素代謝功能的14個(gè)候選基因。同時(shí),對(duì)不同性別性腺指數(shù)的GWAS確定了第18染色體與雄性性腺發(fā)育相關(guān)的區(qū)段,鑒定到相關(guān)調(diào)節(jié)基因、和。
微生物與植物的整個(gè)生長過程息息相關(guān)。植物病原微生物在定植后導(dǎo)致植物產(chǎn)生特定疾病,從而影響植物生長。Davila等[66]使用Fast-LMM在350株擬南芥中鑒定出干旱條件下與灰霉菌()真菌病原體相關(guān)的轉(zhuǎn)錄因子,其與耐寒及壞死真菌抵抗相關(guān)。Zhang等[67]使用701種不同水稻種質(zhì)和23種不同水稻白葉枯病菌(pv,)菌株進(jìn)行跨物種GWAS,使用EMMAX篩選出47個(gè)毒力相關(guān)基因和318個(gè)水稻不完全抗性基因,并對(duì)毒力相關(guān)基因與抗病基因之間的基因互作加以闡述。Martins等[68]使用BLINK對(duì)豌豆的派倫霉菌()抗性以及莖直徑等生長性狀進(jìn)行GWAS,發(fā)現(xiàn)具有抗病性的等位基因?qū)е铝溯^低的株高,印證了植物抗病以犧牲自身生長為代價(jià)這一結(jié)論[69]。de Ronne等[70]同時(shí)使用ECMLM、FarmCPU和BLINK在357個(gè)大豆品種中發(fā)現(xiàn)了新的大豆疫霉菌()抗性QTL,該QTL的LD區(qū)塊內(nèi)包含與病原體抗性相關(guān)的乳膠蛋白編碼基因。
與病原微生物不同,根際微生物中存在一部分能夠促進(jìn)植物營養(yǎng)吸收的共生體[71]。根際微生物正向促進(jìn)了植物的營養(yǎng)吸收能力與范圍,同時(shí)調(diào)節(jié)植物的生長發(fā)育與抗性反應(yīng)[72]。Bergelson等[73]使用EMMAX基于擬南芥的細(xì)菌豐度數(shù)據(jù)鑒定到與,其分別調(diào)控植物免疫與側(cè)根形成;通過真菌的豐度數(shù)據(jù)發(fā)現(xiàn)SNARE蛋白的靶點(diǎn),其參與根毛蛋白質(zhì)轉(zhuǎn)運(yùn)。研究發(fā)現(xiàn)細(xì)菌與真菌豐富度的GWAS結(jié)果基本沒有重疊,表明細(xì)菌與真菌群落豐富度受到不同基因的影響。Deng等[74]使用GEMMA研究了高粱遺傳位點(diǎn)與根際微生物豐度的關(guān)系,并使用高粱遺傳信息成功預(yù)測根際微生物組成情況。
腸道益生菌能夠提高動(dòng)物的飼料轉(zhuǎn)化率,增加動(dòng)物體重,以及增產(chǎn)牛奶或雞蛋等農(nóng)業(yè)產(chǎn)品,實(shí)現(xiàn)更多經(jīng)濟(jì)價(jià)值[75-78]。Crespo-Piazuelo等[79]使用GEMMA對(duì)285只豬腸道微生物中18個(gè)屬的相對(duì)豐度進(jìn)行GWAS分析,發(fā)現(xiàn)、、、、和與基因型存在顯著關(guān)聯(lián),定位到包括免疫應(yīng)答與生理調(diào)節(jié)相關(guān)的多個(gè)候選基因。Bergamaschi等[80]在1 028頭豬在斷奶期、生長中期、生長末期3個(gè)生長過程的糞便中提取微生物樣本,提取腸道微生物Alpha多樣性與分類操作單元(operational taxonomic unit,OTU)作為表型數(shù)據(jù),使用EMMAX鑒定到候選基因。該基因在腸道組織中高度表達(dá),與細(xì)胞增殖相關(guān)。
復(fù)雜性狀GWAS研究有助于了解復(fù)雜性狀的遺傳機(jī)制,定位到的候選基因?yàn)檫M(jìn)一步的研究提供了指導(dǎo)方向。單倍型是染色體上共同遺傳的多個(gè)等位基因的組合,包含了等位基因間的連鎖信息。單位點(diǎn)GWAS每次檢驗(yàn)一個(gè)SNP,單倍型GWAS(haplotype- based genome-wide association study,hGWAS)把整個(gè)單倍型區(qū)塊用于GWAS分析,檢測與性狀顯著關(guān)聯(lián)的單倍型區(qū)塊。由于單倍型可能包含了位點(diǎn)之間的互作信息,一些發(fā)表的基于單倍型的GWAS分析證明hGWAS在定位效果以及統(tǒng)計(jì)意義上均強(qiáng)于基于單位點(diǎn)的GWAS[81-83]。
在水稻中,Yano等[84]把單倍型作為固定效應(yīng)進(jìn)行GWAS分析,篩選出4個(gè)與水稻農(nóng)藝性狀相關(guān)的候選基因。Ogawa等[85]使用日本的8個(gè)高產(chǎn)水稻品種構(gòu)建了日本-多親高代雜交系(Japan-multi-parent advanced generation inter-cross,JAM),通過8個(gè)祖先群體進(jìn)行hGWAS分析,鑒定到控制糯性胚乳和糯素長度性狀的QTL。與上述方法不同,Zhang等[86]開發(fā)了GLASCOW軟件將祖先單倍型加入GLMM作為第二個(gè)隨機(jī)效應(yīng)組分,即GRM控制多基因效應(yīng)而祖先單倍型控制群體分層,在3種單基因隱性疾病中獲得了EMMAX未檢測到的顯著結(jié)果。在瘦雞和肥雞兩個(gè)肉雞品種的GWAS分析中,Zhang等[87]定位到與腹部脂肪重量顯著關(guān)聯(lián)的132個(gè)單倍型區(qū)塊,篩選出7個(gè)可能在控制腹部脂肪含量中產(chǎn)生影響的候選基因。Howard等[88]在18 773個(gè)蘇格蘭家庭中發(fā)現(xiàn)了2種與重性抑郁障礙顯著關(guān)聯(lián)的單倍型,其中包括與雙相情感障礙相關(guān)的單倍型區(qū)域,該結(jié)果通過25 035個(gè)UKB中的個(gè)體加以驗(yàn)證,為揭示重度抑郁癥的遺傳機(jī)制提供了思路。
從MLM被引入GWAS起,研究人員持續(xù)對(duì)其進(jìn)行優(yōu)化。目前MLM在GWAS中的優(yōu)化主要包括2種:其一為對(duì)隨機(jī)效應(yīng)求解中GRM相關(guān)的計(jì)算優(yōu)化;其二為對(duì)隨機(jī)效應(yīng)中GRM構(gòu)建的優(yōu)化。方法的優(yōu)化大幅控制了計(jì)算結(jié)果中的假陽性,并顯著提升了計(jì)算速度。對(duì)于計(jì)算優(yōu)化部分,fastGWA作為目前最快的MLM算法實(shí)現(xiàn),已經(jīng)將GWAS中混合線性模型的時(shí)間復(fù)雜度降低至O(MN),使大規(guī)模數(shù)據(jù)的快速GWAS計(jì)算成為現(xiàn)實(shí)。伴隨著GWAS的廣泛使用,累積了越來越多的匯總數(shù)據(jù)(summary statistics),具有高統(tǒng)計(jì)功效和計(jì)算速度的META-GWAS-MLM算法有待開發(fā)以利用這些匯總數(shù)據(jù),實(shí)現(xiàn)GWAS的聯(lián)合分析。另一方面,MLM控制了假陽性卻帶來了假陰性問題,降低了統(tǒng)計(jì)功效。近期發(fā)表的方法FarmCPU與BLINK嘗試剝離隨機(jī)效應(yīng),以解決MLM導(dǎo)致的假陰性問題。提高關(guān)聯(lián)分析的統(tǒng)計(jì)功效可以考慮多種方式,使用單倍型的hGWAS可能是提高功效的方法之一。單倍型包含了可能的標(biāo)記互作信息,比單位點(diǎn)信息量更豐富。在GWAS中引入貝葉斯思想同樣能夠增加GWAS的統(tǒng)計(jì)功效,因此,MLM與先驗(yàn)信息的結(jié)合也可能是未來控制假陰性的策略之一。協(xié)變量的優(yōu)化同樣可能是混合模型GWAS的優(yōu)化內(nèi)容之一,更好地捕獲復(fù)雜數(shù)據(jù)全局和局部信息能更好地應(yīng)對(duì)群體分層。對(duì)于復(fù)雜性狀而言,基因多效性和多基因效應(yīng)是影響表型形成的關(guān)鍵因素,目前這方面的研究相對(duì)較少。開發(fā)和完善多位點(diǎn)混合模型GWAS的方法對(duì)于遺傳定位,以及研究復(fù)雜性狀的形成機(jī)制具有重要作用。
基于混合模型的GWAS已經(jīng)廣泛應(yīng)用于植物、動(dòng)物和微生物的遺傳研究,為生物育種提供了理論基礎(chǔ)和新的思路。精心設(shè)計(jì)的GWAS試驗(yàn)有助于更精確地定位到候選基因,比如使用重組自交系(recombinant inbred line,RIL)或深度雜交系(advanced intercross line,AIL)的實(shí)驗(yàn)群體能夠更好地定位候選基因。除此之外,基因與環(huán)境互作影響動(dòng)植物優(yōu)質(zhì)性狀形成的分子機(jī)制解析是未來GWAS研究的一個(gè)重要方向。目前已經(jīng)廣泛認(rèn)識(shí)到環(huán)境對(duì)于植物生長性狀具有重要的影響,適宜的環(huán)境可以顯著增加作物產(chǎn)量。通過挖掘并改良作物的環(huán)境互作基因,以及表型可塑性的相關(guān)基因,有助于了解作物的育種潛力,并幫助作物在適宜環(huán)境中增加產(chǎn)量,在惡劣環(huán)境中維持產(chǎn)量,在育種中有著重要作用。而這些在動(dòng)物的環(huán)境適應(yīng)性研究中同樣適用。
[1] BOTSTEIN D, RISCH N. Discovering genotypes underlying human phenotypes: past successes for mendelian disease, future approaches for complex disease. Nature Genetics, 2003, 33(3): 228-237.
[2] VISSCHER P M, BROWN M A, MCCARTHY M I, YANG J. Five years of GWAS discovery. The American Journal of Human Genetics, 2012, 90(1): 7-24.
[3] VISSCHER P M, WRAY N R, ZHANG Q, SKLAR P, MCCARTHY M I, BROWN M A, YANG J. 10 years of GWAS discovery: Biology, function, and translation. The American Journal of Human Genetics, 2017, 101(1): 5-22.
[4] YU J, PRESSOIR G, BRIGGS W H, BI I V, YAMASAKI M, DOEBLEY J F, MCMULLEN M D, GAUT B S, NIELSEN D M, HOLLAND J B, KRESOVICH S, BUCKLER E S. A unified mixed-model method for association mapping that accounts for multiple levels of relatedness. Nature Genetics, 2006, 38(2): 203-208.
[5] LIPPERT C, LISTGARTEN J, LIU Y, KADIE C M, DAVIDSON R I, HECKERMAN D. FaST linear mixed models for genome-wide association studies. Nature Methods, 2011, 8(10): 833-835.
[6] LOH P R, TUCKER G, BULIK-SULLIVAN B K, VILHJáLMSSON B J, FINUCANE H K, SALEM R M, CHASMAN D I, RIDKER P M, NEALE B M, BERGER B, PATTERSON N, PRICE A L. Efficient Bayesian mixed-model analysis increases association power in large cohorts. Nature Genetics, 2015, 47(3): 284-290.
[7] JIANG L, ZHENG Z, QI T, KEMPER K E, WRAY N R, VISSCHER P M, YANG J. A resource-efficient tool for mixed model association analysis of large-scale data. Nature Genetics, 2019, 51(12): 1749-1755.
[8] 卜李那, 趙毅強(qiáng). 全基因組關(guān)聯(lián)分析及其擴(kuò)展方法的研究進(jìn)展. 農(nóng)業(yè)生物技術(shù)學(xué)報(bào), 2019, 27(1): 150-158.
BU L N, ZHAO Y Q. Research progress of genome-wide association study and its extension methods. Journal of Agricultural Biotechnology, 2019, 27(1): 150-158. (in Chinese)
[9] CARDON L R, PALMER L J. Population stratification and spurious allelic association. The Lancet, 2003, 361(9357): 598-604.
[10] DEVLIN B, ROEDER K. Genomic control for association studies. Biometrics, 1999, 55(4): 997-1004.
[11] PRICE A L, PATTERSON N J, PLENGE R M, WEINBLATT M E, SHADICK N A, REICH D. Principal components analysis corrects for stratification in genome-wide association studies. Nature Genetics, 2006, 38(8): 904-909.
[12] SHAM P C, PURCELL S M. Statistical power and significance testing in large-scale genetic studies. Nature Reviews Genetics, 2014, 15(5): 335-346.
[13] GAO X, BECKER L C, BECKER D M, STARMER J D, PROVINCE M A. Avoiding the high Bonferroni penalty in genome-wide association studies. Genetic Epidemiology, 2010, 34(1): 100-105.
[14] LIU X L, HUANG M, FAN B, BUCKLER E S, ZHANG Z. Iterative usage of fixed and random effect models for powerful and efficient genome-wide association studies. Plos Genetics, 2016, 12(2): 1-24.
[15] ZHAO K Y, ARANZANA M J, KIM S, LISTER C, SHINDO C, TANG C, TOOMAJIAN C, ZHENG H G, DEAN C, MARJORAM P, NORDBORG M. Anexample of association mapping in structured samples. Plos Genetics, 2007, 3(1): 71-82.
[16] XIAO Y J, LIU H J, WU L J, WARBURTON M, YAN J B. Genome-wide association studies in maize: Praise and stargaze. Molecular Plant, 2017, 10(3): 359-374.
[17] 溫陽俊, 馮建英, 張瑾. 多位點(diǎn)關(guān)聯(lián)分析方法學(xué)的研究進(jìn)展. 南京農(nóng)業(yè)大學(xué)學(xué)報(bào), 2022, 45(1): 1-10.
WEN Y J, FENG J Y, ZHANG J. Research progress of multi-locus genome-wide association study. Journal of Nanjing Agricultural University, 2022, 45(1): 1-10. (in Chinese)
[18] KANG H M, ZAITLEN N A, WADE C M, KIRBY A, HECKERMAN D, DALY M J, ESKIN E. Efficient control of population structure in model organism association mapping. Genetics, 2008, 178(3): 1709-1723.
[19] KANG H M, SUL J H, SERVICE S K, ZAITLEN N A, KONG S Y, FREIMER N B, SABATTI C, ESKIN E. Variance component model to account for sample structure in genome-wide association studies. Nature Genetics, 2010, 42(4): 348-354.
[20] ZHANG Z W, ERSOZ E, LAI C Q, TODHUNTER R J, TIWARI H K, GORE M A, BRADBURY P J, YU J M, ARNETT D K, ORDOVAS J M, BUCKLER E S. Mixed linear model approach adapted for genome-wide association studies. Nature Genetics, 2010, 42(4): 355-360.
[21] LI M, LIU X L, BRADBURY P, YU J M, ZHANG Y M, TODHUNTER R J, BUCKLER E S, ZHANG Z W. Enrichment of statistical power for genome-wide association studies. BMC Biology, 2014, 12(1): 1-10.
[22] AULCHENKO Y S, de KONING D J, HALEY C. Genomewide rapid association using mixed model and regression: a fast and simple method for genomewide pedigree-based quantitative trait loci association analysis. Genetics, 2007, 177(1): 577-585.
[23] SVISHCHEVA G R, AXENOVICH T I, BELONOGOVA N M, van DUIJN C M, AULCHENKO Y S. Rapid variance components-based method for whole-genome association analysis. Nature Genetics, 2012, 44(10): 1166-1170.
[24] ZHOU X, STEPHENS M. Genome-wide efficient mixed-model analysis for association studies. Nature Genetics, 2012, 44(7): 821-824.
[25] LISTGARTEN J, LIPPERT C, KADIE C M, DAVIDSON R I, ESKIN E, HECKERMAN D. Improved linear mixed models for genome-wide association studies. Nature Methods, 2012, 9(6): 525-526.
[26] WANG Q S, TIAN F, PAN Y C, BUCKLER E S, ZHANG Z W. A SUPER powerful method for genome wide association study. Plos One, 2014, 9(9): 1-9.
[27] BULIK-SULLIVAN B K, LOH P R, FINUCANE H K, RIPKE S, YANG J, PATTERSON N, DALY M J, PRICE A L, NEALE B M. LD Score regression distinguishes confounding from polygenicity in genome-wide association studies. Nature Genetics, 2015, 47(3): 291-295.
[28] SEGURA V, VILHJáLMSSON B J, PLATT A, KORTE A, SEREN ü, LONG Q, NORDBORG M. An efficient multi-locus mixed-model approach for genome-wide association studies in structured populations. Nature Genetics, 2012, 44(7): 825-830.
[29] HUANG M, LIU X L, ZHOU Y, SUMMERS R M, ZHANG Z W. BLINK: a package for the next level of genome-wide association studies with both individuals and markers in the millions. GigaScience, 2019, 8(2): 1-12.
[30] FU W W, WANG R, XU N Y, WANG J X, LI R, NANAEI H A, NIE Q H, ZHAO X, HAN J L, YANG N, JIANG Y. Galbase: A comprehensive repository for integrating chicken multi-omics data. BMC Genomics, 2022, 23(1): 1-11.
[31] YANG J, LEE S H, GODDARD M E, VISSCHER P M. GCTA: A tool for genome-wide complex trait analysis. American Journal of Human Genetics. 2011, 88(1): 76-82.
[32] CHEN H, WANG C L, CONOMOS M P, STILP A M, LI Z L, SOFER T, SZPIRO A A, CHEN W, BREHM J M, CELEDON J C, REDLINE S, PAPANICOLAOU G J, THORNTON T A, LAURIE C C, RICE K, LIN X H. Control for population structure and relatedness for binary traits in genetic association studies via logistic mixed models. The American Journal of Human Genetics, 2016, 98(4): 653-666.
[33] ZHOU W, NIELSEN J B, FRITSCHE L G, DEY R, GABRIELSEN M E, WOLFORD B N, LEFAIVE J, VANDEHAAR P, GAGLIANO S A, GIFFORD A, BASTARACHE L A, WEI W Q, DENNY J C, LIN M X, HVEEM K, KANG H M, ABECASIS G R, WILLER C J, LEE S. Efficiently controlling for case-control imbalance and sample relatedness in large-scale genetic association studies. Nature Genetics, 2018, 50(9): 1335-1341.
[34] JIANG L D, ZHENG Z L, FANG H L, YANG J. A generalized linear mixed model association tool for biobank-scale data. Nature Genetics, 2021, 53(11): 1616-1621.
[35] BI W J, ZHOU W, DEY R, MUKHERJEE B, SAMPSON J N, LEE S. Efficient mixed model approach for large-scale genome-wide association studies of ordinal categorical phenotypes. The American Journal of Human Genetics, 2021, 108(5): 825-839.
[36] HANSEN M, KRAFT T, GANESTAM S, S?LL T, NILSSON N O. Linkage disequilibrium mapping of the bolting gene in sea beet using AFLP markers. Genetical Research, 2001, 77(1): 61-66.
[37] ATWELL S, HUANG Y S, VILHJáLMSSON B J, WILLEMS G, HORTON M, LI Y, MENG D Z, PLATT A, TARONE A M, HU T T, JIANG R, MULIYATI N W, ZHANG X, AMER M A, BAXTER I, BRACHI B, CHORY J, DEAN C, DEBIEU M, de MEAUX J, ECKER J R, FAURE N, KNISKERN J M, JONES J D G, MICHAEL T, NEMRI A, ROUX F, SALT D E, TANG C L, TODESCO M, TRAW M B, WEIGEL D, MARJORAM P, BOREVITZ J O, BERGELSON J, NORDBORG M. Genome-wide association study of 107 phenotypes ininbred lines. Nature, 2010, 465(7298): 627-631.
[38] ZHAO K Y, TUNG C W, EIZENGA G C, WRIGHT M H, ALI M L, H PRICE A, NORTON G J, ISLAM M R, REYNOLDS A, MEZEY J, MCCLUNG A M, BUSTAMANTE C D, MCCOUCH S R. Genome-wide association mapping reveals a rich genetic architecture of complex traits in. Nature Communications, 2011, 2(1): 1-10.
[39] HUANG X H, WEI X H, SANG T, ZHAO Q, FENG Q, ZHAO Y, LI C Y, ZHU C R, LU T T, ZHANG Z W, LI M, FAN D L, GUO Y L, WANG A H, WANG L, DENG L W, LI W J, LU Y Q, WENG Q J, LIU K Y, HUANG T, ZHOU T Y, JING Y F, LI W, LIN Z, BUCKLER E S, QIAN Q, ZHANG Q F, LI J Y, HAN B. Genome-wide association studies of 14 agronomic traits in rice landraces. Nature Genetics, 2010, 42(11): 961-967.
[40] HUANG X H, ZHAO Y, WEI X H, LI C Y, WANG A H, ZHAO Q, LI W J, GUO Y L, DENG L W, ZHU C R, FAN D L, LU Y Q, WENG Q J, LIU K Y, ZHOU T F, JING Y F, SI L Z, DONG G J, HUANG T, LU T T, FENG Q, QIAN Q, LI J Y, HAN B. Genome-wide association study of flowering time and grain yield traits in a worldwide collection of rice germplasm. Nature Genetics, 2012, 44(1): 32-39.
[41] YONEMARU J I, MIZOBUCHI R, KATO H, YAMAMOTO T, YAMAMOTO E, MATSUBARA K, HIRABAYASHI H, TAKEUCHI Y, TSUNEMATSU H, ISHII T, OHTA H, MAEDA H, EBANA K, YANO M. Genomic regions involved in yield potential detected by genome-wide association analysis in Japanese high-yielding rice cultivars. BMC genomics, 2014, 15(1): 1-12.
[42] WANG M, YAN J B, ZHAO J R, SONG W, ZHANG X B, XIAO Y N, ZHENG Y L. Genome-wide association study (GWAS) of resistance to head smut in maize. Plant Science, 2012, 196(1): 125-131.
[43] LI H, PENG Z Y, YANG X H, WANG W D, FU J J, WANG J H, HAN Y J, CHAI Y C, GUO T T, YANG N, LIU J, WARBURTON M L, CHENG Y B, HAO X M, ZHANG P, ZHAO J Y, LIU Y J, WANG G Y, LI J S, YAN J B. Genome-wide association study dissects the genetic architecture of oil biosynthesis in maize kernels. Nature Genetics, 2013, 45(1): 43-50.
[44] LI Y X, LI C H, BRADBURY P J, LIU X L, LU F, ROMAY C M, GLAUBITZ J C, WU X, PENG B, SHI Y S, SONG Y C, ZHANG D F, BUCKLER E S, ZHANG Z W, LI Y, WANG T Y. Identification of genetic variants associated with maize flowering time using an extremely large multi-genetic background population. The Plant Journal, 2016, 86(5): 391-402.
[45] SEKHON R S, SASKI C, KUMAR R, FLINN B S, LUO F, BEISSINGER T M, ACKERMAN A J, BREITZMAN M W, BRIDGES W C, DE LEON N, KAEPPLER S M. Integrated genome-scale analysis identifies novel genes and networks underlying senescence in maize. The Plant Cell, 2019, 31(9): 1968-1989.
[46] CHAO Z F, CHEN Y Y, JI C, WANG Y L, HUANG X, ZHANG C Y, YANG J, SONG T, WU J C, GUO L X, LIU C B, HAN M L, WU Y R, YAN J B, CHAO D Y. A genome-wide association study identifies a transporter for zinc uploading to maize kernels. Embo Reports, 2023, 24(1): 1-19.
[47] REN J, DUAN Y Y, QIAO R M, YAO F, ZHANG Z Y, YANG B, GUO Y M, XIAO S J, WEI R X, OUYANG Z X, DING N S, AI H S, HUANG L S. A missense mutation in PPARD causes a major QTL effect on ear size in pigs. Plos Genetics, 2011, 7(5): 1-10.
[48] MA J W, YANG J, ZHOU L S, REN J, LIU X X, ZHANG H, YANG B, ZHANG Z Y, MA H B, XIE X H, XING Y Y, GUO Y M, HUANG L S. A splice mutation in the PHKG1 gene causes high glycogen content and low meat quality in pig skeletal muscle. Plos Genetics, 2014, 10(10): 1-13.
[49] WANG X M, LIU X L, DENG D D, YU M, LI X P. Genetic determinants of pig birth weight variability. BMC Genetics, 2016, 17(1): 41-48.
[50] GUO X Y, SU G S, CHRISTENSEN O F, JANSS L, LUND M S. Genome-wide association analyses using a Bayesian approach for litter size and piglet mortality in Danish Landrace and Yorkshire pigs. BMC Genomics, 2016, 17(1): 1-12.
[51] GOZALO-MARCILLA M, BUNTJER J, JOHNSSON M, BATISTA L, DIEZ F, WERNER C R, CHEN C Y, GORJANC G, MELLANBY R J, HICKEY J M, ROS-FREIXEDES R. Genetic architecture and major genes for backfat thickness in pig lines of diverse genetic backgrounds. Genetics, Selection, Evolution, 2021, 53(1): 1-14.
[52] GU X R, FENG C G, MA L, SONG C, WANG Y Q, DA Y, LI H F, CHEN K W, YE S H, GE C R, HU X X, LI N. Genome-wide association study of body weight in chicken F2resource population. Plos One, 2011, 6(7): 1-5.
[53] IMSLAND F, FENG C G, BOIJE H, BED'HOM B, FILLON V, DORSHORST B, RUBIN C J, LIU R R, GAO Y, GU X R, WANG Y Q, GOURICHON D, ZODY M C, ZECCHIN W, VIEAUD A, TIXIER-BOICHARD M, HU X X, HALLB??K F, LI N, ANDERSSON L. The Rose-comb mutation in chickens constitutes a structural rearrangement causing both altered comb morphology and defective sperm motility. Plos Genetics, 2012, 8(6): 1-12.
[54] GUO Y, GU X R, SHENG Z Y, WANG Y Q, LUO C L, LIU R R, QU H, SHU D M, WEN J, CROOIJMANS R P M A, CARLBORG ?, ZHAO Y Q, HU X X, LI N. A complex structural variation on chromosome 27 leads to the ectopic expression of hoxb8 and the muffs and beard phenotype in chickens. Plos Genetics, 2016, 12(6): 1-24.
[55] WANG Y Z, CAO X M, LUO C L, SHENG Z Y, ZHANG C Y, BIAN C, FENG C G, LI J X, GAO F, ZHAO Y Q, JIANG Z Q, QU H, SHU D M, CARLBORG ?, HU X X, LI N. Multiple ancestral haplotypes harboring regulatory mutations cumulatively contribute to a QTL affecting chicken growth traits. Communications Biology, 2020, 3(1): 1-13.
[56] FAN Q C, WU P F, DAI G J, ZHANG G X, ZHANG T, XUE Q, SHI H Q, WANG J Y. Identification of 19 loci for reproductive traits in a local Chinese chicken by genome-wide study. Genetics and Molecular Research, 2017, 16(1): 1-8.
[57] LI Q L, DUAN Z Y, SUN C J, ZHENG J X, XU G Y, YANG N. Genetic variations for the eggshell crystal structure revealed by genome-wide association study in chickens. BMC Genomics, 2021, 22(1): 1-12.
[58] GUO Y P, HUANG H T, ZHANG Z Z, MA Y C, LI J Z, TANG H H, MA H X, LI Z J, LI W T, LIU X J, KANG X T, HAN R L. Genome-wide association study identifies SNPs for growth performance and serum indicators inbroilers () using ddGBS sequencing. BMC Genomics, 2022, 23(1): 1-11.
[59] 張統(tǒng)雨, 朱才業(yè), 杜立新, 趙福平. 羊重要性狀全基因組關(guān)聯(lián)分析研究進(jìn)展. 遺傳, 2017, 39(06): 491-500.
ZHANG T Y, ZHU C Y, DU L X, ZHAO F P. Advances in genome-wide association studies for important traits in sheep and goats. Hereditas(Beijing), 2017, 39(6): 491-500. (in Chinese)
[60] DEMARS J, FABRE S, SARRY J, ROSSETTI R, GILBERT H, PERSANI L, TOSSER-KLOPP G, MULSANT P, NOWAK Z, DROBIK W, MARTYNIUK E, BODIN L. Genome-wide association studies identify two novel BMP15 mutations responsible for an atypical hyperprolificacy phenotype in sheep. Plos Genetics, 2013, 9(4): 1-13.
[61] HE X H, ZHOU Z K, PU Y B, CHEN X F, MA Y H, JIANG L. Mapping the four-horned locus and testing the polled locus in three Chinese sheep breeds. Animal Genetics, 2016, 47(5): 623-627.
[62] GJEDREM T. Genetic improvement for the development of efficient global aquaculture: A personal opinion review. Aquaculture, 2012, 344-349(1): 12-22.
[63] HOLBORN M K, ANG K P, ELLIOTT J A K, POWELL F, BOULDING E G. Genome wide association analysis for bacterial kidney disease resistance in a commercial North American Atlantic salmon () population using a 50K SNP panel. Aquaculture, 2018, 495(1): 465-471.
[64] PENG W Z, XU J, ZHANG Y, FENG J X, DONG C J, JIANG L K, FENG J Y, CHEN B H, GONG Y W, CHEN L, XU P. An ultra-high density linkage map and QTL mapping for sex and growth-related traits of common carp (). Scientific Reports, 2016, 6(1): 1-16.
[65] LIN H L, ZHOU Z X, ZHAO J, ZHOU T, BAI H Q, KE Q Z, PU F, ZHENG W Q, XU P. Genome-wide association study identifies genomic loci of sex determination and gonadosomatic index traits in large yellow croaker (). Marine Biotechnology, 2021, 23(1): 127-139.
[66] DAVILA OLIVAS N H, KRUIJER W, GORT G, WIJNEN C L, VAN LOON J J A, DICKE M. Genome-wide association analysis reveals distinct genetic architectures for single and combined stress responses in. New Phytologist, 2017, 213(2): 838-851.
[67] ZHANG F, HU Z Q, WU Z C, LU J L, SHI Y Y, XU J L, WANG X Y, WANG J P, ZHANG F, WANG M M, SHI X R, CUI Y R, VERA CRUZ C, ZHUO D L, HU D D, LI M, WANG W S, ZHAO X Q, ZHENG T Q, FU B Y, ALI J, ZHOU Y L, LI Z K. Reciprocal adaptation of rice andpv.: cross-species 2D GWAS reveals the underlying genetics. The Plant Cell, 2021, 33(8): 2538-2561.
[68] MARTINS L B, BALINT-KURTI P, REBERG-HORTON S C. Genome-wide association study for morphological traits and resistance to Peryonella pinodes in the USDA pea single plant plus collection. G3 Genes|Genomes|Genetics, 2022, 12(9): 1-8.
[69] KARASOV T L, CHAE E, HERMAN J J, BERGELSON J. Mechanisms to mitigate the trade-off between growth and defense. The Plant Cell, 2017, 29(4): 666-680.
[70] DE RONNE M, SANTHANAM P, CINGET B, LABBé C, LEBRETON A, YE H, VUONG T D, HU H F, VALLIYODAN B, EDWARDS D, NGUYEN H T, BELZILE F, BéLANGER R. Mapping of partial resistance to Phytophthora sojae in soybean PIs using whole-genome sequencing reveals a major QTL. The Plant Genome, 2022, 15(1): 1-16.
[71] LIU Q, CHENG L, NIAN H, JIN J, LIAN T X. Linking plant functional genes to rhizosphere microbes: A review. Plant Biotechnology Journal, 2023, 21(5): 902-917.
[72] BAI B, LIU W D, QIU X Y, ZHANG J, ZHANG J Y, BAI Y. The root microbiome: Community assembly and its contributions to plant fitness. Journal of Integrative Plant Biology, 2022, 64(2): 230-243.
[73] BERGELSON J, MITTELSTRASS J, HORTON M W. Characterizing both bacteria and fungi improves understanding of theroot microbiome. Scientific Reports, 2019, 9(1): 1-11.
[74] DENG S W, CADDELL D F, XU G, DAHLEN L, WASHINGTON L, YANG J L, COLEMAN-DERR D. Genome wide association study reveals plant loci controlling heritability of the rhizosphere microbiome. The ISME Journal, 2021, 15(11): 3181-3194.
[75] de FREITAS A S, de DAVID D B, TAKAGAKI B M, ROESCH L F W. Microbial patterns in rumen are associated with gain of weight in beef cattle. Antonie Van Leeuwenhoek, 2020, 113(9): 1299-1312.
[76] MALTECCA C, BERGAMASCHI M, TIEZZI F. The interaction between microbiome and pig efficiency: A review. Journal of Animal Breeding and Genetics, 2020, 137(1): 4-13.
[77] XUE M Y, SUN H Z, WU X H, LIU J X, GUAN L L. Multi-omics reveals that the rumen microbiome and its metabolome together with the host metabolome contribute to individualized dairy cow performance. Microbiome, 2020, 8(1): 1-19.
[78] ELOKIL A A, MAGDY M, MELAK S, ISHFAQ H, BHUIYAN A, CUI L, JAMIL M, ZHAO S, LI S. Faecal microbiome sequences in relation to the egg-laying performance of hens using amplicon-based metagenomic association analysis. Animal, 2020, 14(4): 706-715.
[79] CRESPO-PIAZUELO D, MIGURA-GARCIA L, ESTELLé J, CRIADO-MESAS L, REVILLA M, CASTELLó A, MU?OZ M, GARCíA-CASCO J M, FERNáNDEZ A I, BALLESTER M, FOLCH J M. Association between the pig genome and its gut microbiota composition. Scientific Reports, 2019, 9(1): 1-11.
[80] BERGAMASCHI M, MALTECCA C, SCHILLEBEECKX C, MCNULTY N P, SCHWAB C, SHULL C, FIX J, TIEZZI F. Heritability and genome-wide association of swine gut microbiome features with growth and fatness parameters. Scientific Reports, 2020, 10(1): 1-12.
[81] WANG Y T, SUNG P Y, LIN P L, YU Y W, CHUNG R H. A multi-SNP association test for complex diseases incorporating an optimal P-value threshold algorithm in nuclear families. BMC Genomics, 2015, 16(1): 1-10.
[82] WANG F, MEYER N J, WALLEY K R, RUSSELL J A, FENG R. Causal genetic inference using haplotypes as instrumental variables. Genetic Epidemiology, 2016, 40(1): 35-44.
[83] N'DIAYE A, HAILE J K, CORY A T, CLARKE F R, CLARKE J M, KNOX R E, POZNIAK C J. Single marker and haplotype-based association analysis of semolina and pasta colour in elite durum wheat breeding lines using a high-density consensus map. Plos One, 2017, 12(1): 1-24.
[84] YANO K, YAMAMOTO E, AYA K, TAKEUCHI H, LO P C, HU L, YAMASAKI M, YOSHIDA S, KITANO H, HIRANO K, MATSUOKA M. Genome-wide association study using whole-genome sequencing rapidly identifies new genes influencing agronomic traits in rice. Nature Genetics, 2016, 48(8): 927-934.
[85] OGAWA D, YAMAMOTO E, OHTANI T, KANNO N, TSUNEMATSU H, NONOUE Y, YANO M, YAMAMOTO T, YONEMARU J I. Haplotype-based allele mining in the Japan-MAGIC rice population. Scientific Reports, 2018, 8(1): 1-11.
[86] ZHANG Z, GUILLAUME F, SARTELET A, CHARLIER C, GEORGES M, FARNIR F, DRUET T. Ancestral haplotype-based association mapping with generalized linear mixed models accounting for stratification. Bioinformatics, 2012, 28(19): 2467-2473.
[87] ZHANG H, SHEN L Y, XU Z C, KRAMER L M, YU J Q, ZHANG X Y, NA W, YANG L L, CAO Z P, LUAN P, REECY J M, LI H. Haplotype-based genome-wide association studies for carcass and growth traits in chicken. Poultry Science, 2020, 99(5): 2349-2361.
[88] HOWARD D M, HALL L S, HAFFERTY J D, ZENG Y N, ADAMS M J, CLARKE T K, PORTEOUS D J, NAGY R, HAYWARD C, SMITH B H, MURRAY A D, RYAN N M, EVANS K L, HALEY C S, DEARY I J, THOMSON P A, MCINTOSH A M. Genome-wide haplotype-based association analysis of major depressive disorder in Generation Scotland and UK Biobank. Translational Psychiatry, 2017, 7(11): 1-9.
Principle, Optimization and Application of Mixed Models in Genome- Wide Association Study
College of Biological Sciences, China Agricultural University, Beijing 100193
Genome-wide association study (GWAS) is an effective method to locate genomic loci that are significantly associated with traits. With the accumulated phenotypic data, the continuous development of high-throughput genotyping technology, and the improved statistical methods, it promotes the wide application of GWAS in area of human disease and animal and plant genetics. False positives are one of the important concerns that impair the reliability of genome-wide association results. To control the false positives, in addition to correcting the-values, GWAS models have been continuously improved from the naive methods like ANOVA (for quantitative trait) or Chi-square test (for quality trait), to general linear model (GLM), which incorporates fixed-effect covariates, to the mixed linear model (MLM), which incorporates random effects. Fitting individual genetic effects into random effects defined by the genomic relationships matrix (GRM) is commonly adapted currently. Since the parameter estimation of MLM consumes a lot of computational resources, researchers have tried to optimize solving models and constructing GRM (which also improves computing efficiency), and the time complexity gradually decreased from O(MN3) to O(MN) for MLM-based methods, achieving a great leap in computational speed and statistical efficacy. For inflations caused by unbalanced case-control data, researchers further correct the generalized mixed linear model (GLMM). This paper comprehensively introduces the basic principles and development of GWAS, with specific emphasis on the model improvement and optimization details. We also list the applications of MLM in GWAS in agriculture, including progress on animals, plants and microbes, as well as the application of haplotype in GWAS. Finally, we give prospects on the future developments of GWAS from the viewpoints of further model optimization and experimental design.
genome-wide association study; complex traits; random effects; genomic relationships matrix; mixed linear model
2022-12-04;
2023-03-02
國家重點(diǎn)研發(fā)計(jì)劃(2022YFF1000204)
譚力治,E-mail:tanlizhi@cau.edu.cn。通信作者趙毅強(qiáng),E-mail:yiqiangz@cau.edu.cn
10.3864/j.issn.0578-1752.2023.09.001
(責(zé)任編輯 李莉)