楊文宇 吳成秀 肖英杰,3,* 嚴(yán)建兵,3
基于Adaptive Lasso的兩階段全基因組關(guān)聯(lián)分析方法
楊文宇1,2吳成秀1肖英杰1,3,*嚴(yán)建兵1,3
1作物遺傳改良全國重點(diǎn)實(shí)驗(yàn)室, 湖北武漢 430070;2華中農(nóng)業(yè)大學(xué)理學(xué)院, 湖北武漢 430070;3湖北洪山實(shí)驗(yàn)室, 湖北武漢 430070
作為進(jìn)行全基因組關(guān)聯(lián)分析的主流方法, 混合線性模型類方法得到了廣泛的應(yīng)用。但是, 現(xiàn)有方法仍存在檢測(cè)功效不高的問題。本文提出一種基于Adaptive Lasso的2階段全基因組關(guān)聯(lián)分析方法(two-stage Adaptive Lasso-based genome-wide association analysis, ALGWAS), 該方法在第1階段通過變量選擇方法Adaptive Lasso篩選出與目標(biāo)性狀相關(guān)聯(lián)的單核苷酸多態(tài)性位點(diǎn)(single nucleotide polymorphism, SNP), 第2階段將第1階段篩選出的SNP作為協(xié)變量放入線性模型中進(jìn)行全基因組掃描。在模擬實(shí)驗(yàn)中, ALGWAS方法與3種常用的全基因組關(guān)聯(lián)分析方法fastGWA、GEMMA和EMMAX相比具有最高的檢測(cè)功效, 同時(shí)具有較低的錯(cuò)誤發(fā)現(xiàn)率(false discovery rate, FDR)。將以上4種方法應(yīng)用到包含1341份材料的玉米CUBIC (Complete-diallel plus Unbalanced Breeding-like Inter-Cross)群體的全基因組關(guān)聯(lián)分析中, ALGWAS方法可檢測(cè)到與開花期相關(guān)基因、和, 與株高相關(guān)基因和, 與產(chǎn)量相關(guān)基因、和等, 而其他3種常用的全基因組關(guān)聯(lián)分析方法檢測(cè)功效較低。本研究提出了一種非混合線性模型類的全基因組關(guān)聯(lián)分析方法, 對(duì)解析微效多基因決定的復(fù)雜遺傳性狀具有更高的檢測(cè)效率, 為基因挖掘提供了新的途徑。
玉米; 全基因組關(guān)聯(lián)分析; 變量選擇; Adaptive Lasso
全基因組關(guān)聯(lián)分析(Genome-Wide Association Study, GWAS)是在全基因組水平上分析高密度的SNP與性狀相關(guān)性的分析, 從而發(fā)現(xiàn)影響復(fù)雜性狀的基因變異的一種統(tǒng)計(jì)方法。遺傳學(xué)家最先使用的是簡(jiǎn)單易算的線性模型(Linear Model, LM), 但該模型沒有考慮群體結(jié)構(gòu)的影響, 會(huì)挖掘出很多基因位點(diǎn)與復(fù)雜性狀的假陽性關(guān)聯(lián)。在一般線性模型中控制群體結(jié)構(gòu)效應(yīng)后, 假陽性檢測(cè)大大降低。此外, 遺傳學(xué)家發(fā)現(xiàn)復(fù)雜的親緣關(guān)系也會(huì)帶來假陽性的關(guān)聯(lián)結(jié)果, 因此Zhang等[1]和Yu等[2]提出了混合線性模型?;旌暇€性模型能同時(shí)控制群體結(jié)構(gòu)和親緣關(guān)系的影響, 降低了假陽性率。此后, 很多研究者致力于改善混合線性模型。Kang 等[3]2008年提出有效的混合線性模型(Efficient Mixed-Model Association, EMMA)。EMMA是一種被廣泛使用的精確方法, 它將求解混合線性模型時(shí)涉及的優(yōu)化問題轉(zhuǎn)化成了一維的優(yōu)化問題, 提高了計(jì)算效率, 并通過譜分解方法避免了每次迭代計(jì)算似然函數(shù)時(shí)的大量矩陣相乘和求逆運(yùn)算, 進(jìn)一步提高了計(jì)算效率。但是EMMA難以處理由數(shù)千個(gè)個(gè)體組成的數(shù)據(jù)集, 為了解決這個(gè)問題, Kang等[4]2010年在EMMA的基礎(chǔ)上提出了EMMAX (EMMA eXpedited)。EMMAX將EMMA掃描每個(gè)位點(diǎn)時(shí)均需估計(jì)的多基因方差與殘差方差之比用無效應(yīng)模型中得到的比值近似, 大幅減少了計(jì)算量。同年, Zhang等[5]在混合線性模型的基礎(chǔ)上提出了壓縮的混合線性模型(Compressed MLM, CMLM)和P3D (Population Parameters Previously Determined)方法。CMLM采用聚類方法將群體進(jìn)行分組, 減少了有效樣本數(shù)量。P3D通過固定多基因方差與殘差方差的比值, 減少了全基因組掃描時(shí)需要估計(jì)的參數(shù)數(shù)目, 提升了計(jì)算效率。2012年Zhou等[6]提出一種高效的精確方法, 全基因組高效混合線性模型(Genome- wide Efficient Mixed-Model Association, GEMMA)。GEMMA大約比EMMA快倍(為樣本數(shù)目), 它的出現(xiàn)使得處理大樣本數(shù)據(jù)集時(shí)采用精確全基因組關(guān)聯(lián)分析方法變得可行。近年來, 混合線性模型類方法得到了廣泛的應(yīng)用[7-13], 與之相關(guān)的快速算法也陸續(xù)被提出, 如Fast-LMM[14]、Fast-LMM-Select[15]和BOLT-LMM[16]等。2019年Jiang等[17]針對(duì)大規(guī)模數(shù)據(jù)分析, 開發(fā)了一種基于混合線性模型的新方法fastGWA, 它通過將親緣關(guān)系矩陣中較小系數(shù)替換成0值, 增加矩陣稀疏性, 提高了模型功效和運(yùn)算速度, 并用模擬實(shí)驗(yàn)證明了fastGWA的可靠性和魯棒性。
在過去的幾十年, GWAS在人類、動(dòng)物和植物中識(shí)別了成千上萬的相關(guān)基因座, 為疾病診斷和動(dòng)植物育種提供了幫助。但是, GWAS識(shí)別出的基因座只能解釋很小的一部分表型變異, 這種現(xiàn)象被稱為“消失的遺傳力”[18]。例如, GWAS識(shí)別到了約50個(gè)與人類身高相關(guān)的基因座, 但是他們僅能解釋5%的身高變異[19]。Yang等2010年指出遺傳力并沒有消失, 而是基因組中存在大量的微效位點(diǎn)GWAS檢測(cè)不到[20]。這說明長(zhǎng)期以來復(fù)雜性狀GWAS一直都存在檢測(cè)功效不足的問題。為了提高GWAS的檢測(cè)功效, 主要有以下3個(gè)方面的探索: (1) 增加標(biāo)記的類型, Song等[21]采用InDel (short insertion/deletion)作為標(biāo)記進(jìn)行 GWAS分析, 發(fā)現(xiàn)使用SNP進(jìn)行GWAS檢測(cè)不到的基因; (2) 采用多變量模型, Zhang等[22]通過模擬實(shí)驗(yàn)和真實(shí)數(shù)據(jù)驗(yàn)證了多位點(diǎn)模型MrMLM的優(yōu)越性; (3) 采用非參數(shù)模型, Yang等[23]提出A-D test方法, 對(duì)不服從正態(tài)分布的表型可提高GWAS的檢測(cè)功效。本研究在參數(shù)模型的范疇下, 為了提高GWAS的檢測(cè)功效提出一種基于Adaptive Lasso的2階段全基因組關(guān)聯(lián)分析方法(ALGWAS), 該方法先通過Adaptive Lasso篩選出與目標(biāo)性狀相關(guān)聯(lián)的SNP, 再將篩選出的SNP作為協(xié)變量放入一般線性模型中進(jìn)行全基因組掃描。本研究選用包含1341份材料的玉米CUBIC群體的基因型和模擬的表型, 采用2種模擬方法進(jìn)行數(shù)值實(shí)驗(yàn), 并與3種常用的全基因組關(guān)聯(lián)分析方法fastGWA、GEMMA和EMMAX進(jìn)行對(duì)比。試驗(yàn)結(jié)果顯示ALGWAS具有最高的檢測(cè)功效且具有較低的錯(cuò)誤發(fā)現(xiàn)率。
本文使用以上4種方法對(duì)玉米CUBIC群體的開花期、株高和產(chǎn)量數(shù)據(jù)進(jìn)行全基因組關(guān)聯(lián)分析, 發(fā)現(xiàn)ALGWAS方法可檢測(cè)到與開花期相關(guān)的已知基因、和, 與株高相關(guān)的已知基因和, 與產(chǎn)量相關(guān)的已知基因、和等, 而其他3種常用的全基因組關(guān)聯(lián)分析方法只能檢測(cè)到少量已知基因。
本研究所用的1341份材料來源于玉米CUBIC群體[24]。該群體通過以“黃改系”為核心的24個(gè)優(yōu)良玉米自交系作為親本, 采用一代不完全的雙列雜交和6代的隨機(jī)交配, 再進(jìn)行6代的連續(xù)自交得到。利用第2代測(cè)序技術(shù)對(duì)CUBIC群體的1341個(gè)后代自交系進(jìn)行低覆蓋度的測(cè)序(~1X), 選擇最小等位基因頻率大于0.02, 獲得11,800,000高質(zhì)量的SNP, 本文從中隨機(jī)挑選標(biāo)記60,000個(gè)。在全國選取5個(gè)典型玉米種植生態(tài)區(qū)種植CUBIC群體, 進(jìn)行大規(guī)模的田間表型試驗(yàn)。對(duì)每份材料調(diào)查抽雄期(days to tasseling)、株高(plant height)和穗重(ear weight)性狀。本研究利用的基因型和表型性狀數(shù)據(jù)來自Liu等[24]已發(fā)表文章。
1.3.2 ALGWAS方法的第2階段 假設(shè)第1階段由Adaptive Lasso篩選出與性狀相關(guān)的SNP集合為B, 第2階段全基因組掃描到第個(gè)SNP, 定義ALGWAS方法第2階段的模型為:
=+zγ+, (1)
這里是×1表型向量,z是×1基因型向量,γ是第個(gè)SNP效應(yīng),=[1, …,x+1]是×(+1)設(shè)計(jì)矩陣,x+1=(1, …, 1),=(1, …,b+1)是(+1)×1系數(shù)向量,b+1為模型(1)的截距,為集合B中選出進(jìn)入模型(1) SNP的個(gè)數(shù)(<||),(0,2)。規(guī)定掃描窗口大小為10 Mb, 即第個(gè)SNP左右5 Mb以外的集合B中的SNP, 作為檢測(cè)第個(gè)SNP的協(xié)變量進(jìn)入模型(1)。ALGWAS 方法的R語言程序可從github (https://github.com/yangwenyurain/ALGWAS. git)下載。
1.4.1 線性模型(LM)方法 線性模型為:=+Zγ+, 這里是×1表型向量,是截距,Z是×1基因型向量, γ是第個(gè)SNP的效應(yīng),(0,2)。
1.4.2 混合線性模型方法 混合線性模型為:=++,是×1表型向量,是固定效應(yīng)對(duì)應(yīng)的×設(shè)計(jì)矩陣,是×1代表固定效應(yīng)的系數(shù)向量,是隨機(jī)效應(yīng)對(duì)應(yīng)的×設(shè)計(jì)矩陣, 多基因效應(yīng)(0,2),為親緣關(guān)系矩陣, 殘差效應(yīng)向量(0,2),為單位矩陣,2和2分別為估計(jì)的遺傳方差和殘差方差。本研究利用EMMAX[4]、GEMMA[6]和fastGWA[17]3種常用的混合線性模型進(jìn)行模擬數(shù)據(jù)和真實(shí)數(shù)據(jù)的GWAS分析。
利用CUBIC群體基因型數(shù)據(jù), 定義20個(gè)和50個(gè)QTN, 狹義遺傳力為0.5和0.8, 共4個(gè)模擬組合, 隨機(jī)重復(fù)50次后, 共得到200個(gè)模擬表型。使用LM、EMMAX、GEMMA、fastGWA和ALGWAS分別對(duì)其進(jìn)行全基因組關(guān)聯(lián)分析, 得到的平均結(jié)果見表1。從表1可以看出, ALGWAS與EMMAX、GEMMA和fastGWA相比具有最高的平均檢測(cè)功效和較低的錯(cuò)誤發(fā)現(xiàn)率, 進(jìn)一步可以看出ALGWAS檢測(cè)功效高的原因在于ALGWAS對(duì)于低效應(yīng)的QTN平均檢測(cè)功效比較高。當(dāng)QTN數(shù)目為20, 遺傳力為0.8時(shí), ALGWAS的平均檢測(cè)功效為0.802, fastGWA的檢測(cè)功效為0.457, ALGWAS對(duì)于低效應(yīng)QTN的平均檢測(cè)功效為0.48, 比fastGWA的平均檢測(cè)功效0.04高12倍。
在CUBIC群體觀察到的表型抽雄期、株高和穗重上分別隨機(jī)選擇標(biāo)記, 添加1個(gè)QTN效應(yīng), QTN的效應(yīng)設(shè)置為表型標(biāo)準(zhǔn)差的0.1倍至0.5倍, 重復(fù)50次后, 共得到1350個(gè)模擬表型。使用EMMAX、GEMMA、fastGWA和ALGWAS分別對(duì)其進(jìn)行全基因組關(guān)聯(lián)分析, 得到的平均結(jié)果如圖1。從圖1可以看出在不同表型上添加QTN效應(yīng), ALGWAS均具有最高的平均檢測(cè)功效, 尤其是添加小效應(yīng)QTN時(shí), ALGWAS的優(yōu)勢(shì)更明顯, 例如在穗重表型上添加表型標(biāo)準(zhǔn)差0.1倍的QTN效應(yīng)時(shí), EMMAX、GEMMA和fastGWA的平均檢測(cè)功效均為0, 而ALGWAS的檢測(cè)功效為0.12。
考慮CUBIC群體觀察到的表型抽雄期、株高和穗重, 使用EMMAX、GEMMA、fastGWA和ALGWAS分別對(duì)其進(jìn)行全基因組關(guān)聯(lián)分析(圖2~圖4)??梢钥闯鯡MMAX、GEMMA和fastGWA方法檢測(cè)到的QTL, ALGWAS均可檢測(cè)到, 并且ALGWAS還可檢測(cè)到更多的QTL, 這說明了ALGWAS有更高檢測(cè)功效。對(duì)于抽雄期, ALGWAS方法可檢測(cè)到與開花期相關(guān)的基因、和[24,29], 而GEMMA和fastGWA只能檢測(cè)到基因和, EMMAX僅能檢測(cè)到基因。對(duì)于株高, ALGWAS可檢測(cè)到與株高相關(guān)的基因[30]和[31], 并檢測(cè)到基因, 該基因通過延遲開花進(jìn)而影響株高, 而其他3種方法只能檢測(cè)到基因。對(duì)于穗重, ALGWAS方法可檢測(cè)到與產(chǎn)量相關(guān)的基因[32][33][34][35][36]和[37], 而其他3種方法幾乎檢測(cè)不到相關(guān)基因。通過QQ圖, 可以發(fā)現(xiàn)ALGWAS相比于其他3種常用的混合線性模型方法均具有更高的統(tǒng)計(jì)功效, 同時(shí)對(duì)背景噪音導(dǎo)致的假陽性有較好的控制(圖5)。ALGWAS方法檢測(cè)到的已知基因位置及其對(duì)應(yīng)的peakSNP位置見表2。
表1 基于從頭模擬表型的不同全基因組關(guān)聯(lián)分析方法的平均檢測(cè)功效和錯(cuò)誤發(fā)現(xiàn)率
圖1 基于真實(shí)性狀遺傳結(jié)構(gòu)模擬表型的不同全基因組關(guān)聯(lián)分析方法的檢測(cè)功效
A: 抽雄期; B: 株高; C: 穗重。A: days to tasseling; B: plant height; C: ear weight.
圖2 CUBIC群體抽雄期的曼哈頓圖
圖3 CUBIC群體株高的曼哈頓圖
圖4 CUBIC群體穗重的曼哈頓圖
圖5 不同全基因組關(guān)聯(lián)分析方法的QQ圖
A: 抽雄期; B: 株高; C: 穗重。A: days to tasseling; B: plant height; C: ear weight.
表2 ALGWAS方法檢測(cè)到的已知基因位置及其對(duì)應(yīng)的peakSNP位置
ALGWAS的第1階段需要篩選與性狀相關(guān)的SNP, 這一步可通過變量選擇方法實(shí)現(xiàn), 本研究選用的是Adaptive Lasso方法, 因?yàn)閆ou給出了該方法具有一致性的理論證明[28]。本研究提供的是一個(gè)2階段方法的框架, 其他的變量選擇方法也可用于ALGWAS, 比如機(jī)器學(xué)習(xí)方法。在實(shí)際GWAS研究中, 如全基因組SNP數(shù)目達(dá)到百萬級(jí)別時(shí), ALGWAS的變量篩選階段建議從中隨機(jī)抽取一部分SNP作分析。
ALGWAS方法雖然在檢測(cè)功效上具有優(yōu)勢(shì), 但是它本身也有一定的局限性。ALGWAS的第2階段進(jìn)行單點(diǎn)掃描時(shí), 每一次都需要對(duì)進(jìn)入模型的協(xié)變量進(jìn)行判斷, 這一步導(dǎo)致了ALGWAS的速度還有待提高, 在后期的研究中, 我們將參考EMMAX[4]的做法, 通過固定進(jìn)入模型的協(xié)變量來對(duì)其進(jìn)行提速。
為了進(jìn)一步提升ALGWAS方法的檢測(cè)功效, 可以參考Li等[38]在CIM (Composite Interval Mapping)的基礎(chǔ)上提出ICIM (Inclusive CIM)[39]的作法, 將ALGWAS第1階段通過Adaptive Lasso方法得到的SNP優(yōu)化權(quán)重直接用于第2階段模型的學(xué)習(xí)。采用此方法也可進(jìn)一步對(duì)ALGWAS方法進(jìn)行提速。
本研究提出了一種基于Adaptive Lasso的2階段全基因組關(guān)聯(lián)分析方法ALGWAS, 相比于目前常用的混合線性模型GWAS方法, ALGWAS在較好控制假陽性情況下, 統(tǒng)計(jì)功效更高, 特別對(duì)于產(chǎn)量等微效多基因遺傳的性狀, ALGWAS具有明顯的檢測(cè)優(yōu)勢(shì), 這為復(fù)雜性狀解析提供了新的解決途徑。
[1] Zhang Y M, Mao Y C, Xie C Q, Smith H, Luo L, Xu S Z. Mapping quantitative trait loci using naturally occurring genetic variance among commercial inbred lines of maize (L.)., 2005, 169: 2267–2275.
[2] Yu J M, Pressoir G, Briggs H W, Vroh B I, Yamasakiet M, Doebley J F, McMullen M D, Gaut B S, Nielsen D M, Holland J B, Kresovich S, Buckler E S. A unified mixed-model method for association mapping that accounts for multiple levels of relatedness., 2006, 38: 203–208.
[3] Kang H M, Zaitlen N A, Wade C M, Kirby A, Heckerman D, Daly M J, Eskin E. Efficient control of population structure in model organism association mapping., 2008, 178: 1709–1723.
[4] Kang H M, Sul J H, Service S K, Zaitlen N A, Kong S Y, Freimer N B, Sabatti C, Eskin E. Variance component model to account for sample structure in genome-wide association studies., 2010, 42: 348–354.
[5] Zhang Z W, Ersoz E, Lai C Q, Todhunter R J, Tiwari H K, Gore M A, Bradbury P J, Yu J, Arnett D K, Ordovas J M, Buckler E S. Mixed linear model approach adapted for genome-wide association studies., 2010, 42: 355–360.
[6] Zhou X, Stephens M. Genome-wide efficient mixed-model analysis for association studies., 2012, 44: 821–824.
[7] Wellcome Trust Case Control Consortium. Genome-wide association study of 14,000 cases of seven common diseases and 3000 shared controls., 2007, 447: 661–678.
[8] Li H, Peng Z Y, Yang X H, Wang W D, Fu J J, Wang J H, Han Y J, Chai Y C, Guo T T, Yang N, Liu J, Warburton M L, Cheng Y B, Hao X M, Zhang P, Zhao J Y, Liu Y J, Wang G Y, Li J S, Yan J B. Genome-wide association study dissects the genetic architecture of oil biosynthesis in maize kernels., 2013, 45: 43–50.
[9] Huang X H, Wei X H, Sang T, Zhao Q, Feng Q, Zhao Y, Li C Y, Zhu C R, Lu T T, Zhang Z W, Li M, Fan D L, Guo Y L, Wang A, Wang L, Deng L W, Li W J, Lu Y Q, Weng Q J, Liu K Y, Huang T,Zhou T Y, Jing Y F, Li W, Lin Z, Buckler E S, Qian Q, Zhang Q F, Li J Y, Han B. Genome-wide association studies of 14 agronomic traits in rice landraces., 2010, 42: 961–969.
[10] Xiao Y J, Liu H J, Wu L J, Warburton M L, Yan J B. Genome- wide association studies in maize: praise and stargaze., 2017, 10: 359–374.
[11] 彭勃, 趙曉雷, 王奕, 袁文婭, 李春輝, 李永祥, 張登峰, 石云素, 宋燕春, 王天宇, 黎裕. 玉米葉向值的全基因組關(guān)聯(lián)分析. 作物學(xué)報(bào), 2020, 46: 819–831. Peng B, Zhao X L, Wang Y, Yuan W Y, Li C H, Li Y X, Zhang D F, Shi Y S, Song Y C, Wang T Y, Li Y. Genome-wide association studies of leaf orientation value in maize., 2020, 46: 819–831 (in Chinese with English abstract).
[12] 謝磊, 任毅, 張新忠, 王繼慶, 張志輝, 石書兵, 耿洪偉. 小麥穗發(fā)芽性狀的全基因組關(guān)聯(lián)分析. 作物學(xué)報(bào), 2021, 47: 1891–1902. Xie L, Ren Y, Zhang X Z, Wang J Q, Zhang Z H, Shi S B, Geng H W. Genome-wide association study of pre-harvest sprouting traits in wheat., 2021, 47: 1891–1902 (in Chinese with English abstract).
[13] 楊飛, 張征鋒, 南波, 肖本澤. 水稻產(chǎn)量相關(guān)性狀的全基因組關(guān)聯(lián)分析及候選基因篩選. 作物學(xué)報(bào), 2022, 48: 1813–1821. Yang F, Zhang Z F, Nan B, Xiao B Z. Genome-wide association analysis and candidate gene selection of yield related traits in rice., 2022, 48: 1813–1821 (in Chinese with English abstract).
[14] Lippert C, Listgarten J, Liu Y, Kadiel C M, Davidson R I, Heckerman D. FaST linear mixed models for genome-wide association studies., 2011, 8: 833–835.
[15] Listgarten J, Lippert C, Kadie C M, Davidson R I, Eskin E, Heckerman D. Improved linear mixed models for genome-wide association studies., 2012, 9: 525–526.
[16] Loh P R, Bhatia G, Gusev A, Finucane H K, Bulik-Sullivan B K, Pollack S J. Contrasting genetic architectures of schizophrenia and other complex diseases using fast variance-components analysis., 2015, 47: 1385–1392.
[17] Jiang L D, Zheng Z L, Qi T, Kemper K E, Wray N R, Visscher P M, Yang J. A resource-efficient tool for mixed model association analysis of large-scale data., 2019, 51: 1749–1755.
[18] Maher B. Personal genomes: the case of the missing heritability., 2008, 456: 18–21.
[19] Visscher P. Sizing up human height variation., 2008, 40: 489–490.
[20] Yang J, Benyamin B, McEvoy B P, Gordon S, Henders A K, Nyholt D R, Madden P A, Heath A C, Martin N G, Montgomery G W, Goddard M E, Visscher P M. Common SNPs explain a large proportion of the heritability for human height., 2010, 42: 565–569.
[21] Song B, Mott R, Gan X. Recovery of novel association loci inandthrough leveraging INDELs association and integrated burden test., 2018, 14: e1007699.
[22] Zhang Y W, Tamba C L, Wen Y J, Li P, Ren W L, Ni Y L, Gao J, Zhang Y M. mrMLM v4.0.2: an R platform for multi-locus genome-wide association studies., 2020, 18: 481–487.
[23] Yang N, Lu Y L, Yang X H, Huang J, Zhou Y, Ali F H, Wen W W, Liu J, Li J S, Yan J B. Genome wide association studies using a new nonparametric model reveal the genetic architecture of 17 agronomic traits in an enlarged maize association panel., 2014, 10: e1004573.
[24] Liu H J, Wang X Q, Xiao Y J, Luo J Y, Qiao F, Yang W Y, Zhang R Y, Meng Y J, Sun J M, Yan S J, Peng Y, Niu L Y, Jian L M, Song W, Yan J L, Li C H, Zhao Y X, Liu Y, Warburton M L, Zhao J R, Yan J B. CUBIC: an atlas of genetic architecture promises directed maize improvement., 2020, 21: 20.
[25] Lande R, Thompson R. Efficiency of marker-assisted selection in the improvement of quantitative traits., 1990, 124: 743–756.
[26] Yu J M, Holland J B, McMullen M D, Buckler E S. Genetic design and statistical power of nested association mapping in maize., 2008, 178: 539–551.
[27] Tibshirani R. Regression shrinkage and selectionthe lasso., 1996, 58: 267–288.
[28] Zou H. The adaptive lasso and its oracle properties., 2006, 101: 1418–1429.
[29] Liang Y M, Liu Q, Wang X F, Huang C, Xu G H, Hey S, Lin H Y, Li C, Xu D Y, Wu L S, Wang C L, Wu W H, Xia J L, Han X, Lu S J, Lai J S, Song W B, Schnable P S, Tian F. ZmMADS69 functions as a flowering activator through the regulatory module and contributes to maize flowering time adaptation., 2019, 221: 2335–2347.
[30] Makarevitch I, Thompson A, Muehlbauer G J, Springer N M.gene in maize encodes a brassinosteroid C-6 oxidase., 2012, 7: e30798.
[31] Xing A Q, Gao Y F, Ye L F, Zhang W P, Cai L C, Ching A, Llaca V, Johnson B, Liu L, Yang X H, Kang D M, Yan J B, Li J S. A rare SNP mutation in Brachytic2 moderately reduces plant height and increases yield potential in maize., 2015, 66: 3791–3802.
[32] Yang N, Liu J, Gao Q, Gui S T, Chen L, Yang L F, Huang J, Deng T Q, Luo J Y, He L J, Wang Y B, Xu P W, Peng Y, Shi Z, Lan L, Ma Z Y, Yang X, Zhang Q Q, Bai M Z, Li W, Liu L, Jackson D, Yan J B. Genome assembly of a tropical maize inbred line provides insights into structural variation and crop improvement., 2019, 51: 1052–1059.
[33] Luo Y, Zhang M L, Liu Y, Liu J, Li W Q, Chen G S, Peng Y, Jin M, Wei W J, Jian L M, Yan J, Fernie A R, Yan J B. Genetic variation in YIGE1 contributes to ear length and grain yield in maize., 2022, 234: 513–526.
[34] Du Y F, Liu L, Peng Y, Li M F, Li Y F, Liu D, Li X W, Zhang Z X.expression and inflorescence development is mediated byand the distal enhancer,, in maize., 2020, 16: e1008764.
[35] Chen W K, Chen L, Zhang X, Yang N, Guo J H, Wang M, Ji S G, Zhao X Y, Yin P F, Cai L C, Xu J, Zhang L L, Han Y J, Xiao Y N, Xu G, Wang Y B, Wang S H, Wu S, Yang F, Jackson D, Cheng J K, Chen S H, Sun C Q, Qin F, Tian F, Fernie A R, Li J S, Yan J B, Yang X H. Convergent selection of a WD40 protein that enhances grain yield in maize and rice., 2022, 375: e7985.
[36] Liu L, Gallagher J, Arevalo E D, Chen R, Skopelitis T, Wu Q, Bartlett M, Jackson D. Enhancing grain-yield-related traits by CRISPR-Cas9 promoter editing of maize CLE genes., 2021, 7: 287–294.
[37] Jia H T, Li M F, Li W Y, Liu L, Jian Y N, Yang Z X, Shen X M, Ning Q, Du Y F, Zhao R, Jackson D, Yang X H, Zhang Z X. A serine/threonine protein kinase encoding gene KERNEL NUMBER PER ROW6 regulates maize grain yield., 2020, 11: 988.
[38] Zeng Z B. Precision mapping of quantitative trait loci.1994, 136: 1457–1468.
[39] Li H H, Ye G Y, Wang J K. A modified algorithm for the improvement of composite interval mapping., 2007, 175: 361–374.
ALGWAS: two-stage Adaptive Lasso-based genome-wide association study
YANG Wen-Yu1,2, WU Cheng-Xiu1, XIAO Ying-Jie1,3,*, and YAN Jian-Bing1,3
1National Key Laboratory of Crop Genetic Improvement, Huazhong Agricultural University, Wuhan 430070, Hubei, China;2College of Science, Huazhong Agricultural University, Wuhan 430070, Hubei, China;3Hubei Hongshan Laboratory, Wuhan 430070, Hubei, China
As mainstream methods for genome-wide association analysis, mixed linear model methods have been widely used. However, the existing methods still have the problem of low detection power. In this study, a two-stage Adaptive Lasso-based genome-wide association analysis (ALGWAS) method was proposed. In the first stage, single nucleotide polymorphism (SNP) associated with target traits were screened by Adaptive Lasso, a variable selection method. In the second stage, SNPs selected from the first stage were put into the linear model as the covariates for genome-wide scanning. Compared with fastGWA, GEMMA and EMMAX, the ALGWAS method had the highest detection power and lower false discovery rate (FDR) in the simulation experiments. The above four methods were applied to genome-wide association analysis of Complete-diallel plus Unbalanced Breeding-like Inter-Cross (CUBIC) population of 1341 individuals in maize. ALGWAS method can detect the genes (,,, andrelated to days to tasseling, the genes (and) related to plant height, and the genes (,,and) related to yield, while the other three commonly used genome-wide association analysis methods had low detection efficiency. In this study, a non-mixed linear model class of genome-wide association analysis method was proposed, which had higher detection advantage for microeffect polygenes and provided a new way for genetic analysis of complex traits.
maize; genome-wide association study; variable selection; Adaptive Lasso
2022-10-28;
2023-02-21;
2023-03-03.
10.3724/SP.J.1006.2023.23072
通信作者(Corresponding author):肖英杰, E-mail: yxiao25@mail.hzau.edu.cn
E-mail: yangwenyurain@126.com
本研究由國家自然科學(xué)基金項(xiàng)目(32201855, 32122066)資助。
This study was supported by the National Natural Science Foundation of China (32201855, 32122066).
URL: https://kns.cnki.net/kcms/detail/11.1809.S.20230302.1544.007.html
This is an open access article under the CC BY-NC-ND license (http://creativecommons.org/licenses/by-nc-nd/4.0/).