馬甜甜,羅東文,JAHUFER Mohamed zain zulfiqhar,駱 凱,李 潔,張吉宇
(1. 蘭州大學(xué)草地農(nóng)業(yè)生態(tài)系統(tǒng)國家重點實驗室 / 蘭州大學(xué)農(nóng)業(yè)農(nóng)村部草牧業(yè)創(chuàng)新重點實驗室 / 蘭州大學(xué)草地農(nóng)業(yè)科技學(xué)院,甘肅 蘭州 730020;2. 新西蘭國家草地農(nóng)業(yè)研究所,新西蘭 11008)
植物育種是一門綜合性學(xué)科,改良植物各性狀以取得良好的生態(tài)或經(jīng)濟效益。育種研究的過程中,從種質(zhì)資源的鑒定到新品種評價,涉及數(shù)量遺傳學(xué)原理、基因型與環(huán)境的互作、育種策略的選擇等方面。育種周期長,步驟復(fù)雜,從而產(chǎn)生大量的數(shù)據(jù),這些數(shù)據(jù)既是育種工作的基礎(chǔ),也是育種手段的體現(xiàn),更是檢驗育種成果的重要途徑,因此對育種數(shù)據(jù)的分析顯得格外重要。
目前大多數(shù)育種者選用Excel、SPSS和GenStat進行數(shù)據(jù)分析。Excel作為一款辦公軟件,具有數(shù)據(jù)處理、圖表可視化和初步統(tǒng)計分析等豐富的功能[1],但在進行數(shù)據(jù)分析時信息量少且操作繁瑣[2]。SPSS是較為權(quán)威的統(tǒng)計分析軟件,廣泛應(yīng)用于各類研究中[3-4],具有操作簡便、易學(xué)易用等優(yōu)點,但是SPSS圖表可視化效果不明顯,而且更側(cè)重于商業(yè)和社會學(xué)研究領(lǐng)域。GenStat是由VSNi開發(fā)的商用統(tǒng)計分析軟件,歷史悠久并且不斷更新,始終活躍在生物統(tǒng)計學(xué)技術(shù)的前沿[5],統(tǒng)計功能強大,但是更側(cè)重于農(nóng)業(yè)研究領(lǐng)域,且需購買軟件。
北京中農(nóng)博思科技發(fā)展有限公司基于“育種數(shù)據(jù)管理第一重要”的育種理念開發(fā)了農(nóng)博士育種家軟件,用于育種數(shù)據(jù)采集、管理和分析[6],但推廣范圍有限,沒有得到很好的應(yīng)用。國外也有許多基于數(shù)量遺傳學(xué)原理的軟件為育種者提供育種策略選擇等方面的幫助。例如,QU-GENE[7]和在其基礎(chǔ)上建立的QuLine(又稱QuCim)[8-9],模擬育種過程,提出最佳親本選配、雜交和后代選擇策略,從而提高育種效率;AlphaSim,模擬動植物育種計劃,允許用戶模擬多種性狀和多種環(huán)境進行基因組預(yù)測,應(yīng)用最佳選擇[10];還有免費軟件Selegen-REML/BLUP,可以用于估計方差分量、遺傳加性模型和遺傳增益[11]。但它們都不能為植物育種者提供完備的統(tǒng)計服務(wù)。
本文介紹一款專為植物育種工作者設(shè)計的免費統(tǒng)計分析軟件DeltaGen(http://agrubuntu.cloudapp.net/PlantBreedingTool/)。DeltaGen是由新西蘭國家草地農(nóng)業(yè)研究所Zulfi Jahufer和羅東文基于R語言shiny包開發(fā)的一款分析工具。DeltaGen基于數(shù)量遺傳學(xué)原理,可以為育種者提供從試驗設(shè)計到數(shù)據(jù)質(zhì)量控制、統(tǒng)計和數(shù)量遺傳分析、選擇策略評估、模擬和成本評估、模式分析、指數(shù)選擇,直至生成研究報告的所有過程[12]。其簡便易學(xué),步驟清晰,免費向用戶開放使用,是一款非常實用的植物育種綜合分析和教學(xué)工具。
此外,DeltaGen生成的圖表都可以在界面上調(diào)整顏色和字體大小,進行圖表美化,選擇顯示生成圖表的數(shù)據(jù)處理過程概述,下載圖表。DeltaGen是一款面向用戶的開源軟件,可隨時根據(jù)用戶的使用體驗,合理要求以及分析方法的發(fā)展進行更新優(yōu)化。
打開DeltaGen網(wǎng)址,啟動網(wǎng)頁服務(wù)端可以得到圖1所示的用戶界面示意圖。
DeltaGen用戶界面的一級菜單有介紹(Introduction)、試驗設(shè)計(Trial Design)、數(shù)據(jù)輸入(Data Input)、圖表(Graphs and Tables)、模型(Models)、模式分析(Pattern Analysis)、保存和退出(Save & Quit)、幫助(Help)和致謝(Acknowledgements)欄。
DeltaGen簡介及軟件所屬的科研項目和資助情況。
可以根據(jù)用戶需求進行田間試驗設(shè)計,設(shè)計類型有完全隨機設(shè)計(Completely Randomized)、完全隨機區(qū)組設(shè)計(Randomized Completely Block)、因子設(shè)計(Factorial)和行列設(shè)計(Row and Column),設(shè)計結(jié)果可以生成電子版田間試驗設(shè)計示意圖和數(shù)據(jù)表格并下載保存。
DeltaGen輸入數(shù)據(jù)可以選擇自帶舉例數(shù)據(jù)(Examples)、上傳(Upload)或粘貼(Clipboard)。一般選擇上傳選項,DeltaGen上傳數(shù)據(jù)為CSV格式數(shù)據(jù)。數(shù)據(jù)中的缺失值可以用空格“ ”,星號“*”或點“.”表示,在數(shù)據(jù)上傳時界面的缺失數(shù)據(jù)(Missing value shown as)可以相應(yīng)選擇 Empty(代表空格)、Dot(代表.)或者*,點擊“Run”數(shù)據(jù)上傳完成。接下來必須對變量進行重新命名,這一步驟非常重要,首先,它設(shè)定了育種試驗的結(jié)構(gòu)為Year/Season/Location/Replicates/(Row+Column)/Sample+Check+Line,其次,后續(xù)的相關(guān)分析(單變量分析中的混合效應(yīng)線性模型,模式分析,選擇指數(shù))都是基于這個結(jié)構(gòu)展開的。同時注意在這一步驟中,不僅重新命名了變量,也改變了變量的性質(zhì)為因子(factor)。
圖1 DeltaGen用戶界面示意圖Figure 1 The DeltaGen user interface
基于輸入的數(shù)據(jù),選擇plot進入作圖,圖的類型(Plot-type)有直方圖(Histogram)、密度圖(Density)、散點圖(Scatter)、線形圖(Line)、條形圖(Bar)和箱線圖(Box-plot),選擇Pivot Table進入數(shù)據(jù)透視表界面。通過作圖和表格,可以檢驗原始數(shù)據(jù)是否符合正態(tài)分布,發(fā)現(xiàn)缺省值和異常值,以及數(shù)據(jù)間的關(guān)系。
根據(jù)試驗數(shù)據(jù)的特征和試驗的目的選擇單變量分析(Univariate)或多變量分析(Multivariate)。
單變量分析用混合效應(yīng)線性模型(Linear Mixed Effects Model)處理重復(fù)測量數(shù)據(jù),針對處理效應(yīng)是隨機效應(yīng)(Random terms)或固定效應(yīng)(Fixed terms),基于所用混合效應(yīng)線性模型分別生成測量數(shù)據(jù)均值的最佳線性無偏估計(Best linear unbiased estimation,BLUE)值或最佳線性無偏預(yù)測(Best linear unbiased prediction,BLUP)值,以去除田間試驗中環(huán)境對表型的影響。擬合混合效應(yīng)線性模型后還應(yīng)注意檢查殘差圖(Residual Plots),如果殘差圖顯示模型的假設(shè)要求未被滿足(如原始數(shù)據(jù)不符合正態(tài)分布),可能需要對響應(yīng)變量進行數(shù)據(jù)轉(zhuǎn)換(Data transformation),可以選擇對數(shù)函數(shù)轉(zhuǎn)換(log_e)、平方根轉(zhuǎn)換(sqrt)和反三角函數(shù)轉(zhuǎn)換(arcsin)。對于兩個變量交互作用的隨機效應(yīng),還可以進行聚類分析(Cluster)和主成分分析(PCA)。此外在擬合混合效應(yīng)線性模型后,點擊遺傳增益和模擬(Genetic Gain and Simulation),程序會自動提取擬合結(jié)果中的相關(guān)信息,計算選擇周期中各性狀遺傳增益,模擬育種過程并計算育種成本。
多變量分析可進行繪圖(Plot)、多變量方差分析(MANOVA)和選擇指數(shù)(Selection Index)選項,可以作主成分分析散點圖(Biplot)和多重相關(guān)圖(Matrix Plot)、多變量方差分析和Smith-Hazel選擇指數(shù),計算各個體的指數(shù)值,依據(jù)指數(shù)值選擇留種或淘汰。
模式分析(Pattern Analysis)。在模式分析中基于去除了環(huán)境影響之后的標準化數(shù)據(jù)(缺省選項)可以進行聚類分析(Cluster Analysis)和生成熱圖(Heatmap plot),也可以進行主成分分析生成主成分分析散點圖(PCA Biplot)。
按Download下載數(shù)據(jù)分析報告,按Quit App離開應(yīng)用。
DeltaGen有兩個幫助選項。一個是主菜單欄上的DeltaGen快速使用指導(dǎo),和關(guān)于網(wǎng)頁服務(wù)端的開發(fā)者信息。一個是在每個數(shù)據(jù)分析窗口出現(xiàn)的,提供分析使用的數(shù)量遺傳模型信息,以及相關(guān)指導(dǎo)。
以蘭州大學(xué)草地農(nóng)業(yè)科技學(xué)院育種與種子研究團隊草木樨(Melilotus)育種數(shù)據(jù)[13]來舉例說明DeltaGen的應(yīng)用。草木樨為豆科二年生自花或異花授粉植物[14]。前期試驗,從國外引進19份草木樨種質(zhì)進行農(nóng)藝學(xué)與品質(zhì)性狀的初步評價[15],對草木樨的香豆素含量[16]和屬內(nèi)的系統(tǒng)發(fā)育關(guān)系[17]進行了研究,基于草木樨轉(zhuǎn)錄組數(shù)據(jù)開發(fā)了SSR標記輔助育種[18-19]。2014-2015年試驗選擇的40份草木樨半同胞家系種質(zhì)在榆中和臨澤兩個試驗點進行農(nóng)藝性狀評價,表現(xiàn)好的家系用于后續(xù)育種[20]。本文選擇草木樨多年多點評價的部分農(nóng)藝性狀數(shù)據(jù)作為實例說明DeltaGen的應(yīng)用,這些農(nóng)藝性狀包括干重 (dry matter yield,YLD)、株高 (plant height,PH)、莖粗(stem diameter, SD)、分枝數(shù)(stem number,SN)、春季活力(spring vitality,SR)、葉面積(leaf area,LA)。
打開DeltaGen網(wǎng)址,點擊主菜單工具欄Trial Design進入設(shè)計頁面,設(shè)計類型選擇完全隨機區(qū)組設(shè)計(Randomized Completely Block),區(qū)組數(shù)(Number of Block)為3,處理數(shù)(Number of Tre)為40,填寫合適的行(Row):5和列(Column):8,點擊Run,設(shè)計完成后點擊Design Check查看設(shè)計圖,拖動設(shè)計圖下載。行列試驗設(shè)計圖如圖2所示。
設(shè)計結(jié)果保存為csv格式的文件,為收集試驗數(shù)據(jù)做準備。
點擊主菜單工具欄Data Input,點擊Upload,Browse選擇文件上傳原始數(shù)據(jù),原始數(shù)據(jù)在Excel中整理,上傳格式為CSV格式并對性狀重新命名(如果數(shù)據(jù)取自Examples則無需重新命名),點擊Run,上傳完成。
在數(shù)據(jù)分析之前以原始數(shù)據(jù)作圖或數(shù)據(jù)透視表檢驗數(shù)據(jù)是否符合正態(tài)分布。點擊主菜單工具欄Graphs and Tables,點擊Plot,選擇直方圖(Histogram),X變量(X-variable)選擇要檢驗的性狀,按Ctrl鍵選擇多個性狀。本文選擇干重(YLD)、株高(PH)、莖粗(SD)、分枝數(shù)(SN),點擊Density顯示數(shù)據(jù)分布曲線,生成直方圖如圖3所示,符合正態(tài)分布,不進行數(shù)據(jù)轉(zhuǎn)換。
2.4.1 混合線性模型分析
點擊主菜單工具欄(Models)。
圖2 田間試驗設(shè)計圖Figure 2 Field trial design
選擇單變量分析(Univariate)。點擊Modelling,依次選擇性狀作為主要處理(Primary Trait),計算出每個性狀基于最佳線性無偏預(yù)測(BLUP)的混合線性模型的平均值,去除環(huán)境對表型的影響,使用BLUP標準化后的性狀平均值進行后續(xù)分析;點擊遺傳增益和模擬(Genetic Gain and Simulation),基于在Modelling中選擇的作為主要處理的性狀進行遺傳增益計算和育種模擬。本例選擇干重作為主要處理性狀進行模擬。在模擬變量(Simulation Variables)中填寫行業(yè)標準(Industry Standard)、策略(Strategy)、選擇壓力(Selection Pressure)、田間試驗成本(Field Trial Cost),點擊update,輸出界面如圖4所示。按照20%的選擇壓力對干重進行單一性狀選擇,在這一選擇周期遺傳增益為17.07%,在Modelling中選擇其他性狀作為主要處理性狀,重復(fù)上述步驟可計算其他性狀的遺傳增益,如表1所列。在這6個性狀之中,干重經(jīng)過一個選擇周期之后預(yù)期遺傳增益(ΔG)和相對親本的遺傳增益(%ΔG)增加百分比都最高,為17.07%和16.42%,莖粗的遺傳增益百分比增加最低,為0.16%,株高的相對親本遺傳增益增加百分比最低,為1.22%。育種成本為虛擬數(shù)值,僅用于說明DeltaGen進行育種過程模擬計算育種成本的功能。
圖3 檢驗原始數(shù)據(jù)是否符合正態(tài)分布的直方圖Figure 3 A histogram used to verify that the raw data conforms to a normal distribution
選擇多變量分析(Multivariate)。點擊Plot,選擇性狀(可選擇多個),生成基于原始數(shù)據(jù)的表型相關(guān)Biplot或Matrix Plot圖(圖5)。40份種質(zhì)中6個性狀的表型相關(guān)性分析表明,產(chǎn)量與莖粗正相關(guān)性最大,相關(guān)性系數(shù)為0.66;產(chǎn)量與株高正相關(guān)性次之,相關(guān)性系數(shù)為0.48;春季活力與其余5個性狀均表現(xiàn)為正相關(guān)關(guān)系,與產(chǎn)量正相關(guān)性極強,相關(guān)性系數(shù)為0.83(春季活力從優(yōu)到劣分為1~5個等級,表型值越大活力越弱,與其他5個性狀表現(xiàn)相反);分枝數(shù)與葉面積表現(xiàn)為負相關(guān)關(guān)系,相關(guān)性系數(shù)為-0.07。
2.4.2 模式分析
點擊主菜單工具欄Pattern Analysis,使用標準化BLUP值進行分析。點擊Cluster Analysis,進行聚類分析和生成聚類熱圖(圖6)。聚類分析后的各分組詳情如表2所列。
使用標準化BLUP值去除環(huán)境影響,只考慮基因型的作用,基于6個性狀在40份種質(zhì)中的表現(xiàn)將40份種質(zhì)分為3類(表2)。熱圖從紅色到藍色性狀表型值依次降低,第1類種質(zhì)中株高(PH)、干重(YLD)、莖粗(SD)、分枝數(shù)(SN)、葉面積(LA)、春季活力(SR)(春季活力從優(yōu)到劣分為1~5個等級,表型值越大活力越弱,與其他5個性狀表現(xiàn)相反)均表現(xiàn)最高;第2類種質(zhì)株高、產(chǎn)量、莖粗、葉面積、春季活力表現(xiàn)居中,分枝數(shù)表現(xiàn)最低;第3類種質(zhì)分枝數(shù)表現(xiàn)居中,株高、產(chǎn)量、莖粗、葉面積、春季活力均表現(xiàn)最低(圖6)。
圖4 遺傳增益和模擬輸出界面Figure 4 Genetic gain and simulation output interface
表1 基于兩個地點評價的草木樨經(jīng)過一個選擇周期獲得的預(yù)期遺傳增益Table 1 Predicted genetic gain (ΔG) obtained from per selection cycle based on the Melilotus across two sites evaluation%
圖5 各性狀的表型皮爾遜相關(guān)矩陣圖(Matrix Plot)Figure 5 Pearson correlation matrix (Matrix Plot)of phenotypic traits
點擊PCA Biplot,進行主成分分析。按Ctrl+A選擇所有性狀,選擇使用標準化數(shù)據(jù)、顯示主成分概述,點擊Run。生成主成分分析散點圖(圖7),和PCA特征值概述(表3)。對草木樨種質(zhì)的6個表型相關(guān)性狀進行主成分分析,結(jié)果表明前2個主成分特征值大于1,入選為主成分,累積貢獻率77.0%。第一主成分解釋了總體性狀變異的58.3%,第二主成分解釋了總體性狀變異的18.7%(表3)。
主成分分析散點圖選擇特征值較大的前3個成分作為主成分解釋了總體性狀變異的87.9%。紅色代表第一主成分,包括產(chǎn)量、株高、莖粗、分枝數(shù)等與牧草產(chǎn)量相關(guān)的性狀;綠色代表第二主成分葉面積,與牧草質(zhì)量相關(guān);藍色代表第三主成分春季活力。性狀間的相互關(guān)系由兩個性狀位置及夾角表示。數(shù)字表示40份種質(zhì)。去除環(huán)境對表型的影響之后產(chǎn)量與莖粗呈極強正相關(guān)關(guān)系,與株高和分枝數(shù)呈正相關(guān)關(guān)系,分枝數(shù)與葉面積呈負相關(guān)關(guān)系(圖7)。
圖6 標準化BLUP值的40份種質(zhì)的聚類分析和6個性狀的表達熱圖Figure 6 Cluster analysis of 40 accessions with standardized BLUP values and expression heat map of 6 traits
表2 標準化BLUP值的40份種質(zhì)聚類表Table 2 40 accessions cluster tables using standardized BLUP values
圖7 主成分分析散點圖Figure 7 Principal component analysis scatter plot
表3 主成分特征值的分析Table 3 Analysis of principal component eigenvalues
植物育種是一個多學(xué)科交叉的過程,沒有豐富經(jīng)驗的育種者難以理解和把握,依靠Excel和SPSS等工具處理育種數(shù)據(jù),不能夠很好地挖掘數(shù)據(jù)中的信息。隨著信息技術(shù)的興起,人們逐漸認識到計算機模擬為植物育種計劃提供決策支持的重要性[21],隨之出現(xiàn)了一系列模擬育種過程,為育種者提供策略選擇幫助的工具,例如Plabsoft[22]、QUGENE[7]和Selectiongain[23]。這些軟件作為戰(zhàn)略育種工具具有很高的應(yīng)用價值。但是,由于其是基于計算機模擬,在野外育種計劃中應(yīng)用較為不穩(wěn)定,并且操作需專業(yè)技術(shù)支持、實施困難,造成這類軟件不易推廣,使用人數(shù)少。直至現(xiàn)在仍然有大多數(shù)育種者在使用Excel和SPSS處理育種數(shù)據(jù)。而簡便易學(xué)、步驟清晰的DeltaGen集試驗設(shè)計生成、數(shù)據(jù)質(zhì)量控制、統(tǒng)計和數(shù)量遺傳分析、育種策略評估和指數(shù)選擇等功能于一體,可以為育種者提供綜合解決方案,縮短育種周期,減少盲目性,節(jié)省大量人力、物力和財力。
對草木樨育種數(shù)據(jù)進行分析,證明了使用DeltaGen可以成功完成關(guān)鍵分析程序。對此,駱凱等[24]使用GenStat進行了預(yù)期遺傳增益和模式分析,結(jié)果與本研究所用DeltaGen的分析結(jié)果基本相同(表1、圖7)。
此外,DeltaGen除了作為試驗設(shè)計、數(shù)據(jù)分析和策略選擇工具,在其Help工具欄有詳細的使用步驟和理論指導(dǎo),可以作為學(xué)習(xí)數(shù)量遺傳學(xué)基礎(chǔ)知識的工具。軟件現(xiàn)已用于蘭州大學(xué)草地農(nóng)業(yè)科技學(xué)院研究生和本科生草類植物育種學(xué)教學(xué)。DeltaGen的終端還在繼續(xù)改進,希望能為更多的植物育種者提供幫助。