• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      主成分分析在動物科學的應用研究進展

      2017-01-18 05:59:33宋志芳解佑志蘆春蓮曹洪戰(zhàn)
      中國畜牧雜志 2017年11期
      關鍵詞:關聯(lián)性狀分層

      宋志芳,解佑志,蘆春蓮,李 賽,曹洪戰(zhàn)*

      (1.河北農(nóng)業(yè)大學動物科技學院,河北 保定 071000;2. 河北正農(nóng)牧業(yè)有限公司,河北 辛集 052360)

      主成分分析在動物科學的應用研究進展

      宋志芳1,解佑志1,蘆春蓮1,李 賽2,曹洪戰(zhàn)1*

      (1.河北農(nóng)業(yè)大學動物科技學院,河北 保定 071000;2. 河北正農(nóng)牧業(yè)有限公司,河北 辛集 052360)

      主成分分析(PCA)采取降維思想,同時保持數(shù)據(jù)對方差貢獻最大的特征,在畜牧生產(chǎn)上用于研究影響性狀的變量,既簡化變量個數(shù),又獲取足量信息,降低課題研究的復雜性.在全基因組關聯(lián)分析(GWAS)中,PCA可用于校正群體分層,降低群體分層對關聯(lián)結果的假陽性,通過PCA圖可以看出研究群體是否有分層現(xiàn)象.本文主要對PCA的原理、分析軟件以及在畜牧生產(chǎn)和GWAS中的應用加以綜述.

      主成分分析;群體分層;降維;假陽性;GWAS

      繁殖性狀、體型性狀、生長性狀和屠宰性狀等是畜禽生產(chǎn)中較重要的經(jīng)濟性狀,也是品種選育的目標性狀.每個性狀都有很多衡量變量,分析變量數(shù)量多會增加分析難度.如果采用主成分分析(PCA)法,可得到主成分1~10的特征值、貢獻率和累計貢獻率,挑選累計貢獻率達到85%以上的主成分,最后找出特征向量最大的性狀變量[1].PCA是基于多元統(tǒng)計分析原理的一種統(tǒng)計方法,對某性狀的多個變量進行研究,根據(jù)性狀間的相關性,找出能反映主要信息的少數(shù)幾個互相獨立的綜合性狀[2-4].PCA在畜牧業(yè)中廣泛應用,已經(jīng)成為研究畜禽品種的分類、起源和進化、選育以及進行各種生產(chǎn)性能變量分類的重要手段[5-7].通過找出某性狀具有代表性的變量,納入綜合選擇指數(shù),為性狀改良和品種選育提供參考,提高育種效率.在全基因組關聯(lián)分析(GWAS)研究中,如果群體存在分層現(xiàn)象,就會降低關聯(lián)分析的假陽性,影響關聯(lián)分析效果.因此,需要對群體分層進行校正.采用PCA法并將其作為協(xié)變量納入線性模型中進行群體分層校正,在GWAS中得到應用.總之,PCA在畜禽育種和關聯(lián)分析過程中具有一定的作用和研究意義.

      1 PCA的概念和原理

      PCA又稱主成分回歸分析或主分量分析,在統(tǒng)計學中采用降維思想,將多變量轉化為少數(shù)幾個綜合變量,能夠簡化數(shù)據(jù)集,在多元統(tǒng)計分析中是一種重要的統(tǒng)計方法,選出主成分以有效利用大量數(shù)據(jù)并降低工作量.所謂主成分就是通過原始變量的線性組合形成的數(shù)個綜合指標.

      在研究某一問題時,為了獲取更全面和更詳細的信息,通常會選取多個變量進行說明[8],但如果選取變量過多加之變量之間的信息重疊,會增加研究工作的復雜度和工作量.因此,通過原始變量之間的線性關系,少數(shù)幾個線性組合代替原始變量,且能解釋大部分變量信息.PCA的結果依靠分析數(shù)據(jù)的準確性,因此要求原始數(shù)據(jù)精準.主成分與原始變量的基本關系:①利用PCA得到的主成分都是原始變量的線性組合;②主成分數(shù)量較原始變量數(shù)量大大減少;③各主成分之間互不相關;④主成分能夠保留原始變量的絕大部分信息.

      2 PCA的分析步驟和軟件

      PCA可廣泛用于自然科學、醫(yī)學、社會經(jīng)濟和管理等多個領域.PCA的分析步驟:①根據(jù)研究問題選取初始分析變量,應充分考慮所選原始變量是否合適;②根據(jù)初始變量的特性選擇求主成分的方法(協(xié)方差陣或相關陣);③求出矩陣的特征根和相應的特征向量;④判斷是否存在多重共線性,如果存在,返回第①步;⑤確定主成分的個數(shù),選取主成分;⑥結合主成分對研究問題進行深入分析和討論[9].基于PCA的分析原理和步驟,研發(fā)了相關的分析軟件.

      2.1 PCA的分析軟件

      2.1.1 SPSS軟件 SPSS軟件提供了進行PCA的功能模塊-Factor,導入相關數(shù)據(jù)后進行因子分析,分析結果會顯示各主成分解釋原始變量總方差的情況,且SPSS會默認保留特征根大于1的主成分,且默認利用相關陣求解主成分.事實上,可認為選擇主成分的個數(shù)并改變特征根值.選取主成分后,還要確定主成分是否能對分析問題有一個的合理解釋.還可繪制主成分分析圖,直觀展示分析結果.

      2.1.2 R軟件 選取初始分析變量后,可以用R語言進行PCA分析,分別用cor、eigen和plot函數(shù)求出相關系數(shù)矩陣、相關系數(shù)矩陣的特征值和特征向量以及各主成分的方差變化折線圖(碎石圖),然后繪制基于第一主成分和第二主成分的觀測樣本散點圖,分析2個主成分間的線性關系.此外,R語言還包括分析PCA的princomp函數(shù),一般書寫格式為princomp(x=數(shù)據(jù)框或矩陣名稱,cor=TRUE).導入數(shù)據(jù)并運行該函數(shù)后,會得到主成分系數(shù)矩陣和各觀測樣本在各主成分的得分等.除此之外,運用R語言環(huán)境下的SNP Relate和gdsfmt軟件包也能進行SNP芯片數(shù)據(jù)的主成分分析,進行PCA聚類和繪圖.

      2.1.3 全基因組復雜性狀分析軟件 全基因組復雜形狀分析(GCTA)軟件具有多種分析功能,如估計全基因組SNP數(shù)據(jù)的親緣關系、近交系數(shù)和估計各染色體所解釋的方差等.利用GCTA軟件可以進行基于SNP芯片數(shù)據(jù)的PCA.首先將SNP原始數(shù)據(jù)轉化為plink的二進制格式文件,利用GCTA編程進行主成分分析,可以設置主成分個數(shù),最后得到.eigenval和.eigenvec文件.在后者的首行加上相應的表頭,生成R作圖用的矩陣文件,將其導入R中,進行繪圖.分別把主成分1和主成分2當做x軸和y軸,繪制PCA圖.如研究樣本有不同的群體或家系,可用不同顏色加以區(qū)分.

      2.2 SAS軟件 SAS是1966年開發(fā)的一款統(tǒng)計分析軟件,具有數(shù)據(jù)儲存和管理、數(shù)據(jù)分析和圖形處理等多個功能模塊,其中也能進行主成分分析.首先用data命令導入數(shù)據(jù),用input name$選擇分析的變量,接著運行proc princomp變量列表、var 變量列表、run、proc print data 變量列表、var 輸出變量、run,就可得到相關陣的特征值和特征向量.根據(jù)輸出特征值,能看出前幾個主成分的貢獻率,然后可進行聚類分析,得到譜系聚類圖.SAS的功能強大、操作簡單且靈活、能隨時獲得幫助信息,得到簡明的操作指導.

      2.3 EXCEL軟件 EXCEL是另一款進行PCA和繪制PCA圖的可選軟件.將SNP數(shù)據(jù)用GCTA軟件進行PCA的計算,可在EXCEL軟件中進行PCA圖的繪制.首先用EXCEL打開主成分文件,文件表頭分別是樣品名、PC1、PC2、PC3.繪制前先對數(shù)據(jù)進行整理,排序樣品名稱(使同一個群體的樣本在一起).分群體分步選擇數(shù)據(jù)后,繪制PCA圖.按步驟繪制PCA圖后,也可對圖形進行坐標軸和顏色的調(diào)整.

      3 PCA的研究進展

      3.1 PCA在畜禽生產(chǎn)上的研究 雖然研究人員往往對通過多個性狀來研究進化模式和過程很感興趣,但是目前的數(shù)量模型方法都是針對單變量的.常用PCA來減少多維數(shù)據(jù)的維數(shù),使單變量性狀模型可以適用于單個主成分[10].已經(jīng)有很多關于PCA在動植物性狀方面的應用,為動植物的選育提供參考.我國擁有豐富的地方畜禽品種資源,且性狀優(yōu)良.與某性狀相關的指標很多,如果收集性狀指標信息,進行PCA,找到與性狀相關的且具代表性的指標,可為品種的選育提供參考和依據(jù).張力等[11]運用PCA方法分析了長白母豬的11個繁殖性狀,確定了斷奶窩重、初生個體重、育成率和乳頭數(shù)4個能反映長白母豬繁殖性狀主要信息的選育目標.楊慧等[12]進行了金定鴨胸寬、胸深等體型性狀的PCA,將10個性狀指標簡化成了3個主成分并選取體重、胸深、骨盆寬、脛圍和頸長作為代表性的指標,明確了金定鴨的體型特征.程郁昕等[13]對120頭AA肉雞活重、屠宰重和胸肌重等7個屠宰性狀進行PCA分析,提取了3個主成分(分別為屠宰因子、胸肌因子和瘦肉因子),很好地解釋了屠宰性狀的指標信息.綜上所述,PCA在畜禽生產(chǎn)中能夠大大降低性狀分析的變量,提取少數(shù)幾個能反映性狀信息的變量,為畜禽育種工作提供依據(jù),也減少了今后選育性狀的測量指標.但目前還沒發(fā)現(xiàn)PCA在實際生產(chǎn)應用中的效果,還需進一步研究、探討和驗證PCA在實際畜禽生產(chǎn)中的作用.

      3.2 PCA 在GWAS上的應用研究 SNP基因芯片的發(fā)展使得廣泛利用GWAS方法分析性狀與SNP信息的關聯(lián)成為可能,加之基因測序和重測序成本的降低,也使得群體分析應用廣泛.在GWAS分析中,PCA的結果能作為協(xié)變量用于校正群體分層給關聯(lián)分析帶來的假陽性.可以將PCA結果的主成分1和主成分2作為x軸和y軸繪制PCA散點圖,每個點代表1個樣本.通過散點圖能夠看出樣本的遺傳背景,如果2個樣本遺傳背景相似,就會聚集在一起,將整體樣本分成幾個亞群[14].如果分析的樣本全部來自同一品種,PCA能夠檢測離群樣本,在GWAS分析時將個別離群樣本剔除.如果大量樣本混淆(群體分層),則需要將PCA結果作為關聯(lián)分析的協(xié)變量,提高關聯(lián)分析結果的準確性,即先鑒定代表基于個體之間遺傳關聯(lián)的群體結構,再將主成分當做協(xié)變量用到線性模型中.除了檢測離群樣本外,還能夠推斷各亞群間的進化關系.大量文獻顯示,群體校正后,用Q-Q Plot圖來展示校正前后GWAS結果的分布,確定群體分層校正對關聯(lián)分析結果的有效性.除了應用動植物性狀外,GWAS在復雜疾病基因定位和基因組研究方面也有廣泛應用[15],且群體分層現(xiàn)象易被忽視.實際上,PCA可以應用于成千上萬個位點,從基因數(shù)據(jù)中提取前幾個主成分,用于群體的校正,對GWAS分析中的群體結構檢測和群體分層校正具有很大的作用,成為生物科學和醫(yī)學的重要分析工具[16].Price等[17]將PCA應用于GWAS,利用PCA分析基因型數(shù)據(jù)的特征值和特征向量,最后關聯(lián)分析校正后的基因型和表型.奚玉蓮[18]在利用77k基因芯片對秦川牛的多脊椎性狀進行GWAS中,進行了PCA和祖先估計,以揭示秦川牛的遺傳變異;郭家中[19]在進行奶牛重要經(jīng)濟性狀的GWAS中采用PCA和簡單線性回歸模型分析樣本群體混雜因素,以降低對關聯(lián)分析結果的干擾;阿地力江.卡德爾[20]在研究德保矮馬矮小性狀相關候選基因中,利用PCA和遺傳結構分析進行品種系統(tǒng)關系發(fā)生和遺傳結構.除了PCA,基因組控制法(GC)、多維標度分析(MDS)、混合線性模型和分層分析法也能檢測分析樣本的群體結構并校正群體分層.

      3.3 PCA在生物信息學上的應用 計算機技術的快速發(fā)展帶來了多維數(shù)據(jù)信息,使得人們很難獲取相關信息,采用化學模式識別方法能夠根據(jù)樣品的某種性質進行分類和特征選取,在生物信息學中得到了廣泛應用.PCA是化學模式識別方法之一,用于分類和聚類.Chapman等[21]在植物病理實驗中應用了PCA的雙投影圖,表明PCA結合實驗數(shù)據(jù)可以發(fā)現(xiàn)基因和比較陣列數(shù)據(jù)的分子序列譜.張瑞杰等[22]研究了在基因表達譜數(shù)據(jù)分析中,利用PCA結合層次聚類法和K-均值聚類法對組織樣品的分類效果,表明PCA能提高聚類質量.在基因表達譜研究中,涉及多個基因且基因間存在相關性,為了便于研究,通常使用PCA簡化變量.比如最終可用數(shù)個基因解釋原來成千個基因所解釋的90%的信息,然后解釋數(shù)個基因的生物學意義.對于基因芯片數(shù)據(jù),可用PCA對多變量數(shù)據(jù)矩陣進行簡化,有助于簡化分析和多維數(shù)據(jù)的可視化,但可能會丟失一部分有用信息.在實際生物信息學分析中,要根據(jù)實際情況考慮是否使用PCA.總之,PCA能從基因芯片中篩選有效數(shù)據(jù),是生物信息學分析中常用的統(tǒng)計分析方法.

      3.4 PCA最新分析方法的研究進展 傳統(tǒng)的PCA分析方法是通過對原始數(shù)據(jù)的協(xié)方差矩陣進行奇異值分解來分析問題,使得分析結果受原始數(shù)據(jù)的方法影響較大,過于突出方差較大的信息.馬士國等[23]提出了一種新的PCA分析思路--從相關函數(shù)矩陣入手,能彌補傳統(tǒng)分析方法的不足.在不同的應用領域,對PCA進行改進.如姜健[24]針對飛行實驗對高效異常診斷手段的迫切需求,采用分段線性思想改進PCA,進而改善了診斷模型參數(shù)估計的精度.PCA還可應用于工業(yè)生產(chǎn)過程監(jiān)測,但無法衡量變量間非線性依賴程度,王中偉等[25]提出了一種基于對數(shù)變換和最大信息系數(shù)PCA的的過程檢測方法,且該方法有效可行.為更好地分析某一特定問題,可對PCA進行改進或與其他分析方法相結合,提高分析結果的有效性.

      4 小 結

      PCA在畜禽生產(chǎn)和GWAS研究中都得到了廣泛應用,隨著基因測序技術和SNP基因分型技術的發(fā)展和畜禽選育工作的需要,PCA還會得到大量應用.因為研究者關注疾病或性狀與SNP位點的關聯(lián),而群體分層又是影響關聯(lián)效果的一個因素.PCA法在應用時也存在一定的局限性,如一般只提取前2個主成分,而忽略了其他主成分對群體分層的效果以及高維數(shù)據(jù)中低頻變異關聯(lián)研究中的人群分層問題還沒有定論.因此必須繼續(xù)研究和探索PCA,尤其是在GWAS分析中能夠有效檢測和控制群體結構.

      [1] 趙燕, 何俊, 金俊杰, 等. 馬站紅雞生長與繁殖性狀的主成分分析[J]. 江蘇農(nóng)業(yè)科學, 2017, 45(5): 153‐156.

      [2] 斐鑫德. 多元統(tǒng)計分析及其應用[M ]. 北京: 北京農(nóng)業(yè)大學出版社, 1991: 196‐212.

      [3] 周以飛, 黃華康. 作物品種試驗與統(tǒng)計分析[M ]. 福州: 福建科學技術出版社, 2003: 305‐312.

      [4] 魯生霞. 聚類分析及其在家畜遺傳育種中的應用[J]. 畜禽業(yè) , 2003, (10):6‐8.

      [5] 張學余, 陳國宏, 程金花. 部分地方雞品種體量及生態(tài)特征的多元統(tǒng)計分析[J]. 云南農(nóng)業(yè)大學學報, 2005, 20(4):486‐490.

      [6] 張毅, 向釗, 楊飛云, 等. 聚類分析確定榮昌豬繁殖性狀選育變量[J]. 中國獸醫(yī)學報, 2004, 24(4): 405‐406.

      [7] 陳國順. 運用聚類分析和主成分分析篩選豬的血清變量[J].甘肅農(nóng)業(yè)大學學報, 2005, 40(6): 723‐727.

      [8] 許淑娜, 李長坡. 對主成分分析法三個問題的剖析[J]. 數(shù)學理論與應用, 2011, (4):116‐121.

      [9] 何曉群. 多元統(tǒng)計分析(第四版)[M]. 北京: 中國人民大學出版社, 2015.

      [10] Josef C U, Daniel S C, Matthew W P. Comparative analysis of principal components can be misleading[J]. Syst Biol,2015, 64(4): 677‐689.

      [11] 張力, 肖天放. 運用主成分分析與聚類分析確定豬繁殖性狀的選育指標[J]. 中國農(nóng)學通報, 2008, (8): 28‐31.

      [12] 楊慧, 張力, 黃青雅, 等. 金定鴨體型性狀的主成分分析研究[J]. 中國農(nóng)學通報, 2012, (17): 12‐16.

      [13] 程郁昕, 王燕. AA肉雞屠宰性狀的主成分分析[J]. 畜牧與獸醫(yī) , 2013, (12): 61‐63.

      [14] Zhao S C, Zheng P P, Dong S S, et al. Whole‐genome sequencing of giant pandas provides insights into demographichistory and local adaptation[J]. Nat Genet,2012, 45(1): 67‐71.

      [15] Spencer C C, Su Z, Donnelly P, et al. Designing genome‐wide association studies: sample size, power, imputation,and the choice of genotyping chip[J]. PLoS Genet, 2009,(5): e1000477.

      [16] Price A L, Zaitlen N A, Reich D, et al. New approaches to population stratification in genome‐wide association studies[J]. Nat Rev Genet, 2010, 11(7): 459‐463.

      [17] Price A L, Patterson N J, Plenge R M, et al. Principal components analysis corrects for strafication in genome‐wide association studies[J]. Nat Genet, 2006, 38(8): 904‐909.

      [18] 奚玉蓮. 秦川?;蚪M遺傳變異及其與脊椎數(shù)的關系研究[D]. 楊凌: 西北農(nóng)林科技大學, 2016.

      [19] 郭家中. 奶牛重要經(jīng)濟性狀的全基因組關聯(lián)分析[D]. 楊凌: 西北農(nóng)林科技大學, 2013.

      [20] 阿地力江.卡德爾. 全基因組掃描篩選德保矮馬矮小性狀相關候選基因研究[D]. 北京: 中國農(nóng)業(yè)科學院, 2015.

      [21] Chapman S, Schenk P, Kazan K, et al. Using biplots interpret gene expression pattern in plants[J].Bioinformatics, 2001, 18: 202‐204.

      [22] 張瑞杰, 許杰, 王增權, 等. 利用基因表達譜對組織樣品分類的方法的研究[J]. 中國衛(wèi)生統(tǒng)計, 2003, (20):2‐5.

      [23] 馬士國, 余桐奎, 王志偉. 改進的主成分分析方法[J]. 艦船科學技術, 2012, (10): 21‐23+80.

      [24] 姜健. 基于改進PCA算法的航空發(fā)動機狀態(tài)診斷模型[J].燃氣渦輪試驗與研究, 2017, (2): 32‐36.

      [25] 王中偉, 宋宏, 李帥, 等. 基于對數(shù)變換和最大信息系數(shù)PCA的過程監(jiān)測[J]. 科學技術與工程, 2017, (16): 259‐265.

      Research Progress on Principal Component Analysis in Animal Science

      SONG Zhi‐fang1, XIE You‐zhi1, LU Chun‐lian1, LI Sai2, CAO Hong‐zhan1*

      (1.College of Animal Science and Technology, Agricultural University of Hebei, Hebei Baoding 071000, China;2. Hebei Zhengnong Anima Husbandry Limited Company, Hebei Xinji 052360, China)

      Principal component analysis (PCA) takes the idea of dimensionality reduction and also maintains the characteristics of the largest contribution data to the difference. In livestock production, PCA is used to study variables of traits and expected to simplify the number of variables as well as obtain sufficient information to reduce the complexity of research. In genome‐wide association analysis (GWAS), PCA can be used to correct population stratification and reduce the false positive results of population stratification for association results. The PCA diagram can be shown whether the study population is stratified. In this paper, the principle of PCA, analysis software and its application in livestock production and GWAS are reviewed.

      Principal component analysis; Population stratification; Dimensionality reduction; False positive; GWAS

      S81

      A

      10.19556/j.0258-7033.2017-11-021

      2017-05-22;

      2017-08-24

      河北省科技計劃項目(15226301D)

      宋志芳(1992-),女,山東菏澤人,碩士研究生,研究方向為動物遺傳育種,E-mail:18730285576@163.com

      *通訊作者:曹洪戰(zhàn)(1970-),男,博士,教授,碩士、博士研究生導師,研究方向為養(yǎng)豬生產(chǎn)與動物遺傳育種與繁殖,E-mail:chz516@126.com

      猜你喜歡
      關聯(lián)性狀分層
      寶鐸草的性狀及顯微鑒定研究
      “一帶一路”遞進,關聯(lián)民生更緊
      當代陜西(2019年15期)2019-09-02 01:52:00
      一種沉降環(huán)可準確就位的分層沉降儀
      工程與建設(2019年2期)2019-09-02 01:34:14
      雨林的分層
      奇趣搭配
      有趣的分層
      9種常用中藥材的性狀真?zhèn)舞b別
      智趣
      讀者(2017年5期)2017-02-15 18:04:18
      對“性狀分離比模擬”實驗的改進
      中學生物學(2016年8期)2016-01-18 09:08:21
      陸地棉數(shù)量性狀的多元統(tǒng)計分析
      普定县| 扎赉特旗| 灵台县| 富裕县| 金寨县| 红安县| 衡东县| 侯马市| 汕尾市| 盱眙县| 澄城县| 巴彦淖尔市| 浪卡子县| 马公市| 新巴尔虎右旗| 马边| 民县| 定兴县| 南陵县| 沾益县| 冀州市| 大安市| 长海县| 临洮县| 博白县| 兴宁市| 鹿邑县| 榆社县| 马关县| 雷州市| 灵川县| 湘阴县| 介休市| 静宁县| 威远县| 班玛县| 肇州县| 巩留县| 平江县| 深泽县| 青河县|