張哲,羅元宇,李晴晴,賀金龍,高寧,張豪,丁向東,張勤,李加琪
1. 華南農(nóng)業(yè)大學(xué)動(dòng)物科學(xué)學(xué)院,國家生豬種業(yè)工程中心,廣東省農(nóng)業(yè)動(dòng)物基因組與分子育種重點(diǎn)實(shí)驗(yàn)室,廣州 510642;
2. 中國農(nóng)業(yè)大學(xué)動(dòng)物科學(xué)學(xué)院,北京 100193
系譜是人類遺傳及動(dòng)植物育種研究的重要信息來源之一。系譜錯(cuò)誤在遺傳研究及育種生產(chǎn)中普遍存在,如英國奶牛群體的系譜錯(cuò)誤率約為 10%[1],以色列為10.8%[2],丹麥為5%~15%[3],荷蘭為12%[4],愛爾蘭為7%~20%[5],國外奶牛系譜平均錯(cuò)誤率約為11%[6]。我國天津及北京奶牛場的系譜錯(cuò)誤率分別為12%[7]和17%~21%[8,9]。除奶牛外,系譜錯(cuò)誤在其他畜種中也有研究報(bào)道[10]。系譜錯(cuò)誤會(huì)減慢群體的遺傳進(jìn)展,比系譜缺失帶來更大的育種損失[11],也會(huì)影響其他利用系譜信息的研究,如QTL(Quantitative trait locus)定位和基因組選擇結(jié)果的可靠性。
用血型和血液蛋白型[12]及分子標(biāo)記[13]可對疑似親子關(guān)系進(jìn)行親子鑒定。但前者進(jìn)行親子鑒定準(zhǔn)確率低,在實(shí)際應(yīng)用中受到諸多限制[1]。近年來,隨分子生物學(xué)的發(fā)展,尤其是測序及生物芯片技術(shù)的進(jìn)步,小衛(wèi)星[14,15]、微衛(wèi)星[16,17]和單核苷酸多態(tài)(Single nucleotide polymorphism, SNP)[18]等分子標(biāo)記逐漸用于畜禽系譜重建或校正[2,19]以及人類親子鑒定[20]。其中,SNP標(biāo)記因遺傳穩(wěn)定性高、突變率低、全基因組覆蓋率高、分型準(zhǔn)確性高和成本低等特點(diǎn)[21]已成為人類及動(dòng)植物遺傳研究中常用的一種分子標(biāo)記。
目前可用于親子鑒定的方法主要有排除法、似然法和基因重構(gòu)法,它們主要用于自然群體的親子鑒定,在家畜親子鑒定中前兩種方法使用較多[22]。基于這些方法的親子鑒定軟件主要有 Cervus[23]、KINSHIP[24]等。雖然各軟件的特點(diǎn)和效果有一定差別[22],但它們均為親子鑒定而設(shè)計(jì),可解決不同情形下的親子推斷問題。為降低親子鑒定的基因型檢測成本,它們多采用相對復(fù)雜的算法,以保證用少量標(biāo)記準(zhǔn)確完成親子鑒定。
近年來,很多研究通過利用高密度SNP標(biāo)記進(jìn)行基因組掃描或全基因組關(guān)聯(lián)分析定位QTL[25,26],或通過全基因組選擇預(yù)測動(dòng)植物個(gè)體的育種值[27]或人類的患病風(fēng)險(xiǎn)[28]。這些研究的前期數(shù)據(jù)處理中,多數(shù)都需用到系譜以進(jìn)行數(shù)據(jù)校正、基因型填充和單倍型推斷等。因此,開展研究之前需先對系譜進(jìn)行校正,以保證后續(xù)研究結(jié)果的準(zhǔn)確性。然而,目前能直接使用全基因組高密度SNP標(biāo)記的親子鑒定方法尚缺。據(jù)此,本研究首先提出一種在群體中直接利用全基因組SNP標(biāo)記進(jìn)行親子鑒定的新方法,進(jìn)而在杜洛克豬及荷斯坦奶牛兩個(gè)實(shí)驗(yàn)群體中進(jìn)行驗(yàn)證,最后對該方法的應(yīng)用效果及特性進(jìn)行了詳細(xì)討論。
本研究共使用2個(gè)實(shí)驗(yàn)群體。第一個(gè)群體是來自北京地區(qū)的2180頭中國荷斯坦奶牛,包括87頭公牛和2093頭母牛。系譜記錄顯示所有母牛均來自14個(gè)公牛家系[29,30]。所有個(gè)體的基因組DNA從母牛凝血或公牛冷凍精液中提取,使用 Illumina BovineSNP 50 BeadChip[31]進(jìn)行全基因組SNP標(biāo)記檢測,該芯片共包含54 001個(gè)SNPs。
第二個(gè)群體是來自福建省某種豬場的 191頭純種杜洛克豬,其中公豬18頭,母豬173頭,系譜記錄完整。全部個(gè)體的基因組DNA均從耳組織提取,用 Illunima PorcineSNP60 BeadChip進(jìn)行全基因組SNP標(biāo)記基因型檢測,該芯片包含61 565個(gè)SNPs[32]。系譜顯示該基因型檢測的群體中有73對親子對,且均為后代與母親的關(guān)系。
所有SNP數(shù)據(jù)均進(jìn)行質(zhì)量控制,去除SNP檢出率<0.9、最小等位基因頻率(Minor allele frequency,MAF)<0.01的 SNP位點(diǎn)和個(gè)體檢出率<0.9的個(gè)體,然后進(jìn)行后續(xù)分析。
本檢驗(yàn)方法基于孟德爾遺傳定律,即每個(gè)遺傳位點(diǎn)的等位基因均以孟德爾遺傳方式由親本傳遞給后代。據(jù)此,在疑似親本和疑似后代個(gè)體所構(gòu)成的待檢測親子對間,可對每一個(gè)雙等位基因的遺傳位點(diǎn)用如下規(guī)則進(jìn)行孟德爾錯(cuò)誤判定:(1) 若疑似親本為純合基因型,而疑似后代為另一種純合基因型,如親本為AA,后代為aa,則可判定為一個(gè)孟德爾錯(cuò)誤;(2) 若疑似親本為雜合基因型,則兩種等位基因均有可能傳遞給后代,因此在另一親本未知的情況下,無論后代為何種基因型均無法進(jìn)行孟德爾錯(cuò)誤判定。假定共有N個(gè)位點(diǎn)可用于進(jìn)行該檢驗(yàn),其中疑似親本為雜合基因型的位點(diǎn)數(shù)為Nh個(gè),疑似親子對間孟德爾錯(cuò)誤次數(shù)為Nme,則有效檢測次數(shù)為N - Nh,孟德爾錯(cuò)誤率Re= Nme/(N - Nh)。需要注意的是,該方法基于如下假定:(1) 所有個(gè)體的DNA樣品采集及基因型檢測過程無誤;(2) 基因型分型無錯(cuò)誤發(fā)生或者有完全隨機(jī)的分型錯(cuò)誤發(fā)生,但錯(cuò)誤率極低。
基于群體基因型數(shù)據(jù),用上述規(guī)則對疑似親子對及無關(guān)個(gè)體對進(jìn)行孟德爾檢測,即可獲得孟德爾錯(cuò)誤率的經(jīng)驗(yàn)分布,劃定錯(cuò)誤率的閾值,即可對系譜的正確性進(jìn)行判定。
利用1.2所述原理,使用R語言[33]進(jìn)行程序開發(fā),程序命名為EasyPC(Easy Pedigree Checking)。輸入文件為群體基因型文件和待檢測系譜文件。該程序可自動(dòng)對群體孟德爾錯(cuò)誤進(jìn)行檢測,并依據(jù)經(jīng)驗(yàn)分布劃定閾值,判斷待檢測系譜是否正確。程序最后自動(dòng)輸出系譜檢測結(jié)果,并對錯(cuò)誤率進(jìn)行圖形輸出。EasyPC軟件程序代碼及測試數(shù)據(jù)已免費(fèi)共享至https://github.com/SCAU-AnimalGenetics/EasyPC。
本研究將開發(fā)的程序應(yīng)用于 1.1所述的兩個(gè)群體中進(jìn)行系譜錯(cuò)誤檢驗(yàn)。因群體結(jié)構(gòu)不同,本研究在兩個(gè)群體中使用了不同的檢測策略。在奶牛群體中,檢測全部公牛與全部母牛間的孟德爾錯(cuò)誤率;在豬群體中,檢測全部個(gè)體間的孟德爾錯(cuò)誤率。
為進(jìn)一步了解1.2所描述的方法的運(yùn)行效率,本研究對比了EasyPC與Cervus 3.0[23]程序標(biāo)準(zhǔn)參數(shù)設(shè)置時(shí)的運(yùn)行時(shí)間及資源占用情況。全部對比均在同一操作環(huán)境下進(jìn)行,CPU 主頻3.1GHz,內(nèi)存4.0GB,Win7操作系統(tǒng)。
經(jīng)過質(zhì)控,奶牛和豬的數(shù)據(jù)集分別剩余2112和190個(gè)個(gè)體,45 738和40 999個(gè)SNPs用于系譜錯(cuò)誤檢測。本研究所用的奶牛群體中SNPs最小等位基因頻率分布見圖1。由圖1可見,全部SNPs的MAF呈均勻分布,豬數(shù)據(jù)集的MAF分布與圖1相似(結(jié)果未展示)。奶牛群體和豬群體的平均 MAF分別為0.26和0.25,雜合度均為0.35。
圖 1 中國荷斯坦奶牛群體最小等位基因頻率(MAF)分布圖
對質(zhì)控后的奶牛群體中87頭公牛及2025頭母牛個(gè)體間進(jìn)行孟德爾錯(cuò)誤率計(jì)算,分布如圖 2。孟德爾錯(cuò)誤率整體呈正態(tài)分布,但在錯(cuò)誤率接近0處有另一單峰。正態(tài)分布處為非親子個(gè)體對間孟德爾錯(cuò)誤率,0點(diǎn)單峰處應(yīng)為真正的親子對間孟德爾錯(cuò)誤率。兩部分分布的界限清晰,所以本研究選擇1.0%作為對本數(shù)據(jù)集孟德爾錯(cuò)誤率的判定閾值。孟德爾錯(cuò)誤率最小值為0,最大值為0.18,平均值為0.11。
圖2 87頭公牛與2025頭母牛配對的孟德爾錯(cuò)誤率分布圖
為獲得杜洛克豬群體孟德爾錯(cuò)誤率的經(jīng)驗(yàn)分布,對該群體中經(jīng)過質(zhì)控后的全部 190個(gè)個(gè)體間進(jìn)行孟德爾錯(cuò)誤率計(jì)算,結(jié)果如圖 3。孟德爾錯(cuò)誤率整體呈正態(tài)對稱分布,但在 0點(diǎn)處有一單峰。兩部分分布界限清晰,所以本研究選擇1.0%作為對本數(shù)據(jù)集孟德爾錯(cuò)誤率的判定閾值。孟德爾錯(cuò)誤率最小值為0,最大值為0.17,平均值為0.09。
圖3 190頭杜洛克豬個(gè)體對間孟德爾錯(cuò)誤率分布圖
根據(jù)以上的孟德爾錯(cuò)誤率分析可知,在孟德爾錯(cuò)誤率的群體經(jīng)驗(yàn)分布圖中,兩部分分布界限十分清晰。在本研究的兩個(gè)群體中,均選定1.0%為鑒定系譜錯(cuò)誤與否的孟德爾錯(cuò)誤率閾值。用該閾值對奶牛群體進(jìn)行系譜錯(cuò)誤統(tǒng)計(jì):在2025頭母牛中,1937頭母牛同時(shí)具有父親基因型,可用于系譜錯(cuò)誤檢測。其中1 547頭母牛系譜經(jīng)基因型鑒定為系譜正確,剩余的 390條系譜中母牛與父親公牛間孟德爾錯(cuò)誤率超過閾值,可判定為錯(cuò)誤系譜。因此,該群體中系譜錯(cuò)誤率為 20%。通過該方法,390頭系譜錯(cuò)誤的母牛中有320頭在公牛群體中配對發(fā)現(xiàn)孟德爾錯(cuò)誤率低于閾值,參考牛的出生時(shí)間記錄即可推測為正確的親子關(guān)系。據(jù)此,可更正錯(cuò)誤系譜并記錄正確的親子關(guān)系,有效地提升系譜正確率。
豬群體中的系譜錯(cuò)誤分析表明:在73對系譜記錄的同時(shí)進(jìn)行基因型檢測的親子對中,4對親子對因質(zhì)控而被剔除,只剩下69對可用于后續(xù)研究。其中,有65對親子對間孟德爾錯(cuò)誤率小于閾值,即判定為系譜正確,其余 4對個(gè)體間系譜記錄錯(cuò)誤。因此,該杜洛克豬群體中系譜錯(cuò)誤率為6%。此外,本研究在對所有個(gè)體進(jìn)行孟德爾錯(cuò)誤進(jìn)行計(jì)算時(shí),還發(fā)現(xiàn)了 4對個(gè)體間錯(cuò)誤率小于閾值,可推斷為親子關(guān)系,用于系譜校正。
本研究在奶牛數(shù)據(jù)集中隨機(jī)篩選了不同標(biāo)記數(shù)及不同個(gè)體數(shù)的組合,對比了EasyPC與Cervus的運(yùn)行時(shí)間(表 1)。在所篩選的個(gè)體中,有 50頭公牛作為其余母牛的候選父親,兩軟件均在全部50頭公牛與全部母牛間進(jìn)行親子鑒定。結(jié)果表明:相同情況下Cervus計(jì)算時(shí)間明顯高于EasyPC,如2500標(biāo)記,1000個(gè)體時(shí)兩者相差約 20倍。隨著標(biāo)記數(shù)的增加,兩個(gè)軟件的運(yùn)行時(shí)間均呈線性增加,但Cervus運(yùn)行時(shí)間增加速度大于 EasyPC,且在標(biāo)記數(shù)多于2500時(shí)無法運(yùn)行。Cervus運(yùn)行時(shí)間隨個(gè)體數(shù)的增加無明顯變化,EasyPC雖呈線性增長,但即使個(gè)體數(shù)增至2000時(shí),運(yùn)行時(shí)間仍遠(yuǎn)低于Cervus。
表1 不同個(gè)體數(shù)及標(biāo)記數(shù)時(shí)兩種方法運(yùn)行時(shí)間對比
值得注意的是,除了本研究記錄的運(yùn)行時(shí)間以外,在應(yīng)用兩軟件前的基因型數(shù)據(jù)及系譜整理方面也有較多差異。EasyPC僅需按格式提供完整的全基因組基因型文件和系譜文件即可,而Cervus則需按要求對全基因組基因型數(shù)據(jù)進(jìn)行復(fù)雜的標(biāo)記篩選和嚴(yán)格質(zhì)控,這也降低了此種情況下軟件應(yīng)用的便利性。
本研究提出了一種基于全基因組SNP標(biāo)記,并以孟德爾錯(cuò)誤率為判定依據(jù)來進(jìn)行系譜錯(cuò)誤檢驗(yàn)的方法,并命名該方法為EasyPC。在奶牛及豬兩個(gè)畜禽群體中的驗(yàn)證結(jié)果表明該方法能有效進(jìn)行親子間的系譜錯(cuò)誤檢驗(yàn),更適用于全基因組基因型數(shù)據(jù)的親子鑒定。
本研究所提出的系譜錯(cuò)誤檢驗(yàn)方法簡單易行,尤其適用于全基因組高密度遺傳標(biāo)記數(shù)據(jù)。與Cervus的運(yùn)行效率對比結(jié)果表明:常用親子鑒定軟件只能使用少量標(biāo)記進(jìn)行親子鑒定,如在郭剛等人的研究[9]中對255個(gè)挑選的高多態(tài)性的SNP標(biāo)記使用 Cervus進(jìn)行計(jì)算。當(dāng)我們嘗試使用超過 2500個(gè)標(biāo)記運(yùn)行該軟件時(shí),該軟件則無法正常獲得結(jié)果。在全基因組高密度標(biāo)記全部可用的前提下,若使用這些軟件進(jìn)行親子鑒定,則要按照一定要求只篩選部分少量標(biāo)記,進(jìn)而按照操作步驟完成親子鑒定。從信息利用的角度考慮,這顯然不是最優(yōu)化的方法,而且增加親子鑒定操作的復(fù)雜度。但這些軟件的算法更多是專為親子鑒定或系譜重建工作而設(shè)計(jì),以親子鑒定為直接目的的研究或應(yīng)用可使用這些軟件以降低基因型檢測的成本。相比之下,本研究所用的EasyPC方法簡單易行。該方法依據(jù)孟德爾遺傳定律及簡單的假定條件,即可利用全基因組高密度遺傳標(biāo)記快速準(zhǔn)確地實(shí)施系譜錯(cuò)誤鑒定。在全基因組標(biāo)記數(shù)據(jù)非常普遍的情況下,很多用到全基因組數(shù)據(jù)的研究都需首先進(jìn)行系譜錯(cuò)誤鑒定,進(jìn)而開展其他研究,如全基因組關(guān)聯(lián)分析、全基因組選擇等。本文提出的這種簡單易用的系譜校正方法必然會(huì)給相關(guān)研究的前期數(shù)據(jù)處理帶來更多便利。
本研究所提出的系譜錯(cuò)誤鑒定方法對系譜是否錯(cuò)誤進(jìn)行判定的依據(jù)是孟德爾錯(cuò)誤率,而判定的標(biāo)準(zhǔn)則是根據(jù)研究群體孟德爾錯(cuò)誤率的統(tǒng)計(jì)分布確定。在應(yīng)用該方法進(jìn)行判定時(shí),應(yīng)在群體內(nèi)隨機(jī)個(gè)體間進(jìn)行孟德爾錯(cuò)誤率計(jì)算。因隨機(jī)個(gè)體間的孟德爾錯(cuò)誤率計(jì)算結(jié)果可為本檢測方法提供清晰的對照,為閾值的選取提供準(zhǔn)確的依據(jù)。根據(jù)孟德爾遺傳定律,親子對間的孟德爾錯(cuò)誤率極低,且在此僅受基因型檢測錯(cuò)誤的影響。因此,在標(biāo)記數(shù)量很大時(shí),孟德爾錯(cuò)誤率極低。而隨機(jī)個(gè)體對間的孟德爾錯(cuò)誤率是群體MAF的函數(shù),如某哈迪溫伯格平衡位點(diǎn)的MAF為0.25時(shí),據(jù)1.2的孟德爾錯(cuò)誤率計(jì)算規(guī)則算得的錯(cuò)誤率為11.25%。本文奶牛群體平均MAF為0.26,隨機(jī)個(gè)體間平均錯(cuò)誤率為 11%,與理論預(yù)期相符。據(jù)此,由較高的隨機(jī)個(gè)體間孟德爾錯(cuò)誤率作為對照,真實(shí)親子對間因孟德爾錯(cuò)誤率極低而很容易鑒定。本研究兩個(gè)群體選擇1.0%為閾值是根據(jù)錯(cuò)誤率的群體經(jīng)驗(yàn)分布數(shù)據(jù)而定(圖2,圖3)。但不同的應(yīng)用中需要注意的是,MAF分布具有群體特異性。不同研究中,可能因基因型檢測技術(shù)及群體遺傳結(jié)構(gòu)不同,選取的閾值也會(huì)有差異。但無論如何確定閾值,在孟德爾錯(cuò)誤率的經(jīng)驗(yàn)分布中,群體在錯(cuò)誤率接近 0處會(huì)有一方差很小的正態(tài)分布峰,此處的個(gè)體對即為真實(shí)親子對。此處孟德爾錯(cuò)誤率不為0的主要原因是基因型檢測錯(cuò)誤導(dǎo)致孟德爾錯(cuò)誤發(fā)生,但這種錯(cuò)誤率在SNP芯片設(shè)計(jì)的容許范圍內(nèi)[24,34],而且不影響利用全基因組標(biāo)記的親子鑒定工作。
畜禽系譜錯(cuò)誤在育種生產(chǎn)及科學(xué)實(shí)驗(yàn)過程中均會(huì)不可避免的發(fā)生。本研究所用的奶牛群體系譜來自生產(chǎn)現(xiàn)場,檢測的錯(cuò)誤率為 20%。而郭剛等[9]在同一群體內(nèi)用 Cervus3.0軟件進(jìn)行親子鑒定結(jié)果顯示系譜錯(cuò)誤率為 21%。兩研究結(jié)果基本相符,差別可能是由于所用群體的篩選標(biāo)準(zhǔn)以及判別軟件的不同所致,但都反映了生產(chǎn)現(xiàn)場系譜錯(cuò)誤率較高的實(shí)際情況。本研究所用的杜洛克豬群體系譜錯(cuò)誤率為6%,且其中有部分錯(cuò)誤可能是實(shí)驗(yàn)采樣或基因型檢測過程中出錯(cuò),因此實(shí)際群體系譜錯(cuò)誤率可能更低。實(shí)際上該場是育種管理相對較為規(guī)范的育種場,從系譜錯(cuò)誤率方面也反映了現(xiàn)場管理工作的規(guī)范程度。因此,系譜錯(cuò)誤檢驗(yàn)對生產(chǎn)管理也有重要意義。除此之外,及時(shí)剔除或糾正錯(cuò)誤系譜可減少育種值估計(jì)誤差,保證選種選配工作的準(zhǔn)確性,提高育種工作的效率。
[1]Visscher PM, Woolliams JA, Smith D, Williams JL. Estimation of pedigree errors in the UK dairy population using microsatellite markers and the impact on selection. J Dairy Sci, 2002, 85(9): 2368–2375.
[2]Weller JI, Feldmesser E, Golik M, Tager-Cohen I, Domochovsky R, Alus O, Ezra E, Ron M. Factors affecting incorrect paternity assignment in the Israeli Holstein population. J Dairy Sci, 2004, 87(8): 2627–2640.
[3]Christensen LG, Madsen P, Petersen J. The influence of incorrect sire identification on the estimates of genetic parameters and breeding values. In: Proceedings of the 2nd World Congress on Genetics Applied to Livestock Production. Madrid, Spain, 1982: 200–208.
[4]Bovenhuis H, Van Arendonk JAM. Estimation of milk protein gene frequencies in crossbred cattle by maximum likelihood. J Dairy Sci, 1991, 74(8): 2728–2736.
[5]Beechinor JG, Kelly EP. Errors of identification Amongst cattle presented as progeny of some bulls used in the artificial-insemination service in Ireland. Ir Vet J, 1987,41(10): 348–352.
[6]Banos G, Wiggans GR, Powell RL. Impact of paternity errors in cow identification on genetic evaluations and international comparisons. J Dairy Sci, 2001, 84(11): 2523–2529.
[7]汪湛, 田雨澤, 劉和鳳. 應(yīng)用血型分析技術(shù)對奶牛親子關(guān)系正確率的調(diào)查初報(bào).中國畜牧獸醫(yī), 2005, 32(3):22–23.
[8]初芹, 張毅, 孫東曉, 俞英, 王雅春, 張沅. 應(yīng)用微衛(wèi)星DNA標(biāo)記分析荷斯坦母牛系譜可靠性及影響因素.畜牧獸醫(yī)學(xué)報(bào), 2011, 42(2): 163–168.
[9]郭剛, 周磊, 劉林, 李東, 張勝利, 劉劍鋒, 丁向東, 張毅, 王雅春, 張勤. 利用 SNP 標(biāo)記進(jìn)行北京地區(qū)中國荷斯坦牛親子推斷的研究.畜牧獸醫(yī)學(xué)報(bào), 2012, 43(1):44–49.
[10]韓春梅, 張嘉保, 高慶華, 陳慶波. 微衛(wèi)星DNA在吉戎兔親子鑒定中的應(yīng)用研究.遺傳, 2005, 27(6): 903–907.
[11]Sanders K, Bennewitz J, Kalm E. Wrong and missing sire information affects genetic gain in the Angeln dairy cattle population. J Dairy Sci, 2006, 89(1): 315–321.
[12]Stormont C. Contribution of blood typing to dairy science progress. J Dairy Sci, 1967, 50(2): 253–260.
[13]李東, 初芹, 王雅春. 單核苷酸多態(tài)性標(biāo)記在牛親子鑒定中的應(yīng)用與展望.中國畜牧雜志, 2011, 47(7): 73–76.
[14]Kashi Y, Lipkin E, Darvasi A, Nave A, Gruenbaum Y,Beckmann JS, Soller M. Parentage identification in the bovine using “deoxyribonucleic acid fingerprints”. J Dairy Sci, 1990, 73(11): 3306–3311.
[15]Weir BS, Anderson AD, Hepler AB. Genetic relatedness analysis: modern data and new challenges. Nat Rev Genet,2006, 7(10): 771–780.
[16]Alford RL, Hammond HA, Coto I, Caskey CT. Rapid and efficient resolution of parentage by amplification of short tandem repeats. Am J Hum Genet, 1994, 55(1): 190–195.
[17]Glowatzki-Mullis ML, Gaillard C, Wigger G, Fries R.Microsatellite-based parentage control in cattle. Anim Genet,1995, 26(1): 7–12.
[18]Heaton MP, Harhay GP, Bennett GL, Stone RT, Grosse WM, Casas E, Keele JW, Smith TPL, Chitko-McKown CG,Laegreid WW. Selection and use of SNP markers for animal identification and paternity analysis in US beef cattle. Mamm Genome, 2002, 13(5): 272–281.
[19]Anderson EC, Garza JC. The power of single-nucleotide polymorphisms for large-scale parentage inference. Genetics, 2006, 172(4): 2567–2582.
[20]Pimenta JR, Pena SD. Efficient human paternity testing with a panel of 40 short insertion-deletion polymorphisms.Genet Mol Res, 2010, 9(1): 601–607.
[21]Werner FA, Durstewitz G, Habermann FA, Thaller G,Kramer W, Kollers S, Buitkamp J, Georges M, Brem G,Mosner J, Fries R. Detection and characterization of SNPs useful for identity control and parentage testing in major European dairy breeds. Anim Genet, 2004, 35(1): 44–49.
[22]Jones AG, Ardren WR. Methods of parentage analysis in natural populations. Mol Ecol, 2003, 12(10): 2511–2523.
[23]Kalinowski ST, Taper ML, Marshall TC. Revising how the computer program CERVUS accommodates genotyping error increases success in paternity assignment. Mol Ecol,2007, 16(5): 1099–1106.
[24]Goodnight KF, Queller DC. Computer software for performing likelihood tests of pedigree relationship using genetic markers. Mol Ecol, 1999, 8(7): 1231–1234.
[25]Xu Z, Taylor JA. SNPinfo: integrating GWAS and candidate gene information into functional SNP selection for genetic association studies. Nucleic Acids Res, 2009, 37(Suppl. 2):W600–W 605.
[26]Cervino AC, Li G, Edwards S, Zhu J, Laurie C, Tokiwa G,Lum PY, Wang S, Castellani LW, Lusis AJ, Carlson S, Sachs AB, Schadt EE. Integrating QTL and high-density SNP analyses in mice to identify Insig2 as a susceptibility gene for plasma cholesterol levels. Genomics, 2005, 86(5): 505–517.
[27]Lee SH, van der Werf JHJ, Hayes BJ, Goddard ME, Visscher PM. Predicting unobserved phenotypes for complex traits from whole-genome SNP data. PLoS Genet, 2008,4(10): e1000231.
[28]Wray NR, Yang J, Hayes BJ, Price AL, Goddard ME,Visscher PM. Pitfalls of predicting complex traits from SNPs. Nat Rev Genet, 2013, 14(7): 507–515.
[29]Jiang L, Liu JF, Sun DX, Ma PP, Ding XDQ, Yu Y, Zhang Q. Genome wide association studies for milk production traits in Chinese Holstein population. PLoS ONE, 2010,5(10): e13661.
[30]Ding X, Zhang Z, Li X, Wang S, Wu X, Sun D, Yu Y, Liu J,Wang Y, Zhang Y, Zhang S, Zhang Y, Zhang Q. Accuracy of genomic prediction for milk production traits in the Chinese Holstein population using a reference population consisting of cows. J Dairy Sci, 2013, 96(8): 5315–5323.
[31]Matukumalli LK, Lawley CT, Schnabel RD, Taylor JF,Allan MF, Heaton MP, O'Connell J, Moore SS, Smith TPL,Sonstegard TS, Van Tassell CP. Development and Characterization of a High Density SNP Genotyping Assay for Cattle. PLoS ONE, 2009, 4(4): e5350.Ramos AM, Crooijmans RPMA, Affara NA, Amaral AJ,Archibald AL, Beever JE, Bendixen C, Churcher C, Clark R, Dehais P, Hansen MS, Hedegaard J, Hu ZL, Kerstens HH, Law AS, Megens HJ, Milan D, Nonneman DJ, Rohrer GA, Rothschild MF, Smith TPL, Schnabel RD, Van Tassell CP, Taylor JF, Wiedmann RT, Schook LB, Groenen MAM.Design of a high density SNP genotyping assay in the pig using SNPs identified and characterized by next generation sequencing technology. PLoS ONE, 2009, 4(8):e6524.
[32]R Core Team. R: A language and environment for statistical computing.R Foundation for Statistical Computing,Vienna, Austria, 2014.
[33]Worthington Wilmer J, Allen PJ, Pomeroy PP, Twiss SD,Amos W. Where have all the fathers gone? An extensive microsatellite analysis of paternity in the grey seal (Halichoerus grypus). Mol Ecol, 1999, 8(9): 1417–1429.