千人基因組計(jì)劃(the 1000 Genomes Project)旨在建立可以幫助人們理解遺傳變異在疾病發(fā)生過程中作用的綜合資源,這些資料包含了人類遺傳變異的地域性和功能性的特征。該計(jì)劃收集了來自歐洲、東亞、撒哈拉以南非洲地區(qū)和美洲共14 個(gè)民族的1 092 名個(gè)體的基因組資料,構(gòu)成一個(gè)低覆蓋度全基因組和外顯子組測(cè)序的整合數(shù)據(jù)庫。通過開發(fā)新的方法對(duì)幾種算法和不同數(shù)據(jù)源的進(jìn)行整合,成功地繪制出了有效的單倍型圖譜,其中包括3 800 萬個(gè)單核苷酸多態(tài)性(single nucleotide polymorphisms)位點(diǎn)、140 萬個(gè)短插入/短缺失(short insertions and deletions)以及超過1.4 萬個(gè)大片段缺失(larger deletions)。這些來自不同種族的個(gè)體擁有不同的罕見和常見變異體(rare and common variants),而且低頻率變異體(low-frequency variants)存在實(shí)質(zhì)上的地域差異,如對(duì)數(shù)據(jù)進(jìn)行優(yōu)化篩選,這種傾向明顯增強(qiáng)。進(jìn)化的保守性和編碼結(jié)果是優(yōu)化篩選強(qiáng)度的關(guān)鍵性決定因素。在相互聯(lián)系的多個(gè)生物通路中,罕見變異體的負(fù)荷確實(shí)發(fā)生著實(shí)質(zhì)性的改變,而且每一個(gè)體在保守位點(diǎn)上都含有數(shù)百個(gè)罕見的非編碼變異體(rare non-coding variants),例如在轉(zhuǎn)錄因子結(jié)合位點(diǎn)(transcription-factor-binding sites)上的基序斷裂改變(motif-disrupting changes)。以上這些整合性資源收集了相關(guān)民族98%以上、發(fā)生頻率為1%左右的單核苷酸多態(tài)性,可用于分析來自不同種族甚至混血個(gè)體的常見和低頻率的遺傳變異。