呂夢(mèng)軒,王昱泉,胡躍清
(復(fù)旦大學(xué) 生命科學(xué)學(xué)院 生物統(tǒng)計(jì)學(xué)與計(jì)算生物學(xué)系,上海 200433)
基因組的結(jié)構(gòu)變異包含單核苷酸變異(Single Nucleotide Variants,SNVs)、小段的插入或缺失(Indels)、拷貝數(shù)變異(Copy Number Variations,CNVs)以及大片段的結(jié)構(gòu)變異(Structural Variants,SVs)[1].拷貝數(shù)變異屬于中等規(guī)模的結(jié)構(gòu)變異,通常指長(zhǎng)度在1kb以上5Mb以下的基因組片段拷貝數(shù)的異常增加或減少[1].其產(chǎn)生機(jī)制主要有非等位同源重組、非同源末端連接和DNA復(fù)制錯(cuò)誤[2].總變異的12%可以歸為拷貝數(shù)變異[3].綜觀文獻(xiàn),已報(bào)道的拷貝數(shù)變異位點(diǎn)超過(guò)55萬(wàn)個(gè)[4],其中約一半所處的位置與蛋白編碼區(qū)域重疊[5],而發(fā)生在這些區(qū)域內(nèi)的拷貝數(shù)變異可能會(huì)導(dǎo)致基因融合、基因斷裂、隱性基因顯性化[6]等現(xiàn)象,從而影響到相關(guān)基因的表達(dá)甚至直接改變基因的功能[6].和單核苷酸多態(tài)性(SNPs)類(lèi)似,雖說(shuō)拷貝數(shù)變異并不都是有害的,但已有眾多的研究報(bào)道指出拷貝數(shù)變異與人類(lèi)多種疾病有關(guān),例如高血壓[7]、孤獨(dú)癥譜系障礙[8]等.因而拷貝數(shù)變異是當(dāng)今基因組學(xué)的一個(gè)重要研究對(duì)象.早期用于檢測(cè)拷貝數(shù)變異的技術(shù)有人類(lèi)染色體核型分析、熒光原位雜交等,其缺點(diǎn)是精度較低,且無(wú)法進(jìn)行全基因組水平的檢測(cè)[9].基因芯片技術(shù)[10]與二代測(cè)序技術(shù)[11]的發(fā)展提升了拷貝數(shù)變異檢測(cè)的精度.二代測(cè)序技術(shù)在精度和通量上都有優(yōu)勢(shì),而基因芯片的成本較低.
目前與拷貝數(shù)變異數(shù)據(jù)相關(guān)的研究大多專(zhuān)注于如何對(duì)拷貝數(shù)變異進(jìn)行檢測(cè)與定位,而針對(duì)它與疾病關(guān)聯(lián)分析的方法不多,并且有的方法也存在著一定局限性.例如直接分析原始數(shù)據(jù)的研究方法容易受到背景誤差的干擾,不同批次之間的數(shù)據(jù)可能會(huì)帶來(lái)偏差[12].此外,多數(shù)方法只適用于一種結(jié)構(gòu)類(lèi)型的研究對(duì)象(基于人群的病例-對(duì)照數(shù)據(jù)[13]或是傳統(tǒng)的家系數(shù)據(jù)[14]),并不能直接應(yīng)用于既包含相關(guān)個(gè)體,又包含不相關(guān)個(gè)體的數(shù)據(jù)集(例如相關(guān)病例-不相關(guān)對(duì)照(Related cases-unrelated controls)數(shù)據(jù)集).針對(duì)家系數(shù)據(jù)的研究方法通常僅關(guān)注父母與患病孩子的3人組結(jié)構(gòu),針對(duì)群體數(shù)據(jù)的研究方法通常僅適用于普通的病例對(duì)照數(shù)據(jù).基于現(xiàn)有方法存在的一些不足以及拷貝數(shù)變異數(shù)據(jù)的特點(diǎn),本文改進(jìn)了Cochran-Armitage趨勢(shì)檢驗(yàn)(Cochran-Armitage Trend Test,CATT)[15-16],提出了適用于相關(guān)個(gè)體拷貝數(shù)變異數(shù)據(jù)的趨勢(shì)檢驗(yàn)(Modified Trend Test,MTT)方法,使其能夠適用于研究對(duì)象中包含相關(guān)個(gè)體的情形.隨機(jī)模擬結(jié)果表明MTT在多種情景下都具有較好的功效表現(xiàn).同時(shí)借助于MTT有較廣的適用范圍,比較了幾種不同數(shù)據(jù)采集方案的相對(duì)功效,結(jié)果表明相關(guān)病例-不相關(guān)對(duì)照具有較高的性?xún)r(jià)比.將MTT應(yīng)用于孤獨(dú)癥真實(shí)數(shù)據(jù)的分析,檢測(cè)出與疾病顯著相關(guān)的拷貝數(shù)變異位點(diǎn)和位點(diǎn)上的相關(guān)基因,并通過(guò)基因功能富集分析與文獻(xiàn)檢索說(shuō)明了結(jié)果的可靠性,這為后續(xù)研究提供了指引.
考慮到數(shù)據(jù)有可能來(lái)源于不同的技術(shù)平臺(tái),我們把拷貝數(shù)分為兩類(lèi):可基因分型(Genotypable),指每條染色體上的拷貝數(shù)都已知;不可基因分型(Ungenotypable),指只知道兩條染色體拷貝數(shù)之和,而不知道單條染色體上的拷貝數(shù)[12].
表1 變量D和一個(gè)有序變量X構(gòu)成的列聯(lián)表Tab.1 Contingency table generated by variable D and an ordinal variable X
(1)
它被用于Cochran-Armitage趨勢(shì)檢驗(yàn).
給定一個(gè)遺傳位點(diǎn),記該位置上兩條染色體的拷貝數(shù)為(0,0),(0,1),…,(m,n),…其中m≤n.用D代表患病狀態(tài),D=1表示患病,D=0表示未患病.假設(shè)有nA個(gè)病例和nU個(gè)健康對(duì)照,總數(shù)N=nA+nU.將數(shù)據(jù)集按照兩條染色體上拷貝數(shù)組合的類(lèi)別和個(gè)體的患病狀態(tài)分類(lèi)整理成表2,其中w=(w0,0,w0,1,…,wm,n,…)′表示趨勢(shì)檢驗(yàn)中基于模型假定對(duì)每種類(lèi)別的權(quán)重賦值.
表2 按照兩條染色體拷貝數(shù)組合的類(lèi)別和患病狀態(tài)劃分而成的列聯(lián)表Tab.2 Contingency table generated by the copy numbers on two chromosomes and disease status
(2)
它描述了病例組與對(duì)照組在每種拷貝數(shù)類(lèi)別上的平均差異.下面計(jì)算拷貝數(shù)與疾病無(wú)關(guān)聯(lián)的零假設(shè)H0下,t的方差Var(t):
(3)
由于僅有兩條染色體上拷貝數(shù)之和的信息,我們把觀察數(shù)據(jù)整理成如下列聯(lián)表(表3).
表3 按照兩條染色體上拷貝數(shù)之和的類(lèi)別和患病狀態(tài)劃分而成的列聯(lián)表Tab.3 Contingency table generated by the total copy numbers on two chromosomes and disease status
給定一個(gè)遺傳位點(diǎn),兩個(gè)拷貝數(shù)之和可取0,1,…,m,…,構(gòu)建統(tǒng)計(jì)量的過(guò)程與前一小節(jié)類(lèi)似.仍用只有一個(gè)分量是1,其余分量都是0的向量來(lái)表示個(gè)體i的拷貝數(shù)信息,Ci=(c0,c1,…,cm,…)′,即當(dāng)個(gè)體i在兩條染色體上的拷貝數(shù)之和為m時(shí),cm=1,否則cm=0.類(lèi)似地,得到統(tǒng)計(jì)量t:
t在零假設(shè)下的方差為Var(t),它的形式已經(jīng)在上一小節(jié)中給出了,但要注意的是,對(duì)于不可分型的拷貝數(shù)變異數(shù)據(jù),其具體的計(jì)算過(guò)程有差別.在零假設(shè)下,Var(Ci)和Var(Cj)仍為一個(gè)多點(diǎn)分布的協(xié)方差陣.它的第1行第1列上的元為q1(1-q1),第1行第2列的元為-q1q2,其中q1表示兩條染色體上的拷貝數(shù)之和為0的概率,q2代表兩條染色體上的拷貝數(shù)之和為1的概率,其余元素依此類(lèi)推.協(xié)方差矩陣任意(r,c)元的計(jì)算也有相應(yīng)變化.設(shè)個(gè)體X和Y的親緣系數(shù)為(k0,2k1,k2),他們的兩條染色體的拷貝數(shù)分別用(x1,x2)和(y1,y2)表示.由表3可知,r對(duì)應(yīng)于拷貝數(shù)之和r-1,c對(duì)應(yīng)于拷貝數(shù)之和c-1.則需計(jì)算的(r,c)元為:
用隨機(jī)模擬產(chǎn)生可基因分型和不可基因分型的兩種拷貝數(shù)數(shù)據(jù)來(lái)評(píng)估檢驗(yàn)方法MTT,并將它運(yùn)用到家系數(shù)據(jù)和群體數(shù)據(jù)的檢驗(yàn)中.
先產(chǎn)生足夠數(shù)量的初始數(shù)據(jù)集(含家系數(shù)據(jù)與群體數(shù)據(jù)),然后根據(jù)相應(yīng)的致病模型決定每個(gè)個(gè)體的患病狀態(tài).最后根據(jù)隨機(jī)模擬的要求從初始數(shù)據(jù)集中篩選出符合要求的家系或病例-對(duì)照數(shù)據(jù).它跟現(xiàn)實(shí)研究中樣本數(shù)據(jù)的招募流程較接近.
模擬家系數(shù)據(jù)的產(chǎn)生:盡管MTT對(duì)家系的結(jié)構(gòu)類(lèi)型沒(méi)有限制,但為方便起見(jiàn),我們選擇產(chǎn)生4人組家庭,每個(gè)家庭含兩位父母和兩位孩子.此外,還假定單條染色體上的拷貝數(shù)可以為0(缺失),1(正常),或2(增多),兩條染色體拷貝數(shù)的組合可以為(0,0)、(0,1)、(0,2)、(1,1)、(1,2)、(2,2),拷貝數(shù)之和則為0~4.為使模擬數(shù)據(jù)貼近真實(shí),采用Shao等的研究結(jié)果[19],將單條染色體上拷貝數(shù)的概率向量設(shè)為p=(0.12,0.55,0.33)′,利用它產(chǎn)生父母兩條染色體上(這里僅考慮常染色體)的拷貝數(shù)數(shù)據(jù),隨后由孟德?tīng)栠z傳定律得到兩個(gè)小孩的拷貝數(shù).
模擬群體數(shù)據(jù)的產(chǎn)生:給定向量p后,不斷重復(fù)產(chǎn)生滿足上述條件的單條染色體的拷貝數(shù),隨后兩兩組合成一個(gè)個(gè)體的兩條染色體.
患病狀態(tài)的產(chǎn)生:考慮拷貝數(shù)變異可能的致病模型,我們采用3種不同的logistic回歸模型來(lái)決定個(gè)體的患病狀態(tài).用Ca表示任意個(gè)體a的拷貝數(shù)之和,Ca1和Ca2分別表示個(gè)體a第一條和第二條染色體上的拷貝數(shù),取β0=ln(0.1).
疾病模型1:logit[P(Di=1|Ca)]=β0+βCa.
疾病模型2:logit[P(Di=1|Ca)]=β0+β|Ca-2|.
疾病模型3:logit[P(Di=1|Ca1,Ca2)]=β0+β(I(Ca1≠1)+I(Ca2≠1)).
關(guān)于趨勢(shì)檢驗(yàn)權(quán)重的賦值,Cochran[17]認(rèn)為“賦值應(yīng)當(dāng)體現(xiàn)對(duì)相應(yīng)劃分的構(gòu)建和使用方式的最佳認(rèn)識(shí)”,權(quán)重賦值事實(shí)上是一種模型假定,提供了較窄的備擇假設(shè),進(jìn)而提升了統(tǒng)計(jì)檢驗(yàn)的功效[17].Sasieni[20]針對(duì)基因型中的可加模型、顯性模型和隱性模型,分別給予(0,1,2)、(0,1,1)和(0,0,1)3種權(quán)重賦值.我們沿用Sasieni的做法,針對(duì)上述3種疾病模型確定了3種較為簡(jiǎn)便的權(quán)重賦值.對(duì)于疾病模型1,個(gè)體a患病概率的logit值與其拷貝數(shù)之和呈線性相關(guān),因而選擇賦值(0,1,2,2,3,4)來(lái)對(duì)應(yīng)兩條染色體上(0,0)、(0,1)、(0,2)、(1,1)、(1,2)、(2,2)這6種類(lèi)別的拷貝數(shù)組合,選擇賦值(0,1,2,3,4)來(lái)對(duì)應(yīng)(0,1,2,3,4)這5種類(lèi)別的拷貝數(shù)之和.對(duì)于疾病模型2,|Ca-2|表示個(gè)體a拷貝數(shù)之和減去2的絕對(duì)值.當(dāng)β>0時(shí),|Ca-2|越大,患病概率的logit值也越大,因而選擇賦值(2,1,0,0,1,2)來(lái)對(duì)應(yīng)兩條染色體上(0,0)、(0,1)、(0,2)、(1,1)、(1,2)、(2,2)這6種類(lèi)別的拷貝數(shù)組合,選擇賦值(2,1,0,1,2)來(lái)對(duì)應(yīng)(0,1,2,3,4)這5種類(lèi)別的拷貝數(shù)之和.對(duì)于疾病模型3,I為示性函數(shù),當(dāng)β>0時(shí),單條染色體上拷貝數(shù)不等于1的個(gè)數(shù)越多,發(fā)病概率的logit值也越大,因而選擇賦值(2,1,2,0,1,2)來(lái)對(duì)應(yīng)兩條染色體上(0,0)、(0,1)、(0,2)、(1,1)、(1,2)、(2,2)這6種類(lèi)別的拷貝數(shù)組合,選擇賦值(2,1,0,1,2)來(lái)對(duì)應(yīng)(0,1,2,3,4)這5種類(lèi)別的拷貝數(shù)之和.
隨機(jī)模擬1:在零假設(shè)下產(chǎn)生模擬數(shù)據(jù),比較MTT方法P值(PMTT)與均勻分布(理論P(yáng)值P理論)的吻合程度來(lái)觀察其合理性.數(shù)據(jù)類(lèi)型Ⅰ是家系數(shù)據(jù),每個(gè)家庭4人,父母中一個(gè)健康一個(gè)患病,2個(gè)孩子中一個(gè)健康一個(gè)患病;數(shù)據(jù)類(lèi)型Ⅱ是相關(guān)病例-不相關(guān)對(duì)照數(shù)據(jù),其中病例組中的個(gè)體具有相關(guān)性(簡(jiǎn)便起見(jiàn),我們選取患病父子對(duì)作為病例組).在這2類(lèi)數(shù)據(jù)中,患病個(gè)體和健康個(gè)體人數(shù)的比例都為1∶1,且總?cè)藬?shù)定為2000,模擬研究的重復(fù)次數(shù)為1000次(以下同).圖1分別展示了兩種類(lèi)型數(shù)據(jù)MTT方法P值與均勻分布的Q-Q圖.由圖可見(jiàn),MTT的P值都和均勻分布吻合地很好,這表明MTT是合理可靠的.
隨機(jī)模擬2:在對(duì)立假設(shè)下產(chǎn)生如上所述的兩種類(lèi)型數(shù)據(jù).針對(duì)類(lèi)型Ⅰ數(shù)據(jù),比較MTT與CATT以及Shrestha等的GE方法[14]的功效高低.GE方法適用于基于家系的拷貝數(shù)變異數(shù)據(jù),它考慮3人組家庭,其中父母健康孩子患病,分別比較孩子與父母的拷貝數(shù)之和.使用-1,0,1來(lái)表示孩子的拷貝數(shù)小于、等于或大于父親(母親)這3種情況,則每個(gè)家庭對(duì)應(yīng)可以有-2,-1,0,1,2這5種賦值.對(duì)所有家庭按照賦值進(jìn)行分類(lèi)匯總,在拷貝數(shù)與疾病無(wú)關(guān)的零假設(shè)下,可以進(jìn)行獨(dú)立性的皮爾遜卡方檢驗(yàn).模擬結(jié)果見(jiàn)圖2.當(dāng)父子對(duì)患病時(shí),CATT沒(méi)有考慮到家庭成員的相關(guān)性,會(huì)高估方差進(jìn)而使得檢驗(yàn)統(tǒng)計(jì)量偏小,因而其一類(lèi)錯(cuò)誤率偏保守.MTT與GE較好控制了一類(lèi)錯(cuò)誤率.在對(duì)立假設(shè)下,針對(duì)3種疾病模型,MTT都具有更高的檢驗(yàn)功效.針對(duì)類(lèi)型Ⅱ數(shù)據(jù),比較MTT和CATT的統(tǒng)計(jì)功效,模擬結(jié)果見(jiàn)圖3(見(jiàn)第718頁(yè)).CATT沒(méi)有考慮到病例間的相關(guān)性,低估方差進(jìn)而使得檢驗(yàn)統(tǒng)計(jì)量偏大,導(dǎo)致其一類(lèi)錯(cuò)誤率偏大,因而CATT的檢驗(yàn)結(jié)果不可靠,MTT則依然具有穩(wěn)健的功效表現(xiàn).
隨機(jī)模擬3:傳統(tǒng)家系數(shù)據(jù)的研究方法聚焦于一對(duì)父母和患病小孩,例如傳遞不平衡檢驗(yàn)(Transmission Disequilibrium Test,TDT)[21],F(xiàn)BAT(Family-Based Association Test)[22]等.這些家系中若存在健康小孩(Sibling)的信息,則通常會(huì)忽略.而使用MTT可以利用家系中健康小孩的信息來(lái)提升檢驗(yàn)功效.為此,我們比較如下3種數(shù)據(jù)收集方案對(duì)功效的影響,方案 Ⅰ:每個(gè)家庭包含一對(duì)健康父母加一個(gè)患病小孩;方案 Ⅱ:每個(gè)家庭在方案 Ⅰ 基礎(chǔ)上加一個(gè)健康小孩;方案 Ⅲ:每個(gè)家庭在方案 Ⅰ 基礎(chǔ)上加一個(gè)健康人群對(duì)照.家庭數(shù)量定為500個(gè)(方案 Ⅰ 包含1500個(gè)個(gè)體,方案 Ⅱ 包含2000個(gè)個(gè)體,方案 Ⅲ 包含2000個(gè)個(gè)體).
從模擬結(jié)果圖4中可以看出,方案Ⅲ表現(xiàn)最佳,而方案Ⅱ與方案Ⅰ相比,在功效表現(xiàn)上并沒(méi)有多少提升,這個(gè)結(jié)果有些出乎預(yù)料.其原因可能是未患病小孩的遺傳信息和兩位健康父母接近(這也是有研究方法用未患病小孩信息來(lái)估計(jì)缺失的父母信息的原因之一),因而并不能為統(tǒng)計(jì)量提供更多的額外信息.
隨機(jī)模擬4:在隨機(jī)模擬3中,我們發(fā)現(xiàn)在3人組家系數(shù)據(jù)的基礎(chǔ)上多納入一個(gè)人群對(duì)照,可以有效提升檢驗(yàn)功效.家系數(shù)據(jù)與群體數(shù)據(jù)作為兩種不同的研究對(duì)象,各有所長(zhǎng).因而我們自然地想到利用MTT來(lái)比較家系數(shù)據(jù)(方案A)、普通病例-對(duì)照數(shù)據(jù)(方案B)以及相關(guān)病例-不相關(guān)對(duì)照(方案C)這3種數(shù)據(jù)收集方案對(duì)統(tǒng)計(jì)功效的影響.方案A中,選取4人組家庭,父母和兩個(gè)孩子中各有一人患病一人健康.方案B中,病例組人數(shù)與對(duì)照組人數(shù)相等.方案C中,選取患病父子對(duì)作為病例組,且與對(duì)照組人數(shù)相等.3種數(shù)據(jù)收集方案總?cè)藬?shù)都定為2000.
隨機(jī)模擬結(jié)果見(jiàn)圖5.在各種情形下,方案C都具有更高的相對(duì)功效,方案B的功效次之,而方案A的功效較前兩者低一些.其原因可能是在家系數(shù)據(jù)中,患病個(gè)體和未患病個(gè)體通常具有血緣關(guān)系,導(dǎo)致遺傳信息相似,這在流行病學(xué)中稱(chēng)為“過(guò)度匹配(Overmatching)”[23]現(xiàn)象.因而在不考慮人群分層等混雜因素的情況下,我們可以?xún)?yōu)先考慮基于群體數(shù)據(jù)的采集方案以獲得更高的檢驗(yàn)功效.
綜上,當(dāng)研究對(duì)象中包含相關(guān)個(gè)體時(shí),MTT方法能在控制住一類(lèi)錯(cuò)誤率的前提下,擁有較好的功效表現(xiàn).而借助具有更廣適用范圍的MTT方法,我們比較了多種數(shù)據(jù)采集方案的功效表現(xiàn),這給數(shù)據(jù)采集策略提供了一定的參考.
我們選取了來(lái)自機(jī)構(gòu)SFARI(Simons Foundation Autism Research Initiative,https:∥www.sfari.org/)下的一個(gè)項(xiàng)目Simons Simplex Collection(SSC)的研究數(shù)據(jù).SFARI成立于2003年,致力于孤獨(dú)癥譜系障礙的研究,SSC作為SFARI旗下的一個(gè)核心研究項(xiàng)目,目前已招募了超過(guò)2700組家庭,這些家庭大多為4人組家庭,每個(gè)家庭有一個(gè)患有孤獨(dú)癥譜系障礙的孩子(Proband),2個(gè)健康的父母(Parents)以及一個(gè)健康的兄弟姐妹(Sibling).本次分析的數(shù)據(jù)中共包含1710個(gè)父母、836個(gè)患病的孩子和834個(gè)健康的孩子.原始拷貝數(shù)變異數(shù)據(jù)來(lái)源于比較基因組雜交芯片平臺(tái),經(jīng)過(guò)處理后得到的信息為兩條染色體上拷貝數(shù)之和,故采用SMTTN統(tǒng)計(jì)量.
根據(jù)數(shù)據(jù)庫(kù)提供的背景信息,在數(shù)據(jù)集的所有個(gè)體中,共檢測(cè)到了980個(gè)發(fā)生了拷貝數(shù)變異的位點(diǎn),去除X染色體上的位點(diǎn)后,共有930個(gè)常染色體上的拷貝數(shù)變異位點(diǎn).拷貝數(shù)變異的范圍是0~4,其中0和1為缺失,2為正常,3和4為增多.針對(duì)拷貝數(shù)之和為(0,1,2,3,4)這5種類(lèi)別,根據(jù)拷貝數(shù)變異與孤獨(dú)癥譜系障礙之間可能的背景機(jī)制[24-25],選取(2,1,0,1,2)作為統(tǒng)計(jì)量的權(quán)重賦值.針對(duì)這930個(gè)常染色體上的拷貝數(shù)變異位點(diǎn),運(yùn)用MTT、CATT和GE進(jìn)行統(tǒng)計(jì)檢驗(yàn).
圖6展示了MTT的檢驗(yàn)結(jié)果,經(jīng)多重校正后,共有26個(gè)具有顯著性意義的拷貝數(shù)變異位點(diǎn).使用CATT和GE則分別檢驗(yàn)出了19個(gè)和17個(gè)具有顯著性意義的位點(diǎn).針對(duì)MTT、CATT和GE檢測(cè)出的顯著性位點(diǎn),我們利用DGV(Database of Genomic Variants,http:∥dgv.tcag.ca/dgv/app/home)與NCBI Data Viewer(https:∥www.ncbi.nlm.nih.gov/genome/gdv/)網(wǎng)站搜集并整理了這些拷貝數(shù)變異位點(diǎn)上所對(duì)應(yīng)的基因.結(jié)果如圖7所示.對(duì)于MTT檢測(cè)所得的26個(gè)拷貝數(shù)變異位點(diǎn),共整理得到242個(gè)基因.對(duì)于CATT和GE檢測(cè)得到的拷貝數(shù)變異位點(diǎn),分別整理得到161個(gè)和133個(gè)基因,圖7中的公共部分表示其中重合的數(shù)量.在檢測(cè)得到的顯著性位點(diǎn)數(shù)與基因的數(shù)量上,MTT都要多于CATT和GE,且CATT的檢測(cè)結(jié)果大部分都包含于MTT的檢測(cè)結(jié)果中.
針對(duì)MTT檢測(cè)得到的顯著性位點(diǎn)所對(duì)應(yīng)的基因,我們利用GeneAnalytics網(wǎng)站(https:∥geneanalytics.genecards.org/)對(duì)上述基因進(jìn)行功能富集分析,并通過(guò)文獻(xiàn)檢索來(lái)進(jìn)一步了解這些基因背后可能包含的生物學(xué)意義.圖8展示了利用MTT檢測(cè)到的基因中富集水平前7位的身體組織與生理系統(tǒng).由圖8(見(jiàn)第720頁(yè))可見(jiàn),在身體組織中得分最高的是大腦.而在生理系統(tǒng)中得分最高的則是神經(jīng)系統(tǒng).圖8中組織與系統(tǒng)的得分是由匹配到的基因得分計(jì)算而來(lái),得分越高表明關(guān)聯(lián)性越強(qiáng),而基因得分則取決于其所對(duì)應(yīng)的實(shí)體類(lèi)型和基因注釋.已有的研究結(jié)果表明,孤獨(dú)癥譜系障礙的發(fā)病與大腦[26]和神經(jīng)系統(tǒng)[27]息息相關(guān),這在一定程度上表明了MTT找到的基因與孤獨(dú)癥譜系障礙之間的關(guān)聯(lián)性.
圖9展示了富集水平前7位的生物學(xué)過(guò)程(GO Term)與通路,其中條狀圖右側(cè)的數(shù)字表示匹配的基因數(shù)量.在GO Term生物學(xué)過(guò)程中富集水平排前5類(lèi)的分別是肌細(xì)胞分化正調(diào)控,甘油磷脂合成過(guò)程、維生素E細(xì)胞應(yīng)答、甾類(lèi)激素應(yīng)答和輸卵管發(fā)育.Wu等[28]研究發(fā)現(xiàn)杜氏肌營(yíng)養(yǎng)不良與孤獨(dú)癥共同發(fā)生的幾率要顯著高于隨機(jī)水平,但是目前導(dǎo)致兩種疾病相關(guān)聯(lián)背后的生物學(xué)機(jī)制仍有待研究.Chauhan等[29]比較了孤獨(dú)癥患兒與健康兒童的氨基-甘油磷脂水平,結(jié)果表明:孤獨(dú)癥患兒的磷脂酰乙醇胺水平較低而磷脂酰絲氨酸水平較高.基于此特征,研究人員認(rèn)為可以將氨基-甘油磷脂水平作為診斷孤獨(dú)癥的一種生化指標(biāo).Amminger等[30]在進(jìn)行的一項(xiàng)雙盲試驗(yàn)中表明:給孤獨(dú)癥患兒補(bǔ)充服用Omega-3脂肪酸可以緩解并改善病癥,而維生素E作為一種有效的抗氧化劑,在本研究中與不飽和脂肪酸共同服用以減少自由基的影響.Auyeung等[31]總結(jié)并發(fā)現(xiàn)產(chǎn)前的甾類(lèi)激素暴露會(huì)明顯增加孤獨(dú)癥的患病幾率.
在通路富集分析的結(jié)果中,排前5的分別是成肌過(guò)程中的CDO信號(hào)通路、早老素調(diào)節(jié)信號(hào)通路、嘧啶脫氧核糖核苷酸降解通路、G12~G13細(xì)胞信號(hào)通路和ESR1與ESR2基因非配體依賴(lài)性激活通路.Fatemi[32]發(fā)現(xiàn)帶有早老素-1缺陷的小鼠存在大腦皮層的發(fā)育異常,后續(xù)研究表明早老素-1缺陷與顫蛋白突變有關(guān).而在精神分裂、孤獨(dú)癥、無(wú)腦回畸形等患病人群中都發(fā)現(xiàn)有顫蛋白突變現(xiàn)象,可能的原因是顫蛋白突變所導(dǎo)致的大腦內(nèi)部結(jié)構(gòu)的變化.Herman等[33]總結(jié)了一些可能導(dǎo)致孤獨(dú)癥的病因,其中有部分報(bào)道案例即是由嘧啶代謝異常所引起的.Wang等[34]的研究表明ESR1基因的多態(tài)性與ESR2基因的超甲基化都與孤獨(dú)癥的發(fā)生有著緊密的關(guān)聯(lián).此外,我們還檢索了MTTu檢測(cè)到的相關(guān)功能注釋基因的文獻(xiàn).Quinlivan等[35]跟蹤研究了3例帶有CHKB基因突變的肌肉萎縮癥病人,其中的一例病人在7歲時(shí)被確診為孤獨(dú)癥譜系障礙.Wei等[36]對(duì)孤獨(dú)癥小鼠大腦皮層組織進(jìn)行了蛋白質(zhì)組分析,結(jié)果表明在孤獨(dú)癥小鼠中CPNE7基因的表達(dá)顯著上調(diào),因而可能是導(dǎo)致孤獨(dú)癥的候選基因之一.Bhalla等[37]利用隊(duì)列研究,發(fā)現(xiàn)CDH15和KIRREL3基因上的非同義突變可能會(huì)導(dǎo)致不同程度的智力障礙.多項(xiàng)研究表明CTNNB1基因上的突變與智力障礙及孤獨(dú)癥譜系障礙等疾病相關(guān),Dong等[38]在小鼠中敲除了CTNNB1基因來(lái)研究其可能的致病機(jī)理,結(jié)果發(fā)現(xiàn)基因敲除小鼠表現(xiàn)出明顯的目標(biāo)識(shí)別與社交互動(dòng)上的障礙,并重復(fù)相同動(dòng)作,這與人類(lèi)孤獨(dú)癥的癥狀相似.進(jìn)一步研究發(fā)現(xiàn)c-Fos基因在這些小鼠大腦皮層中的表達(dá)量顯著降低而在其他組織中的表達(dá)量保持正常.該研究揭示了CTNNB1上的突變可能會(huì)導(dǎo)致c-Fos基因發(fā)生組織特異性的表達(dá)變化,進(jìn)而可能導(dǎo)致孤獨(dú)癥相關(guān)的癥狀.Uchino等[39]研究發(fā)現(xiàn)SHANK3基因表達(dá)量的下降與孤獨(dú)癥之間存在明顯相關(guān)性.進(jìn)一步研究表明,DNA甲基化可以組織特異性地調(diào)控SHANK3基因的表達(dá)量,進(jìn)而影響到神經(jīng)突觸的發(fā)育、成熟和穩(wěn)定.值得注意的是,在上述基因中,CHKB、CPNE7和SHANK3僅包含在MTT的檢測(cè)結(jié)果中.由此可見(jiàn),MTT相較其他兩種方法能找到更多的拷貝數(shù)變異位點(diǎn),且這些位點(diǎn)上的基因與孤獨(dú)癥譜系障礙確實(shí)存在著一定的關(guān)聯(lián)性.
作為人類(lèi)基因組遺傳多樣性中的重要組成部分,拷貝數(shù)變異已經(jīng)成為了遺傳學(xué)、生物醫(yī)學(xué)等領(lǐng)域重要的研究對(duì)象之一.拷貝數(shù)變異的產(chǎn)生機(jī)制、與疾病之間的潛在關(guān)聯(lián)也隨著人類(lèi)的不斷研究而慢慢揭開(kāi)面紗.同時(shí)隨著測(cè)序技術(shù)的不斷進(jìn)步以及各種基于測(cè)序的人類(lèi)基因組研究項(xiàng)目的推進(jìn),每天都在產(chǎn)生著大量的測(cè)序數(shù)據(jù).目前針對(duì)拷貝數(shù)變異的研究方法多數(shù)著重于如何基于測(cè)序數(shù)據(jù)進(jìn)行檢測(cè)和定位.而針對(duì)拷貝數(shù)變異與疾病的關(guān)聯(lián)分析的方法依然甚少.針對(duì)現(xiàn)有方法存在的一些局限性,以及經(jīng)過(guò)處理后的拷貝數(shù)變異數(shù)據(jù)的特點(diǎn),在傳統(tǒng)的Cochran-Armitage趨勢(shì)檢驗(yàn)的基礎(chǔ)上,我們提出MTT方法,它適用于相關(guān)個(gè)體拷貝數(shù)變異數(shù)據(jù).拷貝數(shù)變異數(shù)據(jù)可以是可基因分型和不可基因分型.通過(guò)隨機(jī)模擬,我們檢驗(yàn)了MTT的可靠性,并在多個(gè)場(chǎng)合與已有方法做了功效的比較,結(jié)果表明MTT方法具有更高的靈敏度.此外還比較了不同的數(shù)據(jù)采集方案下MTT統(tǒng)計(jì)量的相對(duì)功效,結(jié)果表明以相關(guān)病例-不相關(guān)對(duì)照作為研究對(duì)象的數(shù)據(jù)采集方案具有更好的功效表現(xiàn).隨機(jī)模擬結(jié)果體現(xiàn)了MTT具有較廣的適用范圍,且隨機(jī)模擬的結(jié)論對(duì)數(shù)據(jù)采集方案也有一定的指引意義.在實(shí)際數(shù)據(jù)分析中,我們運(yùn)用MTT方法處理了SSC數(shù)據(jù),得到了26個(gè)具有顯著性的拷貝數(shù)變異位點(diǎn),我們整理了這些拷貝數(shù)變異位點(diǎn)上對(duì)應(yīng)的基因,并通過(guò)功能富集分析和文獻(xiàn)檢索,進(jìn)一步展示了這些基因與孤獨(dú)癥譜系障礙可能的關(guān)聯(lián),并為后續(xù)的實(shí)驗(yàn)研究提供了一定的指引.
MTT方法仍有幾點(diǎn)值得注意與改進(jìn)的地方:(1) MTT方法基于趨勢(shì)檢驗(yàn),因而依賴(lài)一定的模型假定,模型假定提供了較窄的備擇假設(shè)與更高的檢驗(yàn)效能.在實(shí)際數(shù)據(jù)分析中,需要借助一定的背景知識(shí)或先驗(yàn)信息來(lái)確定疾病模型.若缺少有助于確定模型的背景知識(shí)或先驗(yàn)信息,導(dǎo)致模型對(duì)現(xiàn)實(shí)的描述不符,則此時(shí)的檢驗(yàn)效能將會(huì)下降,皮爾遜卡方和似然比檢驗(yàn)會(huì)是更為可靠的檢驗(yàn)方法.(2) 針對(duì)給定的遺傳模型,能否確定一個(gè)趨勢(shì)檢驗(yàn)的權(quán)重賦值,使得在一定水平的相對(duì)功效下所需的樣本數(shù)量最小(即是否能選擇到最優(yōu)的權(quán)重賦值)?Zheng等[40]研究了給定基因遺傳模型下的最佳賦值問(wèn)題.他們使用極坐標(biāo)和一個(gè)表示角度的參數(shù)θ來(lái)描述可加、顯性和隱性3種遺傳模型,進(jìn)而將最優(yōu)賦值問(wèn)題轉(zhuǎn)化為帶參數(shù)θ的極值問(wèn)題,這無(wú)疑對(duì)基于拷貝數(shù)變異數(shù)據(jù)的最優(yōu)賦值問(wèn)題提供了解決思路.如果能將拷貝數(shù)變異的遺傳模型也轉(zhuǎn)化為僅有一個(gè)參數(shù)的模型,那么或許也能找到給定遺傳模型下適用于拷貝數(shù)變異數(shù)據(jù)的最優(yōu)賦值.(3) MTT 方法所針對(duì)的是單個(gè)拷貝數(shù)變異位點(diǎn),對(duì)于復(fù)雜疾病,單個(gè)拷貝數(shù)變異位點(diǎn)能解釋的遺傳方差往往有限,因而如何在統(tǒng)計(jì)量中將多個(gè)拷貝數(shù)變異位點(diǎn)的信息結(jié)合起來(lái),提出一個(gè)針對(duì)多位點(diǎn)的檢驗(yàn)統(tǒng)計(jì)量是今后針對(duì)拷貝數(shù)變異與復(fù)雜疾病的關(guān)聯(lián)研究的方向之一.