梁雨欣 周忠薇 左穎 黃旭義 張賞 西北農(nóng)林科技大學信息工程學院
當今,癌癥被認為是致死亡率最高的人類疾病之一,而如何治愈癌癥又是人類無法攻克的難題。研究表明,癌癥與基因突變有關(guān)。隨著人類基因組計劃測序數(shù)據(jù)日益完善,人們對癌癥認識的逐步加深。如何從大量的基因數(shù)據(jù)中找到促進癌癥發(fā)展的驅(qū)動基因,是當前的研究熱點。
高通量測序技術(shù)被廣闊的應用于解決各種生物問題以及疾病領(lǐng)域。計算生物學和網(wǎng)絡醫(yī)學選擇和癌癥密切相關(guān)的體細胞突變進行研究,對于深入理解癌癥診斷、治療具有重要醫(yī)學價值。
癌癥研究領(lǐng)域的重點逐漸從關(guān)注單個突變基因向突變基因集合轉(zhuǎn)變。目前計算生物學和系統(tǒng)生物學以體細胞突變數(shù)據(jù)為主線來研究導致癌癥發(fā)生的驅(qū)動通路。2012年,Vandin團隊在《Genome Research》上發(fā)表檢測驅(qū)動通路文章,根據(jù)基因表達譜上突變基因互斥性和高覆蓋性等特點,建立最大覆蓋互斥子矩陣,利用馬爾科夫鏈算法檢測具有互斥性、高覆蓋的基因組合。利用數(shù)據(jù)本身固有屬性解決突變異構(gòu)問題。此后,Zhang等人在《生物信息學》上發(fā)表檢測驅(qū)動通路文章,提出了癌癥發(fā)生與體細胞突變、基因表達和表觀遺傳之間密切相關(guān),并使用體細胞突變和基因表達數(shù)據(jù)通過遺傳算法來檢測具有最大覆蓋的互斥子陣列。
目前這些研究主要集中于利用基因譜中突變基因互斥性理論,通過線性規(guī)劃算法、遺傳算法或網(wǎng)絡聚類方法對體細胞突變數(shù)據(jù)進行研究找出導致癌癥發(fā)生的驅(qū)動通路。這為本文利用基因網(wǎng)絡研究癌癥發(fā)病機理提供了理論參考和技術(shù)支撐。
驅(qū)動通路具有三個方面的特征:第一,驅(qū)動通路中每個基因都具有更頻繁的突變;第二,已發(fā)現(xiàn)的信號通路和網(wǎng)絡知識分析顯示驅(qū)動通路中每個基因都可能參與相同的生物過程;第三,從基因網(wǎng)絡層面上的分析表明驅(qū)動通路中基因在統(tǒng)計普遍性和基因突變譜上具有較強的相互互斥性。
突變基因分為功能性驅(qū)動突變和隨機突變。功能性驅(qū)動突變對癌癥發(fā)生起決定性作用,而隨機突變不會導致癌癥發(fā)生、發(fā)展和惡化。由于驅(qū)動基因同時靶標多個細胞,不同癌癥病人是由不同的基因突變紊亂其機體功能。這些突變異構(gòu)現(xiàn)象表明,僅考慮突變率判斷基因是否為驅(qū)動突變是不科學的。
首先過濾掉突變率較低的基因,本文中將MAF(最小等位基因頻率,指在人群中的不常見的等位基因發(fā)生頻率)設為2.5%,即過濾掉MAF小于2.5%的基因,這類基因常為隨機突變。然后,計算每對基因間的互斥度和權(quán)重函數(shù)值,若一對基因間的互斥度大于等于給定閾值λ,且權(quán)重函數(shù)值大于等于給定閾值γ,則認為這對基因滿足互斥關(guān)系,并建立網(wǎng)絡中對應的邊,構(gòu)成基因網(wǎng)絡。
將癌癥病人的基因描述為一個m×n的矩陣A,m表示病人個數(shù),n表示基因個數(shù),=1則表示病人i的基因j發(fā)生突變。設基因g的覆蓋函數(shù),表示基因g突變的病人的集合,對于矩陣A的m×k子陣列M,設其覆蓋函數(shù)表示k個基因中發(fā)生突變的病人集合,對于任意一對基因則M中的基因是互斥的。
然而在實際的計算中,可能存在一個基因覆蓋包含于另一個基因覆蓋的情況。由此,我們定義子陣列M的覆蓋重疊函數(shù)而矩陣A中任一基因?qū)Φ母采w重疊函數(shù)對于子陣列M,考慮到覆蓋度CD(M)和覆蓋重疊的影響,其權(quán)重函數(shù)。同理,對于矩陣A,定義其非重疊比重函數(shù)在構(gòu)建突變基因網(wǎng)絡時,使用上述非重疊比重函數(shù)可以避免部分基因覆蓋包含的情況,增加計算精確度。
對于基因突變矩陣,分別計算出任一對基因間的互斥度和非重疊比重值,若且,則連接節(jié)點以此建立基因相互作用網(wǎng)絡。圖中的節(jié)點代表基因,而連邊代表這對基因互斥。
在上一步構(gòu)建的網(wǎng)絡圖中,檢測其中滿足高覆蓋的最大完全子圖,該最大完全子圖就是一個突變驅(qū)動通路。
挖掘驅(qū)動通路子圖的步驟為:找到具有最大覆蓋且相互連接的3個基因作為起始基因集合,然后查找到起始基因集合外的某一節(jié)點,該節(jié)點與集合中每個節(jié)點相連且具有最大覆蓋度,將其加入到集合中,直到不存在與集合中所有節(jié)點相連的基因為止。另外,如果刪除某個集合中的節(jié)點,使集合的權(quán)重函數(shù)值增加,則在集合中刪除該節(jié)點。
本算法在構(gòu)建突變基因網(wǎng)絡時,利用基因互斥性描述基因間關(guān)系,降低了時間復雜度。在檢測最大完全子圖時,優(yōu)先考慮互斥度和權(quán)重函數(shù)值高的節(jié)點進入完全子圖的情況,提高了檢測驅(qū)動通路的準確性。