魏丕靜,劉晶晶,趙永敏,蘇延森,鄭春厚
(1.安徽大學(xué) 物質(zhì)科學(xué)與信息技術(shù)研究院,合肥 230601;2.安徽大學(xué) 計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院, 合肥 230601;3.安徽大學(xué) 人工智能學(xué)院,合肥 230601)
疾病的關(guān)鍵基因是指在人體系統(tǒng)中與某種疾病密切相關(guān)的一組基因,其在人類生理過程和疾病發(fā)生過程中具有不可忽視的調(diào)控作用,了解關(guān)鍵基因在疾病中的功能和作用,對(duì)研究疾病的調(diào)控方式、復(fù)雜通路、治療和預(yù)后等具有重要意義。關(guān)鍵基因可用于診斷疾病、判斷疾病分期、預(yù)測(cè)和評(píng)價(jià)新藥或新療法的有效性等。藥物靶向治療的關(guān)鍵是藥物能特異性作用于疾病相關(guān)基因位點(diǎn),故識(shí)別與疾病緊密相關(guān)的關(guān)鍵基因十分重要。但由于基因數(shù)量龐大,僅通過生物實(shí)驗(yàn)的方法測(cè)定基因功能將會(huì)耗費(fèi)巨大的時(shí)間成本和經(jīng)濟(jì)成本。因此,基于計(jì)算模型識(shí)別疾病關(guān)鍵基因的預(yù)測(cè)算法亟待開發(fā)。目前有很多研究致力于發(fā)現(xiàn)疾病關(guān)鍵基因,此方面研究有助于探索人類復(fù)雜疾病的內(nèi)部發(fā)病機(jī)制、研究疾病細(xì)胞存活所需的最小基因集和后續(xù)對(duì)疾病的治療方式及治療藥物的研究[1]。
研究表明,基因并非獨(dú)立的發(fā)揮生物作用,基因之間的相互作用普遍存在,并通過相互作用共同維持著生物內(nèi)部整體環(huán)境的穩(wěn)定性[2],故基于基因相互作用網(wǎng)絡(luò)的基因排序技術(shù)得到了廣泛的應(yīng)用。Wang等提出了在蛋白質(zhì)-蛋白質(zhì)相互作用網(wǎng)絡(luò)上基于邊緣聚類的關(guān)鍵蛋白識(shí)別方法,該方法認(rèn)為節(jié)點(diǎn)的重要性由節(jié)點(diǎn)與相鄰節(jié)點(diǎn)之間的相互作用的邊緣系數(shù)與聚類系數(shù)之和決定[3]。Fan等人提出了關(guān)鍵蛋白質(zhì)預(yù)測(cè)方法,該方法將亞細(xì)胞室信息與基因表達(dá)信息相結(jié)合,并運(yùn)用修改后的PageRank算法獲得加權(quán)蛋白質(zhì)-蛋白質(zhì)相互作用網(wǎng)絡(luò),實(shí)驗(yàn)結(jié)果表明其有更好的關(guān)鍵蛋白質(zhì)預(yù)測(cè)性能[4]。由此可以看出,將網(wǎng)絡(luò)拓?fù)湫畔⒑蜕飳W(xué)信息結(jié)合為研究關(guān)鍵基因提供了很好的思路。然而,雖然目前有多種技術(shù)可以用來識(shí)別疾病基因,但是大部分方法往往都是通過整合多個(gè)樣本構(gòu)建基因共表達(dá)網(wǎng)絡(luò),弱化了疾病樣本與正常樣本之間的差異信息,忽略了疾病樣本的個(gè)體特異性。此外,個(gè)體特異性網(wǎng)絡(luò)構(gòu)建思想在揭示疾病的個(gè)體特征方面已經(jīng)得到有效的驗(yàn)證[5-6]。
本文以基因間表達(dá)相似性為基礎(chǔ)構(gòu)建基因網(wǎng)絡(luò),并用來篩選有價(jià)值的生物標(biāo)志物或關(guān)鍵基因,探索基因和疾病之間復(fù)雜關(guān)系。具體來說,首先利用正常樣本的基因表達(dá)數(shù)據(jù)構(gòu)建參考基因共表達(dá)網(wǎng)絡(luò),然后依次將每個(gè)疾病樣本的基因表達(dá)數(shù)據(jù)與正常樣本組合,構(gòu)建疾病樣本擾動(dòng)網(wǎng)絡(luò),根據(jù)此擾動(dòng)網(wǎng)絡(luò)和參考網(wǎng)絡(luò),得到每一個(gè)疾病樣本的個(gè)體特異性網(wǎng)絡(luò)。然后將個(gè)體特異性網(wǎng)絡(luò)作為單層網(wǎng)絡(luò),并將單層網(wǎng)絡(luò)之間的基因聯(lián)系起來,從而得到多層基因網(wǎng)絡(luò),這樣既保留了疾病樣本的特異性又將多個(gè)疾病樣本聯(lián)系在一起。最后,利用Wu等[7]提出的基于張量的多層網(wǎng)絡(luò)中心性的計(jì)算方法,對(duì)多層網(wǎng)絡(luò)中的基因節(jié)點(diǎn)中心性進(jìn)行打分,從而得到關(guān)鍵基因集。與其他經(jīng)典算法的對(duì)比分析表明該方法在預(yù)測(cè)藥物靶標(biāo)基因上具有一定的優(yōu)勢(shì),功能和通路富集分析證明關(guān)鍵基因集與疾病聯(lián)系緊密。
基因表達(dá)數(shù)據(jù)集來源于基因表達(dá)綜合數(shù)據(jù)庫GEO(https://www.ncbi.nlm.nih.gov/geo/)。本文主要考慮樣本量偏少的數(shù)據(jù)集,因此從GEO數(shù)據(jù)庫中獲取哮喘疾病的基因表達(dá)數(shù)據(jù)集GSE31773和GSE43696。在哮喘疾病樣本選取的過程中,由于mRNA在CD8+T細(xì)胞中的表達(dá)差異性大于在CD4+T細(xì)胞中,因此選擇的疾病樣本為CD8+類型的。此外,根據(jù)控制變量的原則,盡量使得正常樣本和異常樣本的其他生物信息如年齡,性別等保持一致。因此,在GSE31773中選取了8個(gè)正常樣本和6個(gè)疾病樣本,每個(gè)樣本包含8 789個(gè)基因。同理,在GSE43696中選取20個(gè)正常樣本和6個(gè)疾病樣本,每個(gè)樣本包含9 194個(gè)基因。
疾病相關(guān)的基因來源于DisGeNet(https://www.disgenet.org/)和Phenopedia(https://phgkb.cdc.gov/PHGKB/startPagePhenoPedia.action)數(shù)據(jù)庫。從兩個(gè)數(shù)據(jù)庫中獲取與哮喘相關(guān)的2 712個(gè)基因,并與GSE31773和GSE43696數(shù)據(jù)集中的數(shù)據(jù)進(jìn)行整合,分別得到2 522個(gè)基因和2 478個(gè)基因的表達(dá)數(shù)據(jù)。
此外,從TTD(http://db.idrblab.net/ttd/)數(shù)據(jù)庫獲取11個(gè)針對(duì)哮喘已獲批準(zhǔn)的藥物靶標(biāo)。
1.2.1 多層基因網(wǎng)絡(luò)構(gòu)建
多層基因網(wǎng)絡(luò)構(gòu)建主要分為四步,具體構(gòu)建過程如圖1所示。
第一步是獲取疾病相關(guān)基因的表達(dá)數(shù)據(jù)。首先從GEO數(shù)據(jù)庫獲取正常樣本和疾病樣本的基因表達(dá)數(shù)據(jù),從疾病基因相關(guān)數(shù)據(jù)庫獲取所有與所要研究的疾病潛在相關(guān)的基因,從正常樣本和疾病樣本的表達(dá)數(shù)據(jù)中篩選出疾病相關(guān)基因的表達(dá)數(shù)據(jù)。
第二步是利用所有正常樣本構(gòu)建參考基因網(wǎng)絡(luò)[5]。設(shè)參考網(wǎng)絡(luò)為Gref(V,E,W),其中點(diǎn)集V是由與疾病相關(guān)的基因所構(gòu)成,邊集E表示基因?qū)χg的邊集,W表示邊權(quán),即基因?qū)﹂g的皮爾遜相關(guān)系數(shù),其計(jì)算方式如式(1)。
ω(ij)=
(1)
其中,Cik表示基因i在第k個(gè)正常樣本中的表達(dá)值,n為基因節(jié)點(diǎn)的總數(shù)。
第三步是針對(duì)每個(gè)疾病樣本構(gòu)建個(gè)體特異性網(wǎng)絡(luò)[5]。個(gè)體特異性網(wǎng)絡(luò)的構(gòu)建參考Liu等[5]提出的方法。具體而言,首先在所有正常樣本的表達(dá)數(shù)據(jù)中加入一個(gè)疾病樣本的表達(dá)數(shù)據(jù),根據(jù)第二步的公式(1),求新的表達(dá)數(shù)據(jù)中基因之間的皮爾遜相關(guān)系數(shù),構(gòu)建一個(gè)新的基因網(wǎng)絡(luò),并將其看作是加入該疾病樣本后的擾動(dòng)網(wǎng)絡(luò)[5]。然后根據(jù)參考網(wǎng)絡(luò)和擾動(dòng)網(wǎng)絡(luò)構(gòu)建個(gè)體特異性網(wǎng)絡(luò),其中邊權(quán)值為擾動(dòng)網(wǎng)絡(luò)和參考網(wǎng)絡(luò)的邊權(quán)值的差值絕對(duì)值[5]。接著利用拐點(diǎn)分析法設(shè)置閾值對(duì)網(wǎng)絡(luò)中的邊進(jìn)行選擇,刪除一些不顯著的邊。這種方法考慮到了每個(gè)樣本的個(gè)體特異性,體現(xiàn)了參考網(wǎng)絡(luò)受到疾病樣本的干擾程度,有效衡量了基因間相互作用關(guān)系與疾病的相關(guān)程度。
圖1 多層基因網(wǎng)絡(luò)構(gòu)建示意圖Fig.1 Schematic diagram of multilayer network construction
注:多層基因網(wǎng)絡(luò)構(gòu)建分成四步:第一步是數(shù)據(jù)收集,即在GEO數(shù)據(jù)庫中選擇正常樣本和疾病樣本,在疾病基因數(shù)據(jù)庫中選擇出與哮喘相關(guān)的基因;第二步是利用正常樣本構(gòu)建參考網(wǎng)絡(luò);第三步是構(gòu)建疾病樣本的個(gè)體特異性網(wǎng)絡(luò),首先利用疾病樣本構(gòu)建擾動(dòng)網(wǎng)絡(luò),再用擾動(dòng)網(wǎng)絡(luò)減去參考網(wǎng)構(gòu)建個(gè)體特異性網(wǎng)絡(luò),然后根據(jù)閾值去除部分異常邊權(quán)值后得到最終的個(gè)體特異性網(wǎng)絡(luò)。第四步是整合所有個(gè)體特異性網(wǎng)絡(luò)得到多層基因相互作用網(wǎng)絡(luò),層間邊連接每層網(wǎng)絡(luò)中的相同基因,邊的權(quán)值為1.
第四步是整合單層基因網(wǎng)絡(luò)得到多層基因網(wǎng)絡(luò)。將得到的個(gè)體特異性網(wǎng)絡(luò)作為多層基因網(wǎng)絡(luò)的每一層,依次連接每兩個(gè)單層網(wǎng)絡(luò)中的相同節(jié)點(diǎn)構(gòu)建層與層之間的邊,邊的權(quán)值為1,得到多層復(fù)用基因網(wǎng)絡(luò)。
1.2.2 基因節(jié)點(diǎn)中心性計(jì)算
(2)
根據(jù)單層網(wǎng)絡(luò)中PageRank算法的冪法求解過程,交互張量H相當(dāng)于轉(zhuǎn)移概率矩陣,求解張量方程HΦ=λΦ得到中心性二階張量Φ,其中Φiα表示當(dāng)前迭代中第α層的第i個(gè)基因節(jié)點(diǎn)的中心性值,λ表示特征系數(shù),λ這里取值為1,保證二階張量Φ的存在性和唯一性。迭代結(jié)束后,將每個(gè)基因節(jié)點(diǎn)在所有層中的中心性均值作為該基因的最終中心性值,降序排序后選取排名靠前的基因作為關(guān)鍵基因,分值越高說明基因在疾病中發(fā)揮的作用越重要。
通過設(shè)置皮爾遜相關(guān)系數(shù)的閾值得到多層網(wǎng)絡(luò)。具體而言,針對(duì)GSE31773和GSE43696兩個(gè)數(shù)據(jù)集,分別利用拐點(diǎn)分析法選擇拐點(diǎn),并將其作為篩選邊的閾值。根據(jù)圖2可以發(fā)現(xiàn),GSE31773數(shù)據(jù)集拐點(diǎn)示意圖中,當(dāng)邊權(quán)值大于1時(shí),趨勢(shì)不再有明顯上升,因此構(gòu)建網(wǎng)絡(luò)的閾值選擇為1。同理對(duì)于數(shù)據(jù)集GSE43696閾值選擇為0.6。確定數(shù)據(jù)集GSE31773和GSE43696構(gòu)建6層網(wǎng)絡(luò)的閾值分別為1和0.6。
圖2 拐點(diǎn)分析圖Fig.2 Analysis diagram of inflection point
利用本文的方法,針對(duì)兩個(gè)獨(dú)立數(shù)據(jù)集GSE31773和GSE43696分別構(gòu)建多層網(wǎng)絡(luò),其信息如表1所示,其中層間邊連接每層的相同基因,例如數(shù)據(jù)集GSE43696,其中層間的邊數(shù)是每層節(jié)點(diǎn)連接其他五層中相同節(jié)點(diǎn),即總計(jì)37 170條邊。以數(shù)據(jù)集GSE43696構(gòu)建的多層網(wǎng)絡(luò)為例,將其可視化后如圖3所示。
表1 多層網(wǎng)絡(luò)信息Table 1 Information of multilayer network
圖3 GSE43696: 6層基因網(wǎng)絡(luò)示意圖Fig.3 GSE43696: Diagram of 6-layers gene network
在多層網(wǎng)絡(luò)構(gòu)建過程中,多層基因網(wǎng)絡(luò)的層數(shù)有多種選擇。為了驗(yàn)證本文構(gòu)建6層網(wǎng)絡(luò)的有效性,本文在數(shù)據(jù)集GSE31773中隨機(jī)選擇不同數(shù)量的疾病樣本構(gòu)建了不同層數(shù)的多層基因網(wǎng)絡(luò),并對(duì)比已知哮喘藥物靶標(biāo)基因在不同層數(shù)的網(wǎng)絡(luò)中的排名結(jié)果,如表2所示。其中在選擇哮喘藥物靶標(biāo)基因時(shí),首先選擇有效治療哮喘的藥物,并在數(shù)據(jù)庫中尋找藥物關(guān)鍵基因靶標(biāo),最終選擇包含在本文數(shù)據(jù)集中的11個(gè)靶標(biāo)基因。表2中“排名1”和“排名2”指隨機(jī)選擇了兩次相同數(shù)量樣本的結(jié)果。從表中看出,在六層基因網(wǎng)絡(luò)中,有5-LOX、IL17、CCR4、IL5RA、ROS等5個(gè)哮喘的藥物靶標(biāo)基因排名更靠前;在五層基因網(wǎng)絡(luò)中,有H1R、IL5、JAK-1等3個(gè)基因排名更優(yōu),在四層基因網(wǎng)絡(luò)中,只有基因CAMP有更好的排名;在三層基因網(wǎng)絡(luò)中,有2個(gè)基因JAK-2、IL4R排名更優(yōu)。綜上所述,在識(shí)別關(guān)鍵基因集時(shí),構(gòu)建六層網(wǎng)絡(luò)的效果更好。
表2 哮喘靶標(biāo)在不同層網(wǎng)絡(luò)排名情況Table 2 Ranking of asthma targets in different layers of networks
根據(jù)哮喘基因數(shù)據(jù)集,利用本文提出的方法,可以得到哮喘相關(guān)的基因。為了進(jìn)一步評(píng)估已知的疾病特異性通路或基因是否在預(yù)測(cè)的關(guān)鍵基因上具有顯著的優(yōu)先級(jí),本研究利用GSEA軟件的GSEAPreranked工具對(duì)結(jié)果進(jìn)行分析。GSEA富集分析主要是用來評(píng)估一個(gè)預(yù)先定義的基因集在與表型相關(guān)的基因排序列表中的分布趨勢(shì),它不需要進(jìn)行基因過濾,輸入數(shù)據(jù)主要包括兩部分,一種是預(yù)先定義的基因集,一種是給定的基因排序列表。本文中,預(yù)先定義的基因集是KEGG通路數(shù)據(jù)庫中的哮喘特異性相關(guān)的基因集,基因排序列表是本文預(yù)測(cè)的所有基因排序結(jié)果。通過GSEA富集分析揭示我們的模型結(jié)果和KEGG通路數(shù)據(jù)庫中哮喘特異性相關(guān)的基因集之間的關(guān)聯(lián),以GSE31773數(shù)據(jù)集為例,根據(jù)其所有基因排名和KEGG通路數(shù)據(jù)庫中哮喘特異性相關(guān)的基因集進(jìn)行加權(quán)K-S檢驗(yàn)得到p值,結(jié)果如圖4所示。結(jié)果表明,與其他預(yù)測(cè)關(guān)鍵基因的排序方法MI[8],t-Test[9],PCC[10],SCC,FC[11],NetRank[12],MarkRank[13]相比,本研究中的算法在對(duì)疾病關(guān)鍵特異性基因進(jìn)行優(yōu)先排序時(shí)具有顯著的p值。
圖4 不同對(duì)比算法的哮喘通路富集分析Fig.4 Enrichment analysis of asthma pathways withdifferent comparison algorithms
為了驗(yàn)證本方法所識(shí)別的疾病相關(guān)基因的重要性,針對(duì)GSE31773和GSE43696兩個(gè)數(shù)據(jù)集,分別選擇排名前10的關(guān)鍵基因(見表3),分析是否已有研究證實(shí)其為哮喘關(guān)鍵基因。研究發(fā)現(xiàn)TP53、MAP3K1、COL18A1、DACT1、CD40LG、ANKRD55、CD4以及TNFSF18、AFM、NKX2-1、SCGB1A1、RAG1、FRAS1、HSD11B2、GSTO2、SOAT1、IL19等基因在哮喘發(fā)生發(fā)展過程中起重要作用。例如,Yuan等[14]的研究表明,與遲發(fā)性哮喘臨床表型相關(guān)的TP53差異甲基化位點(diǎn)是早期篩選的有效生物標(biāo)志物。Zhang等的研究證明DACT1可能是治療哮喘的潛在靶點(diǎn)[15]。對(duì)于CD40LG,有研究表明CD86和CD40LG之間的相互作用會(huì)促進(jìn)過敏性哮喘的發(fā)展[16]。CD4T細(xì)胞淋巴細(xì)胞活化在嚴(yán)重哮喘發(fā)病機(jī)制中起重要作用[17]。SCGB1A1是肺重要的防御分子,防止SCGB1A1被抑制可有效的改善哮喘[18]。有研究表明GSTO2是哮喘易感基因,GSTO2基因的多態(tài)性和哮喘有關(guān)[19]。此外,有研究證實(shí),IL-19基因在哮喘中高度表達(dá),在變應(yīng)性疾病中起著重要作用[20]。研究還發(fā)現(xiàn),嗜酸性粒細(xì)胞的凋亡在支氣管哮喘病理生理中發(fā)揮至關(guān)重要的作用[21],并且PUS10基因能夠調(diào)節(jié)Trail誘導(dǎo)的細(xì)胞凋亡過程[22]。軸突或突觸結(jié)構(gòu)調(diào)控哮喘的激發(fā)機(jī)制[23],且F5蛋白在膜-細(xì)胞骨架相互作用和突觸結(jié)構(gòu)或功能的動(dòng)態(tài)方面發(fā)揮重要作用[24]。此外,“下丘腦-垂體-腎上腺”軸功能與肺功能改善程度相關(guān)[25],并且CRHBP調(diào)節(jié)促腎上腺皮質(zhì)激素控制“下丘腦-垂體-腎上腺”軸功能[26]。由此推斷,PUS10、F5及CRHBP等基因也與哮喘發(fā)生發(fā)展緊密相關(guān)。
為了分析本算法預(yù)測(cè)的疾病關(guān)鍵基因的功能相關(guān)性,利用本算法分別在兩個(gè)獨(dú)立數(shù)據(jù)集上選擇排名前100的基因,使用基因功能分析工具DAVID對(duì)其作GO功能富集分析?;贒AVID分析工具,得到與前100個(gè)基因顯著相關(guān)的基因本體,圖5展示了排名前10的基因本體。圖的縱坐標(biāo)展示了GO的功能注釋,橫坐標(biāo)上的值表示GO在關(guān)鍵基因集中的富集顯著性值-log(p)。由圖可以發(fā)現(xiàn),在排名前10的基因本體中,免疫反應(yīng)、調(diào)控T細(xì)胞增殖、T細(xì)胞刺激以及細(xì)胞因子活性均被證實(shí)與哮喘有密切聯(lián)系[38]。具體來說,哮喘是由免疫系統(tǒng)對(duì)環(huán)境因子和不同的基因表達(dá)的聯(lián)合反應(yīng)引起的呼吸系統(tǒng)疾病。T細(xì)胞是哮喘中過敏性氣道炎癥的關(guān)鍵介質(zhì)[39],T細(xì)胞的增殖會(huì)引起免疫球蛋白水平增加和支氣管高反應(yīng)性即哮喘發(fā)作,細(xì)胞因子也會(huì)輔助T細(xì)胞增殖的反饋控制。此外,炎癥反應(yīng)也與哮喘相關(guān),在哮喘惡化過程中伴隨著循環(huán)嗜酸性粒細(xì)胞、嗜堿性粒細(xì)胞及其前體細(xì)胞的變化等各種炎癥反應(yīng)[40-41]。除上述機(jī)制外還有幾種潛在的新機(jī)制,例如藥物反應(yīng),內(nèi)皮細(xì)胞分化,蛋白質(zhì)磷酸化調(diào)控,信號(hào)調(diào)控,應(yīng)對(duì)缺氧,轉(zhuǎn)錄調(diào)控等在哮喘發(fā)展過程中都起著重要的作用。
表3 排名前10的關(guān)鍵基因集Table 3 Top 10 critical gene sets
圖5 關(guān)鍵基因富集Gene OntologyFig.5 Key gene enrichment Gene Qntology
為了定位關(guān)鍵通路的關(guān)鍵基因,本文基于DAVID平臺(tái)對(duì)兩個(gè)獨(dú)立數(shù)據(jù)集排名前100的基因進(jìn)行通路富集分析,得到與100個(gè)基因顯著相關(guān)(p_val≤0.05)的通路,表4和表5展示了顯著相關(guān)的通路。由上述通路富集分析結(jié)果可知,細(xì)胞因子受體相互作用、趨化因子信號(hào)通路、T細(xì)胞受體信號(hào)通路、原發(fā)性免疫不全四條通路都與哮喘緊密相關(guān)。腫瘤壞死因子(TNF)信號(hào)通路、TGF-beta信號(hào)通路、Th1/Th2分化等通路也被證明與哮喘有關(guān)。TNF信號(hào)通路的壞死因子α是免疫和炎癥反應(yīng)的有效調(diào)節(jié)劑,可以引起包括哮喘在內(nèi)的多種自身免疫性疾病[42]。哮喘會(huì)通過TGF-beta信號(hào)通路促進(jìn)小鼠脈絡(luò)膜血管新生[43]。T淋巴細(xì)胞介導(dǎo)的對(duì)過敏原的免疫應(yīng)答是哮喘發(fā)病機(jī)制的早期關(guān)鍵因素,而Th1/Th2平衡是哮喘發(fā)病機(jī)制的核心[44]。此外,還有若干個(gè)與哮喘潛在相關(guān)的通路,包括黏著連接、焦點(diǎn)粘連、鞘脂類信號(hào)通路等。
表4 GSE31773:關(guān)鍵基因通路富集分析Table 4 GSE31773: Pathways enrichment analysisof critical genes
表5 GSE43696:關(guān)鍵基因通路富集分析Table 5 GSE43696: Pathways enrichmentanalysis of critical genes
1)復(fù)雜疾病的發(fā)生發(fā)展本質(zhì)上與基因和生物功能過程的改變密切相關(guān),疾病關(guān)鍵基因的識(shí)別對(duì)于研究疾病機(jī)理尤其是藥物靶向治療具有重要意義。哮喘作為全球范圍內(nèi)發(fā)病率最高的慢性呼吸道疾病之一,其發(fā)病率在逐年上升。識(shí)別出與哮喘成因緊密相關(guān)的基因有助于提高治療效果。然而臨床研究中由于疾病樣本數(shù)較少,通常導(dǎo)致疾病相關(guān)基因識(shí)別困難。針對(duì)上述問題,本研究提出基于少數(shù)樣本構(gòu)建多層網(wǎng)絡(luò),進(jìn)而利用多層網(wǎng)絡(luò)隨機(jī)游走識(shí)別疾病相關(guān)的關(guān)鍵基因的方法。該方法有助于挖掘樣本數(shù)量受限條件下的疾病相關(guān)基因,加深對(duì)疾病致病機(jī)理的理解。
2)構(gòu)建的多層網(wǎng)絡(luò)對(duì)識(shí)別小樣本疾病的致病基因可行且有效。本文利用皮爾遜相關(guān)系數(shù)計(jì)算出每條邊的權(quán)值;為增強(qiáng)網(wǎng)絡(luò)結(jié)構(gòu)的穩(wěn)定性,采用拐點(diǎn)分析法尋找最佳閾值,保留擾動(dòng)程度較大的邊;通過比較對(duì)已知疾病關(guān)鍵基因的排序選取最優(yōu)的網(wǎng)絡(luò)層數(shù)。例如針對(duì)數(shù)據(jù)集GSE31773的實(shí)驗(yàn)分析表明,構(gòu)建六層基因網(wǎng)絡(luò)效果最佳。
3)與其他方法相比,本算法識(shí)別的哮喘相關(guān)基因的排名更具顯著性。利用本算法分別在GSE31773和GSE43696數(shù)據(jù)集中挖掘排名前10的關(guān)鍵基因,研究發(fā)現(xiàn)TP53、MAP3K1、COL18A1、DACT1、CD40LG、ANKRD55、CD4以及TNFSF18、AFM、NKX2-1、SCGB1A1、RAG1、FRAS1、HSD11B2、GSTO2、SOAT1、IL19等基因在哮喘發(fā)生發(fā)展過程中起重要作用,并推斷PUS10、F5及CRHBP等基因也與哮喘發(fā)生發(fā)展緊密相關(guān)。
4)對(duì)分別從GSE31773和GSE43696兩個(gè)數(shù)據(jù)集中所得排名前100的關(guān)鍵基因進(jìn)行通路富集分析和GO功能富集分析,分析結(jié)果表明所識(shí)別的基因能夠顯著富集到與哮喘相關(guān)的通路和功能中。