李宗瑾 宋長新
摘要:肺動脈高壓(pulmonary arterialhypertension,PAH)是一種嚴重的心血管疾病,發(fā)病機制復雜,分子機制尚未完全闡明,臨床死亡率僅次于腫瘤與心肌梗死,嚴重威脅人類的生命健康。因此,需要更多的方法來探究PAH的分子機制,挖掘影響其發(fā)生的關鍵因子。該文將PAH疾病的分子研究與加權基因共表達網絡(WGCNA)相結合,通過構建PAH加權基因共表達網絡,探討其潛在生物標志物,篩選可能與PAH顯著相關的關鍵基因,為PAH的預防及早期治療提供理論與實踐基礎。
關鍵詞:PAN;WGCNA;關鍵基因;生物標志物
中圖分類號:TP391文獻標識碼:A
文章編號:1009-3044(2020)15-0008-02
1背景
PAH是一種病因不明、受遺傳與環(huán)境等多因素共同影響的綜合征。其特征是肺動脈壓力和血管阻力增加導致右心衰竭和死亡,診斷后平均生存時間為2.8年。近年來,隨著對PAH發(fā)病機制的深入研究,發(fā)現遺傳因素在其發(fā)病中起著重要作用。目前,仍存在治療難度大、藥物敏感性低及預后極差的問題,因此需要更多方法來發(fā)現潛在的關鍵(樞紐)基因,進而揭示其分子機制,進而降低其死亡率。WGCNA是一種系統(tǒng)生物學方法,是以基因間表達相似性為基礎來實現基因網絡構建的算法,常用來探索基因和表型之間復雜關系,不僅可以篩選具有價值的生物標志物或靶位點的鑒定,還具有揭示生物學規(guī)律、疾病關鍵驅動因子和藥物作用機理的功能。在本研究中,我們利用GEO數據庫中的PAH表達譜數據構建了加權基因共表達網絡,篩選可能影響PAH疾病發(fā)生的關鍵因子,為實現PAH的早期預防與及時治療提供理論基礎。
2材料與方法
2.1數據來源及數據預處理
本文的PAH基因表達譜數據fGSEll7261)來自GEO數據庫(http://www.ncbi.nlm.nih.gov/geo,),包含25個正常人類樣本,和58個PAH樣本,平臺為GPL6244。本研究使用R編程語言(v3.6.2),Bioconductor軟件包和WGCNA軟件包進行數據分析。
2.2共表達網絡的構建和模塊構建
我們使用R中的WGCNA軟件包來構建PAH加權基因共表達網絡。首先,計算所有基因對的相關性構建Pearson相關矩陣,如公式(1)。然后,使用冪函數nil=Allg將相關矩陣轉換為鄰接矩陣,其中β是一個可以強調強相關性的軟閾值,軟閾值p可以使網絡符合標準的無尺度網絡,從而實現無標度拓撲。第三,將鄰接矩陣轉換為拓撲重疊矩陣(TOM),如公式(2),并計算基因間相異度矩陣dissTOM=1-TOM,對dissTOM層次聚類得到系統(tǒng)聚類樹,即將具有相似表達的基因分為同簇。第四,通過dynamic Tree Cut動態(tài)剪枝算法來區(qū)分共表達模塊,其中min-ModuleSize為50,deepSplit為2,其他參數設置為默認值,并計算代特征向量值(ME),通過聚類合并具有高度相似的模塊,便可得到基因模塊。
其中,Bij表示基因i和基因j之間的鄰接系數;lij表示基因i與基因i所有共同相鄰基因的鄰接系數的乘積之和;ki代表基因i與所有相鄰節(jié)點的鄰接系數綜合。若值為0,表示這兩個基因都是孤立的。若值是1,表示這兩個基因與所有基因都是相鄰的。
2.3篩選共表達網絡關鍵模塊
本文將使用兩種方法來鑒別與高血壓相關的模塊。第一種方法,計算各模塊的模塊特征基因(module eigengene,ME)與疾病性狀皮爾森相關系數及其P值來確定關鍵模塊;第二種方法,通過計算基因顯著性(Gene Significance,GS)和模塊顯著性(Module Significance,MS)來確定關鍵模塊。GS是指基因的表達量與某一臨床信息的皮爾森相關系數,MS是指模塊中所有基因的GS的平均值。一般所有模塊MS與GS的絕對值越大,說明與PAH疾病越相關。
2.4鑒定關鍵模塊的樞紐基因
模塊的樞紐基因是與疾病最緊密相關的基因,通常具有更大的生物學意義。Gs表示了基因在各種網絡中的重要性,模塊身份(Modularmembership,MM)用來衡量基因在模塊內的重要性,基因之間的權重顯著性p.weighted可以通過WGCNA包中的networkScrenningO函數計算得到。為了鑒定出更加可靠的關鍵基因,我們再次采用網絡的最大集團度(MCC),如公式(3)。篩選關鍵模塊中的樞紐基因,最后將兩種方法的共同基因作為關鍵基因。
3結果
3.1芯片數據預處理
我們使用R軟件和limma軟件包對數據進行校正批處理、去除空探針及重復基因。根據映射的探針確定了每個基因的表達值,如果多個探針映射到同一基因,則最大值表達值用于表示該基因的表達水平。最后,獲得了20359個基因的表達譜。對表達譜矩陣進行標準差(sD)排序,選取前5000個基因作為共表達網絡構建的輸人數據,進行聚類分析,發(fā)現去除離群樣本GSM3290090。
3.2并加權共表達網絡的構建
軟閾值的選擇是構建WGCNA的關鍵。我們對從1到20的閾值進行了網絡拓撲分析,發(fā)現當B=6時,滿足無標度網絡條件。通過層次聚類將具有相似表達的基因分組為同一模塊,同時將切割線MEDissThres設置為0.2來合并模塊,鑒定了17個基因模塊。
3.3確定關鍵基因模塊
我們通過第一種方法得到從模塊purple和pink與PAH相-關性系數分別為-0.77,0.64,其絕對值大于其他模塊的相關系數(圖1),且P值都小于0.01,因此推斷這兩個模塊與PAH最相關,且分別與PAH在顯著的負相關和正相關,即前者模塊中的基因可能抑制PAH的發(fā)生,后者可能促進PAH的發(fā)生。為保證關鍵模塊篩選的準確性,我們用另一種方法重新篩選關鍵模塊,結果表明purple和pink模塊的GS絕對值最大(圖2)。用上述兩種不同方法篩選結果相同,因此purple和pink模塊為關鍵模塊。
3.4與PAH發(fā)生相關的樞紐基因
在本研究中,首先以|MM|>0.8、|GS|>0.2和p.weighted<0.05為標準進行篩選,分別在purple和pink模塊中篩選出了24個和21個樞紐基因。然后將關鍵模塊基因文件導人Cyto-scape,通過MCC算法分別獲得toplO樞紐基因,將兩個方法獲得基因取交集,最終在purple模塊中確定了7個關鍵基因(TLR1,AQP9,SIGLEC9,LRRC25,LILRA6,LILRB3,S100A9),在pink模塊中確定了5個關鍵基因(ANTXRl,UACA,ECM2,RBFOX2,NREP)。
4討論
在這項研究中,我們使用WGCNA構建PAH的基因共表達網絡,目的是尋找新的和關鍵的生物標志物。在WGCNA中,動態(tài)樹切割共識別了17個基因模塊,其中purple和pink模塊是與PAH高度相關的兩個模塊。然后篩選了12個與PAH相關的潛在樞紐基因,即TLRl、AQP9、SIGLEC9、LRRC25、LILRA6、HLRB3、S100A9、ANTXRl、UACA、ECM2、RBFOX2、NREP。其中,前七個關鍵基因與PAH呈負相關,可能抑制PAH的發(fā)生,后五個關鍵基因與PAH呈正相關,可能誘發(fā)PAH的發(fā)生。
通過查詢文獻及基因數據庫,發(fā)現有三個關鍵基因(TLRl、AQP9和RBFOX21已經有研究表明與PAH或高血壓相關,如Koupenova M等人發(fā)現不同性別的血小板TLR轉錄物與不同的心血管危險因素和循環(huán)炎癥水平相關;AQP9在內皮細胞,血管平滑肌細胞和心血管系統(tǒng)心臟中表達,參與心血管功能和相關疾病的病理過程;Zhou Y等人研究發(fā)現RBFOX2在高血壓中起關鍵作用。有四個關鍵(sIGLEC9、ANTXRl、LRRC25和ECM21雖然還未有報道其與PAH相關,但其對血管具有調節(jié)作用或與TGT-β相關。其余五個關鍵基因(LILRA6、LILRB3、S100A9、UACA和NREPl調控參與腫瘤的免疫反應、胰島素抵抗/2糖尿病、調節(jié)細胞凋亡、腎纖維化的新靶標等。表明我們的研究可以篩選出具有生物學意義的PAH關鍵基因。這些發(fā)現有助于更好地了解PAH的發(fā)病的機制,為臨床決策提供預后生物標志物。