婁嬌嬌,王浩冉,黃鳳祥,王煥勤,康燕,王起龍,馬開,喬瑞萍,苗麗君
(鄭州大學第一附屬醫(yī)院 呼吸與危重癥醫(yī)學科,河南 鄭州 450052)
特發(fā)性肺纖維化(idiopathic pulmonary fibrosis,IPF)是一種慢性、致死性間質(zhì)性肺疾病,中位生存期為3~5 a[1]。IPF的診斷需要在合適的臨床條件下通過高分辨率CT(high-resolution computed tomography,HRCT)或組織學檢查發(fā)現(xiàn)典型的間質(zhì)性肺炎,且缺乏明確的病因[2]。炎癥性腸病(inflammatory bowel disease,IBD)是一種描述多種胃腸道炎癥性疾病的廣義術(shù)語,主要類型是克羅恩病(Crohn’s disease,CD)和潰瘍性結(jié)腸炎(ulcerative colitis,UC)[3]。IBD在肺部的腸外表現(xiàn)包括上氣道疾病伴狹窄、大氣道疾病伴炎癥、支氣管擴張、炎癥性小氣道疾病、肺實質(zhì)疾病、血管疾病、間質(zhì)性肺疾病、肉芽腫性肺疾病和嗜酸性肺炎[4-6]。
有研究表明IBD與IPF相關(guān),IBD患者發(fā)生IPF的風險更高[7-8]。盡管近年來IBD與IPF的相關(guān)性受到相當多的關(guān)注,但相關(guān)研究仍較少,需要進一步探索。本研究的目的是通過生物信息學分析確定與IPF和IBD相關(guān)的核心基因。對核心基因進行了富集分析,并進一步分析了與這些基因相關(guān)的轉(zhuǎn)錄因子(transcription factors,TFs)及微小核糖核酸(microRNAs, miRNAs),旨在探索IPF和IBD相似的遺傳特征和潛在生物學機制,為進一步研究IPF和IBD共同發(fā)病機制提供新的研究方向。
通過公共開放的基因表達綜合數(shù)據(jù)庫(gene expression omnibus,GEO)(http://h-p.www.ncbi.nlm.nih.gov.zzulib.vpn358.com/gds/)篩選了與IPF和IBD相關(guān)的轉(zhuǎn)錄組測序數(shù)據(jù)集,其中IPF的基因表達譜芯片數(shù)據(jù)集為GSE53845和GSE110147,IBD基因表達譜芯片數(shù)據(jù)集為GSE59071和GSE75214。使用GSE110147和GSE75214篩選差異表達基因(differentially expressed genes,DEGs),使用GSE53845和GSE59071進行樞紐基因表達驗證。
首先,根據(jù)對應平臺中對數(shù)據(jù)集的注釋文檔,使用R軟件(4.2.1)“merge”包將獲得的4個數(shù)據(jù)集中的探針與基因符號進行匹配。然后,利用R中的“l(fā)imma”包對4個數(shù)據(jù)集進行背景校準、歸一化和log2轉(zhuǎn)換。當多個探針對應同一基因時,計算平均值以確定其表達量。對于GSE110147和GSE75214,使用R中的“l(fā)imma包”通過設(shè)置條件截斷標準|log2FC|>1和P<0.05來篩選DEGs。使用R軟件制作熱圖和火山圖來可視化這些DEGs。將IPF和IBD的DEGs取交集,得到共同的DEGs,通過構(gòu)建維恩圖顯示重疊的DEGs。
研究通過使用“clusterProfiler”包和“GOplot”包對DEGs進行基因本體論(gene ontology,GO)富集分析和京都基因與基因組百科全書(Kyoto Encyclopedia of Genes and Genomes, KEGG)富集分析明確共同的DEGs的潛在生物學功能。
STRING是一個利用實驗數(shù)據(jù)和計算預測方法預測蛋白質(zhì)相互作用的數(shù)據(jù)庫。此研究使用STRING(http://string-db.org.zzulib.vpn358.com/)構(gòu)建了常見DEGs的蛋白質(zhì)-蛋白質(zhì)相互作用(protein-protein interaction,PPI)網(wǎng)絡(luò)。將置信度評分設(shè)置為>0.4,隱藏網(wǎng)絡(luò)中斷開的節(jié)點。利用Cytoscape(3.9.1)的CytoHubba和MCODE功能PPI網(wǎng)絡(luò)復合體中發(fā)現(xiàn)關(guān)鍵基因。MCODE默認設(shè)置;在CytoHubba中從12種算法中隨機選取5種算法計算前15個關(guān)鍵基因并且通過在線維恩圖工具(http://h-p.bioinformatics.psb.ugent.be.zzulib.vpn358.com/webtools/Venn/)將5種算法的運行的結(jié)果取交集確定核心基因。
使用IPF數(shù)據(jù)集GSE53845和IBD數(shù)據(jù)集GSE59071進一步驗證這些核心基因在兩種疾病中的表達水平,差異表達水平的比較采用t檢驗,以P<0.05為差異有統(tǒng)計學意義。通過R軟件“ggpubr”包獲得的小提琴圖譜顯示了不同組間核心基因的表達水平。對核心基因進行GO富集分析和KEGG分析。
TFs是基因表達調(diào)控中的關(guān)鍵分子,可以與特定的DNA序列結(jié)合。JASPAR(http://h-p.jaspar.genereg.net.zzulib.vpn358.com)是一個開放訪問的TFs數(shù)據(jù)庫,TFs結(jié)合圖譜存儲6個分類群的多個物種的TFs結(jié)合位點頻率矩陣。使用Networkanalyst工具(version 3.0, http://www.networkanalyst.ca.zzulib.vpn358.com/)評估JASPAR數(shù)據(jù)庫中TFs基因與IPF和IBD共同的核心基因的交互作用。miRNAs可通過與靶mRNA結(jié)合來調(diào)控靶基因的表達。了解TFs與miRNAs之間的調(diào)控轉(zhuǎn)錄網(wǎng)絡(luò)將有助于研究不同生理和疾病條件下基因表達的機制。使用NetworkAnalyst 3.0軟件分析TFs-miRNAs共調(diào)控網(wǎng)絡(luò),并用Cytoscape軟件對結(jié)果進行可視化分析。
將GSE110147數(shù)據(jù)集中的22例IPF樣本與11例正常對照進行比較,得出3 370個DEGs。將GSE752141數(shù)據(jù)集中的172例IBD樣本與22例正常對照進行比較,篩選出了460個DEGs。通過火山圖和熱圖對2個數(shù)據(jù)集的DEGs進行可視化(圖1)。此外,利用維恩圖對GSE110147和GSE752141之間的共同DEGs進行分析。結(jié)果顯示,在這2個數(shù)據(jù)集中,有90個基因的表達發(fā)生了顯著變化,其中上調(diào)基因67個,下調(diào)基因23個。
A為GSE110147 DEGs的火山圖;B為GSE752141 DEGs的火山圖;C為GSE110147 DEGs的熱圖;D為GSE752141 DEGs的熱圖。
使用R軟件中的“cluster profiler”包對這些共同的DEGs進行GO分析和KEGG通路富集,進一步探索潛在的生物信息。分析結(jié)果表明,在生物過程(biological process,BP)方面,這些基因主要與生長、細胞外基質(zhì)組織、細胞外結(jié)構(gòu)組織的負調(diào)控相關(guān)。在細胞成分(cellular component,CC)方面,基因主要與內(nèi)質(zhì)網(wǎng)管腔、含膠原的細胞外基質(zhì)相關(guān)。最后,在分子功能(molecular function,MF)方面,這些基因主要與細胞外基質(zhì)結(jié)構(gòu)成分、內(nèi)肽酶活性相關(guān)(圖2A、2B)。此外,KEGG分析顯示,DEGs主要富集于黏著斑、人乳頭瘤病毒感染、PI3K-Akt信號通路、ECM-受體相互作用、礦物質(zhì)吸收(圖2C、2D)。
A為常見DGEs的GO富集分析條形圖;B為常見DGEs的KEGG富集分析柱狀圖;C為常見DGEs的GO富集分析氣泡圖;D為常見DGEs的KEGG富集分析氣泡圖。
為了進一步探索共同DEGs編碼的蛋白質(zhì)之間的潛在相互作用,并識別核心基因,此研究利用STRING數(shù)據(jù)庫對DEGs進行了PPI網(wǎng)絡(luò)分析(圖3A)。使用Cytoscape 3.9.1軟件進行網(wǎng)絡(luò)分析和可視化。CytoHubba插件通過5種算法得到7個基因(SPP1、COL1A1、POSTN、MMP1、MMP7、COL3A1、COL6A3)(圖3B)。然后,應用MCODE插件進行模塊分析(過濾標準:degree cut-off=2;node score cut-off=0.2;k-core=2;max depth=100),在網(wǎng)絡(luò)中得到4個模塊,如圖3C~G所示。將CytoHubba獲得的基因與MCODE獲得的基因取交集,得到6個樞紐基因:SPP1、COL1A1、POSTN、MMP7、COL3A1、COL6A3。
A為STRING構(gòu)建的常用DEGs的PPI網(wǎng)絡(luò);B為通過5種算法鑒定的7個候選基因;C~F為顯著性基因模塊及模塊基因。
使用另外2個數(shù)據(jù)集,IPF的GSE53845和IBD的GSE59071分析核心基因的表達水平對核心基因表達水平的置信度進行驗證。結(jié)果顯示,在GSE53845中,與健康組相比,IPF組的所有核心基因均顯著上調(diào)(圖4A)。同樣,在GSE59071中,與健康組相比,IBD組的所有核心基因均顯著上調(diào)(圖4B)。
A為GSE110147數(shù)據(jù)集中IPF組與對照組的核心基因表達;B為GSE75214數(shù)據(jù)集中IBD組與對照組的核心基因表達;*P<0.05; **P<0.01;***P<0.001;ns為P>0.05。
GO富集分析顯示,樞紐基因主要集中在細胞外基質(zhì)組織、細胞外結(jié)構(gòu)組織、內(nèi)質(zhì)網(wǎng)管腔、含膠原的細胞外基質(zhì)、細胞外基質(zhì)結(jié)構(gòu)成分。KEGG富集分析顯示,樞紐基因主要集中于ECM-受體相互作用、黏著斑、人乳頭瘤病毒感染、PI3K-Akt信號通路(圖5)。
A為核心差異基因GO富集分析的條形圖、氣泡圖和圓圖;B為核心差異基因KEGG富集分析的條形圖、氣泡圖和圓圖。
對于核心基因,通過NetworkAnalyst平臺構(gòu)建了包含25個交互作用、32個TFs和6個核心基因的TFs調(diào)控網(wǎng)絡(luò)(圖6A)。TFs-miRNAs調(diào)控網(wǎng)絡(luò)揭示了miRNAs和TFs之間的關(guān)系以及與核心基因的相互作用。通過NetworkAnalyst構(gòu)建TFs-miRNAs調(diào)控網(wǎng)絡(luò),通過Cytoscape的CytoHubba插件的MCC算法得到85個miRNAs和34個TFs(圖6B)。
A為TFs-核心基因網(wǎng)絡(luò)圖;B為TFs-miRNAs調(diào)控網(wǎng)絡(luò)網(wǎng)絡(luò)圖。
IPF是一種以成纖維細胞向肌成纖維細胞轉(zhuǎn)化和細胞外基質(zhì)過度沉積為特征的慢性進行性纖維化肺疾病[9]。IBD被越來越多的認為是一種復雜的疾病,可由多種原因引起或加重,在一般人群中的發(fā)病率呈上升趨勢[10]。IPF與慢性肝炎、原發(fā)性膽汁性肝硬化、EB病毒感染、IBD、Whipple病相關(guān)[11]。然而,目前很少有研究從基因水平探討IPF和IBD的共同發(fā)病機制,因此本研究旨在探討IPF與IBD之間的關(guān)系。研究使用來自IPF(GSE110147)和IBD(GSE752141)的樣本數(shù)據(jù)集獲得了90個共同的DEGs。基于Cytoscape的MCODE插件和CytoHubba插件,在PPI網(wǎng)絡(luò)中篩選出6個重疊的DEGs作為核心基因,包括SPP1、COL1A1、POSTN、MMP7、COL3A1、COL6A3。這6個基因在IPF和IBD患者中均表達上調(diào),提示這些基因可能在IPF和IBD的發(fā)病機制中發(fā)揮重要作用。GO富集分析結(jié)果顯示,樞紐基因主要富集于細胞外基質(zhì)組織、細胞外結(jié)構(gòu)組織、內(nèi)質(zhì)網(wǎng)管腔、含膠原的細胞外基質(zhì)、細胞外基質(zhì)結(jié)構(gòu)成分。KEGG富集分析顯示,核心基因主要集中在ECM-受體相互作用、黏著斑、人乳頭瘤病毒感染、PI3K-Akt信號通路。其中,ECM-受體相互作用和黏著斑已被證實與IPF的調(diào)控密切相關(guān),PI3K-Akt通路通過其促炎作用和活化T細胞參與IBD的發(fā)病[12-14]。
分泌型磷蛋白1(secreted phosphoprotein 1,SPP1)又稱骨橋蛋白(osteopontin,OPN)樣蛋白,是一種多功能蛋白,表達于活化的巨噬細胞、T細胞、破骨細胞、肝細胞、平滑肌、內(nèi)皮細胞和上皮細胞,可介導細胞黏附、趨化、信號轉(zhuǎn)導和組織修復等多種生物學功能[15-17]。SPP1/OPN是IPF的標志物,在人類IPF中表達上調(diào),對人類IPF起促進作用[18-19]。既往研究表明,SPP1/OPN在IBD患者腸上皮細胞和炎癥腸組織中浸潤的免疫細胞中表達增加[20-21]。IPF患者肺組織中OPN與MMP7共定位,OPN誘導MMP7的表達和活性,而OPN被MMP7切割和激活[19,22]。MMP7可以特異性切割核心蛋白聚糖,從而從復合物中釋放轉(zhuǎn)化生長因子-β[23]。IBD中MMP-7的異常升高與黏膜糜爛、結(jié)構(gòu)組織改變和炎癥浸潤有關(guān),MMP-7的過度表達有助于IBD的腸屏障損傷[24-25]。
與非IBD人群相比,IBD患者黏膜轉(zhuǎn)化生長因子TGF-β水平升高[26-27]。COL1A1和COL3A1是細胞外基質(zhì)相關(guān)基因,在IPF發(fā)病機制中發(fā)揮重要作用。IPF的特征是促纖維化細胞因子TGF-β1的上調(diào),TGF-β1與包括膠原(主要是Ⅰ型和Ⅲ型)在內(nèi)的ECM蛋白的產(chǎn)生增強相關(guān)[27]。COL3A1編碼Ⅲ型膠原蛋白α1鏈,COL1A1編碼Ⅰ型膠原蛋白α1[28]。COL1A1在IBD患者的炎癥組織中表達增加[29]。由POSTN基因編碼的骨膜蛋白主要通過PI3K/Akt和FAK途徑與蛋白受體相互作用,導致組織重塑、纖維化、炎癥等多種病理過程[30]。骨膜蛋白在IPF患者中表達增加,定位于活性纖維化區(qū)域[31]。TGF-β和IL-13可促進纖維化肺實質(zhì)中骨膜蛋白的表達[32]。既往研究表明,骨膜蛋白激活NF-κB信號通路介導腸道炎癥,提示骨膜蛋白是IBD的潛在治療靶點[33]。
TFs在基因表達調(diào)控中發(fā)揮重要作用。在TFs-基因互作網(wǎng)絡(luò)中,SPP1、MMP7和COL6A3與其他TFs基因的相互作用率較高。SPP1受10個TFs基因調(diào)控,MMP7和COL6A3受9個TFs基因調(diào)控。調(diào)控因子中,HINFP、NFYA、POU2F2、YY1、FOXL1和FOXC1是TFs-基因相互作用網(wǎng)絡(luò)中程度最高的調(diào)控因子。HINFP、POU2F2、YY1、FOXL1和FOXC1均靶向SPP1。TFs和miRNAs均可調(diào)控靶基因的表達,且相互調(diào)控,在多種生物過程和疾病的分化中發(fā)揮重要作用[34]。通過TFs-miRNAs共調(diào)控網(wǎng)絡(luò),了解到核心基因、TFs和miRNAs之間的關(guān)系。在已鑒定的TFs中,JUN的級別最高,為4級。JUN蛋白包含c-Jun、JunB和JunD,其中c-Jun是最有效的轉(zhuǎn)錄激活因子,一項研究表明,IPF中異常的致病性成纖維細胞需要c-JUN來快速增殖[35-36]。在IBD患者中,嚴重受損組織中c-Jun基因表達水平高于外觀正常組織[37]。在miRNAs中,hsa-miR-301b, hsa-miR-301a, hsa-miR-29c, hsa-miR-29b和hsa-miR-29a的表達度最高,程度為3,且均靶向COL6A3。有研究表明,COL6A3是TGF-β/Smad信號通路的靶點,可能是IPF的潛在生物標志物[38-39]。在IBD中,COL6A3編碼的COL6α3鏈在CD和UC患者的腸組織中升高[40]。
通過先進的生物信息學方法,建立了IPF和IBD的PPI網(wǎng)絡(luò),并篩選了SPP1、COL1A1、POSTN、MMP7、COL3A1、COL6A3等樞紐候選基因。同時,通過生物信息學分析,分析了分子調(diào)控網(wǎng)絡(luò)中的信號通路。本研究發(fā)現(xiàn)了IPF和IBD的共同靶點和功能通路,并通過可視化網(wǎng)絡(luò)圖更清晰地表達了兩者的相互作用。這些結(jié)果表明IPF與IBD之間存在相似之處和潛在的關(guān)系,可作為未來研究的理論基礎(chǔ),并為診斷和治療提供新的潛在靶點。然而,此研究也存在一些局限性。首先,目前的研究只涉及6個核心基因。其次,TFs-基因和TFs-miRNAs-基因相互作用網(wǎng)絡(luò)僅基于公共數(shù)據(jù)庫的預測,缺乏對IPF和IBD中核心基因、TFs和miRNAs調(diào)控的分子機制的詳細研究。因此,這些樞紐基因和miRNAs在IPF和IBD發(fā)生中的分子機制有待進一步研究。