黃碧青,李菁
系統性硬化癥(systemic sclerosis, SSc)是一種自身免疫性疾病,臨床上以皮膚、內臟纖維化和血管損傷為特征[1]。SSc的發(fā)病機制不清,可能涉及遺傳因素、表觀遺傳修飾和環(huán)境暴露[2]。SSc是一種罕見的異質性結締組織病,與性別(男∶女=1∶3~14)、種族(歐洲人群發(fā)病率較高)有關,發(fā)病率為50~300/百萬[3]。50%的SSc患者存在肺部受累,其中間質性肺病(interstitial lung disease, ILD)是導致SSc患者死亡的最主要原因[4-5]。但目前關于SSc-ILD的治療選擇有限,疾病治療藥物大多局限于非選擇性免疫抑制劑[6]。了解疾病表觀背后的關鍵分子機制對SSc-ILD的早期診斷以及靶向治療至關重要。本研究旨在通過生物信息學方法尋找SSc-ILD的潛在標志物和治療靶點,為SSc-ILD的早期診斷和開發(fā)新的治療藥物提供方向。
GEO數據庫(https://www.ncbi.nlm.nih.gov/geo)是一個公共基因組數據存儲庫。本研究按以下納入標準進行篩選:(1)關鍵詞為“系統性硬化癥”、“間質性肺病”、“人類”;(2)診斷為SSc-ILD的樣本和正常組織樣本。通過R語言(4.0.2版本)“GEOquery”包從GEO數據庫中獲取SSc-ILD相關的2個芯片(GSE76808、GSE81292)的系列矩陣文件和相關注釋,分別根據2個芯片的各自GPL提供的注釋文件,將帶有探針I(yè)D的表達矩陣轉換為基因符號,刪除沒有相應基因符號的探針,并計算平均值作為多個探針對應的基因的最終表達值。通過R語言“l(fā)imma”[7]包對2個芯片的原始數據,分別進行背景校正、歸一化和表達值計算。使用“Normize Between Array函數”對所有樣本的陣列內和陣列之間的分位數進行歸一化。關于2個芯片的詳細信息見表1。
表1 SSc-ILD基因表達譜數據信息Table 1 SSc-ILD gene expression profile data information
采用“l(fā)imma”包中經驗貝葉斯方法分析差異性表達基因(differentially expressed genes, DEGs)。校正的P值<0.05且|log2(FC)|>1的基因被認為是DEGs。使用R語言“ggplot 2”包對DEGs進行火山圖可視化,“pheatmap”包繪制DEGs聚類熱圖。篩選出2個芯片共同表達的DEGs。
為了探究DEGs在SSc-ILD中的生物學功能,采用網絡工具DAVID(https://david. ncifcrf.gov)根據基因本體(gene ontology, GO)[8]和京都基因和基因組百科全書(Kyoto encyclopedia of genes and genomes, KEGG)[9]數據庫的信息對DEGs進行GO功能注釋和KEGG信號通路富集分析以獲取SSc-ILD發(fā)生發(fā)展相關的分子和信號通路。本研究設置P<0.05的GO術語和KEGG通路具有顯著性。GO功能注釋中,基因的功能分為三部分:基因執(zhí)行的分子功能(molecular function, MF)、基因所處的細胞組分(cellular component, CC)、基因參與的生物學過程(biological process, BP)。
DEGs的蛋白質-蛋白質互作(protein-protein interaction, PPI)數據從STRING數據庫(https://string-db.org)下載,通過cytoscape[10]軟件(3.7.2版本)建立PPI網絡并進行可視化,根據PPI網絡中每個節(jié)點的連接、交互次數的度級檢測Hub基因。為了進一步驗證關鍵基因,使用cytoscape軟件中的插件MCODE[11],根據MCODE得分找出了幾個功能模塊,這代表DEGs之間的關聯程度。隨后,利用cytoscape插件cell Hubba[12],通過網絡度、介數和接近中心度等幾種拓撲算法對PPI網絡中的重要節(jié)點進行探索。選擇每個拓撲算法識別的前10個基因,以3種方式找到共享基因作為網絡中最重要的中樞基因。最后,通過3種方法(PPI網絡中的程度水平、cell Hubba中的MCODE評分和拓撲算法)檢測到的共享Hub基因被確定為關鍵基因[13]。
毒理基因組學數據庫(Comparative Toxicogenomics Database, CTD;https://ctdbase. org)是一個基于文獻的重要公共資源數據庫,被用于尋找化學物質相互作用,基因相互作用,表型、疾病和環(huán)境暴露之間的精確關聯。在數據庫中,根據原始文獻計算推理得分,以呈現基因與疾病的關系。本研究使用CTD數據庫分析Hub基因與SSc和ILD之間的關聯,并根據推理得分排名確定它們之間的關系。
DisGeNET是一個綜合性的基因-疾病關聯(gene-disease association,GDA)關系數據庫,GDA得分基于專家注釋的知識庫、GWAS、動物模型和科學文獻綜合評分,評分的高低代表基因和疾病的關聯強度。DisGeNET(v7.0)包含了30 170個疾病(表型)與21 671個基因之間的1 134 942個GDA。通過DisGeNET數據庫(https://www. disgenet.org/home)與GENE數據庫(https://www. ncbi.nlm.nih.gov/gene)以“systemic sclerosis”和“interstitial lung disease”為關鍵詞進行搜索,物種限定為人類,獲得SSc-ILD的相關標志物和靶點。
SSc-ILD中DEGs的鑒定、功能分析和驗證工作流程見圖1。
對2個芯片的原始數據進行歸一化處理,以消除由于技術重復導致的誤差,歸一化處理后每個芯片的樣本內數據處于同一水平(圖2),可以進行后續(xù)的差異基因表達分析。差異基因表達分析火山圖和熱圖可視化。結果顯示:GSE76808中DEGs 686個,其中上調表達290個,下調表達396個;GSE81292中DEGs 408個,其中上調表達145個,下調表達263個;兩者共同表達的DEGs 230個,其中上調表達59個,下調表達171個(圖3)。
對2個芯片共同表達的230個DEGs進行功能注釋,主要分為BP、CC和MF。在BP類中,DEGs編碼的蛋白主要與對脂多糖反應、對細菌來來源的分子反應、對平滑肌細胞增生的調節(jié)、細胞趨化反應、對抗生素的反應等生物過程有關。在CC類中,DEGs編碼的蛋白主要與構成內質網腔結構、胞膜外部結構的細胞成分有關。在MF類中,DEGs編碼的蛋白主要與受體-配體活性、信號通路受體活性、細胞因子受體結合、趨化因子受體結合、結合DNA的轉錄因子活性等分子有關(圖4)。
圖 1 SSc-ILD中DEGs鑒定、功能分析和驗證工作流程
圖 2 兩個芯片數據前后校正圖
對DEGs進行信號通路富集分析并對前20條通路進行可視化,結果顯示DEGs編碼的蛋白參與的信號通路主要是細胞因子-細胞因子受體相互作用通路、腫瘤壞死因子(tumor necrosis factor, TNF)信號通路、IL-17信號通路、病毒蛋白與細胞因子及其受體相互作用通路、參與糖尿病并發(fā)癥的AGE-RAGE信號通路、流體剪切應力和動脈粥樣硬化相關信號通路等(圖5)。
基于STRING數據庫并通過cytoscape軟件構建230個DEGs的PPI網絡,通過cytoscape軟件的插件cell Hubba對Hub基因進行鑒定,連接度最高的10個中樞節(jié)點分別是IL-6、JUN、CXCL8、CCL2、IL-1B、PTGS2、EGR1、ICAM1、ATF3、IGF1(圖6)。
CTD數據庫中與SSc相關的基因15 272個,與ILD相關的基因18 988個,與SSc和ILD皆存在關聯的基因10 694個;GENE數據庫中與SSc關聯的基因447個,與ILD關聯的基因92個,與SSc和ILD皆存在關聯的基因50個;DisGeNET數據庫中與SSc有關的基因980個。這3個數據庫及230個DEGs的交集通過韋恩圖進行展示:3個數據庫中與SSc-ILD相關的基因有38個,其中包括本次實驗計算得出的5個DEGs(ICAM1、CCL2、CXCL8、IL-6、TNFAIP3);與SSc相關的基因300個,包括7個Hub基因(IL-6、CXCL8、CCL2、IL-1B、ICAM1、JUN、PTGS2)及TNFAIP3(圖7)。7個Hub基因及TNFAIP3在兩芯片的表達見表2。
圖 3 SSc-ILD和健康對照2個芯片的DEGs熱圖和火山圖
本研究通過取交集及cytoscape軟件和cell Hubba插件篩選出SSc-ILD的2個芯片的DEGs,結合CTD、GENE和DisGeNET數據庫最終確定了與SSc-ILD相關的8個潛在的關鍵基因,即IL-6、IL-1B、CXCL8、CCL2、JUN、PTGS2、ICAM1、TNFAIP3,有望作為SSc-ILD的生物標志物及治療靶點。
IL-6是一種經典的促炎細胞因子,被認為是SSc免疫發(fā)病機制中的重要蛋白。有研究發(fā)現,SSc患者血清和皮膚中的IL-6水平升高,并且IL-6水平與SSc疾病嚴重程度相關[14]。同樣,Becker等[15]研究發(fā)現血清IL-6是SSc-ILD早期肺功能下降和死亡率的預測標記物。在晚期SSc-ILD中血清IL-6水平仍然顯著升高[16]。血清IL-6水平還可以作為環(huán)磷酰胺治療SSc-ILD療效的評估指標[17]。生物信息學分析結果:SSc-ILD患者肺組織中IL-6基因為低表達,與血清和皮膚組織中IL-6水平升高不符。原因可能有以下幾點:(1)基因和蛋白表達水平可能不同,基因在表達為蛋白的過程中,可能受到轉錄調控、轉錄后調控、翻譯后修飾等調節(jié);(2)生物信息學分析結果可能存在假陽性,與臨床實際結果存在一定的偏差,所以還需要qPCR、WB等分子實驗以及細胞功能和動物實驗模型進一步驗證。
圖 4 DEGs功能富集分析
圖 5 DEGs前20條信號通路富集分析
目前已有研究證實IL-6參與SSc的發(fā)病機制[18],IL-6可以通過促進膠原相關基因表達上調、促進成纖維細胞和肌成纖維細胞增生和分化、抑制T細胞凋亡和調節(jié)Th17細胞與Treg細胞平衡參與前10個節(jié)點的顏色深淺與節(jié)點相關度呈正相關負值代表SSc-ILD組較健康對照組低表達基因肺纖維化過程[18-19]。SSc動物模型發(fā)現,敲除IL-6基因,小鼠肺部炎癥和膠原沉積顯著減輕[14]。并且,目前已有應用IL-6受體單克隆抗體tocilizumab(TCZ)治療SSc的臨床試驗[20-24]。其中一項3期臨床試驗發(fā)現,TCZ可以改善早期和活動期SSc-ILD患者的肺功能[20]。TCZ在治療青少年SSc中也顯示出良好的療效和安全性,可以顯著改善患者的肺功能[24]。TCZ是一種能與IL-6受體結合的IgG抗體[25],通過與IL-6受體結合,阻斷IL-6/STAT3/Smad3軸減輕肺部炎癥和纖維化[26]。
圖 6 DEGs PPI網絡圖
表2 7個Hub基因及TNFAIP3在兩個芯片的表達Table 2 Expression of 7 Hub genes and TNFAIP3 in two data sets
IL-1B是炎癥反應的重要介質,與SSc和肺部病變密切相關。SSc患者血清、支氣管肺泡灌洗液(bronchial alveolar fluid, BAL)中IL-1B水平升高,且與肺功能呈負相關[27-28]。此外,多項研究發(fā)現IL-1B位點單核苷酸多態(tài)性(single nucleotide polymorphisms, SNP)與SSc的易感性密切相關[29-31],其中IL-1B C+3962T SNP與SSc患者肺部受累相關[31]。SSc小鼠模型中,敲除IL-1R或其下游信號分子可以預防肺動脈高壓和纖維化,且重組IL-1R拮抗劑anakinra可以改善小鼠肺纖維化以及肺動脈高壓[32-34]。因此,IL-1B被認為是治療SSc相關肺部疾病的潛在治療選擇。但Birnhuber等[35]研究發(fā)現,體內應用Anakinra會惡化Fra-2TG(一種SSc動物模型)小鼠的肺功能,并導致Th2/促纖維化巨噬細胞軸的激活,從而增加膠原的合成。盡管IL-1B與SSc及其肺部受累有明顯的聯系,但其是否以及如何參與組織重塑和細胞外基質的產生仍不清楚,需要進一步的研究才有可能將其運用于臨床。
圖 7 CTD、GENE、DisGeNET數據庫中SSc/SSc-ILD相關基因與DEGs交集韋恩圖
CXCL8又稱IL-8,是一種趨化因子,參與SSc的發(fā)病機制。與健康對照相比,SSc患者BAL、血清、尿液中IL-8升高,并且與間質性肺病的嚴重程度呈正相關[36-38],這可能是由于SSc患者B細胞亞群分布存在異常,導致IL-8分泌增加[39]。利用波生坦治療SSc可以顯著降低IL-8的蛋白水平,從而減慢SSc纖維化和血管損傷的進程[40]。因此,抑制IL-8的促炎促纖維化作用,有望作為SSc-ILD的治療靶點。
CCL2是一種趨化因子,參與成纖維細胞刺激、肌成纖維細胞分化、T細胞轉運和Th2細胞表型極化過程[19],并通過CCR2上調轉化生長因子β(transforming growth factor β,TGF-β)的表達從而刺激成纖維細胞產生膠原[41]。人類和小鼠研究都表明,CCL2通過一系列涉及炎癥、血管生成和肌纖維母細胞積聚機制促進纖維化[42]。Wu[43]等發(fā)現血清CCL2水平在SSc患者中顯著升高,并與ILD的存在及嚴重程度相關,具有評估SSc-ILD肺功能和存活率的預后價值。此外,SSc-ILD患者BAL中CCL2 mRNA和蛋白水平均顯著高于正常對照組,且BAL中CCL2水平與肺功能參數呈負相關,與CT評分呈正相關[44]。生物信息學分析結果:SSc-ILD患者肺組織CCL2基因為低表達,與血清和BAL中CCL2水平升高不符。原因可能有以下幾點:(1)與樣本取材時間有關,患者可能為治療后緩解者;(2)不同組織中基因或蛋白的表達水平可能不同。
目前已有一項臨床Ⅱ期試驗應用CCL2單克隆抗體(carlumab)治療特發(fā)性肺纖維化,但結果顯示carlumab不能給特發(fā)性纖維化患者帶來益處,并可能惡化患者的肺功能;接受CCL2單克隆抗體治療的受試者,其血清中總CCL2和游離CCL2實際上比安慰劑組受試者高[45]。提示整體阻斷CCL2可能是有害的,因為CCL2可能在其他重要的抗纖維化途徑中發(fā)揮作用。最近的一篇論文表明,CCL2的一個靶點是CCR21+CD41+T細胞。這些T細胞的功能類似于調節(jié)性T細胞,并被發(fā)現在SSc動物模型中發(fā)揮抗纖維化作用[46]。綜上所述,在纖維化的復雜環(huán)境中,中斷單個受體-配體的相互作用可能不足以克服多個競爭和代償途徑的激活。因此需要進一步深入研究CCL2和其他CCR2配體的產生和功能的途徑,才有望將靶向CCL2作為抗纖維化治療的策略。
JUN編碼轉錄因子激活蛋白1(activator protein 1, AP-1),其家族成員包括c-Jun、JunB、JunD、Fra-1、Fra-2和c-Fos,是TGF-β信號通路的下游分子[47]。JunD(-/-)成纖維細胞對TGF-β的反應較弱,在TGF-β刺激后釋放的膠原蛋白較少。此外,JunD(-/-)小鼠可免受博來霉素誘導的纖維化侵害:皮膚增厚減少、成肌纖維細胞數量減少和病變皮膚的膠原蛋白含量降低[48]。在SSc真皮成纖維細胞中,敲低JunB也可以降低響應TGF-β的增強子激活和COL1A2表達;另外,mTOR/Akt信號轉導增加與糖原合酶激酶3β失活有關,會使JunB降解受阻,從而導致I型膠原異常表達[47]。AP-1抑制劑T-5224可通過抑制c-Jun和c-Fos預防博來霉素或攜帶TGF-β信號的腺病毒激活引起的皮膚纖維化,減少SSc成纖維細胞中膠原蛋白的釋放[49]。這些研究表明AP-1在SSc中以TGF-β依賴性方式上調,阻斷AP-1可能是治療SSc的新分子靶標。
PTGS2編碼前列腺素內過氧化物合酶2,又稱環(huán)加氧酶2(cyclooxygenase 2, COX-2),可以調節(jié)肺成纖維細胞分泌前列腺素(prostaglandin E2, PGE2)[50]。SSc-ILD患者血清中COX-2表達下調,導致PGE2合成減少,促進了纖維化,這可能是由于轉錄調節(jié)因子c8orf4的超甲基化,導致其結合肺成纖維細胞中編碼COX-2基因的啟動子后,抑制COX-2的表達[51]。目前已有應用維甲酸治療SSc的報道,其發(fā)揮抗纖維化作用的機制可能正是通過誘導SSc成纖維細胞中COX-2的表達和PGE2的產生,PGE2通過下調結締組織生長因子的表達,導致I型和III型膠原合成受到抑制,從而改善了SSc患者的臨床癥狀[52]。
ICAM1是由IL-1B和TNFα等促炎細胞因子誘導的黏附分子[53],與SSc的發(fā)病機制密切相關。SSc患者血清中ICAM1水平顯著升高,且與肺活量呈負相關[54],與炎癥標志物C反應蛋白、血沉呈正相關[55]。SSc動物模型顯示,血清和肺組織勻漿中ICAM1濃度升高,并與纖維化程度密切相關[56],提示ICAM1可能參與SSc-ILD的發(fā)病機制。生物信息學分析結果:SSc-ILD患者肺組織中ICAM1基因為低表達,與臨床及動物模型實際不符。原因可能有以下幾點:(1)跟患者樣本取材時間有關,患者可能為治療后緩解者;(2)生物信息學分析結果可能存在假陽性,與臨床實際結果存在一定的偏差,所以還需要qPCR、WB等分子實驗以及細胞功能和動物實驗模型進一步驗證。
TNFAIP3編碼A20,這是一種泛素編輯酶,主要通過終止NF-κB的激活負向調節(jié)免疫反應[57]。A20與SSc有密切的遺傳連鎖關系。多項隊列研究發(fā)現A20位點SNP與SSc的易感性密切相關[58-61],并且近年來進行的全基因組關聯研究和免疫芯片研究也證實了TNFAIP3的基因變異與SSc有關[62]。另外一項研究證實A20過表達能夠終止TGF-β誘導的膠原基因表達和肌成纖維細胞轉化,并干擾典型的Smad信號轉導和Smad依賴的轉錄反應,從而負向調節(jié)纖維化反應強度[63]。SSc相關的A20基因變異導致A20表達或功能受損,以及TGF-β在纖維化環(huán)境中對A20的直接抑制,可能在維持纖維化反應中發(fā)揮重要作用,而藥物增強A20抑制通路的活性可能代表一種新的治療策略。
綜上,SSc是一種少見的炎癥性疾病,常并發(fā)ILD,導致患者死亡。SSc-ILD早期診斷和治療的最新進展表明,其迫切需要生物標志物評估總體死亡風險,以及疾病進展和治療反應的可能性。到目前為止,還沒有一個簡單易用的生物標志物評估SSc患者ILD進展的可能性。本實驗從公共數據庫GEO獲取數據,并基于生物信息學分析方法進行研究,發(fā)現IL-6、IL-1B、CXCL8、CCL2、JUN、PTGS2、ICAM1、TNFAIP3與SSc-ILD相關,為尋找SSc-ILD的標志物和治療靶點提供了方向,有助于推進SSc-ILD發(fā)病機制、疾病標志物及相關治療的研究進展。目前已有抗IL-6R單抗和抗CCL2單抗用于治療SSc,但對于SSc-ILD是否有效還需要進一步的臨床試驗證實。另外,將IL-6、IL-1B、CXCL8、CCL2、JUN、PTGS2、ICAM1、TNFAIP3作為SSc-ILD的生物標志物或開發(fā)靶向這些基因的藥物用于治療SSc-ILD也需要進一步的實驗研究探究其具體分子機制。