梅玉潔,賽麥提喀日·阿布都巴日,安恒慶,陶寧,3
1 新疆醫(yī)科大學公共衛(wèi)生學院,烏魯木齊 830017;2 新疆醫(yī)科大學第一附屬醫(yī)院泌尿三科;3 新疆泌尿男生殖系統臨床醫(yī)學研究中心
前列腺癌(PCa)是男性常見的癌癥之一,在全球男性惡性腫瘤中,發(fā)病率排第二[1]。前列腺特異性抗原(PSA)是PCa 早期診斷標志物[2],但是依靠PSA 檢測并不能準確診斷PCa,并且PSA 也與前列腺其他良性疾病有關,常會造成誤診[3]。為了提高PCa 患者的早期診斷率并改善其預后,確定新的有效生物標志物至關重要。加權基因共表達網絡分析(WGCNA)在2005 年由ZHANG 等提出,能夠從大數據中快速地提取與樣本特征相關的基因模塊,以供后續(xù)分析,為尋找疾病相關生物標志物提供了很大便利。因此,本研究采用WGCNA 方法篩選與PCa相關性最高的基因模塊(關鍵基因模塊)及關鍵基因,通過對配對的PCa 組織和正常癌旁組織樣本基因表達分析,進一步篩選其中的PCa 關鍵差異表達基因及預后相關基因,為PCa 患者提供新的研究靶點。
1.1 數據及其來源 從GEO數據庫(https://www.ncbi. nlm. nih. gov/geo/)中,通過以下條件“Prostate cancer”、“Series”、“Homo sapiens”及“Sample count大于15”搜索PCa相關數據集,從中篩選含配對正常癌旁組織的數據集。最后選擇下載了GSE104131 數據集的轉錄組測序標準化后的FPKM 數據及相關資料。GSE104131 數據集是通過平臺GPL16791 Illumina HiSeq 2500(Homo sapiens)測序生成的,包括16 個患者的PCa 組織樣本及其正常癌旁組織樣本,共32個樣本,病種來源于美國。
下載GSE69223 數據集的原始數據和平臺數據。GSE69223 數據集是通過平臺GPL570[HGU133_Plus_2]Affymetrix Human Genome U133 Plus 2.0 Array 生成,包括15 個患者的PCa 組織樣本及其正常癌旁組織樣本,共30個樣本,病種來源于德國。
采用 Rstudio 4. 0 軟件 affy 包處理 GSE69223 數據集的原始數據,獲取探針和樣本的表達矩陣,并利用平臺數據將探針名稱轉換為基因名稱,GSE104131 數據集的FPKM 數據只需提取基因和樣本的表達矩陣,最后對兩個表達矩陣進行l(wèi)og2轉換,后續(xù)分析將處理過的兩個表達矩陣稱為GSE69223數據集和GSE104131數據集。
1.2 PCa 組織關鍵基因模塊的篩選及通路富集分析 在Rstudio 4. 0 軟件中,加載WGCNA 包對GSE104131 數據集進行WGCNA 分析。首先,選擇數據集中基因表達量排名前5 000的基因;然后對數據進行樣本聚類,并去除差異較大的樣本;其次,通過分析每對基因之間的Pearson相關性,生成關系矩陣;最后根據無標度拓撲擬合指數(R2)值和平均連接度,確定最佳軟閾值(β),由此構建WGCNA[4]。
根據基因間的高拓撲重疊度將相似基因合并構建為多個基因模塊,并根據模塊間的協同表達情況對基因模塊進行聚類,合并相似度較高的模塊,計算每個模塊與PCa 之間的相關性,最后選擇和PCa 關聯度最高的基因模塊作為關鍵基因模塊。
在 Rstudio 4. 0 軟件中,加載 clusterprofiler 包對關鍵基因模塊中的基因進行KEGG 分析,觀察關鍵基因模塊的生物信號通路富集情況。
1.3 PCa 組織關鍵基因的篩選 計算關鍵基因模塊中所有基因的基因顯著性(GS)值和模塊身份(MM)值,根據|MM|>0. 8、|GS|>0. 8,篩選出與關鍵基因模塊、PCa 均高度相關的基因作為關鍵基因[4]。GS 代表基因與疾病的相關性,MM 代表基因與模塊的相關性。
1.4 PCa 組織關鍵差異表達基因的篩選 在GSE104131、GSE69223 兩個數據集中通過 t 檢驗或非參數檢驗比較關鍵基因在PCa組織與正常癌旁組織中的表達情況,將差異有統計學意義的關鍵基因作為關鍵差異表達基因。
1.5 PCa 組織預后相關基因的篩選 GEPIA2 數據庫(http://gepia2. cancer-pku. cn/)包括來自TCGA和GTEx 項目的9 736 個腫瘤和8 587 個正常樣本RNA測序表達數據[5],本研究在GEPIA2數據庫中進行Kaplan-Meier 生存分析,根據關鍵差異表達基因表達量的中位數將數據分為高表達組和低表達組,生存指標分別選擇總體生存期(OS)和無病生存期(DFS),數據選擇“PRAD”癌癥選項(PRAD是數據庫中 PCa 的簡稱),共有492 個PCa 樣本,進行生存曲線繪制。選擇兩組生存曲線比較差異有統計學意義的關鍵基因作為PCa組織預后相關基因。
1.6 統計學方法 采用Rstudio 4.0 和SPSS26.0軟件進行統計分析。計量資料中,符合正態(tài)分布采用表示,兩組間比較采用 t 檢驗,否則采用中位數(M)及四分位數(P25,P75)表示,兩組間比較采用非參數檢驗。以P<0.05 為差異有統計學意義。
2.1 PCa 組織關鍵基因模塊及調控的信號通路最終確定了10個基因模塊并進行了顏色編碼,其中灰色模塊是未聚類的基因集(以下分析不關注該模塊)。根據基因模塊與PCa 相關性,棕色、黃色、青色、粉色、綠色、灰色、黑色、紅色、藍色、紫色模塊與PCa 的r 分別為 0.86、0.52、0.43、0.30、0.25、0.21、-0.041、-0.24、-0.49、-0.66,P 分 別 為 <0.01、0.006、0.02、0.1、0.2、0.3、0.8、0.2、0.01、<0.01。棕色模塊與PCa 組織的相關性最高(r=0.86,P<0.01),最終確定棕色模塊為本研究的關鍵基因模塊,其中包含789個基因。
關鍵基因模塊內的基因主要富集于內質網中的蛋白質加工通路。
2.2 PCa 組織關鍵基因 關鍵基因模塊中,|MM|>0.8、|GS|>0. 8 的基因有 14 個,分別是 P4HB、ERGIC1、FOXA1、RP11-498C9.2、HNRNPF、CANT1、SYNGR2、HID1、EIF2AK1、MARCKSL1、NME1、ST14、HPN、RAB3D,將這14 個基因作為PCa 組織的關鍵基因。
2.3 PCa 組織關鍵差異表達基因 GSE104131 數據集中,PCa 組織中關鍵基因 P4HB、ERGIC1、FOXA1、RP11-498C9.2、HNRNPF、CANT1、SYNGR2、HID1、EIF2AK1、MARCKSL1、NME1、ST14、HPN、RAB3D 相 對 表 達 量 分 別 為 7.01 ± 0.30、5.97 ± 0.36、5.83 ± 0.34、5.68 ± 0.31、4.64 ±0.33、4.60 ± 0.34、4.43 ± 0.25、4.22 ± 0.42、3.79 ± 0.30、4.10 ± 0.52、3.90 ± 0.31、3.88 ±0.43、4.21± 0.71、3.20± 0.31,正常癌旁組織中分別為 5.73 ± 0.37、4.80 ± 0.33、4.67 ± 0.42、4.52 ±0.39、3.88 ± 0.24、3.38 ± 0.38、3.32 ± 0.35、2.99 ± 0.48、2.98 ± 0.24、2.64 ± 0.56、2.77 ±0.37、2.52 ± 0.39、1.54 ± 0.72、2.26 ± 0.41,與正常癌旁組織比較,關鍵基因在PCa 組織中表達水平均 升 高(t 分 別 為 9.811、8.788、7.809、8.557、6.839、8.802、9.417、7.021、7.752、7.027、8.554、8.631、9.703、6.681,P均<0.001)。
GSE69223 數據集中,PCa 組織中關鍵基因P4HB、ERGIC1、FOXA1、HNRNPF、CANT1、SYNGR2、HID1、EIF2AK1、MARCKSL1、NME1、ST14、HPN、RAB3D 相 對 表 達 量 分 別 為 11.12[10.91,11.43]、8.87 ± 0.33、9.68 ± 0.29、8.00[7.80,8.20]、10.08 ± 0.27、7.52 ± 0.29、7.07 ± 0.34、7.95[7.69,8.50]、11.42 ± 0.52、9.88 ± 0.37、7.16±0.24、9.11±0.79、7.69±0.34,正常癌旁組織中分別為 10.11[9.82,10.76]、7.97 ± 0.54、7.89 ± 0.88、7.83[7.54,7.70]、8.87 ± 0.68、6.63 ± 0.39、6.13 ± 0.52、7.77[7.44,7.92]、10.02 ± 0.55、8.90 ± 0.38、6.21 ± 0.42、6.25 ±1.07、6.78±0.45,與正常癌旁組織比較,關鍵基因在PCa 組織中表達水平均升高(t/z 分別為3.712、5.532、7.484、2.053、6.378、7.030、5.846、2.717、7.222、7.108、7.654、8.336、6.283,HNRNPF:P=0.04,EIF2AK1:P=0.006,其 余 P 值 均 <0.001)。RP11-498C9.2 在該數據集中未出現,故未做比較分析。
最終確定14 個關鍵基因均為PCa 組織的關鍵差異表達基因。
2.4 PCa組織預后相關基因 P4HB、ERGIC1 以及RP11-498C9.2 高表達較低表達的患者DFS 更長(Log rank P 分別為0.018,0.029,0.024),HNRNPF低表達患者較高表達的患者OS 更長(Logrank P=0.03),其余基因兩組患者DFS 或OS 預后差異無統計學意義(P>0.05)。最終確定P4HB、ERGIC1、RP11-498C9.2、HNRNPF 為 PCa 組織預后相關基因。
RNA 測序目前是分子生物學領域最常用的工具,為研究者們提供了極大的便利,這推動了對PCa 早期診斷和治療靶點的研究。但是目前,PCa進展中的病因和早期事件仍不清楚,并且多種因素可能促成其發(fā)展。本研究對PCa 組織樣本基因進行了WGCNA 分析,獲得了與PCa 關聯最強的基因模塊,并且通過富集分析顯示內質網中的蛋白質加工通路在該模塊中被顯著富集,與文獻報道[6]一致。
隨后,我們進一步分析發(fā)現了與PCa 患者相關的14個關鍵基因,且與正常癌旁組織相比,均在PCa組織中高表達。其中,P4HB 是一種自噬相關基因,自噬對腫瘤既有抑制作用也有促進作用,正常情況下,可在腫瘤早期抑制細胞癌變,但形成腫瘤后,自噬會維持促進腫瘤的發(fā)展[7]。有研究[8]報道,P4HB的敲低顯著抑制了膀胱癌細胞的侵襲和增殖,P4HB的沉默抑制了體內肝細胞癌發(fā)生[9],我們在PCa 組織中也發(fā)現P4HB 高表達,下調P4HB 是否會影響PCa 的發(fā)展還有待研究。ERGIC1 是一種循環(huán)膜蛋白,與內質網密切相關,其表達異常會導致內質網功能障礙,進而可能對癌細胞造成影響[10],例如,可能會發(fā)生內質網應激(ERS)障礙,而腫瘤會根據ERS不同的調節(jié)作用而發(fā)生抑制或增殖等變化[11]。ERGIC1 對不同腫瘤影響也不同,低表達可能對胃癌的發(fā)生和進展起到促進作用[12],但在PCa 中沉默ERGIC1 對腫瘤有抑制作用[13]。RP11-498C9.2 是RP11家族的一位成員,其家族不同成員對惡性腫瘤有不同影響,上調RP11-468E2.5可抑制結直腸癌細胞增殖[14],下調 RP11-295G20.2 可抑制體內肝細胞癌生長[15],敲低 RP11-567G11.1 可減弱腎細胞癌細胞的增殖和侵襲能力[16],本研究中RP11-498C9.2在PCa 組織中高表達,具體機制需做進一步分析。HNRNPF 屬于異質核核糖核蛋白(hnRNPs)亞家族,在基因表達和信號轉導中起著重要作用,hnRNPs與癌癥相關[17],HNRNPF也可能與致癌過程有關[18],有研究[19-20]發(fā)現,HNRNPF 在膠質瘤、膀胱癌中過表達,敲低HNRNPF 可抑制膠質瘤和膀胱癌細胞的增殖,HNRNPF 與 PCa 也有一定聯系,在 PCa 中高表達[21],本研究結果與其相同。Rab3D,是 Rab3 亞型中的一個,該亞型在乳腺、結腸、食道、皮膚和腦腫瘤中起致癌作用,上調Rab3D 會促進腫瘤細胞的增殖[22]。HID1可編碼一種與運輸相關的蛋白質,有研究發(fā)現HID1 與無功能垂體腺瘤有關[23],而在乳腺癌,宮頸癌,肺癌,甲狀腺癌和胃腸道癌細胞系中表達 喪 失[24]。 EIF2AK1 是 一 種 EIF2S1 激 酶 ,介 導EIF2S1 磷酸化,與子宮內膜癌發(fā)生相關[25]。SYNGR2 是突觸腦蛋白家族成員,可參與區(qū)分良性和惡性甲狀腺腫瘤[26]。已有研究[27-31]發(fā)現,FOXA1、CANT1、MARCKSL1、NME1、HPN 以及 ST14 與 PCa的發(fā)病和進展有關,參與了不同機制影響PCa 的發(fā)生發(fā)展,而其余關鍵差異表達基因與其他癌癥有一定關系,但與PCa 的關系尚不清楚,可進行深入探索。
最后,我們篩選出了4 個與PCa 預后相關的基因。其中,P4HB與PCa的DFS相關,其高表達的患者預后較好,有研究[32]也發(fā)現P4HB與PCa的DFS顯著相關,高表達的患者預后更佳,但在其他癌癥研究中,其高表達的患者預后更差[33-34],這可能與自噬的雙向作用相關。本研究發(fā)現,ERGIC1 高表達的PCa患者預后更佳,與文獻[11]報道一致。在本研究中,RP11-498C9.2 低表達 PCa 患者的DFS 預后較差,RP11-468e2.5、RP11-783K16.13、RP11-631N16.4、RP11-1109F11.5、RP11-228B15.4、RP11-496I9.1 及RP11-95O2.5 高表達的組織 DFS 延長[35],目前還沒有RP11-498C9.2 與PCa 間關系的研究報道。HNRNPF及其家族hnRNPs在不同癌癥中預后不同,大多數hnRNPs 與腎上腺皮質癌、肝細胞癌和肺腺癌的較差生存率相關,與腎透明細胞癌和胸腺瘤的預后更好也有關[19],而在本研究中,HNRNPF高表達PCa患者OS更短。
總之,本研究通過公共數據庫發(fā)現了14 個PCa的關鍵差異表達基因,其中P4HB、ERGIC1、RP11-498C9.2 及 HNRNPF 與 PCa 預后相關,為 PCa 的研究提供了新的方向,也有助于確定潛在的新藥靶點。