• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      基于生物信息學方法識別肺腺癌預后相關基因及預后風險模型的構建①

      2022-01-06 06:45:26劉少博
      中國免疫學雜志 2021年23期
      關鍵詞:差異基因腺癌肺癌

      劉少博 黃 波

      (錦州醫(yī)科大學附屬第一醫(yī)院胸外科,錦州 121000)

      肺癌是全球范圍內發(fā)病率和病死率最高的惡性腫瘤,在我國,肺癌在所有男性惡性腫瘤中發(fā)病率和病死率均位列第一,在所有女性惡性腫瘤中發(fā)病率位列第二,僅次于乳腺,病死率則位列第一[1]。肺腺癌(lung adenocarcinoma,LUAD)是目前肺癌最常見的病理類型,目前肺腺癌的發(fā)生率逐年增加,呈現(xiàn)出年輕化的趨勢,疾病初期癥狀少,發(fā)病迅速,病死率高且預后差,多數(shù)患者被診斷時已經(jīng)處于晚期[2-3]。當今精準醫(yī)學的發(fā)展使基因層面的治療更加精準,通過對肺腺癌患者進行基因檢測,已發(fā)現(xiàn)最常見的肺癌驅動基因有EGFR、ALK、ROS1 和BRAF[4]。在患小細胞肺癌的亞洲人中,EGFR 突變率可達35%~40%,基于此,近年來基因靶向治療藥物如吉非替尼、厄洛替尼和克唑替尼等廣泛用于臨床治療,免疫治療如免疫檢查點抑制劑PD-1/PD-L1也可通過對免疫檢查點的抑制來治療癌癥,對患者的生存時間及生存質量有一定的提高[5]。不幸的是,肺腺癌的預后仍然很差,因此探索新的生物標志物和預后基因成為精密醫(yī)學時代的研究趨勢。

      目前,醫(yī)療技術和分子生物學技術都有了很大的發(fā)展,隨著基因組微陣列和高通量測序技術的進步以及結合生物信息學分析為研究腫瘤的發(fā)生發(fā)展提供了有效方法,基因芯片和RNA 測序的廣泛應用也極大豐富了腫瘤的相關數(shù)據(jù)。一些基于大規(guī)模、全基因組相關聯(lián)的數(shù)據(jù)庫也促進了新生標志物的發(fā)現(xiàn),最常見的當屬GEO和TCGA數(shù)據(jù)庫,高通量基因表達數(shù)據(jù)庫(gene expression omnibus,GEO)由美國國立生物技術信息中心(NCBI)于2000 年創(chuàng)建并維護的基因表達數(shù)據(jù)(http:www.ncbi.nlm.nih.gov/geo),收錄全世界高通量基因組數(shù)據(jù)。人類癌癥基因組圖譜(The Cancer Genome Atlas,TCGA)(http://cancergenome.nih.gov/),包括33 種腫瘤的臨床隨訪數(shù)據(jù)和基因組學數(shù)據(jù),因為不同公共數(shù)據(jù)庫的內容或多或少存在一定異質性,綜合多個數(shù)據(jù)庫進行生物信息學分析便可以減少樣本的異質性和平臺差異性,將多個平臺的不同微陣列數(shù)據(jù)進行聯(lián)合分析也可以獲得更加豐富的臨床數(shù)據(jù)。本研究通過一定篩選條件從GEO 數(shù)據(jù)庫下載3 個數(shù)據(jù)集,結合TCGA 肺腺癌數(shù)據(jù)集進行差異基因的篩選,并對差異基因進行加權基因共表達網(wǎng)絡分析、富集分析、表達差異分析、生存分析等,為探討肺腺癌預后相關基因的篩選提供理論依據(jù)。

      1 材料與方法

      1.1 芯片數(shù)據(jù)獲取 在GEO 數(shù)據(jù)庫的檢索框里輸入關鍵詞“l(fā)ung cancer”“l(fā)ung adenocarcinoma”,條件為“homo sapiens”“expression profiling by array”。篩選標準:①標本為LUAD 組織和對應的癌旁組織;②每個芯片數(shù)據(jù)集都包含MRNA 且數(shù)量不少于25 對,從其中選出3 組符合標準的基因表達譜數(shù)據(jù)(GSE43458、GSE27262、GSE10072)[6]。另外在TCGA數(shù)據(jù)庫中,選擇數(shù)據(jù)類別為轉錄組數(shù)據(jù)(transcriptome profiling)和原始數(shù)據(jù)(raw counts),包括535 個原發(fā)性肺腺癌樣本和59 個正常樣本(表1),然后從TCGA下載533例包括性別、年齡、生存時間、生存狀態(tài)、病理分期等與之對應的臨床信息用于后續(xù)分析。

      表1 基因芯片基本信息Tab.1 Basic information of gene chip

      1.2 數(shù)據(jù)預處理和差異表達基因的篩選 對TCGA及GEO 的數(shù)據(jù)集均使用R 軟件進行處理,如果多個探針對應同一個基因,則表達的平均值被認為是該基因的表達水平,采用Benjamini-Hochberg 方法調整P值,以控制錯誤發(fā)現(xiàn)率(FDR)。首先對GEO 數(shù)據(jù)集進行預處理,采用Perl 語言對3 組原始數(shù)據(jù)集(GSE43458、GSE27263、GSE10072)進行矩陣的合并,接下來對合并后的原始數(shù)據(jù)采用R 語言中Bioconductor 的R 包“Affy”中魯棒多芯片平均 算 法(RMA)(robust multichip average algorithm)進行背景矯正、標準化和以2 為底的對數(shù)轉換,然后利用R 軟件包SVA 的combat 函數(shù)進行批次矯正,對去除批次效應前后的數(shù)據(jù)表達分別進行箱線圖的繪制[7]。從TCGA 數(shù)據(jù)庫中下載的原始數(shù)據(jù)去除重復基因及其表達量之后,利用R 軟件edgeR 包的CPM 函數(shù)進行數(shù)據(jù)的矯正及標準化處理[8],刪除CPM(每百萬堿基中每個轉錄本count 值)均值<1 的樣本,并進行以2為底數(shù)的轉換。然后對以上預處理過的兩組數(shù)據(jù)集分別使用R 軟件包Limma 篩選差異基因[9],篩選標準為:|log2(fold-change)|>1 以及矯正后P值(false discovery rate,F(xiàn)DR)<0.05,對TCGA 和GEO 篩選出的差異基因分別利用R 語言“gplots”程序包中的“heatmap.2”函數(shù)對正常肺組織樣本和腫瘤樣本繪制聚類熱圖。利用火山圖來觀察FDR 和差異變化倍數(shù)之間的關系,并對求出的GEO和TCGA數(shù)據(jù)庫的差異基因通過在線網(wǎng)頁工具繪制韋恩圖(http://bioinformatics.psb.ugent.be/webtools/Venn),獲取兩者共同表達的上調和下調的差異基因。

      1.3 差異基因的富集分析 為了探索肺腺癌發(fā)生發(fā)展的機制,利用基因功能分析(基因本體論,gene ontology,GO)與通路分析(京都基因與基因組百科全書Kyoto encyclopedia of genes and genomes,KEGG)對基因產物功能進行詳細的生物學注釋和描述。GO涵蓋了分子生物學功能(molecular function,MF)、細胞學組分(cellular components,CC)和生物學過程(biological process,BP),通過富集分析的形式全面概括了給定基因的功能信息[10]。KEGG 是整合基因組、化學和系統(tǒng)功能信息并從基因和分子網(wǎng)絡方面系統(tǒng)性分析基因功能的一個數(shù)據(jù)庫,通常用于識別功能和代謝途徑[11]。DAVID 在線分析平臺(https://david.ncifcrf.gov/)是一個生物信息數(shù)據(jù)庫,為大規(guī)模的基因或蛋白列表提供系統(tǒng)綜合的生物功能注釋,用于從多個基因和蛋白質集合中提取比較有意義的生物信息,使用DAVID 分別分析了上調和下調的基因在GO中的注釋并利用KEGG進行通路分析,設定P<0.05為顯著性基因富集。

      1.4 蛋白互作網(wǎng)絡的構建與分析 String 數(shù)據(jù)庫(http://string-db.org/)是一個搜索已知蛋白質之間和預測蛋白質之間相互作用的數(shù)據(jù)庫[12],在STRING 在線數(shù)據(jù)庫中對TCGA 和GEO 數(shù)據(jù)庫共有的DEGS 進行了蛋白質-蛋白質相互作用(proteinprotein interaction,PPI)網(wǎng)絡分析,并將置信分數(shù)>0.9 設置為截止標準,然后將PPI 網(wǎng)絡的信息導入Cytoscape 3.6.0(http://www.cytoscape.org/)中使其可視化。Cytoscape 作為生物信息分析的開源軟件工具之一,用于可視化探索由蛋白質、基因和其他類型相互作用組成的生物互助網(wǎng)絡,是生物信息學研究的重要工具之一[13]。使用Cytoscape 的插件Cytohubba 其中的5 種方法從DEGS 的PPI 網(wǎng)絡中篩選中樞基因,包括EPC(邊緣滲透成分)、MCC(最大團中心性)、MNC(最大鄰域成分)、Degree(節(jié)點連接度)和Closeness(節(jié)點連接緊密度),挑選在5種計算指標得分均出現(xiàn)的基因作為中樞基因。另外通過插件MCODE(molecular complex detection)發(fā)掘肺腺癌PPI網(wǎng)絡中不同功能的基因模塊,篩選標準設定為:Degree Cutoff=2、Node Score Cutoff=0.2、K-Core=2、Max Depth=100。篩選出其中最顯著的模塊,MCODE是通過蛋白質復合物聚類找到緊密連接的部分,從而篩選出差異基因的基因功能模塊[14],隨后運用DAVID 對最顯著模塊中的基因進行GO 和KEGG分析。

      1.5 TCGA 數(shù)據(jù)集DEGS 的WGCNA 分析及關鍵基因的確定 加權基因共表達網(wǎng)絡分析(WGCNA)是從全基因組表達中理解基因功能和基因關聯(lián)的一種重要方法,可用于檢測高度相關基因的共表達模塊(module-membership,MM)以及與臨床特征相關的模塊(gene-significance,GS),為預測共表達基因的功能和發(fā)現(xiàn)在人類疾病中起關鍵作用的基因提供了很好的見解[15-17]。此外,轉錄組學中另一個強大的分析是差異基因表達分析,它為研究基因組調控的分子機制和發(fā)現(xiàn)實驗組與對照組之間表達水平的定量變化提供了方法,這種基因表達的差異可以發(fā)現(xiàn)特定疾病的潛在生物標志物[18]。因此,采用兩種方法,將WGCNA 和差異基因表達分析的結果結合起來,可以高度提高相關基因的識別能力。使用R 軟件WGCNA 包[19]對TCGA 數(shù)據(jù)集的差異基因構建共表達網(wǎng)絡,首先計算差異基因各個基因之間的Pearson 系數(shù)使其轉化為相似矩陣,通過WGCNA包的pick soft threshold 函數(shù)自動進行網(wǎng)絡拓撲分析選擇軟閾值β,β 可以強調基因之間強弱相關性。確定β 后相似矩陣轉化為鄰接矩陣,再將鄰接矩陣轉換為拓撲重疊矩陣(TOM),設置模塊最小基因數(shù)為50,剪切高度為0.25,通過層次聚類使表達相近的基因置于同一基因模塊,并將閾值設置為20 000以消除異常值,利用動態(tài)混合切割方法,將表達模式類似的基因分到不同的模塊中。得到這些數(shù)據(jù)后,計算基因模塊和表型(癌組織和正常樣本)的Pearson 相關系數(shù),選擇與腫瘤發(fā)生密切相關的基因模塊,用GO和KEGG分析挖掘目標模塊所參與的生物學功能,然后利用基因和模塊的相關性和基因與臨床性狀的相關性進行顯著模塊核心基因的挖掘。如果模塊中一個基因同時具有較大的MM和GS,則該基因被認為是模塊中的核心基因,將MM>0.7 和GS>0.35 定義為候選的核心基因,然后利用Cytohubba 篩選的中樞基因與模塊篩選的核心基因取交集,并將交集中的基因定義為最終的關鍵基因。

      1.6 關鍵基因的生存分析及差異分析的表達Kaplan-Meier plotter 是基于EGA、TCGA 和GEO 數(shù)據(jù)庫評估大量基因對生存影響的常用網(wǎng)站工具,利用Kaplan-Meier plotter 驗證9 個關鍵基因與肺癌患者預后總生存率的關系。GEPIA(http://gepia.cancer-pku.cn/)是一個在線的基因表達譜動態(tài)數(shù)據(jù)分析數(shù)據(jù)庫,可用于分析癌癥和正常組織之間的表達差異以及總生存率,進一步驗證關鍵基因的mRNA表達水平[20]。HPA(https://www.proteinatlas.org/)提供了大量人類蛋白質的表達譜,呈現(xiàn)為大多數(shù)人類組織的免疫組織化學(IHC)等實驗數(shù)據(jù)的蛋白質表達譜數(shù)據(jù)庫[21]。用免疫組化法(IHC)從人蛋白圖譜數(shù)據(jù)庫(HPA)中檢測肺腺癌與正常組織之間生存相關基因的蛋白表達。

      1.7 預后模型的構建和驗證 Cox 回歸模型是一種以生存時間和生存結局為變量,可同時分析多種因素對生存期影響的半?yún)?shù)回歸模型,將從TCGA網(wǎng)站下載的患者臨床數(shù)據(jù),去除總生存率缺少的數(shù)據(jù)后將表達和生存數(shù)據(jù)合并,然后將數(shù)據(jù)集隨機平均分為訓練集和驗證集,使用訓練集建立模型并在驗證集進行驗證,將篩選的GEO 樣本和TCGA 樣本均存在差異的479 個基因,利用訓練集中的生存數(shù)據(jù)使用R 軟件“survival”生存分析軟件包進行單變量Cox比例風險回歸分析得到與預后顯著相關的基因(P<0.01)[22],然后通過glmnet 程序包以生存狀態(tài)為應變量,篩選出的基因表達值作為反應變量進行1 000 次Lasso 回歸分析對基因個數(shù)進行降維處理,從而降低模型的誤差獲得廣義的線性模型[23],而后進行多因素Cox 比例風險回歸分析,獲得風險基因并構建風險預后模型[24]。該模型使用疾病風險評分作為預后狀態(tài)的預測因子,疾病風險評分由多變量Cox 比例風險回歸分析的參數(shù)β 和樣本中每個基因的表達量確定[25]。利用預后模型分別對驗證集和訓練集進行風險評分的計算,依據(jù)風險指數(shù)的中位數(shù)分別將驗證集和訓練集分為高、低風險組,結合生存信息繪制生存曲線得出高、低風險表達生存狀況,評價模型預測效果是否顯著(P<0.05),在這個過程中使用的統(tǒng)計方法是對數(shù)秩檢驗。使用R軟件“survival ROC”包計算時間依賴的受試者工作曲線(ROC 曲線)評估回歸模型在1 年、3 年、5 年生存期的預測能力[26],AUC>0.5時而且越接近1,預后越好。利用生存時間和基因風險模型分別繪制散點圖和高低風險熱圖,并通過驗證集驗證回歸模型在預測肺腺癌患者生存預后的價值和穩(wěn)定性,以此來證明得到的風險評分是合理的。此外,為了使模型更有效地應用于臨床過程,將臨床信息(性別、年齡、分期)納入預后模型,剔除臨床資料缺失的樣本,共獲得480份樣本,利用這些樣本風險評分和臨床信息進行列線圖的繪制。

      2 結果

      2.1 篩選差異表達基因 經(jīng)過對3 組GEO 基因芯片進行合并及數(shù)據(jù)標準化之后共有104個正常肺樣本和163 個肺腺癌樣本,進行批次矯正用以消除GSE43458、GSE27262 和GSE10072 的批次效應(圖1A),然后在合并后的GEO 微陣列數(shù)據(jù)集中得到337 個顯著下調基因和154 個顯著上調基因(圖1B、C),從包含59 個正常樣本和535 個肺腺癌樣本的TCGA 數(shù)據(jù)集中得到2 101 個下調基因1 481 個上調基因(圖1E、F)。將兩個數(shù)據(jù)集取交集得到148 個上調基因和331個下調基因(圖1D)。

      圖1 差異表達基因熱圖及火山圖Fig.1 Heatmap and volcano map of DEGs

      2.2 差異基因的GO 及KEGG 分析 將篩選出的479 個差異基因通過DAVID 進行功能和途徑的富集,利用GO 分析,將所有差異基因同時富集到BP、CC、MF 這3 種生物學關系中,結果表明:148 個上調的差異基因主要參與核分裂、有絲分裂姐妹染色單體分離、核仁染色體分離以及細胞外基質組織等生物過程,其產物主要參與有絲分裂的紡錘體、膠原三聚體復合體、中間體、染色體上的著絲粒等細胞組分,發(fā)揮絲氨酸內肽酶活性、血小板衍生生長因子結合、蛋白酶結合、金屬內肽酶活性、糖胺聚糖結合、絲氨酸水解酶及肽酶活性等生物學分子功能(圖2A)。涉及的信號通路主要包括:細胞周期、蛋白質的消化吸收、ECM-受體相互作用、P53 信號通路、卵母細胞的減數(shù)分裂、孕酮介導的卵母細胞成熟、IL-17 和松弛素信號通路等(圖2B)。331 個下調的DEGs 涉及的生物學過程主要包括:血管系統(tǒng)發(fā)育生成的調節(jié)、阿米巴樣細胞遷移、細胞-基質黏附、組織和上皮細胞的遷移、負調控生長以及對糖皮質激素的反應;涉及的細胞學組分主要包括:含膠原蛋白的細胞外基質、細胞-細胞連接、膜筏、質膜的外側、黏著斑、細胞-底物連接、血小板α 顆粒等;參與的分子生物學功能主要包括:酰胺結合、肽結合、糖胺聚糖結合、細胞因子結合、生長因子結合、跨膜受體蛋白激酶活性、淀粉樣蛋白-β 結合、轉化生長因子-β 結合、跨膜受體蛋白絲氨酸/蘇氨酸激酶活性(圖2C)。KEGG 信號通路主要包括細胞因子-細胞因子受體相互作用、細胞黏附分子、血管平滑肌收縮、補體和凝血級聯(lián)、cAMP信號通路等(圖2D)。

      圖2 差異基因的GO和KEGG富集分析Fig.2 Enrichment analysis of differentially expressed genes by GO and KEGG

      2.3 蛋白互助網(wǎng)絡的構建及中樞基因鑒定 基于String 數(shù)據(jù)庫利用Cytoscape 軟件對差異表達基因進行PPI網(wǎng)絡的構建(圖3A),包括478個節(jié)點和816個邊緣,首先使用5 種方法分析前30 位基因,取共有的基因為LUAD 的中樞基因,得到的19 個中樞基因分別為:ASPM、AURKA、CENPF、CEP55、DLGAP5、KIF4A、MELK、NCAPG、NDC80、NEK2、NUSAP1、PBK、PRC1、PTTG1、RRM2、TOP2A、TTK、KIF20A 和TPX2(表2)。利用Cytoscape 的插件MCODE 獲得最顯著的模塊(圖3B),可見中樞基因都位于最顯著模塊而且都為上調基因。GO 富集分析表明,在生物過程中,該模塊的基因主要在細胞分裂和有絲分裂核分裂以及染色體分離中富集;細胞組分分析表明,基因在紡錘體、染色體、中間體中明顯富集;分子功能分析表明,這些基因主要參與ATP 和部分蛋白質的結合(圖3C)。KEGG 分析表明這些基因主要參與細胞周期和卵母細胞減數(shù)分裂(圖3D)。

      表2 多種CytoHubba方法中樞基因的排序Tab.2 Sequencing of central genes by various cytohubba methods

      圖3 蛋白互助網(wǎng)絡的可視化及最顯著模塊的分析Fig.3 Visualization of PPI network and analysis of most significant modules

      2.4 關鍵基因的篩選 利用TCGA 數(shù)據(jù)集中提取的3 582個差異基因表達譜,選取軟閾值β=3建立基因調控網(wǎng)絡(圖4D),結果顯示綠松石色模塊與正常樣本表型相關系數(shù)最大為0.82,藍色模塊與肺腺癌樣本表型相關系數(shù)最大為0.54(圖4A),另外根據(jù)各模塊間的Pearson 相關系數(shù)也發(fā)現(xiàn)藍色和綠松石色一致性最大,因此選擇藍色模塊為目的模塊,模塊中MM>0.7 和GS>0.35 的基因定義為核心基因,綠松石色和藍色基因分布如圖4B、C。另外,經(jīng)過cytoscape篩選的19個中樞基因均位于藍色模塊,GO(圖4E)和KEGG(圖4F)分析結果表明,藍色模塊與有絲分裂、染色體分離、細胞周期、DNA 的轉錄復制、p53 信號通路以及卵母細胞的減數(shù)分裂等關系更為密切,可能與癌細胞過度增殖有關,其模塊內的基因可能對藥物開發(fā)有重要的作用。核心基因和PPI網(wǎng)絡中識別的中樞基因共有的基因作為最終的關鍵基因,分別為ASPM、CEP55、DLGAP5、KIF4A、MELK、NEK2、RRM2、TOP2A、TPX2。

      圖4 WGCNA分析與最顯著模塊基因富集分析Fig.4 WGCNA analysis and most significant module gene enrichment analysis

      2.5 關鍵基因的預后分析及表達差異 在PPI 網(wǎng)絡和WGCNA 共同篩選獲得了9 個關鍵基因,這些基因可能在肺腺癌的發(fā)生發(fā)展進程中起關鍵作用,利用Kaplan-Meier 曲線分析得出這9 個關鍵基因對患者的總生存時間有著顯著影響(P<0.01,圖5),為了進一步驗證,利用人類蛋白圖譜數(shù)據(jù)庫獲得癌癥和正常組織中9種基因蛋白水平的免疫組織化學染色圖像,結果表明除ASPM 無相關數(shù)據(jù)之外,其余基因在LUAD 中均有顯著上調(圖6A),另外通過GEPIA 數(shù)據(jù)庫分析上述基因在基因水平上肺腺癌與癌旁樣本之間均存在顯著差異且均在肺腺癌組織中呈現(xiàn)高表達狀態(tài)(圖6B),進一步說明這些基因在肺腺癌的發(fā)生發(fā)展中有一定作用,提示這些基因可能成為預后的分子標志物和治療靶點。

      圖5 9個hub基因的總生存率(OS)分析Fig.5 Overall survival(OS)analysis of 9 hub genes

      圖6 驗證核心基因表達水平Fig.6 Validate expression level of critical genes

      2.6 預后模型的構建 將表達和生存數(shù)據(jù)合并后的494 個TCGA 數(shù)據(jù)集樣本分為訓練集和驗證集,為保證能預測出有效的預后模型,首先使用訓練集的生存數(shù)據(jù)對479 個差異基因進行單因素Cox 比例風險回歸分析,共鑒定出34個對預后有顯著影響的基因(P<0.01),然后通過Lasso 回歸分析,可以得到19 個基因進行后續(xù)分析,進一步使用多變量Cox 比例風險回歸分析,共獲得12 個風險基因(圖7A),分別 為CA4、ENO1、FBLN5、FZD4、INAVA、NEK2、RRAS、SEMA5A、TIMP1、TMPRSS11E、EFNB2、AKAP12,進行風險預后模型的構建,即Risk score=(0.001×ENO1)-(0.208×CA4)+(0.006×FBLN5)+(0.041×FZD4)+(0.055×INAVA)+(0.075×NEK2)+(0.006×RRAS)+(0.083×SEMA5A)+(0.001×TIMP1)+(0.013×TMPRSS11E)+(0.018×EFNB2)+(0.006×AKAP12),通過風險得分算出高低風險組,分別在訓練集和驗證集進行生存分析,得出低風險組的患者生存狀況明顯優(yōu)于高風險組(圖7B、C)。使用ROC 曲線對模型的預測性能進行評估,結果可見:訓練集中使用ROC 曲線對風險模型的預測AUC 分別為0.785、0.748、0.771(圖7D~F),驗證集中得出AUC 分別為0.736、0.706、0.621(圖7G~I),另外可從生存時間和風險評分繪制的散點圖中看出,隨著風險得分的增加,死亡的患者也增加,存活時間相對減少,由此可見模型有相對較好的預測能力(圖8)。

      圖7 基因風險模型的構建Fig.7 Construction of gene risk model

      圖8 風險模型得分與生存時間、臨床信息的關系Fig.8 Relationship between risk model score and survival time and clinical information

      3 討論

      腫瘤的發(fā)生發(fā)展涉及多個環(huán)節(jié)、因素和階段,而細胞周期的改變是驅使細胞向惡性轉化的關鍵一步,只有突破細胞周期的調控才可以抑制腫瘤的發(fā)生發(fā)展。隨著高通量測序技術和基因微陣列的高速發(fā)展,可以檢測到一些基因的改變與疾病的關系,為疾病的診斷及預后提供一定的理論幫助,由于不同平臺或者數(shù)據(jù)集中小樣本會存在局限性,本文通過多個數(shù)據(jù)集進行整合,分別通過PPI 網(wǎng)絡和WGCNA 共表達分析進行關鍵基因的挖掘,PPI 網(wǎng)絡是基于互助的蛋白質網(wǎng)絡,WGCNA 是基于基因之間的相關性構造的網(wǎng)絡,兩者相結合為新的預后基因的篩選提供了巨大潛能,首先對3 組GEO 數(shù)據(jù)集和TCGA 數(shù)據(jù)集進行標準化處理,之后將3 組GEO數(shù)據(jù)集進行合并和批次矯正。通過生物信息學分析,共得到479 個差異基因(上調148 個、下調331 個),GO 分析表明主要與細胞分裂增殖、周期調控、減數(shù)分裂和有絲分裂核分裂以及染色體分離等生物過程相關,主要參與組成紡錘體、染色體、中間體等細胞組分并參與ATP 和部分蛋白質的結合;KEGG 分析表明這些基因主要參與細胞周期和卵母細胞減數(shù)分裂。最終確定了9 個與LUAD 患者預后明顯相關的關鍵基因,分別為ASPM、CEP55、DLGAP5、KIF4A、MELK、NEK2、RRM2、TOP2A、TPX2。

      細胞增殖是癌癥的特征,而惡性表型特征不受控制的基礎就是細胞周期的去調控,癌癥遺傳學已經(jīng)表明,生長信號網(wǎng)絡中的過度激活突變,加上腫瘤抑制蛋白功能的喪失,推動了癌基因的增殖,細胞周期引擎位于復雜的致癌信號網(wǎng)絡的匯合點下游,是腫瘤診斷和治療的重要靶點,它的失控是所有癌癥細胞異常增殖的核心[27]。9 個關鍵基因多通過紡錘體和中心體形成來參與影響細胞周期的進程,在人類多種惡性腫瘤中發(fā)現(xiàn)了異常表達水平,有可能成為抗癌治療的靶點。人類異常紡錘體樣小頭畸形相關蛋白ASPM 產物多位于紡錘體和中心體,主要使細胞有絲分裂時紡錘體向兩極運動,并且維持細胞質的均等分裂[28],在多種癌癥中高表達。相關研究顯示ASPM 在膠質母細胞瘤、前列腺癌中的表達水平與腫瘤的病理分級及臨床分期密切相關[29]。最新研究顯示ASPM 在肺腺癌中高表達,并與生存率、臨床分期及預后相關[30]。中心體相關蛋白CEP55 主要功能為錨定微管聚合相關蛋白和參與紡錘體形成,并與中心體相偶聯(lián),磷酸化后發(fā)揮調控細胞周期的作用,達到對細胞增殖的調控[31-32],研究表明CEP55 的高表達可以促進癌癥的增殖、遷移和侵襲,例如乳腺癌,前列腺癌,腎癌等[33-37]。JING等[38]發(fā)現(xiàn)CEP55在非小細胞肺癌組織中的表達顯著增加,并且其過度表達與患者的不良預后相關。DLGAP5 是一種有絲分裂紡錘體蛋白,促進微管蛋白聚合物的形成,在紡錘體組配中起重要作用,可作為信號分子具有重要的生物學功能[39-40]。BRANCHI 等[41]研究顯示,DLGAP5 的下調導致結直腸癌的侵襲和遷移潛能顯著降低。染色體相關驅動蛋白KIF4A 是一種基于微管的運動蛋白,是染色體濃縮和分離機制的重要組成部分,在有絲分裂的多個步驟中發(fā)揮作用,并對調節(jié)后期紡錘體、胞質分裂、中間帶形成和胞質分離期間染色體的完整性發(fā)揮重要作用,腫瘤中高表達可增強肝細胞癌、口腔癌和乳腺癌的增殖和侵襲[42-46]。相關研究顯示KIF4A 可作為肺癌的預后生物標志物和治療靶點[47]。

      MELK 是一種細胞周期依賴性的絲/蘇氨酸蛋白激酶,在有絲分裂期間參與細胞周期、胞質分裂、mRNA 剪接和細胞凋亡,是治療多種癌癥的理想治療靶點,在癌細胞存活中起著不可或缺的作用[48-49]。其高表達與人類星形細胞瘤和前列腺癌的惡性程度相關并且與乳腺癌患者的不良預后相關[50-51]。目前研究表明MELK是小細胞肺癌一個有前途的治療靶點,其抑制劑OTS167 可作為一類新的抗SCLC 藥物進行臨床評估[52]。NEK2 是位于中心體的絲氨酸/蘇氨酸激酶,通過參與有絲分裂中心體的復制和紡錘體的裝配對細胞的分裂增殖進行調節(jié)[53-54]。表達失調會造成染色體不穩(wěn)定(CIN)和非整倍體,這也是許多腫瘤的標志性變化[55-56]。據(jù)報道,NEK2表達增加與腫瘤進展有關,在多種腫瘤中顯著表達并對預后產生不良影響,如胰腺導管腺癌、前列腺癌,結腸癌[57-59]。ZHONG 等[60]研究表明NEK2 可能是非小細胞肺癌患者預后不良的更有效的腫瘤增殖標志物。RRM2 是DNA 合成和修復的限速酶,是細胞凋亡的重要調控基因,已被報道是膠質瘤中具有功能意義的潛在預后生物標志物[61],在非小細胞肺癌和細胞系中異常上調預示著預后不良,有研究顯示敲除RRM2通過內在途徑導致頭頸鱗狀細胞癌和非小細胞肺癌細胞系的凋亡[62]。拓撲異構酶IiαTOP2A 是在轉錄過程中控制和改變DNA 拓撲狀態(tài)的酶,參與了多種惡性腫瘤細胞的有絲分裂過程[63]。miR-144-3p 通過靶向TOP2A 抑制膠質瘤細胞的生長并促進其凋亡[64]。在乳腺癌中與erbb2 同時缺失或擴增,很可能是預測蒽環(huán)類藥物受益患者亞群的有用標志物[65]。TOP2A 的高表達與非小細胞肺癌中癌細胞的增殖和侵襲以及干擾密切相關[66]。已被廣泛用作NSCLC 的獨立預后因子,其高表達與NSCLC 患者的不良預后相關[67]。靶向非洲爪蟾驅動蛋白樣蛋白2TPX2 是一種微管相關蛋白,參與紡錘體的組裝并維持其結構穩(wěn)定,調節(jié)有絲分裂的關鍵點,在多種人類癌癥中過度表達,并促進癌癥發(fā)展。有報道顯示在前列腺癌中敲除TPX2 能誘導細胞周期靜止和凋亡并且降低細胞的侵襲能力和抑制細胞的增殖。TPX2 沉默通過調節(jié)PI3K/AKT 信號抑制肺腺癌和肝細胞癌增殖[68-69]。其高表達與非小細胞肺癌的不良預后有關,可能為預后相關基因[70]。

      本研究建立了一個用于預測患者生存率的預后模型,該模型包含12 個關鍵基因,分別為CA4、ENO1、FBLN5、FZD4、INAVA、NEK2、RRAS、SEMA5A、TIMP1、TMPRSS11E、EFNB2、AKAP12,碳酸酐酶ⅳ(CA4)是人類12 種活性同工酶的一種,其低表達可以促進癌細胞的增殖,據(jù)報道CA4 是一種新的結直腸癌腫瘤抑制因子,可以作為結直腸癌復發(fā)的獨立生物標志物[71-73]。在模型中系數(shù)最大,說明CA4 是LUAD 中一個非常重要的預后因素,對判斷患者預后具有重要的參考價值。烯醇酶1(ENO1)作為一種糖酵解酶,在葡萄糖代謝中起著關鍵作用,并導致許多癌癥的腫瘤進展,新的研究證明通過PI3K/AKT 途徑促進非小細胞肺癌的糖酵解、增殖、遷移和侵襲[74-75]。FBLN5 是Fibulin 蛋白家族成員之一,其表達水平與肺癌等多種腫瘤的發(fā)生相關,并能夠影響腫瘤的增殖侵襲及預后進展,因此有可能成為腫瘤診斷新的分子標志物。研究發(fā)現(xiàn)FBLN5 能夠通過特殊機制調控腫瘤微環(huán)境從而調控腫瘤的發(fā)生[76]。FZD4是卷曲基因家族的成員,據(jù)報道,腫瘤抑制劑miR-493通過抑制FZD4的表達來抑制癌細胞的生長和遷移能力[77],而且已證實FZD4的敲除導致膀胱癌細胞遷移和侵襲顯著減少[78]。先天免疫激活因子INAVA,是一種已知為克羅恩病風險基因的蛋白質編碼基因[79],通過對肺腺癌患者染色體基因的整體分析,發(fā)現(xiàn)INAVA 在肺腺癌的發(fā)展和進展中發(fā)揮重要作用[28]。已被證實,INAVA 通過上調基質金屬蛋白酶9的表達促進甲狀腺乳頭狀癌和肝癌侵襲性[80]。RRAS 基因的研究較少,功能、機制尚未被充分了解。SEMA5A是存在于無脊椎動物和脊椎動物中的跨膜蛋白,在多種癌癥中高表達并且與預后有關[81-82]。已被證明在試管內能促進胃癌細胞系的遷移和侵襲[83]。癌組織中SEMA5A 在轉錄和翻譯水平的下調與非吸煙女性非小細胞肺癌患者的低存活率有關[84]。TIMP1是基質金屬蛋白酶的抑制酶,其功能與基質金屬蛋白酶(MMPs)相反,有研究表明TIMP1 與大多數(shù)實體癌的侵襲和轉移潛能密切相關,并且在肺癌中表達異常并可作為其侵襲轉移的潛在的分子標志[85]。TMEM185A 可通過下調EGFR/AKT 信號通路,使細胞在凋亡刺激下對凋亡敏感,從而抑制食管鱗狀細胞癌的發(fā)展[86],但最近發(fā)現(xiàn)在膀胱癌患者中又顯著上調,與膀胱癌患者的整體存活率顯著相關[87]。EFNB2 是一種膜錨定配體,屬于受體酪氨酸激酶,能促進膠質瘤和黑色素瘤的細胞遷移、侵襲和血管生成,也是卵巢癌和食管鱗狀細胞癌的不良預后指標[88-91]。EFNB2 基因的敲除抑制結腸直腸癌細胞的生長,逆轉了惡性表型并削弱了耐藥性[92]。α-激酶錨蛋白12(AKP12)是一種細胞支架蛋白,其表達在多種惡性腫瘤中被抑制,是一種潛在的抑癌基因,不僅能夠抑制腫瘤發(fā)生,而且能夠抑制腫瘤轉移。研究證明AKAP12 基因與腫瘤患者的預后呈正相關[93-94];在肺腺癌腫瘤組織中表達顯著低于正常肺組織,在癌組織中有淋巴結轉移的低于不伴有淋巴結轉移的,而且肺癌臨床分級越高,AKAP12 的表達量越低[95]。

      綜上所述,本研究利用GEO 數(shù)據(jù)庫的微陣列數(shù)據(jù)與來自TCGA 的RNA 測序數(shù)據(jù)進行整合,以確定中樞基因和更重要的關鍵基因。最后確定了9個與LUAD 發(fā)病機制和進展相關的關鍵基因。這些基因在肺癌的細胞周期及其異常行為中都起著重要作用,表明這些基因在LUAD 治療以及預后中具有巨大的潛力。此外,我們進行了生存分析,并建立了一個Cox 比例風險模型來識別預后的生物標志物。構建了一個由12 個基因組成的預測總生存率的基因標志。這些結果將為進一步研究LUAD 的發(fā)病機制和藥物治療提供參考。然而,我們的研究所有數(shù)據(jù)為公共數(shù)據(jù)庫的數(shù)據(jù)分析并使用其他數(shù)據(jù)庫和臨床數(shù)據(jù)進行了驗證,但缺乏實驗驗證仍然是本研究的局限性,需要進一步的實驗研究來證實從生物信息學分析得到的預測。

      猜你喜歡
      差異基因腺癌肺癌
      ICR鼠肝和腎毒性損傷生物標志物的篩選
      中醫(yī)防治肺癌術后并發(fā)癥
      對比增強磁敏感加權成像對肺癌腦轉移瘤檢出的研究
      基于RNA 測序研究人參二醇對大鼠心血管內皮細胞基因表達的影響 (正文見第26 頁)
      益肺解毒方聯(lián)合順鉑對人肺腺癌A549細胞的影響
      中成藥(2018年7期)2018-08-04 06:04:18
      HIF-1a和VEGF-A在宮頸腺癌中的表達及臨床意義
      microRNA-205在人非小細胞肺癌中的表達及臨床意義
      GSNO對人肺腺癌A549細胞的作用
      基于肺癌CT的決策樹模型在肺癌診斷中的應用
      SSH技術在絲狀真菌功能基因篩選中的應用
      浮梁县| 岳普湖县| 麻栗坡县| 桑植县| 湾仔区| 蒙山县| 余庆县| 邯郸县| 鸡东县| 西安市| 大姚县| 永城市| 小金县| 开阳县| 法库县| 盐津县| 日喀则市| 中宁县| 苍梧县| 石城县| 洪湖市| 科尔| 雅江县| 鄂托克前旗| 米林县| 仲巴县| 贞丰县| 朝阳市| 青冈县| 蒙自县| 英超| 南开区| 临汾市| 开封县| 英德市| 郎溪县| 亚东县| 都兰县| 襄城县| 江安县| 宜阳县|