鐘文杰,陳昌南,陸紅紅
( 1.江門市新會區(qū)人民醫(yī)院腫瘤科,廣東 江門 529000; 2.江門市人民醫(yī)院)
肺腺癌(lung adenocarcinoma,LUAD)是最常見的肺癌亞型,其死亡率在惡性腫瘤中居于首位[1]。盡管靶向治療和免疫治療已經(jīng)用于LUAD晚期患者的臨床治療,但治療效果5年生存率僅約15%[2]。因此,識別與 LUAD 預(yù)后相關(guān)的生物標(biāo)志物將有助于探索肺腺癌發(fā)生發(fā)展的潛在機(jī)制及改善患者的預(yù)后。
功能蛋白質(zhì)組學(xué)主要研究蛋白質(zhì)的表達(dá)和修飾。蛋白質(zhì)作為生物學(xué)的重要組成部分,是生物功能的實現(xiàn)者。細(xì)胞中 mRNA 的數(shù)量不能與其相應(yīng)蛋白質(zhì)的表達(dá)水平準(zhǔn)確相關(guān)。更重要的是,無論是 DNA 微陣列還是 RNA-Seq,都不能反映相應(yīng)蛋白質(zhì)的翻譯后修飾,而這恰好是影響蛋白質(zhì)功能實現(xiàn)的重要因素[3]。與基因組學(xué)和轉(zhuǎn)錄組學(xué)研究不同,腫瘤相關(guān)蛋白表達(dá)的研究更直接地揭示腫瘤發(fā)生發(fā)展的潛在機(jī)制,同時為腫瘤生物治療提供直接的靶點[4]。反相蛋白質(zhì)陣列(reverse phase protein array,RPPA)是一種結(jié)合平面高精度大規(guī)模樣品蛋白抗原微陣列打印和抗體檢測的高通量蛋白組學(xué)技術(shù),可以用于蛋白質(zhì)精準(zhǔn)量化,因此可以準(zhǔn)確鑒別腫瘤中的蛋白質(zhì)種類及表達(dá)水平[5]。近年來,蛋白質(zhì)組學(xué)分析已經(jīng)用于鑒定腫瘤預(yù)后相關(guān)的蛋白質(zhì)表達(dá)[6-7]?;仡櫼酝P(guān)于LUAD生物信息學(xué)分析的文獻(xiàn),發(fā)現(xiàn)LUAD預(yù)后研究大多是基于基因組學(xué)或轉(zhuǎn)錄組學(xué)所作的預(yù)測,鮮有基于蛋白組學(xué)預(yù)后研究。因此,本研究從蛋白表達(dá)水平對LUAD預(yù)后進(jìn)行分析,通過構(gòu)建蛋白預(yù)后模型,以期提高對LUAD預(yù)后預(yù)測的準(zhǔn)確性,為LUAD的臨床診斷、治療及預(yù)后提供重要的參考依據(jù)。
1.1蛋白質(zhì)組學(xué)數(shù)據(jù)獲取 從TCPA數(shù)據(jù)庫(https://tcpaportal.org/tcpa/)及TCGA數(shù)據(jù)庫(https://portal.gdc.cancer.gov/) 分別下載232個原發(fā)性肺腺癌的RPPA第4 級蛋白質(zhì)表達(dá)數(shù)據(jù)及患者臨床數(shù)據(jù),包括性別、年齡、TNM分期等臨床信息,用于后期結(jié)合患者臨床數(shù)據(jù)進(jìn)行預(yù)后綜合分析,對患者進(jìn)行篩選,剔除臨床信息不全的肺腺癌患者(包括TNM分期、年齡、性別不明的患者);利用 R 軟件(4.0.0版本)中的 knn法對蛋白質(zhì)數(shù)據(jù)進(jìn)行補缺。
1.2預(yù)后蛋白質(zhì)確定及模型構(gòu)建 首先將蛋白質(zhì)表達(dá)數(shù)據(jù)與患者生存時間進(jìn)行合并,通過R軟件“survival”包循環(huán)對每個蛋白質(zhì)進(jìn)行單因素Cox回歸分析, 若P<0.05則判定該蛋白質(zhì)與肺腺癌的預(yù)后相關(guān),若風(fēng)險比(hazard ratio, HR)>1,該蛋白視為高風(fēng)險蛋白,若HR<1則該蛋白視為低風(fēng)險蛋白,并利用R軟件的“ggplot2”包繪制火山圖對所有與肺腺癌預(yù)后相關(guān)的蛋白質(zhì)進(jìn)行可視化;然后利用逐步回歸分析對所得的預(yù)后相關(guān)蛋白質(zhì)進(jìn)行進(jìn)一步篩選,以剔除多重共線性變量。對逐步回歸分析篩選出的蛋白質(zhì)則進(jìn)行多因素Cox預(yù)后模型構(gòu)建,并以風(fēng)險評分進(jìn)行展示:風(fēng)險評分=(蛋白質(zhì)系數(shù)1×蛋白質(zhì)1表達(dá))+(蛋白質(zhì)系數(shù)2×蛋白質(zhì)2表達(dá))+(蛋白質(zhì)系數(shù)n×蛋白質(zhì)n表達(dá))。
1.3預(yù)后模型的生存分析 計算患者風(fēng)險評分,并根據(jù)風(fēng)險評分的中位數(shù)可將患者分為高風(fēng)險組(風(fēng)險評分大于中位風(fēng)險評分)和低風(fēng)險組(風(fēng)險評分小于中位風(fēng)險評分),利用R軟件“pheatmap”包根據(jù)風(fēng)險評分對樣品進(jìn)行可視化,對風(fēng)險評分與蛋白質(zhì)表達(dá)數(shù)據(jù)繪制風(fēng)險熱圖;利用R軟件的“survival”包分別對高低風(fēng)險組患者進(jìn)行生存分析,若P<0.05,則視兩組患者具有生存差異。
1.4獨立預(yù)后及ROC分析評估模型有效性 將臨床變量及風(fēng)險評分與生存時間進(jìn)行整合,利用R軟件 “survival”包對臨床變量及風(fēng)險評分進(jìn)行單因素及多因素Cox回歸分析以評估預(yù)測模型風(fēng)險評分是否能成為獨立的預(yù)后因素,結(jié)果通過森林圖進(jìn)行可視化。利用R軟件“survivalROC”包對蛋白質(zhì)評分模型及肺腺癌患者的臨床變量進(jìn)行ROC分析并繪制ROC曲線。
1.5構(gòu)建預(yù)測列線圖 通過整合臨床變量及評分模型數(shù)據(jù),包括患者風(fēng)險評分、年齡、性別及腫瘤分期,利用R軟件的“rms”包構(gòu)建列線圖,以實現(xiàn)多變量綜合預(yù)測,此外,利用bootstrap方法(1 000次循環(huán))構(gòu)建校準(zhǔn)曲線,顯示預(yù)測值與實際發(fā)生概率之間的偏差,以評估列線圖對1、2、3年LUAD患者生存率的預(yù)測效果。
1.6統(tǒng)計學(xué)分析 應(yīng)用R軟件(4.0.0)進(jìn)行統(tǒng)計學(xué)分析;蛋白質(zhì)表達(dá)數(shù)據(jù)的差異分析通過兩獨立樣本的t檢驗完成;生存分析組間比較的方法采用Kaplan-Meier方法;模型的構(gòu)建、 獨立預(yù)后分析均通過多因素Cox分析完成;P<0.05為差異具有統(tǒng)計學(xué)意義。
2.1預(yù)后蛋白質(zhì)確定及模型構(gòu)建 研究共納入232例肺腺癌患者,見表1。單因素Cox分析得到21個蛋白質(zhì)與肺腺癌預(yù)后相關(guān)(P<0.05),見表2,并繪制火山圖對結(jié)果進(jìn)行可視化,見圖1。隨后通過逐步向后回歸分析得到3個與生存顯著相關(guān)的蛋白質(zhì)(PAI1、TFRC、LCN2A),并通過多因素Cox分析獲得每個蛋白質(zhì)對應(yīng)的系數(shù),風(fēng)險評分=(0.215×PAI1表達(dá)量)+(0.241×TFRC表達(dá)量)+(0.207×LCN2A表達(dá)量),見表3。
2.2預(yù)后模型的生存分析 風(fēng)險熱圖顯示,蛋白質(zhì)PAI1、TFRC、LCN2A在高風(fēng)險組為高表達(dá),見圖2A;風(fēng)險曲線顯示,隨著患者生存風(fēng)險評分的遞增其對應(yīng)的模型風(fēng)險評分相應(yīng)增加,見圖2B;生存狀態(tài)圖顯示,隨著患者生存風(fēng)險評分的增加患者生存率下降,見圖2C。
表1 TCGA肺腺癌患者的臨床變量
表2 基于單因素Cox回歸分析的21個生存相關(guān)蛋白質(zhì)
圖1 21個生存相關(guān)蛋白質(zhì)火山圖
表3 用于預(yù)后模型構(gòu)建的蛋白質(zhì)及其風(fēng)險系數(shù)
圖2 預(yù)后模型風(fēng)險熱圖(A)、風(fēng)險曲線(B)及生存狀態(tài)(C)
通過對預(yù)測模型風(fēng)險評分進(jìn)行生存分析,與低風(fēng)險組相比,高風(fēng)險組總體生存率較低(P<0.001),見圖3。
圖3 預(yù)后模型蛋白質(zhì)及風(fēng)險評分生存分析
2.3獨立預(yù)后及ROC分析評估模型有效性 單因素(圖4A)和多因素Cox(圖4B)回歸分析表明風(fēng)險評分可作為肺腺癌獨立預(yù)后因素(P<0.05);通過ROC曲線可看出風(fēng)險評分模型相較于傳統(tǒng)的臨床特征具有更高的準(zhǔn)確性和靈敏度,見圖4C。
圖4 預(yù)后模型獨立預(yù)后及ROC分析
2.4創(chuàng)建預(yù)測列線圖 通過整合臨床因素(年齡、性別、分期)和模型公式構(gòu)建了預(yù)測列線圖,見圖5;該預(yù)后模型C指數(shù)為0.710,1、2、3年的校準(zhǔn)曲線顯示列線圖預(yù)測效果較佳,見圖6。
圖5 肺腺癌患者1、2、3年總生存率的列線圖
圖6 預(yù)測總生存率的校準(zhǔn)曲線
蛋白質(zhì)組學(xué)研究為探索腫瘤發(fā)生發(fā)展的潛在機(jī)制提供了新的思路。與正常組織相比,腫瘤組織具有獨特的蛋白質(zhì)表達(dá)。目前研究表明,腫瘤獨特蛋白質(zhì)表達(dá)不僅可以作為預(yù)測腫瘤預(yù)后因子,還可以作為未來生物治療的有效靶點[8]。本研究通過生物信息學(xué)分析肺腺癌蛋白質(zhì)表達(dá),構(gòu)建了一種包含3個蛋白質(zhì)(PAI1、TFRC、LCN2A)預(yù)后模型,該模型可以有效地對生存進(jìn)行分層,與低風(fēng)險組相比,高風(fēng)險組總體生存率明顯降低。ROC分析及獨立預(yù)后結(jié)果顯示:該模型對患者預(yù)后具有良好的預(yù)測價值,是患者預(yù)后的獨立風(fēng)險因子。本研究進(jìn)一步結(jié)合患者的年齡、性別、腫瘤分期和風(fēng)險評分構(gòu)建預(yù)測列線圖,通過在總積分軸和每個預(yù)后軸之間畫一條垂直線計算肺腺癌患者1、2 、 3 年的生存率,這種定量直觀預(yù)測肺腺癌預(yù)后的方法將更有助于提高早期判斷肺腺癌患者預(yù)后和制定合理的臨床治療決策。
本研究建立的預(yù)后預(yù)測模型中,蛋白質(zhì)PAI1、TFRC、LCN2A在高風(fēng)險組呈高表達(dá),而且隨著患者生存風(fēng)險評分的增加患者生存率下降,提示與肺腺癌的不良預(yù)后呈正相關(guān)。既往研究發(fā)現(xiàn)肺腺癌組織中PAI1的表達(dá)水平高于正常肺組織,與肺腺癌總生存率呈負(fù)相關(guān)[9]。PAI1 通過抑制 caspase-3保護(hù)腫瘤細(xì)胞免受化療引起的細(xì)胞凋亡[10]。TFRC在肺癌[11]、乳腺癌[12]、卵巢癌[13]、結(jié)腸癌[14]、胰腺癌[15]中高度表達(dá)且與患者的不良預(yù)后相關(guān)。動物實驗[13]證實TFRC的敲除能抑制癌細(xì)胞侵襲轉(zhuǎn)移,并且通過正向調(diào)控 AXIN2的表達(dá)來促進(jìn)癌細(xì)胞增殖及侵襲轉(zhuǎn)移,推斷TFRC很可能是一個促癌蛋白。LCN2A的過表達(dá)與乳腺癌[16]、胰腺癌[17]、肺癌[18]、膠質(zhì)母細(xì)胞瘤[19]和膽管癌[20]的生長和轉(zhuǎn)移有關(guān),其潛在機(jī)制可能是LCN2A的過表達(dá)可以促進(jìn)腫瘤細(xì)胞對鐵的吸收和對化療的抵抗。因此,PAI1 、TFRC和LCN2A作為預(yù)后模型評價指標(biāo)具有重要意義,這些蛋白質(zhì)均與腫瘤的發(fā)生發(fā)展有關(guān)。本模型中TFRC和LCN2A促進(jìn)腫瘤細(xì)胞對鐵攝取和吸收幫助腫瘤細(xì)胞生長,共同證明鐵代謝途徑在促進(jìn)肺腺癌的發(fā)生和發(fā)展方面具有獨特的意義,有望成為治療肺腺癌的獨特蛋白靶點。運用鐵偶聯(lián)劑調(diào)節(jié)腫瘤的鐵負(fù)荷是目前抗腫瘤治療的研究熱點[21]。
本研究集中于多個蛋白質(zhì)預(yù)后模型分析,而不僅僅局限于單個蛋白質(zhì)分析,該分析結(jié)果具有重要的臨床指導(dǎo)意義;模型中PAI1、TFRC、LCN2A蛋白有望成為評估肺腺癌治療預(yù)后新的因子,并對肺腺癌的實驗研究提供一個重要的研究方向,有望為肺腺癌的診治提供新的靶點。本研究局限性在于目前有關(guān)蛋白質(zhì)組學(xué)的公共數(shù)據(jù)庫少,尚未建立蛋白質(zhì)組學(xué)驗證集進(jìn)行驗證,有待實驗證據(jù)及真實世界人群進(jìn)一步驗證。