竇亞光,田衛(wèi)東
(復(fù)旦大學(xué) 生命科學(xué)學(xué)院 生物統(tǒng)計學(xué)與計算生物學(xué)系,上海200438)
一種基于基因組甲基化探針的肺腺癌診斷模型
竇亞光,田衛(wèi)東
(復(fù)旦大學(xué) 生命科學(xué)學(xué)院 生物統(tǒng)計學(xué)與計算生物學(xué)系,上海200438)
由于肺腺癌早期病征不夠明顯,傳統(tǒng)的檢測方法難以達到早期臨床診斷的要求.目前,基于甲基化分子標記進行癌癥的早期診斷則展現(xiàn)出很好的發(fā)展前景.本研究在訓(xùn)練集中篩選出在肺腺癌與正常樣本中甲基化差異度最大的10個甲基化探針,并基于此構(gòu)建廣義線性診斷模型,同時引入Lasso方法進行模型的變量選擇.最終得到由4個探針(分別對應(yīng)于基因TRIM58、HOXA9、HOXB4、PRAC)作為變量的診斷模型,并提供了合理的分類閾值區(qū)間.在3個測試集使用該模型都表現(xiàn)出很好的診斷效果,ROC曲線的AUC均在0.99以上.
肺腺癌; 早期診斷; 甲基化; 探針; 廣義線性模型; Lasso
如今,癌癥是中國人死亡的首要原因,也是一個重要的公共衛(wèi)生問題,其發(fā)病率和死亡率都在逐年增高[1].癌癥按照患病部位分為多種,如肺癌、胃癌、肝癌等.其中,肺癌的發(fā)病人數(shù)和死亡人數(shù)最多,分別占所有癌癥種類的18%與22%[2].據(jù)估計,2015年中國新增70多萬肺癌病人,有60多萬人死于肺癌[2].在肺癌中,非小細胞肺癌是其主要亞型,占到肺癌的85%左右(小細胞肺癌占到15%左右)[3].在現(xiàn)有的治療水平下,非小細胞肺癌患者的總體預(yù)后水平差,患者在Ⅲ期和Ⅳ期等中晚期階段對應(yīng)的5年生存率分別為5%~14%和1%,但在癌癥早期階段診治可以將生存率提高到50%[4],且相比于小細胞肺癌,非小細胞肺癌的增長較慢,在早期得到診斷并進行手術(shù)治療能夠根除[5].因此,對非小細胞肺癌的早期診斷是提高病人存活率,減少中國癌癥死亡人數(shù)的直接而有效的途徑.肺腺癌(Lung Adenocarcinoma, LUAD)是非小細胞肺癌最主要的亞型,占非小細胞肺癌的40%[6],且其發(fā)病率在許多國家呈不斷上升趨勢[7],是亟待深入研究的肺癌亞型.
以往的肺腺癌檢測手段主要有胸部X光、痰細胞檢測、光纖檢查還有CT檢查等檢測手段,由于早期診斷率低等問題,未能有效降低肺腺癌患者的死亡率,這些檢測手段在早期診斷時存在靈敏度低、錯誤率高、效率低下等缺點[8-9].再加上肺腺癌早期癥狀不夠明顯,超過半數(shù)的肺腺癌患者在確診時已經(jīng)發(fā)生了癌癥轉(zhuǎn)移[10-11].
過去十年來,利用生物分子對肺腺癌診斷的技術(shù)有了很大的進展,但是利用SNP、mRNA、microRNA和蛋白質(zhì)來對肺腺癌等非小細胞肺癌進行診斷的效果還遠達不到臨床應(yīng)用的水平(要求靈敏度和特異度都要在90%以上)[12-13].而DNA甲基化則展現(xiàn)出良好的發(fā)展前景.DNA甲基化發(fā)生在胞嘧啶鳥嘌呤二核苷酸(CpGs)上[14],在基因的表達調(diào)控與信使RNA可變剪接中起到重要功能.在出現(xiàn)時間方面,動物和人類的研究表明,基因甲基化的變化發(fā)生在肺癌癌變的早期,并存在于肺癌的癌前病變中[15-16].在甲基化差異特征方面,位于腫瘤抑制基因啟動子區(qū)域和管家基因的CpG島甲基化水平的提高以及基因組全局脫甲基化都是癌細胞的常見特征[17-18].在技術(shù)方面,高通量甲基化芯片現(xiàn)在已經(jīng)可用于同時測定數(shù)千個CpG位點的甲基化水平[19],且DNA甲基化具有穩(wěn)定、易定性或定量檢測的優(yōu)點.在樣本獲取途徑方面,肺腺癌患者中的癌組織、血液、痰等多種樣本中都可以定量檢測到這樣的差異甲基化數(shù)據(jù)[20].綜合上述多方面優(yōu)勢,DNA甲基化已逐漸成為癌癥早期檢測的最有希望的診斷標記物之一[21],并且找到合適的用于癌癥診斷的甲基化位點或基因組合已經(jīng)成為現(xiàn)在研究的重點[19,22].
基于高通量甲基化數(shù)據(jù),本研究綜合利用多個差異甲基化位點來構(gòu)建肺腺癌的診斷模型.本研究引入了Lasso方法進行模型構(gòu)建,Lasso方法可在保持模型準確率的前提下進行變量篩選與模型精簡[23].我們在構(gòu)建模型的同時引入Lasso方法來對基因甲基化位點進行篩選,利用篩選出的甲基化位點構(gòu)建廣義線性模型.最后,我們利用獨立的測試集對模型的診斷效果進行評估.
本研究收集了來自同一甲基化平臺(Human Methylation27 DNA Analysis BeadChip)的4組肺腺癌level3的甲基化芯片數(shù)據(jù).其中3組下載自GEO數(shù)據(jù)庫[24](http:∥www.ncbi.nlm.nih.gov/geo/),對應(yīng)的GEO記錄號分別為GSE32861(59個正常樣本,59個癌癥樣本),GSE62948(28個正常樣本,28個癌癥樣本),GSE32866(27個正常樣本,28個癌癥樣本).一組下載自TCGA數(shù)據(jù)庫[25](http:∥portal.gdc.cancer.gov/),包含24個正常樣本,126個癌癥樣本.數(shù)據(jù)分析平臺對應(yīng)的GEO平臺編號為GPL8490,利用該芯片平臺可測量14495個人類基因上27578個CpG位點的甲基化水平.本研究以GSE32861對應(yīng)的數(shù)據(jù)為訓(xùn)練集,剩余其他3組數(shù)據(jù)作為獨立測試集.
同時收集了TCGA中對應(yīng)Human Methylation27 DNA Analysis BeadChip平臺的所有癌癥患者正常樣本的甲基化數(shù)據(jù),共計360個.這些數(shù)據(jù)分別對應(yīng)10種癌癥,分別為: 肺腺癌,肺鱗狀細胞癌(Lung Squamous Cell Carcinoma, LUSC),子宮內(nèi)膜癌(Uterine Corpus Endometrial Carcinoma, UCEC),胃腺癌(Stomach Adenocarcinoma, STAD),腎乳頭狀細胞癌(Kidney Renal Papillary Cell Carcinoma, KIRP),腎透明細胞癌(Kidney Renal Clear Cell Carcinoma, KIRC),卵巢漿液性囊腺癌(Ovarian Serous Cystadenocarcinoma, OV),乳腺浸潤性癌(Breast Invasive Carcinoma,BRCA),結(jié)腸腺癌(Colon Adenocarcinoma,COAD),直腸腺癌(Rectum Adenocarcinoma, READ).其對應(yīng)的正常樣本數(shù)目見表1.將這360個不同癌癥的正常樣本數(shù)據(jù)與126個TCGA平臺的肺腺癌癌癥樣本數(shù)據(jù)合并,作為混合數(shù)據(jù)集.
表1 不同癌癥病人的正常樣本數(shù)目Tab.1 Normal sample sizes of different cancer patients
甲基化芯片level3記錄的是CpG位點的β值,計算公式為β=M/(M+U+α),其中M為該位點的甲基化信號強度,U為非甲基化信號強度,α是常數(shù)項,默認為100[26].β可以被用來度量基因組CpG位點的甲基化水平[26].
首先去除所有定位在性染色體(X和Y染色體)的探針,只考慮常染色體對應(yīng)的探針位點,保證本研究構(gòu)建的模型的通用性.為了獲取高質(zhì)量的探針位點,刪除了在不同甲基化樣本中存在空值的探針.為了去除每組甲基化數(shù)據(jù)內(nèi)部的技術(shù)誤差(technical variation),利用分位數(shù)正則化的方法對每組甲基化數(shù)據(jù)進行數(shù)據(jù)集內(nèi)部校正,該操作通過R語言中的lumi包[27]來實現(xiàn).為了去除不同數(shù)據(jù)批次之間的系統(tǒng)誤差,利用經(jīng)驗貝葉斯方法對4組甲基化數(shù)據(jù)進行批次間校正[28],該處理過程通過R語言SVA包[29]中的ComBat函數(shù)來完成.
對于每一個探針,本研究采用5%分位數(shù)、25%分位數(shù)、50%分位數(shù)、75%分位數(shù)、95%分位數(shù)這5個數(shù)值來表征該探針位點在樣本中甲基化水平(β值)的分布.然后計算探針在癌癥樣本與正常樣本中對應(yīng)的5個分位數(shù)值差值的加和,利用該加和的絕對值的大小來指代該探針位點在癌癥樣本與正常樣本中的甲基化差異度.
利用1.3節(jié)計算探針位點在癌癥與正常樣本中甲基化差異度的方法,挑選出甲基化差異度排名在前10的探針作為模型構(gòu)建的候選探針.基于廣義線性模型構(gòu)建肺腺癌診斷模型.模型中以樣本中選出的探針對應(yīng)的甲基化β值作為候選輸入變量,輸出結(jié)果為一個得分,得分越高代表診斷該樣本為肺腺癌癌癥樣本的可能性越大.為了對探針變量進行進一步篩選并防止模型的過擬合,在模型的訓(xùn)練過程中引入Lasso[23]方法來對變量系數(shù)進行懲罰,從而在保證模型診斷效果的同時實現(xiàn)模型變量的精簡[23].廣義線性模型的訓(xùn)練與參數(shù)的訓(xùn)練通過R語言glmnet包[30]中的cv.glmnet函數(shù)來實現(xiàn).該函數(shù)通過訓(xùn)練集內(nèi)部的十倍交叉驗證過程來搜索最佳的Lasso懲罰權(quán)重,并得到在該懲罰權(quán)重下不同變量的參數(shù)取值.
通過上述模型參數(shù)的篩選與訓(xùn)練,得到在廣義線性模型下探針的變量選取結(jié)果與不同探針參數(shù)的取值.并測試構(gòu)建好的廣義線性模型在其他3組獨立的測試集中區(qū)分癌癥與正常樣本的表現(xiàn).將測試集樣本中對應(yīng)變量探針的β值作為輸入,輸入廣義線性模型計算輸出診斷得分,并與測試數(shù)據(jù)集本身的樣本類型標簽進行對應(yīng).診斷結(jié)果中,被診斷樣本本身為癌癥樣本且被診斷為癌癥樣本則該類診斷結(jié)果為真陽性結(jié)果(TP),被診斷樣本本身為癌癥樣本但被診斷為正常樣本則該類診斷結(jié)果為假陰性結(jié)果(FN),被診斷樣本本身為正常樣本且被診斷為正常樣本則該類診斷結(jié)果為真陰性結(jié)果(TN),被診斷樣本本身為正常樣本但被診斷為癌癥樣本則該類診斷結(jié)果為假陽性結(jié)果(FP).然后分別采用特異度(Specificity=TN/(TN+FP)),靈敏度(Sensitivity=TP/(TP+FN)),AUC(ROC曲線下方面積),AUCPR(Precision-recall曲線下方面積)來評估模型的肺腺癌診斷能力.上述4種評估方式的取值都在0到1之間,數(shù)值越大代表模型的區(qū)分效果越好.
具體流程圖見圖1.挑選出所有定位在常染色體上的探針,并刪除在不同甲基化樣本中存在空值的探針,這樣一共得到了19626個甲基化探針.對4組數(shù)據(jù)進行數(shù)據(jù)集內(nèi)與數(shù)據(jù)間的校正.然后利用篩選校正之后的甲基化數(shù)據(jù)通過1.3節(jié)所述方法計算得到這些探針位點在癌癥樣本與正常樣本中的甲基化差異度.
圖1 數(shù)據(jù)的獲取、處理與模型的構(gòu)建評估流程圖Fig.1 Flowchart of data collection and processing as well as the model building and performance evaluation
按照甲基化差異度對探針進行排序,選取排名位于前10的探針,作為候選變量探針以構(gòu)建肺腺癌診斷模型,它們分別為cg12374721、cg26521404、cg25720804、cg08089301、cg14458834、cg07533148、cg00949442、cg23432345、cg22881914、cg23290344,對應(yīng)的基因分別為PRAC、HOXA9、TLX3、HOXB4、HOXB4、TRIM58、ABCA3、HOXA7、NID2、NEF3.這些探針在癌癥樣本中的甲基化水平均值都是其在正常樣本中的2.5倍以上,它們在癌癥與正常樣本中的具體分布情況見圖2.這些探針都在癌癥中呈現(xiàn)高甲基化狀態(tài),在正常樣本中呈現(xiàn)相對較低的甲基化狀態(tài),樣本間甲基化差異程度大,具有一定的區(qū)分癌癥樣本與正常樣本的能力.但可以看到對于單個甲基化位點來說,癌癥與正常樣本的甲基化分布區(qū)間存在一定程度的重合,僅靠單個甲基化位點對癌癥與正常樣本進行區(qū)分,其效果存在局限性.合理地綜合利用上述探針,挑選探針組合,構(gòu)建癌癥與正常樣本的區(qū)分模型,從而克服單甲基化位點診斷的局限性,以提高模型對癌癥與正常樣本的區(qū)分效果.
圖2 甲基化差異度處在前10名的探針在正常與癌癥樣本中的甲基化水平分布Fig.2 Distribution of the methylation levels of top 10 probes ranked by methylation difference in normal and tumor samples
利用GSE32861數(shù)據(jù)(59個正常樣本,59個癌癥樣本)作為訓(xùn)練數(shù)據(jù)集,來構(gòu)建用來診斷肺腺癌的廣義線性診斷模型.構(gòu)建模型的方式是: 利用cv.glmnet[30]工具并引入Lasso方法進行廣義線性模型的訓(xùn)練,對候選探針進行篩選后,選取了10個探針中的4個探針cg07533148、cg08089301、cg12374721、cg26521404作為有效模型變量.對應(yīng)的基因分別為TRIM58、HOXB4、PRAC、HOXA9.模型探針具體的變量參數(shù)見表2.
之后,利用3組獨立測試集對構(gòu)建的廣義線性模型的性能進行評估.評估結(jié)果如表3所示,在不同的診斷集合中,分別評估當特異度為100%時對應(yīng)的靈敏度數(shù)值,也就是所有的正常樣本都被正確分類的情況下評估模型能診斷出多少比例的癌癥樣本.可以看到在訓(xùn)練集(GSE32861)中當特異度為100%時,對應(yīng)的靈敏度為98.3%,在3組測試集中靈敏度都在96%以上,尤其是在GSE62948數(shù)據(jù)集中,靈敏度達到了100%,也就是在該數(shù)據(jù)集中模型可以做到樣本類別的全部正確區(qū)分.該模型在所有數(shù)據(jù)集中的AUC與AUCPR值都在0.99以上.以上結(jié)果一定程度上說明了該模型具有良好的區(qū)分癌癥樣本與正常樣本的能力.
表2 模型探針變量與參數(shù)取值Tab.2 Coefficients of probe variables in the model
表3 模型在訓(xùn)練集與測試集中的表現(xiàn)Tab.3 Performance of the model in training and testing datasets
廣義線性模型對每個輸入樣本都有一個評估得分,分值越高則代表越可能被診斷為癌癥樣本,基于該模型不同數(shù)據(jù)集正常樣本與癌癥樣本所對應(yīng)的得分分布如圖3所示,其中下標為ALL的一組數(shù)據(jù)指代的是將4個數(shù)據(jù)集的所有樣本進行合并之后的數(shù)據(jù)集.可見在不同數(shù)據(jù)集上,正常樣本與癌癥樣本對應(yīng)的模型得分都有很大差異,且正常樣本對應(yīng)的分值都集中在較低的水平,絕大多數(shù)都在0.15以下,對于TCGA-LUAD數(shù)據(jù)集對應(yīng)癌癥樣本來說,其得分的分布則相較于其他2個數(shù)據(jù)集較為分散,但其大部分的癌癥樣本分值仍在0.15以上.在利用模型進行診斷時,會設(shè)置一個分類閾值,樣本得分大于閾值時則被診斷為癌癥樣本,樣本得分小于閾值時則被診斷為正常樣本,不同的閾值選取可能會產(chǎn)生不同的模型診斷結(jié)果.
圖3 不同數(shù)據(jù)集正常樣本與癌癥樣本對應(yīng)的模型分值分布圖Fig.3 The model-generated score distribution of normal and tumor samples from different datasets
在保證模型在所有的數(shù)據(jù)集上的特異度與靈敏度都在90%及其以上的情況下,對于每一個數(shù)據(jù)集都可以得到一個分類閾值區(qū)間,GSE32861、GSE62948、GSE32866還有TCGA-LUAD這4個數(shù)據(jù)集對應(yīng)的閾值區(qū)間分別為0.1~0.83、0.09~0.72、0.11~0.57、0.02~0.15.這4個數(shù)據(jù)集的閾值區(qū)間交集為0.11~0.15,如圖3中紅色虛線所標注,也就是當所選分類閾值在該區(qū)間內(nèi)時,利用構(gòu)建的模型在4個數(shù)據(jù)集上進行診斷分類,對應(yīng)的特異度與靈敏度都在90%及其以上.為了評估在閾值交集區(qū)間上模型的診斷區(qū)分效果,選擇0.11與0.15的平均值0.13作為分類閾值以考察模型診斷性能,此時4個數(shù)據(jù)集對應(yīng)的特異度分別為94.9%、100%、100%、100%,對應(yīng)的靈敏度分別為100%、100%、96.4%、92.9%.在該分類閾值下,GSE62948與GSE32866均可以達到當特異度為100%時的理想水平.但對于TCGA-LUAD與GSE32861這兩個數(shù)據(jù)集的診斷效果則未達到理想水平,對于TCGA-LUAD數(shù)據(jù)集來說,其靈敏度相較于96.8%有所下降,對于數(shù)據(jù)集GSE32861來說,當其靈敏度為100%時的最優(yōu)特異度為96.6%,高于在該分類閾值下的94.9%.因此本研究建議,若存在合適的歷史數(shù)據(jù),利用數(shù)據(jù)對模型的閾值進行進一步訓(xùn)練選擇則可以一定程度上改善模型的診斷性能,獲取更好的診斷效果.在使用該模型進行癌癥診斷時,若不存在歷史數(shù)據(jù),則可以采用0.11~0.15區(qū)間內(nèi)的數(shù)值(例如0.13)作為模型輸出值的分類閾值直接進行診斷使用.
表4 不同分期癌癥樣本診斷靈敏度Tab.4 Diagnostic sensitivity of tumor samples for different tumor stages
TCGA-LUAD數(shù)據(jù)集的126個癌癥樣本中有62個樣本存在癌癥階段數(shù)據(jù),一共對應(yīng)癌癥的Ia、Ib、IIa、IIb、IIIa、IIIb、IV等7個時期.利用0.13作為模型分類閾值時,模型在TCGA-LUAD數(shù)據(jù)集上對應(yīng)的特異度為100%,即此時所有的正常樣本均被正確分類,然后考察此時不同時期的癌癥樣本數(shù)目與其對應(yīng)的靈敏度,如表4所示.對于Ia、Ib這兩個相對較早的癌癥時期來說,靈敏度達到了100%,也就是所有標記為該時期的癌癥樣本都被正確診斷,對于IIa、IIb、IIIb、IV等4個時期也同樣如此,9個IIIa期的癌癥樣本也有8個被成功診斷.說明了模型在對癌癥進行診斷區(qū)分時,對于不同時期的癌癥樣本均能取得良好的診斷效果.對于Ia、Ib兩類相對早期的癌癥樣本,其良好的診斷效果一定程度上說明了利用該模型進行肺腺癌早期診斷的可行性.由于數(shù)據(jù)樣本量較少,未來更多的癌癥樣本分期數(shù)據(jù)的加入則可以更加精確地評估模型對不同癌癥分期樣本的診斷性能.
為了進一步評估模型區(qū)分不同類型癌癥病人的正常樣本與肺腺癌癌癥樣本的能力.利用構(gòu)建好的模型對混合數(shù)據(jù)集進行正常樣本與癌癥樣本的區(qū)分,此時對應(yīng)的AUC與AUCPR分別為0.978與0.943,診斷結(jié)果的ROC曲線如圖4(a)所示.當約登指數(shù)(Youden’s index)也就是Sensitivity+Specificity-1取值最大時,對應(yīng)的特異度與靈敏度分別為90.0%與92.9%,此時對應(yīng)的分類閾值為0.122,在上述的0.11~0.15的區(qū)間之內(nèi).雖然此時模型的診斷表現(xiàn)相較于前2個獨立測試集有一定程度的下降,但特異度與靈敏度都仍保持在90%及其以上水平.除了結(jié)腸腺癌、胃腺癌還有卵巢漿液性囊腺癌外,對于混合數(shù)據(jù)集中其余7種類型癌癥對應(yīng)的正常樣本均能做到完全正確區(qū)分,也就是對應(yīng)的特異度都是100%,具體如圖4(b)所示.以上結(jié)果說明在樣本類型狀態(tài)未知時,利用本研究構(gòu)建的模型區(qū)分不同人體部位或類型的正常樣本與肺腺癌癌癥樣本,在一定程度上也具有良好的診斷性能與應(yīng)用前景.
圖4 利用模型對混合數(shù)據(jù)集進行診斷時的ROC曲線圖(a)與不同癌癥患者正常樣本的特異度圖(b)Fig.4 The ROC curve(a) of diagnostic performance when applying the model to mixed dataset and the specificity chart(b) of normal samples from different cancer patients
圖5 3個測試集甲基化差異度排名前10探針 與4個模型變量探針重合圖Fig.5 Overlap details of the top 10 probes ranked by methylation difference in three test datasets and four probes included in the model
為了進一步研究所選探針的特征,我們計算了19626個探針在3個測試集中的甲基化差異度,分別在每個數(shù)據(jù)集中按照甲基化差異度從高到低對探針進行排序.取各組數(shù)據(jù)中排名前10的探針與模型使用的4個變量探針,觀察它們的重合情況.詳情見圖5,可以看到4個模型變量探針無一例外都在3個數(shù)據(jù)集的前10名中出現(xiàn).從4個探針在不同數(shù)據(jù)集的具體排名來看,4個探針在不同的數(shù)據(jù)集中的排名的均值都在6以內(nèi).這些在一定程度上說明了模型使用的探針在不同數(shù)據(jù)集中差異甲基化排名的穩(wěn)定性,整體上在不同數(shù)據(jù)集中都處于排名靠前的位置,這也為該模型的推廣應(yīng)用提供了一定程度的支持.
為了探究模型所選取的探針對應(yīng)基因與肺腺癌的關(guān)聯(lián)意義,本研究對它們分別進行了文獻驗證.在本研究中,這些探針都在肺腺癌中處于高甲基化狀態(tài),它們對應(yīng)的基因分別為TRIM58、HOXA9、HOXB4、PRAC.其中TRIM58、HOXA9、HOXB4在肺腺癌中的高甲基化現(xiàn)象在已有文獻中均存在相關(guān)報道.本研究中,位于TRIM58基因的探針在癌癥樣本中表現(xiàn)為高甲基化,其甲基化水平均值約為正常樣本的4.7倍.以往研究表明,TRIM58在肺腺癌的早期就被穩(wěn)定地高甲基化,是肺腺癌中最突出的候選抑癌基因之一,該基因的過表達可以在體內(nèi)和體外抑制肺腺癌腫瘤的生成與增殖[31].本研究中,位于HOXA9基因的探針在癌癥樣本中表現(xiàn)為高甲基化,其甲基化水平均值約為正常樣本的2.7倍.Hulbert等通過對肺癌患者和正常人的痰和血液進行基因甲基化檢測,發(fā)現(xiàn)基因HOXA9在肺癌的早期出現(xiàn)顯著的高甲基化現(xiàn)象,并認為可以將HOXA9作為潛在的甲基化標記物用于癌癥的早期診斷[32],與本研究一致.HOXA9是7號染色體上homebox A基因簇的一員,編碼與DNA結(jié)合的轉(zhuǎn)錄因子,存在于KEGG[33]的癌癥中轉(zhuǎn)錄失調(diào)(transcriptional misregulation in cancer)通路中,具有潛在的調(diào)控基因表達與細胞分化的功能[34],并參與肺癌細胞的惡化轉(zhuǎn)移過程,在肺癌細胞的攻擊性方面起到潛在的核心調(diào)控功能[35].HOXA9基因不僅在肺腺癌中存在高甲基化現(xiàn)象,在嗜酸細胞瘤[36]、腦膜瘤[37]、膀胱癌[38]、口腔癌[39]中也存在著顯著的差異甲基化現(xiàn)象,并被報道可作為這些癌癥診斷的潛在分子標記物.在本研究中,位于HOXB4基因的探針在癌癥樣本中表現(xiàn)為高甲基化,其甲基化水平均值約為正常樣本的4.0倍.Daugaard等在2016年的研究中指出HOXB4基因在肺腺癌組織中存在顯著的高甲基化現(xiàn)象,可以作為肺腺癌診斷的潛在甲基化分子標記物[40],與本研究的結(jié)論一致.HOXB4基因在非小細胞肺癌中的高甲基化與癌細胞的遷移與轉(zhuǎn)移存在密切關(guān)聯(lián)[41].同時HOXB4基因在癌癥中的高甲基化也出現(xiàn)在急性髓性白血病[42]、口腔癌[39]、甲狀腺癌[14]、肝外膽管癌[43]等癌癥中.
隨著對癌癥早期基因差異甲基化研究的深入,發(fā)現(xiàn)基因的甲基化特征與癌癥的患病[5]、分型[44]、預(yù)后[19]、復(fù)發(fā)[45]等都存在關(guān)聯(lián).基因的差異甲基化在癌癥早期就會出現(xiàn)[15-16],甲基化芯片為甲基化的測定提供了技術(shù)便利[19],利用差異甲基化對癌癥進行早期診斷擁有很好的發(fā)展前景與應(yīng)用價值.
本研究對候選探針按照其在癌癥樣本與正常樣本中的甲基化的差異度排序,利用Lasso[23]方法對前10名的探針進行進一步的變量挑選,最終選出其中4個探針構(gòu)建出了區(qū)分癌癥樣本與正常樣本的廣義線性模型.并在多個數(shù)據(jù)集中對模型的區(qū)分能力進行了評估,對應(yīng)的AUC值都在0.99以上,具有良好的癌癥樣本正常樣本區(qū)分效果.并且對癌癥早期的病人診斷時在有限數(shù)據(jù)內(nèi)特異度與靈敏度都達到100%,說明了利用本研究構(gòu)建模型進行肺腺癌早期診斷的可行性與應(yīng)用價值.同時給出了模型在使用時分類閾值取值的合理區(qū)間(0.11~0.15),以供實現(xiàn)在沒有訓(xùn)練數(shù)據(jù)情況下的診斷之用.這4個探針在不同數(shù)據(jù)集中的甲基化差異程度排名名次都處于前10名以內(nèi),其甲基化差異度的排名都一致靠前,一定程度上說明利用這些探針對肺腺癌進行前期診斷推廣應(yīng)用的潛力.
模型所選的4個候選探針分別對應(yīng)于基因TRIM58、HOXA9、HOXB4和PRAC.其中TRIM58、HOXA9、HOXB4的高甲基化狀態(tài)與肺腺癌密切相關(guān).值得注意的是,HOXA9與HOXB4不僅在肺腺癌中存在高甲基化狀態(tài),分別在其他如腦膜瘤[37]、口腔癌[39]等多種癌癥中也存在明顯的基因差異甲基化現(xiàn)象.這在一定程度上說明利用甲基化探針集合同時對多個可能癌癥進行檢測診斷存在潛在可能.在對混合數(shù)據(jù)集進行診斷時,對結(jié)腸腺癌、胃腺癌還有卵巢漿液性囊腺癌的正常樣本的區(qū)分度還不夠,未來逐漸獲取更廣泛的有關(guān)不同癌癥的甲基化檢測數(shù)據(jù),尋找組織與癌癥特異性的甲基化分子標記,在對特定的癌癥進行精確的診斷分析并排除其他組織的干擾,以進行精確的癌癥檢測與癌癥分類,不斷精進基于甲基化進行癌癥診斷,則是一個未來發(fā)展的方向.同時本研究還發(fā)現(xiàn)了PRAC基因?qū)?yīng)的cg12374721探針在模型中具有最高的變量系數(shù)且具有很高的甲基化差異排名,但未見于已有的報道中,該探針以及對應(yīng)的基因或許可以作為新的潛在的肺腺癌診斷標記物.以往的多數(shù)對肺腺癌與正常組織的基因甲基化差異研究以及本研究,都旨在尋找肺腺癌診斷的潛在標記物或設(shè)計診斷探針組合,但缺乏對所選分子標記物甲基化與肺腺癌功能機制方面的了解與深入探究,在尋找肺腺癌診斷標記物的同時對這方面的分子功能機制的揭示或許可以成為后續(xù)研究的一個方向.
[1] MA J T. China statistical yearbook [R]. Beijing: National Bureau of Statistics of China, 2010.
[2] CHEN W, ZHENG R, BAADE P D,etal. Cancer statistics in China, 2015 [J].CA:ACancerJournalforClinicians, 2016,66(2): 115-132.
[3] ATLANTA G. Cancer facts and figures 2017[EB/OL].AmericanCancerSociety, 2017. www.cancer.org/research.
[4] HANKEY B F, RIES L A, EDWARDS B K. The surveillance, epidemiology, and end results program [J].CancerEpidemiologyandPreventionBiomarkers, 1999,8(12): 1117-1121.
[5] LOKK K, VOODER T, KOLDE R,etal. Methylation markers of early-stage non-small cell lung cancer [J].PLoSOne, 2012,7(6): e39813.
[6] TRAVIS W D, T L B D S. Lung cancer [J].Cancer, 1995,75: 191-202.
[7] YOSHIMI I, OHSHIMA A, AJIKI W,etal. A comparison of trends in the incidence rate of lung cancer by histological type in the Osaka Cancer Registry, Japan and in the surveillance, epidemiology and end results program, USA [J].JapaneseJournalofClinicalOncology, 2003,33(2): 98-104.
[8] BACH P B, JETT J R, PASTORINO U,etal. Computed tomography screening and lung cancer outcomes [J].Jama, 2007,297(9): 953-961.
[9] International Early Lung Cancer Action Program Investigators. Survival of patients with stage I lung cancer detected on CT screening [J].NEnglJMed, 2006,2006(355): 1763-1771.
[10] SINGHAL S, VACHANI A, ANTIN-OZERKIS D,etal. Prognostic implications of cell cycle, apoptosis, and angiogenesis biomarkers in non-small cell lung cancer: A review [J].ClinicalCancerResearch, 2005,11(11): 3974-3986.
[11] WARDWELL N R, MASSION P P. Novel strategies for the early detection and prevention of lung cancer [J].SeminarsinOncology, 2005,32(3): 259-268.
[12] LI H, YANG L X, ZHAO X Y,etal. Prediction of lung cancer risk in a Chinese population using a multifactorial genetic model [J].BMCMedicalGenetics, 2012,13(1): 118.
[13] GUO S C, WANG Y L, LI Y,etal. Significant SNPs have limited prediction ability for thyroid cancer [J].CancerMed-Us, 2014,3(3): 731-735.
[14] BIRD A. DNA methylation patterns and epigenetic memory [J].Genes&Development, 2002,16(1): 6-21.
[15] BELINSKY S A, NIKULA K J, PALMISANO W A,etal. Aberrant methylation of p16(INK4a) is an early event in lung cancer and a potential biomarker for early diagnosis [J].ProcNatlAcadSciUSA, 1998,95(20): 11891-11896.
[16] ZOCHBAUER-MULLER S, MINNA J D, GAZDAR A F. Aberrant DNA methylation in lung cancer: biological and clinical implications [J].TheOncologist, 2002,7(5): 451-457.
[17] GRONBAEK K, HOTHER C, JONES P A. Epigenetic changes in cancer [J].Apmis, 2007,115(10): 1039-1059.
[18] TAKAI D, JONES P A. Comprehensive analysis of CpG islands in human chromosomes 21 and 22 [J].ProcNatlAcadSciUSA, 2002,99(6): 3740-3745.
[19] KUO I Y, JEN J, HSU L H,etal. A prognostic predictor panel with DNA methylation biomarkers for early-stage lung adenocarcinoma in Asian and Caucasian populations [J].JournalofBiomedicalScience, 2016,23(1): 58.
[20] BELINSKY S A. Gene-promoter hypermethylation as a biomarker in lung cancer [J].NatRevCancer, 2004,4(9): 707-717.
[21] ZHAO Y X, SUN J F, ZHANG H Y,etal. High-frequency aberrantly methylated targets in pancreatic adenocarcinoma identified via global DNA methylation analysis using methylCap-seq [J].ClinicalEpigenetics, 2014,6(1): 18.
[22] TSOU J A, GALLER J S, SIEGMUND K D,etal. Identification of a panel of sensitive and specific DNA methylation markers for lung adenocarcinoma [J].MolecularCancer, 2007,6(1): 70.
[23] TIBSHIRANI R. Regression shrinkage and selection via the Lasso: A retrospective [J].JRStatSocB, 2011,73(273-82).
[24] BARRETT T, TROUP D B, WILHITE S E,etal. NCBI GEO: Mining tens of millions of expression profiles-database and tools update [J].NucleicAcidsRes, 2007,35: 760-765.
[25] Cancer Genome Atlas Research Network. Comprehensive molecular profiling of lung adenocarcinoma [J].Nature, 2014,511(7511): 543.
[26] BIBIKOVA M, LIN Z W, ZHOU L X,etal. High-throughput DNA methylation profiling using universal bead arrays [J].GenomeRes, 2006,16(3): 383-393.
[27] DU P, KIBBE W A, LIN S M. Lumi: A pipeline for processing Illumina microarray [J].Bioinformatics, 2008,24(13): 1547-1548.
[28] JOHNSON W E, LI C, RABINOVIC A. Adjusting batch effects in microarray expression data using empirical Bayes methods [J].Biostatistics, 2007,8(1): 118-127.
[29] LEEK J T, STOREY J D. Capturing heterogeneity in gene expression studies by surrogate variable analysis [J].PLoSGenet, 2007,3(9): 1724-1735.
[30] FRIEDMAN J, HASTIE T, TIBSHIRANI R. Glmnet: Lasso and elastic-net regularized generalized linear models [J].RPackageVersion, 2009,1(4).
[31] KAJIURA K, MASUDA K, NARUTO T,etal. Frequent silencing of the candidate tumor suppressor TRIM58 by promoter methylation in early-stage lung adenocarcinoma [J].Oncotarget, 2017,8(2): 2890-2905.
[32] HULBERT A, JUSUE-TORRES I, STARK A,etal. Early detection of lung cancer using DNA promoter hypermethylation in plasma and sputum [J].ClinicalCancerResearch, 2017,23(8): 1998-2005.
[33] KANEHISA M, GOTO S. KEGG: Kyotoencyclopediaof genes and genomes [J].NucleicAcidsRes, 2000,28(1): 27-30.
[34] HWANG S H, KIM K U, KIM J E,etal. Detection of HOXA9 gene methylation in tumor tissues and induced sputum samples from primary lung cancer patients [J].ClinChemLabMed, 2011,49(4): 699-704.
[35] YU S L, LEE D C, SOHN H A,etal. Homeobox A9 directly targeted by miR-196b regulates aggressiveness through nuclear Factor-kappa B activity in non-small cell lung cancer cells [J].MolCarcinogen, 2016,55(12): 1915-1926.
[36] PIRES-LUIS A S, COSTA-PINHEIRO P, FERREIRA M J,etal. Identification of clear cell renal cell carcinoma and oncocytoma using a three-gene promoter methylation panel [J].JournalofTranslationalMedicine, 2017,15(1): 149.
[37] GALANI V, LAMPRI E, VAROUKTSI A,etal. Genetic and epigenetic alterations in meningiomas [J].ClinNeurolNeurosur, 2017,158: 119-125.
[38] LOPEZ J I, ANGULO J C, MARTIN A,etal. A DNA hypermethylation profile reveals new potential biomarkers for the evaluation of prognosis in urothelial bladder cancer [J].APMIS, 2017,125(9): 787-796.
[39] XAVIER F C A, DESTRO M F D S, DUARTE C M E,etal. Epigenetic repression of HOXB cluster in oral cancer cell lines [J].ArchOralBiol, 2014,59(8): 783-789.
[40] DAUGAARD I, DOMINGUEZ D, KJELDSEN T E,etal. Identification and validation of candidate epigenetic biomarkers in lung adenocarcinoma [J].ScientificReports, 2016,6: 35807
[41] LIN S H, WANG J, SAINTIGNY P,etal. Genes suppressed by DNA methylation in non-small cell lung cancer reveal the epigenetics of epithelial-mesenchymal transition [J].BMCGenomics, 2014,15(1): 1079.
[42] QU X Y, DAVISON J, DU L,etal. Identification of differentially methylated markers among cytogenetic risk groups of acute myeloid leukemia [J].Epigenetics-Us, 2015,10(6): 526-535.
[43] SHU Y, WANG B, WANG J,etal. Identification of methylation profile of HOX genes in extrahepatic cholangiocarcinoma [J].WorldJGastroentero, 2011,17(29): 3407-3419.
[44] TOYOOKA S, MARUYAMA R, TOYOOKA K O,etal. Smoke exposure, histologic type and geography-related differences in the methylation profiles of non-small cell lung cancer [J].IntJCancer, 2003,103(2): 153-160.
[45] SELIGSON D B, HORVATH S, SHI T,etal. Global histone modification patterns predict risk of prostate cancer recurrence [J].Nature, 2005,435(7046): 1262-1266.
AModelforDiagnosisofLungAdenocarcinomaBasedonGeneMethylationProbe
DOUYaguang,TIANWeidong
(DepartmentofBiostatisticsandComputationalBiology,SchoolofLifeSciences,FudanUniversity,Shanghai200438,China)
Since there is lack of obvious symptoms in the early stage of lung adenocarcinoma, the traditional detection methods hardly meet the requirements of early clinical diagnosis. Currently, early detection of lung adenocarcinoma using DNA methylation biomarkers shows great promise. In this study, after analyzing of the training dataset including tumor and normal samples we chose the ten most differentially methylated probes. These ten probes are then used to build the general linear model to do lung adenocarcinoma diagnosis. It should be noted that, Lasso method is introduced in the model to perform variable selection. Finally, the lung adenocarcinoma diagnosis model is built based on the methylation level of four probes corresponding to four genes:TRIM58,HOXA9,HOXB4 andPRAC. And a reasonable classification score threshold interval is provided. The diagnosis performance of the model is pretty good when applying it to three independent test datasets, and theAUCsof all three ROC curves are greater than 0.99.
lung adenocarcinoma; early stage diagnosis; methylation; probe; general linear model; Lasso
0427-7104(2017)06-0671-10
2017-03-22
教育部博士點專項科研基金(博導(dǎo)類)(20120071110018)
竇亞光(1991—),男,碩士研究生;田衛(wèi)東,男,教授,通信聯(lián)系人,E-mail: weidong.tian@fudan.edu.cn.
Q332
A