明文龍,袁少勛,謝建明,劉宏德,顧萬(wàn)君,孫嘯
東南大學(xué)生物科學(xué)與醫(yī)學(xué)工程學(xué)院,生物電子學(xué)國(guó)家重點(diǎn)實(shí)驗(yàn)室,江蘇南京 210096;
近年來(lái),我國(guó)乳腺癌發(fā)病率不斷升高,并呈年輕化趨勢(shì)[1],對(duì)乳腺癌的早期預(yù)防、精確診療和預(yù)后分析能力迫切需要提高。分子生物學(xué)與免疫學(xué)的快速發(fā)展為乳腺癌早期診斷、分型、預(yù)防警示及預(yù)后判斷奠定了基礎(chǔ)。最初,乳腺癌按照基因表達(dá)譜差異分為4類分子亞型,但這種分型方式受到基因分析的成本、設(shè)備和技術(shù)要求等的限制,很難對(duì)每一位患者進(jìn)行分類[2]。因此,臨床上通常借助免疫組化法替代基因分析,但免疫組化法預(yù)測(cè)乳腺癌預(yù)后的魯棒性較差,且其分類結(jié)果與基因分析結(jié)果的一致性也較差[3]。因此,需要一種新的分類方法,以實(shí)現(xiàn)乳腺癌的精準(zhǔn)分類[4]。
醫(yī)學(xué)影像診斷方面,以MRI、CT和PET為代表的醫(yī)學(xué)成像技術(shù)具有非侵入性、高分辨率、時(shí)空連續(xù)性等特點(diǎn),對(duì)展現(xiàn)腫瘤表型的差異具有獨(dú)特優(yōu)勢(shì)[5],促進(jìn)了影像組學(xué)的迅猛發(fā)展;而影像組學(xué)方法可以通過從高通量的醫(yī)學(xué)影像數(shù)據(jù)中發(fā)掘大量具有高度代表性的定量影像特征,尋找影像特征與疾病之間的關(guān)系。因此,通過研究挖掘基因組特征與影像特征之間的聯(lián)系,進(jìn)而利用影像特征反映基因活動(dòng),實(shí)現(xiàn)疾病相關(guān)基因活動(dòng)的非侵入式診斷的影像基因組學(xué)得以發(fā)展,并成為影像組學(xué)的熱點(diǎn)之一[6-8]。乳腺癌的影像基因組學(xué)研究旨在從以基因數(shù)據(jù)為代表的生物大數(shù)據(jù)和以影像數(shù)據(jù)為代表的醫(yī)學(xué)大數(shù)據(jù)中提取出有價(jià)值的信息,進(jìn)而轉(zhuǎn)化成醫(yī)學(xué)知識(shí),并最終指導(dǎo)乳腺癌的診斷和防治[9]。因此,本文擬從乳腺癌的基因特征、影像特征及兩者關(guān)聯(lián)分析的方法方面綜述目前乳腺癌影像基因組學(xué)的研究進(jìn)展,為后續(xù)研究提供參考。
乳腺癌的基因組特征可分為3個(gè)層次:易感基因突變和單核苷酸多態(tài)性(single nucleotide polymorphism,SNP)特征、表達(dá)譜特征和分子亞型特征。在基因?qū)哟紊?,目前已發(fā)現(xiàn)的乳腺癌易感基因超過 70個(gè),包括 BRCA1/2、TP53等[10]。BRCA1/2在DNA同源重組修復(fù)中發(fā)揮重要作用,其致病性突變通常位于外顯子區(qū)和可變剪切區(qū),當(dāng)其發(fā)生有害突變時(shí),同源重組修復(fù)出現(xiàn)錯(cuò)誤,導(dǎo)致腫瘤更易發(fā)生。除易感基因外,最新研究結(jié)果證實(shí)至少55個(gè)SNP也與乳腺癌密切相關(guān)[11],比如位于TP53編碼區(qū)的rs1800371發(fā)生錯(cuò)義突變,導(dǎo)致p53蛋白質(zhì)發(fā)生突變,從而顯著增加了乳腺癌的發(fā)生風(fēng)險(xiǎn)[12];位于非編碼區(qū)的 SNP,如Ahmed等[13]于 2009年發(fā)現(xiàn)的 SLC4A7基因的rs4973768也與乳腺癌患病風(fēng)險(xiǎn)增加有關(guān)。在基因表達(dá)方面,乳腺癌具有不同的基因和蛋白表達(dá)譜特征。Perou等[14]首次利用cDNA微陣列數(shù)據(jù)對(duì)乳腺癌基因表達(dá)譜進(jìn)行差異分析,發(fā)現(xiàn)乳腺癌在基因表達(dá)水平上的差異。隨著測(cè)序技術(shù)的發(fā)展,RNA-Seq數(shù)據(jù)逐步代替微陣列數(shù)據(jù)用于差異分析,但蛋白表達(dá)譜才能真正反映乳腺癌在表達(dá)水平上的特征,因此也有研究利用反相蛋白陣列(reverse phase protein arrays,RPPA)數(shù)據(jù)獲得乳腺癌在蛋白質(zhì)表達(dá)水平上的特征。在臨床上對(duì)乳腺癌進(jìn)行分子亞型的分類具有重要作用,因?yàn)椴煌瑏喰蛷幕蛲蛔兒蚐NP特征,到表達(dá)譜特征,再到最后的病理學(xué)表現(xiàn)、治療方案等臨床特征,均具有其獨(dú)特的模式。如luminal-A型和B型更容易發(fā)生成骨轉(zhuǎn)移癌,基底細(xì)胞樣型更傾向于引起肺和大腦病變;術(shù)前化療對(duì)于HER-2高表達(dá)型具有更好的治療效果,而luminal-A型和B型一般采用術(shù)后放療。乳腺癌的基因檢測(cè)和分析在臨床上具有重要的參考價(jià)值,但這種方式大都是侵入式的,而影像技術(shù)作為一種優(yōu)良的非侵入式診斷方式,正逐漸在“精準(zhǔn)醫(yī)學(xué)”時(shí)代體現(xiàn)出重要作用。
臨床上乳腺癌的影像學(xué)診斷主要包括動(dòng)態(tài)對(duì)比增強(qiáng) MRI(dynamic contrast-enhanced MRI,DCEMRI)、乳腺 X 線攝影、超聲、DWI-MRI[15]、CT和PET,目前在影像基因組學(xué)研究中最常用的是 DCEMRI和乳腺 X線攝影,也有少量研究是基于超聲和PET 數(shù)據(jù)[16-17]。
自2012年Yamamoto等[18]首次開展了乳腺癌影像基因組學(xué)的研究以來(lái),DCE-MRI數(shù)據(jù)以其高分辨率、時(shí)空連續(xù)性等特點(diǎn),廣泛應(yīng)用于相關(guān)研究。影像特征的提取分為定性和定量影像特征提取,定性影像特征的獲得主要通過具有豐富臨床經(jīng)驗(yàn)的影像科醫(yī)師,按照“乳腺影像報(bào)告和數(shù)據(jù)系統(tǒng)”(breast imaging reporting and data system,BI-RADS)的要求,選取具體的指標(biāo)作為影像特征,對(duì)這些指標(biāo)進(jìn)行0/1打分,Yamamoto等[18]和 Liu等[11]的研究采用這種方法。然而,使用定性影像特征會(huì)損失大量的腫瘤病變信息,并且具有一定的主觀性,不利于后續(xù)分析,故更多的研究工作是在定量影像特征的基礎(chǔ)上建立的。定量影像特征的提取方式主要分為半自動(dòng)和自動(dòng)提取,前者是通過至少2位經(jīng)驗(yàn)豐富的影像科醫(yī)師確定影像中的感興趣區(qū)(ROI),通常為疑似的腫瘤病變部位,然后針對(duì)ROI的體素或像素,計(jì)算出相應(yīng)的定量影像特征值,這種方式由于需要手動(dòng)的圖像分割,故稱為半自動(dòng)特征提取[4,19-21]。自動(dòng)特征提取即借助計(jì)算機(jī)實(shí)現(xiàn)圖像識(shí)別、分割和特征計(jì)算,Yamamoto等[22]的研究基于計(jì)算機(jī)視覺算法,針對(duì)DCE-MRI動(dòng)態(tài)增強(qiáng)對(duì)比成像過程中的時(shí)空連續(xù)性,實(shí)現(xiàn)了對(duì)病灶部位的自動(dòng)分割及特征的定量提取[22]。此外,由于目前缺少統(tǒng)一的標(biāo)準(zhǔn),在影像特征的選擇上,不同的研究團(tuán)隊(duì)選擇的影像特征也有所區(qū)別,表1總結(jié)了Zhu等[19]的研究工作,將常用的DCE-MRI影像特征分成6類。
表1 常用DCE-MRI影像特征
盡管常用的乳腺 X線攝影和超聲的影像特征與DCE-MRI基本一致,主要包括大小、形態(tài)學(xué)和增強(qiáng)紋理特征,但DCE-MRI的特征值多數(shù)是基于體素計(jì)算的,而乳腺X線攝影檢查和超聲的影像特征值均是基于像素的。與DCE-MRI相比,乳腺X線攝影通常還包含其他影像特征,如腫塊最大直徑、乳腺密度、鈣化大小類型、周圍結(jié)構(gòu)扭曲等,超聲圖像也包含超聲方向、回聲類型、后段聲學(xué)特征等影像特征[16-17,23]。然而,乳腺 X線攝影檢查和超聲圖像均缺少動(dòng)力學(xué)曲線評(píng)估、增強(qiáng)方差動(dòng)力學(xué)和薄壁組織增強(qiáng)相關(guān)的特征,而這3類特征均是DCE-MRI獨(dú)特的影像學(xué)特征[16-17,19]。
影像基因組學(xué)是在基因組大數(shù)據(jù)與醫(yī)學(xué)影像大數(shù)據(jù)融合發(fā)展趨勢(shì)下形成的。針對(duì)人類重大疾病,通過影像基因組學(xué)研究挖掘基因組特征與影像特征之間的聯(lián)系,進(jìn)而利用影像特征反映基因活動(dòng),實(shí)現(xiàn)疾病相關(guān)基因活動(dòng)的非侵入式診斷。目前,針對(duì)乳腺癌基因特征和影像特征的關(guān)聯(lián)分析研究是多層次的,主要包括基因序列水平、基因表達(dá)水平和分子亞型水平,圖 1展示了癌癥影像檔案(the cancer imaging archive,TCIA)數(shù)據(jù)庫(kù)收錄的1例乳腺癌患者DCEMRI影像切片[24],通過影像特征提取,在這3個(gè)不同的基因水平上進(jìn)行關(guān)聯(lián)分析。
圖1 女,白種人,53歲,右乳浸潤(rùn)性導(dǎo)管癌。矢狀位T1增強(qiáng)后MRI影像切片。DCE-MRI檢查可見右側(cè)乳房?jī)?nèi)外上象限有明顯的腫瘤病灶(箭)。通過特征提取和計(jì)算,可獲得該腫瘤的體積(7700.99 mm3)、腫瘤最大3D直徑(45.39 mm)、偏度(-0.25)、峰度(2.86)等定量影像特征,結(jié)合該患者相應(yīng)的基因組數(shù)據(jù)(SNP位點(diǎn)、基因表達(dá)量等)進(jìn)行系統(tǒng)全面的融合分析
3.1 基因序列水平上的關(guān)聯(lián)分析 基因序列水平上的關(guān)聯(lián)分析指通過建立乳腺癌易感基因和 SNP位點(diǎn)信息與影像特征之間的聯(lián)系,從而發(fā)掘乳腺癌基因特征與影像表型間的相關(guān)性。
Yamamoto等[18]對(duì)來(lái)源于腫瘤表達(dá)項(xiàng)目 expO數(shù)據(jù)庫(kù)的353例乳腺癌患者,在全基因組范圍內(nèi)獲得高差異性表達(dá)基因,人工評(píng)估了26個(gè)定性MRI影像特征,然后利用斯皮爾曼等級(jí)相關(guān)系數(shù)建立基因與影像特征之間的關(guān)聯(lián),并進(jìn)行基因集富集分析(gene set enrichment analysis,GSEA),結(jié)果顯示,21個(gè)影像特征與71%的基因存在全基因組范圍內(nèi)的關(guān)聯(lián);12個(gè)影像特征和乳腺癌基因集存在顯著關(guān)聯(lián),11個(gè)影像特征與預(yù)后基因集存在關(guān)聯(lián)。該研究初步嘗試了在易感基因和影像特征之間建立聯(lián)系,隨后部分研究人員利用體細(xì)胞基因突變和SNP信息進(jìn)行了類似的研究。Zhu等[19]利用癌癥基因組圖譜和TCIA中 91例乳腺癌患者的基因組信息和 MRI數(shù)據(jù)進(jìn)行了綜合全面的關(guān)聯(lián)分析研究。該研究中的MRI定量影像特征是基于ROI方式獲得的,研究使用的體細(xì)胞突變數(shù)據(jù)來(lái)源于外顯子組測(cè)序結(jié)果,在選取乳腺癌患者中最常見的體細(xì)胞突變后,引入患者年齡和腫瘤病理學(xué)分級(jí)作為調(diào)整參數(shù),構(gòu)建了以下的一般線性回歸模型用于關(guān)聯(lián)分析。
其中,xi表示患者i的影像特征值,mi表示患者i有無(wú)突變的值(0或1),ai表示患者i的年齡,g2,i和g3,i代表患者i的腫瘤病理學(xué)分級(jí),ε為偏差。結(jié)果顯示,某些突變頻率較高的基因與影像特征存在顯著關(guān)聯(lián),如該研究顯示GATA3基因突變與腫瘤大小、形態(tài)不規(guī)則性以及總熵特征呈負(fù)相關(guān),由于腫瘤大小、不規(guī)則性等特征通常是反映腫瘤惡性程度和侵襲力的標(biāo)志,因此可以推斷 GATA3基因突變可能不是腫瘤惡化發(fā)展的驅(qū)動(dòng)突變。
Liu等[11]的研究納入336例患者和375例對(duì)照,首次進(jìn)行了乳腺癌SNP特征和影像特征的關(guān)聯(lián)分析,使用55個(gè)SNP和49個(gè)乳腺X線攝影影像特征,這些影像特征是依據(jù) BI-RADS獲得的定性評(píng)估結(jié)果。該研究通過在給定狀態(tài)下,計(jì)算SNP和乳腺X線攝影檢查影像特征的條件互信息。
其中,X表示一個(gè)離散的SNP特征值,Y表示一個(gè)離散的影像特征值,Z代表乳腺癌的狀態(tài)值。研究者利用自助采樣法,按照有無(wú)風(fēng)險(xiǎn)等位基因?qū)NP特征進(jìn)行二值化處理進(jìn)行分析,結(jié)果表明,有11組SNP-影像特征對(duì)與乳腺癌發(fā)生風(fēng)險(xiǎn)存在顯著關(guān)系,其中 6對(duì)與風(fēng)險(xiǎn)增加有關(guān),5對(duì)與風(fēng)險(xiǎn)降低有關(guān)。
3.2 基因表達(dá)水平上的關(guān)聯(lián)分析 基因表達(dá)水平上的關(guān)聯(lián)分析是基于基因和蛋白表達(dá)譜數(shù)據(jù),建立表達(dá)差異特征與影像特征之間的相關(guān)性,從而發(fā)現(xiàn)乳腺癌在轉(zhuǎn)錄翻譯水平上的活動(dòng)特征與影像表型之間的關(guān)系。乳腺癌相關(guān)基因通路、預(yù)后風(fēng)險(xiǎn)評(píng)估與影像特征的關(guān)聯(lián)分析均是目前的研究熱點(diǎn)。
基因通路能夠反映乳腺癌在發(fā)生及發(fā)展過程中基因活動(dòng)和轉(zhuǎn)錄活動(dòng)的變化規(guī)律。Zhu等[19]從京都基因與基因組百科全書(Kyoto encyclopedia of genes and genomes,KEGG)中獲取乳腺癌相關(guān)的基因通路,利用GSEA尋找與38個(gè)影像特征相關(guān)的基因通路。部分結(jié)果顯示,很多KEGG通路與影像特征均存在顯著關(guān)聯(lián),尤其與病灶體積、有效直徑、表面積和最大線性尺寸呈顯著正相關(guān),與邊緣銳度、徑向梯度直方圖方差呈顯著負(fù)相關(guān)。同時(shí),該研究還使用 P53、鈣黏素等142種蛋白質(zhì)的RPPA數(shù)據(jù),借助線性回歸模型,分析蛋白質(zhì)表達(dá)特征與影像特征的相關(guān)性,結(jié)果表明蛋白質(zhì)表達(dá)特征僅與腫瘤的大小和形態(tài)學(xué)特征存在一定的相關(guān)性。
預(yù)后風(fēng)險(xiǎn)分析對(duì)于術(shù)后治療方案的選擇和生存評(píng)估具有重要指導(dǎo)意義。乳腺癌21基因Oncotype DX檢測(cè)技術(shù)可通過檢測(cè)和分析 21個(gè)與乳腺癌密切相關(guān)的基因的RNA表達(dá)量,實(shí)現(xiàn)10年內(nèi)復(fù)發(fā)風(fēng)險(xiǎn)評(píng)分。Ashraf等[25]借助Oncotype DX對(duì)56例患者進(jìn)行風(fēng)險(xiǎn)評(píng)分,并與MRI影像特征進(jìn)行關(guān)聯(lián)分析。研究者通過對(duì)影像特征的無(wú)監(jiān)督聚類分析,將其分為4個(gè)影像表型,然后建立一個(gè)多元線性回歸模型,用于分析影像特征與復(fù)發(fā)風(fēng)險(xiǎn)的相關(guān)性。結(jié)果表明,MRI影像特征與乳腺癌復(fù)發(fā)風(fēng)險(xiǎn)評(píng)分之間存在中等程度的相關(guān)性;再將影像表型分類結(jié)果作為附加變量加入分類器中后,ROC曲線下面積從0.77增加到0.82。該研究是最早嘗試了在影像特征和乳腺癌復(fù)發(fā)風(fēng)險(xiǎn)評(píng)分之間建立聯(lián)系,隨后 Li等[21]和 Wan等[26]于 2016年進(jìn)行了更加深入的研究,擬將影像診斷與臨床分子診斷結(jié)果相結(jié)合,以期對(duì)乳腺癌的臨床診療和預(yù)后提供更加全面的指導(dǎo)。
3.3 分子亞型水平上的關(guān)聯(lián)分析 分子亞型是基于分子診斷的分類結(jié)果,體現(xiàn)出一定的臨床差異性,但當(dāng)涉及的患者樣本空間較大時(shí),對(duì)所有樣本進(jìn)行基因分析的成本較高,有些研究者會(huì)采用免疫組化法獲得乳腺癌分子亞型的分類結(jié)果[27-28]。分子亞型水平上的關(guān)聯(lián)分析指對(duì)不同的乳腺癌分子亞型與影像診斷特征進(jìn)行關(guān)聯(lián)分析,挖掘并建立不同分子亞型和影像特征之間的相關(guān)性。結(jié)果可對(duì)臨床上乳腺癌的綜合診斷、治療和預(yù)后風(fēng)險(xiǎn)分析等均具有較強(qiáng)的參考價(jià)值。Mazurowski等[4]利用半自動(dòng)化方式從48例患者中提取出23個(gè)MRI影像特征,通過基因表達(dá)分析獲得4類分子亞型。該研究的關(guān)聯(lián)分析分為兩部分:第一部分是分別對(duì)4種分子亞型進(jìn)行多元邏輯回歸分析,影像特征作為自變量,分子亞型是因變量,其目的在于獲取與影像特征存在潛在關(guān)聯(lián)的乳腺癌分子亞型,第二部分工作則是分析特定的分子亞型與每一個(gè)影像特征之間具體的關(guān)聯(lián)性。研究者選取了患者年齡、絕經(jīng)期狀態(tài)以及MRI的方向作為模型潛在的混雜變量,用于分析影像特征與特定分子亞型間的關(guān)聯(lián)性,最后用Bonferroni對(duì)多重假設(shè)檢驗(yàn)進(jìn)行校正,結(jié)果表明luminal-B型乳腺癌與動(dòng)態(tài)造影劑增強(qiáng)特征存在關(guān)聯(lián)(P=0.0015),即病灶增強(qiáng)比和背景組織增強(qiáng)比的比值越高,越可能是luminal-B型。
近年來(lái),影像基因組學(xué)在腦失調(diào)性疾病和癌癥的研究中逐漸興起,乳腺癌的影像基因組學(xué)研究始于2012年:從一開始通過統(tǒng)計(jì)學(xué)分析的方法在全基因組范圍內(nèi)尋找基因組特征與影像特征之間的聯(lián)系,篩選潛在的候選特征,到現(xiàn)在越來(lái)越多的研究去驗(yàn)證影像特征與特定基因特征間的關(guān)系。作為乳腺癌影像基因組學(xué)研究的主要任務(wù),建立乳腺癌特定分子亞型與影像特征的關(guān)聯(lián),一方面有助于尋找能夠替代或輔助免疫組化實(shí)現(xiàn)對(duì)乳腺癌分子亞型進(jìn)行分類的影像特征,另一方面發(fā)掘特定分子亞型與影像特征的關(guān)聯(lián),能夠?qū)崿F(xiàn)以非侵入的方式獲得基因及其轉(zhuǎn)錄、翻譯活動(dòng)的相關(guān)信息,對(duì)臨床上實(shí)現(xiàn)綜合準(zhǔn)確的非侵入式乳腺癌診斷具有重要作用。乳腺癌影像基因組學(xué)發(fā)展迅速,但也面臨著諸多挑戰(zhàn),其中最主要的挑戰(zhàn)是符合納入標(biāo)準(zhǔn)的患者樣本量較少。此外,腫瘤病灶的全自動(dòng)識(shí)別與分割難度較大,目前多數(shù)研究仍是基于ROI的方式提取特征,并且存在缺少統(tǒng)一規(guī)范的特征選擇標(biāo)準(zhǔn)的問題[29-30]。盡管如此,隨著大數(shù)據(jù)時(shí)代的到來(lái)、深度學(xué)習(xí)的發(fā)展以及精準(zhǔn)醫(yī)療的需求,乳腺癌影像基因組學(xué)在可預(yù)見的未來(lái)具有廣闊的發(fā)展空間和重要的臨床應(yīng)用潛力。