顧兆偉,張立忠,劉曉峰,譚 先
(1.長春中醫(yī)藥大學附屬第三臨床醫(yī)院 腦病康復科,長春 130000;2.長春市朝陽區(qū)清和社區(qū)衛(wèi)生服務(wù)中心,長春 130000;3.空軍杭州特勤療養(yǎng)中心 康復理療科,杭州 310000;4.東北師范大學 信息科學與技術(shù)學院,長春 130000)
在高通量測序等生物技術(shù)的發(fā)展下,精準醫(yī)療模式已開始為臨床診療提供新的方法與技術(shù)。精準醫(yī)療是指與患者分子生物病理學特征相匹配的個體化診斷和治療策略[1]。在對癌癥患者的個體化診斷和治療過程中,精準醫(yī)療模式希望通過患者的基因型與基因表達等個體化數(shù)據(jù)為治療方案提供指導。礙于有限的數(shù)據(jù)及治療方法,這項工作仍充滿爭議與挑戰(zhàn)[2-3]。
癌癥藥物治療是目前治療癌癥的主要手段之一。通過將患者的個體數(shù)據(jù)結(jié)合系統(tǒng)生物學的研究成果,實現(xiàn)對不同抗癌藥物治療效果的精準預測是癌癥精準醫(yī)療的發(fā)展趨勢?;诠δ苄詫嶒灥囊恍嶒灧椒ù嬖诤臅r長(如類器官培養(yǎng)法、循環(huán)腫瘤細胞增殖法),成本昂貴和對實驗設(shè)備要求高等局限性(如四甲基偶氮唑鹽比色法)[4],而使用生物信息學中基于計算機算法的計算方法可以在僅獲取部分患者基因組信息的前提下,為問題提供新的實驗方法和研究思路。目前已有大量的研究成果證實了使用計算方法預測抗癌藥物作用效果的可行性。
目前研究的數(shù)據(jù)源多數(shù)是使用克隆培養(yǎng)的癌癥細胞系(Cancer cell line)數(shù)據(jù)。癌癥細胞系有著無限繁殖、易于測序的特點。除了在醫(yī)學研究試驗中有著廣泛應用,其多組學概況和細胞增殖實驗數(shù)據(jù)也被計算實驗所青睞。在上世紀90年代,由美國國家癌癥研究所(National Cancer Institute)發(fā)表的NCI-60匯總了多種抗癌藥物對60種癌癥細胞系的作用效果,并在多個計算方法實驗中驗證了使用癌癥細胞系概況數(shù)據(jù)預測抗癌藥物作用的可行性[5-7]。而近些年發(fā)表并不斷更新的CCLE(Cancer Cell Line Encyclopedia,癌細胞系百科全書)[8]、GDSC(Genomics of Drug Sensitivity in Cancer,癌癥藥物敏感性基因組學)[9]和CTRP(Cancer Therapeutics Response Portal,癌癥治療反應門戶網(wǎng))[10]等為計算方法實驗提供了更為豐富有效的素材。CCLE匯集了多個細胞系對24種抗癌藥物的作用,而GDSC匯集了200余種藥物對1 001個細胞系的作用效果,并且在兩個數(shù)據(jù)源中也包含了癌癥細胞系的基因表達、編碼基因突變、甲基化和拷貝數(shù)(變異)等數(shù)據(jù)。CTRP也是以小分子藥物和探針對細胞系影響為研究對象的數(shù)據(jù)庫,相較于前兩者,CTRP更加重視藥物和靶標的關(guān)系而非細胞系本身的概況。
除細胞系數(shù)據(jù)以外,根據(jù)研究者研究問題的不同角度,有一些成熟的數(shù)據(jù)庫可以應用在研究之中。在研究癌癥問題常用的基因表達關(guān)系數(shù)據(jù)中,由美國國立生物技術(shù)信息中心(National Center for Biotechnology Information,NCBI)發(fā)布的GEO(Gene Expression Omnibus)數(shù)據(jù)庫[11]常被使用。而在分析單點突變時,單核苷酸多態(tài)數(shù)據(jù)庫dbSNP[12]也常用于作為背景數(shù)據(jù)庫之一。研究之中常見的數(shù)據(jù)源還有生物通路如KEGG數(shù)據(jù)庫[13]和蛋白質(zhì)組學相關(guān)的,如包含蛋白質(zhì)互作(Protein-protein interaction)關(guān)系的數(shù)據(jù)庫STRING[14]、BioGRID[15]等。在研究非細胞系問題上,以臨床病人樣本為核心的TCGA(The Cancer Genome Atlas)數(shù)據(jù)庫包含了多樣本、多分型和多角度的相關(guān)數(shù)據(jù),在本問題中也常被使用。
區(qū)別于臨床研究中常用的數(shù)學統(tǒng)計方法(如表達相關(guān)性研究[16]),計算方法(Computational method)更加強調(diào)整體性,有著明確的步驟與輸入輸出(見圖1)。計算方法對抗癌藥物作用效果的預測目的是提供一個臨床前研究模型或系統(tǒng),一般通過使用患者(或細胞系)的基因型數(shù)據(jù)作為模型的輸入,以該模型或系統(tǒng)根據(jù)患者(或細胞系)基因型所預測出來的單種或多種藥物敏感性作為輸出。根據(jù)模型所基于的不同算法類別,可分為三類。
圖1 計算方法的研究流程Fig.1 Research flow of calculation method
在生物的生命活動機制中,網(wǎng)絡(luò)這一概念廣泛存在。如蛋白質(zhì)互作網(wǎng)絡(luò)、基因調(diào)控網(wǎng)絡(luò)(Gene regulatory network),生物通路和共表達網(wǎng)絡(luò)(Co-expression network)等。在研究癌癥問題時,將生物數(shù)據(jù)以網(wǎng)絡(luò)的方式建模可以更好地描述患者基因、蛋白間的關(guān)系,并應用適用于網(wǎng)絡(luò)結(jié)構(gòu)的算法進行分析從而實現(xiàn)預測對抗癌藥物預測的功能。
在目前已有的研究成果中,多是將癌癥細胞系與藥物構(gòu)建成異質(zhì)性網(wǎng)絡(luò)再結(jié)合多組學數(shù)據(jù)進行分析。Wei[17]等觀察到具有相似基因型的細胞系和結(jié)構(gòu)相似的藥物間的作用關(guān)系存在高度關(guān)聯(lián),以此為依據(jù)構(gòu)建了一個通過皮爾遜相關(guān)系數(shù)(Pearson correlation coefficient)來表示細胞系間關(guān)系的混合網(wǎng)絡(luò)模型。Zhang[18]等根據(jù)藥物和細胞系的敏感與抵抗關(guān)系構(gòu)建異質(zhì)性網(wǎng)絡(luò),再將網(wǎng)絡(luò)關(guān)聯(lián)上基因表達、藥物化學結(jié)構(gòu)相似度等信息,然后在網(wǎng)絡(luò)上執(zhí)行信息流算法(Information flow-based algorithm),求出原始數(shù)據(jù)中沒有關(guān)聯(lián)的藥物與細胞系間的打分。Yang[19]等通過將基因組數(shù)據(jù)整合蛋白質(zhì)互作網(wǎng)絡(luò)和細胞系的功能注釋,開發(fā)了一個反應網(wǎng)絡(luò)模型來預測藥物反應的工具。Stanfield[20]等提出了一個將基因根據(jù)蛋白質(zhì)互作網(wǎng)絡(luò)相連,再將癌癥細胞系數(shù)據(jù)和基因相連建成異質(zhì)性網(wǎng)絡(luò)的方法。以上均是構(gòu)建異質(zhì)性網(wǎng)絡(luò)直接預測的研究,也有通過網(wǎng)絡(luò)分析細胞系數(shù)據(jù)得出輔助結(jié)論的研究成果。Choi[21]等提出了將癌癥基因組學結(jié)合網(wǎng)絡(luò)動力學的方法進行分析,通過使用吸引子景觀分析(Attractor landscape analysis)方法,以p53的基因調(diào)控網(wǎng)絡(luò)為例揭示了其中可能作為藥物靶點的重要基因。Speyer[22]等分析了CTRP上368個小分子藥物對810個細胞系上的影響,通過通路數(shù)據(jù)和與通路數(shù)據(jù)對應的差異依賴網(wǎng)絡(luò)來發(fā)現(xiàn)細胞系對藥物作用的特異性基因。
相較于其他算法,網(wǎng)絡(luò)分析方法解釋性相對更強,更符合目前對生物數(shù)據(jù)的認知。但是礙于構(gòu)建網(wǎng)絡(luò)的數(shù)據(jù)源并不完備、部分關(guān)系未得到檢測且已知的偏向于已被大量研究的基因和疾病[23],由此會使某些潛在驅(qū)動基因得不到算法的重視從而影響對藥物反應的預測結(jié)果。
機器學習是人工智能領(lǐng)域的重要方法,旨在讓模型從已知的數(shù)據(jù)特征出發(fā),通過學習得到規(guī)律以預測未知數(shù)據(jù)。在本問題的研究中,應用機器學習方法是主要的研究手段,創(chuàng)新點主要集中于提出新的算法、新的特征或降低預測所需的數(shù)據(jù)維度。
Riddick[6]等對NCI-60數(shù)據(jù)使用了隨機森林(Random forest)算法,為機器學習方法在本問題上的應用做出了鋪墊。Menden[24]等使用了基因組數(shù)據(jù)和藥物的化學性質(zhì)共同預測藥物敏感性,使用的是人工神經(jīng)網(wǎng)絡(luò)(Artificial neural network,ANN)模型。Supahvilai[25]等提出一種基于推薦系統(tǒng)(Recommender system)思想的方法,根據(jù)藥物和細胞系對潛在“藥物基因組”空間的學習,預測未知細胞系的抗癌藥物作用。Zhang[26]等在推薦系統(tǒng)的基礎(chǔ)之上,采用混合內(nèi)插加權(quán)協(xié)同過濾(Hybrid interpolation weighted collaborative filtering)的方法。Ruffalo[27]等使用了多任務(wù)學習的方法重構(gòu)了藥物作用網(wǎng)絡(luò),證實了多任務(wù)學習在對藥物敏感性預測上的可行性。Wang[28]等使用了DiffRank、GSVA、PLAGE和Z-score四種方法基于通路的活性進行了無監(jiān)督的學習,該工作減少了預測所需的特征。HUSSAIN[29]等嘗試使用了Apache Spark算法并取得了良好的表現(xiàn)。Knowles[30]等基于貝葉斯非參數(shù)方法提出了一個多任務(wù)回歸模型。Dhruba[31]等使用了遷移學習解決了CCLE和GDSC在數(shù)據(jù)源上的差異問題。CHEN[32]等為了融合問題中涉及到的多組學特征,提出了一種雙層選擇的方法。Kim[33]等在樸素貝葉斯(Naive Bayes)模型中使用了蛋白質(zhì)組學的反相蛋白質(zhì)矩陣作為特征,為多組學研究提供了參照。以上研究表明機器學習算法在本研究中已取得了一定的成果,但在對問題的定義、特征的選擇等方面仍有一定的研究空間。
深度學習技術(shù)是通過增加人工神經(jīng)網(wǎng)絡(luò)算法中的網(wǎng)絡(luò)層數(shù),從而加強模型的學習能力。使用深度學習方法,可以讓網(wǎng)絡(luò)以原始數(shù)據(jù)作為訓練樣本自提特征以跳過傳統(tǒng)的特征選擇步驟。近些年深度學習技術(shù)在圖像識別、自然語言處理等領(lǐng)域均取得了較大的突破。而在對抗癌藥物作用的預測中,深度學習的各種網(wǎng)絡(luò)結(jié)構(gòu)在被研究者嘗試使用并有了一部分的研究成果。Chiu[34]等使用了體細胞突變數(shù)據(jù)和基因表達數(shù)據(jù),通過使用自編碼器(Autoencoder)進行了預訓練,再將預訓練網(wǎng)絡(luò)的中間層結(jié)果作為特征構(gòu)建了預測網(wǎng)絡(luò)模型。Chang[35]等將基因突變數(shù)據(jù)結(jié)合藥物分子指紋數(shù)據(jù)使用了卷積神經(jīng)網(wǎng)絡(luò)(Convolutional neural network,CNN)進行預測。Su[36]等使用了深度非網(wǎng)絡(luò)模型——深度森林(Deep forest)對CCLE和GDSC上的數(shù)據(jù)進行了預測。Xia[37]等為了緩解訓練中的梯度消失嘗試了深度殘差網(wǎng)絡(luò)(Deep residual network)。
因為不同工作在數(shù)據(jù)選擇和測試算法上有所差異,所以無法直接評價算法間的優(yōu)劣程度,但是從算法指標上看深度學習確實在本問題上有所突破,如Xia[37]等的工作在NCI-60數(shù)據(jù)集上將預測的均方誤差降到了0.015 8;Chang[35]等在工作的比照實驗中使用了SVM算法和隨機森林算法但效果均不如深度學習。而對深度學習算法的研究是熱點與前沿,近年常有大量新改進的和新提出的算法,其網(wǎng)絡(luò)設(shè)計的基本原理也在被不斷發(fā)現(xiàn)。所以雖然目前并沒有太多研究成果,但未來本問題的研究在深度學習方法上將有很大的提升空間。
在研究抗癌藥物作用效果的問題上,相較于傳統(tǒng)的基因檢測和功能性實驗的方法[38-40],使用計算方法有著時間短、成本低的優(yōu)點。然而使用計算方法仍存在瓶頸。首先,細胞系不同于癌癥患者身上的腫瘤細胞,缺少空間結(jié)構(gòu)、微環(huán)境等重要影響因素。其次,癌癥具有異質(zhì)性,預測的藥物作用結(jié)果只能通過患者細胞樣本與細胞系的相似程度,通過計算模型預測患者對某種藥物的敏感或抵抗,這顯然有因誤差而出現(xiàn)錯誤判斷的可能。最后,一些計算模型雖然表現(xiàn)良好,但是其缺乏可解釋性,研究者無法通過其算法的計算機理為解釋癌癥進行指導。
而在精準醫(yī)療與癌癥診療結(jié)合的路上也并不平坦,因為缺乏產(chǎn)出和通過一些隨機性試驗結(jié)果[41]的驗證,癌癥精準醫(yī)療的意義曾受到質(zhì)疑[2-3]。但隨著越來越多有積極意義研究成果的發(fā)表,癌癥精準醫(yī)療的理念得到了更多的側(cè)面驗證,雖然離它的徹底實現(xiàn)研究者們?nèi)匀沃氐肋h。
對基于計算方法視角的抗癌藥物作用預測以及整個癌癥精準醫(yī)療的發(fā)展有如下展望:
1)嘗試前沿計算機算法,與算法發(fā)展相輔相成。計算方法的核心是計算機算法,研究者通過嘗試前沿的算法有提高模型表現(xiàn)的可能性。如深度學習是目前生物學信息學方向的應用熱點之一,如上文所述,已經(jīng)有研究成果證實深度學習可以在對抗癌藥物作用效果預測上取得良好的效果。而隨著研究人員對深度學習算法的不斷創(chuàng)造與改進,在本問題上可以預見會有較大的提升空間。
2)標準化實驗數(shù)據(jù),普及精準醫(yī)療概念。所參考的文獻證實了可以直接使用計算方法分析標準化后的癌癥臨床數(shù)據(jù)。而能否獲取更多可以用于計算分析的數(shù)據(jù),取決于醫(yī)療從業(yè)人員是否有意識地采集有一定規(guī)范性、可以用于計算實驗的數(shù)據(jù)。提高醫(yī)療從業(yè)人員對精準醫(yī)療概念的認識可以加快其發(fā)展進程。同樣由數(shù)據(jù)科學家更新發(fā)布的數(shù)據(jù)庫數(shù)據(jù)也可為計算方法提供更多的實驗數(shù)據(jù)來訓練更符合實際情況的計算模型。對本問題的研究從早期的NCI-60數(shù)據(jù)源發(fā)展到GDSC和CCLE等大型的數(shù)據(jù)庫階段,其模型的泛化能力已有了顯著的提高。
3)多角度分析癌癥并設(shè)計實驗。對抗癌藥物作用的影響因素有很多,如點突變、染色體變異、基因表達量變化等。一般計算方法只選取其中一種或幾種作為模型的輸入特征,很少有實驗能夠全面綜合多組學和多因素來訓練模型。所以如何融合多角度數(shù)據(jù)訓練出能多方面觀測患者(或細胞系)基因型的模型是未來可以突破的關(guān)鍵點之一。但與此而來的數(shù)據(jù)量少、不全,特征權(quán)重平衡等問題也需要在實驗設(shè)計階段有足夠的理論支持。
4)消除臨床實驗與計算實驗的隔閡。一直以來,臨床實驗和計算實驗都不能很好地融合。臨床實驗一般傾向于數(shù)據(jù)來源和采樣方法的獨特性,而在分析過程中多使用數(shù)學統(tǒng)計方法,分析結(jié)果僅能揭示現(xiàn)象缺乏直接應用價值。計算實驗強調(diào)模型的表現(xiàn)和特征選擇的合理性,最終的實驗結(jié)果有一定應用價值但因為缺乏解釋性容易不被臨床所接受。筆者認為,如何能在設(shè)計實驗時將臨床與計算兩者結(jié)合是本問題乃至整個癌癥精準醫(yī)療取得突破進展的關(guān)鍵點。如用計算方法將臨床研究結(jié)果轉(zhuǎn)化為臨床前模型和用臨床方法檢驗計算實驗發(fā)現(xiàn)的生物標志物等,都值得研究人員嘗試。
綜上所述,計算方法有著一定的局限性,但在抗癌藥物作用的預測問題上有著良好的表現(xiàn)和可以預期的提升空間。如何更好地使用計算方法是癌癥精準醫(yī)療未來發(fā)展的重點之一。