• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      一種預(yù)測個體腫瘤的抗癌藥物反應(yīng)分類計算模型及其應(yīng)用*

      2022-07-21 11:52:16李少達李玉雙
      關(guān)鍵詞:抗癌細胞系敏感性

      李少達 李玉雙

      (燕山大學(xué)理學(xué)院,秦皇島 066004)

      癌癥的異質(zhì)性和遺傳多樣性,導(dǎo)致同種癌癥的患者即使采用相同的治療方法,也有可能得到不同的療效[1?3]。從患者的角度,更希望了解給定藥物是否有效。針對特定癌癥類型,如何在分子水平上探索癌細胞系對抗癌藥物的反應(yīng)已成為精準醫(yī)療的研究熱點之一[4]。基因組學(xué)的快速發(fā)展及人類基因組計劃的順利實施,誕生了海量的生物學(xué)數(shù)據(jù),為在分子水平上預(yù)測抗癌藥物臨床反應(yīng)提供了良好的數(shù)據(jù)基礎(chǔ)[5]。特別值得一提的是,2012年《自然》(Nature)雜志發(fā)表了兩項系統(tǒng)的大規(guī)模研究,癌癥基因組計劃(CGP)[6]和癌細胞百科全書(CCLE)[7],研究中所涉及到的細胞系幾乎涵蓋所有常見的癌癥類型,使得完全以數(shù)據(jù)驅(qū)動、計算建模的方式自動識別生物標志物,系統(tǒng)解析抗癌藥物反應(yīng)與癌癥細胞系基因譜之間的關(guān)系成為可能。

      研究人員借助這些數(shù)據(jù)集開發(fā)抗癌藥物反應(yīng)預(yù)測計算模型[8?11]的主要思想有兩種,一種是基于核方法預(yù)測藥物敏感性,其中最具有代表性的模型之一為支持向量機(SVM)。如Hejase 等[12]基于美國國家癌癥研究中心(NCI)數(shù)據(jù),應(yīng)用非線性SVM成功預(yù)測了藥物化合物對乳腺癌細胞的影響;Wang等[13]基于CCLE數(shù)據(jù)集,利用基因突變、拷貝數(shù)變異和基因表達等數(shù)據(jù),通過組合SVM 模型對三類特定組織下的細胞系進行了敏感性分類。另一種是基于特征提取方法預(yù)測抗癌藥物反應(yīng)。如最近Su等[14]融合基因表達和拷貝數(shù)變異,構(gòu)建了兩類 深 度 反 應(yīng) 森 林(Deep?Resp?Forest) 模 型MIMGS1 和MIMGS2,成功預(yù)測抗癌藥物對細胞系的敏感或抑制。

      上述模型大大推進了抗癌藥物反應(yīng)預(yù)測的研究進程,但在模型預(yù)測性能、應(yīng)用范圍等方面仍有可探索的空間。受以上工作啟發(fā),本文聚焦抗癌藥物敏感?抑制二分類問題,構(gòu)建了mRMR?SVM模型,從細胞系的基因表達數(shù)據(jù)出發(fā),利用“最大相關(guān)最小冗余”算法[15](mRMR)提取特征基因,借助SVM 進行分類預(yù)測,不僅降低了時間運行成本,而且提升了模型的預(yù)測性能和生物可解釋性。

      1 數(shù)據(jù)來源和數(shù)據(jù)處理

      從CCLE數(shù)據(jù)庫(http://www.broadinstitute.org/ccle)下載了1 036 個癌癥細胞系的53 619 個基因表達信息,以及504個細胞系對24種藥物的敏感性數(shù)據(jù)(敏感性指標為activity area)。進一步選出462 個既有基因表達又有藥物敏感性數(shù)據(jù)的細胞系,并用z?score 方法標準化敏感性數(shù)據(jù)。依據(jù)文獻[14],如果細胞系對藥物的敏感性值(標準化后的敏感性值)大于0.8,定義為“細胞系對藥物是敏感的”,如果小于-0.8,定義為“細胞系對藥物是抑制的”,其余數(shù)據(jù)定義為冗余數(shù)據(jù),不參與實驗。在此定義下,有2 種藥物對應(yīng)的細胞系很少,故在實驗中舍去,保留其余22 種藥物進行分類預(yù)測,其對應(yīng)細胞系的數(shù)量范圍是93~215。

      為驗證模型的泛化性能,選取另一數(shù)據(jù)庫進行實驗。從癌癥藥物敏感性基因組學(xué)數(shù)據(jù)集(GDSC)(https://www.cancerrxgene.org) 下 載 了789 個癌細胞系的12 072 個基因表達信息,655 個癌細胞系對140種藥物的敏感性數(shù)據(jù)(敏感性指標為IC50)。采用與CCLE 相同的處理方式,選取11種藥物進行分類預(yù)測,其對應(yīng)細胞系的數(shù)量范圍是76~179。

      2 mRMR-SVM模型

      本文首先利用mRMR 提取特征基因,然后構(gòu)建SVM預(yù)測抗癌藥物反應(yīng)分類及識別生物標志物。具體流程如圖1所示。

      2.1 特征基因的選取

      Fig.1 The flowchart of mRMR-SVM

      由于CCLE的基因數(shù)量大,許多基因的表達值差別不明顯,為降低模型運行成本,本文先計算每個基因在所有細胞系下的表達方差,再將基因按方差從高到低的順序進行排序,選取表達差異較大的前10 000 個基因作為候選特征基因。然后利用mRMR 算法提取得分最高的基因集合作為最終的特征基因集。具體定義如下:設(shè)x,y為隨機變量,p(x),p(y),p(x,y)為概率密度函數(shù),則x 和y之 間 的 互 信 息 為 : I(x; y) =設(shè)S為基因表達向量的集合(為方便計算,本文選取|S|= 500),c為給定藥物在所有細胞系下觀測到的“敏感?抑制”類別向量:如果第j 個細胞系對給定藥物是敏感的,其分量cj= 1;如果第j 個細胞系對給定藥物是抑制的,cj=-1。定義S與c的相關(guān)度D(S,c)=即S 中的基因表達向量與類別向量c 之間的所有互信息值的平均值,這里xi為S中第i 個基因在所有細胞系下的表達向量。定義S的冗余度即S 中基因表達向量之間所有互信息值的平均值。定義S的得分

      由于GDSC的基因數(shù)量相對較小,故在實驗中不需進行基因初篩,直接利用mRMR 算法提取特征基因。

      2.2 mRMR-SVM的構(gòu)建

      SVM 解決線性不可分問題的主要思想是:將原始低維線性不可分的分類空間映射到高維的特征空間,只要映射的空間維數(shù)足夠高,則原始空間將轉(zhuǎn)換為一個新的線性可分空間。通過在線性可分空間建立一個最優(yōu)的決策超平面,使得距離分類平面兩側(cè)最近的訓(xùn)練樣本之間距離最大,將線性不可分的數(shù)據(jù)轉(zhuǎn)化為線性可分。本文構(gòu)建的SVM 包含兩個參數(shù),即低維空間映射到高維空間的核函數(shù)以及懲罰因子C。

      利用mRMR 選取的500 個特征基因的表達數(shù)據(jù)和觀測到的反應(yīng)分類標簽來訓(xùn)練SVM,具體的mRMR?SVM構(gòu)建過程如圖2所示。

      Fig.2 The construction of mRMR-SVM

      采用交叉驗證確定模型參數(shù)及評估模型性能。首先,將數(shù)據(jù)集隨機分為90%的訓(xùn)練集和10%的測試集;為防止模型過擬合,再將訓(xùn)練集隨機平均劃分為5 份,分別用其中4 份作為訓(xùn)練集,1 份作為驗證集訓(xùn)練模型超參數(shù);最后,用測試集進行模型性能評估。上述過程重復(fù)執(zhí)行5次,測試集分類結(jié)果的均值為最終預(yù)測結(jié)果。本文所用編程語言為Python,代碼見本文網(wǎng)絡(luò)版附件。

      2.3 模型的評價指標

      本文采用ACC、AUC、precision、recall 和F1 5個指標來評價模型的預(yù)測性能。

      ACC為模型的預(yù)測準確率,具體定義為:

      其中,TP 為預(yù)測是敏感而實際也是敏感的細胞系數(shù)量,TN為預(yù)測是抑制而實際也是抑制的細胞系數(shù)量,F(xiàn)P 和FN 為預(yù)測是敏感和抑制而實際則相反的細胞系數(shù)量。

      AUC(area under curve)為利用預(yù)測結(jié)果所繪制的ROC 曲線下面積,ROC 曲線的縱坐標為TPR(true positive rate),橫坐標為FPR(false positive rate),這里TPR為真陽率,F(xiàn)PR為假陽率。

      precision為精確率,反應(yīng)了模型預(yù)測為敏感的細胞系的預(yù)測準確率,定義為:

      recall 為召回率,反應(yīng)了模型對敏感細胞系的預(yù)測準確率,定義為:

      F1 得分是綜合precision 和recall 給出的平均定義,其值越大,說明模型預(yù)測性能越好。定義為:

      3 抗癌藥物反應(yīng)分類預(yù)測結(jié)果

      模型訓(xùn)練的最優(yōu)核函數(shù)為linear。對于懲罰因子C,本文采用了兩種確定方法,第一種直接使用模型默認的參數(shù)1,第二種針對每種藥物單獨調(diào)整選出最優(yōu)參數(shù)。

      3.1 基于CCLE數(shù)據(jù)集的預(yù)測結(jié)果分析與比較

      針對CCLE數(shù)據(jù)集的22種藥物,選取C為默認值1的mRMR?SVM預(yù)測結(jié)果(表1):22種藥物的平 均ACC、AUC、precision、recall、F1 分 別 為0.897、0.966、0.898、0.892、0.888。單獨調(diào)C 的預(yù)測結(jié)果(表2):平均ACC、AUC、precision、recall、F1 分 別 為0.904、0.969、0.905、0.898、0.895。從預(yù)測結(jié)果可以看出,單獨調(diào)C 的模型預(yù)測結(jié)果更理想。

      為了闡釋mRMR 算法提取的500 個特征基因?qū)拱┧幬锓磻?yīng)分類預(yù)測的影響,一方面,利用mRMR算法提取的500個特征基因訓(xùn)練深度神經(jīng)網(wǎng)絡(luò)(DNN),簡稱mRMR?DNN。使用網(wǎng)格搜索法調(diào)參,最終確定mRMR?DNN 包含3 個隱藏層,每個隱藏層的神經(jīng)元個數(shù)分別為60、30 和30,層與層之間的激活函數(shù)分別為tanh、rectifier 和linear,輸出層的激活函數(shù)為softmax。另一方面,從經(jīng)過方差篩選出的10 000 個基因中隨機挑選500 個基因,訓(xùn)練SVM 和隨機森林(RF),兩種模型均采用網(wǎng)格搜索法調(diào)參,SVM 的最終參數(shù)C=0.1,RF的參數(shù)(決策樹的個數(shù))為80。

      Table 1 Classification result of mRMR-SVM on CCLE data set(C=1)

      Table 2 Classification result of mRMR-SVM on CCLE data set(C separately adjusted)

      在共同討論的14種抗癌藥物反應(yīng)分類預(yù)測中,mRMR?SVM(單獨調(diào)參)的平均ACC 為0.911,mRMR?DNN為0.899,SVM為0.525,RF為0.526,文獻[14]中的MIMGS1 和MIMGS2 分別為0.858、0.850,說明mRMR 算法提取的500 個特征基因?qū)拱┧幬锓磻?yīng)分類預(yù)測至關(guān)重要。圖3從整體上展示了以上6 種模型的預(yù)測性能,mRMR?SVM 明顯優(yōu)于其他5種模型。此外,與文獻[16]中的CDCN模型進行比較,在共同討論的22 種抗癌藥物的反應(yīng)分類預(yù)測中,mRMR?SVM的平均ACC為0.904,高于CDCN(0.566)。

      Fig.3 The classification accuracy of six models on CCLE data set

      3.2 基于GDSC數(shù)據(jù)集的預(yù)測結(jié)果分析與比較

      針對GDSC數(shù)據(jù)集中的11種藥物,表3展示了mRMR?SVM 在C 為默認值1 時的預(yù)測結(jié)果:平均ACC、AUC、precision、recall、F1 分別為0.839、0.909、0.850、0.840、0.834。單獨調(diào)C的預(yù)測性能進一步提升(表4),平均ACC、AUC、precision、recall、F1 分 別 為0.851、0.917、0.865、0.848、0.845。

      Table 3 Classification result of mRMR-SVM on GDSC data set(C=1)

      Table 4 Classification result of mRMR-SVM on GDSC data set(C separately adjusted)

      對于GDSC 數(shù)據(jù)集,本文同樣訓(xùn)練了mRMR?DNN:包含3個隱藏層,每層的神經(jīng)元個數(shù)分別為63、78 和86,層與層之間的激活函數(shù)分別為rectifier、linear 和tanh,輸出層的激活函數(shù)為softmax。同樣地,從GDSC 數(shù)據(jù)集12 072 個基因中隨機挑選500 個作為特征基因,訓(xùn)練了SVM(C=0.9)和RF(決策樹個數(shù)為95)。針對共同討論的11 種藥物,mRMR?SVM(單獨調(diào)C)的平均ACC 為0.851, mRMR?DNN 為0.817, SVM 為0.652,RF 為0.640,MIMGS1 為0.805,MIMGS2為0.815。圖4 從整體上展示了6 種模型的預(yù)測結(jié)果,mRMR?SVM 的預(yù)測性能明顯優(yōu)于其他5 種模型。此外,針對共同討論的7 種藥物,mRMR?SVM的平均ACC為0.861,高于文獻[16]的CDCN模型(0.630)。

      Fig.4 The classification accuracy of six models on GDSC data set

      3.3 基于三類特定組織的預(yù)測結(jié)果分析與比較

      為進一步驗證mRMR?SVM的泛化能力,受文獻[13]的啟發(fā),對CCLE數(shù)據(jù)集中三類特定組織下的細胞系,包括造血和淋巴組織(包含71 個細胞系)、皮膚組織(包含40 個細胞系)、肺組織(包含94個細胞系),針對22種抗癌藥物進行反應(yīng)分類預(yù)測??紤]到模型的泛化性,參數(shù)C 取默認值1。五次五折交叉驗證得到的平均預(yù)測結(jié)果如表5 所示。三類特定組織的平均AUC 依次達到了0.973、0.981、0.965,均優(yōu)于文獻[13]中基于基因表達、拷貝數(shù)變異、基因突變等多類數(shù)據(jù)融合的SVM(其平均AUC 依次為0.81、0.82、0.83)。該實驗表明,mRMR?SVM 對于小樣本數(shù)據(jù)集同樣具有很好的預(yù)測能力。

      Table 5 Average classification result of mRMR-SVM on three kinds of tissues

      4 生物標志物的識別

      mRMR?SVM 能夠識別出許多與癌癥發(fā)生、發(fā)展密切相關(guān)的重要基因,為抗癌藥物生物標志物的篩選提供理論參考。如在抗癌藥物17?AAG的特征基因中排序第二的TP73?AS1,已被證實在大多數(shù)腫瘤中高表達,在乳腺癌、胃癌和肝癌等腫瘤中發(fā)揮促癌基因作用,在膀胱癌中低表達并發(fā)揮抑癌基因作用[17]。PARK7在4種藥物17?AAG、Nutlin?3、Panobinostat和RAF265中均被選為Top基因。事實上,PARK7 已被確定為各種癌癥的發(fā)病機制和生存的高危因素,它增強了腫瘤的起始、增殖、轉(zhuǎn)移和復(fù)發(fā),以及對化療的抵抗力[18]。有文獻發(fā)現(xiàn),PQLC2 的上調(diào)對于體外和體內(nèi)胃癌的發(fā)展至關(guān)重要,靶向PQLC2是胃癌治療的有效策略[19]。本文驗證了PQLC2 不僅是具有抗胃癌活性藥物ZD?6474 的Top 基因,而且在另外3 種抗癌藥物PD?0332991、TAE684和Topotecan的特征基因排序中也位居前5。IFI6 是一個能被Ⅰ型干擾素誘導(dǎo)上調(diào)的干擾素刺激基因,在多種惡性腫瘤中高表達,能夠抵抗細胞凋亡,對腫瘤的放化療效果有一定影響[20]。文中IFI6 在5 種藥物17?AAG、Erlotinib、TKI258、ZD?6474 和AZD0530 的特征基因排序中均位居前10,與已有結(jié)果一致。

      5 結(jié) 論

      本文提出的mRMR?SVM 不僅在公共數(shù)據(jù)集CCLE、GDSC,以及三類特定組織中取得了較好的分類預(yù)測結(jié)果,而且能夠識別與抗癌藥物反應(yīng)相關(guān)聯(lián)的生物標志物,說明其可以作為抗癌藥物反應(yīng)分類預(yù)測的有效工具。此外,mRMR?SVM 具有可拓展性,可融入其他類型數(shù)據(jù)(如基因突變等)進一步提升模型的預(yù)測性能。對于模型篩選的特征基因,可以構(gòu)建特征基因信息與藥物敏感性之間的回歸模型(如嶺回歸、邏輯回歸),通過回歸系數(shù)挖掘抗癌藥物敏感性預(yù)測因子。

      附件 PIBB_20210082?prgm?S1.zip 請見本文網(wǎng)絡(luò)版(www.pibb.ac.cn或www.cnki.net)。

      猜你喜歡
      抗癌細胞系敏感性
      Fuzheng Kang' ai decoction (扶正抗癌方) inhibits cell proliferation,migration and invasion by modulating mir-21-5p/human phosphatase and tensin homology deleted on chromosome ten in lung cancer cells
      抗癌之窗快樂攝影
      抗癌之窗(2020年1期)2020-05-21 10:18:10
      三十年跑成抗癌明星
      特別健康(2018年9期)2018-09-26 05:45:26
      釔對Mg-Zn-Y-Zr合金熱裂敏感性影響
      抗癌新聞
      AH70DB鋼焊接熱影響區(qū)組織及其冷裂敏感性
      焊接(2016年1期)2016-02-27 12:55:37
      STAT3對人肝內(nèi)膽管癌細胞系增殖與凋亡的影響
      如何培養(yǎng)和提高新聞敏感性
      新聞傳播(2015年8期)2015-07-18 11:08:24
      抑制miR-31表達對胰腺癌Panc-1細胞系遷移和侵襲的影響及可能機制
      E3泛素連接酶對卵巢癌細胞系SKOV3/DDP順鉑耐藥性的影響
      剑阁县| 民丰县| 濮阳市| 外汇| 威宁| 丰都县| 探索| 宜宾县| 建德市| 右玉县| 宜黄县| 金昌市| 河津市| 修武县| 昆山市| 怀化市| 台中市| 孙吴县| 龙山县| 隆昌县| 赤壁市| 高安市| 花莲县| 泾源县| 勃利县| 西充县| 石屏县| 东兴市| 泊头市| 昭觉县| 洛阳市| 勃利县| 凤山市| 姚安县| 建始县| 田东县| 天全县| 山阴县| 依兰县| 区。| 望城县|