余樂(lè)正, 柳鳳娟, 李東海, 郭延芝, 李益洲
(1. 貴州師范學(xué)院化學(xué)與材料學(xué)院, 貴陽(yáng) 550018; 2. 四川大學(xué)化學(xué)學(xué)院, 成都 610065)
惡性腫瘤(癌癥)是當(dāng)今對(duì)人類健康和生命威脅最大的疾病之一,并已成為我國(guó)人口死亡的首要原因[1]. 由于具有發(fā)展速度快、侵襲性強(qiáng)、易轉(zhuǎn)移復(fù)發(fā)、預(yù)后差等特點(diǎn),大多數(shù)癌癥在晚期才被發(fā)現(xiàn),導(dǎo)致治療難度大,死亡率極高.現(xiàn)代醫(yī)學(xué)研究結(jié)果表明,癌癥越早被發(fā)現(xiàn),其治愈的幾率就越高. 因此,實(shí)現(xiàn)對(duì)早期癌癥的有效檢測(cè)已成為治愈癌癥、延長(zhǎng)患者生命的關(guān)鍵[2]. 在癌癥的發(fā)生發(fā)展過(guò)程中,腫瘤細(xì)胞會(huì)釋放出一類反映癌癥存在與生長(zhǎng)的物質(zhì)——腫瘤標(biāo)志物. 腫瘤標(biāo)志物可存在于血液、體液、細(xì)胞或組織中,主要包括RNA,DNA,蛋白質(zhì)等生物活性分子[3]. 通過(guò)對(duì)該類物質(zhì)的快速準(zhǔn)確檢測(cè),可為判斷是否患有癌癥、癌癥類別、癌癥分期、預(yù)后效果等提供實(shí)驗(yàn)依據(jù). 由于不同發(fā)展階段、不同種類的癌細(xì)胞分泌出的蛋白質(zhì)類型和表達(dá)水平不盡相同,近年來(lái)分泌蛋白已成為腫瘤標(biāo)志物的主要來(lái)源之一[4-9]. 例如,甲胎蛋白(AFP)、α-L-巖藻糖苷酶(AFU)、高爾基體蛋白73(GP73)等已成為肝癌臨床診斷的主要檢測(cè)指標(biāo)[10],前列腺特異性抗原(PSA)則是前列腺癌最重要的早期檢測(cè)指標(biāo)[11].
根據(jù)是否含有N端信號(hào)肽,分泌蛋白可簡(jiǎn)單分為經(jīng)典分泌蛋白(CSPs)和非經(jīng)典分泌蛋白(NCSPs)兩大類[12]. 通過(guò)經(jīng)典分泌途徑與非經(jīng)典分泌途徑,蛋白質(zhì)均可被釋放到癌細(xì)胞外,并參與癌細(xì)胞的相關(guān)生理過(guò)程. 已有研究證實(shí),不同種類的癌細(xì)胞可分泌出相同的蛋白質(zhì),且這些蛋白質(zhì)的分泌主要依賴于非經(jīng)典分泌途徑[13]. 因此,對(duì)癌細(xì)胞非經(jīng)典分泌蛋白進(jìn)行系統(tǒng)深入的研究,可為尋找到不同種類癌癥間通用的腫瘤標(biāo)志物提供理論參考. 基于蛋白質(zhì)序列信息和支持向量機(jī)(SVM)算法,通過(guò)嚴(yán)格的特征篩選,本文構(gòu)建了一個(gè)二元分類器以快速準(zhǔn)確地識(shí)別癌細(xì)胞非經(jīng)典分泌蛋白. 對(duì)于測(cè)試集,本方法總的預(yù)測(cè)準(zhǔn)確率為99.81%,表明本方法可作為一種輔助工具用于不同種類癌癥間通用蛋白標(biāo)志物的篩選.
本實(shí)驗(yàn)所用數(shù)據(jù)主要來(lái)自于人類癌癥分泌蛋白質(zhì)組數(shù)據(jù)庫(kù)(HCSD)[14]. HCSD已收錄13種癌癥的分泌蛋白數(shù)據(jù),如肝癌、肺癌、乳腺癌、前列腺癌、胃癌、結(jié)直腸癌、鼻咽癌、宮頸癌、膠質(zhì)母細(xì)胞瘤、膀胱癌、胰腺癌、卵巢癌、淋巴瘤等. 從該數(shù)據(jù)庫(kù)中共得到23 225條癌細(xì)胞分泌蛋白,包括5 263條CSPs與17 962條NCSPs. 此外,從前期工作中[8],收集到147條CSPs與102條NCSPs作為獨(dú)立測(cè)試集.
作為現(xiàn)今最流行的機(jī)器學(xué)習(xí)算法之一,支持向量機(jī)已被廣泛應(yīng)用于解決各種分類問(wèn)題. 由于采用了結(jié)構(gòu)風(fēng)險(xiǎn)最小化準(zhǔn)則,并具有堅(jiān)實(shí)的理論支撐,支持向量機(jī)可較好地處理小樣本、高維度、非線性、局部極小點(diǎn)等問(wèn)題[15]. 在前期各類分泌蛋白的識(shí)別研究中[16-18],支持向量機(jī)均表現(xiàn)出良好的應(yīng)用效果,故本文也采用支持向量機(jī)來(lái)構(gòu)建預(yù)測(cè)模型.
為客觀準(zhǔn)確地評(píng)估模型的實(shí)際預(yù)測(cè)性能,本文選取了以下4個(gè)評(píng)價(jià)參數(shù):靈敏度(SE),特異性(SP),準(zhǔn)確率(ACC)和馬氏相關(guān)系數(shù)(MCC)[19].
(1)
(2)
(3)
MCC=
(4)
公式(1)~(4)中,TP為真陽(yáng)性,即正樣本被準(zhǔn)確識(shí)別的數(shù)量;FP表示假陽(yáng)性,即負(fù)樣本被錯(cuò)誤識(shí)別為正樣本的數(shù)量;TN表示真陰性,即負(fù)樣本被準(zhǔn)確識(shí)別的數(shù)量;FN表示假陰性,即正樣本被錯(cuò)誤識(shí)別為負(fù)樣本的數(shù)量.
為去除掉原始數(shù)據(jù)中冗余的序列信息,提高模型的穩(wěn)定性,以相似度閾值為25%,利用CD-HIT Suite[20]對(duì)原始數(shù)據(jù)進(jìn)行處理后,共得到761條CSPs和2 715條NCSPs. 隨機(jī)提取其中的70%作為訓(xùn)練集,剩余的30%作為測(cè)試集[21],故訓(xùn)練集最終由533條CSPs和1 901條NCSPs組成,而測(cè)試集則包含228條CSPs及814條NCSPs.
除所用實(shí)驗(yàn)數(shù)據(jù)與建模方法外,特征篩選在蛋白質(zhì)的分類預(yù)測(cè)研究中也發(fā)揮著非常重要的作用. 本研究分別采用氨基酸組成、自協(xié)方差變量、位置特異性得分矩陣以及信號(hào)肽來(lái)表征蛋白質(zhì)中氨基酸的序列信息、鄰接效應(yīng)、進(jìn)化信息及結(jié)構(gòu)信息.
3.2.1 氨基酸組成 氨基酸組成(AAC)代表了20種常見(jiàn)氨基酸在蛋白質(zhì)序列中出現(xiàn)的頻率,每條蛋白質(zhì)均被描述為一個(gè)20維的數(shù)字向量.
3.2.2 自協(xié)方差變量 在蛋白質(zhì)的分類研究中,自互協(xié)方差(ACC)常用于計(jì)算蛋白質(zhì)序列中氨基酸殘基間的鄰接效應(yīng). 自互協(xié)方差共包含兩種變量,即相同描述符間產(chǎn)生的自協(xié)方差變量(AC)與不同描述符間形成的互協(xié)方差變量(CC). 由于自協(xié)方差變量的維數(shù)遠(yuǎn)小于互協(xié)方差變量的,且前者對(duì)鄰接效應(yīng)的貢獻(xiàn)度遠(yuǎn)大于后者[22],故本文只采用自協(xié)方差變量來(lái)表征氨基酸殘基間的鄰接效應(yīng). 此外,前面的研究工作[23]已對(duì)自協(xié)方差變量的相關(guān)計(jì)算公式進(jìn)行了詳細(xì)描述,此處不再贅述. 由于本研究選用了疏水性、等電點(diǎn)、極性、轉(zhuǎn)移自由能、側(cè)鏈體積等5個(gè)理化性質(zhì),且氨基酸間的最大距離取值為5,故每條蛋白質(zhì)最終被轉(zhuǎn)化為一個(gè)25維的數(shù)字向量.
3.2.3 位置特異性得分矩陣 由于能有效表征蛋白質(zhì)序列中氨基酸殘基的進(jìn)化信息[24],位置特異性得分矩陣(PSSM)已被廣泛應(yīng)用于各種蛋白質(zhì)的分類研究. 利用PSI-BLAST程序(期望值閾值為10-3)對(duì)Swiss-Prot數(shù)據(jù)庫(kù)進(jìn)行搜索,并經(jīng)3次迭代后,獲得了每條蛋白質(zhì)的位置特異性得分矩陣. 通過(guò)相關(guān)公式[23]對(duì)這些矩陣進(jìn)行統(tǒng)一處理后,每條蛋白質(zhì)均被轉(zhuǎn)換為一個(gè)20維的數(shù)字向量.
3.2.4 信號(hào)肽 是否含有N端信號(hào)肽是經(jīng)典分泌蛋白與非經(jīng)典分泌蛋白結(jié)構(gòu)間最顯著的差異,故信號(hào)肽已成為區(qū)分兩者的一個(gè)重要特征. 作為目前預(yù)測(cè)能力最強(qiáng)、應(yīng)用范圍最廣的信號(hào)肽識(shí)別軟件,SignalP 4.1[25]被用于蛋白質(zhì)N端信號(hào)肽的識(shí)別,并通過(guò)D-score值予以表征.
基于上述特征,本文共建立了7個(gè)蛋白質(zhì)替代模型:模型1僅含氨基酸組成(AAC);模型2僅含位置特異性得分矩陣(PSSM);模型3為氨基酸組成與自協(xié)方差變量融合形成的偽氨基酸組成(PseAAC);模型4為氨基酸組成與位置特異性得分矩陣融合形成的偽位置特異性得分矩陣(PsePSSM);模型5由氨基酸組成與信號(hào)肽融合而成;模型6由偽氨基酸組成與信號(hào)肽融合而成;模型7由偽位置特異性得分矩陣與信號(hào)肽融合而成.
本文最終的支持向量機(jī)預(yù)測(cè)模型是通過(guò)libsvm 3.12 (http://www.csie.ntu.edu.tw/~cjlin/libsvm/)工具箱建立起來(lái)的. 選擇徑向基函數(shù)(RBF)為模型核函數(shù),并利用網(wǎng)格搜索法對(duì)模型的正則化參數(shù)C和核函數(shù)參數(shù)γ進(jìn)行優(yōu)化.此外,作為最客觀的模型性能檢測(cè)方法之一[26],留一法(Jackknife test)被用于構(gòu)建最終的預(yù)測(cè)模型.
基于3.3節(jié)描述的7個(gè)蛋白質(zhì)替代模型,本文共構(gòu)建了7個(gè)支持向量機(jī)預(yù)測(cè)模型,相關(guān)訓(xùn)練結(jié)果均列于表1中.
表1不同蛋白質(zhì)替代模型對(duì)訓(xùn)練結(jié)果的影響
Tab.1 Performance of different protein substitution models
模型Cγ準(zhǔn)確率模型18.00.585.209 5模型28.00.588.783 9模型32.00.587.921 1模型42.00.591.166 8模型50.50.031 2599.752 5模型6320.007 812 599.671 3模型72.00.599.671 3
根據(jù)模型1與模型2的訓(xùn)練結(jié)果,PSSM對(duì)蛋白質(zhì)的表征能力略優(yōu)于AAC,表明PSSM的確能較好地反映蛋白質(zhì)序列中氨基酸殘基的進(jìn)化信息. 模型3、模型4的訓(xùn)練結(jié)果表明,AC和PSSM的加入的確能有效提高模型的預(yù)測(cè)性能,且PSSM所包含的信息量多于AC的. 比較前4個(gè)模型與后3個(gè)模型的訓(xùn)練結(jié)果,信號(hào)肽的加入使得模型5~7的預(yù)測(cè)性能均有較大幅度的提升,表明信號(hào)肽在CSP與NCSP的分類研究中的確發(fā)揮著重要作用.同時(shí),正是由于信號(hào)肽對(duì)CSP和NCSP過(guò)于強(qiáng)大的區(qū)分能力,使其掩蓋了蛋白質(zhì)替代模型PseAAC與PsePSSM之間的性能差異.雖然模型5的預(yù)測(cè)準(zhǔn)確率最高,但模型7的優(yōu)化參數(shù)最為合理,包含的信息量更多,且兩者之間的預(yù)測(cè)準(zhǔn)確率相差很小,故本文選擇模型7作為最終的蛋白質(zhì)替代模型.
利用3.1節(jié)構(gòu)建的測(cè)試集,對(duì)模型5~7的實(shí)際預(yù)測(cè)性能進(jìn)行了比較,相關(guān)測(cè)試結(jié)果均列于表2中.
表2不同SVM模型對(duì)測(cè)試集的預(yù)測(cè)結(jié)果
Tab.2 Prediction results of different SVM models obtained by analyzing the test sets
蛋白質(zhì)類型CSPsNCSPs合計(jì)測(cè)試集數(shù)據(jù)2288141 042模型5準(zhǔn)確預(yù)測(cè)數(shù)2288051 033準(zhǔn)確率 (%)10098.9899.14模型6準(zhǔn)確預(yù)測(cè)數(shù)2288071 035準(zhǔn)確率 (%)10099.1499.33模型7準(zhǔn)確預(yù)測(cè)數(shù)2268141 040準(zhǔn)確率 (%)99.1210099.81
如表2所示,雖然模型5、模型6準(zhǔn)確識(shí)別出所有228條CSPs,但它們對(duì)NCSPs的預(yù)測(cè)性能均弱于模型7. 模型7不僅準(zhǔn)確識(shí)別出測(cè)試集中所有814條NCSPs,其對(duì)癌細(xì)胞分泌蛋白總的預(yù)測(cè)準(zhǔn)確率與MCC值也最高(99.81%與99.44%),表明以模型7為最終的蛋白質(zhì)替代模型是正確的.
為進(jìn)一步比較模型5~7的實(shí)際預(yù)測(cè)性能,通過(guò)2.1節(jié)提到的獨(dú)立測(cè)試集再次進(jìn)行了檢測(cè). 模型5~7均準(zhǔn)確識(shí)別出所有147條CSPs,且模型5將2條NCSPs錯(cuò)誤預(yù)測(cè)為CSPs,而模型6和模型7僅錯(cuò)誤預(yù)測(cè)1條NCSP. 進(jìn)一步的研究發(fā)現(xiàn),三個(gè)模型均錯(cuò)誤預(yù)測(cè)的蛋白質(zhì)(Q86UK5)在UniProt數(shù)據(jù)庫(kù)中被標(biāo)注為膜蛋白,SignalP 4.1也預(yù)測(cè)其為膜蛋白. 由于該蛋白質(zhì)的D-score值為0.438,與SignalP 4.1的默認(rèn)值(0.45)極為接近,這可能使得三個(gè)預(yù)測(cè)器均將其錯(cuò)誤識(shí)別為CSP. 這一結(jié)果表明在區(qū)分經(jīng)典分泌蛋白和非經(jīng)典分泌蛋白時(shí),還應(yīng)注意區(qū)分分泌蛋白與膜蛋白.
經(jīng)仔細(xì)分析癌細(xì)胞經(jīng)典分泌蛋白與非經(jīng)典分泌蛋白的各種特征,本文基于支持向量機(jī)算法構(gòu)建了一個(gè)二元分類器以快速準(zhǔn)確地識(shí)別癌細(xì)胞非經(jīng)典分泌蛋白. 研究結(jié)果表明,本方法對(duì)癌細(xì)胞非經(jīng)典分泌蛋白具有較好的預(yù)測(cè)性能,可作為一種輔助工具用于篩選不同種類癌癥間通用的蛋白標(biāo)志物.后續(xù)研究將嘗試構(gòu)建一個(gè)可快速準(zhǔn)確區(qū)分不同種類癌細(xì)胞分泌蛋白的多元分類預(yù)測(cè)器,從而為尋找到每類癌癥的特異性腫瘤標(biāo)志物提供理論參考.