馬曉玉 岳欣蕾 韓佳玲
摘要:蛋白質(zhì)與適配體間的相互作用廣泛存在于生物體,且在各種生命活動(dòng)中發(fā)揮著重要作用。核酸適配體(簡(jiǎn)稱適配體)是與靶標(biāo)具有高親和力的、長(zhǎng)度大約在30~80 nt的核苷酸鏈,其與蛋白質(zhì)的特異性結(jié)合對(duì)于疾病的靶向治療研究具有重要意義。隨著大數(shù)據(jù)和人工智能的發(fā)展,基于生物信息學(xué)的蛋白質(zhì)-適配體相互作用預(yù)測(cè)及適配體篩選的計(jì)算方法的實(shí)現(xiàn)能有效解決傳統(tǒng)實(shí)驗(yàn)方法的周期長(zhǎng)、費(fèi)用高等問(wèn)題。本文就蛋白質(zhì)-適配體相互作用預(yù)測(cè)實(shí)現(xiàn)方法和以蛋白質(zhì)為靶標(biāo)的適配體的篩選方法作一綜述,以期為臨床選擇適合的預(yù)測(cè)方法提供參考。
關(guān)鍵詞:蛋白質(zhì);適配體;蛋白質(zhì)-適配體相互作用預(yù)測(cè);生物信息學(xué)
Abstract:The interaction between proteins and aptamers is widespread in organisms and plays an important role in various life activities. Nucleic acid aptamers (abbreviation form of aptamers) are high-affinity nucleotide chains with a length of about 30~80 nt, and their specific binding to proteins is of great significance for the targeted treatment of diseases. With the development of big data and artificial intelligence, the implementation of calculation methods for protein-aptamer interaction prediction and aptamer selection based on bioinformatics can effectively solve the problems of long cycle and high cost of traditional experimental methods. This article reviews the realization methods of protein-aptamer interaction prediction and the selection methods of protein-targeted aptamers, in order to provide a reference for clinical selection of suitable prediction methods.
Key words:Protein;Aptamer;Protein-aptamer interaction prediction;Bioinformatics
適配體是一類較短的核酸序列,其具有特異性和高親和力的分子結(jié)合能力[1]。盡管蛋白質(zhì)與適配體之間的相互作用具有重要的研究意義和應(yīng)用前景,但其相關(guān)研究工作也面臨著諸多難題。傳統(tǒng)的實(shí)驗(yàn)方法過(guò)程復(fù)雜、實(shí)驗(yàn)周期長(zhǎng)、費(fèi)用高,隨著數(shù)據(jù)量的增多,其弊端更加突出,需采用高效的計(jì)算方法來(lái)進(jìn)行蛋白質(zhì)-適配體相互作用的研究工作。隨著高通量測(cè)序和計(jì)算機(jī)技術(shù)的成熟與發(fā)展,機(jī)器學(xué)習(xí)和深度學(xué)習(xí)在生物信息學(xué)領(lǐng)域得到了廣泛的應(yīng)用[2-4]。本文對(duì)蛋白質(zhì)-適配體相互作用預(yù)測(cè)方法以及以蛋白質(zhì)為靶標(biāo)的適配體篩選方法作一綜述。
1蛋白質(zhì)-適配體相互作用預(yù)測(cè)實(shí)現(xiàn)方法
蛋白質(zhì)-適配體相互作用預(yù)測(cè)方法的基本框架是通過(guò)將蛋白質(zhì)與適配體的序列轉(zhuǎn)化為可用于計(jì)算的特征值,通過(guò)機(jī)器學(xué)習(xí)模型對(duì)特征空間進(jìn)行訓(xùn)練得到預(yù)測(cè)模型。特征與機(jī)器學(xué)習(xí)方法的選取和優(yōu)化是影響模型預(yù)測(cè)性能的重要因素,根據(jù)待解決問(wèn)題的特點(diǎn)提取序列的關(guān)鍵特征并選擇合適的機(jī)器學(xué)習(xí)方法至關(guān)重要。通常情況下,特征空間主要來(lái)源于對(duì)蛋白質(zhì)與適配體的序列信息的計(jì)算,特征空間的維度也是影響預(yù)測(cè)性能的重要因素。此類問(wèn)題是一種二分類的問(wèn)題,常用的機(jī)器學(xué)習(xí)分類方法包含決策樹(shù)、樸素貝葉斯、隨機(jī)森林以及支持向量機(jī)等。由于樸素貝葉斯是在各屬性相互獨(dú)立的假設(shè)上進(jìn)行的分類,因此對(duì)于特征之間相關(guān)性較大的問(wèn)題其分類效果較差。決策樹(shù)由于算法較為簡(jiǎn)單,可對(duì)較大的數(shù)據(jù)集實(shí)現(xiàn)快速的分類,但是對(duì)于缺失數(shù)據(jù)處理困難且易產(chǎn)生過(guò)擬合問(wèn)題。目前,隨機(jī)森林與支持向量機(jī)是生物信息學(xué)應(yīng)用較為廣泛的機(jī)器學(xué)習(xí)方法。
1.1隨機(jī)森林? 隨機(jī)森林(random forest)[5]是在決策樹(shù)基礎(chǔ)上進(jìn)行改進(jìn)的一種集成方法,是一種典型的Bagging算法。該算法是將多個(gè)決策樹(shù)集成一個(gè)預(yù)測(cè)精度更高的分類器,通過(guò)樣本的隨機(jī)性與屬性的隨機(jī)性以及少數(shù)服從多數(shù)的投票機(jī)制有效解決了決策樹(shù)的過(guò)擬合問(wèn)題。隨機(jī)森林方法在蛋白質(zhì)-適配體相互作用預(yù)測(cè)中實(shí)現(xiàn)了很好的預(yù)測(cè)效果。Li BQ等[6]提出了一種基于偽氨基酸的隨機(jī)森林的方法,首次實(shí)現(xiàn)了使用計(jì)算方法預(yù)測(cè)蛋白質(zhì)-適配體的相互作用,其研究通過(guò)收集Aptamer Base[7]數(shù)據(jù)庫(kù)中的蛋白質(zhì)-適配體條目構(gòu)建數(shù)據(jù)集,提取了核苷酸組成、氨基酸組成和偽氨基酸組成(PseAAC)[8]這三種特征作為模型的輸入,為減少特征冗余度和降低計(jì)算度,通過(guò)最大相關(guān)最小冗余方法(mRMR)和增量特征選擇(IFS)方法對(duì)290維的特征進(jìn)行最佳特征的篩選后得到了220維的最優(yōu)特征組合,該預(yù)測(cè)模型在獨(dú)立測(cè)試集上的預(yù)測(cè)準(zhǔn)確率為0.774,敏感性為0.483,特異性為0.871。張麗娜[9]提出一種基于多源特征提取策略和集成方法的蛋白質(zhì)-適配體相互作用預(yù)測(cè)方法,該方法使用了基于隨機(jī)森林的集成方法,通過(guò)對(duì)三個(gè)隨機(jī)森林分類器的訓(xùn)練得到三個(gè)預(yù)測(cè)模型,并將三個(gè)模型的預(yù)測(cè)結(jié)果的平均值作為最終的結(jié)果。該研究在Li BQ等[6]構(gòu)建的數(shù)據(jù)集的基礎(chǔ)上對(duì)訓(xùn)練集進(jìn)行數(shù)據(jù)重構(gòu),其基于多源特征提取策略,提取了偽K元組核苷酸組成(K分別為2和3)、離散余弦變換、二元位置特異性打分矩陣和無(wú)序區(qū)域信息[10]這些重要特征作為模型的輸入,并通過(guò)Relief-増量特征選擇方法對(duì)特征進(jìn)行篩選后得到了304維的最優(yōu)特征空間,該預(yù)測(cè)模型在獨(dú)立測(cè)試集上的預(yù)測(cè)準(zhǔn)確率為0.719,敏感性為0.738,特異性為0.713。
這兩種基于隨機(jī)森林的預(yù)測(cè)方法實(shí)現(xiàn)了蛋白質(zhì)-適配體相互作用的有效預(yù)測(cè)?;趥伟被岬碾S機(jī)森林的方法因其較小的特征維度和使用單一的隨機(jī)森林分類器,其模型的計(jì)算復(fù)雜度較低,但是由于數(shù)據(jù)集的不平衡,造成了大小樣本的預(yù)測(cè)準(zhǔn)確率的嚴(yán)重失衡。此外,該方法的特征提取較為單一,蛋白質(zhì)與適配體的結(jié)合涉及到多方面的性質(zhì),忽略這些關(guān)鍵特征造成特征向量不能有效表征蛋白質(zhì)與適配體而影響預(yù)測(cè)效果。而基于多源特征提取策略和集成方法的預(yù)測(cè)方法因提取了更多的特征以及使用了基于3個(gè)隨機(jī)森林分類器的集成方法,顯著地均衡大小樣本的預(yù)測(cè)準(zhǔn)確率,但是也增加了預(yù)測(cè)模型的計(jì)算復(fù)雜度。此外,將3個(gè)平衡的訓(xùn)練子集用于3個(gè)機(jī)器學(xué)習(xí)分類器,單個(gè)分類器的負(fù)樣本訓(xùn)練數(shù)據(jù)較少使得對(duì)訓(xùn)練樣本的學(xué)習(xí)不足造成了負(fù)樣本預(yù)測(cè)準(zhǔn)確率的降低。
1.2支持向量機(jī)? 支持向量機(jī)(support vector machines,SVM)[11,12]是一種二分類模型,它的基本模型是定義在特征空間上的間隔最大的線性分類器。線性可分即存在一個(gè)超平面可以將樣本根據(jù)類別一分為二,而線性不可分即找不到這個(gè)超平面導(dǎo)致支持向量機(jī)無(wú)法實(shí)現(xiàn)分類。核函數(shù)的引入使得支持向量機(jī)也可以解決高維非線性數(shù)據(jù)的分類問(wèn)題。支持向量機(jī)具有很好的泛化能力,能有效解決二分類問(wèn)題,但是不適用于大規(guī)模樣本和多分類的問(wèn)題。Yang Q等[13]提出一種基于自動(dòng)編碼[14,15]特征提取和集成方法的蛋白質(zhì)-適配體相互作用預(yù)測(cè)方法,使用了基于支持向量機(jī)的集成方法,將自動(dòng)編碼特征、核苷酸組成、偽核苷酸組成(PseKNC)和一般序列相關(guān)的偽三核苷酸組成(SC-PseTNC-General)作為特征輸入,通過(guò)梯度下降樹(shù)(GBDT)[16]對(duì)676維的特征進(jìn)行篩選后,得到的最優(yōu)特征空間維數(shù)為616。該方法也在Li BQ等[6]構(gòu)建的數(shù)據(jù)集基礎(chǔ)上采用了數(shù)據(jù)重構(gòu)的方法,將訓(xùn)練集分為3個(gè)平衡的訓(xùn)練子集并分別用于3個(gè)支持向量機(jī)模型的訓(xùn)練,將3個(gè)訓(xùn)練模型最終集成為一個(gè)預(yù)測(cè)精度更高的模型。在獨(dú)立測(cè)試集上該模型的預(yù)測(cè)準(zhǔn)確率為0.757,其特異性和敏感性分別為0.745和0.793。基于三個(gè)支持向量機(jī)的集成預(yù)測(cè)方法,相較于其他兩種方法實(shí)現(xiàn)了更好的預(yù)測(cè)效果,但是此方法高維度的特征造成高復(fù)雜度的計(jì)算而影響預(yù)測(cè)性能;且將自動(dòng)編碼特征作為蛋白質(zhì)表示的唯一特征,雖然能有效的提取蛋白質(zhì)的序列信息,但是也導(dǎo)致了蛋白質(zhì)的結(jié)構(gòu)特征和理化性質(zhì)等被忽略。
基于隨機(jī)森林與支持向量機(jī)的蛋白質(zhì)-適配體預(yù)測(cè)方法能有效地實(shí)現(xiàn)預(yù)測(cè)功能,實(shí)現(xiàn)的三種方法[5,9,13]在相同的獨(dú)立測(cè)試集上進(jìn)行了獨(dú)立測(cè)試。由于使用了不平衡的數(shù)據(jù)集,準(zhǔn)確率不能真正客觀的評(píng)價(jià)預(yù)測(cè)性能,需綜合考慮敏感性、特異性等評(píng)價(jià)標(biāo)準(zhǔn)以及模型的計(jì)算復(fù)雜度,3種方法具有不同的優(yōu)缺點(diǎn)及適用情況?;趥伟被岬碾S機(jī)森林的方法因其較低的特征維度,計(jì)算復(fù)雜度較低,對(duì)于樣本數(shù)量較大的數(shù)據(jù)集能快速的進(jìn)行預(yù)測(cè),但是該方法的特異性較高、敏感性較低,適用于對(duì)于真陰性有較高要求的預(yù)測(cè);反之,對(duì)于真陽(yáng)性有較高要求的預(yù)測(cè),此方法不能滿足其預(yù)測(cè)效果?;诙嘣刺卣魈崛〔呗院图煞椒ǖ念A(yù)測(cè)方法相較于基于偽氨基酸的隨機(jī)森林的方法敏感性顯著提高,雖然對(duì)負(fù)樣本的預(yù)測(cè)準(zhǔn)確度有所降低,但是對(duì)正負(fù)樣本均可實(shí)現(xiàn)有效預(yù)測(cè),此方法的計(jì)算復(fù)雜度雖高于基于偽氨基酸的隨機(jī)森林的方法,但仍可滿足大量樣本的快速預(yù)測(cè)需求。對(duì)于預(yù)測(cè)精度要求高、數(shù)據(jù)量大的數(shù)據(jù)集可使用該方法進(jìn)行相互作用預(yù)測(cè)。而基于自動(dòng)編碼特征提取和集成方法的預(yù)測(cè)方法其敏感性和特異性均高于基于多源特征提取策略和集成方法的預(yù)測(cè)方法,對(duì)負(fù)樣本的預(yù)測(cè)準(zhǔn)確度雖不如基于偽氨基酸的隨機(jī)森林的方法,但對(duì)正樣本的預(yù)測(cè)準(zhǔn)確度有大幅度的提升,該方法相較于其他兩種方法,實(shí)現(xiàn)了更高的預(yù)測(cè)精度,對(duì)預(yù)測(cè)精度要求高且數(shù)據(jù)量較少的數(shù)據(jù)集,該方法是一個(gè)很好的選擇;但對(duì)于大量數(shù)據(jù)的批量預(yù)測(cè),由于其較高計(jì)算復(fù)雜度需要的時(shí)間會(huì)較長(zhǎng)。
2以蛋白質(zhì)為靶標(biāo)的適配體的篩選
傳統(tǒng)的SELEX實(shí)驗(yàn)方法進(jìn)行蛋白質(zhì)靶標(biāo)的適配體篩選要對(duì)序列文庫(kù)經(jīng)過(guò)十幾輪的擴(kuò)增與篩選,此技術(shù)雖已較為成熟,但是其過(guò)程復(fù)雜,時(shí)間成本高。通過(guò)計(jì)算方法實(shí)現(xiàn)以蛋白質(zhì)為靶標(biāo)的適配體的篩選可從縮小序列范圍、加快識(shí)別與蛋白質(zhì)具有相互作用的序列兩方面著手。Lee W等[17]提出了一種基于序列和結(jié)構(gòu)信息的蛋白質(zhì)靶標(biāo)的RNA篩選方法,數(shù)據(jù)集主要來(lái)源于PDB數(shù)據(jù)庫(kù)和Li BQ等[6]構(gòu)建的數(shù)據(jù)集,訓(xùn)練集包含了35個(gè)樣本(RNA適配體-蛋白質(zhì)復(fù)合物),并收集了696個(gè)RNA-蛋白質(zhì)復(fù)合物用于計(jì)算核苷酸與氨基酸相互作用傾向(IP),測(cè)試集包含56個(gè)正樣本和56個(gè)負(fù)樣本,特征空間由核苷酸與氨基酸相互作用傾向(IP)[18,19]、單核苷酸組成、偽核苷酸組成、偽氨基酸組成等特征構(gòu)成。根據(jù)結(jié)構(gòu)特征,將6×106的隨機(jī)RNA文庫(kù)序列經(jīng)過(guò)RNAfold[20]分析后挑選出符合條件的序列并使用經(jīng)過(guò)對(duì)訓(xùn)練集進(jìn)行學(xué)習(xí)的隨機(jī)森林模型來(lái)計(jì)算RNA序列與蛋白質(zhì)之間的結(jié)合概率。通過(guò)二級(jí)結(jié)構(gòu)特征進(jìn)行序列文庫(kù)的初步篩選,縮小了后續(xù)篩選的范圍,減輕了結(jié)合概率計(jì)算的工作量。將自由能和結(jié)合概率排序結(jié)果為前10的RNA作為以此蛋白質(zhì)為靶標(biāo)的適配體的篩選結(jié)果。該方法在獨(dú)立測(cè)試集上篩選的準(zhǔn)確率為0.714,證明了此方法的有效性和實(shí)用性。通過(guò)計(jì)算方法實(shí)現(xiàn)針對(duì)某一蛋白質(zhì)的適配體的篩選相較于SELEX實(shí)驗(yàn)方法其費(fèi)用更低,時(shí)間更快,但是由于初始的序列文庫(kù)較大且過(guò)程復(fù)雜,對(duì)于多個(gè)蛋白質(zhì)的批量處理較為困難;且此方法只對(duì)蛋白質(zhì)的RNA適配體進(jìn)行篩選,無(wú)法對(duì)DNA適配體進(jìn)行篩選。
3總結(jié)
通過(guò)計(jì)算方法實(shí)現(xiàn)相互作用預(yù)測(cè)及適配體的篩選可有效減輕相關(guān)研究人員的工作量,加快研究進(jìn)程,但是現(xiàn)有的方法也存在一定的問(wèn)題,通過(guò)以上所述,目前的蛋白質(zhì)-適配體相互作用預(yù)測(cè)方法存在以下不足:①對(duì)不平衡數(shù)據(jù)集沒(méi)有進(jìn)行平衡處理而造成小樣本的預(yù)測(cè)準(zhǔn)確率較低,數(shù)據(jù)重構(gòu)方法減少了訓(xùn)練集的樣本數(shù)使得分類器對(duì)樣本的學(xué)習(xí)不充足而降低了整體的預(yù)測(cè)準(zhǔn)確率;②特征選取單一,而忽略關(guān)鍵特征影響了預(yù)測(cè)性能,特征選取不當(dāng)易造成較高的計(jì)算復(fù)雜度,不利于大量樣本的預(yù)測(cè);③對(duì)機(jī)器學(xué)習(xí)方法缺少優(yōu)化,預(yù)測(cè)準(zhǔn)確度仍有提升的空間。目前蛋白質(zhì)靶標(biāo)的適配體篩選方法主要存在無(wú)法大規(guī)模開(kāi)展,篩選范圍不全面的問(wèn)題。此外,實(shí)現(xiàn)的方法缺少對(duì)工具的開(kāi)發(fā),不方便研究人員使用。蛋白質(zhì)-適配體相互作用預(yù)測(cè)及適配體篩選的計(jì)算方法已實(shí)現(xiàn)了較好的效果,隨著更多的多中心研究,相信未來(lái)會(huì)有更快速、更準(zhǔn)確的方法和工具的出現(xiàn)。
參考文獻(xiàn):
[1]Kinghorn AB,F(xiàn)raser LA,Lang S,et al.Aptamer Bioinformatics[J].Int J Mol Sci,2017,18(12):2516.
[2]Xu Y,Ju L,Tong J,et al.Supervised Machine Learning Predictive Analytics For Triple-Negative Breast Cancer Death Outcomes[J].Onco Targets Ther,2019(12):9059-9067.
[3]Halilaj E,Rajagopal A,F(xiàn)iterau M,et al.Machine learning in human movement biomechanics:Best practices,common pitfalls,and new opportunities[J].J Biomech,2018(81):1-11.
[4]譚志穎.基于深度學(xué)習(xí)的流感病毒抗原變異和病毒宿主預(yù)測(cè)[D].湖南大學(xué),2018.
[5]Matsuki K,Kuperman V,Van Dyke JA.The Random Forests statistical technique:An examination of its value for the study of reading[J].Sci Stud Read,2016,20(1):20-33.
[6]Li BQ,Zhang YC,Huang GH,et al.Prediction of aptamer-target interacting pairs with pseudo-amino acid composition[J].PLoS One,2014,9(1):e86729.
[7]Cruz-Toledo J,Mckeague M,Zhang X,et al.Aptamer Base:a collaborative knowledge base to describe aptamers and SELEX experiments[J].Database(Oxford),2012(2012):bas006.
[8]Chou KC.Prediction of protein cellular attributes using pseudo-amino acid composition[J].Proteins,2001,43(3):246-255.
[9]張麗娜.基于機(jī)器學(xué)習(xí)的蛋白質(zhì)類別及蛋白質(zhì)-配體相互作用預(yù)測(cè)研究[D].山東大學(xué),2017.
[10]Li M,Cho SB,Ryu KH.A novel approach for predicting disordered regions in a protein sequence[J].Osong Public Health Res Perspect,2014,5(4):211-8.
[11]Guo Y,Jia X,Paull D.Effective Sequential Classifier Training for SVM-Based Multitemporal Remote Sensing Image Classification[J].IEEE Trans Image Process,2018.
[12]Huang S,Cai N,Pacheco PP,et al.Applications of Support Vector Machine(SVM)Learning in Cancer Genomics[J].Cancer Genomics Proteomics,2018,15(1):41-51.
[13]Yang Q,Jia C,Li T.Prediction of aptamer-protein interacting pairs based on sparse autoencoder feature extraction and an ensemble classifier[J].Math Biosci,2019(311):103-108.
[14]李興球,姜洪開(kāi),王瑞欣,等.基于遷移深度降噪自動(dòng)編碼器的飛機(jī)關(guān)鍵機(jī)械部件故障診斷方法[C]//第十三屆全國(guó)振動(dòng)理論及應(yīng)用學(xué)術(shù)會(huì)議,2019.
[15]劉楚鴻,汪培萍.基于自動(dòng)編碼器集合的入侵檢測(cè)系統(tǒng)的研究與實(shí)現(xiàn)[J].中國(guó)新通信,2019,21(24):71-74.
[16]Gui L,Xia Y,Li H,et al.Prediction of NOX Emission from Coal-fired Boiler Based on RF-GBDT[C]//Proceedings of the 2017 6th International Conference on Energy and Environmental Protection(ICEEP 2017),2017.
[17]Lee W,Lee J,Han K.Finding Potential RNA Aptamers for a Protein Target Using Sequence and Structure Features[C]//International Conference on Intelligent Computing,2018.
[18]Choi S,Han K.Prediction of RNA-binding amino acids from protein and RNA sequences[J].BMC Bioinformatics,2011,12(Suppl 13):S7.
[19]Choi S,Han K.Predicting protein-binding RNA nucleotides using the feature-based removal of data redundancy and the interaction propensity of nucleotide triplets[J].Comput Biol Med,2013,43(11):1687-97.
[20]Zhang K,Meng Y,Cao X,et al.Genetic variants in p53 signaling pathway genes predict chemotherapy efficacy in colorectal cancer[J].Cancer Med,2019,8(7):3428-3436.
收稿日期:2020-03-25;修回日期:2020-04-07
編輯/杜帆