• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      基于集成學(xué)習(xí)的N6甲基化位點(diǎn)預(yù)測(cè)方法研究

      2021-04-06 10:55:20趙媛媛陳進(jìn)祥李富義劉全中
      關(guān)鍵詞:特征選擇核苷酸分類器

      趙媛媛,陳進(jìn)祥,李富義,吳 昊,劉全中*

      (1.西北農(nóng)林科技大學(xué) 信息工程學(xué)院,陜西 楊凌 712100;2.蒙納士大學(xué)數(shù)據(jù)科學(xué)中心,澳大利亞 墨爾本 VIC 3800;3.蒙納士大學(xué)生物醫(yī)學(xué)發(fā)現(xiàn)研究所和生物化學(xué)與分子生物學(xué)系,澳大利亞 墨爾本 VIC 3800)

      0 引 言

      DNA甲基化,是指經(jīng)DNA甲基轉(zhuǎn)移酶催化,以S-腺苷甲硫氨酸(SAM)作為甲基供體,DNA分子與甲基相連接的過程[1]。在DNA的四種堿基中,只有胞嘧啶和腺嘌呤可以被甲基化。近年來,研究者發(fā)現(xiàn)了腺嘌呤的第六位氮原子甲基化修飾,即6-甲基腺嘌呤(N6-methyladenine,6mA)。6mA甲基化作為一種重要的非永久性但相對(duì)長(zhǎng)期可遺傳的基因修飾,被發(fā)現(xiàn)在維持細(xì)胞正常的轉(zhuǎn)錄活性、DNA損傷修復(fù)能力、染色質(zhì)重塑、遺傳印記、胚胎發(fā)育和腫瘤發(fā)生中都有著不可替代的作用,成為分子生物學(xué)及醫(yī)學(xué)領(lǐng)域的研究熱點(diǎn)[2]。

      6mA在DNA層面表達(dá)豐富度相對(duì)較低,在哺乳動(dòng)物中,平均每百萬個(gè)腺嘌呤中只有不到10個(gè)6mA位點(diǎn)[3]。目前已經(jīng)有幾種鑒定6mA的實(shí)驗(yàn)方法,例如甲基化DNA免疫沉淀測(cè)序(MeDIP-seq)[4],毛細(xì)管電泳和激光誘導(dǎo)熒光(CE-LIF)[5]和單分子實(shí)時(shí)測(cè)序(MRT-seq)[6]。雖然通過實(shí)驗(yàn)方法能鑒定6mA位點(diǎn),但實(shí)驗(yàn)方法實(shí)驗(yàn)周期長(zhǎng)、勞動(dòng)強(qiáng)度大且十分昂貴,很難適合從高通量序列中識(shí)別6mA?;跈C(jī)器學(xué)習(xí)的計(jì)算方法可以同時(shí)處理多條序列中6mA位點(diǎn)的鑒定,這種方法省時(shí)、省力并且效率高,作為實(shí)驗(yàn)方法有效的補(bǔ)充,越來越受到生物界的青睞。

      最近,華中農(nóng)業(yè)大學(xué)周道繡課題組使用了免疫沉淀測(cè)序技術(shù)對(duì)水稻基因組的6mA進(jìn)行了精確定量和定位,獲得了水稻基因組的6mA圖譜[7]。該數(shù)據(jù)的獲取為構(gòu)建基于機(jī)器學(xué)習(xí)模型的6mA識(shí)別方法奠定了數(shù)據(jù)基礎(chǔ)。近年來,研究界提出了一些基于傳統(tǒng)的機(jī)器學(xué)習(xí)和深度學(xué)習(xí)的6mA位點(diǎn)預(yù)測(cè)方法。例如,2019年1月,Chen等提出了一種基于支持向量機(jī)方法(6mA-Pred)鑒定水稻因組中的6mA位點(diǎn)[8],模型準(zhǔn)確率達(dá)到了83.13%。2019年4月,Tahir等人提出了一種卷積神經(jīng)網(wǎng)絡(luò)(CNN)計(jì)算模型(iDNA6mA)[9],從DNA輸入序列中自動(dòng)地提取關(guān)鍵特征并訓(xùn)練模型,該模型準(zhǔn)確率達(dá)到了86.59%。2019年7月,Pian基于馬爾可夫模型提出了一種新的分類方法(MM-6mAPred)[10],準(zhǔn)確率達(dá)到89.72%。2019年9月,Liu等人[11]提出了基于提升樹模型(ExtraTree)對(duì)小鼠和水稻基因中的6mA位點(diǎn)鑒定方法(csDMA),對(duì)于水稻中6mA位點(diǎn)的預(yù)測(cè)達(dá)到了86.1%的準(zhǔn)確度。

      在上述方法中,基于深度學(xué)習(xí)的iDNA6mA方法不需要人工設(shè)計(jì)特征,但其識(shí)別性能仍有待提高?;趥鹘y(tǒng)機(jī)器學(xué)習(xí)方法的6mA識(shí)別方法雖然具有較強(qiáng)的識(shí)別能力,但現(xiàn)有的學(xué)習(xí)模型使用序列要么特征單一,缺乏從多種角度綜合考量6mA位點(diǎn);要么特征維度較高且未使用特征選擇方法進(jìn)行特征選擇,如6mA-Pred等,預(yù)測(cè)的性能還有很大提升空間。

      基于上述的現(xiàn)有研究的不足,為了進(jìn)一步提升6mA位點(diǎn)的預(yù)測(cè)性能,該研究提出一種基于stacking集成學(xué)習(xí)的6mA預(yù)測(cè)模型Stack6mAPred。Stack6mAPred結(jié)合了增強(qiáng)核苷酸組成(ENAC)、核苷酸電子-離子相互作用偽電位(EIIP)、核苷酸化學(xué)性質(zhì)(NCP)、Kmer和核苷酸間隔(diTriKGap)5種不同類型的特征編碼;利用XGBoost進(jìn)行特征選擇[12],去除冗余特征;集成了樸素貝葉斯、支持向量機(jī)(SVM)、LightGBM和邏輯回歸等4種不同的分類器。在真實(shí)的水稻基因組數(shù)據(jù)集上進(jìn)行了實(shí)驗(yàn),結(jié)果表明:提出的Stack6mAPred預(yù)測(cè)模型對(duì)6mA位點(diǎn)鑒定的準(zhǔn)確率達(dá)到91.83%,AUC達(dá)到0.967。

      1 數(shù)據(jù)集

      數(shù)據(jù)集構(gòu)建是機(jī)器學(xué)習(xí)模型的基礎(chǔ),基準(zhǔn)數(shù)據(jù)集的質(zhì)量對(duì)構(gòu)建模型的性能至關(guān)重要。該文使用了Chen等人[8]提供的水稻DNA序列中的6mA數(shù)據(jù)集。該數(shù)據(jù)集是從美國(guó)國(guó)家生物技術(shù)信息中心(national center for biotechnology information,NCBI)獲得,使用CD-HIT軟件[13]去除同源性超過60%的序列。數(shù)據(jù)集包括880個(gè)經(jīng)實(shí)驗(yàn)驗(yàn)證的6mA位點(diǎn)的序列片段和880個(gè)非6mA位點(diǎn)的序列片段,序列長(zhǎng)度均為41 bp。該數(shù)據(jù)集已經(jīng)被多個(gè)預(yù)測(cè)模型使用[8-10]。數(shù)據(jù)集獲取公開站點(diǎn)為http://lin-group.cn/server/ i6mAPred/data。

      2 特征提取

      不同序列特征對(duì)不同問題具有不同的識(shí)別能力,最終影響預(yù)測(cè)模型的性能。為了提取針對(duì)6mA位點(diǎn)具有較強(qiáng)預(yù)測(cè)能力的特征,該研究對(duì)iLearn[14]和PyFeat[15]中總結(jié)的所有DNA序列特征分別進(jìn)行性能評(píng)估,發(fā)現(xiàn)五種對(duì)于6mA位點(diǎn)具有較強(qiáng)的識(shí)別能力的特征:增強(qiáng)核苷酸組成(enhanced nucleic acid composition,ENAC)、核苷酸電子-離子相互作用偽電位(electron-ion interaction pseudopotentials of trinucleotide,EIIP)、核苷酸化學(xué)性質(zhì)(nucleotide chemical property,NCP)、Kmer、核苷酸間隔(ditriKGap)。特征對(duì)應(yīng)的維度和參數(shù)設(shè)置如表1所示。

      表1 實(shí)驗(yàn)中使用的特征及參數(shù)介紹

      2.1 增強(qiáng)核苷酸組成(ENAC)

      增強(qiáng)核苷酸組成(ENAC)根據(jù)固定長(zhǎng)度的序列窗口計(jì)算核苷酸組成(nucleic acid composition,NAC)[16],通常可用于編碼等長(zhǎng)的核苷酸序列。NAC編碼用于計(jì)算核苷酸序列中每種核酸類型的頻率。序列中四種核苷酸出現(xiàn)頻率可以由式(1)計(jì)算:

      (1)

      其中,N(t)是t型核苷酸的數(shù)目,N是核苷酸序列的長(zhǎng)度。

      ENAC編碼的核心是計(jì)算固定長(zhǎng)度的序列窗口內(nèi)的NAC,即該窗口首先從序列的第一位核苷酸開始,依次向后移動(dòng),計(jì)算窗口內(nèi)序列的NAC,直到窗口包含序列的最后一位完成編碼過程。實(shí)驗(yàn)表明窗口值為2時(shí),ENAC編碼的性能達(dá)到最優(yōu)。

      2.2 核苷酸電子-離子相互作用偽電位(EIIP)

      Nair等人提出了一種新的特征編碼方式[17],通過計(jì)算核苷酸中離域電子的能量,將其表示為電子-離子相互作用偽電位(EIIP)進(jìn)行編碼。該編碼方式直接使用核苷酸的EIIP值取代DNA序列中核苷酸A,G,C和T。核苷酸A,G,C,T的EIIP值分別為0.126 0、0.134 0、0.080 6和0.133 5。EIIP特征編碼維數(shù)等于DNA序列的長(zhǎng)度。

      2.3 核苷酸化學(xué)性質(zhì)(NCP)

      DNA中有四種核苷酸,即腺嘌呤(A)、鳥嘌呤(G)、胞嘧啶(C)和胸腺嘧啶(T)。根據(jù)化學(xué)性質(zhì)進(jìn)行分類,四種核苷酸分類結(jié)果如表2所示。

      核苷酸化學(xué)性質(zhì)(NCP)根據(jù)每種核苷酸在不同分組內(nèi)所處類別不同,將每個(gè)核苷酸表示為一個(gè)3維向量,對(duì)特征進(jìn)行編碼。每個(gè)化學(xué)性質(zhì)分成兩類,一個(gè)核苷酸在第1個(gè)類中出現(xiàn)編碼為1,否則編碼為0。因此,根據(jù)表2中分類可知,A、C、G和T分別被表示為(1,1,1)、(0,1,0)、(1,0,0)和(0,0,1)。

      表2 核苷酸化學(xué)性質(zhì)

      2.4 Kmer

      Kmer特征編碼用于計(jì)算DNA序列中K個(gè)相鄰核苷酸的出現(xiàn)頻率,已成功應(yīng)用于人類基因調(diào)控序列預(yù)測(cè)[18]和增強(qiáng)子識(shí)別[19]。Kmer(以K=3為例)由式(2)計(jì)算:

      (2)

      其中,N(t)是Kmer型t的次數(shù),N是核苷酸序列的長(zhǎng)度。

      文中采用的Kmer編碼方式,將小于等于K的相鄰核苷酸頻率全部計(jì)算,以K=3為例,該特征編碼將K=3,2,1的Kmer全部列出。經(jīng)實(shí)驗(yàn)驗(yàn)證,K取5使得6mA識(shí)別的性能達(dá)到最優(yōu)。

      2.5 核苷酸間隔(diTriKGap)

      diTriKGap特征編碼通過設(shè)置間隔大小g,統(tǒng)計(jì)DNA或RNA序列內(nèi)不同間隔序列結(jié)構(gòu)的數(shù)目。當(dāng)設(shè)置間隔g=1時(shí),序列結(jié)構(gòu)為XX_XXX;當(dāng)設(shè)置間隔g=2時(shí),序列結(jié)構(gòu)為XX_XXX和XX__XXX;當(dāng)設(shè)置間隔g=3時(shí),序列結(jié)構(gòu)為XX_XXX、XX__XXX和XX___XXX。例如,當(dāng)設(shè)置間隔g=2時(shí),將會(huì)統(tǒng)計(jì)DNA序列中∑AA_AAA,∑AA__AAA,∑AA_AAC,∑AA__AAC,∑AA_AAG,∑AA__AAG,∑AA_AAT,∑AA__AAT…等結(jié)構(gòu)的數(shù)量。特征編碼的每一列代表序列結(jié)構(gòu)的數(shù)目。

      經(jīng)實(shí)驗(yàn)驗(yàn)證,當(dāng)設(shè)置g=3時(shí),diTriKGap特征編碼性能達(dá)到最優(yōu)。該編碼通過工具包PyFeat提取。為了去除冗余特征,減少特征維度過多[20]而對(duì)模型造成的影響,PyFeat采用Adaboost算法進(jìn)行特征選擇,在保持模型性能的同時(shí),將該特征編碼的維度由3 072減少到311。

      3 特征選擇

      特征選擇是指從初始特征集中選擇相關(guān)特征子集的機(jī)器學(xué)習(xí)過程,特征選擇能有效地降低特征空間的維度,去除對(duì)分類不重要的和冗余的特征,提高預(yù)測(cè)模型的預(yù)測(cè)性能。

      梯度提升決策樹(gradient boosting decision tree,GBDT)是一種集成模型,基分類器是CART樹[21],適用于分類和回歸問題,同時(shí)可用于特征選擇。XGBoost(extreme gradient boosting)是陳天奇博士在2011年提出的一種基于提升樹[21]的集成學(xué)習(xí)模型。XGBoost是在GBDT的基礎(chǔ)上改進(jìn),適應(yīng)范圍更廣,是對(duì)GBDT的一種高效實(shí)現(xiàn)。XGBoost中的基分類器是使用CART和線性分類器的組合。

      XGBoost根據(jù)特征重要性進(jìn)行排序,以此達(dá)到特征選擇的目的。如果一個(gè)特征在所有決策樹中作為劃分屬性的次數(shù)越多,那么該特征就越重要,XGBoost以此計(jì)算每個(gè)特征的重要性。

      在實(shí)驗(yàn)中,使用XGBoost進(jìn)行特征選擇,找到最優(yōu)的特征子集,降低特征維度,流程如圖1所示。由于XGBoost模型參數(shù)的選擇對(duì)特征重要性打分影響較大,在實(shí)驗(yàn)中改變模型參數(shù)進(jìn)行了36次實(shí)驗(yàn)來減少特征選擇的誤差,最終得到36個(gè)不同XGBoost模型的特征打分表,具體步驟如下所述:

      (1)將特征編碼輸入XGBoost模型進(jìn)行參數(shù)打分,得到特征打分表;

      (2)重復(fù)步驟(1),36次后得到36個(gè)互不相同的特征打分表;

      (3)將36個(gè)特征打分表中的特征取交集,計(jì)算交集中每個(gè)特征的重要性平均值,并進(jìn)行排序,得到最終的最優(yōu)特征子集。

      圖1 XGBoost特征選擇流程

      4 基于集成學(xué)習(xí)6mA位點(diǎn)識(shí)別方法

      機(jī)器學(xué)習(xí)中的監(jiān)督學(xué)習(xí)目標(biāo)是訓(xùn)練出一個(gè)穩(wěn)定且各方面性能良好的模型。在許多現(xiàn)實(shí)場(chǎng)景中,往往只能得到多個(gè)有偏好的模型,也就是弱監(jiān)督模型。根據(jù)組合弱監(jiān)督模型方法的不同,集成學(xué)習(xí)分為bagging[22]、boosting[23]和stacking[24]三種集成方式。

      該研究采用stacking集成學(xué)習(xí)構(gòu)建6mA位點(diǎn)預(yù)測(cè)模型Stack6mAPred,該模型集成4種主流分類器以及5種最優(yōu)的特征編碼構(gòu)造一個(gè)性能更好的6mA位點(diǎn)預(yù)測(cè)模型。

      4.1 模型的整體框架

      stacking集成學(xué)習(xí)模型預(yù)測(cè)性能的好壞主要取決于基分類器的預(yù)測(cè)精度和多樣性,使用不同參數(shù)、不同類型的分類器訓(xùn)練相同的特征,實(shí)現(xiàn)不同基學(xué)習(xí)器之間的強(qiáng)強(qiáng)聯(lián)合和優(yōu)勢(shì)互補(bǔ)。文中提出的stacking集成模型框架Stack6mAPred如圖2所示。

      圖2 Stacking集成模型框架

      初始特征編碼由XGBoost進(jìn)行特征選擇得到最優(yōu)特征子集后,使用stacking集成學(xué)習(xí)模型訓(xùn)練分類器,得到最終預(yù)測(cè)結(jié)果。本模型中采用4個(gè)基分類器,分別由樸素貝葉斯(naive Bayes classifiers,NB)、支持向量機(jī)(support vector machine,SVM)和LightGBM等組成,其中LightGBM_1和LightGBM_2均使用LightGBM算法進(jìn)行訓(xùn)練,兩者僅參數(shù)設(shè)置不同。第二層分類器使用邏輯回歸(LR)。

      4.2 樸素貝葉斯

      樸素貝葉斯分類器假設(shè)特征對(duì)于給定類的影響?yīng)毩⒂谄渌卣?,是一種較穩(wěn)定的有監(jiān)督分類算法,其分類算法基于貝葉斯定理,在處理大規(guī)模數(shù)據(jù)庫時(shí)有較高的分類準(zhǔn)確率。貝葉斯分類器的分類原理是通過某對(duì)象的先驗(yàn)概率,利用貝葉斯公式計(jì)算出其后驗(yàn)概率,即該對(duì)象屬于某一類的概率,選擇具有最大后驗(yàn)概率的類作為該對(duì)象所屬的類。

      4.3 支持向量機(jī)

      支持向量機(jī)是Cortes和Vapnik于1995年首先提出的[25],已經(jīng)廣泛應(yīng)用于生物信息學(xué)問題中。其基本思想是將輸入數(shù)據(jù)轉(zhuǎn)換為高維特征空間,然后確定最佳分隔超平面,以此作為決策邊界。

      SVM模型有兩個(gè)非常重要的參數(shù)C與gamma。其中C是懲罰系數(shù),即對(duì)誤差的容忍度,C越高越容易過擬合;gamma是選擇RBF作為核函數(shù)后,該函數(shù)自帶的一個(gè)參數(shù),決定了數(shù)據(jù)映射到新的特征空間后的分布。實(shí)驗(yàn)中選擇RBF作為核函數(shù)。

      為了選擇最優(yōu)的參數(shù)使模型達(dá)到最佳性能,使用LibSVM進(jìn)行參數(shù)尋優(yōu)。LibSVM是用來調(diào)整SVM參數(shù)非常有效的手段,應(yīng)用廣泛[26-28],該工具包可在https://www.csie.ntu.edu.tw/~cjlin/libsvm/免費(fèi)獲取。

      LibSVM采用網(wǎng)格搜索(grid search)進(jìn)行參數(shù)搜索,在C和gamma組成的二維參數(shù)矩陣中,依次實(shí)驗(yàn)每一對(duì)參數(shù)的效果,以此得到全局最優(yōu)的參數(shù)。實(shí)驗(yàn)最終確定的參數(shù)在4.6節(jié)進(jìn)行了詳細(xì)介紹。

      4.4 LightGBM

      LightGBM是個(gè)快速的、分布式的、高性能的基于決策樹算法的梯度提升(gradient boosting)模型[29],是對(duì)GBDT的高效實(shí)現(xiàn),可用于排序、分類、回歸等機(jī)器學(xué)習(xí)任務(wù)中。

      該算法在傳統(tǒng)GDBT算法基礎(chǔ)上引入了梯度單邊采樣(gradient-based one-side sampling,GOSS)和互斥特征合并(exclusive feature bundling,EFB)兩種新技術(shù)。梯度單邊采樣(GOSS)算法保留所有的大梯度樣本,在小梯度樣本中進(jìn)行隨機(jī)采樣,從而達(dá)到提升效率的目的。獨(dú)立特征合并(EFB)算法通過使用基于直方圖(histograms)方法安全地將互斥特征綁定在一起形成一個(gè)新的特征,從而減少特征維度。LightGBM可以在不損失分類器精度的前提下,顯著減少模型學(xué)習(xí)的時(shí)間,提升模型的泛化能力。

      4.5 集成學(xué)習(xí)方法

      該文采用stacking集成學(xué)習(xí)模型,其中基分類器使用樸素貝葉斯、LightGBM_1、LightGBM_2和SVM等四個(gè)模型,第二層分類器使用邏輯回歸。該研究中Stack6mAPred集成模型的訓(xùn)練步驟如下所述:

      (3)將D'作為第二層分類器邏輯回歸(LR)的訓(xùn)練集,訓(xùn)練得到最終的集成分類模型Stack6mAPred。

      4.6 模型參數(shù)設(shè)置

      集成模型中各基分類器中參數(shù)的選擇對(duì)模型分類性能影響極大。在該研究中,為了使集成模型分類性能最佳,先人工確定參數(shù)最優(yōu)的大致范圍,然后利用網(wǎng)格搜索(grid search)尋找集成模型的全局最優(yōu)參數(shù)。各基分類器用到的參數(shù)如表3所示。

      表3 基分類器參數(shù)設(shè)置

      4.7 評(píng)價(jià)指標(biāo)

      為了評(píng)估Stack6mAPred模型的預(yù)測(cè)性能,分別使用了AUC(area under the ROC curve)值、準(zhǔn)確度(accuracy,Acc)、特異性(specificity,Sp)、敏感性(sensitivity,Sn)和馬修斯相關(guān)系數(shù)(Matthews correlation coefficient,MCC)共5個(gè)常用的評(píng)價(jià)指標(biāo)。其中AUC是ROC(area under curve)曲線與坐標(biāo)軸圍成的面積。ROC曲線是根據(jù)一系列不同的二分類方式,以真陽性率為縱坐標(biāo),假陽性率為橫坐標(biāo)繪制的曲線。

      準(zhǔn)確度、特異性、敏感性和馬修斯相關(guān)系數(shù)指標(biāo)定義如式(3)~式(6)所示:

      (3)

      (4)

      (5)

      MCC=

      (6)

      其中,TP是正確識(shí)別的真實(shí)6mA序列的數(shù)量,F(xiàn)N是錯(cuò)誤分類的6mA序列的數(shù)量,TN是正確識(shí)別的非6mA序列的數(shù)量,F(xiàn)P是錯(cuò)誤分類的非6mA序列的數(shù)量。

      5 實(shí)驗(yàn)結(jié)果

      5.1 6mA位點(diǎn)序列分析

      為從生物序列方面解釋特征編碼合理性,本實(shí)驗(yàn)使用軟件Two Sample Logos[30]繪制6mA位點(diǎn)的序列標(biāo)識(shí)圖,該軟件對(duì)正例樣本序列和負(fù)例樣本序列進(jìn)行對(duì)比,結(jié)果如圖3所示。

      圖3 6mA序列對(duì)比

      從序列標(biāo)識(shí)圖可以直觀地看出序列共有41個(gè)位點(diǎn),第21號(hào)中心點(diǎn)代表6mA位點(diǎn)。每個(gè)位點(diǎn)上符號(hào)的高度代表對(duì)應(yīng)的核苷酸在該位置的出現(xiàn)頻率。

      從圖3中可以看出,對(duì)于6mA位點(diǎn),在中心位點(diǎn)下游15~18、上游25位置腺嘌呤(A)出現(xiàn)的概率較高,非6mA位點(diǎn)上游22~24位置腺嘌呤(A)出現(xiàn)概率較高,對(duì)應(yīng)文中采用的特征編碼ditriKGap中XXX的結(jié)構(gòu);在中心位點(diǎn)下游20、上游22~23位置鳥嘌呤(G)出現(xiàn)概率較高,非6mA位點(diǎn)下游18~19、14~15等位置鳥嘌呤(G)出現(xiàn)概率較高,對(duì)應(yīng)ditriKGap中XX的結(jié)構(gòu)。由此可以看出,6mA序列具有一定的規(guī)律性,反映出文中采用的特征編碼中Kmer、核苷酸間隔(ditriKGap)對(duì)于提升模型準(zhǔn)確度的有效性。

      5.2 不同編碼方式性能比較

      為了找到特征子集的最佳組合,用隨機(jī)森林分類器(100棵決策樹)評(píng)估單個(gè)特征的性能。表4列舉了單個(gè)特征以及特征組合預(yù)測(cè)性能。單個(gè)特征中ENAC達(dá)到了最佳性能,其次是NCP,而Kmer的性能表現(xiàn)最差。5種特征組合可以顯著提高模型的準(zhǔn)確度,比單個(gè)特征中性能最優(yōu)的ENAC在敏感性、特異性、準(zhǔn)確率、MCC以及AUC值五個(gè)性能指標(biāo)方面分別提高了1.1%、3.2%、2.1%、0.043以及0.02。證明了綜合多個(gè)特征從多種角度區(qū)分6mA位點(diǎn)能提高預(yù)測(cè)性能。該文整合ENAC、NCP、EIIP、Kmer和diTriKGap 5種特征對(duì)樣本序列進(jìn)行編碼。

      表4 不同編碼方式性能比較

      續(xù)表4

      表4中,編號(hào)1、2、3、4和5分別代表五個(gè)特征編碼ENAC、EIIP、NCP、Kmer和diTriKGap,{1,2,3,4,5}代表五種特征組合。

      5.3 特征選擇性能評(píng)價(jià)

      為了避免特征冗余以及分類器過擬合,使用了XGBoost進(jìn)行特征選擇,選出最優(yōu)特征子集。在實(shí)驗(yàn)中使用的五種特征編碼中,diTriKGap在使用PyFeat進(jìn)行特征提取時(shí),已經(jīng)使用AdaBoost進(jìn)行特征選擇。因此,實(shí)驗(yàn)僅對(duì)ENAC、NCP、EIIP和Kmer的特征組合進(jìn)行特征選擇,將特征選擇后的結(jié)果與diTriKGap特征編碼合并,構(gòu)成最優(yōu)特征子集。實(shí)驗(yàn)用隨機(jī)森林分類器(100棵決策樹)評(píng)估特征選擇前后的預(yù)測(cè)性能。

      圖4 特征選擇前后性能對(duì)比

      實(shí)驗(yàn)證明,該文使用的特征選擇方法,有效減少了冗余特征,將原來1 688維的特征編碼降低為310維。從圖4中的五個(gè)性能指標(biāo)來看,該文使用的XGBoost特征選擇方法在降低特征編碼維度的同時(shí),使模型的性能在所有的評(píng)價(jià)指標(biāo)上都有較好的提高。

      5.4 不同分類器性能

      該文比較了4個(gè)不同模型和Stack6mAPred集成模型的分類性能結(jié)果。其敏感性、特異性、準(zhǔn)確度、MCC、AUC值等5個(gè)性能指標(biāo)對(duì)比如圖5所示。

      圖5 不同分類器性能對(duì)比

      以準(zhǔn)確率和AUC值來說,單個(gè)模型均達(dá)到了較好的性能,準(zhǔn)確率都達(dá)到了86%以上,AUC值都在0.942以上。其中LightGBM是單個(gè)分類器中性能最好的分類器,不同參數(shù)的兩個(gè)LightGBM分類器的準(zhǔn)確率分別達(dá)到了89.7%和90.4%,AUC值均為0.954;其次支持向量機(jī)模型的準(zhǔn)確率為90.1%,AUC值為0.946;樸素貝葉斯模型效果最差。與4個(gè)單一模型相比,Stack6mAPred集成模型效果最好,最終預(yù)測(cè)準(zhǔn)確率為91.8%,AUC值為0.967,并且敏感性、特異性、馬修斯相關(guān)系數(shù)這些性能指標(biāo)都有了明顯的提升,說明Stack6mAPred集成模型將單一模型優(yōu)勢(shì)互補(bǔ),使預(yù)測(cè)性能有了較好的提升。

      5.5 與現(xiàn)有方法性能比較

      為了驗(yàn)證Stack6mAPred模型的性能,將Stack6mAPred與現(xiàn)有模型進(jìn)行對(duì)比。根據(jù)調(diào)查得知,目前共有4種預(yù)測(cè)6mA位點(diǎn)的工具:i6mA-Pred[8]、iDNA6mA[9]、MM-6mAPred[10]和csDMA[11]。該研究將Stack6mAPred與以上4種工具從敏感性、特異性、準(zhǔn)確度、MCC和AUC這五個(gè)指標(biāo)進(jìn)行對(duì)比分析,比較結(jié)果如表5所示。

      表5 與現(xiàn)有方法性能比較

      從結(jié)果中可知,Stack6mAPred預(yù)測(cè)模型在五個(gè)指標(biāo)上均高于現(xiàn)有工具中最好的MM-6mAPred,其中MCC值提升最為顯著,提升了0.06,敏感性、特異性、準(zhǔn)確度和AUC分別提升了1.7%、1.36%、1.72%和0.031,這說明了提出的stacking集成方法對(duì)于6mA位點(diǎn)預(yù)測(cè)的有效性。

      6 結(jié)束語

      該文提出了一種基于集成學(xué)習(xí)的水稻基因組中的6mA位點(diǎn)識(shí)別方法Stack6mAPred。該方法組合了5種類型的特征,并且通過XGBoost進(jìn)行特征選擇,去除冗余特征,避免了模型過擬合;集成了樸素貝葉斯、支持向量機(jī)、LightGBM和邏輯回歸等異構(gòu)分類器;實(shí)現(xiàn)了基分類器之間的強(qiáng)強(qiáng)聯(lián)合和優(yōu)勢(shì)互補(bǔ),最終構(gòu)建出一個(gè)性能更強(qiáng)的集成預(yù)測(cè)模型。

      該研究以水稻基因組數(shù)據(jù)為研究對(duì)象,構(gòu)造模型的方法可以遷移到預(yù)測(cè)其他物種的N6甲基化位點(diǎn)識(shí)別中。該研究?jī)H僅集成兩層模型,根據(jù)需要可以集成更多層的模型,需要指出的是隨著模型集成的層次增多,訓(xùn)練的時(shí)間會(huì)有所增加。

      猜你喜歡
      特征選擇核苷酸分類器
      單核苷酸多態(tài)性與中醫(yī)證候相關(guān)性研究進(jìn)展
      徐長(zhǎng)風(fēng):核苷酸類似物的副作用
      肝博士(2022年3期)2022-06-30 02:48:28
      Acknowledgment to reviewers—November 2018 to September 2019
      BP-GA光照分類器在車道線識(shí)別中的應(yīng)用
      Kmeans 應(yīng)用與特征選擇
      電子制作(2017年23期)2017-02-02 07:17:06
      加權(quán)空-譜與最近鄰分類器相結(jié)合的高光譜圖像分類
      結(jié)合模糊(C+P)均值聚類和SP-V-支持向量機(jī)的TSK分類器
      聯(lián)合互信息水下目標(biāo)特征選擇算法
      基于LLE降維和BP_Adaboost分類器的GIS局部放電模式識(shí)別
      廣東人群8q24rs1530300單核苷酸多態(tài)性與非綜合征性唇腭裂的相關(guān)性研究
      恩平市| 鄂州市| 四会市| 广丰县| 甘德县| 玉龙| 五常市| 岳阳市| 南涧| 兴城市| 紫云| 阿尔山市| 邓州市| 会理县| 南开区| 阜阳市| 衡阳县| 黔江区| 白河县| 沿河| 宽甸| 锡林浩特市| 西华县| 孟州市| 阳朔县| 五寨县| 伊吾县| 日土县| 凌海市| 怀远县| 光泽县| 墨江| 西乌珠穆沁旗| 绥宁县| 柘荣县| 舞阳县| 准格尔旗| 大港区| 仁寿县| 普定县| 逊克县|