• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      基于雙層卷積神經(jīng)網(wǎng)絡(luò)的DNA N4-胞嘧啶甲基化位點(diǎn)預(yù)測(cè)

      2022-07-18 11:15:56陳鵬輝徐權(quán)峰李榮庭喻文霞李慧敏
      關(guān)鍵詞:基準(zhǔn)位點(diǎn)物種

      陳鵬輝,徐權(quán)峰,李榮庭,王 煜,胡 夢(mèng),喻文霞,李慧敏,唐 軼

      (云南民族大學(xué) 數(shù)學(xué)與計(jì)算機(jī)科學(xué)學(xué)院,云南 昆明 650500)

      DNA甲基化修飾是表觀遺傳學(xué)中最重要的修飾之一[1].常見(jiàn)的DNA甲基化修飾有N5-胞嘧啶甲基化 (N5-methylcytosine,5mC) 和N4-胞嘧啶甲基化 (N4-methylcytosine,4mC) 等,其中5mC已被廣泛研究[2-4].科學(xué)界自1983年首次發(fā)現(xiàn)4mC已有近40年時(shí)間[5],但由于技術(shù)方法以及人們對(duì)4mC功能認(rèn)識(shí)的局限性,針對(duì)4mC的研究還相對(duì)較少.近期研究發(fā)現(xiàn),4mC修飾不僅在基因表達(dá)、細(xì)胞修復(fù)和DNA復(fù)制等方面具有重要作用[6-7],還可以保護(hù)自身DNA免受酶介導(dǎo)的降解[8],而這些與疾病的發(fā)生和治療密切相關(guān)[9].通過(guò)甲基化位點(diǎn)對(duì)相應(yīng)的甲基化修飾進(jìn)行研究是一種常用的甲基化研究手段,因此,有效識(shí)別4mC位點(diǎn)對(duì)于認(rèn)識(shí)DNA 4mC甲基化的生物機(jī)制具有重要意義.通過(guò)實(shí)驗(yàn)手段,如單分子實(shí)時(shí)測(cè)序[10]、全基因組亞硫酸氫鹽測(cè)序[11]和工程轉(zhuǎn)錄激活因子樣效應(yīng)物[12]等方法已發(fā)現(xiàn)了一些4mC位點(diǎn),但當(dāng)應(yīng)用于大規(guī)?;蚪M序列時(shí),實(shí)驗(yàn)方法存在費(fèi)用昂貴及耗時(shí)較長(zhǎng)等問(wèn)題,因此發(fā)展有效的計(jì)算方法輔助4mC位點(diǎn)的預(yù)測(cè)十分有必要.

      隨著智能計(jì)算的發(fā)展,涌現(xiàn)出大量的4mC位點(diǎn)預(yù)測(cè)算法,支持向量機(jī)、馬爾可夫模型、深度學(xué)習(xí)等算法被應(yīng)用于4mC位點(diǎn)預(yù)測(cè)[13].2017年,Chen等[14]提出iDNA4mc,作為首個(gè)基于機(jī)器學(xué)習(xí)的4mC位點(diǎn)預(yù)測(cè)算法,通過(guò)對(duì)擬南芥 (A.thaliana)、線蟲(chóng) (C.elegans)、果蠅 (D.melanogaster)、大腸桿菌 (E.coli)、地桿菌 (G.pickeringii) 和嗜堿菌 (G.subterruneus) 6個(gè)物種的4mC位點(diǎn)進(jìn)行預(yù)測(cè),發(fā)現(xiàn)算法預(yù)測(cè)準(zhǔn)確率 (accuracy, ACC) 在76.0%~83.1%之間.同時(shí),Chen等基于上述6個(gè)物種整理了1個(gè)4mC位點(diǎn)數(shù)據(jù)集用于后續(xù)4mC位點(diǎn)預(yù)測(cè)方法的研究 (稱(chēng)為第1基準(zhǔn)數(shù)據(jù)集).2018年,Zou等[15-16]基于支持向量機(jī)發(fā)展了4mcPred和4mcPred_SVM 2個(gè)預(yù)測(cè)算法,這2個(gè)算法相對(duì)于iDNA4mc,對(duì)4mC位點(diǎn)的預(yù)測(cè)能力有了小幅提高,預(yù)測(cè)準(zhǔn)確率大部分位于76.7%~86.0%之間.2019年,Khanal等[17]基于單層卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural network, CNN)方法提出了4mcCNN,該算法對(duì)6種生物的4mC位點(diǎn)預(yù)測(cè)準(zhǔn)確率在79.7%~87.2%之間.2020年,Yang等[18]基于馬爾可夫模型構(gòu)建了TOMM4mc算法,該算法在第1基準(zhǔn)數(shù)據(jù)集上的4mC位點(diǎn)預(yù)測(cè)能力優(yōu)于前幾種,預(yù)測(cè)準(zhǔn)確率約在83.6%~91.8%之間,但也只是在大腸桿菌和地桿菌上的預(yù)測(cè)準(zhǔn)確率超過(guò)90% .此外,研究者也針對(duì)其他數(shù)據(jù)集發(fā)展了一些4mC位點(diǎn)預(yù)測(cè)算法.如,Manavalan等[19]在2019年基于機(jī)器學(xué)習(xí)方法預(yù)測(cè)了小鼠基因組中的4mC位點(diǎn),并開(kāi)發(fā)了4mcPred-el工具,方便研究者對(duì)小鼠的4mC位點(diǎn)進(jìn)行預(yù)測(cè),預(yù)測(cè)準(zhǔn)確率在80%左右.2020年,Xu等[20]在第1基準(zhǔn)數(shù)據(jù)集基礎(chǔ)上添加了新的4mC位點(diǎn)和非4mC位點(diǎn)數(shù)據(jù)構(gòu)建預(yù)測(cè)數(shù)據(jù)集 (稱(chēng)為第2基準(zhǔn)數(shù)據(jù)集),同樣基于單層卷積神經(jīng)網(wǎng)絡(luò)提出了Deep4mC方法,同時(shí)利用受試者工作特征(receiver operating characteristic, ROC) 曲線[21-22]下面積 (area under curve, AUC) 評(píng)判算法的預(yù)測(cè)能力,發(fā)現(xiàn)該方法對(duì)上述6個(gè)物種的4mC位點(diǎn)預(yù)測(cè)能力在90.1%~96.5%之間,平均AUC值為93.6% .

      以上算法雖然對(duì)4mC位點(diǎn)的預(yù)測(cè)取得了不錯(cuò)的效果,但基于傳統(tǒng)機(jī)器學(xué)習(xí)模型的預(yù)測(cè)準(zhǔn)確率大部分在90% 以下,并且在不同物種上的預(yù)測(cè)效果相差較大,模型魯棒性相對(duì)較低;而基于單層神經(jīng)網(wǎng)絡(luò)的4mcCNN在第1基準(zhǔn)數(shù)據(jù)集上的預(yù)測(cè)準(zhǔn)確率也不超過(guò)90%[17].擴(kuò)大數(shù)據(jù)集以后,Deep4mC雖然取得了較好的性能,但平均不到95% 的預(yù)測(cè)能力仍有一些上升空間.一個(gè)可能的原因是傳統(tǒng)機(jī)器學(xué)習(xí)和單層神經(jīng)網(wǎng)絡(luò)對(duì)數(shù)據(jù)特征提取不夠.因此,為了更充分地提取序列特征,提出1種基于雙卷積層和雙池化層的CNN結(jié)構(gòu),從而提高模型的預(yù)測(cè)能力.結(jié)果表明,在對(duì)上述6個(gè)物種的4mC位點(diǎn)進(jìn)行預(yù)測(cè)時(shí),雙層CNN模型優(yōu)于一般機(jī)器學(xué)習(xí)和單層卷積神經(jīng)網(wǎng)絡(luò)模型,有效提高了4mC位點(diǎn)的預(yù)測(cè)能力.

      1 模型介紹

      1.1 CNN模型

      CNN模型是20世紀(jì)60年代由Hubel和Wiesel提出的,隨著近年來(lái)計(jì)算機(jī)的發(fā)展,CNN已成為各研究領(lǐng)域的熱點(diǎn),在分類(lèi)識(shí)別中發(fā)揮著重要作用.一般地,CNN主要由輸入層 (input layer)、卷積層 (convolutional layer)、池化層 (pooling layer)、壓平層 (flatten layer)、遺忘層 (dropout layer)、全連接層 (dense layer)和輸出層 (output layer) 等構(gòu)成,其核心部分是卷積層、池化層、壓平層和全連接層,這4個(gè)層涵蓋模型的主要功能.

      卷積層主要是將卷積核應(yīng)用到輸入數(shù)據(jù)的所有點(diǎn)上,滑動(dòng)經(jīng)過(guò)濾波器處理生成的數(shù)值.一維卷積運(yùn)算公式如下:

      (1)

      池化層能夠壓縮數(shù)據(jù)以及參數(shù)的量,即是在卷積層提取特征后,池化層就能對(duì)特征進(jìn)行選擇和過(guò)濾,能夠減輕模型的過(guò)擬合現(xiàn)象.常用的主要有最大池化 (max-pooling) 和平均池化 (mean-pooling) 2種方式.

      壓平層是將前面的多維輸入轉(zhuǎn)化為一維,是將前面層過(guò)渡到全連接層的重要層,使模型能夠在后面達(dá)到預(yù)測(cè)分類(lèi)的目的.

      全連接層主要是給其它全連接層傳遞信號(hào),對(duì)整個(gè)模型起到分類(lèi)器的作用.

      1.2 雙層CNN結(jié)構(gòu)

      雙層CNN模型結(jié)構(gòu)如圖1.

      圖1 雙層卷積神經(jīng)網(wǎng)絡(luò)示意圖

      將輸入序列,即核苷酸序列視為由4通道 (A, C, G, T) 組成的具有固定長(zhǎng)度的一維序列窗口,并運(yùn)用2個(gè)一維卷積層和2個(gè)池化層構(gòu)建CNN模型.具體構(gòu)建方法如下:

      1) 構(gòu)建第1卷積層 (the first convolutional layer, Conv1) 和第1最大池化層 (the first max-pooling layer, maxpooling1).將樣本序列進(jìn)行特征編碼處理,并將其輸入到Conv1.為了模型在訓(xùn)練過(guò)程中輸出為負(fù)數(shù)時(shí)能夠有輸出值,卷積層激活函數(shù)選用 “elu” 函數(shù),其公式如下:

      (2)

      在卷積層之后添加了歸一化層,歸一化過(guò)程選用組歸一化 (group normalization,GN) 算法[23],能使模型在各批量數(shù)據(jù)下?lián)碛蟹€(wěn)定的性能,相應(yīng)公式如下:

      (3)

      (4)

      將組歸一化層的輸出傳入maxpooling1,采用的最大池化公式如下:

      (5)

      2) 構(gòu)建第2卷積層 (the second convolutional layer, Conv2) 和第2最大池化層 (the second max-pooling, Maxpooling2).在第1次最大池化后將結(jié)果重新傳入Conv2,并進(jìn)行第2次卷積和池化,卷積和池化方式與第一次相同.

      3) 壓平層和遺忘層設(shè)置.在進(jìn)行2次卷積和池化以后,將池化后的結(jié)果傳入壓平層 ,把高維輸入變成一維輸出;然后將壓平層的結(jié)果傳入遺忘層 ,再將遺忘層結(jié)果傳入全連接層.此處加入遺忘層是為了防止當(dāng)數(shù)據(jù)量過(guò)小時(shí)出現(xiàn)過(guò)擬合的現(xiàn)象.

      4) 輸出層設(shè)置.選用Sigmoid函數(shù)作為激活函數(shù),其公式為:

      (6)

      式中x為前面的層處理輸出的值,函數(shù)f(x)取值范圍為[0,1].對(duì)于二分類(lèi)問(wèn)題,sigmod函數(shù)在模型中一般作為輸出層部分.此處選擇激活函數(shù)f(x)默認(rèn)的輸出進(jìn)行分類(lèi),即當(dāng)輸出值大于0.5時(shí)輸出為陽(yáng)性樣本,當(dāng)輸出值小于0.5時(shí)輸出為陰性樣本.

      2 實(shí)驗(yàn)設(shè)計(jì)

      2.1 數(shù)據(jù)集

      為了便于與其他4mC位點(diǎn)預(yù)測(cè)方法進(jìn)行比較,實(shí)驗(yàn)數(shù)據(jù)集與其它方法一致,均采用擬南芥、線蟲(chóng)、果蠅、大腸桿菌、地桿菌和嗜堿菌6個(gè)物種的4mC位點(diǎn)數(shù)據(jù)集,稱(chēng)為基準(zhǔn)數(shù)據(jù)集,并取數(shù)據(jù)集中每條序列長(zhǎng)度為41bp[14-15].基準(zhǔn)數(shù)據(jù)集包含4mC位點(diǎn)的陽(yáng)性樣本數(shù)據(jù)和陰性樣本數(shù)據(jù),見(jiàn)圖2.其中陽(yáng)性樣本數(shù)據(jù)是指序列包含4mC位點(diǎn),并且樣本序列的中間位置確實(shí)是4mC位點(diǎn)C (圖2(a)中);而陰性樣本數(shù)據(jù)是指序列不包含4mC位點(diǎn)但序列中間位置是核苷酸C (圖2(b) 中).

      圖2 4mc甲基化位點(diǎn)和非甲基化位點(diǎn)樣本示意圖

      與iDNA4mc、4mCPred、4mcPred_SVM、4mCCNN和TOMM4mC等方法比較時(shí),采用Chen等[14]整理的上述6個(gè)物種的4mC位點(diǎn)數(shù)據(jù)集,即第1基準(zhǔn)數(shù)據(jù)集;與Deep4mc進(jìn)行比較時(shí),采用Xu等[20]構(gòu)建的預(yù)測(cè)數(shù)據(jù)集,即第2基準(zhǔn)數(shù)據(jù)集.相對(duì)于第1基準(zhǔn)數(shù)據(jù)集,第2基準(zhǔn)數(shù)據(jù)集中各個(gè)物種的數(shù)據(jù)量擴(kuò)大了近10倍.各基準(zhǔn)數(shù)據(jù)集中陽(yáng)性和陰性樣本數(shù)據(jù)數(shù)據(jù)量見(jiàn)表1.

      表1 6個(gè)物種基準(zhǔn)數(shù)據(jù)集的樣本數(shù)據(jù)

      續(xù)表1

      為了使模型性能更加穩(wěn)定,采用10折交叉驗(yàn)證法將陽(yáng)性樣本和陰性樣本隨機(jī)劃分為訓(xùn)練集、驗(yàn)證集和測(cè)試集.具體方法為:將總樣本數(shù)據(jù)集隨機(jī)劃分為10等份,其中1份作為測(cè)試集,1份作為驗(yàn)證集,其余8份作為訓(xùn)練集,重復(fù)10次,最后以這10次所得AUC的平均值為依據(jù)對(duì)模型性能進(jìn)行評(píng)估.

      2.2 特征編碼

      由于每條樣本數(shù)據(jù)是 41 bp 長(zhǎng)度的堿基序列,因此每條序列可以表示成式 (7) 的形式:

      RL=N1N2…N20CN21…N40N41

      (7)

      其中,Ni∈{A、C、G、T},RL的中間位置即第21位為胞嘧啶C.該序列數(shù)據(jù)不能直接輸入到CNN模型中,因此在輸入模型之前需對(duì)其進(jìn)行預(yù)處理.將A、C、G、T進(jìn)行編碼,令A(yù)=(1,0,0,0)T、T=(0,1,0,0)T、C=(0,0,1,0)T、G=(0,0,0,1)T,則每條堿基序列可以表示成一個(gè)獨(dú)熱編碼 (one-hot enconding) 數(shù)值矩陣.例如,假設(shè)序列RL=AG…C…TG,則它的one-hot enconding數(shù)值矩陣為式 (8).

      (8)

      2.3 參數(shù)設(shè)置

      卷積過(guò)程以及全連接層中,為了防止過(guò)擬合,對(duì)數(shù)據(jù)進(jìn)行正則化處理.利用Python2.7的第3方庫(kù)keras自帶的regularizers正則化器,由于本問(wèn)題屬于分類(lèi)問(wèn)題,故選用L2范式正則化(權(quán)重衰減)方法,并將kernel_regularizer和bias_regularizers的參數(shù)均設(shè)置為0.0001.根據(jù)前人經(jīng)驗(yàn),激活函數(shù)在150次迭代后能夠使模型得到最佳的訓(xùn)練效果,所以將模型的迭代次數(shù)設(shè)置為150.模型涉及的參數(shù)均根據(jù)前人常用參數(shù)進(jìn)行組合選取最優(yōu)所得[24-26],由于線蟲(chóng)的樣本量在6種實(shí)驗(yàn)物種中基本居中,故以線蟲(chóng)為依據(jù)進(jìn)行參數(shù)調(diào)整.

      在模型訓(xùn)練過(guò)程中,為了對(duì)模型梯度加速下降,在模型優(yōu)化器選擇上,選用帶動(dòng)量 (momentum) 的隨機(jī)梯度下降算法 (stochastic gradient descent,SGD).將SGD優(yōu)化器中學(xué)習(xí)率設(shè)為0.001,動(dòng)量參數(shù)Momentum設(shè)為0.95.在模型訓(xùn)練過(guò)程中隨著不斷迭代,容易出現(xiàn)訓(xùn)練誤差不斷減少而驗(yàn)證誤差先減少后增加的現(xiàn)象.為了防止這種現(xiàn)象,模型采取提前停止 (early stopping) 策略,即在驗(yàn)證誤差不再提升時(shí)就提前結(jié)束訓(xùn)練,無(wú)需等驗(yàn)證的誤差達(dá)到最小值才停止訓(xùn)練,有效地減少了模型訓(xùn)練的時(shí)間.

      2.4 性能評(píng)價(jià)指標(biāo)

      主要采用模型對(duì)4mC位點(diǎn)識(shí)別的準(zhǔn)確率ACC 和ROC曲線下面積AUC作為性能的評(píng)價(jià)指標(biāo).ACC的計(jì)算公式為式 (9):

      (9)

      其中,真陽(yáng)性 (true positive, TP)、假陽(yáng)性 (false positive, FP)、假陰性 (false negative, FN) 和真陰性 (true negative, TN) 分別代表被正確預(yù)測(cè)的正樣本數(shù)、被錯(cuò)誤預(yù)測(cè)的負(fù)樣本數(shù)、被錯(cuò)誤預(yù)測(cè)的正樣本數(shù)和被正確預(yù)測(cè)的負(fù)樣本數(shù).ROC曲線的橫坐標(biāo)是假陽(yáng)性率(false positive rate),即被錯(cuò)誤預(yù)測(cè)的負(fù)樣本數(shù)的概率;縱坐標(biāo)是真陽(yáng)性率(true positive rate),即指被正確預(yù)測(cè)的正樣本數(shù)的概率.AUC表示ROC曲線與橫坐標(biāo)軸圍成的面積,其取值范圍為 [0,1].AUC值與預(yù)測(cè)性能正相關(guān),AUC值越大,說(shuō)明模型整體性能越好.模型評(píng)價(jià)指標(biāo)函數(shù)在代碼實(shí)現(xiàn)方面調(diào)用了Chen等[27-28]預(yù)測(cè)模型上的封裝函數(shù).

      3 結(jié)果與分析

      3.1 模型參數(shù)

      對(duì)前人常用的參數(shù)進(jìn)行組合,并在線蟲(chóng)上進(jìn)行參數(shù)調(diào)試,調(diào)試結(jié)果見(jiàn)表2~4.

      表2 卷積層數(shù)對(duì)預(yù)測(cè)準(zhǔn)確率的影響

      表3 濾波數(shù)和核大小對(duì)預(yù)測(cè)準(zhǔn)確率的影響

      表4 學(xué)習(xí)率對(duì)預(yù)測(cè)結(jié)果的影響

      從表2和表3可以看出,當(dāng)模型選用2層卷積網(wǎng)絡(luò),并且第1卷積層濾波器個(gè)數(shù)為16,第2卷積層濾波器個(gè)數(shù)為32,卷積核尺寸均為2時(shí),能夠達(dá)到最好的預(yù)測(cè)效果.

      從表4可以發(fā)現(xiàn),雖然學(xué)習(xí)率為0.01時(shí)能夠達(dá)到最高的AUC值,但此時(shí)的損失值達(dá)到了0.41,而學(xué)習(xí)率為0.001時(shí)能夠達(dá)到與學(xué)習(xí)率0.01時(shí)接近的AUC值,且此時(shí)的ACC值最高,且損失值最小,因此在模型中選用0.001的學(xué)習(xí)率對(duì)樣本進(jìn)行訓(xùn)練.

      最終,得到雙層CNN模型的具體網(wǎng)絡(luò)結(jié)構(gòu)和參數(shù),見(jiàn)表5.

      表5 雙層CNN網(wǎng)絡(luò)結(jié)構(gòu)及參數(shù)

      3.2 第1基準(zhǔn)數(shù)據(jù)集預(yù)測(cè)結(jié)果

      為了更直觀地展示每次交叉驗(yàn)證的預(yù)測(cè)效果,將測(cè)試集的10折交叉預(yù)測(cè)結(jié)果繪制成ROC曲線圖 (圖3).從圖3可以看出,模型對(duì)每個(gè)物種的4mC位點(diǎn)預(yù)測(cè)的平均AUC值都在94% 以上,具體如下:擬南芥(94±3)%、線蟲(chóng)(96±3)%、果蠅(95±1)%、大腸桿菌(95±4)%、地桿菌(97±1)%和嗜堿菌(95±4)%.

      由于基于第1基準(zhǔn)數(shù)據(jù)集的算法對(duì)模型進(jìn)行性能評(píng)價(jià)時(shí)主要采用準(zhǔn)確率,因此我們用ACC值作為與iDNA4mc、4mCPred、4mcPred_SVM、4mCCNN和TOMM4mC等方法進(jìn)行比較時(shí)的主要指標(biāo).表6列出了基于第1基準(zhǔn)數(shù)據(jù)集,各種模型在6個(gè)物種上對(duì)4mC位點(diǎn)的ACC值.從表6可以得出:iDNA4mc、4mCPred、4mcPred_SVM、4mCCNN和TOMM4mC的平均ACC值分別為80.1%、81.7%、82.7%、84.7%和88.1%,而雙層CNN模型的平均預(yù)測(cè)準(zhǔn)確率為91.7%,比上述幾種算法提高了3.6%~11.6%;與前人預(yù)測(cè)準(zhǔn)確率最高的TOMM4mc方法相比,雙層CNN模型在擬南芥、線蟲(chóng)、果蠅、地桿菌和嗜堿菌5個(gè)物種上的ACC值相對(duì)于TOMM4mc均有不同程度地提高,提高幅度分別為6%、4.8%、5.2%、2.4% 及5.3%.盡管在大腸桿菌上,雙層CNN模型比TOMM4mC的預(yù)測(cè)效果略差,ACC值低于TOMM4mC方法2.1%,但比其他模型要好很多,如:與同樣是基于卷積神經(jīng)網(wǎng)絡(luò) (單層) 的4mCCNN相比,其ACC值高了3.8%.

      圖3 第1基準(zhǔn)集10倍交叉驗(yàn)證的ROC曲線

      表6 不同模型在第1基準(zhǔn)數(shù)據(jù)集上的預(yù)測(cè)準(zhǔn)確率ACC的比較

      因此,從與不同模型的比較可以發(fā)現(xiàn),雙層CNN模型對(duì)4mC位點(diǎn)的預(yù)測(cè)具有較高的準(zhǔn)確率.從模型的整體預(yù)測(cè)效果看,雙層CNN模型的平均預(yù)測(cè)準(zhǔn)確率比目前2個(gè)最好的預(yù)測(cè)模型4mCCNN和TOMM4mC分別提高了7% 和3.6%.同時(shí),雙層CNN模型對(duì)不同物種的4mC位點(diǎn)預(yù)測(cè)可取得高達(dá)94%~97%的AUC值,表明該模型具有較好的預(yù)測(cè)能力,并且對(duì)不同物種具有很強(qiáng)的適應(yīng)性.

      3.3 第2基準(zhǔn)數(shù)據(jù)集預(yù)測(cè)結(jié)果

      為了驗(yàn)證提出的模型是否具有較強(qiáng)的穩(wěn)定性并且能與Deep4mc進(jìn)行比較,將該模型應(yīng)用到第2基準(zhǔn)數(shù)據(jù)集.在預(yù)測(cè)效果比較上,同樣選取10折交叉驗(yàn)證的平均結(jié)果.在模型預(yù)測(cè)框架和參數(shù)不變的情況下,對(duì)6種生物的4mC位點(diǎn)進(jìn)行預(yù)測(cè).結(jié)果發(fā)現(xiàn)在第2基準(zhǔn)數(shù)據(jù)集上,雙層CNN模型的平均AUC值均超過(guò)92%,達(dá)到了較好的預(yù)測(cè)效果,具體ROC曲線見(jiàn)圖4.由于Deep4mc模型中只給出了預(yù)測(cè)的AUC值,在此選用AUC值作為模型性能比較的評(píng)價(jià)指標(biāo).表7列出了模型在第2基準(zhǔn)數(shù)據(jù)上的預(yù)測(cè)AUC值比較結(jié)果.從表7可以看出,在對(duì)不同物種的4mC位點(diǎn)預(yù)測(cè)上,雙層CNN模型的預(yù)測(cè)效果都比Deep4mc要好,且模型預(yù)測(cè)的平均AUC值比Deep4mc高了約2%.這表明雙層CNN模型同樣適用于對(duì)大樣本數(shù)據(jù)的4mC位點(diǎn)預(yù)測(cè).

      圖4 第2基準(zhǔn)數(shù)據(jù)集10倍交叉驗(yàn)證的ROC曲線

      表7 不同模型在第2基準(zhǔn)數(shù)據(jù)集上的預(yù)測(cè)AUC比較

      4 結(jié)語(yǔ)

      文中基于雙卷積層和雙池化層構(gòu)建了1種DNA 4mC位點(diǎn)預(yù)測(cè)的深度學(xué)習(xí)模型,通過(guò)對(duì)6個(gè)實(shí)驗(yàn)物種的4mC位點(diǎn)進(jìn)行預(yù)測(cè)發(fā)現(xiàn),無(wú)論是基于第1基準(zhǔn)數(shù)據(jù)集還是第2基準(zhǔn)數(shù)據(jù)集,提出的模型在各個(gè)物種上都取得了相對(duì)較好的ACC值或AUC值.表明該模型不僅具有優(yōu)良的預(yù)測(cè)性能并且具有較好的普適性,可應(yīng)用于不同物種的4mC位點(diǎn)預(yù)測(cè).通過(guò)與已有方法進(jìn)行比較發(fā)現(xiàn),該模型的預(yù)測(cè)能力優(yōu)于一般的機(jī)器學(xué)習(xí)算法和單層卷積神經(jīng)網(wǎng)絡(luò)模型,提高了對(duì)4mC位點(diǎn)的預(yù)測(cè)能力.

      猜你喜歡
      基準(zhǔn)位點(diǎn)物種
      吃光入侵物種真的是解決之道嗎?
      鎳基單晶高溫合金多組元置換的第一性原理研究
      上海金屬(2021年6期)2021-12-02 10:47:20
      CLOCK基因rs4580704多態(tài)性位點(diǎn)與2型糖尿病和睡眠質(zhì)量的相關(guān)性
      回首2018,這些新物種值得關(guān)注
      二項(xiàng)式通項(xiàng)公式在遺傳學(xué)計(jì)算中的運(yùn)用*
      電咖再造新物種
      明基準(zhǔn)講方法保看齊
      瘋狂的外來(lái)入侵物種
      滑落還是攀爬
      巧用基準(zhǔn)變換實(shí)現(xiàn)裝配檢測(cè)
      河南科技(2014年15期)2014-02-27 14:12:35
      新竹市| 囊谦县| 黔西| 宝丰县| 盖州市| 胶南市| 平江县| 英吉沙县| 侯马市| 大埔区| 滕州市| 西昌市| 辽宁省| 栾川县| 正镶白旗| 济阳县| 社旗县| 陆丰市| 彝良县| 宜春市| 泸水县| 苏尼特右旗| 阿合奇县| 大新县| 商水县| 大港区| 静宁县| 通州区| 宁都县| 广水市| 大埔区| 儋州市| 巴林左旗| 墨脱县| 常宁市| 孙吴县| 伊金霍洛旗| 澄迈县| 七台河市| 兴山县| 哈密市|