• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      一種基于語(yǔ)義特征預(yù)測(cè)N4-乙酰胞苷修飾位點(diǎn)的方法

      2022-01-04 11:04:58鄭楊
      關(guān)鍵詞:分類(lèi)器語(yǔ)義卷積

      鄭楊

      (邵陽(yáng)學(xué)院 食品與化學(xué)工程學(xué)院,湖南 邵陽(yáng),422000)

      目前,在RNA分子中鑒定出了160多種不同的修飾[1],這些修飾影響RNA代謝的各個(gè)方面,比如穩(wěn)定性、結(jié)構(gòu)、翻譯、定位、拼接,開(kāi)辟了對(duì)基因調(diào)節(jié)的新途徑[2]。目前已報(bào)道的一種可逆修飾是m1A[3],它修飾了所有類(lèi)別的RNA和DNA,影響RNA代謝的各個(gè)方面,但其生物學(xué)功能需要進(jìn)一步探尋。除了以上轉(zhuǎn)錄組學(xué)標(biāo)記外,還報(bào)道了RNA中的第一個(gè)乙?;瘶?biāo)記,即真核mRNA中的N4-乙酰胞苷(ac4C)[4]。

      THOMAS等[5]描述了ac4C是一種高度保守的修飾核堿基,其形成是由必需的胞嘧啶乙?;D(zhuǎn)移酶NAT10催化的。ac4C可以影響mRNA解碼效率,在調(diào)節(jié)mRNA翻譯中起作用。JIN等[6]闡述了ac4C在翻譯過(guò)程中有助于正確讀取密碼子,并提高翻譯效率和mRNA的穩(wěn)定性,總結(jié)了ac4C在基因表達(dá)調(diào)控中的作用和機(jī)制,證明了ac4C與人類(lèi)的多種疾病尤其是癌癥的相關(guān)性。所以,準(zhǔn)確檢測(cè)ac4C修飾至關(guān)重要。

      近年來(lái),生物物理或生物化學(xué)技術(shù)被開(kāi)發(fā)用于檢測(cè)ac4C,但是采用這些技術(shù)既費(fèi)時(shí)又費(fèi)力。為了高效準(zhǔn)確地檢測(cè)ac4C,深度學(xué)習(xí)和機(jī)器學(xué)習(xí)的檢測(cè)方法也應(yīng)運(yùn)而生,PACES是用位置特異性二核苷酸序列分布(PSDSP)和k核苷酸的頻率(KNF)結(jié)合隨機(jī)森林分類(lèi)器進(jìn)行N4-乙酰胞苷修飾位點(diǎn)分類(lèi)的預(yù)測(cè)方法[7]。XG-ac4C是用核苷酸的EIIP值和每個(gè)核苷酸的平均EIIP值結(jié)合XGBoost分類(lèi)器進(jìn)行ac4C修飾位點(diǎn)分類(lèi)的預(yù)測(cè)方法[8]。雖然XG-ac4C各項(xiàng)評(píng)價(jià)指標(biāo)較好,但靈敏度(SN)還是較低,且前面2種方法均使用普通機(jī)器學(xué)習(xí)方法。在此基礎(chǔ)上設(shè)計(jì)一種基于深度學(xué)習(xí)的語(yǔ)義特征提取方法,通過(guò)卷積神經(jīng)網(wǎng)絡(luò)和長(zhǎng)短時(shí)記憶網(wǎng)絡(luò)(LSTM)提取序列中隱藏的語(yǔ)義特征,然后,輸送到隨機(jī)森林分類(lèi)器模型中進(jìn)行訓(xùn)練以及預(yù)測(cè)。提出的模型流程見(jiàn)圖1。

      圖1 流程圖Fig.1 Flow chart

      1 數(shù)據(jù)

      用到的數(shù)據(jù)集是ZHAO等[7]劃分的,他們從2 134個(gè)基因中[9]提取至少5次重復(fù)的CXX基序,把位于乙?;鍍?nèi)連續(xù)的CXX基序當(dāng)作正樣本,峰外的連續(xù)CXX基序當(dāng)作負(fù)樣本。然后,將這些樣本分為訓(xùn)練集和測(cè)試集,訓(xùn)練集中有1 160個(gè)正樣本,10 855個(gè)負(fù)樣本,測(cè)試集中有469個(gè)正樣本,4 343個(gè)負(fù)樣本。

      2 方法

      方法包括4個(gè)主要步驟:數(shù)據(jù)收集、特征編碼、隨機(jī)森林分類(lèi)器模型訓(xùn)練和ac4C預(yù)測(cè)。進(jìn)一步可劃分為數(shù)據(jù)收集與預(yù)處理、構(gòu)建深度學(xué)習(xí)模型提取語(yǔ)義特征,構(gòu)建隨機(jī)森林分類(lèi)器,優(yōu)化分類(lèi)器參數(shù),訓(xùn)練隨機(jī)森林分類(lèi)器并使用訓(xùn)練后的分類(lèi)器預(yù)測(cè)ac4C。使用ac4C數(shù)據(jù)集中的訓(xùn)練集進(jìn)行深度學(xué)習(xí)模型的訓(xùn)練,將倒數(shù)第2層的輸出視為ac4C語(yǔ)義特征,然后放到隨機(jī)森林分類(lèi)器中進(jìn)行訓(xùn)練并預(yù)測(cè)。

      2.1 語(yǔ)義特征提取

      2.1.1 序列分割

      假設(shè)ac4C的序列與自然語(yǔ)言中的句子一樣,堿基間具有語(yǔ)義聯(lián)系,如果把單個(gè)堿基(A,T,G,C,N)看做1個(gè)單詞,那么只有5種表示方式,不能較好地反映句子之間的聯(lián)系。如果使用雙堿基,那么只有25種表示方式,對(duì)于句子之間的關(guān)系反映還是有所欠缺。使用4個(gè)或4個(gè)以上的堿基組和形式并不合適,因?yàn)閷?shí)際序列中并沒(méi)有這么多類(lèi)型,并且還增加了計(jì)算的復(fù)雜度。如圖2所示,把每3個(gè)堿基看成1個(gè)單詞進(jìn)行數(shù)字編碼,即包含5×5×5=125個(gè)單詞。

      圖2 詞匯劃分Fig.2 Vocabulary division

      2.1.2 構(gòu)建模型

      使用的深度學(xué)習(xí)模型主要包含:嵌入層、一維卷積層、池化層、雙向長(zhǎng)短時(shí)記憶網(wǎng)絡(luò)層、丟棄層、扁平化層和全連接層。模型結(jié)構(gòu)見(jiàn)圖3。

      1)嵌入層。嵌入層是使用在深度學(xué)習(xí)模型中的第一個(gè)網(wǎng)絡(luò)層,是將離散變量轉(zhuǎn)為連續(xù)向量表示的一個(gè)方式。在神經(jīng)網(wǎng)絡(luò)中,嵌入層是比較有用的,因?yàn)樗梢詼p少離散變量的空間維數(shù),通常用于文本數(shù)據(jù)建模。

      圖3 深度學(xué)習(xí)模型結(jié)構(gòu)圖Fig.3 Architecture of deep learning model

      2)一維卷積層。卷積神經(jīng)網(wǎng)絡(luò)(CNN)是一種前饋神經(jīng)網(wǎng),在圖像處理、語(yǔ)音識(shí)別、生物信息學(xué)等各個(gè)方面應(yīng)用廣泛[10]。卷積神經(jīng)網(wǎng)絡(luò)將人工神經(jīng)網(wǎng)絡(luò)和深度學(xué)習(xí)技術(shù)進(jìn)行了結(jié)合,構(gòu)造了一種新的方法,其目的是以一定的模型對(duì)事物進(jìn)行特征提取,而后根據(jù)特征對(duì)該事物進(jìn)行分類(lèi)、識(shí)別、預(yù)測(cè)或決策等[11]。CNN特點(diǎn)是可以進(jìn)行局部感知,所以,對(duì)于局部信息的識(shí)別尤其精準(zhǔn)[12]。卷積層的輸入輸出數(shù)據(jù)稱(chēng)為特征圖[13]。

      3)池化層。池化層是當(dāng)前卷積神經(jīng)網(wǎng)絡(luò)中常用組件之一,它最早見(jiàn)于LeNet一文,稱(chēng)之為Subsample[14]。自AlexNet之后采用Pooling命名[15]。池化層通常用來(lái)實(shí)現(xiàn)對(duì)網(wǎng)絡(luò)中特征圖的降維,減少參數(shù)數(shù)量的同時(shí),為網(wǎng)絡(luò)后面各個(gè)層增加感受野,保留特征圖的顯著特征。實(shí)施池化的目的是防止模型過(guò)擬合。

      4)雙向長(zhǎng)短時(shí)記憶網(wǎng)絡(luò)層。循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)[16-17]是一種將以往學(xué)習(xí)的結(jié)果應(yīng)用到當(dāng)前學(xué)習(xí)的模型,但是一般的RNN存在著許多弊端。標(biāo)準(zhǔn)的RNN結(jié)構(gòu)中只有1個(gè)神經(jīng)元,1個(gè)tanh層進(jìn)行重復(fù)學(xué)習(xí),不能很好地處理長(zhǎng)語(yǔ)句中相關(guān)的信息與預(yù)測(cè)詞之間的聯(lián)系,但長(zhǎng)短時(shí)記憶網(wǎng)絡(luò)(LSTM)可以解決這一問(wèn)題[17-18]。LSTM處理序列問(wèn)題有效的關(guān)鍵在于門(mén)結(jié)構(gòu),通過(guò)門(mén)結(jié)構(gòu)去除或者增加信息到細(xì)胞狀態(tài)的能力。LSTM由于其設(shè)計(jì)的特點(diǎn),適合用于對(duì)時(shí)序數(shù)據(jù)的建模,但是,利用LSTM對(duì)句子進(jìn)行建模無(wú)法編碼從后到前的信息,所以,雙向長(zhǎng)短時(shí)記憶網(wǎng)絡(luò)(BiLSTM)應(yīng)運(yùn)而生,它可以較好地捕捉雙向的語(yǔ)義依賴(lài)。

      5)丟棄層。在深度學(xué)習(xí)的模型中,如果模型參數(shù)太多訓(xùn)練樣本太少,訓(xùn)練出來(lái)的模型容易產(chǎn)生過(guò)擬合。HINTON等[19]提出Dropout可以比較有效地緩解過(guò)擬合的發(fā)生,在一定程度上達(dá)到正則化的效果。Dropout的原理為通過(guò)阻止特征檢測(cè)器的共同作用來(lái)提高神經(jīng)網(wǎng)絡(luò)的性能[20]。

      6)扁平化層和全連接層。扁平化層用來(lái)將多維的輸入一維化,常用于從卷積層到全連接層的過(guò)渡,且扁平化不影響批次的大小。全連接層在整個(gè)卷積神經(jīng)網(wǎng)絡(luò)中起到“分類(lèi)器”的作用。全連接層實(shí)質(zhì)是一個(gè)矩陣乘法,進(jìn)行一個(gè)特征空間變換,目的把有用的信息提取整合。

      2.1.3 提取特征

      搭建好深度學(xué)習(xí)模型后,用訓(xùn)練集的數(shù)據(jù)訓(xùn)練CNNLSTM模型,因?yàn)閿?shù)據(jù)龐大,為了提高訓(xùn)練速度,節(jié)省內(nèi)存利用,分批次進(jìn)行訓(xùn)練。訓(xùn)練時(shí),因?yàn)檎?fù)樣本數(shù)量差別過(guò)大,容易造成數(shù)據(jù)失衡,所以,采取加權(quán)的方式來(lái)平衡正負(fù)樣本。將ac4C的序列輸入到此深度模型中,獲取全連接層的輸出視作語(yǔ)義特征,獲得26 464維語(yǔ)義特征。

      2.2 隨機(jī)森林

      隨機(jī)森林是一種集成算法[21],它是袋裝算法的1種,組合多個(gè)弱分類(lèi)器,最終輸出的類(lèi)別由個(gè)別樹(shù)輸出類(lèi)別的眾數(shù)而定,隨機(jī)抽樣方法使它具有抗過(guò)擬合能力,而組合多個(gè)弱分類(lèi)器使它預(yù)測(cè)更加精準(zhǔn)。

      隨機(jī)森林的弱分類(lèi)器是決策樹(shù)[22],當(dāng)數(shù)據(jù)集的因變量為連續(xù)性數(shù)值時(shí),該樹(shù)算法就是一個(gè)回歸樹(shù);當(dāng)數(shù)據(jù)集的因變量為離散型數(shù)值時(shí),該樹(shù)算法就是一個(gè)分類(lèi)樹(shù)[23]。決策樹(shù)算法是1個(gè)二叉樹(shù),每一個(gè)不是葉子的節(jié)點(diǎn)都能分出2個(gè)子節(jié)點(diǎn)。

      特征選擇目前常用的方法是信息增益、增益率、基尼系數(shù)和卡方檢驗(yàn)。隨機(jī)森林采用的分類(lèi)回歸樹(shù)(CART)就是基于基尼系數(shù)(GiNi)選擇特征的[24]。

      對(duì)于一般的決策樹(shù),假如總共有k類(lèi),樣本屬于第k類(lèi)的概率為pk,則該概率分布的基尼指數(shù)為

      (1)

      隨機(jī)森林是一個(gè)基于樹(shù)的集合,每棵樹(shù)都取決于隨機(jī)變量的集合。對(duì)于表示實(shí)值輸入或預(yù)測(cè)變量的p維隨機(jī)向量X(X1,…,Xp)T和表示實(shí)值響應(yīng)的隨機(jī)變量Y,假定未知的聯(lián)合分布為PXY(X,Y)。目標(biāo)是找到預(yù)測(cè)函數(shù)f(X)用于預(yù)測(cè)Y。預(yù)測(cè)函數(shù)由損失函數(shù)L(Y,f(X))確定,并定義為使損失的期望值最小化:

      EXY(L(Y,f(x)))

      (2)

      其中:下標(biāo)表示對(duì)X和Y的聯(lián)合分布的期望。

      L(Y,f(X))是衡量f(X)到Y(jié)的接近程度,它的值越大,表示f(X)與Y距離越遠(yuǎn)。L的典型應(yīng)用是平方誤差損失L(Y,f(X))=(Y-f(X))2,通常用于回歸和0-1損失分類(lèi):

      (3)

      實(shí)際上,可以通過(guò)方法[25]可使EXY(L(Y,f(X)))最小化,對(duì)于平方誤差損失給出條件期望:

      f(x)=E(Y|X=x)

      (4)

      (5)

      此過(guò)程也稱(chēng)為貝葉斯規(guī)則。

      集合構(gòu)造f根據(jù)一組所謂的“基礎(chǔ)學(xué)習(xí)者”h1(x),…,hj(x)與這些基礎(chǔ)學(xué)習(xí)器組合在一起,得出“整體預(yù)測(cè)器”f(X)。在回歸中,基礎(chǔ)學(xué)習(xí)者被平均:

      (6)

      在分類(lèi)時(shí),f(X)是最常預(yù)測(cè)的類(lèi)別:

      (7)

      在隨機(jī)森林中,第j個(gè)基礎(chǔ)學(xué)習(xí)者是1棵樹(shù),表示為hj(X,Θj),這里的Θj是隨機(jī)變量的集合,Θj與j=1,…,J是獨(dú)立的。

      3 評(píng)價(jià)指標(biāo)

      為了評(píng)估的方法和當(dāng)前的預(yù)測(cè)ac4C位點(diǎn)預(yù)測(cè)方法的實(shí)施情況,使用2種評(píng)估技術(shù)對(duì)的方法進(jìn)行了評(píng)估。第一種技術(shù)是通過(guò)5倍交叉驗(yàn)證建立的。具體來(lái)說(shuō),將數(shù)據(jù)分為5個(gè)部分,其中1個(gè)用于驗(yàn)證,而另外4個(gè)用于訓(xùn)練。第二種技術(shù)是使用獨(dú)立測(cè)試集來(lái)評(píng)估方法的整體質(zhì)量。

      為了定量比較方法的性能,使用了以下指標(biāo):靈敏度(SN)、特異性(SP)、精度(ACC)和馬修斯相關(guān)系數(shù)(MCC)。

      其中:TP和TN分別是真陽(yáng)性和真陰性樣本的數(shù)量;FP和FN分別是假陽(yáng)性和假陰性樣本的數(shù)量。

      受試者工作特征曲線(ROC曲線)是衡量二分類(lèi)模型優(yōu)劣的1種評(píng)價(jià)指標(biāo),它可以根據(jù)一系列不同的二分類(lèi)方式,以真陽(yáng)性率(TPR)為縱坐標(biāo),假陽(yáng)性率(FPR)為橫坐標(biāo)繪制的曲線。ROC曲線下面積在0到1之間,其中,TPR和FPR的計(jì)算方法為

      4 結(jié)果

      用主成分分析(PCA)[26]可視化語(yǔ)義特征,PCA是一種用于探索高維數(shù)據(jù)結(jié)構(gòu)的技術(shù),通常用于高維數(shù)據(jù)的探索與可視化,PCA將數(shù)據(jù)映射到一個(gè)低維子空間實(shí)現(xiàn)降維。如圖4所示,語(yǔ)義特征對(duì)于區(qū)分ac4C修飾與非修飾有很好的效果。

      圖4 PCA可視化語(yǔ)義特征Fig.4 Semantic features visualized with PCA

      設(shè)置隨機(jī)森林分類(lèi)器時(shí),為了使每次結(jié)果一致,將隨機(jī)狀態(tài)(random_state)設(shè)置1個(gè)固定值,即random_state=100。使用訓(xùn)練集經(jīng)深度學(xué)習(xí)模型提取的語(yǔ)義特征進(jìn)行5倍交叉驗(yàn)證,用來(lái)優(yōu)化隨機(jī)森林分類(lèi)器中的參數(shù),將最佳性能的參數(shù)保留下來(lái),見(jiàn)表1。

      表1 隨機(jī)森林分類(lèi)器參數(shù)Table 1 Parameters of random forest classifier

      因?yàn)閍c4C數(shù)據(jù)中正樣本、負(fù)樣本的數(shù)量差距太大,所以,要進(jìn)行平衡處理。隨機(jī)森林分類(lèi)器中的類(lèi)型權(quán)重參數(shù)(class_weight)可以用作平衡正樣本、負(fù)樣本的不均衡問(wèn)題,可以把其設(shè)置為“balanced”,該設(shè)置會(huì)自動(dòng)計(jì)算權(quán)重,使輸入樣本中各類(lèi)別之間的權(quán)重自動(dòng)平衡。

      如圖5所示,語(yǔ)義特征在交叉驗(yàn)證上的ROC曲線方法在5倍交叉驗(yàn)證上達(dá)到了較好的性能(AUC=0.879 6)。語(yǔ)義特征在獨(dú)立測(cè)試上的ROC曲線見(jiàn)圖6,這種方法在獨(dú)立測(cè)試中效果較好(AUC=0.871 8)。

      圖5 交叉驗(yàn)證的ROC曲線Fig.5 ROC curve of cross validation

      圖6 獨(dú)立測(cè)試的ROC曲線Fig.6 ROC curve of independent test

      近年來(lái),預(yù)測(cè)ac4C修飾位點(diǎn)的方法有PACES[6]和XG-ac4C[7]。表2列出了3種方法所有特征的性能比較,所提出的方法在AUC的值上與之前方法相差不大,但是在單個(gè)特征對(duì)比上,使用的語(yǔ)義特征遠(yuǎn)超出單個(gè)特征的效果,證明了在ac4C修飾的數(shù)據(jù)中是存在語(yǔ)義的。如果把語(yǔ)義特征與其他特征進(jìn)行組合,在AUC上一定比之前的方法高。

      表2 3種方法的AUC的性能比較Table 2 Comparison of AUC performance by three methods

      對(duì)于XG-ac4C比較來(lái)說(shuō),它的各項(xiàng)評(píng)估指標(biāo)都比較好。但是其靈敏度(SN)較低,不能準(zhǔn)確分辨出正樣本。SFac4C-RF與XG-ac4C方法性能比較見(jiàn)表3。

      表3 SFac4C-RF與XG-ac4C方法的性能比較Table 3 Performance comparison between the method in the paper and XG-ac4C

      5 結(jié)論

      N4-乙?;?ac4C)在調(diào)節(jié)mRNA翻譯中起到了重要作用,能準(zhǔn)確理解RNA的ac4C修飾,有望在發(fā)育和疾病中發(fā)揮重要的生物學(xué)功能。在對(duì)ac4C進(jìn)行深入研究中,提出了一種基于深度學(xué)習(xí)的特征提取方法,通過(guò)長(zhǎng)短時(shí)記憶網(wǎng)絡(luò)和卷積神經(jīng)網(wǎng)絡(luò)搭建的深度學(xué)習(xí)模型提取序列中隱藏的語(yǔ)義特征,與使用的傳統(tǒng)特征進(jìn)行對(duì)比,語(yǔ)義特征具有更好的性能,有助于更準(zhǔn)確識(shí)別ac4C的修飾位點(diǎn)。

      猜你喜歡
      分類(lèi)器語(yǔ)義卷積
      基于3D-Winograd的快速卷積算法設(shè)計(jì)及FPGA實(shí)現(xiàn)
      語(yǔ)言與語(yǔ)義
      從濾波器理解卷積
      電子制作(2019年11期)2019-07-04 00:34:38
      基于傅里葉域卷積表示的目標(biāo)跟蹤算法
      BP-GA光照分類(lèi)器在車(chē)道線識(shí)別中的應(yīng)用
      加權(quán)空-譜與最近鄰分類(lèi)器相結(jié)合的高光譜圖像分類(lèi)
      結(jié)合模糊(C+P)均值聚類(lèi)和SP-V-支持向量機(jī)的TSK分類(lèi)器
      “上”與“下”語(yǔ)義的不對(duì)稱(chēng)性及其認(rèn)知闡釋
      認(rèn)知范疇模糊與語(yǔ)義模糊
      基于LLE降維和BP_Adaboost分類(lèi)器的GIS局部放電模式識(shí)別
      都匀市| 夏河县| 阳泉市| 射阳县| 道孚县| 南昌县| 永靖县| 嘉义县| 五指山市| 中阳县| 阜宁县| 肥乡县| 成武县| 广汉市| 陆河县| 永川市| 五原县| 昭通市| 阳东县| 彭州市| 乌鲁木齐县| 武义县| 陵川县| 湘潭县| 乌鲁木齐市| 翁牛特旗| 新郑市| 夏津县| 阿勒泰市| 平武县| 赤水市| 淮阳县| 石渠县| 基隆市| 铁岭市| 兴文县| 全州县| 礼泉县| 财经| 阜城县| 高尔夫|