• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      iSucc-PseAAC:基于集成機(jī)器學(xué)習(xí)的賴氨酸琥珀酰化修飾位點(diǎn)預(yù)測(cè)

      2022-09-06 13:46:30賈建華吳跟強(qiáng)劉春生
      關(guān)鍵詞:酰化琥珀分類器

      魏 欣, 賈建華, 吳跟強(qiáng), 劉春生

      (1)江西服裝學(xué)院商學(xué)院智慧物流教研室, 南昌 330201;2)景德鎮(zhèn)陶瓷大學(xué)信息工程學(xué)院生物信息研究室,江西, 景德鎮(zhèn) 333403)

      蛋白質(zhì)翻譯后修飾(post-translational modifications,PTMs)在整個(gè)生物發(fā)展過(guò)程中,都發(fā)揮非常重要的意義[1]。它擁有著非常特殊的功能,在人類包含2~3萬(wàn)個(gè)基因中,只有大約2%基因編碼蛋白質(zhì)。其中,有一百萬(wàn)到兩百萬(wàn)個(gè)蛋白質(zhì)分子,是通過(guò)生物化學(xué)方式選擇性剪接和翻譯后修飾而成。研究發(fā)現(xiàn),有許多的疾病與蛋白質(zhì)翻譯后修飾有關(guān)[2]。蛋白質(zhì)翻譯后修飾是根據(jù)轉(zhuǎn)移到氨基酸殘基的官能團(tuán)命名的,例如:磷酸鹽、碳水化合物、甲基和泛素的轉(zhuǎn)移分別稱為磷酸化、糖基化、甲基化、泛素化和琥珀?;痆3]。研究發(fā)現(xiàn):賴氨酸琥珀酰,它在生化反應(yīng)中均發(fā)揮著重要作用[4-6]。其中,琥珀?;?-CO-CH2-CH2-CO-)和蛋白質(zhì)中特定賴氨酸殘基共價(jià)結(jié)合,這種變化使蛋白質(zhì)的功能發(fā)生改變[7-9]。研究表明,賴氨酸琥珀酰化可能導(dǎo)致疾病發(fā)生,例如:肺結(jié)核。所以準(zhǔn)確識(shí)別賴氨酸琥珀?;稽c(diǎn),對(duì)研究其生物機(jī)制是非常重要的,在這一研究領(lǐng)域愈發(fā)受到關(guān)注。

      根據(jù)目前識(shí)別賴氨酸琥珀?;稽c(diǎn)的回顧和比較,關(guān)于此類相關(guān)研究有許多,例如:2015年,Xu等[10]使用支持向量機(jī)建立琥珀?;稽c(diǎn)預(yù)測(cè)器iSuc-PseAAC;2016年,Hasan等[11]提出基于隨機(jī)森林算法的預(yù)測(cè)器SuccinSite;2017年,Lopez等[12]采用了氨基酸結(jié)構(gòu)特征建立SucStruct預(yù)測(cè)器;2018年,Ning等[13]結(jié)合氨基酸組成、二值編碼、理化性質(zhì)和灰色偽氨基酸組成等多種特征,采用基于支持向量機(jī)集成方法,稱為PSuccE;2020年,Zhu等[14]使用隨機(jī)森林結(jié)合了多種基于序列特征編碼方法建立了Inspector預(yù)測(cè)方法;2020年,Jia等[15]使用了多種特征編碼方法,并采用寬度學(xué)習(xí)預(yù)測(cè)方法建立了預(yù)測(cè)器iSuccLys-BLS,等。

      這項(xiàng)研究中使用了多種特征提取方法,并采用了不同的集成分類器來(lái)鑒定琥珀?;稽c(diǎn)。并通過(guò)多次計(jì)算后,得出的數(shù)值平均作為輸出結(jié)果??梢钥陀^的評(píng)價(jià)分類器效果。

      1 材料與方法

      1.1 基準(zhǔn)數(shù)據(jù)集

      該研究使用了Ning等[13]構(gòu)建的數(shù)據(jù)集,琥珀?;瘮?shù)據(jù)來(lái)源于Hasan等[11]在UniProtKB/Swiss-Prot數(shù)據(jù)庫(kù)和NCBI蛋白質(zhì)序列數(shù)據(jù)庫(kù)所提取的數(shù)據(jù)。使用CD-Hit[15]去除同源性超過(guò)30%的蛋白質(zhì)序列,獲得了2 322個(gè)琥珀?;鞍踪|(zhì)。繼而從2 322個(gè)蛋白質(zhì)中隨機(jī)分離出124個(gè)蛋白質(zhì)作為獨(dú)立測(cè)試集進(jìn)行測(cè)試,其余蛋白質(zhì)作為訓(xùn)練數(shù)據(jù)集。而后將實(shí)驗(yàn)驗(yàn)證的琥珀?;稽c(diǎn)稱為陽(yáng)性位點(diǎn),而在同一蛋白質(zhì)序列中,未被琥珀?;稽c(diǎn)稱為陰性位點(diǎn)。最終采用Jia等[16]預(yù)處理數(shù)據(jù)集,具體為124個(gè)蛋白質(zhì)中包含254個(gè)琥珀?;稽c(diǎn)和2 977個(gè)非琥珀?;稽c(diǎn)作為獨(dú)立測(cè)試集,2 198個(gè)蛋白質(zhì)中4 755個(gè)琥珀?;稽c(diǎn)和50 549個(gè)非琥珀酰化位點(diǎn)作為訓(xùn)練集。本研究肽鏈L=31,蛋白質(zhì)首端(尾端)長(zhǎng)度不夠,使用X代替。原始數(shù)據(jù)集下載鏈接:https://github.com/weixin7112/succ。數(shù)據(jù)集見(jiàn)Table 1。

      Table 1 Original sample data

      每個(gè)樣本Pδ(),可以將所有是否包含琥珀酰化位點(diǎn)的肽鏈寫(xiě)成:

      Pδ()=R-δR-(δ-1)…R-2R-1R+1R+2…R+(δ-1)R+δ

      (1)

      在本研究中,總數(shù)據(jù)集分成了兩部分,一類用作訓(xùn)練模型,一類用作測(cè)試模型。該方法又需要將數(shù)據(jù)集分為兩類:

      (2)

      N(δ)=N+(δ)+N-(δ)

      (3)

      Fig.1 Two-sample Logo Statistically significant difference in location characteristics around modified and unmodified position K in the data set

      Fig.2 The residue is "X" processing method The part whose color is marked in blue,the real peptide is black, and the red symbol ? in the middle indicates a mirror. indicates modification site.(A) Represents the mirror image of the δ residue X at the head of N.(B)Represents the mirror image of the δ residue X at the end of N

      1.2 提取特征方法

      1.2.1 One-Hot編碼 當(dāng)處理蛋白質(zhì)序列時(shí),通常需要將英文縮寫(xiě)(氨基酸)轉(zhuǎn)變成為數(shù)字,這樣才能形成矩陣輸入到模型中訓(xùn)練。其中,One-Hot編碼是對(duì)氨基酸序列中的每個(gè)氨基酸轉(zhuǎn)變成20維度的向量,是常見(jiàn)的特征提取算法[19]。第一步將20種氨基酸進(jìn)行編碼,丙氨酸(Alanine)的編碼為10…0(20維)、半胱氨酸(Cysteine)的編碼為010…0(20維),…,酪氨酸(Tyrosine)的編碼為0…001(20維)。本研究中,一條蛋白質(zhì)序列長(zhǎng)度L=31,則該條蛋白質(zhì)序列可形成一個(gè)31*20維度的特征矩陣。

      1.2.2 氨基酸組成成分(AAC) 每條序列樣本中氨基酸之間存在相互關(guān)系,Nakashima等[20]研究發(fā)現(xiàn),通過(guò)計(jì)算每條序列樣本中20種常見(jiàn)的氨基酸和未知氨基酸X出現(xiàn)的頻率,生成21維度的特征矩陣表述每條樣本信息。假定一條蛋白質(zhì)序列為R,長(zhǎng)度為L(zhǎng),f(Ri)是序列R中氨基酸出現(xiàn)的次數(shù),則每個(gè)氨基酸特征可表示為:

      (4)

      其中P(Ri)代表的是每條氨基酸出現(xiàn)的頻率,i代表的氨基酸(A、C、…、Y、X),最后,可將該條蛋白質(zhì)序列R用特征表示為:

      以SPSS19.0軟件驗(yàn)證涉及的臨床數(shù)據(jù),以率(%)的形式闡述計(jì)數(shù)資料,予以χ2檢驗(yàn),以(均數(shù)±標(biāo)準(zhǔn)差)形式闡述計(jì)量資料,予以t檢驗(yàn),P<0.05,統(tǒng)計(jì)學(xué)展現(xiàn)對(duì)比差異。

      P(R)=[P(R1)P(R2)…P(R21)]

      (5)

      1.2.3 耦合序列(PseAAC)特征提取 根據(jù)Jia[18]提出的PseAAC方法,每條蛋白質(zhì)序列可通過(guò)該方法表示成特征序列,首先將公式(1)表示為:

      (6)

      其中,Pδ()可具體表示為

      (7)

      (8)

      Fig.3 Classifier flowchart Flow chart of ensemble classifier voting

      1.3 集成學(xué)習(xí)算法

      集成學(xué)習(xí)算法已經(jīng)廣泛的運(yùn)用在機(jī)器學(xué)習(xí)領(lǐng)域。通過(guò)使用多個(gè)分類器解決非平衡數(shù)據(jù)的相關(guān)問(wèn)題,同時(shí)還能顯著提升模型的泛化能力。在此次研究中,訓(xùn)練集正負(fù)樣本數(shù)量分別為4 755和50 549,因此,本文采用集成學(xué)習(xí)來(lái)解決此次研究中數(shù)據(jù)不平衡問(wèn)題。

      支持向量機(jī)(support vector machine,SVM)和隨機(jī)森林(random forest,RF)在生物信息領(lǐng)域中,已被廣泛應(yīng)用[18,21,22]。這類算法也可以運(yùn)用在不平衡的數(shù)據(jù)集。本研究使用Stacking集成學(xué)習(xí)算法,建立整體的分類器,能夠顯著提升分類器預(yù)測(cè)準(zhǔn)確率[23],公式如下:

      (9)

      1.4 評(píng)價(jià)指標(biāo)

      使用傳統(tǒng)分類模型,結(jié)果一般包括了4個(gè)指標(biāo):特異性(Sp)、敏感性(Sn)、準(zhǔn)確性(Acc)和馬修斯相關(guān)系數(shù)(MCC)[24],以評(píng)價(jià)分類模型的效果,具體公式為:

      (10)

      接收器工作特性曲線(receiver operating characteristic curve,ROC),是反應(yīng)敏感性與特異性之間的關(guān)系曲線[25]。繪制完曲線后,會(huì)對(duì)分類模型有個(gè)定性量化分析,定義為ROC曲線下與坐標(biāo)軸圍成的面積(Area Under Curve,AUC),AUC面積越大,說(shuō)明該分類模型效果越好。

      2 結(jié)果

      2.1 采用不同方法對(duì)獨(dú)立測(cè)試集進(jìn)行5次交叉驗(yàn)證,得到性能指標(biāo)

      本文中使用了3種特征提取算法:One-Hot編碼、氨基酸組成成分(AAC)和耦合序列(PseAAC)特征提取,并且使用了集成支持向量機(jī)和集成隨機(jī)森林對(duì)訓(xùn)練集進(jìn)行五折疊交叉驗(yàn)證。Table 2對(duì)訓(xùn)練集在不同方法下進(jìn)行的5次交叉驗(yàn)證,得到性能指標(biāo)。

      Table 2 The training set is cross verified five times under different methods to obtain the performance index

      獨(dú)立測(cè)試集測(cè)試對(duì)分類模型進(jìn)行評(píng)估,結(jié)果正如Table 3所示。結(jié)果發(fā)現(xiàn),基于耦合序列(PseAAC)特征提取方法,集成支持向量機(jī)模型4個(gè)評(píng)價(jià)指標(biāo)都是最優(yōu)的,在此將該方法命名為iSucc-PseAAC。同時(shí)為了驗(yàn)證iSucc-PseAAC模型的穩(wěn)定性,通過(guò)獨(dú)立測(cè)試集評(píng)價(jià)的性能指標(biāo),可在ROC曲線(Fig.4)更直觀的表示:

      Table 3 The independent test set is cross verified five times under different methods to obtain the performance index

      2.2 與現(xiàn)有方法進(jìn)行比較,后續(xù)對(duì)賴氨酸琥珀酰化修飾位點(diǎn)預(yù)測(cè)提供較大幫助

      本文將iSucc-PseAAC預(yù)測(cè)方法下的獨(dú)立測(cè)試集與其他預(yù)測(cè)器做了比較,各項(xiàng)指標(biāo)的最大值使用字體加粗表示。進(jìn)一步說(shuō)明本研究的有效性及實(shí)際意義,結(jié)果如Table 4所示。

      Table 4 iSucc-PseAAC performance comparison with the previously proposed predictor

      在這項(xiàng)研究中,本文通過(guò)iSucc-PseAAC整體的集成分類器,嚴(yán)格鑒定序列是否被琥珀?;?。iSucc-PseAAC分類器的結(jié)果表明,此次研究是有意義的,預(yù)測(cè)結(jié)果分別是:Sn = 0.827、Sp = 0.753、MCC = 0.343、Acc = 0.759。

      Fig.4 ROC curve of the independent test set ROC curve of independent test set under different methods

      本文研究的數(shù)據(jù)樣本正負(fù)比例約為1∶11,數(shù)據(jù)極度不平衡。在iSucc-PseAAC方法下,對(duì)比PSuccE和GPSuc的Sp和Acc的準(zhǔn)確率雖然略有下降,但是在研究此類非平衡數(shù)據(jù)相關(guān)問(wèn)題中,Sn和MCC是主要的考量指標(biāo),這2個(gè)指標(biāo)的提升尤為重要。這兩項(xiàng)數(shù)據(jù)對(duì)比,目前效果最好的是iSuccLys-BLS和GPSuc預(yù)測(cè)器,準(zhǔn)確率分別提升了0.104和0.047,效果明顯。與此同時(shí),iSucc-PseAAC分類器中的Sp和Acc效果也比較好。在后續(xù)對(duì)賴氨酸琥珀?;揎椢稽c(diǎn)的預(yù)測(cè)上提供了較大的幫助。

      綜合來(lái)說(shuō),iSucc-PseAAC方法對(duì)比現(xiàn)有方法有了穩(wěn)定的提升,同時(shí)將該方法源代碼已上傳至Github,以供各位專家學(xué)者們參考,下載鏈接:https://github.com/weixin7112/iSucc-PseAAC。

      3 討論

      本文的研究基于支持向量機(jī)和隨機(jī)森林分類算法,使用了多種特征提取方法進(jìn)行測(cè)試的同時(shí),集成學(xué)習(xí)算法也解決了正負(fù)樣本不平衡的問(wèn)題,最終開(kāi)發(fā)了一種iSucc-PseAAC分類器,在與其他現(xiàn)有預(yù)測(cè)器對(duì)比顯示,iSucc-PseAAC分類器在鑒定賴氨酸琥珀酰化位點(diǎn)具有更優(yōu)的性能。最終獨(dú)立測(cè)試集預(yù)測(cè)精度分別為:Sn=0.827、Sp=0.753、MCC=0.343、Acc=0.759。

      本文利用蛋白質(zhì)序列特征的相關(guān)性,首先使用One-Hot編碼和氨基酸組成成分(AAC),分別在蛋白質(zhì)單條序列中提取特征信息,這樣得到的信息是有限的,導(dǎo)致預(yù)測(cè)的效果并不是理想。因?yàn)闃颖九c樣本之間,會(huì)存在某種相關(guān)聯(lián)系,外加此次研究數(shù)據(jù)中,樣本數(shù)據(jù)量大,需要充分挖掘序列與序列信息,可能會(huì)有不錯(cuò)的效果。因此,本文使用了耦合序列(PseAAC)特征提取算法,充分利用了各條蛋白質(zhì)序列之間存在的相關(guān)性,通過(guò)實(shí)驗(yàn)證實(shí),預(yù)測(cè)的效果是顯著的,對(duì)比現(xiàn)有的分類器,提升效果明顯。

      在后續(xù)的工作中,可以結(jié)合氨基酸理化性質(zhì)和多種分類算法一起研究,充分挖掘樣本中隱藏信息,同時(shí)也要應(yīng)對(duì)少數(shù)樣本中信息較少的情況下,如何鑒定修飾位點(diǎn)也是一項(xiàng)挑戰(zhàn)。不過(guò)在生物信息統(tǒng)計(jì)研究中,非平衡數(shù)據(jù)研究一直是當(dāng)下研究的熱點(diǎn),集成學(xué)習(xí)算法可以有效的提升分類預(yù)測(cè)的精度,本次研究可供各位學(xué)者提供參考。

      猜你喜歡
      酰化琥珀分類器
      能浮在水上的琥珀是天然琥珀嗎
      少兒科技(2021年12期)2021-01-20 23:19:19
      琥珀凝光
      紫禁城(2020年5期)2021-01-07 02:13:36
      情厚重斟琥珀杯 琥珀的前世今生
      紫禁城(2020年5期)2021-01-07 02:13:36
      BP-GA光照分類器在車道線識(shí)別中的應(yīng)用
      琥珀誕生記
      加權(quán)空-譜與最近鄰分類器相結(jié)合的高光譜圖像分類
      結(jié)合模糊(C+P)均值聚類和SP-V-支持向量機(jī)的TSK分類器
      內(nèi)源信號(hào)肽DSE4介導(dǎo)頭孢菌素C?;冈诋叧嘟湍钢械姆置诒磉_(dá)
      促酰化蛋白對(duì)3T3-L1脂肪細(xì)胞炎性反應(yīng)的影響
      人參二醇磺?;磻?yīng)的研究
      宣汉县| 汉沽区| 铁力市| 海伦市| 保靖县| 汨罗市| 伊宁市| 宁河县| 自治县| 大悟县| 湛江市| 尼勒克县| 靖西县| 五台县| 梁山县| 西吉县| 崇阳县| 临洮县| 景东| 霸州市| 新民市| 合水县| 舒城县| 建昌县| 石林| 延边| 苏尼特右旗| 嵊泗县| 温泉县| 保德县| 漳浦县| 南木林县| 灵川县| 嘉峪关市| 合阳县| 襄汾县| 南康市| 两当县| 通辽市| 旌德县| 三台县|