• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      分子識別特征預(yù)測算法特性分析*

      2022-06-13 02:22:02
      關(guān)鍵詞:無序殘基氨基酸

      李 子 夏

      (天津大學(xué)應(yīng)用數(shù)學(xué)中心,天津 300072)

      0 引 言

      固有無序蛋白區(qū)域(intrinsically disordered proteins regions,IDRs)在生物體中占有重要地位.具有IDRs的蛋白質(zhì)能影響分子組裝識別、信號傳導(dǎo)、重排、轉(zhuǎn)錄和翻譯等細(xì)胞功能[1],并參與小分子的結(jié)合、轉(zhuǎn)運和催化[2].Habchi等[3]證實約30%~50%的真核蛋白具有一個或多個長的IDRs.固有無序蛋白結(jié)合域是IDRs的功能區(qū)域,在細(xì)胞的信號傳遞和調(diào)節(jié)過程中起著重要作用,是無序蛋白質(zhì)研究的熱點.固有無序蛋白結(jié)合域按照區(qū)域的長短分為短線性基序(short linear motifs,SLiMs)和分子識別特征(molecular recognitionfeatures,MoRFs),其中SLiMs和MoRFs的殘基數(shù)分別是≤5和5~25個.Yan等[4]分析了868個完整蛋白質(zhì)組,結(jié)果顯示真核生物有21%的IDRs具有MoRFs,細(xì)菌和古細(xì)菌有29%的IDRs具有MoRFs.

      由于SLiMs和MoRFs長度上的差異,所以預(yù)測這2類功能域的方法不同.目前SLiMs的預(yù)測是基于在一組不同序列中尋找正則表達(dá)式的原理來開發(fā)算法.MoRFs相比于其他無序區(qū)域和結(jié)構(gòu)化區(qū)域有其獨特的序列特征,因此,MoRFs的預(yù)測可以基于序列進(jìn)行精確的計算預(yù)測.另外,MoRFs的長度越長,序列特征越明顯,如:與其他IDRs相比,MoRFs區(qū)域富含大的疏水側(cè)鏈的氨基酸,特別是芳香族氨基酸含量較高;與SLiMs的預(yù)測算法相比,MoRFs的預(yù)測算法更多,準(zhǔn)確率也更高.這些預(yù)測算法的出現(xiàn),推動了MoRFs計算識別算法的發(fā)展[4],推定MoRFs不僅有助于闡明蛋白質(zhì)功能,還可用于多種病毒蛋白質(zhì)組、細(xì)胞死亡途徑、通道蛋白的相互作用組、激酶、核小體和核糖體的分析研究[5-10].

      近年來,研究人員相繼提出一批基于不同原理及方法的MoRFs預(yù)測算法[11-12].Dosztanyi等[11]基于多肽鏈中殘基的3種性質(zhì),結(jié)合殘基必須處于一個長的無序區(qū)域、殘基不能與其領(lǐng)域折疊以及殘基能夠與球狀結(jié)合域相互作用,開發(fā)了ANCHOR;Malhis等[12]利用貝葉斯規(guī)則結(jié)合了MoRFs的保守性、MoRFs與其側(cè)翼IDRs的理化性質(zhì)差異以及其本身的無序特征,開發(fā)了MoRFCHiBi_web.然而,經(jīng)過生物學(xué)家實驗確認(rèn)的MoRFs數(shù)量很少,只有53條蛋白質(zhì)序列中包含MoRFs[12],因此MoRFs預(yù)測算法之間有很大差別.近年來,隨機(jī)序列已被廣泛應(yīng)用于生物信息學(xué)多個領(lǐng)域的算法對比分析研究中[13-14],因此本文構(gòu)造隨機(jī)蛋白序列作為測試集,將其創(chuàng)造性地應(yīng)用于MoRFs的預(yù)測算法比較分析中,選取2種經(jīng)典的MoRFs預(yù)測算法比較其結(jié)果差異與特性,以期將來對MoRFs更深入的研究建立理論基礎(chǔ).

      1 材料與方法

      1.1 構(gòu)建數(shù)據(jù)集

      通過產(chǎn)生隨機(jī)序列作為獨立數(shù)據(jù)集,將20種氨基酸隨機(jī)排列,得到隨機(jī)序列,規(guī)定每種氨基酸的使用頻率為5%.通過等比例隨機(jī)取樣的策略,從固定的20種氨基酸殘基的組合中,即丙氨酸(A)、精氨酸(R)、天冬酰胺(N)、天冬氨酸(D)、半胱氨酸(C)、谷氨酰胺(Q)、谷氨酸(E)、甘氨酸(G)、組氨酸(H)、異亮氨酸(I)、亮氨酸(L)、賴氨酸(K)、蛋氨酸(M)、苯丙氨酸(F)、脯氨酸(P)、絲氨酸(S)、蘇氨酸(T)、色氨酸(W)、酪氨酸(Y)和纈氨酸(V)),隨機(jī)生成10 000條長度均為60個殘基的隨機(jī)蛋白序列,接下來使用CD-HIT工具(相似度閾值參數(shù)設(shè)定為30%)[15],對這些蛋白質(zhì)序列去冗余.以此數(shù)據(jù)集進(jìn)行實驗驗證,將其記為Rseq.

      1.2 MoRFs預(yù)測算法

      選取ANCHOR和MoRFCHiBi_web算法進(jìn)行對比分析.ANCHOR被嵌入到MobiDB3.0數(shù)據(jù)庫中用于預(yù)測MoRFs,是一個非常經(jīng)典的算法;MoRFCHiBi_web是2016年被開發(fā)出來的算法,比之前開發(fā)的其他MoRFs預(yù)測算法準(zhǔn)確率高.其中,MoRDCHiBi_web算法比ANCHOR的計算時間長,因為MoRDCHiBi_web算法為了計算保守性特征需使用 PSI-BLAST工具[16].

      1.3 評估指標(biāo)

      1.3.1 氨基酸類型偏好

      統(tǒng)計數(shù)據(jù)庫中每種氨基酸在MoRFs區(qū)域或非MoRFs區(qū)域上出現(xiàn)的頻率與其在整個數(shù)據(jù)集中的出現(xiàn)頻率之差,來表示MoRFs區(qū)域中各種氨基酸的使用偏好,公式如下:

      除此之外,將每一條序列分為MoRFs區(qū)域、Flanks區(qū)域(MoRFs兩側(cè)各含8個殘基)和Others區(qū)域(除MoRFs和Flanks區(qū)域外)共3個區(qū)域,統(tǒng)計這3個區(qū)域的氨基酸類型偏好.

      1.3.2 相關(guān)性分析

      使用Pearson相關(guān)系數(shù)(r)衡量2種預(yù)測方法預(yù)測結(jié)果的相關(guān)程度,將數(shù)據(jù)集Rseq中的隨機(jī)序列隨機(jī)等分為10組,每組的全部殘基在2種方法的預(yù)測概率分?jǐn)?shù)分別構(gòu)成一個向量,對其進(jìn)行相關(guān)性分析.相反系數(shù)計算公式為

      式中:r∈[-1,1],r>0為正相關(guān),r<0為負(fù)相關(guān),|r|越大則相關(guān)性越高.

      1.3.3 平均得分

      統(tǒng)計分析2種算法預(yù)測每條序列時,每個殘基的概率值與其在序列中的位置關(guān)系.計算Rseq上從1~60的每個位置上殘基得分的算術(shù)平均數(shù)(pavg),計算公式為

      式中:pi表示第i條序列上某個位置上的預(yù)測得分值,n為序列的總個數(shù).當(dāng)算法在所有位置上的平均得分都相近時,表明該算法對每個殘基預(yù)測得分與殘基所在位置無關(guān),否則表明該算法對殘基預(yù)測得分與殘基所在位置有關(guān).

      2 結(jié)果與分析

      2.1 預(yù)測結(jié)果比較

      ANCHOR算法預(yù)測時,10 000條序列均返回預(yù)測結(jié)果;MoRFCHiBi_web算法預(yù)測時,有9 271條序列返回預(yù)測結(jié)果.MoRFCHiBi_web算法使用了PSI-BLAST用以計算序列保守性特征,當(dāng)序列在此過程中找到同源序列才得以計算后續(xù)特征,否則不能得到預(yù)測結(jié)果.ANCHOR和MoRFCHiBi_web算法對Rseq的隨機(jī)蛋白序列預(yù)測的總無序殘基和與其對應(yīng)的蛋白質(zhì)序列數(shù)目的關(guān)系如圖1所示.2種算法都預(yù)測出了MoRFs殘基,并且都有大量的序列沒有被預(yù)測到正樣本.ANCHOR和MoRFCHi-Bi_web分別在5 628和4 595條序列上均預(yù)測為非MoRFs殘基.ANCHOR能夠預(yù)測到的一條序列上的MoRFs殘基數(shù)大多集中在1~8個,MoRFCHi-Bi_web預(yù)測到的一條序列上的MoRFs殘基數(shù)大多集中在0~10個.與ANCHOR算法相比,MoRFCHi-Bi_web算法預(yù)測的MoRFs殘基長度整體偏大.

      圖1 2種算法對Rseq中不同總MoRFs殘基長度上的序列分布

      2.2 氨基酸類型偏好分析

      ANCHOR和MoRFCHiBi_web算法預(yù)測的氨基酸類型偏好結(jié)果如圖2.可知2種算法得到的結(jié)果整體一致,MoRFs區(qū)域上偏好的氨基酸類型有10種,分別是A、R、I、M、L、F、P、W、Y和V;非MoRFs區(qū)域上偏好的氨基酸類型也有10種,分別是N、D、C、Q、E、G、H、K、S和T.這與Yu等[13]的研究結(jié)果略有不同,其研究顯示固有無序區(qū)域和有序區(qū)域上偏好的氨基酸類型分別有12和8種,無序區(qū)域偏好的氨基酸類型為A、R、N、D、Q、E、G、H、K、P、S和T,有序區(qū)域偏好的氨基酸類型為C、I、L、M、F、W、Y和V.MoRFs區(qū)域偏好的氨基酸類型與無序區(qū)域上偏好的氨基酸類型有很多的區(qū)別,這是由于MoRFs區(qū)域相對于其他無序區(qū)域有結(jié)構(gòu)化的趨勢,氨基酸類型使用偏好上會有結(jié)構(gòu)蛋白的特征.

      圖2 在MoRFs區(qū)域上2種算法預(yù)測的氨基酸類型偏好

      2種算法預(yù)測的3個區(qū)域的氨基酸類型偏好結(jié)果如圖3所示.ANCHOR算法預(yù)測的MoRFs區(qū)域偏好的氨基酸類型有6種,分別為A、I、L、M、F、W和V;Flanks區(qū)域偏好的氨基酸類型有5種,分別為A、Q、E、I和V;其在Others區(qū)域偏好的氨基酸偏好類型有2種,分別為C和Y.MoRFCHiBi_web算法預(yù)測的MoRFs區(qū)域偏好的氨基酸類型有6種,分別為R、I、F、P、W 和 Y;Flanks區(qū)域偏好的氨基酸類型有8種,為A、N、D、Q、E、G、K和S;其在Others區(qū)域偏好的氨基酸類型有3種,分別為C、H和V.比較可知,MoRFs和Flanks區(qū)域上的氨基酸類型偏好值均較大,Others區(qū)域上的20種氨基酸類型偏好值均較小.

      圖3 不同算法在3個區(qū)域上預(yù)測的氨基酸類型偏好

      2.3 預(yù)測算法相關(guān)性分析

      10組向量的r分布在0.19~0.25,r的平均值為0.21,說明2種算法的預(yù)測存在正相關(guān),但相關(guān)性較低.本文結(jié)果與Yu等[13]的分析結(jié)果不同,說明相對于蛋白質(zhì)無序的預(yù)測,MoRFs的預(yù)測難度要更大,MoRFs預(yù)測算法的一致性更低.

      2.4 平均得分

      Rseq上從1~60的每個位置上殘基的平均得分與位置分布如圖4所示.ANCHOR和MoRFCHi-Bi_web算法預(yù)測殘基的60個位置的平均得分分別為 0.162~0.176和 0.576~0.613.可知,ANCHOR算法對殘基預(yù)測的平均得分與其在序列中的位置幾乎沒有關(guān)系,MoRFCHiBi_web算法預(yù)測殘基的平均得分與殘基所在的位置有較明顯的關(guān)系,即序列兩端位置的殘基平均得分更高,序列中間位置殘基平均得分更低,表明序列兩端位置的殘基更容易被預(yù)測為MoRFs.

      圖4 殘基所處位置與平均概率的關(guān)系

      3 結(jié)束語

      本文基于隨機(jī)蛋白序列,系統(tǒng)地對比分析了2種MoRFs預(yù)測算法在數(shù)據(jù)集Rseq上的預(yù)測結(jié)果.MoRFs殘基分布的分析表明,與ANCHOR算法相比,MoRFCHiBi_web算法預(yù)測的MoRFs殘基長度整體偏大;氨基酸類型偏好分析表明,MoRFs雖然是無序區(qū)域的一部分,但MoRFs上的氨基酸類型偏好與無序區(qū)域的氨基酸類型偏好有很大的差別,MoRFs與Flanks區(qū)域的氨基酸偏好較為明顯,這為MoRFs的研究提供了新的思路;就預(yù)測的位置而言,MoRFCHiBi_web算法在序列兩端的殘基更容易被預(yù)測為MoRFs,但ANCHOR算法預(yù)測的結(jié)果與殘基所處位置基本沒有關(guān)系.綜上,2種方法的預(yù)測結(jié)果存在差異.因此,為了提升實際工作效率,科研人員應(yīng)根據(jù)實際需要選擇不同的MoRFs預(yù)測算法.

      猜你喜歡
      無序殘基氨基酸
      車身無序堆疊零件自動抓取系統(tǒng)
      基于各向異性網(wǎng)絡(luò)模型研究δ阿片受體的動力學(xué)與關(guān)鍵殘基*
      “殘基片段和排列組合法”在書寫限制條件的同分異構(gòu)體中的應(yīng)用
      月桂酰丙氨基酸鈉的抑菌性能研究
      UFLC-QTRAP-MS/MS法同時測定絞股藍(lán)中11種氨基酸
      中成藥(2018年1期)2018-02-02 07:20:05
      張博庭:煤電不能再這么無序發(fā)展下去了
      能源(2017年11期)2017-12-13 08:12:30
      高速路上右行規(guī)則與無序行駛規(guī)則的比較研究
      無序體系中的國際秩序
      蛋白質(zhì)二級結(jié)構(gòu)序列與殘基種類間關(guān)聯(lián)的分析
      一株Nsp2蛋白自然缺失123個氨基酸的PRRSV分離和鑒定
      大安市| 九江市| 湟源县| 长春市| 贵港市| 梁平县| 长葛市| 雷山县| 长白| 甘孜| 达尔| 甘德县| 手游| 定兴县| 运城市| 大洼县| 昔阳县| 互助| 平安县| 阜康市| 固镇县| 永登县| 延吉市| 崇信县| 莱州市| 长武县| 博乐市| 丹凤县| 莎车县| 土默特右旗| 日喀则市| 宜良县| 田林县| 康定县| 七台河市| 贞丰县| 岢岚县| 恩平市| 碌曲县| 鄂伦春自治旗| 堆龙德庆县|