• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      Disprot無序蛋白數(shù)據(jù)庫分析與統(tǒng)計

      2018-09-17 10:11:24李盤靖
      關鍵詞:無序傾向性親水性

      張 歡,李盤靖,王 彤

      (山東理工大學 計算機科學與技術學院,山東 淄博 255049)

      蛋白質(zhì)在生物世界中扮演了各種各樣的角色.傳統(tǒng)思想認為,氨基酸序列決定蛋白質(zhì)唯一的三維結構,三維結構則決定了蛋白質(zhì)的生物學功能[1]形成了蛋白質(zhì)科學的經(jīng)典研究范式“序列-結構-功能”.20世紀90年代初,隨著實驗技術的發(fā)展,人們發(fā)現(xiàn)有些蛋白質(zhì)或蛋白質(zhì)序列中的一部分在天然狀態(tài)下并不具有一個確定的三維結構,但依然具有正常的生物學活性.后來進一步研究發(fā)現(xiàn)這類蛋白質(zhì)越來越多,并逐漸形成了一類與傳統(tǒng)蛋白質(zhì)范式不同的新的蛋白質(zhì)類型,稱為天然無序蛋白[2-3](intrinsically disordered proteins,簡稱為IDPs).根據(jù)無序蛋白中所含無序結構的多少,可以將無序蛋白分為兩大類:完全無序蛋白(全序列無序)和部分無序蛋白(局部超過30~40個殘基的區(qū)域無序);部分無序蛋白由結構域(structured domains)和無序區(qū)域組成(disordered regions)[4].無序蛋白中的無序結構與蛋白質(zhì)功能之間關系密切[5],無序蛋白在諸如轉(zhuǎn)錄、翻譯、調(diào)控細胞信號轉(zhuǎn)導、蛋白質(zhì)磷酸化及小分子存儲等過程中發(fā)揮著重要的作用[2].另一方面,無序蛋白常與多種疾病聯(lián)系在一起.無序蛋白的無序特性使得它可以與多種伴侶分子結合從而在分子網(wǎng)絡中達到傳遞信號或是調(diào)節(jié)的作用,人類的許多疾病例如癌癥、心血管疾病、神經(jīng)性衰弱等不僅與相關功能性蛋白的誤折疊有關信號之間的誤傳導、誤表達有關[6].因此判定蛋白質(zhì)的無序區(qū)成為蛋白質(zhì)科學中的一個熱點問題.Romero等在1997年首次對蛋白質(zhì)無序區(qū)進行預測,他們預測的準確性達到70%[7].此后,無序蛋白質(zhì)的預測方法得到了迅速發(fā)展,目前應用于無序蛋白質(zhì)序列預測的方法已經(jīng)超過50種,這些預測方法的準確性普遍達到85%以上.隨著2012年深度學習方法在圖像分類預測上成功的應用,近年來關于無序蛋白的研究又出現(xiàn)了新的熱度,從2006年hinton重新提出深度模型后[8],無序蛋白的研究論文數(shù)快速增長.本研究基于序列分析的方法,以Disprot數(shù)據(jù)庫中的無序蛋白序列為研究對象,通過CD-HIT去冗余程序處理后建立數(shù)據(jù)集(無序區(qū)和有序區(qū)),然后將得到的數(shù)據(jù)集通過Python語言進行統(tǒng)計分析,分別提取出無序區(qū)和有序區(qū)中的殘基進行統(tǒng)計從而分析其偏好性.

      1 Disprot數(shù)據(jù)庫簡介與使用方法

      Disprot數(shù)據(jù)庫從已有文獻中搜集經(jīng)過實驗驗證的無序蛋白數(shù)據(jù),每一條蛋白質(zhì)序列都標注了無序片段的起始位置、判定方法、來源文獻,該無序片段行駛的生物學功能也進行了標注.網(wǎng)站中提供了csv、json兩種格式的數(shù)據(jù)格式文件.在進行后期的無序片段標注時,要組合蛋白質(zhì)與無序片段數(shù)據(jù)進行下載.然后通過編程工具python進行腳本標注無序片段,分別建立數(shù)據(jù)集.數(shù)據(jù)庫現(xiàn)包含803條無序蛋白數(shù)據(jù),所屬分類如圖1所示.

      圖1 無序蛋白所屬的4個主要分類Fig.1 4 major superkingdoms of intrinsically disordered proteins

      從圖1可以看出,無序蛋白主要分布在真核生物、細菌當中,少部分存在于病毒與古生菌中.

      2 數(shù)據(jù)集的創(chuàng)建與序列分析方法

      2.1 數(shù)據(jù)集

      本研究中固有無序蛋白序列數(shù)據(jù)取自固有無序蛋白數(shù)據(jù)庫[9].當前版本中含有803條IDPs蛋白質(zhì)鏈,2167個無序區(qū).由于蛋白質(zhì)數(shù)據(jù)庫中含有大量的冗余序列,不利于數(shù)據(jù)的統(tǒng)計分析,我們利用去冗余程序CD-HIT[10]對數(shù)據(jù)進行處理,將相似度閾值設為30%.結果顯示,去冗余前,該數(shù)據(jù)庫中共有803條序列;去冗余后,減少到708條序列.

      2.2 序列分析方法

      2.2.1 氨基酸分別在無序區(qū)與有序區(qū)中的分布

      根據(jù)數(shù)據(jù)庫中的708條序列分析,氨基酸殘基總數(shù)為363575,其中有序區(qū)的氨基酸殘基總數(shù)為280852(占77.3%),無序區(qū)的氨基酸殘基總數(shù)為82723(占22.7%).將無序區(qū)殘基與有序區(qū)殘基的分布繪制在圖2中.

      圖2 20種氨基酸在無序與有序序列中的分布Fig.2 The distribution of 20 kinds of amimo acids in ordered and disordered region

      由圖2可以看出20種氨基酸在無序區(qū)與有序區(qū)中的分布具有相似性,其相似性通過KL-散度定量得到.KL-散度的定義公式為

      (1)

      KL-散度值越接近0,說明兩種分布越相似.式中P代表無序區(qū)中氨基酸的分布;Q代表有序區(qū)中氨基酸的分布.

      2.2.2 氨基酸的無序傾向性

      定義氨基酸形成無序區(qū)的傾向性公式為

      DP(x)=dp(x)-op(x)

      (2)

      式中:DP(x)(disorder propensity)表示氨基酸x在無序區(qū)出現(xiàn)的傾向性;dp(x)表示氨基酸x在無序區(qū)中出現(xiàn)的幾率;op(x)表示氨基酸x在有序區(qū)中出現(xiàn)的幾率.

      根據(jù)DP(x)值的大小,可以判斷氨基酸形成無序區(qū)的偏好性.DP(x)>0,該氨基酸具有形成蛋白質(zhì)無序區(qū)的傾向性;DP(x)<0,該氨基酸具有形成蛋白質(zhì)有序區(qū)的傾向[11].

      2.2.3 二元組氨基酸對統(tǒng)計

      在上述單個氨基酸統(tǒng)計的基礎上,增加了二元組氨基酸對的統(tǒng)計.根據(jù)Disport數(shù)據(jù)庫對無序序列的標注,抽取出無序序列,然后編程實現(xiàn)對每一條無序序列二元組的統(tǒng)計.

      3 結果及討論

      3.1 氨基酸在無序區(qū)與有序區(qū)中的分布

      由圖2得到20種氨基酸的分布圖可以看出:有序區(qū)和無序區(qū)中Ala、Asp、Glu、Gly、Lys、Leu、Pro、Ser、Thr、Val都有很強的傾向性.通過式(1)與圖2的數(shù)據(jù)得到無序區(qū)和有序區(qū)氨基酸分布的KL-散度值為0.031,說明無序區(qū)和有序區(qū)中氨基酸的分布具有相似性,可以推斷隨著數(shù)據(jù)集的不斷擴充,這種相似性會越來越高.20種氨基酸在無序區(qū)和有序區(qū)具有分布相似性,還需要接下來DP值的分析來判斷氨基酸的無序傾向性.

      3.2 氨基酸形成無序區(qū)的傾向性分析

      根據(jù)式(2)計算了20種氨基酸的DP值,如圖3所示.

      根據(jù)DP值的大小,可以看出氨基酸Ala、Asp、Glu、Gly、Lys、Pro、Gln、Ser具有形成無序區(qū)的傾向.在第一步分析中氨基酸Leu、Thr、Val雖然在無序區(qū)和有序區(qū)中都具有傾向性,但在由DP值得到的分析中,Leu、Thr、Val不易于形成無序區(qū);氨基酸Gln雖然在無序區(qū)和有序區(qū)中都不具有傾向性,但在DP值分析中卻易于形成無序區(qū).在表1中氨基酸各性質(zhì)的描述中可以看到,具有無序傾向的8種氨基酸用黑體標出.8種氨基酸都屬于非芳香或脂肪族氨基酸,親水性氨基酸與疏水性氨基酸之比為3∶2,大部分疏水性氨基酸都不具有無序傾向性.在8種無序傾向氨基酸中極性與非極性氨基酸之別為5∶3.

      圖3 20種氨基酸的無序傾向性DP值Fig.3 The DP(disorder propensity) values of 20 kinds of amino acids

      表1 氨基酸的性質(zhì)
      Tab. 1 Attributes of amino acids

      縮寫全名中文譯名支鏈極性芳香或脂肪族GlyGlycine甘氨酸親水性--AlaAlanine丙氨酸疏水性--ValValine纈氨酸疏水性-脂肪性LeuLeucine亮氨酸疏水性-脂肪性IleIsoleucine異亮氨酸疏水性-脂肪性PhePhenylalanine苯丙氨酸疏水性-芳香性TrpTryptophan色氨酸疏水性-芳香性TyrTyrosine酪氨酸親水性X芳香性AspAspartate天冬氨酸酸性X-HisHistidine組氨酸堿性X芳香性AsnAsparagine天冬酰胺親水性X-GluGlutamate谷氨酸酸性X-LysLysine賴氨酸堿性X-GlnGlutamine谷氨酰胺親水性X-MetMethionine甲硫氨酸疏水性--ArgArginine精氨酸堿性X-SerSerine絲氨酸親水性X-ThrThreonine蘇氨酸親水性X-CysCysteine半胱氨酸親水性--ProProline脯氨酸疏水性--

      3.3 二元組氨基酸對的分布

      根據(jù)以下二元組抽取代碼為基礎,統(tǒng)計得到402對二元組氨基酸對.

      # 從Disprot數(shù)據(jù)庫中抽取無序序列到disorder_seq

      # 二元組氨基酸對統(tǒng)計結果保存在 bi_key 中

      bi_key = dict()

      for seq in disorder_seq:

      keys = [ seq[i:i+2] for i in range(0, len(seq)-1) ]

      for key in keys:

      if key not in bi_key:

      bi_key[key] = 1

      else:

      bi_key[key] = bi_key[key] + 1

      統(tǒng)計得到使用最頻繁的20種氨基酸對如圖4所示.由之前DP值的分析中Asp、Glu、Ser易于形成無序區(qū),在二元組統(tǒng)計中,由這3種氨基酸組成的二元組也最頻繁使用.在無序蛋白無序序列中偏向于使用簡單重復的氨基酸對Ala、Glu、Ser.

      圖4 使用最頻繁的20種氨基酸對Fig.4 The most used 20 amino acids tuples

      4 結束語

      以蛋白質(zhì)序列信息為基礎,通過分析20種氨基酸在無序區(qū)與有序區(qū)中的分布和氨基酸的無序傾向性,為下一步開發(fā)無序序列預測算法[12]提供了特征準備.本文只在序列的角度總體上統(tǒng)計了各氨基酸的分布,但是一個無序位點的形成不僅與它本身的特征有關,還與它的上下文位點存在關聯(lián).本文只討論了二元組的情況下氨基酸對的無序傾向性.在下一步工作中, 多位點之間的聯(lián)合特征提取是一個重要的研究方向.

      猜你喜歡
      無序傾向性親水性
      車身無序堆疊零件自動抓取系統(tǒng)
      雙負載抗生素親水性聚氨酯泡沫的制備與表征
      基于模糊數(shù)學法的阿舍勒銅礦深部巖體巖爆傾向性預測
      張博庭:煤電不能再這么無序發(fā)展下去了
      能源(2017年11期)2017-12-13 08:12:30
      高速路上右行規(guī)則與無序行駛規(guī)則的比較研究
      無序體系中的國際秩序
      空氣中納秒脈沖均勻DBD增加聚合物的表面親水性
      關于醫(yī)患沖突報道的傾向性分析——以“湘潭產(chǎn)婦死亡案”為例
      “沒準兒”“不一定”“不見得”和“說不定”的語義傾向性和主觀性差異
      語言與翻譯(2015年4期)2015-07-18 11:07:43
      水刺型空氣加濕器濾材的親水性改性研究
      裕民县| 江陵县| 买车| 桑植县| 城口县| 胶南市| 来安县| 吉木乃县| 鹰潭市| 女性| 平顶山市| 博野县| 蓬安县| 潼南县| 浙江省| 玉屏| 珲春市| 大方县| 海安县| 水城县| 北川| 年辖:市辖区| 会理县| 满城县| 菏泽市| 黔西| 竹溪县| 合阳县| 阜城县| 义马市| 盐池县| 西贡区| 开平市| 城口县| 博客| 青田县| 黄山市| 台州市| 饶河县| 白城市| 交口县|