Disprot無序蛋白數(shù)據(jù)庫分析與統(tǒng)計

2018-09-17 10:11:24李盤靖

山東理工大學學報（自然科學版） 2018年6期

張歡，李盤靖，王彤

(山東理工大學計算機科學與技術學院，山東淄博 255049)

蛋白質(zhì)在生物世界中扮演了各種各樣的角色.傳統(tǒng)思想認為，氨基酸序列決定蛋白質(zhì)唯一的三維結構，三維結構則決定了蛋白質(zhì)的生物學功能[1]形成了蛋白質(zhì)科學的經(jīng)典研究范式“序列-結構-功能”.20世紀90年代初，隨著實驗技術的發(fā)展，人們發(fā)現(xiàn)有些蛋白質(zhì)或蛋白質(zhì)序列中的一部分在天然狀態(tài)下并不具有一個確定的三維結構，但依然具有正常的生物學活性.后來進一步研究發(fā)現(xiàn)這類蛋白質(zhì)越來越多，并逐漸形成了一類與傳統(tǒng)蛋白質(zhì)范式不同的新的蛋白質(zhì)類型，稱為天然無序蛋白[2-3](intrinsically disordered proteins，簡稱為IDPs).根據(jù)無序蛋白中所含無序結構的多少，可以將無序蛋白分為兩大類：完全無序蛋白(全序列無序)和部分無序蛋白(局部超過30～40個殘基的區(qū)域無序)；部分無序蛋白由結構域(structured domains)和無序區(qū)域組成(disordered regions)[4].無序蛋白中的無序結構與蛋白質(zhì)功能之間關系密切[5]，無序蛋白在諸如轉(zhuǎn)錄、翻譯、調(diào)控細胞信號轉(zhuǎn)導、蛋白質(zhì)磷酸化及小分子存儲等過程中發(fā)揮著重要的作用[2].另一方面，無序蛋白常與多種疾病聯(lián)系在一起.無序蛋白的無序特性使得它可以與多種伴侶分子結合從而在分子網(wǎng)絡中達到傳遞信號或是調(diào)節(jié)的作用，人類的許多疾病例如癌癥、心血管疾病、神經(jīng)性衰弱等不僅與相關功能性蛋白的誤折疊有關信號之間的誤傳導、誤表達有關[6].因此判定蛋白質(zhì)的無序區(qū)成為蛋白質(zhì)科學中的一個熱點問題.Romero等在1997年首次對蛋白質(zhì)無序區(qū)進行預測，他們預測的準確性達到70%[7].此后，無序蛋白質(zhì)的預測方法得到了迅速發(fā)展，目前應用于無序蛋白質(zhì)序列預測的方法已經(jīng)超過50種，這些預測方法的準確性普遍達到85%以上.隨著2012年深度學習方法在圖像分類預測上成功的應用，近年來關于無序蛋白的研究又出現(xiàn)了新的熱度，從2006年hinton重新提出深度模型后[8]，無序蛋白的研究論文數(shù)快速增長.本研究基于序列分析的方法，以Disprot數(shù)據(jù)庫中的無序蛋白序列為研究對象，通過CD-HIT去冗余程序處理后建立數(shù)據(jù)集(無序區(qū)和有序區(qū))，然后將得到的數(shù)據(jù)集通過Python語言進行統(tǒng)計分析，分別提取出無序區(qū)和有序區(qū)中的殘基進行統(tǒng)計從而分析其偏好性.

1 Disprot數(shù)據(jù)庫簡介與使用方法

Disprot數(shù)據(jù)庫從已有文獻中搜集經(jīng)過實驗驗證的無序蛋白數(shù)據(jù)，每一條蛋白質(zhì)序列都標注了無序片段的起始位置、判定方法、來源文獻，該無序片段行駛的生物學功能也進行了標注.網(wǎng)站中提供了csv、json兩種格式的數(shù)據(jù)格式文件.在進行后期的無序片段標注時，要組合蛋白質(zhì)與無序片段數(shù)據(jù)進行下載.然后通過編程工具python進行腳本標注無序片段，分別建立數(shù)據(jù)集.數(shù)據(jù)庫現(xiàn)包含803條無序蛋白數(shù)據(jù)，所屬分類如圖1所示.

圖1 無序蛋白所屬的4個主要分類Fig.1 4 major superkingdoms of intrinsically disordered proteins

從圖1可以看出，無序蛋白主要分布在真核生物、細菌當中，少部分存在于病毒與古生菌中.

2 數(shù)據(jù)集的創(chuàng)建與序列分析方法

2.1 數(shù)據(jù)集

本研究中固有無序蛋白序列數(shù)據(jù)取自固有無序蛋白數(shù)據(jù)庫[9].當前版本中含有803條IDPs蛋白質(zhì)鏈，2167個無序區(qū).由于蛋白質(zhì)數(shù)據(jù)庫中含有大量的冗余序列，不利于數(shù)據(jù)的統(tǒng)計分析，我們利用去冗余程序CD-HIT[10]對數(shù)據(jù)進行處理，將相似度閾值設為30%.結果顯示，去冗余前，該數(shù)據(jù)庫中共有803條序列；去冗余后，減少到708條序列.

2.2 序列分析方法

2.2.1 氨基酸分別在無序區(qū)與有序區(qū)中的分布

根據(jù)數(shù)據(jù)庫中的708條序列分析，氨基酸殘基總數(shù)為363575，其中有序區(qū)的氨基酸殘基總數(shù)為280852(占77.3%)，無序區(qū)的氨基酸殘基總數(shù)為82723(占22.7%).將無序區(qū)殘基與有序區(qū)殘基的分布繪制在圖2中.

圖2 20種氨基酸在無序與有序序列中的分布Fig.2 The distribution of 20 kinds of amimo acids in ordered and disordered region

由圖2可以看出20種氨基酸在無序區(qū)與有序區(qū)中的分布具有相似性，其相似性通過KL-散度定量得到.KL-散度的定義公式為

(1)

KL-散度值越接近0，說明兩種分布越相似.式中P代表無序區(qū)中氨基酸的分布；Q代表有序區(qū)中氨基酸的分布.

2.2.2 氨基酸的無序傾向性

定義氨基酸形成無序區(qū)的傾向性公式為

DP(x)=dp(x)-op(x)

(2)

式中：DP(x)(disorder propensity)表示氨基酸x在無序區(qū)出現(xiàn)的傾向性；dp(x)表示氨基酸x在無序區(qū)中出現(xiàn)的幾率；op(x)表示氨基酸x在有序區(qū)中出現(xiàn)的幾率.

根據(jù)DP(x)值的大小，可以判斷氨基酸形成無序區(qū)的偏好性.DP(x)>0，該氨基酸具有形成蛋白質(zhì)無序區(qū)的傾向性；DP(x)<0，該氨基酸具有形成蛋白質(zhì)有序區(qū)的傾向[11].

2.2.3 二元組氨基酸對統(tǒng)計

在上述單個氨基酸統(tǒng)計的基礎上，增加了二元組氨基酸對的統(tǒng)計.根據(jù)Disport數(shù)據(jù)庫對無序序列的標注，抽取出無序序列，然后編程實現(xiàn)對每一條無序序列二元組的統(tǒng)計.

3 結果及討論

3.1 氨基酸在無序區(qū)與有序區(qū)中的分布

由圖2得到20種氨基酸的分布圖可以看出：有序區(qū)和無序區(qū)中Ala、Asp、Glu、Gly、Lys、Leu、Pro、Ser、Thr、Val都有很強的傾向性.通過式(1)與圖2的數(shù)據(jù)得到無序區(qū)和有序區(qū)氨基酸分布的KL-散度值為0.031，說明無序區(qū)和有序區(qū)中氨基酸的分布具有相似性，可以推斷隨著數(shù)據(jù)集的不斷擴充，這種相似性會越來越高.20種氨基酸在無序區(qū)和有序區(qū)具有分布相似性，還需要接下來DP值的分析來判斷氨基酸的無序傾向性.

3.2 氨基酸形成無序區(qū)的傾向性分析

根據(jù)式(2)計算了20種氨基酸的DP值，如圖3所示.

根據(jù)DP值的大小，可以看出氨基酸Ala、Asp、Glu、Gly、Lys、Pro、Gln、Ser具有形成無序區(qū)的傾向.在第一步分析中氨基酸Leu、Thr、Val雖然在無序區(qū)和有序區(qū)中都具有傾向性，但在由DP值得到的分析中，Leu、Thr、Val不易于形成無序區(qū)；氨基酸Gln雖然在無序區(qū)和有序區(qū)中都不具有傾向性，但在DP值分析中卻易于形成無序區(qū).在表1中氨基酸各性質(zhì)的描述中可以看到，具有無序傾向的8種氨基酸用黑體標出.8種氨基酸都屬于非芳香或脂肪族氨基酸，親水性氨基酸與疏水性氨基酸之比為3∶2，大部分疏水性氨基酸都不具有無序傾向性.在8種無序傾向氨基酸中極性與非極性氨基酸之別為5∶3.

圖3 20種氨基酸的無序傾向性DP值Fig.3 The DP(disorder propensity) values of 20 kinds of amino acids

表1 氨基酸的性質(zhì)
Tab. 1 Attributes of amino acids

縮寫全名中文譯名支鏈極性芳香或脂肪族GlyGlycine甘氨酸親水性--AlaAlanine丙氨酸疏水性--ValValine纈氨酸疏水性-脂肪性LeuLeucine亮氨酸疏水性-脂肪性IleIsoleucine異亮氨酸疏水性-脂肪性PhePhenylalanine苯丙氨酸疏水性-芳香性TrpTryptophan色氨酸疏水性-芳香性TyrTyrosine酪氨酸親水性X芳香性AspAspartate天冬氨酸酸性X-HisHistidine組氨酸堿性X芳香性AsnAsparagine天冬酰胺親水性X-GluGlutamate谷氨酸酸性X-LysLysine賴氨酸堿性X-GlnGlutamine谷氨酰胺親水性X-MetMethionine甲硫氨酸疏水性--ArgArginine精氨酸堿性X-SerSerine絲氨酸親水性X-ThrThreonine蘇氨酸親水性X-CysCysteine半胱氨酸親水性--ProProline脯氨酸疏水性--

3.3 二元組氨基酸對的分布

根據(jù)以下二元組抽取代碼為基礎，統(tǒng)計得到402對二元組氨基酸對.

# 從Disprot數(shù)據(jù)庫中抽取無序序列到disorder_seq

# 二元組氨基酸對統(tǒng)計結果保存在 bi_key 中

bi_key = dict()

for seq in disorder_seq:

keys = [ seq[i:i+2] for i in range(0, len(seq)-1) ]

for key in keys:

if key not in bi_key:

bi_key[key] = 1

else:

bi_key[key] = bi_key[key] + 1

統(tǒng)計得到使用最頻繁的20種氨基酸對如圖4所示.由之前DP值的分析中Asp、Glu、Ser易于形成無序區(qū)，在二元組統(tǒng)計中，由這3種氨基酸組成的二元組也最頻繁使用.在無序蛋白無序序列中偏向于使用簡單重復的氨基酸對Ala、Glu、Ser.

圖4 使用最頻繁的20種氨基酸對Fig.4 The most used 20 amino acids tuples

4 結束語

以蛋白質(zhì)序列信息為基礎，通過分析20種氨基酸在無序區(qū)與有序區(qū)中的分布和氨基酸的無序傾向性，為下一步開發(fā)無序序列預測算法[12]提供了特征準備.本文只在序列的角度總體上統(tǒng)計了各氨基酸的分布，但是一個無序位點的形成不僅與它本身的特征有關，還與它的上下文位點存在關聯(lián).本文只討論了二元組的情況下氨基酸對的無序傾向性.在下一步工作中，多位點之間的聯(lián)合特征提取是一個重要的研究方向.

99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看