G蛋白偶聯(lián)受體計算研究的進展和前瞻

2016-04-28 01:02:59許偉明王曉鋒蔡偉文鄢仁祥

生物信息學 2016年1期

許偉明，王曉鋒，林　娟，3，蔡偉文，鄢仁祥,3*

(1.福州大學生物科學與工程學院，福州 350108；

2.山西師范大學數(shù)學與計算機科學學院，山西臨汾 041004；

3.福建省海洋酶工程重點實驗室，福州 350108)

G蛋白偶聯(lián)受體計算研究的進展和前瞻

許偉明1，王曉鋒2，林娟1，3，蔡偉文1，鄢仁祥1,3*

(1.福州大學生物科學與工程學院，福州 350108；

2.山西師范大學數(shù)學與計算機科學學院，山西臨汾 041004；

3.福建省海洋酶工程重點實驗室，福州 350108)

摘要：G蛋白偶聯(lián)受體(G protein-coupled receptor, GPCR)是含有七個跨膜螺旋的一類重要蛋白，是迄今為止發(fā)現(xiàn)的最大的多藥物靶標受體超蛋白家族。例如，目前上市藥物中有超過30%是以GPCR為靶點的。然而，與GPCR重要性形成強烈反差的是科學界對于其結(jié)構(gòu)與功能的了解非常貧乏，主要原因是通過實驗手段來獲得GPCR的結(jié)構(gòu)與功能信息極其困難。利用生物信息學方法從基因組規(guī)模的數(shù)據(jù)中識別GPCR并預測三維結(jié)構(gòu)是可行途徑之一?；谏镄畔W的GPCR研究將為新型藥物靶標的篩選和藥物的開發(fā)提供一定的幫助。本文論述了幾種較為典型的GPCR計算方法，并基于已有研究提出可能的創(chuàng)新性研究策略來解決GPCR蛋白識別、跨膜區(qū)定位、以及結(jié)構(gòu)和功能預測等問題。

關(guān)鍵詞：G蛋白偶聯(lián)受體；GPCR識別；蛋白結(jié)構(gòu)預測；跨膜區(qū)預測；藥物配體

1前言

生物學中的受體(Receptor)一般是指一類介導細胞信號轉(zhuǎn)導的功能蛋白，能識別并結(jié)合周遭環(huán)境中的某些微量物質(zhì)后通過信號放大系統(tǒng)觸發(fā)后續(xù)一系列生理和生化反應[1, 2]。G蛋白偶聯(lián)受體是一大類膜蛋白受體的統(tǒng)稱，它們可以把各種各樣的胞外信號傳遞到細胞內(nèi)，并通過和其它信號轉(zhuǎn)導通路間的相互作用調(diào)節(jié)各種生物學功能。GPCR同時是重要的藥物靶標蛋白，廣泛地應用在各種醫(yī)學治療領(lǐng)域，比如抑郁癥、疼痛、肥胖癥、哮喘、焦慮癥、高血壓、癌癥、心血管疾病、帕金森癥、糖尿病，精神分裂癥等。至今已知的GPCR藥物中有739種可用于治療疼痛、486種治療哮喘、480種治療高血壓，上市的藥物有648種，而處于各種研發(fā)階段的GPCR藥物超過6 600種[3]。GPCR藥物按其作用機理可分為激動劑、拮抗劑、反向激動劑、調(diào)節(jié)劑等受體[4, 5]。因其在藥物研發(fā)和科學研究方面的巨大潛在價值而受到科學界的極大關(guān)注。GPCR的立體結(jié)構(gòu)一般由膜外N末端、7個跨膜α螺旋(Trans Membrane Helix，TM1-TM7)、3個胞外環(huán)(Extra Cellular Loop，ECL1-ECL3)、3個胞內(nèi)環(huán)(Intra Cellular Loop，ICL1-ICL3)以及膜內(nèi)C末端組成。被七條跨膜螺旋反復穿過的細胞膜的脂雙層，肽鏈的C端以及ICL3上都有G蛋白的結(jié)合位點[6, 7]。圖1是一個PDB編號為4UHR的GPCR蛋白結(jié)構(gòu)，該結(jié)構(gòu)中有7個明顯的跨膜α螺旋。

GPCR同時是人體內(nèi)膜蛋白家族中成員數(shù)最多的一個種類，在人體基因組編碼的蛋白中約有800～1000個GPCR[8]，包括A、B、C、E、F五大類，其中D類只存在于酵母等少數(shù)低等真核生物體中。GPCR在信號傳遞中發(fā)揮著重要作用，普遍具有激活G蛋白的能力，可介導多種生物學功能。在靜息狀態(tài)下，

GPCR在膜上與由Gα、Gβ和Gγ三個亞基組成的異三聚體G蛋白結(jié)合形成復合物。其中Gα亞基上結(jié)合有GDP分子。當GPCR與胞外配體結(jié)合后發(fā)生構(gòu)象變化(GPCR被激活)，活化的受體會催化Gα亞基捕獲GTP 分子來交換先前結(jié)合的GDP，GTP與Gα亞基的結(jié)合會使受體與G蛋白的復合物解離，受體、GTP-Gα和Gβ-Gγ二聚體三者相互分開。GTP-Gα激活腺苷酸環(huán)化酶，酶C或離子通道等，繼而激活下游的信號通路，包括甘油二酯(Diacyl glycerol，DG)、三磷酸肌醇(Inositol trisphosphate,IP3)、鈣信號和第二信使cAMP等(如圖2所示)。

圖1　4UHR蛋白三級結(jié)構(gòu)Fig.1　Tertiary structure of protein 4UHR

圖2　GPCR介導的一種細胞信號傳導機制示意圖Fig. 2　Sketch of GPCR-mediated cell signaling mechanisms

后兩者可以進一步與其它蛋白相互作用從而使信號繼續(xù)傳遞下去，而自由的受體可以重新結(jié)合上一個新的G蛋白來開始下一輪信號轉(zhuǎn)導過程?，F(xiàn)在已知的GPCR配體有光、氣味、激素、趨化因子與神經(jīng)遞質(zhì)等[9]。這些配體可以是某些小分子物質(zhì)如糖類、多肽和脂質(zhì)，也可以是蛋白質(zhì)等生物大分子。部分GPCR的配體結(jié)合部位處于跨膜螺旋和胞外環(huán)附近，不過也有一些例外，如富亮氨酸重復G蛋白偶聯(lián)受體和糖蛋白激素受體等。其它類型的GPCR則主要以N端與配體結(jié)合。也有一些報道指出B類受體的跨膜螺旋上也存在潛在的變構(gòu)配體結(jié)合位點。近年來提出的GPCR功能選擇理論預示不同配體可以誘導不同GPCR 構(gòu)象，從而選擇性地激活下游的信號轉(zhuǎn)導通路。美國科學家RobertJ.Lefkowitz與BrianK.Kobilka，因為突破性地揭示了GPCR的內(nèi)在工作機制，而獲得了2012年諾貝爾化學獎。GPCR的研究成為不少國際藥物公司競爭的重點。據(jù)估計，目前國際醫(yī)學市場上可以獲得的藥物中，有30%以上臨床用藥是與GPCR作為藥物靶標直接相關(guān)的。全球最暢銷的20種藥物中，以GPCR為作用靶標的達到60%，每年的銷售總額高達500億美元[3]。但是，與其重要性形成強烈反差的是現(xiàn)今科學界對于GPCR的結(jié)構(gòu)與功能了解極其貧乏。例如，截止到2015年8月，蛋白質(zhì)數(shù)據(jù)庫PDB[10]中存儲的GPCR晶體結(jié)構(gòu)僅有125個，結(jié)構(gòu)數(shù)量的缺乏嚴重地制約了基于結(jié)構(gòu)信息對GPCR進行功能、小分子結(jié)合物與配體的研究。另外，雖然在GPCRDB(http://www.gpcr.org/7tm/)[11]數(shù)據(jù)庫中存有30 569 條GPCR序列，但是其中至少70%以上為功能未知的序列，同時大多數(shù)GPCR 參與的都是網(wǎng)絡狀的復雜生理和生化過程，這給以GPCR為靶標的藥物研發(fā)帶來了巨大挑戰(zhàn)。GPCR結(jié)構(gòu)、功能及代謝過程數(shù)據(jù)的缺乏有其客觀原因：(1)天然GPCR含量低導致難以用基因工程方法大量表達；(2)GPCR 不易在活性形態(tài)下分離、純化；(3)膜環(huán)境的特性使其結(jié)晶有很大困難；(4)實驗研究GPCR需要投入大量人力和科研經(jīng)費。表1列出了部分GPCR相關(guān)的生物信息學工具，雖然在GPCR生物信息研究方面歐美等發(fā)達國家一直處于領(lǐng)先地位，但令人欣慰的是近年來我國也正在加快步伐開展研究。例如：2014年，中國科學院上海藥物研究所趙強研究組與美國Scripps研究所，美國國立衛(wèi)生研究院(NIH) 和德國波恩大學通力合作，首次解析了P2Y12R受體與抗血栓藥物AZD1283復合物的高分辨率的晶體結(jié)構(gòu)，并于2014年5月1日在 Nature 雜志發(fā)表題為“Structure of the human P2Y12 receptor in complex with an antithrombotic drug”的研究文章[2]。中國科學院生物物理研究所蔣太交研究組也在蛋白質(zhì)結(jié)構(gòu)預測及膜蛋白的研究方面取得了一定的研究成果。另外，清華大學、北京大學和中國科學院上海生命科學研究院等高等學府和研究機構(gòu)也都在膜蛋白生物信息學研究領(lǐng)域投入了越來越多的科研資源。

表1 國際GPCR相關(guān)的生物信息學程序/服務器/數(shù)據(jù)庫

2GPCR的計算研究

蛋白質(zhì)的一級序列決定三維結(jié)構(gòu)信息，而其三維結(jié)構(gòu)一定程度上決定其生物學功能。為更好了解GPCR的功能，測出其三維結(jié)構(gòu)是重要的途徑之一。由于GPCR是七跨膜螺旋的膜蛋白，很難得到晶體，通過X射線衍射確定其三維空間結(jié)構(gòu)，同樣也很難在水溶液中用核磁共振方法獲得它的動態(tài)結(jié)構(gòu)[27]，因此通過實驗解析GPCR三維結(jié)構(gòu)極具挑戰(zhàn)性。然而統(tǒng)計分析發(fā)現(xiàn)GPCR一般具有保守的跨膜螺旋結(jié)構(gòu)，序列特征明顯，比較適合用生物信息學預測的方法定位其跨膜螺旋區(qū)的位置。所以目前學術(shù)界的研究趨勢是通過開發(fā)相應的生物信息學工具來嘗試在基因組規(guī)模上研究GPCR。關(guān)于GPCR的現(xiàn)有生物信息學研究，主要集中在三個問題上：(1) GPCR蛋白的識別；(2)GPCR跨膜區(qū)的預測；(3) GPCR功能和藥物配體結(jié)合位點預測。

2.1GPCR蛋白的識別

基于序列相似性識別GPCR的方法[28, 29]，其出發(fā)點是基于功能序列的保守性，通過序列比對工具BLAST等，

從非冗余核酸序列、表達序列標簽(EST)、蛋白質(zhì)序列里面挖掘出可能的GPCR序列。當發(fā)現(xiàn)一個新的序列與已存在的GPCR序列有足夠的相似度時，再通過對跨膜區(qū)的分析來識別GPCR，或發(fā)現(xiàn)新的GPCR亞家族。該方法的不足是海量的待預測序列導致計算量比較大，結(jié)果分析較為繁瑣，得到的結(jié)果準確度不高。另一種替代方法是通過預測軟件找出所有可能為GPCR序列的開放閱讀框(ORF)，將已知蛋白序列的GPCR排除出去，再將剩余的未知ORF序列作一個數(shù)據(jù)庫，用已知GPCR序列集對數(shù)據(jù)庫進行BLAST比對分析。但是此方法也存在一定局限性：因為各種預測軟件的精度不高，此方法對它們有強依賴性，其預測結(jié)果會直接影響到跨膜螺旋區(qū)的預測分析。

基于序列信息的統(tǒng)計特征識別GPCR，其中比較有代表性的是SAM-T2K和T-HMM方法。 Karchin等[30]通過SAM-T2K算法對屬于同一個GPCR家族的序列進行多序列比對，再通過隱馬爾可夫模型(Hidden Markov Model，HMM)的方法構(gòu)建能代表這個家族的統(tǒng)計模型，最后分別計算這些模型的概率并將其轉(zhuǎn)化為固定長度的特征向量( Fisher Score Vector，F(xiàn)SV)，構(gòu)建支持向量機(SVM)家族分類器，對GPCR進行分類識別。此方法中HMM模型的長度是很重要的參數(shù)，這個參數(shù)表示主狀態(tài)的數(shù)目，它會直接影響分類的結(jié)果。不同的方法得到的預測結(jié)果可能都不相同。Qian等[31]使用T-HMM方法，對GPCRs構(gòu)建系統(tǒng)進化樹，然后對系統(tǒng)進化樹上每一個節(jié)點和子節(jié)點通過HMM算法對不同家族和亞家族進行建模，依據(jù)T-HMM的最高分值來判定未知序列而識別GPCR。這個方法存在的問題是：T-HMM方法應用的前提是認定同一類型的配體其結(jié)合的GPCRs序列應該在進化距離上是相近的。但是從配體結(jié)合的角度，與同一類配體相結(jié)合的序列會有較大差異，相應的進化信息就體現(xiàn)的不夠明顯，因此該方法只能適用于進化距離較近的情況。對于T-HMM方法的不足，Bhasin等[32]利用雙聯(lián)氨基酸的使用頻率結(jié)合SVM以及氨基酸的部分物理化學性質(zhì)如電荷、極性、范德華力、疏水性等特性解決了對一些進化距離較遠的GPCR蛋白的識別問題。

2.2GPCR跨膜區(qū)的預測

GPCR 蛋白嵌在生物膜中，這使得GPCR蛋白有著與球蛋白不同的生物化學特性。因此，準確地獲得GPCR蛋白擴膜區(qū)與非跨膜區(qū)的信息對判斷GPCR的生物學功能起到關(guān)鍵的輔助作用[33]。GPCR跨過磷脂雙分子層，這意味著其跨膜區(qū)都是由強的疏水性氨基酸組成，而磷脂雙分子層的厚度決定了每次跨膜的氨基酸大約為20個左右[34]。20世紀80年代初kyte,Doolittle等[35]提出了氨基酸疏水標度值，根據(jù)這個疏水標度值，將氨基酸序列依次通過一個長方形的框架，從而轉(zhuǎn)換成疏水圖譜，設定恰當?shù)拈撝?，從而尋找跨膜區(qū)。80年代中期Von Heijine等[20]發(fā)現(xiàn)“正電荷居內(nèi)規(guī)則”即對所有已知跨膜蛋白進行統(tǒng)計分析，發(fā)現(xiàn)跨膜區(qū)的內(nèi)膜周圍氨基酸都是帶正電荷的。90年代初，首次將“正電荷居內(nèi)規(guī)則”和疏水性分析結(jié)合，開發(fā)跨膜區(qū)預測工具TopPred大大提高了跨膜區(qū)預測精度。90年代末，開發(fā)的MEMSAT預測工具將跨膜蛋白的氨基酸按照在跨膜核心區(qū)、膜內(nèi)外出現(xiàn)的頻率，以及在跨膜區(qū)末端出現(xiàn)的頻率與在整個跨膜蛋白出現(xiàn)頻率之比，計算出氨基酸的偏好性。再將氨基酸的偏好性與動態(tài)規(guī)劃算法結(jié)合起來預測蛋白質(zhì)跨膜區(qū)?；陬愃圃碓O計的TMHMM預測工具用HMM統(tǒng)計分析已知跨膜蛋白的跨膜區(qū)兩端，跨膜核心區(qū)，膜內(nèi)環(huán)、膜外環(huán)和長環(huán)以及遠離膜區(qū)的氨基酸分布，算出每個氨基酸殘基位于跨膜區(qū)、膜內(nèi)外的概率進行跨膜蛋白的跨膜區(qū)預測。同樣基于HMM的預測工具HMMTOP則通過統(tǒng)計分析五個不同狀態(tài)組成的模型，即跨膜蛋白的跨膜核心區(qū)，膜內(nèi)、外環(huán)，膜內(nèi)螺旋及膜外螺旋的尾部氨基酸殘基分布，同時基于蛋白質(zhì)拓撲結(jié)構(gòu)改變會直接導致氨基酸分布改變的基礎(chǔ)上將氨基酸分布差異最大的組合狀態(tài)考慮在內(nèi)以預測跨膜區(qū)。隨著人工神經(jīng)元網(wǎng)絡算法 (Artificial Neural Networks ,ANN)的發(fā)展，viklund等[26]通過對已知結(jié)構(gòu)的跨膜蛋白統(tǒng)計分析氨基酸殘基傾向性分數(shù)，再與HMM結(jié)合開發(fā)出OCTOPUS預測工具。近年隨著ANN，HMM,支持向量機(SVM)[36]等的共同發(fā)展，跨膜蛋白跨膜區(qū)的預測精度一步步提高。表二，列出了目前可用于GPCR跨膜區(qū)預測的幾種生物信息學工具，并選擇PDB編號4UHR的GPCR蛋白測試。幾種預測軟件精確度有差異。現(xiàn)在多數(shù)科研工作者使用HMMTOP以及 TMHMM 2個開發(fā)工具，兩者都是采用跨膜區(qū)為α螺旋的膜蛋白來訓練模型的，而這些膜蛋白并非全是 GPCR，有些膜蛋白只有1個或者2個跨膜片段，這樣導致在預測GPCR的跨膜區(qū)的性能可能達不到理論上的最優(yōu)(見表2)。

表2　4UHR蛋白跨膜區(qū)預測結(jié)果

同時，GPCR-I-TASSER在預測GPCR的三維結(jié)構(gòu)上，其優(yōu)勢在于其模擬過程中的片段組裝算法，而在前期其使用的蛋白質(zhì)折疊識別(Fold Recognition)[37]算法中并沒有專門針對GPCR 這種類型的蛋白序列具有其特異性的比對算法。

2.3GPCR功能和藥物配體結(jié)合位點預測

蛋白質(zhì)的功能往往決定于其結(jié)構(gòu)，在結(jié)構(gòu)預測系統(tǒng)的基礎(chǔ)上，利用結(jié)構(gòu)信息預測GPCR的生物學功能，主要包括結(jié)合位點(Binding site)和結(jié)合底物(Ligand)的預測上。這部分將主要使用結(jié)構(gòu)信息以及一些物理統(tǒng)計學的方法進行研究。

19世紀末統(tǒng)計與遺傳學家Fisher[38]提出受體學說：受體與配體的識別關(guān)系猶如鎖與鑰匙的關(guān)系。隨后20世紀中葉Koshland[39]在受體學說的基礎(chǔ)上提出著名的誘導契合理論，表明配體分子并不是事先就以與受體互補的形態(tài)存在著,而是在受到誘導之后不斷重置蛋白質(zhì)受體的活性口袋，使兩者結(jié)合的更為緊密。根據(jù)對空間和能量的不同處理方式，分子對接被分為以下三類[40, 41]:(1)剛性對接即在受體配體分子構(gòu)像都不變化的前提下只變換對接分子的姿態(tài)和方位進行對接；(2)半柔性對接即固定受體分子的構(gòu)像，變換配體小分子的構(gòu)像而進行對接；(3)柔性對接即受體配體分子都能進行分子構(gòu)像的變化而進行對接。GPCR蛋白與藥物配體的分子對接，即在GPCR三維結(jié)構(gòu)已知的情況下，在其活性部位依據(jù)空間、形狀、性質(zhì)互補的原則置入藥物配體分子，形成具有特定關(guān)系的受體-配體復合物。基于受體結(jié)構(gòu)的虛擬數(shù)據(jù)庫篩選方法利用分子對接技術(shù)自動地匹配受體結(jié)合腔穴和化合物數(shù)據(jù)庫中的小分子三維結(jié)構(gòu)，然后利用基于分子力場的能量函數(shù)或者經(jīng)驗性函數(shù)對分子對接的模式進行打分，進而選擇與受體相互作用最好的一組化合物進行生物活性測試，從而大大節(jié)省了尋找先導化合物的費用和難度。盡管分子對接在先導化合物的尋找方面有許多成功的應用,但仍然存在很大的問題，其中忽略蛋白柔性常常是導致失敗的重要原因。為此急需建立一個專門用于研究配體結(jié)合位點柔性的關(guān)系型數(shù)據(jù)庫，可助于研究蛋白質(zhì)配體結(jié)合位點的構(gòu)象變化和蛋白質(zhì)與配體之間的相互作用，以及兩者之間的關(guān)系；同時提供配體結(jié)合位點的多個不同三維構(gòu)象、結(jié)合位點殘基的物理和化學的性質(zhì)以及蛋白質(zhì)和配體相互作用的描述符等。

3GPCR預測算法改進的可能策略

3.1優(yōu)化的GPCR識別打分函數(shù)

一種改進的GPCR識別方法：通過深入分析GPCR弱同源蛋白序列和結(jié)構(gòu)的進化關(guān)系的基礎(chǔ)上，開發(fā)合適的打分函數(shù)(能量函數(shù))，用來評判兩個GPCR蛋白之間的弱同源性。然后依據(jù)該打分函數(shù)，對未知序列通過搜索構(gòu)建好的GPCR數(shù)據(jù)庫，尋找合適的結(jié)構(gòu)(弱)同源GPCR蛋白，之后預測查詢蛋白是否為GPCR。構(gòu)建的GPCR識別能量函數(shù)是采用動態(tài)打分的方式。如果待預測的序列與GPCR模板數(shù)據(jù)庫中的模板存在較高的序列相似度，則采用更多的序列方面的信息進行打分，這樣可以避免相應結(jié)構(gòu)性質(zhì)預測不準確時帶來的噪音；如果待預測的序列與GPCR模板數(shù)據(jù)庫中的模板存在相似度非常低，則可以計算出相似度數(shù)值，同時預測出待預測的序列的結(jié)構(gòu)性質(zhì)(包括氨基酸深度、表面溶劑可及性以及二面角等信息)，可以更依賴這些結(jié)構(gòu)性質(zhì)進行打分。GPCR膜蛋白存在結(jié)構(gòu)核心區(qū)和結(jié)構(gòu)可變區(qū)。通過結(jié)構(gòu)比對軟件，尋找不同GPCR家族之間的保守區(qū)域，把這部分的數(shù)據(jù)作為開發(fā)GPCR生物信息學工具的輔助數(shù)據(jù)庫。通過文獻挖掘，把文獻中報道的相對穩(wěn)定區(qū)域與重要功能區(qū)域及位點等信息加入到該輔助數(shù)據(jù)庫中。在開發(fā)新算法時充分突出結(jié)構(gòu)核心區(qū)的重要性，這樣處理將較大程度地提高GPCR識別能量函數(shù)的性噪比，同時提高預測性能。

3.2基于分割片段的GPCR跨膜區(qū)預測算法

對于GPCR跨膜區(qū)預測工具的發(fā)展和存在的不足，我們建議開發(fā)專門的GPCR跨膜區(qū)預測算法，構(gòu)建一個跨膜區(qū)片段的輔助數(shù)據(jù)庫，通過Profile-Profile比對算法，把這些跨膜區(qū)片段比對到未知序列中去。根據(jù)片段比對的結(jié)果比較準確地去預測未知序列的跨膜區(qū)。同時構(gòu)建一些具有互補性的編碼。從序列譜(Profile)提取出20種氨基酸出現(xiàn)的位置信息(Position-specific scoring matrix)及k-空格氨基酸對信息(K-spaced residue pair composition)。序列譜的位置信息和 k-空格氨基酸對組成信息具有非常好的互補性，再結(jié)合人工神經(jīng)元網(wǎng)絡算法將提高GPCR跨膜區(qū)預測的準確率。

增強的 Profile-Profile 比對算法，可以用于改進GPCR弱同源序列間的比對精度。GPCR在跨膜區(qū)相對保守，采用多結(jié)構(gòu)比對軟件來尋找GPCR的其它潛在保守區(qū)域。在這些保守的區(qū)域中加大比對算法中的空位罰分(Gap penalty)，同時在打分函數(shù)中考慮跨膜區(qū)的影響。在獲得初步的比對結(jié)果后依據(jù)氨基酸的理化性質(zhì)和PSI-Blast搜索得到的多序列比對結(jié)果中對Profile-Profile的比對結(jié)果進行深度優(yōu)化，可使比對的結(jié)果更加準確，雖然可能會消耗更多的計算時間及資源。但當前可獲得的GPCR晶體結(jié)構(gòu)數(shù)據(jù)比較少，這過程中多消耗的計算時間及資源是在可接受的范圍內(nèi)，Profile-Profile 的比對打分函數(shù) S(i,j)為：

S(i,j)=Profile(i,j)+w1SS_Sim(i,j)+

(1)

其中 Profile(i,j)為常規(guī)的序列譜與序列譜相似性函數(shù)，采用點積(Do-product)或者皮爾遜相關(guān)函數(shù)；SS_Sim(i,j)為二級結(jié)構(gòu)元素的相似性，簡單地采取相同的二級結(jié)構(gòu)打分記為+1;不相同的二級結(jié)構(gòu)記為-1;為兩個蛋白不同結(jié)構(gòu)特性之差，同時可以采用一些新的結(jié)構(gòu)性質(zhì)提高比對準確性；shift參數(shù)用于調(diào)整比對的總體分數(shù)，以防止不相似的片段比對上。與其他方法相比，用分割好的模板的跨膜區(qū)片段對未知查詢序列進行基于片段的Profile-Profile比對，可以很好地識別未知查詢序列的跨膜區(qū)。另外，對已有清晰跨膜區(qū)的GPCR進行片段分割，建立GPCR跨膜區(qū)片段數(shù)據(jù)庫，同時根據(jù)針對該片段數(shù)據(jù)庫訓練好的Profile-Profile比對算法，來準確地把跨膜片段比對到未知序列的相應位置上。若未知序列為GPCR，則比對的結(jié)果本身很可能就有七個潛在的跨膜區(qū)。目前基于片段比對的跨膜區(qū)預測算法目前在學術(shù)界還較少有報道。

3.3綜合應用具有互補性的特征編碼

開發(fā)一系列具有互補性的編碼(Encoding), 同時使用已構(gòu)建好的人工神經(jīng)元網(wǎng)絡算法(ANN)對編碼進行建模。可以從序列譜(Profile)提取出20種氨基酸出現(xiàn)的位置信息以及k-空格氨基酸對信息，這些編碼的詳細計算過程可查詢文獻[42, 43]。這些具有20種氨基酸的位置信息與組成信息的編碼具有非常好的互補性，在外膜蛋白的識別中與GPCR預測中這些編碼都有效。利用人工神經(jīng)元網(wǎng)絡算法，其特色在于結(jié)合遺傳算法與后向傳播算法來優(yōu)化權(quán)重，同時在不同的迭代過程中更新權(quán)重的學習率(即 Learning rate)采取動態(tài)的變化。以k-空格氨基酸對信息作為輸入，人工神經(jīng)元網(wǎng)絡程序在取得較優(yōu)化的權(quán)重模型時會取得比支持向量機相當或者更好的預測結(jié)果。

4結(jié)語與展望

GPCR作為最大的多藥物靶標受體超家族，目前超過30%的上市藥物以其為靶點，但通過實驗途徑獲得的GPCR結(jié)構(gòu)與功能數(shù)據(jù)卻很少。令人欣慰的是，現(xiàn)在通過生物信息學的方法來研究GPCR的結(jié)構(gòu)與功能特征已得到較好地開展。本文綜述了GPCR的研究現(xiàn)狀，同時討論了GPCR識別和結(jié)構(gòu)預測的生物信息學研究以及急待解決的一些潛在問題，提出一些創(chuàng)新性的可能策略。通過開發(fā)全新的GPCR識別打分函數(shù)、基于分割片段的GPCR跨膜區(qū)預測算法以及增強的Profile-Profile比對算法來改進GPCR識別、跨膜區(qū)預測以及與藥物配體結(jié)合的預測精度，有助于解決實驗科學家在進行GPCR研究過程中遇到的問題，增強對GPCR蛋白、結(jié)構(gòu)和功能關(guān)系的認識，對功能基因組學，藥物研發(fā)等實驗研究提供強有力的技術(shù)和理論支持。相信在更多研究者的不懈努力下，揭開GPCR的神秘面紗指日可待，為GPCR新型藥物靶標的篩選和藥物的開發(fā)研究拓展廣袤邊疆。

參考文獻

[1]NGLESE J, KOCH W J, CARON M G,et al. Isoprenylation in regulation of signal transduction by G-protein-coupled receptor kinases[J]. Nature, 1992,359(6391):147-150.

[2]ZHANG K, ZHANG J, GAO Z G,et al. Structure of the human P2Y12 receptor in complex with an antithrombotic drug[J]. Nature, 2014,509(7498):115-118.

[3]趙強, 吳鐳, 李佳,等. 重大疾病導向的G蛋白偶聯(lián)受體研究[J]. 中國基礎(chǔ)科學, 2015,(03):3-8.

ZHAO Qiang,WU Lei, LI Jia,et al.Carbon budget of forest ecosystems and its driving forces[J].China Basic Science,2015,(03):3-8.

[4]KRATOCHWIL N A, GATTI-MCARTHUR S, HOENER M C,et al. G protein-coupled receptor transmembrane binding pockets and their applications in GPCR research and drug discovery: a survey[J]. Current Topics in Medicinal Chemistry, 2011,11(15):1902-1924.

[5]XIAO X, MIN J L, WANG P,et al. iCDI-PseFpt: identify the channel-drug interaction in cellular networking with PseAAC and molecular fingerprints[J]. Journal of Theoretical Biology, 2013,337:71-79.

[6]KIM S, MALINVERNI J C, SLIZ P,et al. Structure and function of an essential component of the outer membrane protein assembly machine[J]. Science, 2007,317(5840):961-964.

[7]PIERCE K L, PREMONT R T, LEFKOWITZ R J. Seven-transmembrane receptors[J]. Nature Reviews Molecular Cell Biology, 2002,3(9):639-650.

[8]VASSILATIS D K, HOHMANN J G, ZENG H,et al. The G protein-coupled receptor repertoires of human and mouse[J]. Proceedings of the National Academy of Sciences , 2003,100(8):4903-4908.

[9]李靜, 謝欣．靶向G蛋白偶聯(lián)受體的高通量藥物篩選方法[J]．國際藥學研究雜志,2012,39:353-357.

LI Jing,XIE Xin.High-throughput screening assays for G-protein- coupled-receptors-targeted drug discovery[J].Journal of International Pharmaceutical Research,2012,39:353-357.

[10]BERMAN H M, BHAT T N, BOURNE P E,et al. The Protein Data Bank and the challenge of structural genomics[J]. Nature Structural Biology, 2000,7 Suppl:957-959.

[11]HORN F, BETTLER E, OLIVEIRA L,et al. GPCRDB information system for G protein-coupled receptors[J]. Nucleic Acids Research, 2003,31(1):294-297.

[12]XIAO X, MIN J L, WANG P,et al. iGPCR-drug: a web server for predicting interaction between GPCRs and drugs in cellular networking[J]. PLoS One, 2013,8(8):e72234.

[13]YAN R, WANG X, HUANG L,et al. GPCRserver: an accurate and novel G protein-coupled receptor predictor[J]. Molecular BioSystems, 2014,10(10):2495-2504.

[14]WISTRAND M, KALL L, SONNHAMMER E L. A general model of G protein-coupled receptor sequences and its application to detect remote homologs[J]. Protein Science, 2006,15(3):509-521.

[15]PAPASAIKAS P K, BAGOS P G, LITOU Z I,et al. PRED-GPCR: GPCR recognition and family classification server[J]. Nucleic Acids Research, 2004,32(Web Server issue):W380-W382.

[16]HORN F, BETTLER E, OLIVEIRA L,et al. GPCRDB information system for G protein-coupled receptors[J]. Nucleic Acids Research, 2003,31(1):294-297.

[17]ZHANG Y. I-TASSER: fully automated protein structure prediction in CASP8[J]. Proteins, 2009,77 Suppl 9:100-113.

[18]APWEILER R, BAIROCH A, WU C H,et al. UniProt: the Universal Protein knowledgebase[J]. Nucleic Acids Research, 2004,32(Database issue):115-119.

[19]TUSNADY G E, SIMON I. Principles governing amino acid composition of integral membrane proteins: application to topology prediction[J]. Journal of Molecular Biology, 1998,283(2):489-506.

[20]VON HEIJINE G. Membrane protein structure prediction hydrophobicity analysis and the positive-inside rule[J].Journal of Molecular Biology, 1992,225(2):487-494.

[21]KROGH A, LARSSON B, VON HEIJNE G,et al. Predicting transmembrane protein topology with a hidden Markov model: application to complete genomes[J]. Journal of Molecular Biology, 2001,305(3):567-580.

[22]JONES D T. Improving the accuracy of transmembrane protein topology prediction using evolutionary information[J]. Bioinformatics, 2007,23(5):538-544.

[23]HOFMANN K, W S. Tmbase-A database of membrane spanning proteins segments[J]. American Journal of Respiratory & Critical Care Medicine,1993,374:166-171.

[24]HOFMANN K, W S. Organelle-specific expression of subunit ND5 of human complex I (NADH dehydrogenase) alters cation homeostasis in Saccharomyces cerevisiae[J]. Fems Yeast Research,1997,10(6):673 - 676.

[25]HIROKAWA T, BOON-CHIENG S, MITAKU S. SOSUI: classification and secondary structure prediction system for membrane proteins[J]. Bioinformatics, 1998,14(4):378-379.

[26]VIKLUND H, ELOFSSON A. OCTOPUS: improving topology prediction by two-track ANN-based preference scores and an extended topological grammar[J]. Bioinformatics, 2008,24(15):1662-1668.

[27]吳宏杰, 呂強, 權(quán)麗君,等．GPCR跨膜螺旋的結(jié)構(gòu)拓撲建模及其預測方法[Z]．計算機學報,2013,36(10):2168-2178．

WU Hongjie,L(U) Qiang,QUAN Lijun,et al.Modeling the structural topology and predicting the three-dimensional structure for transmembrane helixes of GPCR[Z].Chinese Journal of Computers, 2013,36(10):2168-2178.

[28]TAKEDA S, KADOWAKI S, HAGA T,et al. Identification of G protein-coupled receptor genes from the human genome sequence[J]. Federation of European Biochemical Societies Letters, 2002,520 (1-3):97-101.

[29]FREDRIKSSON R, SCHIOTH H B. The repertoire of G-protein-coupled receptors in fully sequenced genomes[J]. Molecular Pharmacology, 2005,67(5):1414-1425.

[30]KARCHIN R, KARPLUS K, HAUSSLER D. Classifying G-protein coupled receptors with support vector machines[J]. Bioinformatics, 2002,18(1):147-159.

[31]QIAN B, SOYER O S, NEUBIG R R,et al. Depicting a protein's two faces: GPCR classification by phylogenetic tree-based HMMs[J]. Federation of European Biochemical Societies Letters, 2003,554(1-2):95-99.

[32]BHASIN M, RAGHAVA G P. GPCRpred: an SVM-based method for prediction of families and subfamilies of G-protein coupled receptors[J]. Nucleic Acids Research, 2004,32(Web Server issue):W383-W389.

[33]WISTRAND M, KALL L, SONNHAMMER E L. A general model of G protein-coupled receptor sequences and its application to detect remote homologs[J]. Protein Science, 2006,15(3):509-521.

[34]ROSE G D. Prediction of chain turns in globular proteins on a hydrophobic basis[J]. Nature, 1978,272(5654):586-590.

[35]KYTE J, DOOLITTLE R F. A simple method for displaying the hydropathic character of a protein[J]. Journal of Molecular Biology, 1982,157(1):105-132.

[36]KARCHIN R, KARPLUS K, HAUSSLER D. Classifying G-protein coupled receptors with support vector machines[J]. Bioinformatics, 2002,18(1):147-159.

[37]JONES D T, TAYLOR W R, THORNTON J M. A new approach to protein fold recognition[J]. Nature, 1992,358(6381):86-89.

[38]FISCHER E. Einfluss der configuration auf die Wirkung der enzyme[J]. Berichte der Deutschen Chemischen Gesellschaft, 2006,27 (3):2985-2993.

[39]KOSHLAND D J. Correlation of structure and function in enzyme action[J]. Science, 1963,142(3599):1533-1541.

[40]EHRLICH L P, NILGES M, WADE R C. The impact of protein flexibility on protein-protein docking[J]. Proteins, 2005,58(1):126-133.

[41]MEILER J, BAKER D. ROSETTALIGAND: protein-small molecule docking with full side-chain flexibility[J]. Proteins, 2006,65 (3):538-548.

[42]WANG X B, WU L Y, WANG Y C,et al. Prediction of palmitoylation sites using the composition of k-spaced amino acid pairs[J].Protein Engineering Design & Selection,2009,22(11):707-712.

[43]CHEN Z, CHEN Y Z, WANG X F,et al. Prediction of ubiquitination sites by using the composition of k-spaced amino acid pairs[J].PLoS One, 2011,6(7):e22930.

Progresses and prospects of computational study on G protein-coupled receptors

XU Weiming1, Wang Xiaofeng2，Lin Juan1，3, CAI Weiwen1,YAN Renxiang1，3*

(1.CollegeofBiologicalSciencesandEngineering,FuzhouUniversity,InstituteofAppliedGenomics,Fuzhou350108,China；2.CollegeofMathematicsandComputerScience,ShanxiNormalUniversity,Linfen041004,China；3.FujianKeyLaboratoryofofMarineEnzymeEngineering,Fuzhou350108,China)

Abstract：G protein coupled receptors (GPCR), a general designation of a large class of membrane proteins, contain seven transmembrane helices in its three-dimensional structure, which currently are the drug targets more than 30% in the market. In contrast to the importance of GPCR, the knowledge of scientific community to understand its structure and function is very limited. The main reason is the difficulty to obtain the structure and function of GPCR information by wet experiment. Now, it is feasible to use bioinformatics methods to identify and predict the 3D structure of GPCR. Research on GPCR based on bioinformatics is beneficial to novel drug targets screening and new drugs developing. This paper discusses some typical bioinformatics methods. In addition, several possible new research strategies are presented to address the identification of GPCR proteins from a genome scale database, position its transmembrane region and predict the three-dimensional structure of GPCR and drug ligand binding mode.

Keywords：G protein-coupled receptors; GPCR recognition; Protein structure prediction; Transmembrane region prediction; Drug ligand

中圖分類號：Q51

文獻標志碼：A

文章編號：1672-5565(2016)01-031-08

doi:10.3969/j.issn.1672-5565.2016.01.06

作者簡介：許偉明，男，碩士研究生，研究方向：生物信息學；E-mail:n140827017@fzu.edu.cn.*通信作者：鄢仁祥，碩士生導師，博士，研究方向：生物信息學；E-mail:yanrenxiang@fzu.edu.cn.

收稿日期：2015-12-29;修回日期：2016-3-1.

資助項目：國家自然科學基金青年項目(N0.31500673);福建省教育廳科技項目(N0.JA14049)；福州大學人才基金項目(N0. XRC-1336)。

生物信息學2016年1期

生物信息學的其它文章: 生命信息安全控制原理的再探討; 一種用于構(gòu)建表達載體的合成生物學數(shù)據(jù)庫; 基于位置權(quán)重矩陣的核小體識別及功能分析; 四種常用的生物序列比對軟件比較; 人類蛋白組學草圖的肺癌分子標記物初探; 流體剪切力對內(nèi)皮細胞miR-21和miR-199a表達的影響

99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

G蛋白偶聯(lián)受體計算研究的進展和前瞻