趙子雨,劉 暢, 沈紀(jì)辰, 李文碩, 李 欣
(1.南開大學(xué) 醫(yī)學(xué)院,天津 300350;2.南開大學(xué) 生命科學(xué)學(xué)院,生物國家級實(shí)驗(yàn)教學(xué)示范中心,天津 300071)
新型冠狀病毒肺炎(COVID-19)自2019年底爆發(fā)以來相繼在世界各國蔓延,先后被世界衛(wèi)生組織宣布為國際關(guān)注的突發(fā)公共衛(wèi)生事件(PHEIC)和全球性大流行病(Pandemic),對全球的公共安全構(gòu)成了嚴(yán)重威脅[1-2]。據(jù)WHO新冠疫情數(shù)據(jù)顯示,截至2020年10月1日,全球新冠確診病例累計(jì)33 842 281例,其中死亡1 010 634例[3]。另據(jù)美國約翰斯·霍普金斯大學(xué)統(tǒng)計(jì)數(shù)據(jù),截至同年10月2日,全球累計(jì)確診超3 420萬例,其中死亡超102萬例[4]。
導(dǎo)致新型冠狀病毒肺炎的病原是一種冠狀病毒。冠狀病毒在系統(tǒng)分類上屬套式病毒目(Nidovirales)冠狀病毒科(Coronaviridae)冠狀病毒屬(Coronavirus),是具有囊膜的ssRNA正鏈病毒,在自然界中廣泛存在[5]。2020年2月11日,世界衛(wèi)生組織將引起此次新冠肺炎的病毒正式命名為SARS-CoV-2[6]。它是目前已知的第七種能夠感染人類的冠狀病毒,具有高傳染性和高隱蔽性[7],且臨床上針對病毒感染性疾病的治療較為困難。在我國第七版《新型冠狀病毒肺炎診療方案》中,采用的抗病毒藥物治療推薦了三種方案:第一種是干擾素、洛匹那韋/利托那韋和利巴韋林的聯(lián)合使用;第二種是抗瘧疾藥物磷酸氯喹的應(yīng)用;第三種是阿比多爾的運(yùn)用[8]。由于這三種都不是針對新冠肺炎的特效藥,因此在診療方案中明確要求要注意上述藥物的禁忌癥、副作用以及藥物間相互作用等[9]。當(dāng)前對于新型冠狀病毒的蛋白靶點(diǎn)的研究主要集中在特定蛋白靶點(diǎn)與已有藥物的分子對接、分子動(dòng)力學(xué)模擬等,探索相應(yīng)蛋白靶點(diǎn)的結(jié)合藥物及其作用機(jī)制;另外新冠肺炎的藥物研究也有臨床試驗(yàn)在進(jìn)行中,據(jù)中國臨床試驗(yàn)注冊中心 ( Chinese Clinical Trial Registry,ChiCTR) 網(wǎng)站數(shù)據(jù)顯示,截至 2020 年 7月 1 日,我國共有 666 項(xiàng)( 因各種原因撤銷的 45項(xiàng)未計(jì)算在內(nèi)) 相關(guān)臨床試驗(yàn)( 包括藥物、診斷試劑、心理干預(yù)等) 正在實(shí)施過程中[10]。但目前來看,老藥新用的臨床效果并不理想,且尚沒有出現(xiàn)治療新型冠狀病毒肺炎的特效藥,從長遠(yuǎn)角度考慮,進(jìn)行疫苗和創(chuàng)新藥物研發(fā)仍是當(dāng)前重要研究任務(wù)[11]。
美國化學(xué)文摘社(Chemical Abstracts Service, CAS,美國化學(xué)會(huì)的分支機(jī)構(gòu),是全球化學(xué)信息最權(quán)威的機(jī)構(gòu),提供世界上最大的公開披露的化學(xué)信息的數(shù)據(jù)庫)發(fā)布了SARS-CoV-2的蛋白靶點(diǎn)詞庫[12]。本研究對其發(fā)布的蛋白靶點(diǎn)進(jìn)行生信分析,了解病毒的結(jié)構(gòu)、侵襲過程以及基因組和蛋白質(zhì)信息,借助分析工具和數(shù)據(jù)庫資料分析與病毒復(fù)制等過程相關(guān)的蛋白通路和蛋白-蛋白相互作用關(guān)系,以獲得新冠病毒和宿主細(xì)胞蛋白靶點(diǎn)組成的蛋白通路和互作網(wǎng)絡(luò),探索對于預(yù)防和治療新冠肺炎有效的關(guān)鍵蛋白靶點(diǎn)和生物過程,希望為新冠肺炎的藥物和疫苗研究提供可能的思路。
依據(jù)美國CAS提供的新型冠狀病毒蛋白靶標(biāo)詞庫《COVID-19 Protein Target Thesaurus》,一共可以得到63種與新冠病毒相關(guān)的蛋白靶點(diǎn)作為本次研究的基本材料。在這63種蛋白靶點(diǎn)中,可根據(jù)蛋白來源不同,分為宿主蛋白和病毒蛋白兩大類。對于宿主蛋白,若一種蛋白具有發(fā)揮作用的不同亞型,則將其作為一類,對亞型進(jìn)行細(xì)分,查找每個(gè)亞型靶點(diǎn)的Ensembl Gene ID。對于宿主蛋白靶點(diǎn),白介素-1受體包括白介素-1受體1(IL-1R1)、白介素-1受體2(IL-1R2);血管緊張素II受體包括血管緊張素II-1型受體(AGTR1)、血管緊張素II-2型受體(AGTR2);免疫球蛋白受體包括IgG受體IIa的Fc片段(FCGR2A)、IgG受體IIb的Fc片段(FCGR2B)、IgG受體IIIa的Fc片段(FCGR3A);核周蛋白α類包括核周蛋白α亞基1(KPNA1)、核周蛋白α亞基2(KPNA2)、核周蛋白α亞基3(KPNA3)、核周蛋白α亞基4(KPNA4)、核周蛋白α亞基5(KPNA5)、核周蛋白α亞基6(KPNA6)、核周蛋白α亞基7(KPNA7);核周蛋白β類包括皮質(zhì)素傳遞蛋白1(TNPO1)、皮質(zhì)素傳遞蛋白2(TNPO2)、入核轉(zhuǎn)運(yùn)受體5(IPO5);吞蛋白類包括吞蛋白A1(SH3GL2)、吞蛋白A2(SH3GL2)、吞蛋白A3(SH3GL3)、吞蛋白B1(SH3GLB1)、吞蛋白B2(SH3GLB2)。對于病毒蛋白靶點(diǎn),可將具有相同功能的蛋白劃分為一類。將3種同為病毒RNA依賴型RNA聚合酶的蛋白靶點(diǎn)歸為一類,將2種核衣殼蛋白歸為一類,并且將具有相同結(jié)構(gòu)但有不同別名的蛋白合并為一類。由此分類后,可得到34種來自宿主細(xì)胞的蛋白靶點(diǎn)和19種來自病毒自身的蛋白靶點(diǎn)。宿主蛋白靶點(diǎn)種類多且復(fù)雜,病毒蛋白靶點(diǎn)則可分為參與病毒體構(gòu)成的結(jié)構(gòu)蛋白和不參與病毒體構(gòu)成但在病毒增殖過程中發(fā)揮作用的非結(jié)構(gòu)蛋白。本研究將分別對宿主蛋白靶位和病毒蛋白靶位的生物學(xué)特征及相互作用關(guān)系進(jìn)行生信分析。
病毒和宿主的蛋白靶點(diǎn)序列數(shù)據(jù)來源于數(shù)據(jù)庫NCBI(https://www.ncbi.nlm.nih.gov/)、Ensembl(http://asia.ensembl.org/index.html);數(shù)據(jù)分析工具為蛋白富集分析工具M(jìn)atescape[13](https://metascape.org/gp/index.html)、蛋白網(wǎng)絡(luò)分析工具STRING[14](https://string-db.org/);病毒蛋白靶點(diǎn)的圖文描述來源于ViralZone網(wǎng)站[15-16](https://viralzone.expasy.org/;https://viralzone.expasy.org/9056);蛋白相互作用資源來源于ViralZone網(wǎng)站SARS-CoV-2蛋白組信息網(wǎng)站(https://viralzone.expasy.org/8996),ViralZone網(wǎng)站SARS-CoV-2互作組信息網(wǎng)站(https://viralzone.expasy.org/9077),UniProt數(shù)據(jù)庫 (https://covid-19.uniprot.org/uniprotkb?query=*)。
將CAS提供的新型冠狀病毒的細(xì)胞蛋白靶點(diǎn)利用NCBI數(shù)據(jù)庫工具轉(zhuǎn)換成基因序列信息,并在Ensembl數(shù)據(jù)庫檢索基因的詳細(xì)信息得到基因名稱和ID,整理成表格信息,表中共有32種、48個(gè)蛋白靶點(diǎn),同種類的蛋白靶點(diǎn)歸納在表格的最后部分,表中蛋白AL079342.2由于尚沒有明確詳細(xì)的研究記錄,不列入分析網(wǎng)絡(luò)內(nèi),故表中實(shí)有47個(gè)有效的Ensembl Gene ID。
1.3.1 蛋白質(zhì)富集分析
將47個(gè)不同的蛋白靶點(diǎn)以列表的形式輸入到工具M(jìn)etascape中,利用KEGG Pathway, GO Biological Processes, Reactome Gene Sets, Canonical Pathways, CORUM, TRRUST, DisGeNET和PaGenBase等資源進(jìn)行路徑和過程的富集分析,基因組中的所有基因都被用作富集背景,其中篩選條件p值<0.01、最小計(jì)數(shù)為3、富集因子>1.5的富集項(xiàng),根據(jù)相似性進(jìn)行層次聚類,生成條形圖;為了進(jìn)一步探索富集項(xiàng)之間的關(guān)系,我們將其呈現(xiàn)為網(wǎng)絡(luò)圖,并用Cytoscape生成可視化網(wǎng)絡(luò)[17];最后利用BioGrid6、InWeb_IM7、OmniPath8等數(shù)據(jù)庫和MCODE算法進(jìn)行蛋白質(zhì)相互作用的富集分析,得到所有基因相關(guān)蛋白質(zhì)的全連接互作網(wǎng)絡(luò)。
1.3.2 蛋白網(wǎng)絡(luò)
運(yùn)用STRING數(shù)據(jù)庫對基因的序列信息進(jìn)行分析,做出包含已知相互作用、預(yù)測相互作用和根據(jù)蛋白質(zhì)同源性得到的相互作用等的蛋白質(zhì)互相作用網(wǎng)絡(luò),以及對各蛋白節(jié)點(diǎn)的描述、蛋白名稱、注釋等信息,并對結(jié)果進(jìn)行整理分析。
分析蛋白質(zhì)互作網(wǎng)絡(luò),得到相互作用強(qiáng)的蛋白網(wǎng)絡(luò),根據(jù)相互作用的強(qiáng)弱和子網(wǎng)絡(luò)的分布查詢對應(yīng)的蛋白通路信息,并利用DAVID工具對相關(guān)作用強(qiáng)的基因做GO和KEGG分析[18],建立蛋白通路和新冠肺炎治療的聯(lián)系。
1.3.3 病毒
運(yùn)用NCBI數(shù)據(jù)庫公布的SARS-CoV-2病毒組學(xué)信息[19],對CAS提供的已知的19種病毒蛋白靶位進(jìn)行資料搜集,將靶點(diǎn)蛋白分類為結(jié)構(gòu)蛋白和非結(jié)構(gòu)蛋白兩大類,整合組學(xué)信息后列出表格。然后,利用ViralZone網(wǎng)站中提供的圖文資料得到有關(guān)病毒的結(jié)構(gòu)、病毒的基因組蛋白組、病毒的復(fù)制周期、蛋白互作的描述及圖表[15-16]。最后,整合CAS提供的靶點(diǎn)描述信息、NCBI提供的靶點(diǎn)所在開放閱讀框的組學(xué)信息,并將其對應(yīng)至ViralZone圖片中結(jié)構(gòu)蛋白靶點(diǎn)在病毒體上的具體位置,非結(jié)構(gòu)蛋白靶點(diǎn)在病毒基因組中的相應(yīng)位置,整理在UniProt數(shù)據(jù)庫中通過相似性對比或已經(jīng)由文獻(xiàn)報(bào)道的蛋白質(zhì)相互信息,梳理互作關(guān)系,分析靶點(diǎn)功能,得出結(jié)果。
細(xì)胞蛋白靶位情況(見表1);病毒蛋白靶位情況(見表2)。
表1 細(xì)胞蛋白靶位Table 1 Cellular protein targets
表2 病毒蛋白靶位Table 2 Viral protein targets
通過GO和KEGG獲得富集分層聚類樹(見圖1)。圖中展示了前18個(gè)具有統(tǒng)計(jì)意義的通路,分別為與宿主的相互作用、NLS介導(dǎo)蛋白入核、病毒基因組復(fù)制、網(wǎng)格蛋白介導(dǎo)型內(nèi)吞、肺結(jié)核病、腎素-血管緊張素系統(tǒng)、白細(xì)胞介素-1介導(dǎo)的信號通路的調(diào)控、吞噬體、病毒附著于宿主細(xì)胞、甲型流感、破骨細(xì)胞分化、髓系白細(xì)胞介導(dǎo)免疫、脂質(zhì)定位、負(fù)向調(diào)節(jié)內(nèi)吞作用、細(xì)胞對激素刺激的反應(yīng)、肽類激素代謝、嗜中性粒細(xì)胞遷移等,這些人體內(nèi)的生物過程均與新冠病毒的作用有關(guān),因此,我們可以考慮調(diào)控這些關(guān)鍵的通路,以控制新冠病毒在人體內(nèi)的復(fù)制與繁殖。其中,“與宿主的相互作用”和“NLS介導(dǎo)蛋白入核”的p值最小,具有最顯著的統(tǒng)計(jì)學(xué)意義,這是由新冠病毒的致病機(jī)制決定的。新冠病毒通過呼吸道飛沫、接觸等傳播途徑入侵人體,在人體內(nèi)大量復(fù)制、繁殖,人體免疫系統(tǒng)調(diào)動(dòng)防御機(jī)制殺死病毒,與大部分病毒相似,新冠病毒以相互作用的形式在宿主體內(nèi)生存。核定位信號(NLS)是一段存在于核蛋白中,引導(dǎo)核蛋白入核的氨基酸序列,病毒在侵染過程中存在病毒蛋白的核質(zhì)穿梭,盡管大部分RNA病毒能在細(xì)胞質(zhì)中完成復(fù)制,但一些關(guān)鍵蛋白仍需進(jìn)入核內(nèi)進(jìn)行復(fù)制,不僅如此,許多研究表明,部分病毒蛋白的核定位可以抑制核進(jìn)口從而抑制宿主基因的轉(zhuǎn)錄[20-21],因此NLS介導(dǎo)蛋白入核是影響病毒致病力和宿主細(xì)胞重要的一環(huán)。
圖 1 基因列表中富集項(xiàng)的條形圖,用p值表示Fig.1 Bar chart of enriched items from the gene list, coloured with p-values
在層次聚類的基礎(chǔ)上,相似度大于0.3的子樹相連為一個(gè)簇,生成網(wǎng)絡(luò)圖(見圖2),p值最小的兩個(gè)簇分別代表“與宿主的相互作用”和“NLS介導(dǎo)蛋白入核”,與上一結(jié)果對應(yīng)一致。
圖 2 富集項(xiàng)的網(wǎng)絡(luò)Fig.2 Network of enriched items
此外,對該基因列表還進(jìn)行了蛋白質(zhì)相互作用的富集分析(見圖3)。蛋白質(zhì)互作網(wǎng)絡(luò)包含與列表中至少一個(gè)其他成員形成物理相互作用的蛋白質(zhì)子集,其中收集了兩個(gè)為單個(gè)基因列表識別的MCODE網(wǎng)絡(luò)。第一個(gè)網(wǎng)絡(luò)由基因SH3GL1、SH3GL2、SH3GL3、AAK1、DNM2、GAK組成,其中發(fā)揮主要作用的生物過程為網(wǎng)格蛋白介導(dǎo)型內(nèi)吞、網(wǎng)格蛋白依賴型內(nèi)吞作用及其調(diào)節(jié),網(wǎng)格蛋白介導(dǎo)型內(nèi)吞是受體介導(dǎo)內(nèi)吞的主要方式之一,在質(zhì)膜蛋白內(nèi)吞及胞內(nèi)外信號傳導(dǎo)過程中起著重要的調(diào)控作用,網(wǎng)格蛋白介導(dǎo)型內(nèi)吞和依賴型內(nèi)吞是許多病毒進(jìn)入宿主細(xì)胞的重要途徑,在研究抗病毒藥物時(shí),可通過抑制此途徑阻斷病毒感染[22];第二個(gè)網(wǎng)絡(luò)由基因KPNA2、KPNA4、KPNA6、IPO5組成,其中發(fā)揮主要作用的生物過程為核定位信號(NLS)介導(dǎo)蛋白入核,此結(jié)果與上述聚類結(jié)果相對應(yīng),同時(shí)啟發(fā)我們,對于新冠病毒入核機(jī)制的研究有利于發(fā)現(xiàn)潛在的抗病毒點(diǎn),為靶向藥物的研發(fā)提供新方向,例如,我們可以考慮通過改變病毒蛋白的細(xì)胞核定位信號來影響病毒的毒力。
圖3 基因列表中確定的蛋白質(zhì)-蛋白質(zhì)相互作用網(wǎng)絡(luò)及MCODE成分Fig.3 Protein-protein interaction network and MCODE components identified in the gene list
利用STRING數(shù)據(jù)庫得到用基因表示的47種蛋白靶點(diǎn)相互作用網(wǎng)絡(luò)(見圖4),其中有四種蛋白基因DHODH、DDX5、CH25H、DDX19B與其他蛋白在STRING數(shù)據(jù)庫中沒有得到任何已知或預(yù)測的相互作用,其與新冠肺炎治療的關(guān)系仍需要探索。主要的數(shù)據(jù)來源為精選數(shù)據(jù)庫KEGG、GO、Biocarta等得到的相互作用,MINT、HPRD等實(shí)驗(yàn)確定的相互作用和預(yù)測的基因鄰接、基因融合、基因共現(xiàn)相互作用,以及參考文本挖掘、共表達(dá)、蛋白質(zhì)同源性得到的相互作用。此蛋白網(wǎng)絡(luò)分析是繼上述富集分析的延伸,圖3中的蛋白網(wǎng)絡(luò)只涵蓋了全部研究基因中的一部分,而此蛋白網(wǎng)絡(luò)是全部基因的整體蛋白互作網(wǎng)絡(luò),分析的蛋白質(zhì)相互作用更加全面,并且對于子網(wǎng)絡(luò)的分析更具體。其中有一個(gè)相互作用強(qiáng)的的子網(wǎng)絡(luò)和兩個(gè)相互作用較弱的、較大的子網(wǎng)絡(luò),每個(gè)子網(wǎng)絡(luò)中的蛋白以及整個(gè)網(wǎng)絡(luò)的蛋白存在較大聯(lián)系或處于一個(gè)蛋白通路,包括肺結(jié)核、腎素-血管緊張素系統(tǒng)、細(xì)胞內(nèi)吞作用、病毒在宿主細(xì)胞內(nèi)的定向運(yùn)動(dòng)等蛋白通路和生物過程。
圖 4 蛋白靶點(diǎn)相互作用網(wǎng)絡(luò)Fig.4 Interaction network of protein targets
相互作用最強(qiáng)的子網(wǎng)絡(luò)由基因SH3GL1、SH3GL2、SH3GL3、GAK、AAK1、DNM2、AGTR1組成,包括通過精選數(shù)據(jù)庫、實(shí)驗(yàn)測定、文本挖掘得到的相互作用和基因共表達(dá)、蛋白質(zhì)同源性的聯(lián)系。在轉(zhuǎn)換成基因ID后運(yùn)用DAVID的Functional Annotation Tool做通路分析,基因占比在50%左右的生物過程有細(xì)胞內(nèi)吞作用、中樞神經(jīng)系統(tǒng)發(fā)育和信號傳導(dǎo),根據(jù)Viral Zone網(wǎng)站查詢得知SARS-CoV-2病毒蛋白是通過細(xì)胞的內(nèi)吞作用進(jìn)入宿主細(xì)胞的,并且病毒的ORF8蛋白可能與“攔截”負(fù)載的I類MHC分子,并將其保留在內(nèi)質(zhì)網(wǎng)中或?qū)⑵浒邢蚪到庖员苊怆脑诩?xì)胞表面出現(xiàn)這一過程有關(guān)[23],由此推斷其中涉及兩個(gè)基因DNM2和SH3GL2的通路抗原呈遞細(xì)胞在其細(xì)胞表面與MHC Ⅱ類蛋白復(fù)合物聯(lián)合表達(dá)外源性肽抗原過程,以及涉及四個(gè)基因SH3GL1、SH3GL2、SH3GL3、DNM2的通路細(xì)胞內(nèi)吞作用,都與SARS-CoV-2病毒在人體內(nèi)的侵襲過程有關(guān),對這些基因所表達(dá)蛋白的研究和相應(yīng)的藥物研究對新型冠狀病毒的防御和新冠肺炎的治療有很大幫助。
另外兩個(gè)相互作用較弱的子網(wǎng)絡(luò)內(nèi)部不同基因也存在聯(lián)系,相互作用強(qiáng)的基因有IFITM1、IFITM2與IFITM3,F(xiàn)CGR2A與FCGR3A,CTSB與CTSL,IL6、IL6R與JAK1等。利用STRING的Analysis分析工具發(fā)現(xiàn)與這些基因相關(guān)聯(lián)的GO生物過程,IFITM1、IFITM2和IFIFM3主要參與了病毒進(jìn)入宿主細(xì)胞的負(fù)調(diào)節(jié),對干擾素-α的反應(yīng),以及對干擾素-β的反應(yīng);FCGR2A和FCGR3A主要參與了內(nèi)吞作用和涉及吞噬作用的Fc-γ受體信號通路;CTSB和CTSL主要參與了細(xì)胞對甲狀腺激素的反應(yīng)和膠原分解代謝過程;IL6、IL6R和JAK1主要參與了肝免疫反應(yīng),膠原蛋白合成過程的負(fù)調(diào)節(jié),以及白介素6介導(dǎo)的信號通路[24],這些生物過程與免疫反應(yīng)有很大關(guān)聯(lián)。運(yùn)用DAVID的Functional Annotation Tool對47個(gè)基因做整體的通路分析和功能解釋,發(fā)現(xiàn)同樣存在與新冠肺炎有關(guān)的蛋白通路。涉及基因最多的蛋白通路為含NLS的蛋白導(dǎo)入細(xì)胞核的過程,包括基因IPO5、TNPO1、TNPO2、KPNA1、KPNA2、KPNA3、KPNA4、KPNA5 、KPNA6和KPNA7,即為一個(gè)單獨(dú)的子網(wǎng)絡(luò),在Viral Zone網(wǎng)站查詢得知SARS1在病毒復(fù)制或釋放過程中病毒的ORF6蛋白和KPNA2存在交互過程,通過阻止蛋白質(zhì)的核輸入來破壞干擾素信號傳導(dǎo)[25],與這一通路有關(guān)聯(lián),以其中蛋白為藥物靶點(diǎn)對SARS-CoV-2的防御有研究意義。其次同樣是細(xì)胞內(nèi)吞作用,涉及SH3GL1、SH3GL2、SH3GL3、SH3GLB1、SH3GLB2、CAV1、CXCR1和DNM2共八個(gè)基因。發(fā)現(xiàn)與病毒相關(guān)度很高的通路有甲型流感,涉及JAK1、IL6、KPNA1、KPNA2和TMPRSS2共五個(gè)基因,但在蛋白網(wǎng)絡(luò)中并沒有顯示出明顯的相互作用;以及病毒或病毒的一部分在宿主細(xì)胞內(nèi)的定向運(yùn)動(dòng)這一過程,與病毒在細(xì)胞內(nèi)的活動(dòng)有很強(qiáng)的關(guān)聯(lián),包括CLEC4M、CD209、KPNA1、KPNA2、KPNA3、KPNA4、KPNA5和KPNA7共8個(gè)基因;網(wǎng)絡(luò)中與病毒有直接關(guān)系的蛋白通路還包括病毒附著后病毒或其核酸突破細(xì)胞膜進(jìn)入宿主細(xì)胞的過程,免疫應(yīng)答,病毒對宿主細(xì)胞過程的影響或調(diào)控,I型干擾素信號通路,涉及基因都比較多,為四到八個(gè)之間,這些通路都與病毒的侵襲、復(fù)制等活動(dòng)過程有關(guān),通過藥物對通路中某一蛋白的調(diào)控可以影響疾病的發(fā)展。病毒附著后病毒或其核酸突破細(xì)胞膜進(jìn)入宿主細(xì)胞的過程,涉及CLEC4M、CD209、NPC1、ANPEP、ACE2、CTSB、DPP4和KPNA3共八個(gè)基因,除基因KPNA3外,其他基因都在蛋白網(wǎng)絡(luò)中有關(guān)聯(lián),且相互作用較強(qiáng),這一過程涉及病毒對細(xì)胞的侵入,對相應(yīng)蛋白以藥物控制可以一定程度地阻止SARS-CoV-2病毒的侵入;免疫應(yīng)答的過程涉及基因?yàn)镕CGR3A、FCGR2B、IFITM2、IFITM3、IL1R1、IL1R2和IL6,這七個(gè)基因的相互作用在蛋白網(wǎng)絡(luò)中相對較弱,IL1R1對于輔助性T細(xì)胞1因子的合成是正調(diào)節(jié)作用,IL6對于輔助性T細(xì)胞2因子的合成同樣是正調(diào)節(jié),兩者積極調(diào)節(jié)T細(xì)胞因子的產(chǎn)生,且兩者與IL1R2共同參與了白介素1介導(dǎo)的信號通路的調(diào)控,IFITM2和IFITM3對于病毒進(jìn)入宿主細(xì)胞有負(fù)調(diào)控作用,F(xiàn)CGR3A和FCGR2B都是低親和力免疫球蛋白γFc區(qū)受體,參與了吞噬作用的Fc-γ受體信號通路,這七個(gè)基因都涉及了免疫過程。由此,針對這一過程的蛋白設(shè)計(jì)藥物對免疫系統(tǒng)對病毒的防御過程做出調(diào)節(jié),加強(qiáng)保護(hù)機(jī)制,可以作為治療新冠肺炎的一個(gè)可行途徑;另外兩個(gè)通路病毒對宿主細(xì)胞的影響和I型干擾素信號通路同樣和病毒在體內(nèi)的過程有關(guān),以及蛋白網(wǎng)絡(luò)中涉及的其他通路肺結(jié)核、腎素-血管緊張素系統(tǒng)、破骨細(xì)胞分化、造血細(xì)胞通路、金黃色葡萄球菌感染、蛋白質(zhì)從細(xì)胞質(zhì)到細(xì)胞核的定向運(yùn)動(dòng)、癌癥中的轉(zhuǎn)錄失調(diào)蛋白質(zhì)水解等,與病毒在體內(nèi)的活動(dòng)過程都有關(guān)聯(lián),其中在Viral Zone網(wǎng)站查詢得知SARS1在病毒復(fù)制或釋放過程中病毒的ORF6蛋白和KPNA2存在交互過程,通過阻止蛋白質(zhì)的核輸入來破壞干擾素信號傳導(dǎo)[25],并且在病毒釋放的過程中病毒的核蛋白(N)和宿主蛋白SMAd3存在交互作用,可能引起骨髓抑制[26],前者與I型干擾素信號通路和蛋白質(zhì)從細(xì)胞質(zhì)到細(xì)胞核的定向運(yùn)動(dòng)有很大的關(guān)聯(lián),后者與破骨細(xì)胞分化和造血細(xì)胞等通路有密切關(guān)系。
總之,利用STRING做出的含47種基因或蛋白的蛋白互作網(wǎng)絡(luò),除四個(gè)基因外都有相互作用或處在同一蛋白通路,并且關(guān)系錯(cuò)綜復(fù)雜,形成一些子網(wǎng)絡(luò)和相連的網(wǎng)絡(luò),其中相對主要的并且與新冠肺炎相關(guān)度較高的通路包括細(xì)胞內(nèi)吞作用、I型干擾素信號通路、蛋白質(zhì)從細(xì)胞質(zhì)到細(xì)胞核的定向運(yùn)動(dòng)、病毒附著后病毒或其核酸突破細(xì)胞膜進(jìn)入宿主細(xì)胞的過程、免疫應(yīng)答和病毒對宿主細(xì)胞過程的影響或調(diào)控,這些通路涉及的蛋白可以作為藥物的靶點(diǎn),研究其結(jié)構(gòu)和功能設(shè)計(jì)藥物,以緩解或治療新冠肺炎,所以研究這些蛋白靶點(diǎn)設(shè)計(jì)藥物對新冠肺炎的治療有重要意義。
由NCBI公布的SARS-CoV-2基因組、蛋白組數(shù)據(jù)可知,美國CAS提供的19種SARS-CoV-2蛋白靶位中,有15種為病毒的非結(jié)構(gòu)蛋白(Non-structural proteins),有4種為結(jié)構(gòu)蛋白(Structural proteins)(見表2)。其中,前15種為非結(jié)構(gòu)蛋白,后4種為結(jié)構(gòu)蛋白。
ViralZone網(wǎng)站公布了SARS-CoV-2基因組及表達(dá)信息(見圖5)。由圖可知,SARS-CoV-2基因組編碼13個(gè)開放閱讀框(Open Reading Frame)。其中ORF1a/b由大約三分之二的全基因組長度組成,可通過初級翻譯產(chǎn)生多肽pp1a和pp1ab,編碼16種蛋白。 其他ORFs占基因組的其余三分之一,通過基因組亞基因化表達(dá)過程,主要編碼了4種蛋白——糖基化刺突蛋白(S)、包膜蛋白(E)、膜蛋白(M)、核衣殼蛋白(N),和其他輔助蛋白。
圖5 新型冠狀病毒基因組及表達(dá)Fig.5 SARS-CoV-2 genome and expression
將病毒蛋白靶位(見表2)對應(yīng)至ViralZone圖片(見圖5)蛋白靶點(diǎn)在病毒基因組中的相應(yīng)位置可知,CAS提供的15種非結(jié)構(gòu)蛋白靶點(diǎn)均由冠狀病毒基因組編碼的開放閱讀框ORF1a/b翻譯得到的兩個(gè)多肽pp1a和pp1ab經(jīng)過切割后形成。它們不僅可以參與構(gòu)成病毒的復(fù)制-轉(zhuǎn)錄酶復(fù)合體(Replicase-transcriptase complex ,RTC),對病毒的復(fù)制周期起關(guān)鍵作用,還可能具有抑制宿主基因表達(dá)、誘導(dǎo)細(xì)胞凋亡、抑制先天性免疫反應(yīng)的作用,是病毒能夠大量繁殖的優(yōu)勢所在。
CAS提供的4種結(jié)構(gòu)蛋白靶點(diǎn)則是病毒基因組亞基因化表達(dá)的產(chǎn)物。在這4種相關(guān)的結(jié)構(gòu)蛋白靶位中,有2種糖基化刺突蛋白(S),1種核衣殼蛋白(N)和1種膜蛋白(M)。刺突蛋白(S)位于病毒表面,可與宿主細(xì)胞的ACE受體結(jié)合介導(dǎo)病毒通過內(nèi)吞作用進(jìn)入細(xì)胞,還可與宿主蛋白TMPRESS2、Furin發(fā)生切割作用來獲得融合能力,從而誘導(dǎo)病毒進(jìn)入細(xì)胞??梢姽跔畈《維蛋白與其宿主細(xì)胞表面受體的相互作用是決定宿主取向的關(guān)鍵因素,對其結(jié)構(gòu)及功能的進(jìn)一步研究可以指導(dǎo)疫苗的設(shè)計(jì)和研發(fā)[27-28]。核衣殼蛋白(N)參與病毒基因組的構(gòu)成,使其保持“串珠狀”結(jié)構(gòu),它也是一種高度免疫原性的磷蛋白,與病毒基因組復(fù)制和調(diào)節(jié)細(xì)胞信號通路有關(guān)。膜蛋白(M)主要位于病毒囊膜內(nèi)表面,它在構(gòu)成病毒內(nèi)膜與核衣殼蛋白間連接支架的同時(shí),也與子代病毒粒子的裝配和釋放有關(guān)。
SARS-CoV-2的結(jié)構(gòu)蛋白和非結(jié)構(gòu)蛋白靶位都在其感染細(xì)胞、大量增殖的過程中起關(guān)鍵作用,并同宿主細(xì)胞也具有一定的相互作用關(guān)系。因此,增加對這些蛋白靶點(diǎn)的生物學(xué)功能及互作機(jī)制的研究將對新冠肺炎的預(yù)防和治療具有重要意義。
梳理ViralZone中給出的蛋白組描述、互作組描述信息,UniProt數(shù)據(jù)庫中對病毒蛋白靶點(diǎn)功能注釋和相互作用注釋(見表3)。
表3 病毒蛋白靶點(diǎn)互作蛋白及功能Table 3 Interacting proteins and functions of viral protein targets
新冠肺炎已爆發(fā)許久,感染人群眾多,但目前尚未研發(fā)出針對新冠病毒的特效藥。上述分析啟發(fā)我們,通過干擾宿主細(xì)胞的生物通路和病毒自身結(jié)構(gòu)有可能為目前的新冠肺炎患者提供有效的治療方案,為藥物研發(fā)提供思路和方向。
在臨床治療上,可以通過干擾宿主細(xì)胞的生物通路抑制病毒感染。在蛋白富集分析的結(jié)果中我們發(fā)現(xiàn)網(wǎng)格蛋白介導(dǎo)型內(nèi)吞是病毒進(jìn)入細(xì)胞的主要途徑,因此我們可以考慮在網(wǎng)格蛋白介導(dǎo)內(nèi)吞過程中,靶向抑制發(fā)動(dòng)蛋白或網(wǎng)格蛋白從而阻止病毒侵入細(xì)胞,在此領(lǐng)域較為常見的抑制劑有氯丙嗪等。在蛋白網(wǎng)絡(luò)分析部分,我們得到了很多和宿主細(xì)胞免疫應(yīng)答過程相關(guān)的生物過程,干擾與之相關(guān)的病毒蛋白或調(diào)節(jié)宿主細(xì)胞的關(guān)鍵通路,或可降低病毒毒力、恢復(fù)人體免疫力,例如干擾病毒ORF6蛋白或調(diào)控KPNA2使得干擾素信號傳導(dǎo)過程不受影響,或補(bǔ)充所需干擾素以抑制細(xì)胞增殖、調(diào)節(jié)免疫;病毒的ORF8蛋白與避免肽在細(xì)胞表面表達(dá)有關(guān),針對ORF8的抑制劑或使用IFN可能增強(qiáng)人體的免疫反應(yīng)從而對抗新冠病毒[30]。
另外,經(jīng)過我們的分析,在病毒入侵宿主細(xì)胞的過程中,NLS介導(dǎo)蛋白入核發(fā)揮了重要的作用,調(diào)控病毒蛋白NLS不僅可以減弱病毒的毒力,還可以恢復(fù)宿主細(xì)胞轉(zhuǎn)錄基因的表達(dá),如研制靶向藥物使NLS突變或缺失,從而起到有效的抗病毒作用。
病毒侵染宿主細(xì)胞時(shí)對其他蛋白通路的影響可能使人體感染相應(yīng)疾病或出現(xiàn)相應(yīng)疾病的類似臨床表現(xiàn),因此,舊藥新用不失為一種治療方案。例如治療肺結(jié)核病常用的莫西沙星、左氧氟沙星和鏈霉素等、降壓藥氫氯噻嗪和氯沙坦等、減少免疫抑制的白細(xì)胞介素-1β抑制劑、用于治療甲型流感的連花清瘟膠囊等,但這些用藥方案只是根據(jù)蛋白通路的推斷,同時(shí)這些藥物不是針對新冠病毒的特效藥,使用前應(yīng)進(jìn)行臨床試驗(yàn)。
針對新冠病毒本身而言,與新冠肺炎有關(guān)的15種非結(jié)構(gòu)蛋白對病毒的復(fù)制、調(diào)控、免疫起到了重要的作用,其中有些非結(jié)構(gòu)蛋白可能影響病毒毒力,若能驗(yàn)證敲掉某非結(jié)構(gòu)蛋白后病毒毒力大幅下降,則可為病毒疫苗的研發(fā)提供新思路。作為新冠肺炎靶位的結(jié)構(gòu)蛋白有4種,2種S蛋白介導(dǎo)病毒附著并侵入宿主細(xì)胞,N蛋白與病毒基因組和宿主蛋白都存在相互作用并影響宿主造血細(xì)胞通路,M蛋白影響病毒的組裝與免疫原性,針對上述結(jié)構(gòu)蛋白可研發(fā)相應(yīng)的病毒檢測試劑和疫苗。
新冠肺炎的流行給醫(yī)療行業(yè)帶來了重大壓力,疫情當(dāng)前,如何進(jìn)行有效的預(yù)防和治療成為了亟待解決的問題。根據(jù)蛋白靶位進(jìn)行藥物研發(fā),使疾病的治療有了更多的針對性;同時(shí),舊藥新用可以在原有的經(jīng)驗(yàn)上節(jié)省時(shí)間??傊?,對新冠病毒的蛋白靶位進(jìn)行生信分析,讓我們對病毒自身結(jié)構(gòu)和侵染過程有了更多的了解,也為抗病毒藥物和疫苗的研發(fā)提供了更多的參考。
上述分析獲得了新冠病毒和宿主細(xì)胞蛋白靶點(diǎn)組成的蛋白通路和互作網(wǎng)絡(luò),由此我們進(jìn)一步了解了新冠病毒的結(jié)構(gòu)和侵染人體的過程:新冠病毒附著并通過內(nèi)吞作用進(jìn)入細(xì)胞,病毒基因組復(fù)制翻譯,合成自身所需結(jié)構(gòu)蛋白和非結(jié)構(gòu)蛋白,抑制免疫反應(yīng),并胞吐出細(xì)胞。在此過程中,各種生物通路和組成病毒自身的蛋白質(zhì)都起到了非常重要的作用。其中包括(但不限于):
1)病毒附著后,通過網(wǎng)格蛋白介導(dǎo)的內(nèi)吞作用和自身的S蛋白作用進(jìn)入宿主細(xì)胞;
2)病毒入侵細(xì)胞后,需要借助NLS進(jìn)入細(xì)胞核完成復(fù)制。
3)病毒進(jìn)入細(xì)胞后,病毒的ORF8蛋白下調(diào)細(xì)胞表面MHC-Ⅰ的表達(dá)從而逃避免疫細(xì)胞的殺傷;
4)在病毒侵染宿主細(xì)胞的過程中,還會(huì)影響其他蛋白通路,比如肺結(jié)核病、腎素-血管緊張素系統(tǒng)、白細(xì)胞介素-1介導(dǎo)的信號通路的調(diào)控、甲型流感、破骨細(xì)胞分化、造血細(xì)胞通路等。