• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      從新冠病毒起源到BLAST工具的正確實(shí)踐

      2022-04-21 04:02:10任建英焦向英
      關(guān)鍵詞:核酸基因組加密

      任建英, 郭 睿, 焦向英

      (1)山西醫(yī)科大學(xué)基礎(chǔ)醫(yī)學(xué)院生物化學(xué)與分子生物學(xué)教研室, 太原 030000;2)山西醫(yī)科大學(xué)基礎(chǔ)醫(yī)學(xué)院生理學(xué)系, 太原 030000)

      許多生物信息學(xué)任務(wù)依賴于序列比對(duì),通過比對(duì)可以判斷序列是否相似,進(jìn)而分析其同源性,推導(dǎo)生物進(jìn)化過程,發(fā)現(xiàn)生物序列中的功能、結(jié)構(gòu)和進(jìn)化信息都具有重要的意義。例如,2019年新冠疫情襲來,國(guó)內(nèi)學(xué)者數(shù)月內(nèi)便查明病原體,并于2020年1月共享新冠病毒基因組信息,以便全球的疫情防控和病毒溯源[1,2]。在獲得基因和基因組序列的基礎(chǔ)上,還能進(jìn)一步研究基因與環(huán)境、基因與基因、基因與非編碼序列、基因與蛋白質(zhì)之間的相互作用,借助基因工程和細(xì)胞工程等手段改造自然,甚至正如電影《侏羅紀(jì)公園》中所描繪的使復(fù)活滅絕的物種成為可能[3]。

      基本局部比對(duì)搜索工具(basic local alignment search tool,BLAST)是最流行的序列比對(duì)工具之一。BLAST包括短序列匹配和擴(kuò)展2個(gè)階段:在短序列匹配階段通常會(huì)先去掉輸入序列的低復(fù)雜度或重復(fù)區(qū)域,再劃分為K-letter長(zhǎng)的子序列(即查詢種子,核酸序列默認(rèn)字長(zhǎng)為11,蛋白質(zhì)序列默認(rèn)字長(zhǎng)為3),同時(shí)在數(shù)據(jù)庫中定位找到種子序列;在擴(kuò)展階段對(duì)種子序列盡最大可能延伸形成高分配對(duì)片段(high-scoring segment pair, HSP),并以適當(dāng)形式展示結(jié)果[4]。NCBI(National Center for Biotechnology Information)提供了BLAST工具在線交互式操作服務(wù)(https://blast.ncbi.nlm.nih.gov/Blast.cgi),一般的序列比對(duì)通常會(huì)在數(shù)s內(nèi)返回比對(duì)結(jié)果。

      在序列提交頁面涉及眾多參數(shù),例如數(shù)據(jù)庫(database)、程序的選擇(program selection)以及算法相關(guān)的常規(guī)參數(shù)(general parameters)和打分參數(shù)(scoring parameters)等。使用者會(huì)因?yàn)椴粫?huì)選擇各種參數(shù)而直接選擇默認(rèn)值,繼而可能得出錯(cuò)誤的結(jié)論。另外,BLAST工具包含核酸與核酸、核酸到蛋白質(zhì)和蛋白質(zhì)到核酸的比對(duì)工具,例如常見的blastn、blastx、tblastn和blastp,初學(xué)者使用時(shí)通常會(huì)產(chǎn)生困惑,不知如何選擇[4,5]。本文擬通過去年新冠疫情時(shí)期的一個(gè)熱議話題“新冠病毒極有可能源自實(shí)驗(yàn)室”來說明如何正確進(jìn)行NCBI Blast程序參數(shù)的選擇,并通過虛構(gòu)恐龍基因,讓學(xué)生在實(shí)驗(yàn)課上動(dòng)手改造加入自己的密碼,在各小組彼此間加密解密過程中提升趣味性,以達(dá)到加深理解的目的。

      1 “新冠病毒源于實(shí)驗(yàn)室”言論廣為流傳

      新冠疫情突發(fā),起初由于對(duì)于這種新的病毒認(rèn)識(shí)較少,隨后便出現(xiàn)了各種言論,其中一個(gè)來自于IPAK(Institute for Pure and Applied Knowledge)的CEO James Lyons-Weiler博士。他在個(gè)人的博客上提出了新冠病毒來源的4種可能性,通過引用文獻(xiàn)和推理分析,在2篇博文中宣稱“新冠病毒極有可能源自實(shí)驗(yàn)室”,并在艾美獎(jiǎng)獲得者Del Bigtree節(jié)目上受邀采訪,一度引起民眾抵制包括新冠疫苗在內(nèi)的疫苗接種(博文1地址:https://jameslyonsweiler.com/2020/01/30/on-the-origins-of-the-2019-ncov-virus-wuhan-china/;博文2地址:https://jameslyonsweiler.com/2020/02/02/moderately-strong-confirmation-of-a-laboratory-origin-of-2019-ncov/)。在博文中,James博士指出,IPAK研究人員發(fā)現(xiàn),新冠病毒基因組與其他冠狀病毒不同,有一段長(zhǎng)1 378bp的插入序列(INS1378)。INS1378與SARS病毒的編碼刺突蛋白基因序列及pShuttle-SN載體序列高度相似,并且作者查到pShuttle-SN載體在2005年被中國(guó)科學(xué)家用于生產(chǎn)SARS冠狀病毒疫苗的研究并持有專利,再加上國(guó)內(nèi)剛好有多所BSL-4級(jí)實(shí)驗(yàn)室,因此確定新冠病毒極有可能源于實(shí)驗(yàn)室重組合成。

      1.1 1 378 bp插入序列來自實(shí)驗(yàn)室合成觀點(diǎn)的可信度

      博文中看似“有理有據(jù)”的描述和各種證據(jù),使人不禁會(huì)想著去求證INS1378的來源。通過查閱文獻(xiàn)可知,pShuttle-SN是由SARS冠狀病毒的Spike基因片段與pShuttle載體通過酶連反應(yīng)構(gòu)建而成[6]。因此,將INS1378序列作為輸入序列,使用NCBI提供的網(wǎng)頁版BLAST服務(wù),Entrez Query參數(shù)為AY862402(pShuttle-SN載體的GenBank編號(hào)),并選用blastn程序,其他參數(shù)默認(rèn),進(jìn)行序列相似性分析。Fig.1為返回的比對(duì)結(jié)果。結(jié)果顯示,2條序列的一致度為67.77%,點(diǎn)擊Alignments標(biāo)簽的比對(duì)視圖能看到序列比對(duì)的詳細(xì)結(jié)果。上述結(jié)果并不足以證明新冠病毒是由SARS病毒的Spike基因插入到pShuttle-SN載體等方法經(jīng)實(shí)驗(yàn)合成而來[7]。結(jié)構(gòu)生物學(xué)分析和生物化學(xué)研究表明,雖然SARS-CoV和SARS-CoV-2的傳播感染分子機(jī)制具有相似性,但兩者spike蛋白質(zhì)中與病毒傳播相關(guān)的關(guān)鍵位點(diǎn)并不完全相同,并且SARS-CoV-2中的關(guān)鍵位點(diǎn)也不是最優(yōu)解,更多是自然選擇的結(jié)果。另外,雖然進(jìn)化分析顯示,新冠病毒很可能源于蝙蝠傳播,但其也可能感染除大鼠和小鼠外的多種動(dòng)物。由此引出了新的問題——1 378 bp的序列是否只存在于新冠病毒中[8-10]。

      圖1 INS1378序列與pShuttle-SN載體的序列比對(duì)結(jié)果 INS1378序列與pShuttle-SN載體序列一致度為67.77%。INS1378序列來自James博士的博文,見上文的博文地址1。AY862402是NCBI中pShuttle-SN載體的登陸號(hào)Fig.1 Sequence alignment result of INS1378 and pShuttle-SN vector The sequence identity of INS1378 and pShuttle-SN vector is 67.77%. The INS1378 sequence is from James Lyons-Weiler’s web site (https://jameslyonsweiler.com/2020/01/30/on-the-origins-of-the-2019-ncov-virus-wuhan-china/). AY862402 is the accession number of pShuttle-SN vector in NCBI

      1.2 1 378 bp的序列在其他冠狀病毒中存在與否

      經(jīng)再次進(jìn)行BLAST,通過NCBI Taxonomy數(shù)據(jù)庫查到正冠狀病毒亞科的taxid為2501931,NCBI中新型冠狀病毒的taxid為2697049,只比對(duì)正冠狀病毒亞科中的非新型冠狀病毒的序列。程序選擇blastn,最大目標(biāo)序列(max target sequences)參數(shù)選擇1 000,以盡可能看到更多的比對(duì)結(jié)果。經(jīng)過查看和挑選,選擇了20條有種屬代表性的序列,結(jié)果正如Fig.2所示。除MW718567存在部分序列(約800 bp)未見較好的比對(duì),其他均有較好的比對(duì),并沒有所謂“獨(dú)特”的INS1378。

      圖2 NCBI中常見冠狀病毒全基因組使用blastn程序多序列比對(duì)視圖 圖上半部分顯示新型冠狀病毒基因組部分基因結(jié)構(gòu)圖,下半部分為與NCBI中其他冠狀病毒基因組的序列比對(duì)結(jié)果。使用blastn的序列比對(duì)結(jié)果顯示并沒有所謂“獨(dú)特”的INS1378Fig.2 Multiple sequence alignment viewer of typical Coronaviruses genome sequences deposited in NCBI by using blastn program The upper part of the image depicts the partial gene structure of the SARS-CoV-2 genome, the lower part is the result of sequence alignment with other common Coronaviruses genome sequences, and the sequence alignment result by using the blastn program confirms that there is no major unique INS1378

      使用的是相同的數(shù)據(jù)庫,且同樣使用NCBI的BLAST平臺(tái),然而結(jié)果卻和James博士并不相同。經(jīng)過試驗(yàn)發(fā)現(xiàn),原來James博士使用默認(rèn)的參數(shù)進(jìn)行序列比對(duì),也就是程序選擇了megablast。本文也復(fù)現(xiàn)了其結(jié)果,結(jié)果見Fig.3所示,似乎確實(shí)存在插入片段,但卻不能因此而妄下結(jié)論。NCBI的核酸序列比對(duì)提供了3個(gè)程序:megablast、discontiguous megablast和blastn,默認(rèn)使用megablast。這3種不同的BLAST工具,算法原理均基本相同--先匹配種子序列,然后兩端延伸,差別在于字長(zhǎng)(word size字長(zhǎng),即種子序列長(zhǎng)度)和打分算法默認(rèn)值(https://blast.ncbi.nlm.nih.gov/Blast.cgi? CMD=Web&PAGE_ TYPE=BlastDocs&DOC_TYPE=BlastHelp,https://ftp.ncbi.nlm.nih.gov/pub/factsheets/HowTo_NewBLAST. pdf)。megablast字長(zhǎng)默認(rèn)為28,用于相似度比較高的序列進(jìn)行比較,速度最快,而blastn的默認(rèn)字長(zhǎng)為11,因此速度最慢[11]。在序列比對(duì)過程中,如果一段序列跟其他序列的相似性不那么高,就有可能匹配不上種子序列,這樣整段序列就會(huì)被忽略,看起來像是插入片段,至此明白了其錯(cuò)誤原因。

      目前,已報(bào)道的與新冠病毒基因組序列最為相似的冠狀病毒是從菊頭蝠中分離獲得的RaTG13(序列相似性僅96%),其與新冠病毒的進(jìn)化分歧大約發(fā)生在50年前[12]。進(jìn)化分析顯示,直到疫情暴發(fā)前,新冠病毒已積累了500多個(gè)突變。由于不知道這500多個(gè)突變是如何產(chǎn)生的,且鮮有科學(xué)家報(bào)道從野生動(dòng)物中成功分離得到與新冠病毒足夠相似的病毒。另外,由于The Scientist雜志2015年曾在線報(bào)道過美國(guó)北卡羅來納大學(xué)的Ralph S. Baric教授合成冠狀病毒的研究曾引起熱烈探討,因此,新冠病毒實(shí)驗(yàn)室起源被反復(fù)提起[13-14]。本文通過NCBI的Blast核酸比對(duì)程序的使用,尤其是程序和參數(shù)的選擇,復(fù)現(xiàn)并說明了James 博士“新冠病毒源于實(shí)驗(yàn)室”論斷的不合理地方。當(dāng)然,僅僅進(jìn)行測(cè)序和序列比對(duì),并不能完全確定新冠病毒來源問題,需要病毒學(xué)家與流行病學(xué)家和各方面專家的不斷研究方能得出科學(xué)結(jié)論。在博文中,James博士還引用了分子進(jìn)化有關(guān)方面的證據(jù)。然而,分子進(jìn)化也要先進(jìn)行序列比對(duì)。限于篇幅和本文目的不再作展開。

      2 用“恐龍基因”加密解密實(shí)驗(yàn)加深BLAST工具的使用和理解

      上文主要涉及DNA序列之間的比對(duì)。NCBI的BLAST程序還能進(jìn)行蛋白質(zhì)與蛋白質(zhì)序列及核酸與蛋白質(zhì)序列的比對(duì)。Table 1為5種常用的程序。其中,blastn和blastp的使用比較容易理解。而許多初學(xué)者對(duì)后3個(gè)程序要進(jìn)行6框翻譯常有困惑。其實(shí),這是因?yàn)閙RNA上的3個(gè)堿基對(duì)應(yīng)1個(gè)氨基酸,因此可能會(huì)存在3種不同的相位,并且不清楚序列是正向還是反向,就會(huì)有3×2共6種可能性,需6框翻譯才可能包含所有的情況。至于tblastx比較的序列均為核酸,卻要6框翻譯成蛋白質(zhì)序列再進(jìn)行比較。這是因?yàn)閷?duì)蛋白質(zhì)功能有影響的主要是其活性部位的氨基酸,改變個(gè)別其它位點(diǎn)的氨基酸對(duì)其影響不大,或者改變的氨基酸與原氨基酸性質(zhì)相似也可能對(duì)其功能影響不大,此程序防止漏掉因?yàn)樾蛄胁惶嗨频δ軈s非常相似的情況。

      下面本文用“加密”的方式虛構(gòu)恐龍基因,再進(jìn)行解密的趣味實(shí)驗(yàn),通過動(dòng)手實(shí)踐理解此知識(shí)點(diǎn)。

      此實(shí)驗(yàn)設(shè)計(jì)為:一個(gè)小組以雞(taxid:9031)的1個(gè)基因或蛋白質(zhì)序列為藍(lán)本,通過插入片段來模擬演化,從而虛構(gòu)出恐龍的基因或蛋白質(zhì)序列(加密過程)。讓另一小組運(yùn)用BLAST工具,解析插入片段的內(nèi)容(解密過程)。因?yàn)槌R姲被嵊?0種,氨基酸單字母縮寫的組合表現(xiàn)力比核酸強(qiáng),可選擇將密碼隱藏在蛋白質(zhì)序列中。起始序列可為核酸,也可為蛋白序序列。實(shí)驗(yàn)流程示意如Fig. 4所示。假如小組A選擇NCBI登陸號(hào)為NM_205464基因,為加強(qiáng)練習(xí)BLAST工具的使用,先使用blastx工具進(jìn)行比對(duì),找到其對(duì)應(yīng)蛋白質(zhì)序列(登陸號(hào)為NP_990795),并在蛋白質(zhì)序列中的2個(gè)位置分別加入AT和SY(即@山醫(yī),F(xiàn)ig 4中左部分小方框框起),使用EBI(European Bioinformatics Institute)提供的Backtranseq工具網(wǎng)頁版(https://www.ebi.ac.uk/Tools/st/)反推出核酸序列(此即加密后的序列),提供給小組B用于解密[15]。小組B根據(jù)小組A提供的序列類型,選擇合適的BLAST工具進(jìn)行解密。此處,可參考Table 1練習(xí)如何選擇正確的程序。通過比對(duì)找到插入的序列,從而獲得小組A的加密內(nèi)容(Fig.4中右部分小方框框起字母)。在各小組間熟悉了實(shí)驗(yàn)整體流程后,可增加難度,讓學(xué)生直接加密核酸序列從而體會(huì)6框翻譯。在互相加密和解密的動(dòng)手實(shí)踐過程中,達(dá)到掌握工具的選擇及使用,加深對(duì)工具原理的理解,同時(shí)又不失趣味性。結(jié)果初步發(fā)現(xiàn),此實(shí)驗(yàn)設(shè)計(jì)對(duì)于學(xué)生理解該工具的使用具有一定的促進(jìn)作用。

      圖3 NCBI中常見冠狀病毒全基因組使用megablast程序的多序列比對(duì)視圖 圖上半部分為新型冠狀病毒基因組部分基因結(jié)構(gòu)圖,下半部分為與NCBI中其他常見冠狀病毒序列比對(duì)結(jié)果。出現(xiàn)的所謂插入片段只是因選擇了megablast程序Fig.3 Multiple sequence alignment viewer of typical Coronaviruses genome sequences deposited in NCBI by using megablast program The upper part of the image is a partial gene structure of the SARS-CoV-2 genome, the lower part is the result of sequence alignment with other Coronaviruses genome sequences. The inserted element is just the result of choosing megablast program

      表1 NCBI BLAST網(wǎng)頁版服務(wù)中幾個(gè)常見BLAST程序簡(jiǎn)要對(duì)比

      3 討論

      BLAST一般在國(guó)內(nèi)生物信息學(xué)專業(yè)教材中數(shù)據(jù)庫和序列比對(duì)相關(guān)章節(jié),并且眾多生物化學(xué)和分子生物學(xué)教材中基因組與比較基因組學(xué)相關(guān)內(nèi)容也已單獨(dú)成章。通過測(cè)序獲得基因、甚至基因組序列,也已成為分子生物學(xué)實(shí)驗(yàn)室的常規(guī)實(shí)驗(yàn)方法。在新醫(yī)科背景下,作為當(dāng)代生物醫(yī)學(xué)生都應(yīng)該掌握如何正確使用BLAST,并且學(xué)習(xí)病毒學(xué)和流行病學(xué)知識(shí),關(guān)注病毒溯源的科學(xué)研究成果,正確明辨事非,不信謠傳謠,更不能讓陰謀論阻礙社會(huì)和科學(xué)的發(fā)展。“新冠病毒源于實(shí)驗(yàn)室”的謠言傳開不久,國(guó)內(nèi)華中科技大學(xué)的薛宇教授和美國(guó)芭芭拉安卡馬納司癌癥中心的David Henry Gorski外科醫(yī)師先后也在網(wǎng)絡(luò)上用科學(xué)的方法進(jìn)行過辟謠。其中,薛宇教授不僅從序列比對(duì)的角度,而且還從病毒學(xué)的角度進(jìn)行了初步分析。本文部分內(nèi)容受兩位學(xué)者的啟發(fā),構(gòu)思把看似枯燥的知識(shí)點(diǎn),借對(duì)這個(gè)熱議話題的質(zhì)疑作為教學(xué)內(nèi)容展開,帶領(lǐng)學(xué)生一步步解開疑點(diǎn),快速掌握工具的使用及了解易錯(cuò)點(diǎn),同時(shí)提升學(xué)生自主判斷的能力,樹立正確的科學(xué)觀和世界觀。

      第一部分的教學(xué)設(shè)計(jì)是教師用問題引導(dǎo)的方式來達(dá)到讓學(xué)生快速把握BLAST工具,但缺少了實(shí)踐,以及學(xué)生在自主使用工具中可能會(huì)遇到困難的解決。因此,在第二部分加入了實(shí)驗(yàn)環(huán)節(jié),讓學(xué)生在趣味活動(dòng)中動(dòng)手發(fā)現(xiàn)問題,通過小組互助與師生解答的方式達(dá)到加深理解并掌握。隨著生物學(xué)和醫(yī)學(xué)的日益發(fā)展,以往不可能的事情逐漸變得可能,也誕生了一些新的技術(shù)和學(xué)科,例如腫瘤免疫治療和合成生物學(xué)等[16]。本文用虛構(gòu)的恐龍基因進(jìn)行加密解密的作為實(shí)驗(yàn)課內(nèi)容,不僅提升了課程的趣味性,敦促學(xué)生先打牢生物化學(xué)與分子生物學(xué)基礎(chǔ),然后才能展望未來,勇攀高峰,為人類未來的美好愿景而奮斗。當(dāng)然,本文不可能對(duì)BLAST工具面面俱到,例如E value的意義、局部比對(duì)和全局比對(duì)的經(jīng)典算法、命令行版本的BLAST工具使用與結(jié)果解析等。通過事例的引入和實(shí)驗(yàn)環(huán)節(jié)的強(qiáng)化,學(xué)生對(duì)BLAST工具的網(wǎng)絡(luò)版的常規(guī)使用已基本掌握,希望此課程的設(shè)計(jì)對(duì)同行和學(xué)生們有所幫助。

      猜你喜歡
      核酸基因組加密
      測(cè)核酸
      中華詩詞(2022年9期)2022-07-29 08:33:50
      全員核酸
      第一次做核酸檢測(cè)
      快樂語文(2021年34期)2022-01-18 06:04:14
      牛參考基因組中發(fā)現(xiàn)被忽視基因
      核酸檢測(cè)
      一種基于熵的混沌加密小波變換水印算法
      認(rèn)證加密的研究進(jìn)展
      基于ECC加密的電子商務(wù)系統(tǒng)
      基于格的公鑰加密與證書基加密
      基因組DNA甲基化及組蛋白甲基化
      遺傳(2014年3期)2014-02-28 20:58:49
      抚松县| 农安县| 永和县| 和顺县| 耒阳市| 榆林市| 黄冈市| 凭祥市| 姚安县| 兴安县| 张家界市| 桓仁| 金湖县| 化德县| 治多县| 莲花县| 巴林右旗| 锦屏县| 林周县| 安阳县| 团风县| 杂多县| 阳泉市| 清镇市| 赣榆县| 彭水| 鄂托克前旗| 科尔| 游戏| 邻水| 吴桥县| 应城市| 灵宝市| 乌什县| 旌德县| 西和县| 霍邱县| 泰和县| 鄂州市| 施甸县| 莒南县|