• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      實(shí)用生物信息技術(shù)課程教學(xué)實(shí)例

      2015-07-12 05:43:08羅靜初
      生物技術(shù)通報(bào) 2015年11期
      關(guān)鍵詞:珠蛋白亞基位點(diǎn)

      羅靜初

      (北京大學(xué)生命科學(xué)學(xué)院 北京大學(xué)蛋白質(zhì)與植物基因研究重點(diǎn)實(shí)驗(yàn)室 北京大學(xué)生物信息中心,北京 100871)

      自2000年起,本人在北京大學(xué)和中國(guó)農(nóng)業(yè)科學(xué)院研究生院開(kāi)設(shè)“實(shí)用生物信息技術(shù)”課程[1]。本課程以從事分子生物學(xué)實(shí)驗(yàn)研究的碩士或博士研究生為教學(xué)對(duì)象,重點(diǎn)介紹最基本、最常用的生物信息技術(shù)和方法,主要包括:(1)蛋白質(zhì)和核酸序列相似性比對(duì);(2)蛋白質(zhì)序列數(shù)據(jù)庫(kù)UniProt和核酸序列數(shù)據(jù)庫(kù)RefSeq高級(jí)檢索;(3)NCBI數(shù)據(jù)庫(kù)相似性搜索工具Blast的應(yīng)用;(4)利用MEGA軟件構(gòu)建分子系統(tǒng)發(fā)生樹(shù);(5)利用Swiss-PdbViewer軟件顯示、比較和分析蛋白質(zhì)三維空間結(jié)構(gòu)。

      本文以人、小鼠、大鼠、斑頭雁、灰雁幾個(gè)不同物種的血紅蛋白序列和結(jié)構(gòu)為例,介紹這些常用生物信息技術(shù)和方法的具體應(yīng)用。學(xué)生通過(guò)這些實(shí)例,能夠初步掌握這些方法的具體應(yīng)用,并能舉一反三,將這些方法用于自己的課題研究,學(xué)會(huì)如何利用豐富的網(wǎng)絡(luò)生物信息資源和分析工具解決自己正在進(jìn)行或即將開(kāi)始的研究課題中的實(shí)際問(wèn)題。

      1 序列比對(duì)

      1.1 研究背景

      血紅蛋白是人體血液中重要蛋白質(zhì)分子,其主要生物學(xué)功能為運(yùn)送氧氣。血紅蛋白分子為異源四聚體,可結(jié)合4個(gè)鐵卟啉色素分子。成人血紅蛋白分子由兩個(gè)α-亞基和兩個(gè)β-亞基組成。人類(lèi)基因組中編碼α-亞基的血紅蛋白基因有兩個(gè),位于16號(hào)染色體短臂的α-珠蛋白基因簇中,其編碼區(qū)核苷酸序列相同,所編碼的蛋白質(zhì)序列自然也相同,各含142個(gè)氨基酸殘基。與人一樣,小鼠和大鼠的血紅蛋白也是四聚體,α-亞基也由142個(gè)氨基酸組成。小鼠和大鼠同屬嚙齒類(lèi)動(dòng)物,其共同祖先距今約2 500萬(wàn)年。而人屬于靈長(zhǎng)類(lèi)動(dòng)物,與嚙齒類(lèi)分歧時(shí)間約為9 500萬(wàn)年。對(duì)這3個(gè)物種α-血紅蛋白氨基酸序列及其編碼基因的核苷酸序列進(jìn)行比對(duì),可探索血紅蛋白分子及其編碼基因演化的特點(diǎn)。

      1.2 比對(duì)方法和結(jié)果

      從國(guó)際蛋白質(zhì)序列數(shù)據(jù)庫(kù)UniProt中分別提取人和小鼠α-血紅蛋白的FastA格式序列,其序列條目名稱(chēng)分別為HBA_HUMAN(人)、HBA_MOUSE(小鼠)。序列比對(duì)的軟件很多,北京大學(xué)生物信息中心開(kāi)發(fā)的綜合序列分析平臺(tái)WebLab(http://weblab.cbi.pku.edu.cn/)包括200多個(gè)程序[2]。利用WebLab中基于Needleman-Wunsch全局序列比對(duì)算法的程序Needle,采用默認(rèn)蛋白質(zhì)計(jì)分矩陣BLOSUM62和默認(rèn)空位罰分值(起始空位罰分10.0,延伸空位罰分0.5),比對(duì)結(jié)果如圖1所示。

      圖1 人和小鼠血紅蛋白α-亞基氨基酸序列比對(duì)輸出結(jié)果

      圖1中上方為統(tǒng)計(jì)值,包括序列長(zhǎng)度(LENGTH)、比對(duì)分值(SCORE)、相同位點(diǎn)(IDENTITY)、相似位點(diǎn)(SIMILARITY)和空位數(shù)(GAPS)。下方為兩條序列的具體比對(duì)結(jié)果,“|”表示相同位點(diǎn)、“:”表示相似位點(diǎn),“.”表示不同位點(diǎn)。所謂相似位點(diǎn),是指該位點(diǎn)的兩個(gè)氨基酸理化性質(zhì)較接近,如蘇氨酸“T”和絲氨酸“S”、纈氨酸“V”和異亮氨酸“I”等。

      按上述方法,分別對(duì)人/小鼠、人/大鼠、小鼠/大鼠3個(gè)物種α-血紅蛋白進(jìn)行序列比對(duì),結(jié)果如表1所示。

      表1 人、小鼠、大鼠血紅蛋白α-亞基氨基酸序列比對(duì)結(jié)果

      從NCBI參考序列數(shù)據(jù)庫(kù)中提取這3個(gè)物種α-血紅蛋白基因編碼區(qū)序列,用WebLab中的Needle程序進(jìn)行序列比對(duì),注意選擇核苷酸替換矩陣EDNAFULL,將起始空位罰分改為20.0,延伸空位罰分改為2.0,比對(duì)結(jié)果如表2所示。

      1.3 結(jié)果分析

      表1為3個(gè)物種血紅蛋白α-亞基氨基酸序列比對(duì)結(jié)果。出乎意料的是,人和小鼠α-血紅蛋白共有122個(gè)相同位點(diǎn),占全長(zhǎng)142個(gè)位點(diǎn)的85.9%;而小鼠與大鼠之間的相同位點(diǎn)數(shù)為120個(gè),占全長(zhǎng)84.5%。換句話說(shuō),同為嚙齒類(lèi)的小鼠和大鼠,血紅蛋白序列相似性低于嚙齒類(lèi)和靈長(zhǎng)類(lèi)。之所以出現(xiàn)這一結(jié)果,原因有許多,其中最主要的是密碼子簡(jiǎn)并性,即同一氨基酸在不同物種或不同基因中可能由不同密碼子編碼,蛋白質(zhì)序列相似性高低可能與其編碼核苷酸的相似性高低并不一致。這3個(gè)物種血紅蛋白編碼基因的編碼區(qū)核苷酸序列比對(duì)結(jié)果(表2)顯示,小鼠和大鼠之間的序列相似性為89.3%,高于小鼠和人之間的序列相似性81.6%。

      2 數(shù)據(jù)庫(kù)高級(jí)檢索

      2.1 研究背景

      研究表明,有些基因在一個(gè)物種中只有一個(gè)拷貝,稱(chēng)單拷貝基因,而真核生物基因組中大部分基因按基因家族形式存在,有多個(gè)拷貝,它們或者分布在同一染色體上相鄰區(qū)域,或者分散在整個(gè)基因組不同染色體上?;蚣易宓漠a(chǎn)生包括全基因組水平重復(fù)和染色體片段重復(fù)等多種機(jī)制,是生物演化重要途徑。同一家族的基因往往具有相似生物學(xué)功能,通過(guò)復(fù)雜的調(diào)控機(jī)制,在不同組織、不同環(huán)境或不同發(fā)育階段表達(dá)。例如,無(wú)脊椎動(dòng)物的血紅蛋白由一個(gè)基因編碼,而脊椎動(dòng)物的血紅蛋白則由多個(gè)基因編碼。以人血紅蛋白基因家族為例,分為α-珠蛋白(α-globin)和β-珠蛋白(β-globin)兩個(gè)基因簇,如圖2所示。圖2上方為α-珠蛋白基因簇,位于16號(hào)染色體短臂正鏈150-180 kb區(qū)段,全長(zhǎng)約30 kb,按5'-3'順序依次為ζ、μ、α2、α1和θ-珠蛋白基因。下方為β-珠蛋白基因簇,位于11號(hào)染色體短臂互補(bǔ)鏈5.22-5.27 Mb區(qū)段,全長(zhǎng)約50 kb,依次為ε、γ2、γ1、δ和β-珠蛋白基因。此外,α-珠蛋白基因簇上有兩個(gè)假基因Ψζ和Ψα;β-珠蛋白基因簇上有1個(gè)假基因Ψβ。這10個(gè)珠蛋白基因在不同發(fā)育階段表達(dá),θ、μ、β和δ在成人血紅細(xì)胞中表達(dá),γ1和γ2在胎兒血紅細(xì)胞中表達(dá),ζ和ε在胚胎血紅細(xì)胞中表達(dá),而α1和α2在成人和胎兒血紅細(xì)胞中均表達(dá)。

      表2 人、小鼠、大鼠α-珠蛋白編碼區(qū)核苷酸序列比對(duì)結(jié)果

      圖2 人α-珠蛋白和β-珠蛋白基因家族染色體定位

      2.2 檢索方法

      上述α和β-珠蛋白基因編碼的血紅蛋白氨基酸序列,均存放在國(guó)際蛋白質(zhì)序列數(shù)據(jù)庫(kù)UniProt中。利用該數(shù)據(jù)庫(kù)提供的高級(jí)檢索功能,可以快速有效地檢索到這些蛋白質(zhì)序列條目。具體檢索步驟如下:

      (1)點(diǎn)擊UniProt數(shù)據(jù)庫(kù)主頁(yè)上方檢索框右側(cè)Advanced下拉式菜單,打開(kāi)彈出式高級(jí)檢索子窗口(圖3-A)。

      (2)點(diǎn)擊高級(jí)檢索窗口最上方下拉式選擇菜單中的All,選擇Protein Name[DE] ,在其右側(cè)的文本輸入框中輸入血紅蛋白的英文Hemoglobin。

      (3)點(diǎn)擊第2個(gè)下拉式選擇菜單中的All,選擇基因名Gene Name[GN] ,在其右側(cè)的文本輸入框中輸入血紅蛋白的基因名縮寫(xiě)hb(不分大小寫(xiě)),并在后加通配符星號(hào),即hb*。

      (4)點(diǎn)擊該選擇菜單輸入框右側(cè)增加選擇項(xiàng)符號(hào)“+”,彈出第3個(gè)選擇菜單(圖3-B)。

      (5)點(diǎn)擊第3個(gè)選擇菜單中的All,選擇物種名Organism[OS] ,在其右側(cè)輸入Human,系統(tǒng)列出該數(shù)據(jù)庫(kù)中與輸入文本Human相關(guān)的所有物種,選擇Human[9606] 。9606為人在NCBI分類(lèi)學(xué)數(shù)據(jù)庫(kù)中的登錄號(hào)。

      (6)點(diǎn)擊檢索窗口右下側(cè)檢索按鈕(圖標(biāo)為放大鏡),提交檢索策略,頁(yè)面顯示UniProt數(shù)據(jù)庫(kù)中收錄的所有人血紅蛋白序列條目。

      (7)點(diǎn)擊頁(yè)面左側(cè)Reviewed圖標(biāo),頁(yè)面顯示檢索結(jié)果(圖3-C)。

      圖3 利用UniProt高級(jí)檢索界面檢索人血紅蛋白9個(gè)序列條目

      2.3 檢索結(jié)果

      檢索結(jié)果中列出已經(jīng)通過(guò)人工審閱的9個(gè)人血紅蛋白序列條目。UniProt數(shù)據(jù)庫(kù)包括Swiss-Prot和TrEMBL兩個(gè)子庫(kù),其中Swiss-Prot中的序列條目均已經(jīng)通過(guò)人工審閱,而TrEMBL中的序列條目則是利用計(jì)算機(jī)對(duì)核酸序列數(shù)據(jù)庫(kù)EMBL中的蛋白質(zhì)編碼序列翻譯得到的,未經(jīng)人工審閱。截止2015年3月,Swiss-Prot子庫(kù)中的數(shù)據(jù)條目總數(shù)為547 599條,而TrEMBL子庫(kù)中的數(shù)據(jù)條目總數(shù)為90 860 905條。顯然,這兩個(gè)子庫(kù)的數(shù)據(jù)量差別極大。點(diǎn)擊UniProt網(wǎng)站主頁(yè)面下方UniProt data欄目下的Statistics圖標(biāo),可以找到這兩個(gè)子庫(kù)的統(tǒng)計(jì)資料文檔UniProt/Swiss-Prot statistics和UniProt/TrEMBL statistics,文檔中有許多圖表,詳細(xì)敘述這兩個(gè)子庫(kù)的基本情況。

      3 數(shù)據(jù)庫(kù)序列相似性搜索

      3.1 研究背景

      利用上述蛋白質(zhì)序列數(shù)據(jù)庫(kù)高級(jí)檢索方法,可以快速高效地找到人血紅蛋白基因家族9個(gè)成員所編碼的蛋白質(zhì)序列。近年來(lái)發(fā)現(xiàn),除了運(yùn)送氧氣的血紅蛋白和儲(chǔ)存氧氣的肌紅蛋白外,人體中還有另外兩種珠蛋白分子,一種為細(xì)胞紅蛋白,或簡(jiǎn)稱(chēng)胞紅蛋白(Cytoglobin),普遍存在于各種組織,可能具有氧儲(chǔ)存、氧感受、一氧化氮運(yùn)輸、抗自由基等多種功能。另一種為神經(jīng)紅蛋白(Neuroglobin),多見(jiàn)于腦組織,因此也稱(chēng)腦紅蛋白。胞紅蛋白基因位于17號(hào)染色體長(zhǎng)臂25區(qū)(17q25),編碼190個(gè)氨基酸殘基;腦紅蛋白基因位于14號(hào)染色體長(zhǎng)臂24區(qū)(14q24),編碼151個(gè)氨基酸殘基。X衍射晶體結(jié)構(gòu)研究證明,這兩種蛋白質(zhì)分子的三維空間結(jié)構(gòu)與血紅蛋白、肌紅蛋白具有相同折疊模式,同屬珠蛋白家族(Globin family)。序列比對(duì)發(fā)現(xiàn),兩者與血紅蛋白序列相似性均很低。胞紅蛋白與血紅蛋白α-亞基的相同位點(diǎn)共42個(gè),約占22%;腦胞紅蛋白與血紅蛋白α-亞基的相同位點(diǎn)僅31個(gè),不到20%。

      3.2 搜索方法

      利用BLAST數(shù)據(jù)庫(kù)相似性搜索,可以通過(guò)局部序列比對(duì)方法,從數(shù)據(jù)庫(kù)中找到相似性較高的序列或序列片段。例如,以人血紅蛋白α-亞基HBA_HUMAN為檢測(cè)序列,可以從Swiss-Prot數(shù)據(jù)庫(kù)中搜索到與其相似性較高的其它物種血紅蛋白α-亞基序列。而對(duì)于腦紅蛋白這樣相似性很低的序列,則需要通過(guò)選擇搜索程序、確定搜索數(shù)據(jù)庫(kù)、限制搜索物種、設(shè)置適當(dāng)?shù)乃阉鲄?shù),才能搜索到。具體步驟如下:

      (1)打開(kāi)NCBI BLAST服務(wù)器主頁(yè)面,在常用BLAST選擇區(qū)(Basic BLAST)中選擇蛋白質(zhì)BLAST(protein blast),將人血紅蛋白α-亞基HBA_HUMAN序列粘貼到檢測(cè)序列輸入框。

      (2)在數(shù)據(jù)庫(kù)選擇框(Database)中選擇Swissprot protein sequence(swissprot),在物種選擇框(Organism)中輸入Human。

      (3)在程序選擇區(qū)選擇位點(diǎn)特異迭代型BLAST(Position-specific Iterated BLAST),即PSI-BLAST。

      (4)打開(kāi)參數(shù)選擇(Algorithm parameters)窗口,將錯(cuò)誤率(Expected threshold)由缺省值10調(diào)為0.001。

      (5)點(diǎn)擊運(yùn)行BLAST按鈕遞交作業(yè),搜索結(jié)果得到11個(gè)珠蛋白分子。

      (6)點(diǎn)擊“運(yùn)行第2次PSI-Blast”(Run PSIBlast iteration 2 with max 50)按鈕(Go),新一輪搜索結(jié)果中包括腦紅蛋白(Neuroglobin,Siwss-Prot數(shù)據(jù)庫(kù)登錄號(hào)Q9NPG2.1)。

      3.3 搜索結(jié)果

      搜索結(jié)果(圖4)顯示,人12個(gè)珠蛋白均在搜索結(jié)果中,而與珠蛋白無(wú)關(guān)的其它序列則沒(méi)有列在搜索結(jié)果中。也就是說(shuō),搜索結(jié)果既無(wú)假陽(yáng)性(False positive)結(jié)果,也無(wú)假陰性(False negative)結(jié)果。

      上述搜索過(guò)程說(shuō)明,BLAST是一個(gè)功能強(qiáng)大的序列相似性數(shù)據(jù)庫(kù)搜索系統(tǒng)。但要用好BLAST,必須對(duì)其基本算法有所了解,例如位置特異性迭代BLAST的原理、計(jì)分矩陣、錯(cuò)誤率E值的選取等。

      圖4 利用BLAST從Swiss-Prot數(shù)據(jù)庫(kù)中搜索12個(gè)珠蛋白

      4 系統(tǒng)發(fā)生樹(shù)構(gòu)建

      4.1 研究背景

      研究表明,人、小鼠和大鼠3種哺乳動(dòng)物中,均有血紅蛋白、肌紅蛋白、胞紅蛋白和腦紅蛋白4類(lèi)珠蛋白基因家族成員,其中肌紅蛋白、胞紅蛋白和腦紅蛋白在這3個(gè)物種基因組中均為單拷貝基因,而血紅蛋白α和β-兩個(gè)亞家族均包含多個(gè)拷貝,在3個(gè)物種基因組中的數(shù)目、分布也不相同。美國(guó)賓夕法尼亞州立大學(xué)從事血紅蛋白研究多年的哈迪森教授2012年發(fā)表的“血紅蛋白及其基因的演化”綜述中,對(duì)人和其它脊椎動(dòng)物的血紅蛋白起源、演化、表達(dá)和功能做了詳細(xì)介紹[3]。圖5 是根據(jù)該論文中的插圖改編的人、小鼠、大鼠3個(gè)物種基因組中α-和β-珠蛋白基因家族成員名稱(chēng)和在染色體上的排列次序。

      上述3個(gè)物種中,人類(lèi)基因組的血紅蛋白基因家族研究得比較清楚,而小鼠和大鼠血紅蛋白的基因家族的大部分成員是根據(jù)基因組、轉(zhuǎn)錄組序列預(yù)測(cè)所得,尚無(wú)實(shí)驗(yàn)證據(jù)。表3列出這3個(gè)物種中已經(jīng)確定的37個(gè)成員。

      圖5 人、小鼠、大鼠α-珠蛋白和β-珠蛋白基因家族

      需要說(shuō)明的是,小鼠腦紅蛋白基因有兩個(gè)剪接變體,RefSeq參考序列數(shù)據(jù)庫(kù)中mRNA序列登錄號(hào)為NM_022414和NM_001294308。NM_022414編碼區(qū)長(zhǎng)度453 bp,編碼151個(gè)氨基酸;NM_001294308編碼區(qū)長(zhǎng)度465 bp,編碼155個(gè)氨基酸。表中只列出其中一個(gè)NM_022414。小鼠β-珠蛋白家族成員MmHbb-b1和MmHbb-b2為單倍體型C57BL/-株系基因組中測(cè)得的序列,RefSeq參考序列數(shù)據(jù)庫(kù)中mRNA序列登錄號(hào)為NM_001278161和NM_016956。小鼠基因組計(jì)劃測(cè)序樣本所用的為融合體BALB/c和129Sv株系。小鼠基因組信息系統(tǒng)(MGI)中所列小鼠β-珠蛋白家族成員基因名為MmHbb-bs和MmHbb-bt,RefSeq mRAN登錄號(hào)為NM_001201391和NM_008220,表中未予列出。

      此外,大鼠基因組中α-珠蛋白家族共有7個(gè)成員[3],位于10號(hào)染色體15.468-15.508 Mb區(qū)段,長(zhǎng)度約為40 kb;表8中只收錄已有轉(zhuǎn)錄數(shù)據(jù)的3個(gè),即RnHbz(NM_013096)、RnHba1(NM_013096)和RnHba2(NM_001007722)。另4個(gè)尚無(wú)確切證據(jù),也無(wú)確定的基因名,未在表中列出。這4個(gè)基因中,一個(gè)為α-珠蛋白,RefSeq數(shù)據(jù)庫(kù)中mRNA序列登錄號(hào)為 NM_001013853,大鼠基因組數(shù)據(jù)庫(kù)RGD中暫定基因名為L(zhǎng)OC287167;其它3個(gè)為θ-珠蛋白,尚無(wú)實(shí)驗(yàn)證據(jù)。大鼠基因組中,β-珠蛋白共有9個(gè)成員,位于1號(hào)染色體175.095-175.170 Mb區(qū)段,約75 kb(圖6),其中1個(gè)為假基因,4個(gè)為串聯(lián)重復(fù)排列的α-珠蛋白,推測(cè)由近期發(fā)生的基因倍增機(jī)制產(chǎn)生。

      4.2 建樹(shù)方法

      利用上述3個(gè)物種基因組中的血紅蛋白及同一家族的肌紅蛋白、胞紅蛋白和腦紅蛋白序列信息,可以構(gòu)建分子系統(tǒng)發(fā)生樹(shù)。系統(tǒng)發(fā)生樹(shù)是以樹(shù)狀圖表示不同物種之間系統(tǒng)發(fā)生關(guān)系的常用方法。達(dá)爾文“物種起源”一書(shū)中唯一的一幅插圖,就是用樹(shù)的形式表示物種多樣性及其起源和演化。因此,系統(tǒng)發(fā)生樹(shù),有時(shí)也稱(chēng)“進(jìn)化樹(shù)”或“演化樹(shù)”。其實(shí),系統(tǒng)發(fā)生樹(shù)不僅可以用來(lái)表示不同物種之間的親緣關(guān)系和演化途徑,也可以用來(lái)表示同一物種內(nèi)部某個(gè)基因家族的不同成員之間的關(guān)系及演化。

      利用MEGA軟件包[4],可以構(gòu)建人的珠蛋白基因家族12個(gè)成員系統(tǒng)發(fā)生樹(shù),所用序列為蛋白質(zhì)序列,用全局比對(duì)程序ClustalW進(jìn)行多序列比對(duì),用GONNET蛋白質(zhì)計(jì)分矩陣,空位罰分和其它參數(shù)均采用默認(rèn)值。用鄰接法(Neighbor-Joining)建樹(shù),采用差異位點(diǎn)比例(p-distance)為距離模型,選擇自舉法(Bootstrap)100次作為穩(wěn)定性檢驗(yàn)。

      利用MEGA軟件包中的鄰接法(Neighbor-Joining)方法構(gòu)建人、小鼠、大鼠3個(gè)物種珠蛋白基因家族37個(gè)成員系統(tǒng)發(fā)生樹(shù)(圖8),所用序列為編碼區(qū)核苷酸質(zhì)序列。序列比對(duì)采用ClustalW Codon,即基于密碼子的序列比對(duì),比對(duì)過(guò)程中密碼子3個(gè)核苷酸不打斷,雙序列和多序列比對(duì)的起始空位罰分均調(diào)為20,延伸空位罰分均調(diào)為2.0,以減少不必要的空位插入。建樹(shù)過(guò)程中采用差異位點(diǎn)比例(p-distance)為序列差異模型,用轉(zhuǎn)換加顛換(transition + transversion)為核苷酸替換模型,選擇自舉法(Bootstrap)100次作為穩(wěn)定性檢驗(yàn)。

      4.3 結(jié)果分析

      圖7所示的系統(tǒng)發(fā)生樹(shù)為基因樹(shù)。結(jié)果表明,人的12個(gè)珠蛋白基因可以分為5個(gè)分支,其中α-珠蛋白亞家族包括4個(gè)成員,β-珠蛋白亞家族包括5個(gè)成員,而肌紅蛋白、胞紅蛋白和腦紅蛋白各有1個(gè)成員。α-珠蛋白和β-珠蛋白有共同祖先,而肌紅蛋白和胞紅蛋白有共同祖先。α-珠蛋白亞家族4個(gè)成員中,α-珠蛋白和θ-珠蛋白之間的距離較近,而β-珠蛋白亞家族5個(gè)亞家族中,γ1-珠蛋白和γ2-珠蛋白的距離最近,其次為α-珠蛋白和δ-珠蛋白。

      表3 人、小鼠、大鼠3個(gè)物種珠蛋白家族基因信息

      圖8所示的系統(tǒng)發(fā)生樹(shù)包括3個(gè)物種,每個(gè)物種均有多個(gè)基因,共37個(gè)基因。結(jié)果表明,37個(gè)基因總體可以分為5個(gè)分支,即α-珠蛋白、β-珠蛋白、肌紅蛋白、胞紅蛋白和腦紅蛋白。3個(gè)物種的肌紅蛋白、胞紅蛋白和腦紅蛋白各聚為一支;3個(gè)物種所有α-珠蛋白聚在一起,所有β-珠蛋白聚在一起。這一結(jié)果說(shuō)明,這5類(lèi)基因在3個(gè)物種形成以前就已經(jīng)出現(xiàn),即“先有基因、后有物種”。α-珠蛋白分為3支,第一支為ζ-珠蛋白,3個(gè)物種各有一個(gè)成員,即人的HsHBZ、小鼠的MmHba-x和大鼠的RnHbz;第二支又分兩支,一支為α-珠蛋白,另一支為θ-珠蛋白。3個(gè)物種的α-珠蛋白各有兩個(gè)成員,如人的HsHBA1和HsHBA2,θ-珠蛋白各有1個(gè)成員。可以推斷,α-珠蛋白的兩個(gè)成員是在靈長(zhǎng)類(lèi)和嚙齒類(lèi)分化以后通過(guò)基因倍增機(jī)制產(chǎn)生的,即“先有物種、后有基因”。β-珠蛋白基因簇在這3個(gè)物種的起源和演化留給讀者自行分析。

      圖6 大鼠基因組數(shù)據(jù)庫(kù)RGD中α-珠蛋白(A)和β-珠蛋白(B)基因家族信息

      圖7 人珠蛋白家族12個(gè)蛋白質(zhì)序列系統(tǒng)發(fā)生樹(shù)

      5 蛋白質(zhì)結(jié)構(gòu)比較和分析

      5.1 研究背景

      基于蛋白質(zhì)和核酸序列,我們已對(duì)人、小鼠和大鼠3個(gè)物種的血紅蛋白進(jìn)行了比較分析。下面,我們以斑頭雁和灰雁為例,利用生物信息方法和結(jié)構(gòu)分析軟件,對(duì)血紅蛋白的序列、結(jié)構(gòu)和功能關(guān)系進(jìn)行分析。

      斑頭雁在分類(lèi)學(xué)上為鳥(niǎo)綱(Aves)、雁形目(Anseriformes)、鴨科(Anatidae)、雁屬(Anser),拉丁文學(xué)名分別為Anser indicus,英文名為Barheaded goose。斑頭雁為典型的候鳥(niǎo),夏季生活在我國(guó)西部青海湖,每年9月初往南遷徙,經(jīng)過(guò)近兩個(gè)月的長(zhǎng)途跋涉,飛躍喜馬拉雅山,大約10月中下旬飛抵印度平原過(guò)冬。每年春季開(kāi)始又往北遷徙,飛回青海湖,周而復(fù)始,年年如此?;已悖ㄓ⑽拿麨镚rayleg goose,美國(guó)英語(yǔ)多用Greyleg goose)的拉丁文學(xué)名分別為Anser anser,與斑頭雁同為鴨科、雁屬,主要生活在印度平原[5]。我們知道,地球表面氧分壓隨海拔增高而降低,斑頭雁飛躍的喜馬拉雅山巔,氧分壓不到平原地區(qū)的一半。斑頭雁這種高空長(zhǎng)度遷徙的能力,是否與其血紅蛋白分子的特征有關(guān),是一個(gè)值得研究的有趣問(wèn)題。

      圖8 人、小鼠、大鼠3個(gè)物種珠蛋白家族系統(tǒng)發(fā)生樹(shù)

      1983年,英國(guó)劍橋分子醫(yī)學(xué)研究實(shí)驗(yàn)室已故著名血紅蛋白研究專(zhuān)家佩魯茨(Max Perutz)在分子生物學(xué)和演化雜志(Molecular Biology and Evolution)創(chuàng)刊號(hào)上發(fā)表的題為“從蛋白質(zhì)分子看物種的適應(yīng)性”綜述中指出,斑頭雁和灰雁的血紅蛋白氨基酸序列僅有4個(gè)位點(diǎn)差異,其中α-亞基的119位比較特殊[6]。斑頭雁α-亞基該位點(diǎn)位序氨酸(A119Ala),而灰雁該位點(diǎn)為脯氨酸(A119Pro)。蛋白質(zhì)三維空間結(jié)構(gòu)分析表明,該位點(diǎn)與β-亞基第55位的亮氨酸(B55Leu)空間距離較近。我們知道,成熟的血紅蛋白為四聚體,由兩個(gè)α-亞基和兩個(gè)β-亞基組成,各含一個(gè)血色素卟啉環(huán),環(huán)中央的五價(jià)鐵離子用于結(jié)合氧氣。結(jié)合氧氣和釋放氧氣過(guò)程中,血紅蛋白四個(gè)亞基構(gòu)象發(fā)生變化,并通過(guò)協(xié)同作用,提高結(jié)合氧氣的效率。佩魯茨指出,斑頭雁α-亞基119位的丙氨酸側(cè)鏈僅有一個(gè)甲基,與β-亞基55位亮氨酸側(cè)鏈距離較遠(yuǎn),有利于構(gòu)象變化;而灰雁該位點(diǎn)側(cè)鏈脯氨酸有3個(gè)甲基,與β-亞基55位亮氨酸側(cè)鏈距離較近,不利于構(gòu)象變化。這兩種鳥(niǎo)類(lèi)血紅蛋白序列結(jié)構(gòu)的差異,可能與其結(jié)合氧氣的能力有關(guān)。20世紀(jì)90年代,北京大學(xué)生物系蛋白質(zhì)結(jié)構(gòu)功能研究組,用蛋白質(zhì)分子晶體X-衍射的方法,分別測(cè)定了斑頭雁和灰雁血紅蛋白的結(jié)構(gòu),并進(jìn)行了比較分析,證實(shí)了當(dāng)年佩魯茨的推測(cè)[7]。

      5.2 研究方法

      利用蛋白質(zhì)結(jié)構(gòu)顯示和模擬軟件Swiss-PdbViewer[8],我們可以對(duì)已經(jīng)測(cè)定的斑頭雁和灰雁氧合血紅蛋白的空間結(jié)構(gòu)進(jìn)行比較分析。具體操作步驟大體如下:

      從蛋白質(zhì)結(jié)構(gòu)數(shù)據(jù)庫(kù)PDB(http://www.rcsb.org/)下載斑頭雁和灰雁氧合血紅蛋白三維空間結(jié)構(gòu)數(shù)據(jù)文件1A4F.pdb和1FAW.pdb。

      (1)在Swiss-PdbViewer中打開(kāi)灰雁血紅蛋白數(shù)據(jù)文件1FAW.pdb,選擇其中A和B兩條鏈(即α和β-兩個(gè)亞基),保存為新文件1FAWab.pdb。

      (2)打開(kāi)新保存的文件1FAWab.pdb,選擇只顯示主鏈模式;打開(kāi)斑頭雁血紅蛋白數(shù)據(jù)文件1A4F.pdb,也選擇只顯示主鏈模式。

      (3)利用該軟件包中的結(jié)構(gòu)疊合工具M(jìn)agic Fit,可以發(fā)現(xiàn),這兩個(gè)蛋白質(zhì)分子的結(jié)構(gòu)總體十分相似。

      (4)在控制面板中找到斑頭雁α-亞基119位的丙氨酸和β-亞基55位亮氨酸,顯示它們的側(cè)鏈原子,測(cè)量它們之間的距離。

      (5)在控制面板中找到灰雁α-亞基119位的脯氨酸和β-亞基55位亮氨酸,顯示它們的側(cè)鏈原子,測(cè)量它們之間的距離。

      5.3 結(jié)果分析

      上述斑頭雁和灰雁血紅蛋白三維結(jié)構(gòu)的比較分析表明,斑頭雁氧合血紅蛋白1A4F α-亞基119位丙氨酸側(cè)鏈的β碳原子(CB)與β-亞基55位亮氨酸側(cè)鏈末端的兩個(gè)δ碳原子(CD1和CD2)距離均在4 ?以上,最近距離為4.56 ?;而灰雁該位點(diǎn)側(cè)鏈脯氨酸γ碳原子與β-亞基55位亮氨酸側(cè)鏈末端的一個(gè)碳原子距離為3.79 ?。這一差別很可能影響血紅蛋在結(jié)合和釋放氧氣過(guò)程中構(gòu)象發(fā)生變化,從而影響其結(jié)合氧氣能力,造成這兩種鳥(niǎo)類(lèi)不同的生活習(xí)性。

      圖9 斑頭雁(A)和灰雁(B)血紅蛋白結(jié)構(gòu)比較

      圖9為利用PyMol分子結(jié)構(gòu)顯示軟件繪制的分析結(jié)果。與Swiss-Pdbviewer相比,其圖形顯示和輸出功能更強(qiáng)。

      6 結(jié)語(yǔ)

      以上我們以血紅蛋白序列和結(jié)構(gòu)為例,介紹“實(shí)用生物信息技術(shù)”課程教學(xué)種用到的幾種生物信息方法。希望選修本課程的學(xué)生對(duì)本課程的教學(xué)有所了解,也希望對(duì)自學(xué)生物信息技術(shù)及其應(yīng)用的讀者有所啟發(fā)。關(guān)于本課程的詳細(xì)介紹和具體內(nèi)容,讀者可瀏覽本課程專(zhuān)用教學(xué)網(wǎng)站(http://abc.cbi.pku.edu.cn/),參閱筆者生物信息學(xué)簡(jiǎn)報(bào)(Briefings in Bioinformatics)相關(guān)文章[1]。

      [1] Luo J. Teaching the ABCs of bioinformatics:a brief introduction to the Applied Bioinformatics Course[J] . Brief Bioinform, 2014,15:1004-1013.

      [2] Liu X, Wu J, Wang J, et al. WebLab:a data-centric, knowledgesharing bioinformatic platform[J] . Nucleic Acids Res, 2009, 37:W33-39.

      [3] Hardison RC. Evolution of hemoglobin and its genes[J] . Cold Spring Harb Perspect Med, 2012, 2:a011627.

      [4] Tamura K, Stecher G, Peterson D, et al. MEGA6:Molecular Evolutionary Genetics Analysis version 6. 0[J] . Mol Biol Evol,2013, 30:2725-2729.

      [5] Jessen TH, Weber RE, Fermi G, et al. Adaptation of bird hemoglobins to high altitudes:demonstration of molecular mechanism by protein engineering[J] . Proc Natl Acad Sci USA, 1991, 88:6519-6522.

      [6] Perutz MF. Species adaptation in a protein molecule[J] . Mol Biol Evol, 1983, 1:1-28.

      [7] Zhang J, Hua Z, Tame JR, et al. The crystal structure of a high oxygen affinity species of haemoglobin[J] . J Mol Biol, 1996,255:484-493.

      [8] Guex N, Peitsch MC, Schwede T. Automated comparative protein structure modeling with SWISS-MODEL and Swiss-PdbViewer:a historical perspective[J] . Electrophoresis, 2009, 30:S162-173.

      猜你喜歡
      珠蛋白亞基位點(diǎn)
      鎳基單晶高溫合金多組元置換的第一性原理研究
      上海金屬(2021年6期)2021-12-02 10:47:20
      16 249例川東北地區(qū)珠蛋白生成障礙性貧血基因檢測(cè)結(jié)果分析*
      CLOCK基因rs4580704多態(tài)性位點(diǎn)與2型糖尿病和睡眠質(zhì)量的相關(guān)性
      心臟鈉通道β2亞基轉(zhuǎn)運(yùn)和功能分析
      二項(xiàng)式通項(xiàng)公式在遺傳學(xué)計(jì)算中的運(yùn)用*
      胰島素通過(guò)mTORC2/SGK1途徑上調(diào)肺泡上皮鈉通道α亞基的作用機(jī)制
      深圳地區(qū)兩種類(lèi)型的珠蛋白生成障礙性貧血的基因型及表型研究
      早發(fā)冠心病觸珠蛋白水平及其在免疫調(diào)節(jié)中的作用研究
      中國(guó)罕見(jiàn)的移碼突變型β珠蛋白生成障礙性貧血家系調(diào)查
      含內(nèi)含子的核糖體蛋白基因轉(zhuǎn)錄起始位點(diǎn)情況分析
      中江县| 灵石县| 崇明县| 海宁市| 华池县| 靖西县| 莒南县| 三台县| 绥棱县| 禹城市| 夹江县| 鹤庆县| 比如县| 北海市| 永仁县| 满城县| 丘北县| 怀化市| 高青县| 廊坊市| 拉萨市| 砚山县| 镶黄旗| 勃利县| 横山县| 民县| 阿克陶县| 成都市| 于都县| 绥德县| 嘉义市| 明水县| 奎屯市| 科尔| 剑阁县| 灯塔市| 吉安市| 阳曲县| 东辽县| 莒南县| 敦煌市|