黃 璐 文 李 許 宙 陳茂龍 程云輝
(長(zhǎng)沙理工大學(xué)化學(xué)與生物工程學(xué)院,湖南 長(zhǎng)沙 410114)
近年來生物活性肽因其強(qiáng)大的功能以及來源的可靠性等優(yōu)點(diǎn)成為保健品、藥品等高新科技產(chǎn)業(yè)的研究和開發(fā)熱點(diǎn)。基于酶法降解食物蛋白質(zhì)并結(jié)合分離純化技術(shù),從酶解混合物中獲得活性肽抑制被當(dāng)作篩選食源性活性肽的經(jīng)典方法,但因活性功能評(píng)價(jià)方法不一致及分離純化過程繁瑣而無法實(shí)現(xiàn)食源性活性肽的高效篩選。免疫活性肽(Immuno-peptides)能提高機(jī)體免疫力和抵擋外界病原體的感染能力、刺激淋巴細(xì)胞增殖、增強(qiáng)巨噬細(xì)胞吞噬能力,并具抗腫瘤等功能[1]。免疫活性肽進(jìn)入抗原提呈細(xì)胞(antigen presenting cells,APC)與主要組織相容性復(fù)合體(major histocompatibility complex,MHC)結(jié)合形成結(jié)合物,被抗原的T細(xì)胞受體(T cell receptor,TCR)識(shí)別后遞呈給CD4+ T細(xì)胞,啟動(dòng)CD4+ T細(xì)胞參與免疫應(yīng)答反應(yīng),如刺激淋巴細(xì)胞增殖、分化、成熟和增強(qiáng)巨噬細(xì)胞吞噬功能等[2]。免疫信息學(xué)是一門新興交叉學(xué)科,它建立在現(xiàn)代免疫學(xué)和信息學(xué)基礎(chǔ)上,運(yùn)用信息學(xué)的理論和方法解決免疫學(xué)及疫苗問題,同時(shí)也研究免疫系統(tǒng)調(diào)控和免疫應(yīng)答過程中信息傳遞規(guī)律[3]。免疫信息學(xué)主要研究免疫相關(guān)分子的結(jié)構(gòu)與功能,尤其致力于抗原受體、MHC分子以及細(xì)胞因子等方面[4]。為了找到更快捷篩選免疫活性多肽的方法,可結(jié)合免疫信息學(xué)工具分析免疫調(diào)節(jié)機(jī)制,由此省略傳統(tǒng)食源性活性肽分離純化的諸多步驟,減少活性肽篩選的盲目性,有效提高篩選效率,進(jìn)而推廣至其他食源性活性肽的高效篩選。
T細(xì)胞介導(dǎo)的免疫反應(yīng)由效應(yīng)T細(xì)胞激活。激活過程需要T受體細(xì)胞識(shí)別抗原多肽-MHC復(fù)合物。表位肽與MHC分子結(jié)合是細(xì)胞免疫的主要事件,精確預(yù)測(cè)多肽與MHC分子間的結(jié)合是免疫信息學(xué)的一項(xiàng)重要任務(wù)。因此鑒定MHC分子結(jié)合的肽序列在理解免疫及發(fā)展基于表位的疫苗研究中具有關(guān)鍵作用。
由于試驗(yàn)測(cè)定多肽與MHC分子的結(jié)合親和力耗時(shí)長(zhǎng)且費(fèi)用昂貴,在基因組水平鑒定宿主及病原體蛋白中的潛在結(jié)合多肽是一項(xiàng)比較艱巨的任務(wù)。因此,國(guó)內(nèi)外已在利用免疫信息學(xué)工具識(shí)別MHC結(jié)合多肽的理論計(jì)算方法上做了大量的工作[5-6]。本文綜述了活性肽與MHC結(jié)合能力預(yù)測(cè)的免疫信息學(xué)方法的最新進(jìn)展,介紹了常用的預(yù)測(cè)多肽與MHC分子結(jié)合的相關(guān)工具及方法,分析了各類方法的特點(diǎn)、研究重點(diǎn)和難點(diǎn),以期為尋找免疫活性肽提供更快捷的方法。
IMGT即國(guó)際免疫遺傳學(xué)信息系統(tǒng)(http://imgt.cines.fr),于1989年由Laboratoire在法國(guó)蒙彼利埃創(chuàng)立,目的在于管理復(fù)雜的免疫信息學(xué)數(shù)據(jù)并使其標(biāo)準(zhǔn)化。它是一種高質(zhì)量的整合信息資源,分別致力于以下三個(gè)方面數(shù)據(jù)的獲?。孩?免疫球蛋白(IG),T細(xì)胞受體(TR),人類和其他脊椎動(dòng)物的主要組織相容性復(fù)合體(MHC);② 屬于免疫球蛋白超家族和主要組織相容性復(fù)合體超家族(MhcSF)的蛋白質(zhì);③ 任何物種的與免疫系統(tǒng)相關(guān)的蛋白質(zhì)(RPI)。IMGT為獲取IG、TR、MHC、IgSF、MhcSF及RPI等基因組、蛋白質(zhì)組、遺傳學(xué)和三維結(jié)構(gòu)標(biāo)準(zhǔn)化數(shù)據(jù)提供了一個(gè)通用路徑[7-8]。IMGT信息系統(tǒng)由數(shù)據(jù)庫(kù)、工具和網(wǎng)上資源組成[5],它為基因組、序列和三維結(jié)構(gòu)分析提供了互動(dòng)式在線工具。因此也發(fā)展了3種主要的IMGT物理學(xué)方法:基因組學(xué)、遺傳學(xué)和結(jié)構(gòu)研究方法?;蚪M學(xué)方法是以基因?yàn)橹行?,?duì)基因定位及染色體定位的研究。遺傳學(xué)方法是對(duì)基因及其相關(guān)的序列多態(tài)性、突變、基因表達(dá)、特異性和進(jìn)化的研究。結(jié)構(gòu)方法指對(duì)IG、TR、MHC和RPI的二維及三維結(jié)構(gòu)以及與蛋白質(zhì)功能、多態(tài)性和進(jìn)化有關(guān)的抗原和配體結(jié)合特征的研究。IMGT為每一種方法提供了數(shù)據(jù)庫(kù),包括1個(gè)基因組數(shù)據(jù)庫(kù)IMGT/GENE-DB[9],3個(gè)序列數(shù)據(jù)庫(kù)IMGT/LIGM-DB、IMGT/MHC-DB和IMGT/PRIMER-DB[10-11]和1個(gè)三維結(jié)構(gòu)數(shù)據(jù)庫(kù)IMGT/3Dstructure-DB[12]。
IMGT/HLA數(shù)據(jù)庫(kù)是針對(duì)人類白細(xì)胞抗原系統(tǒng)(或人類主要組織相容性復(fù)合體MHC)等位基因序列的專業(yè)數(shù)據(jù)庫(kù)。超過4 Mb的復(fù)合體MHC位于人類染色體6的短臂6p21.3處,同時(shí)含有220多個(gè)基因[13]。HLA系統(tǒng)的核心包括21個(gè)高度多肽的HLA基因,這些基因影響到細(xì)胞和器官移植排斥反應(yīng)以及宿主針對(duì)傳染性疾病的免疫反應(yīng),同時(shí)與許多慢性非傳染性疾病的易感性密切相關(guān)[14-15]。IMGT/HLA數(shù)據(jù)庫(kù)中的所有序列也可以在更加綜合的核苷酸序列數(shù)據(jù)庫(kù)如EMBL[16]、GenBank[17]和DDBJ[18]中得到運(yùn)用。大型綜合序列數(shù)據(jù)庫(kù)的優(yōu)勢(shì)是可利用大量的序列,包括很大范圍的HLA相關(guān)數(shù)據(jù)。與其他HLA數(shù)據(jù)庫(kù)相比,IMGT/HLA數(shù)據(jù)庫(kù)可直接從萬維網(wǎng)進(jìn)入,同時(shí)該數(shù)據(jù)庫(kù)給使用者提供許多工具,如等位基因報(bào)告、序列排列工具和來源細(xì)胞的詳細(xì)數(shù)據(jù)庫(kù),使數(shù)據(jù)分析更方便[19]。以任何形式命名的HLA等位基因序列均可從等位基因查詢工具中獲得,如來源個(gè)體、種族起源、參考文獻(xiàn)、核苷酸和蛋白質(zhì)序列信息。序列排列工具格式與文本排列格式相同,該格式可進(jìn)入ANRI網(wǎng)(http://www.anthonynolan.org.uk/hig/)查詢。在使用排列工具時(shí),單個(gè)序列的排列無法進(jìn)行,但已排列過的序列可進(jìn)行,序列用完整的核苷酸序列、單個(gè)外顯子的部分序列或編碼蛋白的氨基酸序列表示。使用細(xì)胞查詢工具來查詢伴隨的細(xì)胞數(shù)據(jù)庫(kù),每個(gè)等位基因的來源和特征確定的原始淋巴細(xì)胞和細(xì)胞株的描述都能在該工具中被檢索。
SYFPEITHI是MHC配體及人、小鼠、大鼠、牛和雞等物種MHC分子肽基序的數(shù)據(jù)庫(kù)。該數(shù)據(jù)庫(kù)包含MHC-多肽基序、MHC配體和T細(xì)胞表位。T細(xì)胞表位的預(yù)測(cè)以序列庫(kù)中已出版的序列和對(duì)個(gè)體天然配體的分析為基礎(chǔ),尤其將錨著位點(diǎn)的氨基酸及其他常見氨基酸[20]考慮在內(nèi)。在二維空間的數(shù)據(jù)系列中,氨基酸的字母代表行數(shù),位點(diǎn)數(shù)字代表列數(shù)。任何進(jìn)入的序列均被劃分為8肽、9肽或10肽;緊接著對(duì)每一個(gè)氨基酸的低聚體進(jìn)行評(píng)分計(jì)算;該過程會(huì)一直持續(xù)到序列終點(diǎn)為止。根據(jù)T細(xì)胞表位在天然配體中的出現(xiàn)頻率,不同的氨基酸被評(píng)價(jià)為不同的分值。10分為頻繁出現(xiàn)在錨著位點(diǎn)的氨基酸,8分為出現(xiàn)在大量配體中的氨基酸,6分則為出現(xiàn)在輔助錨著位點(diǎn)的氨基酸。在輔助錨著位點(diǎn)低頻率出現(xiàn)的氨基酸則為4分;首位氨基酸擁有1~4分,這依賴于序列庫(kù)信號(hào)的長(zhǎng)度或個(gè)體序列的頻率。-1~3分為通常不出現(xiàn)在自然配體的各自序列位點(diǎn)的氨基酸。SYFPEITHI表位預(yù)測(cè)的結(jié)果來源于一系列被MHC分子高概率提呈的肽,預(yù)測(cè)結(jié)果可產(chǎn)生一張由可能的MHC分子組成的抗原清單。但由于肽降解及結(jié)合槽的可變性,MHCⅡ類分子限制性T細(xì)胞表位的預(yù)測(cè)更為復(fù)雜。
MHCBN數(shù)據(jù)庫(kù)(http://www.imtech.res.in/raghava/mhcbn)包括超過23 000個(gè)肽段與MHC或TAP(transporter associated with antigen processing)分子的親和力數(shù)據(jù),且這些親和力數(shù)據(jù)都已經(jīng)過實(shí)驗(yàn)驗(yàn)證。該數(shù)據(jù)庫(kù)對(duì)所有的肽段都提供了完整的信息,如序列、與MHC或TAP的結(jié)合、肽與MHC/TAP分子親和力的IC50值、T細(xì)胞活力和蛋白質(zhì)來源;并且還能提供關(guān)于錨著位點(diǎn)的信息(肽段的每個(gè)位置對(duì)其與TAP或MHC分子的反應(yīng)都非常關(guān)鍵)。關(guān)于肽的其他信息在注解區(qū)也可以找到,注解區(qū)主要包括已發(fā)布論文中提到的IC50及其參考值,用來區(qū)分高、中、低和非結(jié)合。與條目有關(guān)的數(shù)據(jù)的文獻(xiàn)出處保留在條目的發(fā)布參考區(qū)[21],且公開發(fā)表的文獻(xiàn)已經(jīng)鏈接到NCBI中的PubMed數(shù)據(jù)庫(kù)。
MHCBN數(shù)據(jù)庫(kù)也包括所有具有相同抗原肽的蛋白質(zhì)序列和結(jié)構(gòu)信息,不僅數(shù)據(jù)庫(kù)中所有的肽都可以在SWISS-PROT上搜索,而且含有匹配肽段的蛋白質(zhì)都可以被搜索到。這些序列號(hào)以FASTA格式儲(chǔ)存在數(shù)據(jù)庫(kù)中,并被鏈接到GenBank和SWISS-PROT[17-22]。含有匹配肽段的蛋白質(zhì)的簡(jiǎn)略三維結(jié)構(gòu)可以通過OCA browser[23]在所鏈接的蛋白質(zhì)數(shù)據(jù)庫(kù)中找到,這些信息有助于認(rèn)識(shí)抗原區(qū)和非抗原區(qū)的結(jié)構(gòu)特點(diǎn)。
位點(diǎn)特異性的分矩陣(position-specific scoring matrix,PSSM)也稱為特征參數(shù),它來自于特定MHC分子已知結(jié)合肽的比對(duì),可以作為MHC-多肽以及T細(xì)胞表位的預(yù)測(cè)工具。其中肽序列與MHC分子的結(jié)合親和力由其與已知MHC結(jié)合肽的相似性決定,可通過查詢肽序列與PSSM相比較而得到。利用PSSM預(yù)測(cè)多肽與MHC結(jié)合需要有與特定MHC結(jié)合的多肽序列,這些序列可以從任意MHC配體數(shù)據(jù)庫(kù)中獲得(表1),所用到的計(jì)算機(jī)程序見表2。
表1 所選MHC配體公共數(shù)據(jù)庫(kù)網(wǎng)址
表2 所用計(jì)算機(jī)程序下載地址
從已知MHC分子配體得到比對(duì)和簡(jiǎn)表來預(yù)測(cè)多肽與MHC分子結(jié)合的方法包括3個(gè)基礎(chǔ)步驟(圖1):① 多肽序列的收集并按MHC結(jié)合特異性與長(zhǎng)度劃分子集;② 無空位比對(duì)的生成;③ 由比對(duì)產(chǎn)生PSSM。
圖1 PSSM的基本步驟
(1) 多肽收集及子集劃分:對(duì)于MHC Ⅱ類分子配體,僅需要根據(jù)MHC Ⅱ類分子結(jié)合肽的限制性將序列劃分為不同的子集文件,長(zhǎng)度小于9個(gè)殘基的肽需剔除。滿足上述標(biāo)準(zhǔn)的MHC配體可以通過EPIMHC數(shù)據(jù)庫(kù)提供的網(wǎng)頁(yè)界面得到,肽序列以純文本或FASTA格式保存。
(2) 無空位基序比對(duì)的生成:利用MEME程序的命令
進(jìn)行比對(duì)。MEME的輸出文件(mhcii_lig.meme)包括1個(gè)對(duì)數(shù)值以及1個(gè)MHCⅡ類分子配體結(jié)合核心的PSSM概率矩陣,該概率矩陣可用來預(yù)測(cè)多肽與MHCⅡ類分子的結(jié)合。
(3) 利用MHC配體比對(duì)生成PSSM:BLIMPS PSSM通過依次使用以下3個(gè)程序得到,包括mablock將FASTA格式的比對(duì)轉(zhuǎn)換為BLOCK格式、blweight將比對(duì)中的序列進(jìn)行加權(quán)、Blk2pssm產(chǎn)生真正的PSSM矩陣。
PSSM是強(qiáng)大的工具,不僅可以用來確定與起始比對(duì)序列(MHC分子結(jié)合肽)功能相關(guān)的新的多樣性序列,也可用于鑒定那些與MHC分子結(jié)合的多肽。
模擬肽抑制劑和呈遞多肽的MHCⅡ類分子和HLA-DR4受體間的相互作用,可以用Cerius2軟件和比較分子力場(chǎng)分析(CoMFA)等三維定量構(gòu)效關(guān)系(3D-QSAR)方法進(jìn)行建模。多肽配體的結(jié)構(gòu)應(yīng)基于PDB數(shù)據(jù)庫(kù)中MHC-多肽復(fù)合物X射線結(jié)構(gòu)進(jìn)行構(gòu)建。MHC活性位點(diǎn)中的配體構(gòu)建可由SYBYL完成,用其他殘基替換模板側(cè)鏈來構(gòu)建配體結(jié)構(gòu)[29](Build/Edit>>Sketch Molecule>>Draw)。對(duì)每個(gè)結(jié)構(gòu)加氫,在將配體對(duì)接到MHC分子之前,這些結(jié)構(gòu)必須置于X射線配體結(jié)構(gòu)的坐標(biāo)框架中;然后在SYBYL中使用Tripos60力場(chǎng)對(duì)每個(gè)受體-配體復(fù)合物結(jié)構(gòu)進(jìn)行簡(jiǎn)單的能量最小化(Compute>>Minimize)。在SYBYL中將配體結(jié)構(gòu)從復(fù)合物中提取出來(Build/Edit>>Extract>>Substructures),其生物活性由pIC50表示。
(1) 使用SYBYL軟件計(jì)算CoMFA參數(shù):清除顯示區(qū)域中的所有分子Build/Edit>>Zap(Delete)Molecule;為構(gòu)建的多肽配體結(jié)構(gòu)建立一個(gè)數(shù)據(jù)庫(kù)File>>Database>>New>>Put Molecule;使用公共結(jié)構(gòu)模板對(duì)數(shù)據(jù)庫(kù)進(jìn)行結(jié)構(gòu)疊合File>>Align Database>>>Database to Align:>>>Template Molecule:>>>Location of Substructures:>>>Put Molecules Into:>>>Align;為疊合數(shù)據(jù)庫(kù)中的所有配體結(jié)構(gòu)建立一個(gè)分子表格File>>Molecular Spreadsheet>>New>>>Database>>>Open,數(shù)據(jù)庫(kù)中的所有配體結(jié)構(gòu)作為行讀入此表格;對(duì)所有疊合分子添加CoMFA力場(chǎng)來建立環(huán)繞區(qū)域并計(jì)算超過33 000的能量值,在MSS面板上選擇empty column2并點(diǎn)擊Autofile,選擇COMFA作為新的列類型;通過點(diǎn)擊MSS執(zhí)行對(duì)生成的CoMFA列進(jìn)行PLS分析QSAR>>>Partial Least Standard CoMFA Field,出現(xiàn)PLS分析對(duì)話框;輸入COMFA2列作為自變量,然后輸入ACTIVITY列作為因變量,其值可以用PLS分析結(jié)構(gòu)進(jìn)行預(yù)測(cè);當(dāng)數(shù)據(jù)集的個(gè)數(shù)與所選數(shù)據(jù)行數(shù)相同時(shí),利用留一法交互檢驗(yàn)進(jìn)行PLS分析,關(guān)掉SAMPLS選項(xiàng);使用圖形方法顯示最好的交互檢驗(yàn)結(jié)果,并在預(yù)測(cè)中使用最優(yōu)預(yù)測(cè)模型。文本窗口將顯示擬合的r2、靜電和空間場(chǎng)的百分比貢獻(xiàn);在MSS控制板中點(diǎn)擊QSAR>>>View CoMFA查看CoMFA的結(jié)果,在Display選項(xiàng)菜單中選擇最終建立模型。
(2) 使用Cerius2軟件進(jìn)行QSAR預(yù)測(cè):在Unix提示中輸入Cerius2打開一個(gè)新的Cerius2對(duì)話框;進(jìn)入Build/3D-Sketcher面板,選擇所需結(jié)構(gòu)模板按鈕繪制結(jié)構(gòu);進(jìn)入OFF SETUP選項(xiàng)卡對(duì)繪制結(jié)構(gòu)進(jìn)行優(yōu)化,然后選擇Load Force Field并選擇cvff950_1_0_1作為所用力場(chǎng);點(diǎn)擊Energy Minimization選項(xiàng)卡上的單選按鈕開始計(jì)算;進(jìn)入QSAR/Show Study表格,將分子導(dǎo)入此表格,在Molecules下拉菜單中點(diǎn)擊Add all,輸入活性數(shù)據(jù)并以Activity標(biāo)記列;在Study表格中點(diǎn)擊列頭選擇標(biāo)記為Activity的列,選擇菜單欄的Variables/Set Y選項(xiàng)將此列設(shè)為因變量Y;選擇Study表格菜單欄中的Variables/Set X選項(xiàng),將所有描述子列設(shè)為自變量X;將Methods彈出窗口設(shè)為GFA,利用遺傳函數(shù)近似(GFA)方法產(chǎn)生QSAR方程,點(diǎn)擊RUN進(jìn)行GFA計(jì)算;利用交互檢驗(yàn)法選擇最好的方程進(jìn)行驗(yàn)證,結(jié)果將顯示在文本窗口中;Plot Equation按鈕可以查看預(yù)測(cè)活性對(duì)實(shí)測(cè)活性的2D散點(diǎn)圖。
因?yàn)镸HC識(shí)別病原性和致癌性多肽的作用使得基因在高強(qiáng)度的環(huán)境壓力下具有高度多態(tài)性[11]。根據(jù)每個(gè)等位基因可用的準(zhǔn)確結(jié)合肽試驗(yàn)數(shù)據(jù)的數(shù)目可預(yù)測(cè)與特定MHC分子結(jié)合的多肽。模塊是特定MHC等位基因中構(gòu)成結(jié)合位點(diǎn)的氨基酸序列。對(duì)于9肽,一個(gè)給定的等位基因含有9個(gè)模塊(P1,P2,…,P9)。由于MHC等位基因間的相似性,當(dāng)不同的MHC在定義的位點(diǎn)擁有相同的氨基酸時(shí),表明它們共享一個(gè)模塊(見表3)。
表3 A*0101和A*7401的P1模塊
表3中所列出的位點(diǎn)是HLA蛋白中可能影響多肽P1位置氨基端結(jié)合的位點(diǎn),氨基酸分別是A*0101和A*7401中給定位點(diǎn)的氨基酸。這些非連續(xù)氨基酸的類別就是P1位點(diǎn)的模塊,標(biāo)記有“Other alleles with this module”等位基因是在這些位點(diǎn)擁有相同氨基酸的等位基因,因此擁有相同的P1模塊,建立模塊的概念是為了擴(kuò)展可預(yù)測(cè)MHC結(jié)合肽等位基因的數(shù)量。
基于模塊結(jié)合肽預(yù)測(cè)方法需要收集已由試驗(yàn)證明可與MHC結(jié)合的多肽,數(shù)據(jù)庫(kù)如SYFPRITHI[20]、MHCBN[25]和Antigen[26]均可查詢已由試驗(yàn)證明可與MHC結(jié)合的多肽。HLA蛋白序列可以從IMGA/HLA數(shù)據(jù)庫(kù)中獲得[11],序列可從ftp://ebi.ac.uk/pub/database/imgt/mhc/hla/下載。核酸序列和蛋白質(zhì)序列有多種格式如FASTA和PEPTIDE格式。結(jié)合肽模塊預(yù)測(cè)最簡(jiǎn)單的方法是使用打分矩陣,當(dāng)預(yù)測(cè)9肽的結(jié)合時(shí),9×20矩陣包含多肽中每個(gè)氨基酸在各個(gè)位點(diǎn)的數(shù)值,該方法可在PeptideCheck網(wǎng)點(diǎn)(http://www.peptidecheck.org)使用。輸入一條多肽序列并選擇一個(gè)等位基因,結(jié)果代表此肽與給定等位基因結(jié)合可能性的得分;也可直接輸入一個(gè)蛋白質(zhì)的序列,所有生成的多肽均被打分;也可以同時(shí)選擇多個(gè)基因,結(jié)果為此肽與多個(gè)不同基因的打分。為了判斷該得分是表示結(jié)合還是非結(jié)合,需要將此得分與閾值相比較。閾值的選擇要依靠試驗(yàn)情況,如果要找最有可能結(jié)合的多肽,則選擇較高閾值。PeptideCheck建議的閾值是靈敏度曲線和特異性曲線的交叉點(diǎn)。
當(dāng)前免疫信息學(xué)致力于指導(dǎo)修改PCR條件[30]、抗體制備[31]、疫苗設(shè)計(jì)[32]、預(yù)測(cè)癌癥抗原及基因[33-34]、細(xì)胞洗脫肽的比對(duì)[35]以及各數(shù)據(jù)庫(kù)的方法更新[36-37]等研究。在食源性活性肽的研究上,劉盟夢(mèng)等[38]運(yùn)用BP神經(jīng)網(wǎng)絡(luò)數(shù)學(xué)模型擬合蛋白水解過程與產(chǎn)物活性之間的關(guān)系,構(gòu)建以加酶量、料水比、酶解體系游離谷氨酸濃度為神經(jīng)網(wǎng)絡(luò)輸入和酶解產(chǎn)物·OH清除率為輸出的模型,該模型可用于杜蠣抗氧化活性肽的在線監(jiān)控與可控制備。陳艷艷等[39]采用生物傳感器-人工神經(jīng)網(wǎng)絡(luò)建立了基于游離氨基酸含量對(duì)膠原蛋白胰酶酶解進(jìn)程的預(yù)測(cè)模型,可實(shí)現(xiàn)對(duì)酶解過程的在線監(jiān)控,以獲得最大量的目標(biāo)活性肽。孫國(guó)威等[40]以“活性肽搜尋與蛋白模擬水解系統(tǒng)”為工具,選擇堿性蛋白酶和中性蛋白酶對(duì)大豆蛋白進(jìn)行模擬水解得到不同水平的肽段,并結(jié)合水解試驗(yàn),以還原力和DPPH自由基清除率為指標(biāo)評(píng)價(jià)兩者的相關(guān)性。陳征松等[41]利用Microsoft Office XP中的Access XP數(shù)據(jù)庫(kù)軟件建立了3個(gè)數(shù)據(jù)庫(kù)系統(tǒng),并與編制的“生物活性肽搜尋與酶解模擬系統(tǒng)”程序配合,實(shí)現(xiàn)單條、多條活性肽序列在食物蛋白質(zhì)中的批量搜尋,并能找出活性肽含量的鏈長(zhǎng)百分比、活性肽在蛋白質(zhì)中的位置和前后氨基酸的種類,實(shí)現(xiàn)利用活性肽的不完全歸納預(yù)測(cè)其活性、利用單酶或復(fù)酶的模擬水解并標(biāo)出水解產(chǎn)物中的活性肽及其功能。龐廣昌等[42]通過軟件The Swiss-PdbViewer(v.3.7)根據(jù)免疫活性肽序列的組成、氨基酸之間的鍵合力、非鍵合力、靜電引力、扭矩等參數(shù)對(duì)其空間結(jié)構(gòu)進(jìn)行了模擬。當(dāng)前免疫信息學(xué)主要在解決免疫學(xué)問題及疫苗設(shè)計(jì)方面發(fā)揮其強(qiáng)大的作用,目前食品領(lǐng)域也已開展結(jié)合信息學(xué)手段的各項(xiàng)相關(guān)研究,邁出了創(chuàng)新的第一步。將信息學(xué)手段與工程制備相結(jié)合,探尋出了活性肽批量搜尋與可控制備的新方法,為篩選功能性肽并應(yīng)用到食品領(lǐng)域提供了一個(gè)新思路,開辟了一條新渠道。但從目前看來,食品領(lǐng)域所利用的信息學(xué)工具和范圍仍比較局限,因此將信息學(xué)應(yīng)用到食品領(lǐng)域的空間相當(dāng)廣闊。將免疫信息學(xué)分析工具應(yīng)用到免疫活性肽的預(yù)測(cè)和鑒定上,可拓寬功能性蛋白質(zhì)和多肽的研究渠道,減少活性肽篩選的盲目性,有效提高篩選效率,進(jìn)而推廣至其他食源性活性肽的高效篩選,為開發(fā)新型功能性食品提供可靠依據(jù)。
免疫信息學(xué)正以前所未有的速度發(fā)展,越來越多的研究小組參與到免疫信息學(xué)相關(guān)數(shù)據(jù)庫(kù)和算法的改進(jìn)中。3種免疫信息學(xué)常用數(shù)據(jù)庫(kù)中,IMGT數(shù)據(jù)庫(kù)因其資源的高度整合化,被認(rèn)為是免疫信息學(xué)的國(guó)際參照,因此其查詢和使用率極高,被廣泛應(yīng)用于基礎(chǔ)醫(yī)學(xué)研究、獸醫(yī)研究、基因進(jìn)化研究、診斷學(xué)和治療學(xué)方法等多個(gè)領(lǐng)域,在免疫遺傳學(xué)網(wǎng)絡(luò)服務(wù)器的發(fā)展中發(fā)揮著重要作用。SYFPEITHI數(shù)據(jù)庫(kù)涵蓋了許多MHC結(jié)合肽的信息,包括及時(shí)更新的T細(xì)胞表位信息,但由于MHC II類分子的結(jié)合槽結(jié)構(gòu)相對(duì)MHC I類分子更為復(fù)雜,且SYFPEITHI數(shù)據(jù)庫(kù)的預(yù)測(cè)結(jié)果以已出版的序列為基礎(chǔ),使得SYFPEITHI數(shù)據(jù)庫(kù)更適用于MHC I類分子T細(xì)胞表位的預(yù)測(cè),可靠性約50%,在MHC II類分子的T細(xì)胞表位預(yù)測(cè)方面存在局限性。MHCBN數(shù)據(jù)庫(kù)可以鏈接一系列的網(wǎng)絡(luò)工具進(jìn)行交互式復(fù)雜查詢從而獲得更精確的信息,但數(shù)據(jù)庫(kù)中的部分功能需要注冊(cè)才能被使用。同其他數(shù)據(jù)庫(kù)相比,MHCBN數(shù)據(jù)庫(kù)可直接進(jìn)行BLAST比對(duì)以檢驗(yàn)所查詢序列的正確性,同時(shí)MHCBN數(shù)據(jù)庫(kù)提供的錨著位點(diǎn)信息也更為詳細(xì),對(duì)T細(xì)胞表位預(yù)測(cè)更具針對(duì)性。
3種活性肽與MHC分子結(jié)合能力的預(yù)測(cè)方法中,特征參數(shù)法針對(duì)性強(qiáng),準(zhǔn)確性高,且所有用戶可免費(fèi)使用。利用此方法首先需要從其他相關(guān)數(shù)據(jù)庫(kù)中獲得與特定MHC結(jié)合的多肽序列再產(chǎn)生相應(yīng)的算法矩陣,該方法對(duì)數(shù)據(jù)的敏感程度相對(duì)機(jī)器算法較低,因此可節(jié)約大量時(shí)間成本,且結(jié)果與機(jī)器算法類似甚至更優(yōu)。3D-QSAR建模方法中,所有的結(jié)構(gòu)均由理論生成并利用不同力場(chǎng)分析進(jìn)行建模,模型通過最優(yōu)擬合結(jié)果的疊合結(jié)構(gòu)構(gòu)建,并可剔除由計(jì)算產(chǎn)生的差異值;但前期參數(shù)的計(jì)算主成分分析過程較復(fù)雜,需較堅(jiān)實(shí)的計(jì)算機(jī)基礎(chǔ)?;贛HC分子模型的預(yù)測(cè)方法中,只需構(gòu)建多肽結(jié)合能力的打分矩陣。但該方法的弊端是,打分矩陣的分值是假定多肽特定位點(diǎn)的特定氨基酸的出現(xiàn)頻率與這些氨基酸在結(jié)合中的作用相關(guān),如果肽庫(kù)中的序列是合成的,合成肽對(duì)上述假定無效,需尋求另外的辦法;且在選擇閾值時(shí)需根據(jù)試驗(yàn)情況決定,建立特異性曲線與靈敏度曲線進(jìn)行交叉分析。目前針對(duì)MHC分子的結(jié)合預(yù)測(cè)主要集中在MHC I類分子,MHC II類分子由于其結(jié)構(gòu)的復(fù)雜性及多肽結(jié)合槽的可變性使得預(yù)測(cè)工作變得更為困難。
盡管越來越多的算法被開發(fā),但這些算法還需進(jìn)行確實(shí)有效的實(shí)驗(yàn)驗(yàn)證,將體外試驗(yàn)和計(jì)算機(jī)分子方法結(jié)合起來,以提高預(yù)測(cè)方法的適用范圍和能力。并且目前的文獻(xiàn)報(bào)道主要集中在疫苗設(shè)計(jì)、抗體制備等醫(yī)學(xué)診斷和治療學(xué)方面,在食源性功能活性肽篩選和預(yù)測(cè)中的應(yīng)用報(bào)道還不多見。利用免疫信息學(xué)工具,不僅可以在分子或基因水平獲得更直觀的結(jié)果,歸納出結(jié)果的規(guī)律形式,更清晰地認(rèn)識(shí)免疫活性的調(diào)控機(jī)制,也可在借鑒前人研究經(jīng)驗(yàn)的基礎(chǔ)上將這種信息預(yù)測(cè)和模擬方法與試驗(yàn)結(jié)合并應(yīng)用到各個(gè)工程領(lǐng)域,增強(qiáng)免疫信息學(xué)工具的可信度,簡(jiǎn)化工程工藝步驟,并開發(fā)出針對(duì)食品領(lǐng)域的新方法或新工具,有望將食品領(lǐng)域推向新的發(fā)展巔峰。
[1] MEISEL Hans. Overview on milk protein-derived peptides[J]. International Dairy Journal, 1998, 8(5/6): 363-373.
[2] 程媛, 曹慧, 徐斐, 等. 食源性蛋白中免疫活性肽的研究進(jìn)展[J]. 食品科學(xué), 2015, 36(17): 296-299.
[3] 陳兆國(guó), 馮新港, 米榮升, 等. 免疫信息學(xué)在抗原蟲病疫苗研發(fā)中的應(yīng)用進(jìn)展[J]. 中國(guó)人獸共患病學(xué)報(bào), 2010, 26(5): 495-498.
[4] ORTUTAY Csaba, SIERMALA Markku, VIHINEN Mauno. Molecular characterization of the immune system: emergence of proteins, processes, and domains[J]. Immunogenetics, 2007, 59(5): 333-348.
[5] FLOWER Darren R. Vaccines in silico: the growth and power of immunoinformatics[J]. Biochemist, 2004, 26(4): 17-20.
[6] GROOT Anne S De, BERZOFSKY Jay A. From genome to vaccine—new immunoinformatics tools for vaccine design[J]. Methods, 2004, 34(4): 425-428.
[7] LEFRANC Marie-Paule. IMGT?, the International ImMunoGeneTics Information System?[J]. Nucleic Acids Research, 2009, 37(Database issue): D1 006.
[8] LEFRANC Marie-Paule, CLEMENT O, KAAS Quentin, et al. IMGT-Choreography for Immunogenetics and Immunoinforma-tics[J]. Immunogenetics, 2004, 27: 55-77.
[9] OKUBO K, SUGAWARA H, GOJOBORI T, et al. DDBJ in preparation for overview of research activities behind data submissions[J]. Nucleic Acids Research, 2006, 34(Database issue): D6.
[10] FOLCH G, BERTRAND J. IMGT/PRIMER-DB[J/OL]. Information System, 2004. [2018-02-17]. http://www.imgt.org.
[11] ROBINSON James, WALLER Matthew, PARHAM Peter, et al. IMGT/HLA and IMGT/MHC: sequence databases for the study of the major histocompatibility complex[J]. Nucleic Acid Research Medical Journal, 2003, 31(1): 311-314.
[12] KAAS Quentin, RUIZ Manuel, LEFRANC Marie-Paule. IMGT/3Dstructure-DB and IMGT/Structural Query, a databa-se and a tool for immunoglobulin, T cell receptor and MHC structural data[J]. Nucleic Acids Research, 2004, 32(1): 208-210.
[13] HORTON Roger, WILMING Laurens, RAND Vikki, et al. Gene map of the extended human MHC[J]. Nature Reviews Genetics, 2004, 5(12): 889.
[14] MCGINNIS M B C, CHADWICK R, CONRAD M, et al. Genetic diversity of HLA: functional and medical implication[J]. Human Immunology, 1997, 59(9): 580-587.
[15] MARSH Steven, PETER Parham, LIN Barber. HLA facts book[M]. [S.l.]: Academic Press, 2000: 208-236.
[16] WU Xin, MICHAEL G Walker, LUO Jing-chu, et al. GBA server: EST-based digital gene expression profiling[J]. Nucleic Acids Research, 2005, 33(Web Server issue): 673-676.
[17] DENNIS A Benson, ILENE Karsch-Mizrachi, DAVID J Lipman, et al. GenBank: update[J]. Nucleic Acids Research, 2007, 36(Database issue): 25-30.
[18] TATENO Yoshio, SAITOU Naruya, OKUBO Kousaku, et al. DDBJ in collaboration with mass-sequencing teams on annotation[J]. Nucleic Acids Research, 2005, 33(Database issue): 25-28.
[19] 孫繼麗, 張工梁, 陳仁彪. HLA數(shù)據(jù)庫(kù)和HLA命名系統(tǒng)[J]. 中國(guó)輸血雜志, 2005, 18(2): 174-176.
[20] RAMMENSEE Hans-Georg, BACHMANN J, EMMERICH N P N, et al. SYFPEITHI: database for MHC ligands and peptide motifs[J]. Immunogenetics, 1999, 50(4): 213-219.
[21] WHEELER David L, CHURCH Deanna M, LASH Alex E, et al. Database resources of the National Center for Biotechnology Information[J]. Nucleic Acids Research, 2007, 35(Database issue): 5-12.
[22] ROBINSON James, WALLER Matthew, PARHAM Peter, et al. IMGT/HLA Database: a sequence database for the human major histocompatibility complex[J]. Nucleic Acids Research, 2000, 55(3): 210-213.
[23] BERMAN Helen, WESTBROOK John, FENG Z, et al. The protein data bank[J]. Genetica, 2000, 28(1): 235-242.
[24] BRUSIC Vladimir, RUDY George, KYNE Anthony P, et al. MHCPEP, a database of MHC-binding peptides: update 1996[J]. Nucleic Acids Research, 1998, 26(1): 3 663-3 665.
[25] BHASIN Manoj, SINGH Harpreet, RAGHAVA Gajendra Pal Singh. MHCBN: a comprehensive database of MHC binding and non-binding peptides[J]. Bioinformatics, 2003, 19(5): 665-666.
[26] BLYTH Martin J, DOYTCHINOVA Irini A, FLOWER Darren. JenPep: a database of quantitative functional peptide data for immunology[J]. Bioinformatics, 2002, 18(3): 434-439.
[27] SCH?NBACH Christian, KOH Judice L Y, FLOWER Darren, et al. FIMM, a database of functional molecular immunology[J]. Nucleic Acids Research, 2002, 30(1): 226-229.
[28] RECHE Pedro A, ZHANG Hong, GLUTTING John-Paul, et al. EPIMHC: a curated database of MHC-binding peptides for customized computational vaccinology[J]. Bioinformatics, 2005, 21(9): 2 140-2 141.
[29] Tripos Associates Inc. SYBYL Software,Version 6.9[CP]. Morris, Peters, St. Louis: Tripos Associates Inc, 1985.
[30] HOLCOMB Cherie L, RASTROU Melinda, WILLIAMS T C, et al. Next-generation sequencing can reveal in vitro-generated PCR crossover products: some artifactual sequences correspond to HLA alleles in the IMGT/HLA database[J]. Tissue Antigens, 2014, 83(1): 32-40.
[31] LEFRANC Marie-Paule, EHRENMANN Francois, GINES-TOUX Chantal, et al. Use of IMGT(?) databases and tools for antibody engineering and humanization[J]. Methods in Molecular Biology, 2012, 907: 3-37.
[32] LIAO Shu-jie, ZHANG Wei-na, HU Xiao-ji, et al. Preparation of HPV18 E7 peptide plus CpG vaccine and its immunologic effects in vitro[J]. Chinese Medical Journal, 2012, 92(23): 1 641-1 645.
[33] ZHAO Wei-peng, LONG Hai-xia, ZHU Bo, et al. Prediction of HLA-A 2.1-restricted CTL epitopes from IGFBP7 antigen of lung carcinoma[J]. 中國(guó)人民解放軍軍醫(yī)大學(xué)學(xué)報(bào): 英文版, 2009, 24(2): 63-68.
[34] LI Zhang-qiu, ZHANG Mei-xia, HU Hai-yan, et al. [On predicting the T cell and B cell epitopes of platelet membrane glycoprotein II b/ III a antibody from human and mice][J]. Journal of Biomedical Engineering, 2010, 27(5): 1 146-1 151.
[35] EVA Stodulková, NOVK Peter, DEININGER S?ren-Oliver, et al. LC MALDI-TOF MS/MS and LC ESI FTMS analyses of HLA-B27 associated peptides isolated from peripheral blood cells[J]. Immunology Letters, 2008, 116(1): 79-85.
[36] BHASIN Manoj, LATA Sneh, RAGHAVA Gajendra Pal Singh. Searching and mapping of T-cell epitopes, MHC binders, and TAP binders[J]. Methods in Molecular Biology, 2007, 409(409): 95-112.
[37] SCHULER Mathias M, NASTKE Maria-Dorothea, STEVANOVIKC Stefan. SYFPEITHI: database for searching and T-cell epitope prediction[J]. Methods in Molecular Biology, 2007, 409: 75-93.
[38] 劉盟夢(mèng), 李銀平, 延海瑩, 等. 基于BP神經(jīng)網(wǎng)絡(luò)的牡蠣抗氧化活性肽制備工藝優(yōu)化[J]. 食品工業(yè)科技, 2016, 37(20): 206-210.
[39] 陳艷艷, 侯虎, 陳鐵軍, 等. 基于酶?jìng)鞲衅?人工神經(jīng)網(wǎng)絡(luò)的膠原蛋白酶解監(jiān)控模型[J]. 中國(guó)食品學(xué)報(bào), 2016, 16(5): 167-173.
[40] 孫國(guó)威, 樂國(guó)偉, 施用暉. 模擬酶解大豆7S、11S蛋白及其抗氧化活性的研究[J]. 食品工業(yè)科技, 2010(7): 101-104.
[41] 陳征松, 施用暉, 樂國(guó)偉, 等. 活性肽搜尋與蛋白模擬水解數(shù)據(jù)庫(kù)的建立[J]. 計(jì)算機(jī)與應(yīng)用化學(xué), 2007, 24(3): 331-334.
[42] 龐廣昌. 一種新型具抗菌作用的免疫活性肽及其抗菌機(jī)理[D]. 天津: 天津大學(xué), 2007: 68-76.