畢 明,田志新
(同濟(jì)大學(xué)化學(xué)科學(xué)與工程學(xué)院,上海 200092)
蛋白質(zhì)是構(gòu)成生物有機(jī)體的重要大分子物質(zhì),參與生命活動(dòng)。在線粒體內(nèi)經(jīng)基因編碼后,蛋白質(zhì)序列翻譯完成,但還要經(jīng)過高爾基體的翻譯后修飾(PTMs)。翻譯后修飾是蛋白質(zhì)重要的化學(xué)修飾,經(jīng)翻譯后修飾的蛋白質(zhì)在調(diào)節(jié)活性和其他生物分子相互作用等方面具有功能性作用。翻譯后修飾包括磷酸化修飾、糖基化修飾和泛素化修飾等。糖基化修飾在蛋白質(zhì)折疊[1]、細(xì)胞粘附[2]、信號(hào)傳導(dǎo)[3]等生命活動(dòng)中發(fā)揮重要作用。真核生物中,一半以上的蛋白質(zhì)可以發(fā)生糖基化形成糖蛋白,其中90%是N-糖蛋白[4]。N-連接糖中的N-乙酰葡萄糖胺連接在天冬酰胺的N原子上,其中天冬酰胺滿足氨基酸序列Asn-X-Thr/Ser/Cys(X≠Pro)。構(gòu)成N-連接糖的單糖種類多達(dá)700多種,在結(jié)構(gòu)上,多種序列和連接方式使得N-連接糖的糖型復(fù)雜、異構(gòu)體多;在位點(diǎn)上,相同的N-連接糖可以修飾同一蛋白的不同位點(diǎn),同一位點(diǎn)也可以修飾不同結(jié)構(gòu)的N-連接糖,具有宏觀和微觀不均一性。對(duì)N-連接糖的生物合成過程研究表明,初始糖型為Glc3Man9GlcNAc2,而后在多種糖苷酶的作用下剪切或連接上其他單糖,形成最終糖型[5]。N-連接糖的結(jié)構(gòu)種類可以分為高甘露糖型、復(fù)雜型和雜合型,示于圖1。這3類糖型共同享有核心五糖結(jié)構(gòu)(Man3GlcNAc2),底部為N-乙酰葡萄糖胺與天冬酰胺連接,頂部為2個(gè)并列的甘露糖,其余單糖可連接在甘露糖上形成天線結(jié)構(gòu),天線數(shù)量可以是2、3或4。高甘露糖型在核心結(jié)構(gòu)上只連接甘露糖或者葡萄糖;而復(fù)雜型則在核心結(jié)構(gòu)上連接N-乙酰葡萄糖胺等其他單糖;雜合型同時(shí)含有高甘露糖型和復(fù)雜型的支鏈,是二者的組合。
圖1 N-連接糖類型Fig.1 N-linked glycan types
疾病條件下,蛋白質(zhì)糖基化會(huì)發(fā)生糖型結(jié)構(gòu)的改變及表達(dá)的差異變化。美國食品藥品監(jiān)督管理局(FDA)認(rèn)證的肝癌診斷標(biāo)志物甲胎蛋白(AFP)的診斷特異性可達(dá)90.6%,但靈敏度僅為60%[6];在一些良性肝病或者肝硬化患者中也能檢測(cè)出AFP的高水平表達(dá),所以臨床上還需要配合使用影像學(xué)手段來確診肝癌,增加了確診難度。因此需要進(jìn)一步挖掘更準(zhǔn)確的診斷及預(yù)后標(biāo)志物。扁豆凝集素(LCA)可以將AFP分為AFP-L1、AFP-L2和AFP-L3三個(gè)異質(zhì)體,Breborowicz等[7]基于此,研究了AFP在不同患者中的微觀異質(zhì)性,其中2/3肝癌患者的AFP電泳譜圖輪廓與良性肝病病人不同,通過脫脂AFP初步試驗(yàn)認(rèn)為,微觀異質(zhì)性可能來源于不同的糖基化,與脂肪酸無關(guān)。Sato等[8]追蹤了在肝硬化患者和肝癌患者中不同AFP異質(zhì)體的含量隨著病程發(fā)展的變化,發(fā)現(xiàn)AFP-L3在肝細(xì)胞癌中的特異性非常高。AFP是一種糖蛋白,在氨基酸序列251號(hào)位點(diǎn)(Asn251)上可以發(fā)生糖基化,核心巖藻糖基化的AFP,即AFP-L3與LCA有很強(qiáng)的結(jié)合能力[9],示于圖2a。Kim等[10]采用液相色譜-質(zhì)譜聯(lián)用法研究了巖藻糖基化的AFP(Fuc-AFP)在肝癌患者和肝硬化患者血液中的表達(dá)水平,發(fā)現(xiàn)AFP在肝癌患者中巖藻糖基化率達(dá)到80%以上。類似的,Wu等[11]研究了多個(gè)蛋白在肝癌患者中的巖藻糖糖基化水平,在蛋白微陣列的幫助下,發(fā)現(xiàn)巖藻糖糖基化的甲胎蛋白、脫γ羧基凝血酶原(DCP)、磷脂酰肌醇蛋白聚糖(GCP3)在肝癌患者中明顯高表達(dá),由此可見,巖藻糖與肝癌細(xì)胞的形成存在關(guān)聯(lián)。目前,在臨床研究中,核心巖藻糖基化的甲胎蛋白(AFP-L3)被確定為肝細(xì)胞癌的診斷標(biāo)志物,靈敏度為56%,特異性為95%[9]。除了診斷標(biāo)志物,糖基化蛋白質(zhì)也在藥物治療中彰顯作用,策略是將蛋白質(zhì)糖基化作為增強(qiáng)免疫檢查點(diǎn)治療。癌細(xì)胞上的程序性死亡配體-1(PD-L1)和T細(xì)胞上的程序性死亡受體-1(PD-1)使癌細(xì)胞能夠逃過T細(xì)胞介導(dǎo)的免疫監(jiān)視,Li等[12]在三陰性乳腺癌中發(fā)現(xiàn)PD-L1和PD-1的相互作用需要β-1,3-N-乙酰葡萄糖轉(zhuǎn)移酶(B3GNT3)在PD-L1糖基化位點(diǎn)N192和N200上介導(dǎo)糖基化,在這一原理的基礎(chǔ)上,合成可以特異性識(shí)別PD-L1上N192和N200上聚糖部分的單克隆抗體STM108,促使PD-L1內(nèi)化和消解,示于圖2b。除此之外,改變糖型也可以作為藥物治療的一種手段,免疫球蛋白(IgG)整體呈“Y”型,僅有的2個(gè)N-糖基化位點(diǎn)對(duì)稱分布在可結(jié)晶段(Fc)的2條重鏈上,F(xiàn)c是IgG與效應(yīng)分子或細(xì)胞進(jìn)行相互作用的部位,N-連接糖組成和結(jié)構(gòu)會(huì)影響這種相互作用,研究發(fā)現(xiàn),唾液酸化的IgG可以轉(zhuǎn)化為體內(nèi)抗炎介質(zhì),減弱體內(nèi)自身免疫性炎癥。Pagan等[13]利用唾液酸轉(zhuǎn)移酶ST6GAL1將內(nèi)源性IgG轉(zhuǎn)化為體內(nèi)抗炎介質(zhì),發(fā)現(xiàn)這種方法可抑制關(guān)節(jié)炎和腎毒性腎炎等由于IgG免疫過激而導(dǎo)致的免疫性疾病。ST6GAL1只能催化α-2,6唾液酸與N-連接糖上的半乳糖相連接,不能催化α-2,3唾液酸,而且連接方式不同的唾液酸具有不同的生物功能,α-2,3唾液酸修飾的IgG并不具備抗炎功效,可見N-連接糖的結(jié)構(gòu)特異影響糖蛋白的生物功能,示于圖2c。
注:a.肝癌診斷中AFP-L3相對(duì)于AFP靈敏度的顯著提高;b.三陰性乳腺癌靶向治療;c.α-2,6唾液酸IgG的抗炎活性圖2 N-糖基化功能的位點(diǎn)和結(jié)構(gòu)特異性Fig.2 Site- and structure-specificity of the functions of N-glycosylation
在生命有機(jī)體中,器質(zhì)性病變和藥物環(huán)境的更改都會(huì)導(dǎo)致N-糖蛋白的明顯變化,科學(xué)家們一直在研究N-糖蛋白在生命體內(nèi)的合成通路和信號(hào)通路,以期尋找疾病診斷標(biāo)志物、預(yù)后標(biāo)志物和藥物靶點(diǎn)等,促進(jìn)精準(zhǔn)醫(yī)療發(fā)展,解開生命的奧秘。隨著分析儀器、實(shí)驗(yàn)方法和搜索算法的精進(jìn)和完善,糖蛋白質(zhì)組學(xué)的時(shí)代已經(jīng)來臨[14]。
可以根據(jù)樣品的類型,將基于質(zhì)譜的N-糖蛋白研究分為4種層面。第一種是完整蛋白層面,樣本沒有經(jīng)過胰蛋白酶等酶切,保持氨基酸序列的完整,這種層面能夠得到完整蛋白序列信息,也保留了聚糖結(jié)構(gòu)的完整,但在質(zhì)譜中由于糖的比例較少,信號(hào)較低,不利于分析聚糖結(jié)構(gòu);第二種層面是完整N-糖肽,利用酶的特異性,將蛋白切成多肽,并利用ZIC-HILIC、凝集素等富集方法獲取糖肽,這種方法既可以保留糖基化位點(diǎn)信息,又可以解析糖的結(jié)構(gòu),在糖蛋白組學(xué)中應(yīng)用較廣;第三種是在含糖基化位點(diǎn)多肽層面進(jìn)行分析,利用糖苷酶將聚糖從多肽上切除,保留多肽,這種方法保留了位點(diǎn)信息(糖修飾天冬酰胺變成天冬氨酸),但是喪失了糖的結(jié)構(gòu)信息;第四種層面是利用糖苷酶將聚糖從多肽上切除,保留糖而舍棄多肽,這種方法能夠更好地分析單糖組成和聚糖結(jié)構(gòu),但是會(huì)丟失位點(diǎn)信息。綜上,完整N-糖肽更有利于N-糖蛋白組學(xué)的發(fā)展,有利于全方位地研究N-糖蛋白的組成和結(jié)構(gòu),所以本文闡述的研究進(jìn)展傾向于完整N-糖肽的分析方法。
在完整N-糖肽的樣品制備中,主要過程是酶切、富集、標(biāo)記。富集是在酶切后的多肽中將糖肽和非糖肽分離并提純糖肽的過程,通過富集可以排除非糖肽對(duì)糖肽的干擾。比較主流的富集方法包括親水相互作用色譜法(HILIC)、凝集素親和色譜法、二氧化鈦(TiO2)富集、酰肼化學(xué)富集等。親水相互作用色譜法的原理是潤濕的色譜柱在表面形成水層,當(dāng)疏水性流動(dòng)相通過親水性固定相時(shí),親水性的物質(zhì)分配到水層中得以保留,糖肽的保留主要取決于聚糖部分的大小及其親水性以及多肽主鏈的親水性,增加流動(dòng)相的水含量釋放糖肽[15-16]。Zhang等[17]在研究小鼠腦部糖肽時(shí),對(duì)比了5種富集方法,其中包括用0.1%三氟乙酸作為流動(dòng)相中離子對(duì)試劑的ZIC-HILIC(IP-ZIC-HILIC),和用0.1%甲酸作為流動(dòng)相的ZIC-HILIC(ZIC-HILIC-FA),結(jié)果表明,用IP-ZIC-HILIC富集鑒定到的糖基化位點(diǎn)為1 891個(gè),明顯高于其他方法,且錯(cuò)誤發(fā)現(xiàn)率(FDR)值為3.29%,顯示了較高的靈敏度和特異性。凝集素是從植物或動(dòng)物中提取的物質(zhì),可以特異性識(shí)別和吸附蛋白質(zhì),而且凝集素具有可重復(fù)性和較好的提取率,因此,多種凝集素被開發(fā)出來用于特異性抓取糖蛋白[18]。Xue等[19]分別采用凝集素親和色譜和酰肼化學(xué)的方法富集肝癌細(xì)胞中的糖肽,研究發(fā)現(xiàn),凝集素方法鑒定到825個(gè)糖蛋白上的1 879個(gè)N-糖基化位點(diǎn),而酰肼化學(xué)方法鑒定到522個(gè)糖蛋白上的1 014個(gè)糖基化位點(diǎn),表明凝集素富集糖肽的效果優(yōu)于酰肼化學(xué)。酰肼化學(xué)的作用原理是糖肽上順式鄰二羥基與高碘酸反應(yīng)生成醛,醛基與酰肼樹脂上的氨基反應(yīng)生成共價(jià)腙鍵,由此可被酰肼樹脂抓取,Zhang等[20]將此方法應(yīng)用在大規(guī)模血清樣本中糖蛋白的定性定量分析。二氧化鈦?zhàn)鳛橐环N兩性金屬氧化物,根據(jù)溶液的pH值和緩沖液類型,既可以發(fā)生陰離子交換也可以發(fā)生陽離子交換。Sheng等[21]在富集糖肽過程中用低濃度的氨水將非糖肽從TiO2分離,再用高濃度的氨水將糖肽洗脫。TiO2還常用于帶有唾液酸的糖肽,在低pH值下,含唾液酸的糖肽與TiO2的結(jié)合效率提高[22]。尋找差異表達(dá)的完整N-糖肽可以借助標(biāo)記方法對(duì)其進(jìn)行定量分析,常見的標(biāo)記方法有用于相對(duì)和絕對(duì)定量的等重標(biāo)簽(iTRAQ)、串聯(lián)質(zhì)量標(biāo)簽(TMT)和穩(wěn)定同位素標(biāo)記(SIL)。iTRAQ和TMT標(biāo)記是利用不同樣本帶有的不同質(zhì)量標(biāo)簽在二級(jí)質(zhì)譜中強(qiáng)度差異進(jìn)行相對(duì)定量,可同時(shí)對(duì)多個(gè)樣本定量,可同時(shí)標(biāo)記多個(gè)樣本。利用iTRAQ標(biāo)記定量分析,用山梨凝集素從10個(gè)乙肝相關(guān)的早期肝癌患者和100個(gè)健康對(duì)照者的血清中提取糖蛋白,共有17種糖蛋白存在明顯差異表達(dá),其中半乳糖凝集素3結(jié)合蛋白(Gal-3BP)的診斷能力最優(yōu),靈敏度和特異性分別是80%和93.75%。張會(huì)教授課題組研究了固定金屬離子親和層析(IMAC)在富集磷酸化多肽的最優(yōu)pH值,雖無法避免磷酸化多肽和N-連接糖肽共富集,但是發(fā)現(xiàn)在pH 2的條件下,IMAC更傾向于富集含唾液酸的糖肽。因此,在此基礎(chǔ)上對(duì)IMAC富集的洗脫液用陰離子交換柱MAX分離磷酸化多肽和糖肽,將此方法應(yīng)用于定量分析2種乳腺癌異種移植模型的TMT標(biāo)記的多肽,共鑒定到17 582種磷酸化多肽和3 468種N-連接糖肽,其中1 237種磷酸化多肽和236種糖肽明顯差異表達(dá)[23]。本課題組基于穩(wěn)定二甲基同位素標(biāo)記的方法,開發(fā)了穩(wěn)定同位素二乙基標(biāo)記(SIDE),來源于對(duì)照組和疾病組的多肽經(jīng)ZIC-HILIC富集后,完整N-糖肽的N端和賴氨酸(K)在乙醛(CH3CHO)和氰基硼氫化鈉(NaBH3CN)混合溶液中反應(yīng)上二乙基基團(tuán)(—(CH2CH3)2),對(duì)照組采用乙醛(12CH312CHO),而疾病組采用重標(biāo)乙醛(13CH313CHO)后可以產(chǎn)生4 u(若包含K,每增加1個(gè)K,增加4 u)的差異;在50倍的變化范圍內(nèi),實(shí)際表達(dá)倍數(shù)與預(yù)期表達(dá)倍數(shù)呈良好的線性關(guān)系。Wang等[24]應(yīng)用此方法對(duì)胃癌/癌旁組織的完整N-糖肽進(jìn)行定量分析,在3組技術(shù)重復(fù)中,共定量得到993個(gè)完整N-糖肽,表達(dá)倍數(shù)在1.5倍以上,同時(shí),p<0.05的644個(gè)差異表達(dá)的糖肽中共有155個(gè)上調(diào)和489個(gè)下調(diào)。
在完整N-糖肽進(jìn)入質(zhì)譜分析前分離樣本,以防止高濃度物質(zhì)對(duì)低濃度物質(zhì)的信號(hào)抑制,是對(duì)樣品中眾多物質(zhì)聚類提高靈敏度的方法,主要包括電泳法、液相色譜分離。電泳法是利用蛋白質(zhì)等電點(diǎn)的不同對(duì)蛋白質(zhì)進(jìn)行分離的方法。Zhu等[25]優(yōu)化了毛細(xì)管區(qū)帶電泳(CZE)的方法,將CZE與ESI-MS/MS聯(lián)用分析了大腸桿菌的多肽,在單次實(shí)驗(yàn)中,由100、10、1 ng樣本分別鑒定到1 250、1 000和600條多肽,揭示了CZE可用于大規(guī)模復(fù)雜樣本的鑒定。液相色譜分離法有反相色譜、尺寸排阻色譜、親水作用色譜和離子交換色譜等,其主要依賴于聚糖化學(xué)結(jié)構(gòu)和性質(zhì)的差異。Kozlik等[26]將納米級(jí)的RPLC和HILIC與質(zhì)譜聯(lián)用,鑒定血紅素中的糖肽,由于糖肽在HILIC上的極性降低,其保留時(shí)間縮短,但nanoHILIC能夠?qū)⒍嚯腟WPAVGDCSSALR上巖藻糖的2種同分異構(gòu)體分離出來,以此鑒定核心巖藻糖和支鏈巖藻糖。為了提高分辨率,多維分離方法更適用于復(fù)雜樣本的鑒定。單克隆抗體在藥物治療方面具有極大潛力,糖基化與其生物功能息息相關(guān),對(duì)單克隆抗體糖基化的研究極為重要。Dong等[27]研究了單克隆抗體標(biāo)準(zhǔn)品的完整N-糖肽,在一維液相分離中,含有1個(gè)漏切位點(diǎn)的多肽TKPREEQYNSTYR在分析結(jié)果中占主導(dǎo)地位,共有30種糖型,而采用二維液相色譜后,得到了247種糖肽,包含60種聚糖結(jié)構(gòu)。
質(zhì)譜中常見的解離方式主要有碰撞誘導(dǎo)解離(CID)、高能碰撞誘導(dǎo)解離(HCD)、電子轉(zhuǎn)移解離(ETD)和紫外光解離(UVPD)。不同的解離方式會(huì)導(dǎo)致蛋白或糖肽產(chǎn)生不同的碎片。在完整N-糖肽分析中,研究者希望能保留位點(diǎn)信息,同時(shí)有足夠的糖碎片離子用以分析聚糖種類和結(jié)構(gòu),因此HCD被廣泛應(yīng)用于N-糖蛋白質(zhì)組學(xué)。HCD活化能較高,對(duì)多肽而言,可以產(chǎn)生b型和y型離子。Cao等[28]探究了當(dāng)HCD設(shè)置不同的歸一化能量(NCE)時(shí)N-糖肽產(chǎn)生的碎片類型,當(dāng)NCE較低時(shí),HCD優(yōu)先將聚糖碎裂,從而推斷聚糖組成和結(jié)構(gòu);當(dāng)NCE較高時(shí),HCD優(yōu)先解離多肽,提供可靠的肽段序列信息,而后選擇了交替HCD碰撞能量30%和50%分解標(biāo)準(zhǔn)蛋白的完整糖肽,并用GlycoFinder對(duì)其定性和定量,最終鑒定到38個(gè)完整N-糖肽和O-糖肽。相比于交替碰撞能量,階梯碰撞能量(sceHCD)使用更廣泛,在sceHCD中,每次前體離子的累積時(shí)間被等分為3段,每次單獨(dú)的離子積累在不同的能量下碎裂。Riley等[29]比較了不同階梯能量下完整糖肽的碎裂情況,能量分別是sceHCD25±15、sceHCD30±10、sceHCD30±18、sceHCD35±5和sceHCD35±15,利用Byonic[30]進(jìn)行數(shù)據(jù)解析,其中sceHCD30±10、sceHCD30±18和sceHCD35±15都能提供較好的肽段和糖序列覆蓋度,糖基化位點(diǎn)通過肽鏈骨架上殘留的N-乙酰葡萄糖胺(GlcNAc)殘基來確定,而HCD裂解下能夠很好地鑒定糖基化位點(diǎn)。Wang等[31]進(jìn)一步優(yōu)化階梯能量,發(fā)現(xiàn)選取階梯能量為20%、30%、30%時(shí)的解離效果更好,在人體胃部組織中鑒定到的完整N-糖肽共有6 746個(gè),位點(diǎn)決定離子有942個(gè),有結(jié)構(gòu)診斷離子的完整N-糖肽有3 495個(gè);而選取階梯能量20%、30%、40%時(shí)對(duì)應(yīng)的數(shù)量分別為4 767、599和1 771,降低了42%、57%、97%,因此,階梯能量為20%、30%、30%適用于位點(diǎn)和結(jié)構(gòu)特異性完整N-糖肽的研究。
本課題組[32]采用LC-NCE-MS/MS分離分析完整N-糖肽,疾病與對(duì)照樣本處理流程示于圖3。以細(xì)胞為例,將肝癌細(xì)胞與對(duì)照樣本人干細(xì)胞超聲提取蛋白后,經(jīng)還原烷基化后trypsin酶切得到多肽,多肽經(jīng)ZIC-HILIC富集得到完整N-糖肽,采用1∶1穩(wěn)定同位素標(biāo)記后混合。標(biāo)記后的混合完整N-糖肽2DLC-MS/MS分析流程和數(shù)據(jù)處理流程示于圖4[32]。在反相液相色譜中將完整N-糖肽進(jìn)行一維分離,再將分離的24個(gè)組分組合成8個(gè)組分(1,9,17;2,10,18;以此類推混合),得到的8個(gè)組分分別進(jìn)行pentaHILIC-nanoESI-Orbitrap MS/MS分析,8份數(shù)據(jù)在GPSeeker中搜索輕標(biāo)正庫、輕標(biāo)反庫、重標(biāo)正庫和重標(biāo)反庫,控制FDR≤1%后得到ID,經(jīng)3次技術(shù)重復(fù)后,匯總ID,并用GPSeekerQuan對(duì)數(shù)據(jù)進(jìn)行定量分析,控制條件為3個(gè)技術(shù)重復(fù)中出現(xiàn)2次以上、差異表達(dá)倍數(shù)≥1.5和p-value<0.05,篩選得到定量結(jié)果(詳見2.3節(jié))。
圖3 1∶1標(biāo)記完整N-糖肽樣本制備流程Fig.3 Experimental procedures for preparing the 1∶1 labeled N-glycopeptide mixture
圖4 完整N-糖肽LC-MS/MS分析流程Fig.4 Experimental procedures for LC-MS/MS analysis of intact N-glycopeptides
1.3.1人類N-連接糖理論數(shù)據(jù)庫 哺乳動(dòng)物N-連接糖的生物合成過程已研究得較為透徹[5,33]。在內(nèi)質(zhì)網(wǎng)中,脂質(zhì)連接寡糖在寡糖基轉(zhuǎn)移酶的作用下,將糖轉(zhuǎn)移至蛋白質(zhì)的天冬酰胺殘基上,單糖組成為Glc3Man9GlcNAc2[34]。葡萄糖轉(zhuǎn)移酶將葡萄糖逐個(gè)切除形成Man9GlcNAc2,隨后糖蛋白在內(nèi)質(zhì)網(wǎng)中折疊,并在α-甘露糖苷酶作用下失去1個(gè)甘露糖,正確折疊的糖蛋白進(jìn)入高爾基體的順面膜囊,繼續(xù)丟失甘露糖直至形成Man5GlcNAc2,以上結(jié)構(gòu)均為高甘露糖型。接著,N-乙酰葡萄糖殘基與甘露糖殘基相結(jié)合,形成雜合型聚糖結(jié)構(gòu);糖蛋白轉(zhuǎn)移至中間膜囊時(shí),2個(gè)甘露糖可切除形成雙天線,并且在另一個(gè)天線上連接N-乙酰葡萄糖胺,形成復(fù)雜型聚糖結(jié)構(gòu);巖藻糖、半乳糖、唾液酸等單糖可在高爾基體的中間膜囊和反面膜囊中對(duì)聚糖進(jìn)行修飾。基于生物合成過程,得知構(gòu)成人類N-連接糖的單糖有7種,分別是巖藻糖(F)、葡萄糖(G)、甘露糖(M)、半乳糖(L)、N-乙酰葡萄糖胺(Y)、N-乙酰半乳糖胺(V)和唾液酸(S)。人類N-連接糖由于單糖組成、序列和鏈接位置的不同,導(dǎo)致其種類繁多。單糖組成相同,序列和鏈接位置的差別會(huì)導(dǎo)致序列異構(gòu)和鏈接異構(gòu),如巖藻糖的序列異構(gòu)導(dǎo)致了核心巖藻糖和支鏈巖藻糖的差異,唾液酸有α-2,3和α-2,6的鏈接異構(gòu)體,由此可見,對(duì)人類N-連接糖的組成和結(jié)構(gòu)解析具有較大難度。
質(zhì)譜廣泛用于研究N-連接糖的組成和結(jié)構(gòu),因此可配合質(zhì)譜搜索引擎使用的N-連接糖理論數(shù)據(jù)庫得以構(gòu)建。N-連接糖理論數(shù)據(jù)庫主要由聚糖在質(zhì)譜中的參數(shù)構(gòu)建,例如保留時(shí)間、質(zhì)荷比(m/z)、峰強(qiáng)度等,與樣本電離方式和裂解方式相關(guān)。多孔石墨化碳液相色譜(PGC-LC)對(duì)唾液酸化聚糖的選擇性較高,能夠很好地分離含唾液酸的異構(gòu)聚糖。Abrahams等[35]建立在PGC-LC-ESI-MS方法下的糖洗脫時(shí)間庫,作為GlycoStore中的一部分,同時(shí)參考m/z值確定單糖組成,但是這種方法的不足之處在于需要將糖從多肽上切除,缺少位點(diǎn)和多肽序列信息。GlyDB[36]適用于對(duì)完整N-糖肽分析時(shí)的糖結(jié)構(gòu)解析,裂解方式是碰撞誘導(dǎo)解離,糖苷鍵斷裂而單糖保持完整。Gao等[37]按4種核心結(jié)構(gòu)部分和支鏈部分構(gòu)建N-連接糖理論數(shù)據(jù)庫Glyquest,其中包含所有單糖組成的分子質(zhì)量和在碰撞誘導(dǎo)解離下的二級(jí)理論譜圖,在匹配過程中,首先計(jì)算質(zhì)子化多肽的分子質(zhì)量,將前體離子的分子質(zhì)量減去質(zhì)子化多肽的分子質(zhì)量得到糖的分子質(zhì)量,接著將得到的糖的分子質(zhì)量與Glyquest中糖的分子質(zhì)量進(jìn)行比對(duì),在允許范圍內(nèi)得到候選聚糖結(jié)構(gòu),最后將候選聚糖結(jié)構(gòu)的二級(jí)碎片理論譜圖與實(shí)驗(yàn)二級(jí)譜圖匹配,得出圖形結(jié)果。
本課題組根據(jù)逆向合成策略構(gòu)建人類N-連接糖理論數(shù)據(jù)庫[38]。Xiao等針對(duì)3種糖型,基于最大理論N-連接糖,依次切除單糖,直至剩余核心五糖結(jié)構(gòu),從而構(gòu)建所有可能的聚糖結(jié)構(gòu),并去除不符合生物合成過程的糖型,共得到75 888種糖型。人類的N-連接糖理論數(shù)據(jù)庫包含73 516種(92%)復(fù)雜型、6 062(8%)種雜合型和33種(0.04%)高甘露型?;诒菊n題組的HCD裂解方式和單糖碎裂方式,總結(jié)每種糖型可能產(chǎn)生的碎片離子,Xiao等根據(jù)iMEF算法設(shè)計(jì)了Glyseeker[39],匹配前體離子和碎片離子的m/z、指紋輪廓用于鑒定N-連接糖的組成、結(jié)構(gòu)拼合基于結(jié)構(gòu)診斷離子,可鑒定到人正常干細(xì)胞(LO2)中共有214種N-連接糖,其中雜合型和復(fù)雜型占比較高,僅有8種高甘露糖型,另有80種聚糖包含巖藻糖,27種聚糖包含唾液酸,而有69種聚糖既有巖藻糖又有唾液酸。
基于質(zhì)譜的N-糖蛋白組學(xué)研究的另一大挑戰(zhàn)是對(duì)質(zhì)譜數(shù)據(jù)的解析,從中得到多肽序列、糖基化位點(diǎn)和糖的組成和結(jié)構(gòu),這依賴于算法和搜索引擎的研發(fā)。截止目前,適用于完整N-糖肽的搜索引擎有Byonic[30]、GPFinder[40]、SugarQb[41]等,本文重點(diǎn)闡述GPQuest[42]、pGlyco 2.0[43]和GPSeeker[32,44]。
1.3.2數(shù)據(jù)庫搜索引擎GPQuest GPQuest是一種基于質(zhì)譜圖數(shù)據(jù)庫解析的軟件,完整糖肽由LC-HCD-MS/MS檢測(cè)。譜圖數(shù)據(jù)庫的建立依賴于Proteome Discoverer(PD)軟件,含有糖基化位點(diǎn)的多肽在PD中檢索并得到實(shí)驗(yàn)圖譜(匹配到的碎片離子>4),集合成實(shí)驗(yàn)譜圖數(shù)據(jù)庫(SLB)。GPQuest的工作流程是:在所有完整N-糖肽的實(shí)驗(yàn)譜圖挑選出包含2種及以上氧鎓離子(138(internal fragment of HexNAc)),145(Hex-H2O),163(Hex),168(HexNAc-2H2O),186(HexNAc-H2O),204(HexNAc),325(Hex2),366(HexHexNAc),274(Neu5Ac-H2O),292(Neu5Ac))的譜圖,這些譜圖與實(shí)驗(yàn)譜圖數(shù)據(jù)庫進(jìn)行比對(duì),匹配到的b-和y-離子滿足一定比例要求,再控制錯(cuò)誤發(fā)現(xiàn)率FDR≤1%;而后根據(jù)前體離子質(zhì)量和匹配到的多肽離子質(zhì)量得到聚糖質(zhì)量,再將聚糖質(zhì)量在糖數(shù)據(jù)庫中搜索匹配得到單糖組成。GPQuest通過構(gòu)建誘餌數(shù)據(jù)庫來控制FDR,誘餌數(shù)據(jù)庫的構(gòu)成原理是將SLB中含有糖基化位點(diǎn)的多肽氨基酸序列打亂,再將其分組為與目標(biāo)數(shù)據(jù)庫中相同長度的誘餌肽序列。治療性蛋白質(zhì),如促紅細(xì)胞生成素(EPO)、凝血因子和抗體廣泛應(yīng)用于疾病治療中,其中糖蛋白質(zhì)數(shù)量較多,解析這些糖蛋白的位點(diǎn)和結(jié)構(gòu)至關(guān)重要。中國倉鼠卵巢(CHO)細(xì)胞系是產(chǎn)生治療性蛋白質(zhì)的主要來源,張會(huì)教授課題組利用GPQuest解析CHO細(xì)胞系中糖蛋白質(zhì)的位點(diǎn)和結(jié)構(gòu),共鑒定到10 338個(gè)完整N-糖肽,來源于530個(gè)糖蛋白質(zhì)上的1 162個(gè)糖基化位點(diǎn)[45]。Sun等[46]對(duì)來源于100個(gè)以上志愿者的混合血清進(jìn)行了完整N-糖肽的位點(diǎn)和結(jié)構(gòu)特異性的鑒定,借助GPQuest鑒定到1 359個(gè)完整N-糖肽,涉及63種聚糖組成和370個(gè)糖基化位點(diǎn),88%糖型為復(fù)雜型并且包含唾液酸,通過質(zhì)譜圖的解析,發(fā)現(xiàn)并驗(yàn)證了2種非典型N-糖基化位點(diǎn),多肽序列LVNEVTEFAK(來源于白蛋白)和NGVAQEPVHLDSPAIK(來源于α-1B糖蛋白)均發(fā)生N-糖基化修飾,修飾糖型為N4H5S1和N4H5S2。
1.3.3數(shù)據(jù)庫搜索引擎pGlyco pGlyco 2.0適用于SCE-HCD-MS/MS的完整糖肽解析,解析完整N-糖肽過程分為粗略評(píng)分、精細(xì)評(píng)分和糖肽譜圖匹配FDR控制。聚糖數(shù)據(jù)庫從GlycomeDB(www.glycome-db.org)下載。以1張質(zhì)譜圖為例,首先是粗略評(píng)分階段,前體離子的質(zhì)量減去聚糖數(shù)據(jù)庫中每種聚糖的質(zhì)量,得到多肽主鏈質(zhì)量,由此可以推算出所有Y離子的質(zhì)量,通過匹配到的Y離子數(shù)量給每種聚糖打分(涉及匹配的峰的數(shù)量、質(zhì)量誤差和三甘露糖核心離子數(shù)量),并且要求每種三甘露糖核心離子不少于2個(gè),對(duì)分?jǐn)?shù)排名在前100的候選聚糖進(jìn)入精細(xì)評(píng)分步驟。在精細(xì)評(píng)分階段,利用pFind對(duì)多肽骨架質(zhì)量進(jìn)行檢索匹配出候選多肽,并對(duì)候選多肽打分(涉及匹配的峰的數(shù)量、質(zhì)量誤差和三甘露糖核心離子數(shù)量),候選多肽和候選聚糖組合成候選糖肽,候選糖肽的分?jǐn)?shù)是候選糖分?jǐn)?shù)和候選多肽分?jǐn)?shù)的加權(quán)總和。FDR控制分為基于同位素的FDR控制和基于捕獲的FDR控制?;谕凰氐募訇栃耘袛鄻?biāo)準(zhǔn)是一級(jí)質(zhì)譜中錯(cuò)誤鑒定的未標(biāo)記與標(biāo)記對(duì),而基于捕獲的假陽性判斷標(biāo)準(zhǔn)是用其他物種來源的蛋白庫和糖庫鑒定到的糖肽。Zhang等[47]分別提取了51名前列腺癌(PCa)患者和45名前列腺增生(BPH)患者的血液IgG,并對(duì)IgG酶切后富集完整N-糖肽,利用LC-MS/MS分析并用pGlyco 2.0和MaxQuant進(jìn)行定性和非標(biāo)定量,發(fā)現(xiàn)IgG2上的EEQFNSTFR_H5N5S1在PCa中表達(dá)倍數(shù)是BPH的5.74倍,而EEQFNSTFR_H5N5在PCa中下調(diào),認(rèn)為EEQFNSTFR_H5N5S1是前列腺癌的潛在診斷標(biāo)志物,AUC為0.702,優(yōu)于現(xiàn)在的臨床診斷標(biāo)志物前列腺特異抗原。Lu課題組[48]對(duì)100名乙肝相關(guān)肝硬化患者和100名乙肝相關(guān)肝癌患者血清中的完整N-糖肽在H216O/H218O標(biāo)記后進(jìn)行LC-MS/MS分析后,用pGlyco定性定量檢索,共鑒定到305種完整N-糖肽,在出現(xiàn)次數(shù)、FDR和打分等條件篩選下得到60種完整N-糖肽,其中來源于IgA2的TPLTANITK_H5N5S1F1/H5N4S2F1在肝癌患者中明顯下調(diào),多重反應(yīng)監(jiān)測(cè)(MRM)分析發(fā)現(xiàn),這2種糖肽在乙肝相關(guān)肝硬化患者和乙肝患者中比健康志愿者都存在明顯上調(diào),推斷IgA2在乙型肝炎的發(fā)病機(jī)制中存在某種介導(dǎo)作用。
1.3.4數(shù)據(jù)庫搜索引擎GPSeeker GPSeeker搜索引擎是基于同位素質(zhì)荷比和指紋輪廓(iMEF)算法對(duì)完整N-糖肽定性定量的軟件,其整合了使用相同算法的完整蛋白質(zhì)數(shù)據(jù)庫搜索引擎ProteinGoggle2.0[49]和N-連接糖數(shù)據(jù)庫搜索引擎GlySeeker[39]。從Uniprot中下載的人源蛋白數(shù)據(jù)庫在遵循酶切規(guī)則和N-糖基化特征序列條件下建立Y1離子理論數(shù)據(jù)庫,其中包含前體離子和碎片離子的理論同位素輪廓,而N-連接糖理論數(shù)據(jù)庫包含根據(jù)逆向合成策略構(gòu)建的75 888種N-連接糖的碎片離子。完整N-糖肽的鑒定流程是:選取包含1種及以上氧鎓離子的二級(jí)譜圖,尋找這些二級(jí)譜圖中信號(hào)強(qiáng)度前20峰的同位素峰m/z偏差值(IPMD)、同位素峰強(qiáng)度最低值(IPACO)和同位素峰強(qiáng)度偏差(IPAD)在允許范圍內(nèi)的Y1離子,同時(shí)經(jīng)過三重核心離子匹配驗(yàn)證;接著搜索含有糖基化位點(diǎn)是多肽理論的碎片離子,匹配時(shí)碎片離子應(yīng)滿足一定比例,再從對(duì)應(yīng)的一級(jí)譜圖中找到完整N-糖肽的前體離子,同樣進(jìn)行指紋輪廓的比對(duì),需滿足IPMD、IPACO、IPAD的要求;對(duì)應(yīng)的N-連接糖的實(shí)驗(yàn)碎片離子和理論碎片離子同理,N-連接糖匹配碎片離子數(shù)(MPs)、N-連接糖P score得分排名(TopN Hits)和同一個(gè)P score得分對(duì)應(yīng)的N-連接糖匹配譜圖的數(shù)量(NoHs)滿足參數(shù)設(shè)置。糖基化位點(diǎn)由多肽骨架碎片離子推斷,完整N-糖肽上的聚糖和多肽骨架在解離能量的碰撞下斷裂,并在天冬酰胺上保留1個(gè)N-乙酰葡萄糖胺,從而改變m/z,即可以通過解析碎片離子上是否包含GlcNAc來確定位點(diǎn)。如來源于尿液中的完整N-糖肽EDIFMETLKDIVEYYNDSNGSHVLQGR_N4H5S2包含2個(gè)潛在糖基化位點(diǎn),碎片離子y12*和y13*雖包含GlcNAc,但是無法區(qū)分位點(diǎn),而y9*和y10*可以明確指出糖基化位點(diǎn)是N112,示于圖5[50]。另外,GPSeeker在解析聚糖結(jié)構(gòu)時(shí),引用結(jié)構(gòu)診斷離子,也稱之為特征碎片離子,可以獨(dú)立區(qū)分該結(jié)構(gòu)與其他相同組成的結(jié)構(gòu),根據(jù)結(jié)構(gòu)診斷離子可以準(zhǔn)確推斷N-連接糖結(jié)構(gòu)。Shen等[50]對(duì)人體尿液中的完整N-糖肽進(jìn)行鑒定,在多肽骨架WFSAGLASNSSWLR上鑒定到聚糖N4H5F1S2,在對(duì)糖碎片離子解析中找到結(jié)構(gòu)診斷離子AI4/YI3/YI2/YI1和ZI4/YI3/YI1,由此推斷出聚糖結(jié)構(gòu)分別為01Y41Y41M(31M)61M(21Y(31F)41L32S)61Y41L32S和01Y(61F)41Y41M(31M)61M(21Y41L32S)61Y41L32S,示于圖6。構(gòu)建的誘餌數(shù)據(jù)庫可以對(duì)鑒定結(jié)果進(jìn)行假陽性控制,誘餌庫是用反序的氨基酸序列產(chǎn)生含糖基化位點(diǎn)的多肽數(shù)據(jù)庫和隨機(jī)添加1~30 u的質(zhì)量產(chǎn)生N-連接糖數(shù)據(jù)庫。GPSeeker可以對(duì)同位素標(biāo)記的樣本進(jìn)行定量分析,輕重標(biāo)記的前體離子的同位素輪廓信息可與理論同位素輪廓進(jìn)行比對(duì),并得出相對(duì)比例,從而實(shí)現(xiàn)定量。
注:*表示包含GlcNAc圖5 多肽骨架EDIFMETLKDIVEYYNDSNGSHVLQGR圖形解離圖[50]Fig.5 Graphical fragmentation map of the peptide backbone EDIFMETLKDIVEYYNDSNGSHVLQGR[50]
嚴(yán)重急性呼吸系統(tǒng)綜合癥冠狀病毒2(SARS-CoV-2)即新型冠狀病毒(新冠)從2019年發(fā)現(xiàn)至今已在國際上造成了大流行,每日新增確診人數(shù)屢創(chuàng)新高,變異病毒株變幻莫測(cè),疫苗的接種能有效避免病毒的感染,因此疫苗的有效性和安全性需要大量實(shí)驗(yàn)論證。在病毒攻擊人體過程中,SARS-CoV-2中刺突蛋白上的受體結(jié)合域(RBD)與宿主細(xì)胞上的血管緊張素轉(zhuǎn)化酶2(ACE2)結(jié)合。根據(jù)這一特點(diǎn),四川大學(xué)團(tuán)隊(duì)聯(lián)手多個(gè)科研團(tuán)隊(duì)研發(fā)出一種包含刺突蛋白受體結(jié)合域氨基酸殘基319-545位的重組疫苗[51],利用重組疫苗中的RBD結(jié)合ACE2,激發(fā)有效功能性抗體產(chǎn)生。在對(duì)重組RBD的表征中,通過對(duì)比分子質(zhì)量發(fā)現(xiàn)蛋白發(fā)生了大量糖基化,因此,通過GPSeeker對(duì)完整N-糖肽進(jìn)行鑒定,發(fā)現(xiàn)了3個(gè)N-糖基化位點(diǎn)N331,N334和N343,N-糖基化比例在30%左右。但是,對(duì)N-連接糖在SARS-CoV-2中所處位置研究發(fā)現(xiàn),N-連接糖位點(diǎn)集中在RBD的核心子域中,與ACE2距離較遠(yuǎn),所以不會(huì)影響抗體抗原結(jié)合。
目前,癌癥是全球第二大殺手,每日確診癌癥的人數(shù)屢創(chuàng)新高。隨著醫(yī)療的飛速發(fā)展,癌癥的診斷方式日新月異,精度不斷提升,癌癥標(biāo)志物的種類也在不斷壯大。在高精度分析儀器和新穎的搜索軟件幫助下,結(jié)構(gòu)特異的N-糖蛋白潛在癌癥標(biāo)志物被陸續(xù)發(fā)現(xiàn)。
Xiao等[44]首次使用GPSeeker對(duì)肝癌的結(jié)構(gòu)特異N-糖蛋白組學(xué)進(jìn)行描繪并定量分析,利用二甲基標(biāo)記從HepG2和LO2細(xì)胞中提取完整N-糖肽,通過二維液相分離,Q-Exactive質(zhì)譜分析,在3個(gè)技術(shù)重復(fù)中,共鑒定到1 077個(gè)糖蛋白上的5 405個(gè)完整N-糖肽,其中定量到的完整N-糖肽數(shù)量為2 593個(gè),有720個(gè)完整N-糖肽存在差異表達(dá)(表達(dá)倍數(shù)≥1.5,p-value<0.05)。在這次鑒定中,不僅觀察到相同N-糖基化位點(diǎn)上不同單糖組成的N-糖蛋白同方向上的表達(dá)差異,如表皮生長因子受體(EGGR)的361號(hào)N-糖基化位點(diǎn)(簡寫為N361)上的2種單糖組成N2H7F0S0和N2H8F0S0在肝癌細(xì)胞中分別出現(xiàn)了4.8~6.9倍的上調(diào);還觀察到相同N-糖基化位點(diǎn)上不同單糖組成的N-糖蛋白不同方向上的表達(dá)差異,如組織蛋白酶D的N263位點(diǎn),單糖組成N2H5F0S0的完整N-糖肽在HepG2和LO2細(xì)胞中表達(dá)無差異,而單糖組成為N2H7F0S0的完整N-糖肽在HepG2細(xì)胞中有明顯的低表達(dá),表達(dá)倍數(shù)為10倍(0.1±0.0)。出乎意料的是,發(fā)現(xiàn)了相同N-糖基化位點(diǎn)上相同單糖組成但結(jié)構(gòu)特異的N-糖蛋白表達(dá)差異,由于位置異構(gòu)和連接異構(gòu)的完整N-糖肽在penta-HILIC(2.7 μm, 90 ?)洗脫時(shí)間上存在差異,所以根據(jù)洗脫時(shí)間可以推斷出結(jié)構(gòu)差異,如整合蛋白α-3的N265位點(diǎn)上的單糖結(jié)構(gòu)N4H5F0S1,其中唾液酸存在α-2,3和α-2,6鏈接異構(gòu)體,在色譜圖中可以看到洗脫時(shí)間相差約2.5 min的2個(gè)峰,較早洗脫出的α-2,3鏈接異構(gòu)體在肝癌細(xì)胞中有1.7倍的上調(diào),而較晚洗脫出的2,6-鏈接異構(gòu)體沒有明顯的差異表達(dá),示于圖7。除了唾液酸的鏈接異構(gòu),巖藻糖的位置異構(gòu)也可以被清晰分辨出來,整合蛋白α-3的N107位點(diǎn)糖肽的結(jié)構(gòu)診斷離子Y1包含巖藻糖,較早洗脫出的核心巖藻糖結(jié)構(gòu)存在1.5倍上調(diào),而支鏈巖藻糖結(jié)構(gòu)出現(xiàn)了2.5倍的下調(diào),示于圖8。單糖結(jié)構(gòu)同時(shí)出現(xiàn)的位置異構(gòu)和連接異構(gòu)也可被分離并完整鑒定,如在洗脫時(shí)間為80~85 min的色譜圖中,觀察到4個(gè)色譜峰,對(duì)應(yīng)的完整N-糖肽是NGSLFAFR_N3H6F0S1,根據(jù)之前的表述可以確定唾液酸的鏈接異構(gòu),而結(jié)構(gòu)診斷離子BI2可以確定是由2個(gè)甘露糖相連接,玻連蛋白(VTN)上觀測(cè)到的4種異構(gòu)體在HepG2細(xì)胞上都存在明顯上調(diào),可以作為潛在標(biāo)志物繼續(xù)進(jìn)行研究。
注:a,d.前體離子同位素指紋輪廓;b,e.二級(jí)多肽碎片離子和糖碎片離子;c,f.多肽骨架圖形解離圖;g,h.N-連接糖圖形解離圖圖6 完整N-糖肽WFSAGLASNSSWLR_N4H5F1S2不同糖型圖形解離圖Fig.6 Graphical maps of intact N-glycopeptide WFSAGLASNSSWLR_N4H5F1S2 with different N-glycan structures
圖7 完整N-糖肽NITIVTGAPR_01Y41Y41M(31M41Y41L)61M61Y41L32S(左,變化倍數(shù)1.7±0.3)和NITIVTGAPR_01Y41Y41M(31M41Y41L)61M61Y41L62S(右,變化倍數(shù)1.1±0.1)在3個(gè)技術(shù)重復(fù)中的積分色譜圖(b,e,h),前體離子同位素指紋輪廓(a,c,d,f,g,i)和完整N-糖肽圖形解離圖Fig.7 Extracted ion chromatograms (b, e, h), isotopic envelopes of the precursor ions (a, c, d, f, g, i) and graphical fragmentation maps of the intact N-glycan moieties of the intact N-glycopeptides NITIVTGAPR_01Y41Y41M(31M41Y41L)61M61Y41L32S(left, fold change 1.7±0.3) and NITIVTGAPR_01Y41Y41M(31M41Y41L)61M61Y41L62S(right, fold change 1.1±0.1) in three technical replicates
圖8 完整N-糖肽MNITVK_01Y41Y41M(31M21Y(31F)41L32S)61M61Y41L32S(左,下調(diào)0.4±0.1)和MNITVK_01Y(61F)41Y41M(31M41Y41L32S)61M61Y41L32S(右,上調(diào)1.5±0.1)的同位素指紋輪廓(a,b)和完整N-糖肽圖形解離圖和結(jié)構(gòu)診斷離子Fig.8 Isotopic envelopes of the precursor ions (a, b), graphical fragmentation maps of the intact N-glycan moieties and structure diagnostic ions of the intact N-glycopeptides MNITVK_01Y41Y41M(31M21Y(31F)41L32S)61M61Y41L32S(left, fold change 0.4±0.1) and MNITVK_01Y(61F)41Y41M(31M41Y41L32S)61M61Y41L32S (right, fold change 1.5±0.1)
Xue等[52]研究了人乳腺癌細(xì)胞(MCF-7)和人正常乳腺上皮細(xì)胞(MCF-10A)中差異表達(dá)位點(diǎn)和結(jié)構(gòu)特異的N-糖蛋白組學(xué),提取2種細(xì)胞系中的蛋白,并用ZIC-HILIC富集完整N-糖肽,經(jīng)二乙基標(biāo)記后以1∶1混合,用C18-RPLC-ESI-MS/MS在線分析,技術(shù)重復(fù)5次,由GPSeeker和GPSeekerQuan進(jìn)行定性、定量分析,最終鑒定了581個(gè)完整N-糖肽,歸屬于220個(gè)N-糖蛋白,包含114種糖型(59種單糖組成),其中73.84%為高甘露糖結(jié)構(gòu),10.67%為雜合型結(jié)構(gòu),15.49%為復(fù)雜型結(jié)構(gòu)。糖基化的宏觀異質(zhì)性和微觀異質(zhì)性在MCF-7/MCF-10A中都有體現(xiàn)。如溶酶體相關(guān)膜糖蛋白1(LAMP1),其N84的聚糖結(jié)構(gòu)01Y(61F)41Y41M(31M)61M由12個(gè)結(jié)構(gòu)診斷離子確定(BII1,YI3,YI1等),N103的聚糖結(jié)構(gòu)01Y41Y41M(31M41Y41L32S)61M61M由25個(gè)結(jié)構(gòu)診斷離子確定(03AI2,BI1,YI1等),同時(shí)N103上還鑒定到N2H4F0S0和N2H5F0S0 2種單糖組成,分別有22和23種結(jié)構(gòu)診斷離子。在相對(duì)定量分析中,定量了249種完整N-糖肽,113種在5組技術(shù)重復(fù)中出現(xiàn)3次以上,56種完整N-糖肽在細(xì)胞系中差異表達(dá)。經(jīng)分析,部分糖蛋白被推測(cè)為乳腺癌的潛在標(biāo)志物。NY-BR-1和α1酸糖蛋白只在MCF-7中表達(dá),被認(rèn)為是高度敏感標(biāo)志物;在大多數(shù)癌癥中都顯示為下調(diào)的微纖維相關(guān)糖蛋白4(MFAP4),在MCF-7中的2種糖型N2H5F0S0和N2H6F0S0也都出現(xiàn)了相對(duì)下調(diào);檢測(cè)到CD276抗原存在于MCF7中,而在MCF-10A中缺失,此糖蛋白在乳腺癌組織中也曾被報(bào)道;對(duì)于MUC-16,15種完整N-糖肽被定性,而這種蛋白在其他癌癥中也經(jīng)常被報(bào)道,如卵巢癌、胃癌和乳腺癌;組織蛋白酶D(CATD)在MCF-7中上調(diào)。
胰腺癌作為一種惡性腫瘤,早期病癥難以察覺,確診多為晚期。從N-糖蛋白組學(xué)角度探究診斷標(biāo)志物大有裨益。Lu等[53]開展了4組胰腺癌組織和癌旁組織中N-糖肽的位點(diǎn)和結(jié)構(gòu)特異性研究,以期尋找合適的潛在標(biāo)志物。利用對(duì)完整N-糖肽的分析流程,作者首次運(yùn)用GPSeeker對(duì)胰腺組織復(fù)雜樣本進(jìn)行鑒定,共鑒定來源于3 437種糖蛋白的20 038個(gè)完整N-糖肽,其中有結(jié)構(gòu)診斷離子的共有10 071種,在滿足要求成對(duì)的前體離子中觀察到6個(gè)同位素峰,同位素峰強(qiáng)度偏差和m/z偏差在誤差范圍內(nèi),定量得到并出現(xiàn)次數(shù)大于等于3的完整N-糖肽共有4 072個(gè),差異表達(dá)的N-糖蛋白共有52個(gè),表達(dá)上調(diào)38個(gè),下調(diào)14個(gè)。針對(duì)每種糖肽的位點(diǎn)和結(jié)構(gòu)分析,不同位點(diǎn)但具有相同糖型的情況引起了注意,高甘露糖型N2H5F0S0在多個(gè)差異表達(dá)的糖肽中出現(xiàn),并且在癌組織中表現(xiàn)出明顯上調(diào),這一現(xiàn)象值得深入探討。根據(jù)其他已報(bào)道的蛋白標(biāo)志物以及糖蛋白質(zhì)在癌癥中的應(yīng)用,對(duì)比篩選后,作者討論了胰腺癌的潛在標(biāo)志物。組織蛋白酶D(CATD)中不同糖基化位點(diǎn)的差異表達(dá)不完全相同,一系列高甘露糖結(jié)構(gòu)N263_N2HxF0S0(x=4,5,6,7)在癌組織中出現(xiàn)了1.74~4.73倍不同程度的上調(diào),而N2H5F0S0呈現(xiàn)0.37倍的下調(diào),人前梯度蛋白2(AGR2)在胰腺癌中高表達(dá),而AGR2通過CATD可以促進(jìn)體內(nèi)外癌細(xì)胞的增殖,揭示了CATD參與胰腺癌的發(fā)病機(jī)理;三肽基肽酶1(TPP1)和雙糖鏈蛋白聚糖(BGN)在胰腺癌中出現(xiàn)了不同程度的上調(diào),TPP1在胰腺癌的病變前體粘液性囊腫中水平顯著增加,而BGN與胰腺癌細(xì)胞的增殖起反向作用,可為胰腺癌的治療提供指導(dǎo)。作為一種新型癌癥相關(guān)蛋白,神經(jīng)細(xì)胞引領(lǐng)蛋白3(NAV3)首次在胰腺癌中出現(xiàn)6.26~9.71倍的高表達(dá)。
靶向藥物的研發(fā)可以延長癌癥患者的生存時(shí)間,改善患者的生存條件甚至治愈患者。耐藥性是患者生存的一大絆腳石,耐藥機(jī)理也成為現(xiàn)代醫(yī)學(xué)的關(guān)注點(diǎn)之一。因此,從N-糖蛋白組學(xué)角度出發(fā)研究耐藥機(jī)理并尋找潛在標(biāo)志物頗有意義。
在對(duì)MCF-7/MCF10-A的N-糖蛋白組學(xué)研究的基礎(chǔ)上,Wang等[54]和Xu等[55]合作研究人乳腺癌細(xì)胞耐阿霉素(MCF-7/ADR)和人乳腺癌干細(xì)胞耐阿霉素(MCF-7/ADR CSCs)中具有位點(diǎn)和結(jié)構(gòu)特異性的N-糖蛋白。在細(xì)胞培養(yǎng)中選取1 000 μg/L阿霉素的人乳腺癌細(xì)胞群為MCF-7/ADR,利用CD24-和CD44-微珠抗體抓取MCF-7/ADR CSCs。
Xu等[55]將2種細(xì)胞分別裂解,提取蛋白并富集N-糖肽,二乙基標(biāo)記后1∶1混合,由RPLC-ESI-MS/MS分析,GPSeeker鑒定。控制FDR≤1%后,鑒定到4 016個(gè)完整N-糖肽,來源于1 014個(gè)糖蛋白上的1 102個(gè)糖基化位點(diǎn),其中有1 847個(gè)完整N-糖肽的結(jié)構(gòu)特異打分≥1。在相對(duì)定量中,基于鑒定到6個(gè)同位素峰強(qiáng)度的前提,共有657個(gè)完整N-糖肽在3次技術(shù)重復(fù)中出現(xiàn)2次以上,其中表達(dá)倍數(shù)在1.5倍以上的有247個(gè),其中196個(gè)上調(diào),51個(gè)下調(diào)。從差異表達(dá)的糖蛋白中,發(fā)現(xiàn)3個(gè)ATP結(jié)合盒式蛋白(ABC)家族中的ABCC5、ABCA4、ABCB9分別在MCF-7/ADR CSCs下調(diào)0.46、0.22倍和上調(diào)1.89倍,ABC可以發(fā)揮藥物外排泵的作用,這一結(jié)果可為未來的臨床治療提供更詳細(xì)的糖蛋白信息。
Yang等[56]對(duì)人乳腺癌耐藥干細(xì)胞(MCF-7 ADR/CSC)和人乳腺癌干細(xì)胞(MCF-7/CSC)中差異表達(dá)的完整N-糖肽進(jìn)行了定性定量研究,尋找耐藥潛在標(biāo)志物。在3個(gè)技術(shù)重復(fù)中,共鑒定到5 515個(gè)完整N-糖肽,包含1 737個(gè)糖基化位點(diǎn),來源于1 516個(gè)糖蛋白,380個(gè)差異表達(dá)的完整N-糖肽中共有87個(gè)上調(diào),293個(gè)下調(diào)。其中有2種糖蛋白既觀察到了上調(diào),也發(fā)現(xiàn)了下調(diào),長油酸二磷酸寡糖蛋白糖基轉(zhuǎn)移酶亞基(STT3A)上的完整N-糖肽N548_N2H8F0S0上調(diào)(1.78±0.22)倍,而N548_N6H4F0S0下調(diào)(0.34±0.04)倍;鋅指蛋白846(ZN846)中完整N-糖肽N544_N2H8F0S0下調(diào)(0.35±0.06)倍,而N117_N2H3F0S0上調(diào)(3.60±1.05)倍。通過分析信號(hào)通路,對(duì)差異表達(dá)的糖蛋白進(jìn)行了聚類,尋找到與耐藥相關(guān)的信號(hào)通路。首先是藥物轉(zhuǎn)運(yùn)相關(guān)糖蛋白,溶質(zhì)載體蛋白(SLC)可促進(jìn)抗癌藥物進(jìn)入細(xì)胞,而SCL22 member 4上的完整N-糖肽LATIANFSALGLEPGR_N2H3F1S0和S40A1上的LANMNATIRR_N3H6F0S1、N2H6F0S0與N2H7F0S0都出現(xiàn)了不同程度的下調(diào),抗癌藥物的攝取受到限制;其次是藥物代謝相關(guān)蛋白,棕櫚酰蛋白硫酯酶1(PPT1)可調(diào)節(jié)脂質(zhì)代謝,根據(jù)以往研究可知,PPT1上調(diào)會(huì)引發(fā)耐藥性,GINESYKK_N2H7F0S0在本次研究中出現(xiàn)了2.26倍的上調(diào);藥物作用期間會(huì)導(dǎo)致細(xì)胞DNA損傷而使細(xì)胞凋亡,DNA損傷修復(fù)作用會(huì)產(chǎn)生耐藥性,與DNA損傷修復(fù)相關(guān)的組蛋白-賴氨酸N-甲基轉(zhuǎn)移酶在MCF-7 ADR/CSC中被糖型N2H8F0S0修飾,并出現(xiàn)明顯下調(diào)。
癌癥干細(xì)胞在腫瘤的發(fā)生、轉(zhuǎn)移、治療中的耐藥和治愈后的復(fù)發(fā)中起著重要作用。
Wang等[57]在人乳腺癌干細(xì)胞(MCF-7/CSC)和人乳腺癌細(xì)胞(MCF-7)全細(xì)胞裂解的差異表達(dá)N-糖蛋白中,共鑒定到了2 558個(gè)完整N-糖肽,涉及640個(gè)糖蛋白和727個(gè)糖基化位點(diǎn)。在定量結(jié)果中,144個(gè)完整N-糖肽在MCF-7/CSC中相對(duì)于MCF-7差異表達(dá),其中上調(diào)的糖肽有53個(gè),下調(diào)的糖肽有91個(gè)。上調(diào)的53個(gè)完整N-糖肽來源于16個(gè)糖蛋白,其中有7個(gè)在其他文獻(xiàn)中已有報(bào)道;下調(diào)的91個(gè)完整N-糖肽來源于30個(gè)糖蛋白,其中有8個(gè)已有報(bào)道。CD14和氨肽酶N是乳腺癌干細(xì)胞的潛在標(biāo)志物,在定量分析中鑒定到了這2種糖蛋白,其中CD14上的完整N-糖肽LRNVSWATGR_N2H7F0S0輕微下調(diào)(0.80±0.03),氨肽酶N上的完整N-糖肽AEFNITLIHPK_N2H7F0S0明顯上調(diào)(12.03±1.07)。作者對(duì)比了MCF-7/CSC(與MCF-7差異表達(dá))和MCF-7/ADR CSC(與MCF-7/ADR差異表達(dá))2個(gè)體系中差異表達(dá)糖肽的結(jié)果,發(fā)現(xiàn)絲氨酸/蘇氨酸蛋白磷酸酶4調(diào)節(jié)亞基3A(PPP4R3A)上的完整N-糖肽TNLSGR_N2H8F0S0和內(nèi)質(zhì)網(wǎng)融合蛋白3(ATLA3)上的完整N-糖肽EINGSK_N2H8F0S0在CSC體系中出現(xiàn)明顯的差異表達(dá),分別是下調(diào)(4.11±0.19)倍和上調(diào)(3.21±0.61)倍,而這2種糖肽在ADR體系中并未出現(xiàn)差異表達(dá),這2種蛋白在干細(xì)胞體系和耐阿霉素體系中的不同生物功能有待進(jìn)一步研究。
Wang等采用相同的策略分析了MCF-7/ADR和MCF-7/ADR CSCs細(xì)胞表面上的N-糖蛋白,共鑒定到1 336個(gè)完整N-糖肽,來源于289個(gè)N-糖蛋白,定量結(jié)果中差異表達(dá)的完整N-糖肽共有72個(gè),其中64個(gè)上調(diào),8個(gè)下調(diào)。64個(gè)上調(diào)的完整N-糖肽來源于8個(gè)糖蛋白上的8個(gè)糖基化位點(diǎn),表達(dá)倍數(shù)由高到低分別是人中心體蛋白350(CE350)、含2-氧化戊二酸和鐵依賴加氧酶域3(OGFD3)、凝血因子V重鏈(FA5)、跨膜蛋白132D(T132D)、ATP/GTP結(jié)合蛋白1(CBPC1)、(1,4-N乙酰葡萄糖胺轉(zhuǎn)移酶(B4GN3)、GTP酶(GVIN1)和粘蛋白16(MUC16)。8個(gè)下調(diào)的完整N-糖肽來源于4個(gè)糖蛋白上的4個(gè)糖基化位點(diǎn),表達(dá)倍數(shù)由低到高分別是非傳統(tǒng)肌球蛋白VIIa(MYO7A)、免疫球蛋白受體2DL1(KI2L1)、絲氨酸/蘇氨酸蛋白磷酸酶4調(diào)節(jié)亞基3A(P4R3A)和膜相關(guān)鳥苷酸激酶倒3(MAGI3)。
Xu等[55]在MCF-7/ADR和MCF-7/ADR CSCs全細(xì)胞裂解的研究中發(fā)現(xiàn)了一些干細(xì)胞的潛在標(biāo)志物。如,人鋅指蛋白GLI1位點(diǎn)N344上單糖組成N2H8F0S0在癌癥干細(xì)胞中出現(xiàn)2.66倍的上調(diào);CD63抗原位點(diǎn)N130上單糖組成在癌癥干細(xì)胞中上調(diào)3.39倍;CD49F位點(diǎn)N323上單糖組成N2H6F0S0在癌癥干細(xì)胞中下調(diào)0.77倍。同時(shí),也定量到了一些尚未報(bào)道的糖蛋白。如,片段極性蛋白的同源物DVL-3、骨形成蛋白-7(BMP7)、缺氧上調(diào)蛋白1(HYOU1)和高速涌動(dòng)組蛋白B4(HMGB4)。
Yang等[56]在MCF-7 ADR/CSC和MCF-7/CSC體系中鑒定到與耐藥性相關(guān)的癌癥干細(xì)胞潛在標(biāo)志物CD63,鋅指蛋白GLI1和CD33。來自CD63蛋白上的完整N-糖肽NNHTASILDR_N2H8F0S0出現(xiàn)0.44倍下調(diào),而CD63上的完整N-糖肽NNHTASILDR_N2H6F0S0在MCF-7/CSC和MCF-7體系中被鑒定到0.44倍下調(diào)[57]。
N-糖蛋白質(zhì)在細(xì)胞粘附、信號(hào)傳導(dǎo)等方面發(fā)揮重要作用。N-糖蛋白質(zhì)因其豐度低和復(fù)雜多變的結(jié)構(gòu),其結(jié)構(gòu)特異性分析異常困難。多種富集方法克服了N-糖蛋白質(zhì)豐度低的挑戰(zhàn),高效串聯(lián)質(zhì)譜和搜索引擎的快速發(fā)展使復(fù)雜多變的結(jié)構(gòu)逐漸清晰。對(duì)完整N-糖肽上的N-連接糖結(jié)構(gòu)解析的同時(shí),還可以保留糖基化位點(diǎn)信息,是結(jié)構(gòu)特異N-糖蛋白質(zhì)組學(xué)研究的重要內(nèi)容。本文從完整N-糖肽的樣本制備流程、液相色譜-質(zhì)譜聯(lián)用分析方法和生物信息學(xué)數(shù)據(jù)解析等角度,對(duì)目前完整N-糖肽的結(jié)構(gòu)分析進(jìn)行概述。親水相互作用色譜法、凝集素色譜法和二氧化鈦富集法等富集方法可有效去除多肽對(duì)糖肽的信號(hào)干擾;等重標(biāo)簽、串聯(lián)質(zhì)量標(biāo)簽和同位素標(biāo)記方法有助于多個(gè)樣本的相對(duì)定量,在不同體系中尋找差異表達(dá)N-糖基化;N-連接糖理論數(shù)據(jù)庫涵蓋了N-連接糖的組成和結(jié)構(gòu),幫助數(shù)據(jù)搜索引擎解析結(jié)構(gòu)信息;GPQuest、pGlyco和GPSeeker各自采用不同的算法,對(duì)數(shù)據(jù)的評(píng)判標(biāo)準(zhǔn)各有特點(diǎn),其中GPSeeker基于同位素輪廓指紋比對(duì)來識(shí)別一級(jí)和二級(jí)質(zhì)譜中的前體離子和碎片離子,以及通過N-連接糖部分的結(jié)構(gòu)診斷性離子明確區(qū)分具有相同單糖組成的序列異構(gòu)體,能夠解析出完整N-糖肽的糖基化位點(diǎn)和N-連接糖部分的結(jié)構(gòu),在結(jié)構(gòu)特異N-糖蛋白組學(xué)方面得到了廣泛應(yīng)用,被成功運(yùn)用在細(xì)胞和組織等不同體系中。
基于GPSeeker對(duì)完整N-糖肽定性定量研究應(yīng)用于癌癥潛在標(biāo)志物的發(fā)現(xiàn)和新冠病毒疫苗的功能研究,推進(jìn)了結(jié)構(gòu)糖蛋白質(zhì)組學(xué)的進(jìn)一步發(fā)展,也為生物醫(yī)學(xué)領(lǐng)域提供了研究方向。但是,N-糖蛋白質(zhì)組學(xué)仍然存在些許欠缺。首先是樣本規(guī)模有待進(jìn)一步擴(kuò)大,從大數(shù)據(jù)角度分析差異表達(dá)的N-糖肽,結(jié)果才更具共性和廣泛性;其次,需要豐富樣本種類,對(duì)疾病的病灶組織分析應(yīng)用于機(jī)理研究,從體液中分析更便于臨床診斷,多種類型樣本分析更能體現(xiàn)生物的整體性;同時(shí)各種生物學(xué)分析方法需配合使用,增加可信度。
越來越多的潛在糖蛋白質(zhì)標(biāo)志物和藥物靶向糖蛋白被發(fā)現(xiàn)和證實(shí),拓寬了精準(zhǔn)醫(yī)學(xué)應(yīng)用領(lǐng)域,造福于被疾病困擾的人群,結(jié)構(gòu)特異的N-糖蛋白質(zhì)組學(xué)將會(huì)在這個(gè)全新的時(shí)代繼續(xù)深入發(fā)展,幫助解開人體的奧秘。