梁中潔,楊曉勤
(蘇州大學醫(yī)學部基礎醫(yī)學與生物科學學院,江蘇蘇州 215123)
人類基因組計劃的基本完成標記著后基因組時代的來臨。在面對基因組功能分析這一主要任務中,其核心思想是以系統(tǒng)和聯(lián)系的觀點來看待生物體內(nèi)的物質(zhì),研究遺傳信息如何通過基因經(jīng)轉(zhuǎn)錄向功能蛋白質(zhì)傳遞,基因功能如何由其表達產(chǎn)物蛋白質(zhì)及代謝物來體現(xiàn)。與基因組、轉(zhuǎn)錄組及蛋白質(zhì)組相比,代謝組學研究的代謝物組更接近生命活動的下游。DNA、mRNA 以及蛋白質(zhì)的存在為生物過程的發(fā)生提供了物質(zhì)基礎,而代謝物的變化可以反映發(fā)生了的生物學事件[1]。
與基因組和蛋白質(zhì)組的復雜序列數(shù)據(jù)庫相比,代謝組學的代謝物信息庫相對簡單。代謝物的種類相對較少,物質(zhì)的分子結(jié)構也要簡單得多。此外,代謝物作為生命活動的下游信號,對代謝產(chǎn)物的分析能更加準確有效地反映生物體的生理狀態(tài)。同時,代謝組學也存在局限性。目前的代謝組學分析不能將生物體所有的代謝產(chǎn)物全面涵蓋。在針對樣本的數(shù)據(jù)采集過程中,大多實驗儀器存在動力學局限性。
作為全局系統(tǒng)生物學的基礎和系統(tǒng)生物學的一個重要組成部分,代謝組學是典型的交叉學科,其研究內(nèi)容涉及儀器分析、化學計量學和生物化學等學科。普遍認為代謝組學這一概念是由Jeremy Nicholson教授于1999年提出來的。Nicholson教授也因為他在代謝組學發(fā)展上的開拓性貢獻,被學術界公認為代謝組學的創(chuàng)始人,被稱為“代謝組學之父”。作為生物信息學專業(yè)的專業(yè)課程,如何將代謝組學的研究方法引入到課堂教學過程中,是生物信息人才培養(yǎng)值得關注的教學研究問題。
在開展代謝組學研究時,第一步是要采集足夠量的樣本并進行制備。足量的樣本可以減少個體差異對結(jié)果分析的影響。在樣本采集過程中要充分考慮樣品的部位、種類及收集樣本的時間。在采集人類的組織樣本時,要充分考慮年齡因素對代謝物的影響,還要考慮地域、飲食、晝夜等具體因素。在研究微生物樣本時,微生物代謝物樣品的制備一般分為微生物培養(yǎng)、淬滅和代謝產(chǎn)物的提取。根據(jù)研究對象及分析技術的不同,樣品后續(xù)的提取和預處理方法也不同。在樣品存儲過程中,最好選擇-80℃進行保存。在分析過程中對樣本也要有嚴格的質(zhì)量控制。
由于代謝物小分子的復雜性,代謝物在分子量、揮發(fā)性、電遷移率、極性以及其他理化參數(shù)方面差異很大,現(xiàn)有的分析技術很難滿足對所有代謝物小分子進行分離檢測。因此,在代謝組學研究中經(jīng)常采用聯(lián)用技術和多個方法的綜合分析。目前代謝組學常用的分離分析手段包括稀薄氣液色譜技術(TLC)、高效液相色譜技術(HPLC)、質(zhì)譜技術(MS)、核磁共振技術(NMR)、紅外線光譜技術(IR)及高效毛細管電泳技術(HPCE)等。其中聯(lián)用手段氣相色譜與質(zhì)譜共用技術(GC/MS)、液相色譜與質(zhì)譜共用技術(LC/MS)及液相色譜與質(zhì)譜先后使用技術(LC/MS/MS)兼?zhèn)渖V的高分離度、高通量及質(zhì)譜的普適性、高靈敏度和特異性。而作為當前代謝組學研究中的主要技術,NMR具有較高的通量和較低的單位樣品檢測成本,對樣本具有無創(chuàng)性和無偏性,并有良好的客觀性和重現(xiàn)性。缺點是動態(tài)范圍有限,檢測靈敏度相對較低,同時購買儀器需要大量的資金投入。同時為了改善靈敏度,研究者們多采用液相色譜-核磁共振聯(lián)用(LC-NMR)技術。
代謝組學研究產(chǎn)生了大量的數(shù)據(jù),這些數(shù)據(jù)具有高維、高噪聲等組學數(shù)據(jù)特征。從復雜的代謝組學數(shù)據(jù)中找到有價值的信息成為近年來代謝組學研究的熱點[2]。在模式識別分類計算之前,應采用合適的數(shù)據(jù)預處理方法。處理手段主要包括歸一化、標準化及數(shù)據(jù)轉(zhuǎn)換。其中,歸一化主要是對樣本進行操作,為了減輕生物個體間較大的代謝物濃度差異或樣品采集過程中的差異,可以使用代謝物的相對濃度來校正個體差異對代謝物絕對濃度的影響。標準化是對代謝物進行的操作,主要是為了消除不同代謝物濃度數(shù)量級的差別帶來的影響。數(shù)據(jù)轉(zhuǎn)換是指通過對數(shù)據(jù)進行非線性變換將偏態(tài)分布的數(shù)據(jù)轉(zhuǎn)換成對稱分布的數(shù)據(jù),以此來滿足線性分析技術的要求。
代謝組學數(shù)據(jù)分析過程主要采用模式識別技術,根據(jù)樣本的標簽信息分為非監(jiān)督學習方法和有監(jiān)督學習方法。非監(jiān)督學習方法是在不使用樣本標簽的情況下,從原始譜圖信息出發(fā)對樣本進行歸類,并采用可視化技術直觀地表達出來。主要有主成分分析方法(PCA)、非線性映射及聚類分析等。有監(jiān)督學習方法是在已知樣本標簽的情況下建立類別間的數(shù)學模型,并利用建立的預測模型對未知的樣本進行標簽預測。這種方法需要建立用來確認樣品歸類的訓練集和用來測試模型性能的測試集。常用方法有偏最小二乘判別分析(PLS-DA)、支持向量機(SVM)及人工神經(jīng)網(wǎng)絡(ANN)等機器學習方法。
在生物體內(nèi),不同基因、蛋白及代謝物相互協(xié)調(diào)行使其生物學功能,基于通路的分析有助于更進一步了解代謝物的生物學功能。通路顯著性富集分析通常以KEGG通路為單位,應用超幾何檢驗,找出與整個背景相比,在差異代謝物中顯著性富集的通路。通過通路富集分析確定差異代謝物參與的信號轉(zhuǎn)導通路和生化代謝途徑。如果通過傳統(tǒng)的KEGG富集分析沒有找到研究相關的典型的代謝通路,還可以利用MSEA進行代謝通路的富集分析。另一方面,代謝網(wǎng)絡成為揭示海量的生物大分子、代謝小分子及其間的相互作用的重要工具。代謝網(wǎng)絡把所有生化反應表示為一個網(wǎng)絡,反映所有參與代謝過程的反應物之間以及催化酶之間的相互作用。關于代謝網(wǎng)絡的結(jié)構、功能和進化的研究已經(jīng)進行了數(shù)十年,并且代謝網(wǎng)絡正在從小規(guī)模系統(tǒng)演變?yōu)橄到y(tǒng)生物學中的大基因組規(guī)模的代謝網(wǎng)絡。細胞的代謝網(wǎng)絡是生物界的一種無標度網(wǎng)絡,具有不同的層次,代謝網(wǎng)絡一直處于對環(huán)境的變動的響應之中。通過代謝網(wǎng)絡結(jié)合組學數(shù)據(jù)的研究更有利于我們對疾病發(fā)生發(fā)展的認識,為藥物研發(fā)提供有價值的線索。
目前,代謝組學被廣泛應用于多個領域,如疾病診斷及預后、藥物開發(fā)及毒副作用研究、植物代謝組學和微生物代謝組學等多個方面[3]。在疾病研究中,代謝組學可以用于疾病的診斷、治療和預后的判斷。對病人的代謝物組進行全面的測定,不僅可以用于疾病的診斷,而且可以對疾病從發(fā)病開始到疾病加重的整個過程進行監(jiān)測。
在疾病的診斷過程中,生物標志物(Biomarker) 作為后基因組時代精準醫(yī)療的關鍵詞之一,是指一種可客觀檢測和評價的分子特征。生物標志物可作為正常生物學過程、病理過程或治療干預藥理學反應的指示因子,尋找和發(fā)現(xiàn)有價值的生物標志物已經(jīng)成為當前個性化醫(yī)療的研究熱點。生物標志物可以是和特定疾病特征相關的基因類信息(如單核苷酸多態(tài)性或者DNA的甲基化)、蛋白質(zhì)(如前列腺特異性抗原)或代謝物(如葡萄糖或膽固醇)等等。眾所周知,異常的基因不一定產(chǎn)生功能異常的蛋白質(zhì);類似地,異常蛋白質(zhì)不一定會對代謝物造成不利的影響。因此跟基因組學、轉(zhuǎn)錄組學及蛋白質(zhì)組學的研究相比,代謝組學由于與表型更為接近,更適于疾病分型和標志物發(fā)現(xiàn)的研究,從而對疾病發(fā)展進度做出有效診斷并及時進行預防和治療。
代謝組學在藥物研究方面也有極大的應用價值。首先,是在藥物靶點發(fā)現(xiàn)中的應用,通過對整個代謝組進行系統(tǒng)全面地分析,獲取大量代謝物的數(shù)據(jù)對其進行處理,通過差異代謝物分析疾病的發(fā)病機制,為生物標志物及潛在的藥物靶標提供重要的理論線索。其次,代謝組學在藥物毒副反應研究中也有很高的應用價值。理論上講,無論是藥物的毒性還是療效均是通過藥物或者代謝物影響基因表達,改變蛋白質(zhì)活性,調(diào)控內(nèi)源性代謝網(wǎng)絡而對機體產(chǎn)生作用。因此,通過分析血液、尿液或組織的代謝組就有可能獲取藥物代謝動力學、毒理學及藥理學的豐富信息。最后,代謝組學在天然產(chǎn)物研究中發(fā)揮了很大的作用。代謝組學中的儀器分析方法對生物體系的代謝物進行定性和定量研究中產(chǎn)生了大量的數(shù)據(jù),成為天然產(chǎn)物研究和開發(fā)的重要工具。一系列公開、方便且注釋良好的代謝組學數(shù)據(jù)庫和全功能軟件的開發(fā)促進了天然產(chǎn)物大數(shù)據(jù)的集成、處理和解釋。
在藥物開發(fā)中,代謝組學可用于藥物靶標的發(fā)現(xiàn)及天然產(chǎn)物的篩選,并在藥效及毒副作用評價和臨床評價等方面有著廣泛的應用。在植物代謝組學中,通過代謝輪廓和代謝指紋圖譜進一步了解植物的代謝途徑。在微生物代謝組學研究中,代謝組學技術可以用于微生物表型分類、微生物代謝工程及微生物降解環(huán)境污染等方面。
隨著代謝組學分析及檢測技術的進步,積累了大量代謝組學數(shù)據(jù)。目前,應用廣泛的人類代謝組數(shù)據(jù)庫(HMDB)于2007年首次發(fā)布,被認為是人類代謝研究的標準代謝組學資源。HMDB包含有關人類代謝物及其生物學作用、生理濃度、疾病相關性、化學反應、代謝途徑和參考光譜的綜合信息。HMDB可被應用于代謝組學、臨床化學、生物標志物發(fā)現(xiàn)等研究。藥物研究數(shù)據(jù)庫DrugBank包含批準的小分子藥物、批準的生物制劑、營養(yǎng)藥品、實驗藥物及藥物靶標信息。該數(shù)據(jù)庫還開辟了針對COVID-19的專欄,系統(tǒng)總結(jié)了新冠肺炎相關研究情況,幫助研究人員快速地獲取所需信息。代謝通路數(shù)據(jù)庫SMPDB是一個交互式的、可視化的數(shù)據(jù)庫,包含僅在人類中發(fā)現(xiàn)的3萬多條小分子通路。SMPDB是專為支持代謝組學、轉(zhuǎn)錄組學、蛋白質(zhì)組學和系統(tǒng)生物學中的通路闡明和通路發(fā)現(xiàn)而設計的。毒素和毒素靶標數(shù)據(jù)庫(T3DB)將詳細的毒素小分子數(shù)據(jù)和全面的毒素靶標信息結(jié)合在一起。
代謝組學的研究流程從樣本采集到數(shù)據(jù)收集,涉及大量的儀器分析方法。根據(jù)生物信息學專業(yè)設計理念,在代謝組學教學大綱的設計中,應當對儀器分析的原理及適用范圍做簡單介紹,能夠使同學們了解不同儀器分析在數(shù)據(jù)結(jié)果處理上的注意問題。同時,在大綱設定過程中,加大對代謝組學數(shù)據(jù)分析原理及方法的介紹。重點強調(diào)跟其他組學數(shù)據(jù)分析相比,代謝數(shù)據(jù)在前期數(shù)據(jù)預處理階段需要特別注意,不同的預處理方法會對結(jié)果產(chǎn)生較大的影響。同時,指導學生開展代謝組學文獻調(diào)研及閱讀工作。作為生物信息的前沿學科,讓同學們在課程學習后具有自我學習的能力更有價值。
代謝組學的研究對象是分子量小于1000的內(nèi)源小分子,適當引入化學信息學的方法將更有利于代謝組學內(nèi)容的學習。與藥物設計課程類似,代謝組學也是研究探討化學空間和生物學空間聯(lián)系的一門學科。通過內(nèi)源代謝物的分析來闡述機體的生理病理狀態(tài),在化學信息學方面學習化學分子的結(jié)構表達和數(shù)學描述,掌握化學信息的處理方法及分子相似性的計算,加深對代謝組學小分子數(shù)據(jù)庫的理解及提高數(shù)據(jù)檢索能力。在此基礎上熟悉小分子和蛋白質(zhì)相互作用預測模型的構建,了解網(wǎng)絡藥理學中的靶標預測及藥物重定位等研究應用[4]。通過對化學空間和生物學空間的探討,加深對疾病發(fā)生機制的理解和指導藥物靶標發(fā)現(xiàn)。在緊密結(jié)合生物信息學科特點的同時,本課程也將積極探索具有本學科特點的教育模式,與德育、智育、體育、美育相融合,培養(yǎng)全面發(fā)展的本科人才。
代謝組學是一門涉及多個學科知識的交叉學科,學生進行獨立自學的難度很大。課堂教學中,我們的教學應該是理論與實驗相結(jié)合。在理論教學中,要注意系統(tǒng)知識的傳授和方法原理的講解。在實驗教學過程中要與理論教學相吻合,注意方法原理與實際操作及結(jié)果分析的融合。在大數(shù)據(jù)的背景下,根據(jù)課程特點和教學內(nèi)容選擇最佳的教學方法是教學改革的一項重要內(nèi)容。在傳統(tǒng)的課堂教學外,加入適合其學生個性發(fā)展的“微課”“翻轉(zhuǎn)課堂”等現(xiàn)代教學模式,不僅引領學生把控現(xiàn)在,還得面向未來。在代謝組學數(shù)據(jù)分析方法掌握的基礎上,引導學生開展文獻檢索及文獻調(diào)研。發(fā)揮同學們的積極主動性,面對日益更新的組學技術及方法,使同學們具有自我學習的能力會使教學效果事半功倍。