錢尤雯 常顏信( 通訊作者)
(海軍軍醫(yī)大學第三附屬醫(yī)院 上海 200438)
生物信息學(Bioinformatics)是生命科學領域中的新興學科,是生物學、計算機科學、信息工程和統(tǒng)計學的綜合學科、交叉學科,主要內(nèi)容是使用生物算法和相關(guān)的軟件工具采集、處理、分析和解釋生物數(shù)據(jù)。其研究重點主要包含基因組學(Genomics)和蛋白質(zhì)組學(Proteomics)兩方面。生物信息學從核酸和蛋白質(zhì)序列出發(fā),分析序列中表達及結(jié)構(gòu)功能的生物信息,已成為當今許多生物學領域的重要組成部分[1,2]。并且,生物信息學產(chǎn)生了大量新技術(shù),新方法,為尋求復雜疾病的治病靶點,闡明其發(fā)病機制提供了幫助[3,4]。
醫(yī)學研究生教育擔負著培養(yǎng)高水平醫(yī)、教、研人才的重任,是推動國家醫(yī)學進步的重要途徑。教育改革形勢下,新政策和新制度的實施對醫(yī)學研究生特別是臨床醫(yī)學研究生提出了更高的要求和挑戰(zhàn),不僅要重視臨床技能的培養(yǎng),科研能力的培養(yǎng)也同樣重要[5]。然而,醫(yī)學研究生教育一般學制三年,研究生面臨著理論學習、臨床輪轉(zhuǎn)和課題研究三重任務。課題研究占據(jù)著很大的權(quán)重,很多高校畢業(yè)均有SCI 論文發(fā)表的要求,但醫(yī)學研究及論文發(fā)表的周期往往較為漫長,高質(zhì)量地完成研究并成功發(fā)表論文成為了研究生教育中的一大挑戰(zhàn)。
生物信息學分析為研究生課題完成提供了較為快捷的手段獲取相應數(shù)據(jù),以腫瘤分子生物學研究例,分別從以下方面探討其具體應用:
腫瘤分子生物學研究類課題一般圍繞某個基因展開,完整的研究包含:相關(guān)基因在腫瘤中的表達水平、基因在腫瘤中的生物學功能、基因發(fā)揮作用的機制、基因與臨床信息的相關(guān)性。傳統(tǒng)的研究,一般需要首先獲取一定數(shù)目的組織樣本,檢測基因在組織中的表達水平,然后進行細胞水平與動物水平的雙重驗證,獲得包含預后的臨床信息,進行相關(guān)性分析,最后多種手段去研究分子機制。其中每一步的實施都是費時費力,而且不一定都會得到符合預期的數(shù)據(jù)結(jié)果。尤其是課題進行過半,若后續(xù)結(jié)果不盡人意,或迫使學生篡改數(shù)據(jù),增加了造假的動機。抑或中止研究,發(fā)表較低質(zhì)量的論文,影響了研究生教學的成果。
而生物信息學的出現(xiàn)使得以上問題得到了很好的解決。在課題設計前,對于研究對象的選擇上可以首先進行生物信息學分析,初步明確靶標基因的表達情況、與臨床信息的相關(guān)性、功能的初步探討,避免盲目的實驗。課題設計中,推薦生物信息學分析聯(lián)合分子驗證相結(jié)合的模式開展研究。目前,腫瘤基因組圖譜數(shù)據(jù)庫(TCGA,the Cancer Genome Atlas)是全球最大的腫瘤基因組測序數(shù)據(jù)庫,是腫瘤研究最為常用的數(shù)據(jù)庫之一,該數(shù)據(jù)庫提供了多達三十余種最常見的惡性腫瘤的多種組學數(shù)據(jù),包括了基因組測序、轉(zhuǎn)錄組測序、甲基化測序和蛋白質(zhì)組學等,而且還提供了相對完整的患者臨床基本信息和隨訪數(shù)據(jù),是目前研究腫瘤多組學、數(shù)據(jù)挖掘和泛癌(Pan-cancer)研究的重要研究資料來源[6,7]。首先利用TCGA 數(shù)據(jù)庫選擇研究基因,進而獲得基因的差異表達信息及預后信息等,如果結(jié)果可行,可以進行后續(xù)基礎實驗驗證,完成研究并形成論文。如果分析過程中結(jié)果不一致,可以適時中止,選擇其他分子進行研究,一定程度上減少了學術(shù)不端的發(fā)生。而且,進行生物信息學分析所需時間很短,很快即可完成,可根據(jù)學期剩余時間決定進行后續(xù)驗證的深度。
根據(jù)文獻報道的科學前沿問題確定待研究基因。亦可下載TCGA 數(shù)據(jù)庫中特定腫瘤表達譜數(shù)據(jù),利用R 語言進行分析,獲得表達譜及差異表達數(shù)據(jù),選擇意向分子。但R 語言一般需要一定的生物信息學及計算機編程基礎,對于臨床研究生而言有相當?shù)碾y度,有能力者可以自行學習,因為R 分析得到的數(shù)據(jù)最具說服力,后續(xù)可以發(fā)表影響力更高的論文[8]。簡單易行的辦法是利用針對TCGA 開發(fā)的開放數(shù)據(jù)庫。在研究基因的選擇上,推薦GEPIA(Gene Expression Profiling Interactive Analysis)及Oncomine[9,10],不用編程,通過人機模式,輸入相關(guān)參數(shù)即可獲得腫瘤的表達譜,通過比對及文獻檢索,獲得意向分子。然后,在以上兩種數(shù)據(jù)庫中,同樣可對相關(guān)基因在特定腫瘤中進行差異表達分析,可以得到帶有統(tǒng)計分析的、可以直接用于發(fā)表的結(jié)果圖。由于不需編程基礎,短時間即可完成分析,可以快速得到期望數(shù)據(jù)。
以往對基因進行臨床相關(guān)性分析最為費時費力,首先要積累臨床病例,然后隨訪,數(shù)據(jù)往往不一定完整。TCGA 數(shù)據(jù)庫包含有相當完整的包含隨訪信息的臨床數(shù)據(jù),而且樣本量一般較大,具有很強的說服力。獲取基因與臨床基本信息相關(guān)性,推薦UALCAN[11]數(shù)據(jù)庫,其基于TCGA 數(shù)據(jù)庫,可以分析相關(guān)基因與患者種族、性別、年齡、腫瘤分期等的相關(guān)性,并可進行生存分析等,是一個有效的TCGA 數(shù)據(jù)在線分析和挖掘的工具。GEPIA 數(shù)據(jù)庫亦可進行相關(guān)基因的預后分析。
功能富集分析可以初步了解某個基因潛在的生物學功能,推薦使用LinkedOmics[12]數(shù)據(jù)庫,其也是基于TCGA 數(shù)據(jù)庫的第三方在線分析工具,通過簡單的選擇數(shù)據(jù)類型,按照提示,即可獲知相關(guān)基因最相關(guān)的生物學功能、激活的信號通路等數(shù)據(jù),為后續(xù)研究提供依據(jù)。
網(wǎng)絡分析可以了解生物網(wǎng)絡中分子之間的關(guān)系,如通過了解蛋白質(zhì)-蛋白質(zhì)相互作用網(wǎng)絡,便可得到相關(guān)基因發(fā)揮特定功能的分子機制。推薦使用GeneMANIA 數(shù)據(jù)庫和Cytoscape 軟件[13],GeneMANIA 是一個可以分析蛋白間互作網(wǎng)絡的在線工具。Cytoscape 除了可以獲得相關(guān)基因的蛋白互作網(wǎng)絡,也可以分析其轉(zhuǎn)錄調(diào)控網(wǎng)絡、網(wǎng)絡聚類模塊、miRNA 調(diào)控靶標、競爭性內(nèi)源RNA 網(wǎng)絡(ceRNA)、通路交互網(wǎng)絡等,為機制的深入研究提供較多信息。
單純的生物信息學分析盡管已經(jīng)可以發(fā)表一定影響力的論文,但是一定程度上缺少說服力。后續(xù)的生物學驗證是完成高質(zhì)量研究生課題研究的必要補充。生物學驗證主要包括在腫瘤組織、腫瘤細胞系、實驗動物中的表達驗證、功能驗證及機制驗證,生物信息學分析聯(lián)合生物學驗證提高了研究的、完整性與科學性[14]。
綜上,通過特定的生物信息學分析工具,降低了分析的難度,減少了整體研究的時間,加快了研究生科研的進度與效率。一般來說,選好課題之后,生物信息學分析僅需耗費數(shù)個工作日便可完成,結(jié)合后續(xù)生物學驗證,使得這種模式的研究從確定研究方向到課題結(jié)束,大多半年即可完成,為后續(xù)文章撰寫及投稿見刊爭取了大量的時間,并一定程度上提高了質(zhì)量,在研究生教學中具有重要的指導意義。