• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      立足方法學(xué)基點(diǎn) 培育生物信息學(xué)素養(yǎng)

      2023-01-26 13:33:17張曉曦李映紅
      生物學(xué)雜志 2022年1期
      關(guān)鍵詞:信息學(xué)代謝物生物學(xué)

      李 勃,何 昊,張曉曦,李映紅,楊 丹

      (1.重慶師范大學(xué) 生命科學(xué)學(xué)院,重慶 401331;2.重慶郵電大學(xué) 生物信息學(xué)院,重慶 400065)

      以“人類(lèi)基因組計(jì)劃”“人類(lèi)蛋白質(zhì)圖譜”“人類(lèi)細(xì)胞圖譜計(jì)劃”等為代表的重大成果的初步完成,標(biāo)志生命科學(xué)研究已步入“數(shù)據(jù)時(shí)代”[1-3]。隨著大數(shù)據(jù)與人工智能的興起和繁榮,數(shù)學(xué)和計(jì)算機(jī)等學(xué)科的研究方法不斷向生物學(xué)滲透,作為傳統(tǒng)實(shí)驗(yàn)學(xué)科的生物學(xué)呈現(xiàn)出學(xué)科交叉與融合的發(fā)展趨勢(shì)。因此,高校生物學(xué)人才培養(yǎng)也應(yīng)不斷更新現(xiàn)今的教育教學(xué)理念,緊跟時(shí)代節(jié)拍。

      1 高校生物信息學(xué)教學(xué)現(xiàn)狀及問(wèn)題表征

      為提升生命科學(xué)相關(guān)專(zhuān)業(yè)本科生的專(zhuān)業(yè)素養(yǎng)和創(chuàng)新能力及學(xué)術(shù)競(jìng)爭(zhēng)力,以重點(diǎn)大學(xué)為主的部分高校在相關(guān)院系開(kāi)設(shè)生物信息學(xué)(或計(jì)算生物學(xué))等課程,學(xué)生通過(guò)學(xué)習(xí)可以掌握對(duì)海量生物數(shù)據(jù)進(jìn)行管理、整合、分析和建模的技能,從而獲得從數(shù)據(jù)中發(fā)現(xiàn)規(guī)律進(jìn)而解決生物學(xué)問(wèn)題的能力。但從全國(guó)范圍來(lái)看,由于生物類(lèi)專(zhuān)業(yè)學(xué)生的數(shù)理基礎(chǔ)參差不齊、師資力量相對(duì)匱乏以及學(xué)時(shí)較短等多方面原因,生物信息學(xué)(或計(jì)算生物學(xué))的教學(xué)依然比較薄弱,亟待補(bǔ)充和加強(qiáng)。

      當(dāng)下的生物信息學(xué)教學(xué)應(yīng)當(dāng)給予學(xué)生適應(yīng)與改造未來(lái)信息化社會(huì)的核心素養(yǎng),而非知識(shí)的冗雜增加、重復(fù)填鴨。與此同時(shí),方法學(xué)作為生物信息學(xué)的本源性研究方法而存在,依據(jù)其可以衍生出生物信息學(xué)的基本知識(shí)、邏輯思維與學(xué)科觀念。教師們應(yīng)在長(zhǎng)期的教學(xué)實(shí)踐中,著力以方法學(xué)為突破口,培養(yǎng)學(xué)生的學(xué)科素養(yǎng)[4]。為此,筆者結(jié)合多年來(lái)的生物信息學(xué)教學(xué)實(shí)踐,總結(jié)幾類(lèi)代表性的生物信息學(xué)策略或方法,以期結(jié)合具體的實(shí)例剖析,使學(xué)生認(rèn)識(shí)到生物信息學(xué)策略或方法在生物學(xué)學(xué)習(xí)中的重要作用,逐步提升學(xué)生數(shù)理邏輯與生物信息學(xué)素養(yǎng),促進(jìn)學(xué)生專(zhuān)業(yè)知識(shí)的全面發(fā)展。

      2 代表性的生物信息學(xué)策略或方法

      2.1 試驗(yàn)-對(duì)照比較的方法

      通過(guò)試驗(yàn)組-對(duì)照組的定性或定量比較來(lái)尋找兩者之間的差異,是自然科學(xué)最重要的研究邏輯之一,也是生物學(xué)中最常用研究策略。以圖 1(a)所示的轉(zhuǎn)錄組學(xué)研究為例,利用RNA測(cè)序等技術(shù)測(cè)定健康個(gè)體(對(duì)照組)和肝癌病患(實(shí)驗(yàn)組)的mRNA表達(dá)譜,通過(guò)逐一比較單個(gè)基因在兩組間的表達(dá)變化程度(或平均表達(dá)值是否具有顯著性差異),便可篩選到滿(mǎn)足特定條件的差異表達(dá)基因集(DEGs)。對(duì)該基因集進(jìn)行功能富集和網(wǎng)絡(luò)分析等,進(jìn)而可能揭示肝癌發(fā)生發(fā)展過(guò)程的重要分子機(jī)制和規(guī)律。再比如,某植物有野生型和突變型之分,兩者的葉片分別為綠色和黃色。若要探究為何突變型葉片為黃色,一種可能的策略是從基因水平上對(duì)兩者的基因組序列進(jìn)行比對(duì),尋找該植物野生型和突變型基因序列中的差異部分,即可找到可能與葉綠素合成障礙有關(guān)的基因??梢灶A(yù)見(jiàn),掌握并靈活運(yùn)用試驗(yàn)-對(duì)照比較的方法,有助于提升學(xué)生的實(shí)驗(yàn)分析技能,增強(qiáng)分析和解決生物學(xué)問(wèn)題的能力。

      2.2 距離與相似性的策略

      距離是統(tǒng)計(jì)學(xué)中常用的一個(gè)概念,被用來(lái)衡量數(shù)學(xué)空間中兩個(gè)點(diǎn)(即長(zhǎng)度相同的兩個(gè)向量)之間的遠(yuǎn)近。常用的度量指標(biāo)有歐氏距離、曼哈頓距離和切爾比雪夫距離等[5]。兩點(diǎn)之間距離越小,則兩向量間相似性越高;反之亦然。以生物學(xué)中考察兩個(gè)基因序列是否相似為例,除了計(jì)算序列的一致性外,還可借助兩等長(zhǎng)序列間的Hamming距離來(lái)表征序列的相似性程度。如圖1(b)所示,序列1和2之間、1和3之間的Hamming距離分別是11和8,因此序列1和3的相似性更高。具有高度相似性的序列,可進(jìn)一步被推定為潛在的同源序列。顯然,通過(guò)距離與相似性的策略將抽象的基因序列之間的相似性問(wèn)題轉(zhuǎn)化為具體的數(shù)學(xué)模型,能夠極大地幫助學(xué)生理解和解決研究對(duì)象間的相似性問(wèn)題。

      2.3 特征提取與特征選擇的策略

      以基因組學(xué)、轉(zhuǎn)錄組學(xué)、蛋白組學(xué)和代謝組學(xué)等為代表的高通量組學(xué)技術(shù)已成為生命科學(xué)研究中最主要的方法,在揭示復(fù)雜表型和疾病背后的分子機(jī)制等研究中發(fā)揮著舉足輕重的作用。組學(xué)數(shù)據(jù)通?!熬S度高、樣本少”(如考察100個(gè)病患的25 000個(gè)基因的表達(dá)水平等),這在統(tǒng)計(jì)分析中通常給研究者帶來(lái)挑戰(zhàn)。欲將高維度問(wèn)題簡(jiǎn)化求解,最科學(xué)的策略就是運(yùn)用特征提取或特征選擇,通過(guò)將高維問(wèn)題變?yōu)榈途S問(wèn)題進(jìn)而進(jìn)行統(tǒng)計(jì)分析和建模。

      2.3.1 特征提取

      特征提取(feature extraction)是機(jī)器學(xué)習(xí)中常用的數(shù)據(jù)處理方式之一,是指通過(guò)適當(dāng)?shù)淖儞Q把已有樣本的D個(gè)特征轉(zhuǎn)換為d(

      2.3.2 特征選擇

      特征選擇(feature selection)是基于某種特定的統(tǒng)計(jì)學(xué)準(zhǔn)則(如標(biāo)準(zhǔn)差、變化倍數(shù)等)對(duì)原始特征進(jìn)行過(guò)濾,保留變異程度大的特征,將原始的特征數(shù)降低,達(dá)到簡(jiǎn)化數(shù)據(jù)集的目的[6]。它和特征提取欲達(dá)到的效果是一致的,即減少數(shù)據(jù)集的屬性(或特征)的數(shù)目。簡(jiǎn)言之,拋棄大量的冗余(干擾)信息,獲取與研究對(duì)象密切相關(guān)的關(guān)鍵因素。如圖 1(c)所示,將前述代謝譜數(shù)據(jù)集的8個(gè)代謝物按照變異程度(標(biāo)準(zhǔn)差)或在病患與對(duì)照組中的豐度比例為準(zhǔn)則,保留變異程度最大的4個(gè)特征,使數(shù)據(jù)集縮減為只有4個(gè)代謝物的數(shù)據(jù)集,后續(xù)的數(shù)據(jù)分析和建模等問(wèn)題得以高度簡(jiǎn)化。

      學(xué)習(xí)和掌握特征提取與特征選擇的方法,可以幫助學(xué)生解決原始數(shù)據(jù)龐大、雜亂的問(wèn)題,有利于學(xué)生抓住研究對(duì)象的關(guān)鍵信息,也有助于數(shù)據(jù)的可視化分析與探索。

      2.4 聚類(lèi)分析的策略

      聚類(lèi)就是一種尋找數(shù)據(jù)之間內(nèi)在結(jié)構(gòu)的技術(shù),其目的是將研究對(duì)象按照特征屬性的相似程度聚成多個(gè)不同的類(lèi)別,以便選擇特定類(lèi)別進(jìn)行具體分析[5]。聚類(lèi)分析可以幫助學(xué)生將生物樣本聚集成不同亞組,可用于后續(xù)分析(如尋找特定的基因表達(dá)模式等),也可以基于聚類(lèi)過(guò)程進(jìn)行樣本質(zhì)量控制(即排除異常樣本)。以圖 1(d)為例,當(dāng)用血液中兩個(gè)蛋白的濃度作為變量(x軸和y軸)對(duì)所有樣本(包括6名肝細(xì)胞性肝癌患者、7名輕度肝硬化患者和6名健康人)進(jìn)行聚類(lèi)時(shí),發(fā)現(xiàn)有個(gè)橙色標(biāo)記的輕度肝硬化患者與肝癌患者聚成一類(lèi),這提示該輕度肝硬化患者有異常(可能已經(jīng)發(fā)生惡化),若要實(shí)現(xiàn)精確分析則在后續(xù)的分析可以考慮將其從輕度肝硬化患者類(lèi)別中移除。

      2.5 分類(lèi)預(yù)測(cè)的策略

      分類(lèi)預(yù)測(cè)也稱(chēng)監(jiān)督性機(jī)器學(xué)習(xí),是指通過(guò)對(duì)樣本數(shù)據(jù)的輸入值和輸出值關(guān)聯(lián)性的學(xué)習(xí)或訓(xùn)練,獲得具有預(yù)測(cè)能力的分類(lèi)模型,再利用該模型對(duì)未知標(biāo)簽的輸入值進(jìn)行輸出值預(yù)測(cè)[7],其過(guò)程如圖 1(e)所示。例如,研究者獲得一組包括多個(gè)對(duì)象在內(nèi)的基因表達(dá)譜數(shù)據(jù)集[其結(jié)構(gòu)類(lèi)似于圖 1(a)的基因表達(dá)矩陣],將食道癌病人和健康對(duì)照的標(biāo)簽分別記為1和0。以這組已知數(shù)據(jù)集(即表達(dá)矩陣)為自變量X,以表型(0或1)為因變量y,經(jīng)過(guò)訓(xùn)練建立對(duì)應(yīng)的判別模型即y=f(X),其中y取值為0或1。待模型優(yōu)化后,將一未知標(biāo)簽的疑似患者A的基因表達(dá)值輸入模型,模型便會(huì)預(yù)測(cè)出A是否罹患食道癌(其中陽(yáng)性結(jié)果尚需進(jìn)一步臨床確認(rèn))。

      基于已知數(shù)據(jù)構(gòu)建分類(lèi)預(yù)測(cè)模型是一種極為重要的研究方法,其在大規(guī)模疾病前期篩查、惡性疾病的早期診斷等諸多領(lǐng)域都發(fā)揮著越來(lái)越重要的作用??梢灶A(yù)見(jiàn),掌握分類(lèi)預(yù)測(cè)的策略,能夠幫助學(xué)生基于已知數(shù)據(jù)集建立分類(lèi)模型,實(shí)現(xiàn)對(duì)未知對(duì)象表型等屬性或類(lèi)別的預(yù)測(cè)。

      2.6 數(shù)據(jù)整合再分析的策略

      數(shù)據(jù)整合再分析主要是指將研究相同或相似問(wèn)題的多組獨(dú)立研究的數(shù)據(jù)集(或各自的實(shí)驗(yàn)結(jié)果)進(jìn)行再統(tǒng)計(jì)分析(或綜合)從而得出更準(zhǔn)確結(jié)論的一類(lèi)研究方法。該方法又可分為早期階段整合和晚期階段整合兩類(lèi):前者是指將多組獨(dú)立研究的數(shù)據(jù)集直接整合為大數(shù)據(jù)集后分析得出結(jié)論;后者是指將多組獨(dú)立研究數(shù)據(jù)集各自分析的結(jié)果進(jìn)行匯總(或借助于薈萃分析)而得出結(jié)論。以哮喘患者和健康人氣道上皮細(xì)胞間差異表達(dá)基因的鑒定為例,研究者通過(guò)檢索發(fā)現(xiàn)目前有3組符合條件的獨(dú)立實(shí)驗(yàn)和表達(dá)譜數(shù)據(jù),則可首先分別對(duì)3組研究的數(shù)據(jù)進(jìn)行單獨(dú)分析獲取3組差異表達(dá)基因集,然后通過(guò)鑒定共有的差異表達(dá)基因(或薈萃分析)獲得在哮喘患者和健康人之間穩(wěn)定差異表達(dá)的基因集,見(jiàn)圖 1(f)。Tautenhahn等[8]對(duì)3種不同的小鼠疼痛模型(包括炎癥引起的疼痛、急性熱導(dǎo)致的疼痛和自發(fā)性關(guān)節(jié)炎引起的疼痛)的代謝物譜進(jìn)行二次研究,在3組不同的疼痛模型的代謝組學(xué)成對(duì)研究中分別篩選到608、837和380個(gè)有差異的代謝物。通過(guò)綜合比較發(fā)現(xiàn)有3個(gè)共同的差異代謝物。進(jìn)一步的化學(xué)分析鑒定出其中一個(gè)是組胺,再分析的結(jié)果提示:組胺是介導(dǎo)疼痛共有分子機(jī)制的關(guān)鍵化學(xué)分子之一。顯然,這種研究思路可以推廣至各組學(xué)領(lǐng)域。此外,對(duì)文獻(xiàn)中實(shí)驗(yàn)結(jié)果的綜合分析也可采用該方法??傊瑪?shù)據(jù)整合再分析可以幫助學(xué)生將研究相同或相似問(wèn)題的多組獨(dú)立研究數(shù)據(jù)(或結(jié)果)整合起來(lái),從統(tǒng)計(jì)學(xué)水平上得出更有說(shuō)服力的結(jié)論。

      2.7 數(shù)據(jù)庫(kù)與在線(xiàn)工具的策略

      簡(jiǎn)單地說(shuō),數(shù)據(jù)庫(kù)就是收集和存儲(chǔ)大量信息(包括數(shù)據(jù)、文本、圖像等)的一個(gè)電子倉(cāng)庫(kù),它可針對(duì)用戶(hù)進(jìn)行信息的整理、加工、發(fā)布和檢索,且大多數(shù)數(shù)據(jù)庫(kù)是通過(guò)互聯(lián)網(wǎng)進(jìn)行訪(fǎng)問(wèn)的[9]。當(dāng)前,生物學(xué)數(shù)據(jù)庫(kù)已經(jīng)成為現(xiàn)代生命科學(xué)研究中最重要的戰(zhàn)略資源,從DNA序列的存儲(chǔ)比對(duì)到蛋白質(zhì)結(jié)構(gòu)的查詢(xún)和同源模建,甚至生物醫(yī)學(xué)文獻(xiàn)的收集與再挖掘,無(wú)一例外都需要數(shù)據(jù)庫(kù)的輔助和支持。

      除了使用數(shù)據(jù)庫(kù)外,靈活運(yùn)用在線(xiàn)工具(或在線(xiàn)軟件)也是生命科學(xué)研究者應(yīng)對(duì)高通量生物學(xué)數(shù)據(jù)的一種解決方案。與本地化軟件相比,在線(xiàn)工具提供了一個(gè)更加方便的選擇,它的優(yōu)勢(shì)在于:(1)無(wú)操作系統(tǒng)依賴(lài)性,無(wú)論是Windows、Linux還是MAC OS等操作系統(tǒng),只要能夠接入互聯(lián)網(wǎng),則軟件均可通過(guò)網(wǎng)頁(yè)瀏覽器使用;(2)無(wú)須安裝和更新,對(duì)用戶(hù)的計(jì)算機(jī)硬件要求較低,甚至手機(jī)便攜式移動(dòng)終端都可使用[10];(3)在生物學(xué)數(shù)據(jù)處理上對(duì)研究者編程技能要求較低。在線(xiàn)工具簡(jiǎn)單易用,使學(xué)生充分發(fā)揮互聯(lián)網(wǎng)思維,能夠更輕松便捷地使用互聯(lián)網(wǎng)實(shí)現(xiàn)生物學(xué)數(shù)據(jù)的分析與生物學(xué)問(wèn)題的解決。

      3 結(jié)論與展望

      隨著學(xué)科交叉與融合不斷深入,生物學(xué)數(shù)據(jù)急速和海量積累,這在人類(lèi)科學(xué)研究史上是空前的。一方面數(shù)據(jù)量急劇增長(zhǎng),另一方面數(shù)據(jù)變得更加復(fù)雜和多樣化(如從簡(jiǎn)單的觀察描述、單一的生理生化指標(biāo)向遺傳信息數(shù)據(jù)和高通量多組學(xué)數(shù)據(jù)的轉(zhuǎn)變)。繼續(xù)依靠單一傳統(tǒng)的生物學(xué)理論方法進(jìn)行研究已經(jīng)顯得力不從心,常常導(dǎo)致生命科學(xué)研究難以深入開(kāi)展。因此,現(xiàn)代生物學(xué)研究迫切需要數(shù)學(xué)、物理、計(jì)算機(jī)、化學(xué)與工程學(xué)等非生物學(xué)學(xué)科研究方法的介入與交叉融合[11],而近年來(lái)生物信息學(xué)與計(jì)算生物學(xué)的蓬勃發(fā)展也正說(shuō)明了這一點(diǎn)。現(xiàn)代生命科學(xué)研究的不斷深入與繁榮對(duì)高素質(zhì)的生物學(xué)相關(guān)專(zhuān)業(yè)人才的培養(yǎng)也提出了新的更高要求。因而,迫切需要在夯實(shí)學(xué)生專(zhuān)業(yè)基礎(chǔ)知識(shí)和技能的同時(shí),加大對(duì)研究方法和策略(包括交叉學(xué)科研究方法)的訓(xùn)練,積極探索全方位育人模式,不斷增強(qiáng)生物學(xué)專(zhuān)業(yè)人才的培養(yǎng)質(zhì)量,全面提升學(xué)生的專(zhuān)業(yè)素養(yǎng)和未來(lái)競(jìng)爭(zhēng)力。

      猜你喜歡
      信息學(xué)代謝物生物學(xué)
      阿爾茨海默病血清代謝物的核磁共振氫譜技術(shù)分析
      谷稗的生物學(xué)特性和栽培技術(shù)
      雞NRF1基因啟動(dòng)子區(qū)生物信息學(xué)分析
      初中生物學(xué)糾錯(cuò)本的建立與使用
      初中生物學(xué)糾錯(cuò)本的建立與使用
      初論博物館信息學(xué)的形成
      柱前衍生化結(jié)合LC-MSn分析人尿中茶堿及其代謝物
      PEDF抗腫瘤的生物學(xué)作用
      HPLC-MS/MS法分析乙酰甲喹在海參中的主要代謝物
      miRNA-148a在膀胱癌組織中的表達(dá)及生物信息學(xué)分析
      洛宁县| 新乡市| 海晏县| 勃利县| 南乐县| 元谋县| 洛隆县| 株洲县| 泾源县| 板桥市| 炎陵县| 陆河县| 昌乐县| 远安县| 临西县| 永川市| 道真| 探索| 株洲市| 隆尧县| 广昌县| 三都| 菏泽市| 湘潭县| 中方县| 利川市| 南充市| 新源县| 修水县| 岳池县| 江津市| 临武县| 安福县| 黄平县| 班玛县| 贵南县| 望都县| 容城县| 松江区| 东乡族自治县| 丰都县|