• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      基于R語言的醫(yī)學院校生物信息學專業(yè)統(tǒng)計課程教學探索

      2021-12-24 08:13:36段巍巍成佳雯呂颯麗
      科技風 2021年33期
      關鍵詞:R語言生物信息學統(tǒng)計學

      段巍巍 成佳雯 呂颯麗

      關鍵詞:R語言;統(tǒng)計學;生物信息學;教學

      21世紀以來,隨著生物醫(yī)學研究技術的蓬勃發(fā)展,生物醫(yī)學相關領域,包括臨床醫(yī)療、公共衛(wèi)生、生物學、環(huán)境監(jiān)測等,產(chǎn)生的多層面數(shù)據(jù)出現(xiàn)井噴式增長。生物醫(yī)學數(shù)據(jù)的分析離不開生物醫(yī)學、計算機科學、數(shù)理統(tǒng)計學和信息科學等多個領域的交叉融合。而生物信息學(bioinfor-matics)就是在生物組學數(shù)據(jù)爆發(fā)增長的基礎上應運而生的一門新興交叉學科。它包含了對核酸(DNA、RNA)和蛋白質(zhì)的序列和結(jié)構(gòu)信息的獲取、整理、存儲、分析和解釋等多方面內(nèi)容,用以揭示生物體生理病理過程的分子機制,探索生命奧秘。生物信息學算法的開發(fā)為后續(xù)分析提供強大的技術支撐,而概率統(tǒng)計構(gòu)成了大多數(shù)軟件算法的理論基礎。

      統(tǒng)計學作為一門收集、整理、分析數(shù)據(jù)的一門科學,已經(jīng)廣泛應用到生物醫(yī)學研究的各個領域,包括生物信息在內(nèi)的生物醫(yī)學相關專業(yè)的基礎課程。以筆者所在專業(yè)為例,主要設置了概率論與數(shù)理統(tǒng)計、生物統(tǒng)計和多元統(tǒng)計三門課程,亦會在后續(xù)專業(yè)課中穿插講解生物信息領域主流的統(tǒng)計學方法。然而,與其他醫(yī)學基礎課程不同的是,統(tǒng)計學教學過程中不可避免地涉及復雜的公式和抽象的定義,這成為針對醫(yī)學院校學生的教學難點。針對這一共性問題,很多學者給出了一些解決方案,較為一致的觀點就是充分利用統(tǒng)計學軟件的數(shù)據(jù)模擬和圖形可視化功能。本文將借助于R語言強大的數(shù)據(jù)模擬和繪圖功能對統(tǒng)計教學支撐做了初步探討,并給一些應用實例和建議。

      一、R語言介紹

      R語言是一種專門用于統(tǒng)計分析和作圖的編程語言和軟件環(huán)境。相較于其他權威商業(yè)化統(tǒng)計軟件,如SAS、STATA、SPSS,R語言具有小巧、免費、開源、易擴展、功能強大、接口豐富和更新快等諸多優(yōu)勢,尤其是其強大的圖形可視化功能讓人津津樂道。不僅如此,R語言擁有豐富的幫助文檔、強大學者交流社區(qū)資源,使得初學者更容易上手;此外R語言還可以直接調(diào)用c、c++或Fortran語言進行分析。這一系列優(yōu)良的特點使得它不僅在科研領域里叱咤風云,近些年在國內(nèi)外教學領域里也得到廣泛的重視和應用。R語言中的統(tǒng)計教學常用模塊包括:分布函數(shù)、統(tǒng)計函數(shù)、數(shù)據(jù)管理、統(tǒng)計作圖和統(tǒng)計分析。然而現(xiàn)有R語言的上機教學主要傾向于統(tǒng)計方法在數(shù)據(jù)展示和分析中的應用(包括統(tǒng)計繪圖、基本統(tǒng)計分析、回歸、聚類分析等),較少講解軟件的統(tǒng)計模擬應用,而這一部分對于學生升入理解統(tǒng)計學的抽樣理論大有裨益。

      二、R語言和生物信息學

      醫(yī)學類院校的生物信息學專業(yè)培養(yǎng)的生物信息人才應具有堅實生物醫(yī)學理論基礎和扎實生物信息學分析技術,可快速服務于精準醫(yī)學產(chǎn)業(yè)。而完成這樣的目標必不可缺的就是計算機實踐教學,其中R語言又是生信分析最主要的工具之一,它廣泛應用于基因組、轉(zhuǎn)錄組、表觀遺傳組、蛋白質(zhì)組、代謝組等各個組學數(shù)據(jù)的分析。例如,用ShortRead程序包對RNA-seq數(shù)據(jù)的序列質(zhì)量進行評估,使用DESeq2包進行差異表達基因的篩選,使用clusterProfile包進行基因功能富集分析。還有針對腫瘤研究領域特定問題的R包,如基于轉(zhuǎn)錄組數(shù)據(jù)計算樣本腫瘤純度的Estimate包。此外,各生信相關R包還自帶有豐富的可視化模塊。

      三、R語言輔助統(tǒng)計教學的探索和實踐

      當前統(tǒng)計學課程教學過程中依然存在諸多問題,其中一個典型問題是:與其他醫(yī)學課程相比,統(tǒng)計學本身深奧的理論知識和抽象的概念增加了學生的學習難度,降低了學習興趣。醫(yī)學院校的統(tǒng)計教學通常對統(tǒng)計理論的推導不作要求,更多的是要求學生能夠理解基本概念和相關理論并靈活運用統(tǒng)計方法。而充分利用統(tǒng)計軟件進行教學輔助可以在很大程度上解決概念抽象化的問題,有助于培養(yǎng)學生的統(tǒng)計學思維。針對此,相關研究者提出開發(fā)模擬軟件用以驗證統(tǒng)計學的一些概念和抽象理論。此外,R語言中亦有輔助統(tǒng)計教學的R包,如TeachingDemos包、animation包。然而,這些封裝好的軟件或函數(shù)并不利于學生對統(tǒng)計概念或方法的深層次理解,不利于學生編程能力的培養(yǎng)。

      該數(shù)據(jù)模擬步驟展示了統(tǒng)計量的隨機屬性,驗證了中心極限定理的內(nèi)容,對于學生難以區(qū)分的標準誤和標準差概念亦有很好的說明。學生還可以自行更改樣本量的大小來查看標準誤與樣本量的關系。相對于理論推導各種抽樣分布,使用數(shù)據(jù)模擬的方式驗證理論結(jié)果更容易讓數(shù)學基礎薄弱的同學們接受。上述代碼可以封裝成更為“專業(yè)”的自定義函數(shù),但我們認為這不利于學生通過每一步代碼來深刻理解抽樣分布的概念。

      實例2:可信區(qū)間的含義

      參數(shù)的可信區(qū)間(置信區(qū)間)估計是總體參數(shù)估計的內(nèi)容之一,表示按照一定的可信度(1-d)用一個區(qū)間來估計總體參數(shù)所在范圍。以正態(tài)分布總體均數(shù)的95%可信區(qū)間估計為例,其計算公式比較簡單。然而在學生學習過程中,真正的困難在于理解可信區(qū)間的含義。在算得某總體參數(shù)的95%可信區(qū)間,學生會誤以為“有95%的總體參數(shù)在該區(qū)間內(nèi)”或是“總體參數(shù)有95%的可能落在該區(qū)間”。在總體方差已知時,總體均數(shù)95%可信區(qū)間為由于x是隨機變量,因此該區(qū)間是一個隨機區(qū)間。當根據(jù)手頭樣本來計算可信區(qū)間時,此時的x就是確定的常數(shù),該區(qū)間就變成了一個固定區(qū)間,其是否包含總體均數(shù)就不再是隨機事件了。因此,95%這個可信度是針對于構(gòu)建可信區(qū)間的方法而言的,而非針對某一個已估計出來的區(qū)間??梢酝ㄟ^R代碼的方式來解釋該概念:

      從圖中可以看出,基于100次重復抽樣算得總體均數(shù)100個可信區(qū)間,有95個區(qū)間包含了總體均數(shù)0,還有5個不包含,即95%的可信度允許有5%的錯誤。而實例分析中基于手頭隨機樣本算得的95%可信區(qū)間,就可以認為是圖中100個區(qū)間的某一個,該區(qū)間要么包含總體均數(shù)要么不包含,二者必居其一,是確定性事件。學生就能清晰地認識到實例中算得的一個區(qū)間,其背后對應的是重復抽樣的思想,而可信度是從整體角度評價方法的可靠程度。

      四、結(jié)語

      統(tǒng)計學課程本身的特點使得學生在學習過程中存在各種各樣的困難,而如何讓學生學好統(tǒng)計、對統(tǒng)計學感興趣,還需要統(tǒng)計教育工作者不斷探索和努力。在統(tǒng)計教學中引入專業(yè)的統(tǒng)計軟件——R語言,借助于其強大的模擬和繪圖功能,通過程序設計將統(tǒng)計中晦澀難懂的概念和方法程序化、可視化,從而促進學生的學習和理解,激發(fā)興趣,同時也有助于提升學生的統(tǒng)計編程能力、解決實際問題的能力。正是由于R語言、統(tǒng)計學和生物信息學環(huán)環(huán)相扣的關系,在統(tǒng)計學課程中開展R語言上機實驗課程不僅可以輔助于統(tǒng)計教學,也可以為后續(xù)生物信息學各專業(yè)課的學習打下實踐操作基礎。

      猜你喜歡
      R語言生物信息學統(tǒng)計學
      關于投稿的統(tǒng)計學要求
      統(tǒng)計學符號使用的說明
      統(tǒng)計學符號使用的說明
      本刊對來稿中統(tǒng)計學處理的有關要求
      基于GPS軌跡數(shù)據(jù)進行分析改善城市交通擁擠
      基于R語言的Moodle平臺數(shù)據(jù)挖掘技術的研究
      “PBL+E—learning”教學模式探索
      移動教學在生物信息學課程改革中的應用
      今傳媒(2016年11期)2016-12-19 11:35:50
      中醫(yī)大數(shù)據(jù)下生物信息學的發(fā)展及教育模式淺析
      數(shù)據(jù)挖掘技術在生物信息學中的應用
      崇左市| 抚州市| 西林县| 新余市| 美姑县| 合川市| 房产| 定远县| 原阳县| 邵阳县| 巴林右旗| 陆川县| 民丰县| 镇巴县| 安福县| 大荔县| 临泉县| 武鸣县| 津南区| 花垣县| 余庆县| 香格里拉县| 牟定县| 浦城县| 东海县| 榕江县| 抚远县| 福泉市| 遵化市| 灌南县| 五台县| 梅河口市| 赤水市| 闽侯县| 汽车| 郎溪县| 砚山县| 白河县| 西乌珠穆沁旗| 新晃| 黑河市|