摘要:本文探討了在醫(yī)學(xué)院校中引入R語言進(jìn)行醫(yī)學(xué)統(tǒng)計(jì)學(xué)教學(xué)實(shí)踐的策略,以提升學(xué)生處理醫(yī)療大數(shù)據(jù)的能力,培養(yǎng)適應(yīng)醫(yī)療大數(shù)據(jù)時代需求的醫(yī)學(xué)復(fù)合型人才。文章深入分析了醫(yī)學(xué)院校在醫(yī)療大數(shù)據(jù)和醫(yī)學(xué)統(tǒng)計(jì)學(xué)教學(xué)中存在的問題,并將R語言與醫(yī)學(xué)數(shù)據(jù)相結(jié)合,設(shè)計(jì)了基于R語言的醫(yī)學(xué)統(tǒng)計(jì)學(xué)教學(xué)案例。在教學(xué)過程中實(shí)施這些案例,觀察R語言教學(xué)的效果。通過案例教學(xué),學(xué)生能夠更好地理解醫(yī)學(xué)統(tǒng)計(jì)學(xué)理論,并將其應(yīng)用于實(shí)際的醫(yī)療數(shù)據(jù)分析中,顯著提升了他們在處理醫(yī)療大數(shù)據(jù)方面的能力。在醫(yī)學(xué)統(tǒng)計(jì)學(xué)教學(xué)中引入R語言進(jìn)行教學(xué)實(shí)踐,有效提升了學(xué)生的醫(yī)療大數(shù)據(jù)處理能力,為培養(yǎng)適應(yīng)醫(yī)療大數(shù)據(jù)時代需求的高素質(zhì)醫(yī)學(xué)復(fù)合型人才提供了有力支持。
關(guān)鍵詞: 醫(yī)療大數(shù)據(jù);醫(yī)學(xué)統(tǒng)計(jì)學(xué);R語言;數(shù)據(jù)可視化
中圖分類號:G642 文獻(xiàn)標(biāo)識碼:A
文章編號:1009-3044(2024)32-0055-03 開放科學(xué)(資源服務(wù))標(biāo)識碼(OSID) :
0 引言
隨著信息技術(shù)、云計(jì)算、物聯(lián)網(wǎng)和人工智能的發(fā)展,醫(yī)療數(shù)據(jù)的收集、存儲和處理能力大幅提升。生物醫(yī)學(xué)數(shù)據(jù)、電子病歷、健康監(jiān)測等應(yīng)用產(chǎn)生了海量的醫(yī)療大數(shù)據(jù)[1]。這些大數(shù)據(jù)已成為國家重要的基礎(chǔ)性戰(zhàn)略資源[2]。如何有效利用這些大數(shù)據(jù)已成為醫(yī)療領(lǐng)域面臨的重要挑戰(zhàn)和機(jī)遇[3]。然而,許多醫(yī)生和學(xué)生缺乏醫(yī)療大數(shù)據(jù)統(tǒng)計(jì)分析和數(shù)據(jù)可視化技能,導(dǎo)致這些寶貴資源未能得到充分利用。因此,醫(yī)學(xué)院校需加強(qiáng)數(shù)據(jù)科學(xué)相關(guān)課程的設(shè)置,包括醫(yī)療大數(shù)據(jù)統(tǒng)計(jì)分析、數(shù)據(jù)挖掘、機(jī)器學(xué)習(xí)等內(nèi)容,培養(yǎng)學(xué)生的數(shù)據(jù)分析能力和數(shù)據(jù)驅(qū)動思維。
醫(yī)學(xué)統(tǒng)計(jì)學(xué)以數(shù)理統(tǒng)計(jì)學(xué)為基礎(chǔ),旨在研究生物醫(yī)學(xué)現(xiàn)象和規(guī)律。然而,當(dāng)前醫(yī)學(xué)院校的醫(yī)學(xué)統(tǒng)計(jì)學(xué)教學(xué)存在諸多問題:教材理論性強(qiáng),與實(shí)際應(yīng)用脫節(jié);教學(xué)孤立,缺乏跨學(xué)科整合;過度強(qiáng)調(diào)統(tǒng)計(jì)方法和公式,忽視統(tǒng)計(jì)思維培養(yǎng);軟件工具更新迅速,學(xué)生畢業(yè)后難以快速適應(yīng)工作需求;課程模式單一[4]。很多醫(yī)學(xué)院校僅開設(shè)SPSS的醫(yī)學(xué)統(tǒng)計(jì)學(xué)課程,但SPSS課程教學(xué)中存在局限性,如操作煩瑣、不適用于大數(shù)據(jù)分析,且正版需付費(fèi)[5]。為了應(yīng)對這些挑戰(zhàn),需要在醫(yī)學(xué)院校引入新的統(tǒng)計(jì)學(xué)教材和軟件工具。
與SPSS不同,R語言作為一款具備大數(shù)據(jù)分析和可視化功能的統(tǒng)計(jì)分析軟件,在醫(yī)學(xué)教育中展現(xiàn)出顯著優(yōu)勢。其優(yōu)點(diǎn)包括:
(1) 開源和免費(fèi)。R語言降低了學(xué)習(xí)成本。
(2) 適用性廣泛。R語言的靈活性和擴(kuò)展性使其適合處理大規(guī)模醫(yī)療健康數(shù)據(jù),這對于理解和預(yù)測復(fù)雜的生物醫(yī)學(xué)現(xiàn)象至關(guān)重要。
(3) 強(qiáng)大的數(shù)據(jù)分析和可視化能力。R語言在數(shù)據(jù)分析、統(tǒng)計(jì)和結(jié)果可視化方面比Excel 和SPSS更強(qiáng)[7]。
(4) 編程能力培養(yǎng)。通過R語言的學(xué)習(xí),學(xué)生可以培養(yǎng)編程能力。
鑒于R語言的這些特性,其在醫(yī)學(xué)院校的推廣教學(xué)具有重要價值。當(dāng)前,R語言在醫(yī)學(xué)統(tǒng)計(jì)學(xué)中的應(yīng)用尚在探索階段,將R語言課程融入醫(yī)學(xué)統(tǒng)計(jì)學(xué)教學(xué),并與SPSS課程互補(bǔ),有助于發(fā)揮其在大數(shù)據(jù)處理和復(fù)雜統(tǒng)計(jì)分析方面的優(yōu)勢。同時,設(shè)計(jì)結(jié)合醫(yī)學(xué)數(shù)據(jù)的教學(xué)案例,能讓學(xué)生在實(shí)踐中掌握R語言的應(yīng)用。
1 教學(xué)設(shè)計(jì)
1.1 教學(xué)目標(biāo)
本課程致力于培養(yǎng)學(xué)生在醫(yī)學(xué)統(tǒng)計(jì)分析方面的核心能力,具體分為以下三個相互支撐的教學(xué)目標(biāo)。
(1) 掌握醫(yī)學(xué)統(tǒng)計(jì)分析理論基礎(chǔ)。
學(xué)生將深入了解醫(yī)學(xué)統(tǒng)計(jì)學(xué)的基本概念、原理和方法,掌握描述性統(tǒng)計(jì)和推斷性統(tǒng)計(jì)的基礎(chǔ)知識,并進(jìn)一步學(xué)習(xí)高級統(tǒng)計(jì)技術(shù),如回歸分析、方差分析和生存分析等。此目標(biāo)使學(xué)生能夠根據(jù)不同研究問題,選擇并應(yīng)用合適的統(tǒng)計(jì)方法。
(2) 熟練應(yīng)用R軟件。
通過實(shí)際操作,學(xué)生將掌握R軟件在數(shù)據(jù)輸入、處理、模型建立及結(jié)果分析的應(yīng)用。具體包括編寫R 腳本、使用統(tǒng)計(jì)包及解讀統(tǒng)計(jì)輸出結(jié)果,確保學(xué)生能夠有效利用R軟件進(jìn)行醫(yī)學(xué)統(tǒng)計(jì)分析。
(3) 評價統(tǒng)計(jì)分析結(jié)果的準(zhǔn)確性。
學(xué)生將學(xué)習(xí)如何結(jié)合實(shí)際背景和專業(yè)知識,批判性地評估統(tǒng)計(jì)分析結(jié)果,理解統(tǒng)計(jì)推斷的可靠性和局限性。這一目標(biāo)要求學(xué)生識別并處理潛在的偏差、誤差和假設(shè)條件,并學(xué)會如何報告這些因素對統(tǒng)計(jì)分析結(jié)果的影響。
通過實(shí)現(xiàn)這三個目標(biāo),學(xué)生將具備醫(yī)學(xué)統(tǒng)計(jì)分析和大數(shù)據(jù)處理的能力,為未來的研究和實(shí)踐打下堅(jiān)實(shí)基礎(chǔ)。
1.2 課程設(shè)計(jì)
針對醫(yī)學(xué)院校的教學(xué)特點(diǎn)和學(xué)生需求,本課程結(jié)合醫(yī)學(xué)數(shù)據(jù),參考相關(guān)教材,將具體的教學(xué)內(nèi)容和安排設(shè)計(jì)如下:
1.2.1 教學(xué)內(nèi)容
(1) R語言編程基礎(chǔ)。
介紹R語言的特點(diǎn)、安裝和配置,講解R語言中的數(shù)據(jù)結(jié)構(gòu),包括向量、矩陣、數(shù)據(jù)框、列表等。
教授如何導(dǎo)入和導(dǎo)出數(shù)據(jù)(例如CSV、Excel、數(shù)據(jù)庫格式)。
介紹條件判斷、循環(huán)語句以及自定義函數(shù)的方法。
教授數(shù)據(jù)預(yù)處理和清洗的基本步驟,包括缺失值處理、異常值檢測和變量轉(zhuǎn)換。
(2) 醫(yī)學(xué)數(shù)據(jù)可視化。
使用R 函數(shù)繪制條形圖、餅圖、直方圖、盒形圖等。
深入講解ggplot2包的使用,繪制多種復(fù)雜圖形(如散點(diǎn)圖、小提琴圖、熱圖等)。
教授如何將圖形導(dǎo)出為不同格式,并調(diào)整分辨率和大小。
(3) 醫(yī)學(xué)統(tǒng)計(jì)分析方法。
增加統(tǒng)計(jì)理論基礎(chǔ)的介紹,包括概率論、假設(shè)檢驗(yàn)原理、置信區(qū)間等。
介紹常用描述統(tǒng)計(jì)量及分類變量的列聯(lián)表分析等探索性數(shù)據(jù)分析。
講解常見假設(shè)檢驗(yàn)方法,如t檢驗(yàn)、方差分析、卡方檢驗(yàn)等。
教授高級統(tǒng)計(jì)方法,如多重線性回歸分析、Logis? tic回歸分析和生存分析。
1.2.2 教學(xué)安排
在課堂上詳細(xì)教授R語言編程基礎(chǔ)和醫(yī)學(xué)統(tǒng)計(jì)學(xué)的理論知識,以及其在醫(yī)學(xué)研究中的應(yīng)用背景。
上機(jī)實(shí)驗(yàn)課中,通過具體的醫(yī)學(xué)數(shù)據(jù)統(tǒng)計(jì)案例,指導(dǎo)學(xué)生編寫、調(diào)試和運(yùn)行R語言程序,確保理論知識的實(shí)踐應(yīng)用。
實(shí)驗(yàn)課后,組織學(xué)生進(jìn)行案例分析和討論,加深對統(tǒng)計(jì)結(jié)果解讀和應(yīng)用的理解。
通過以上的教學(xué)內(nèi)容和安排,學(xué)生將能系統(tǒng)地掌握R語言編程、醫(yī)學(xué)統(tǒng)計(jì)分析及大數(shù)據(jù)分析和可視化能力,為醫(yī)學(xué)研究和臨床決策提供科學(xué)的數(shù)據(jù)分析支持。
2 使用R 語言實(shí)現(xiàn)醫(yī)學(xué)數(shù)據(jù)統(tǒng)計(jì)的一個案例
t 檢驗(yàn)是假設(shè)檢驗(yàn)中最常用的方法之一,其運(yùn)用較為簡單、方便[8]。t 檢驗(yàn)在醫(yī)學(xué)研究中應(yīng)用廣泛,涵蓋治療、診斷、因素分析等多個方面,是醫(yī)學(xué)研究與決策的重要統(tǒng)計(jì)工具。兩個樣本均數(shù)比較的t 檢驗(yàn),也稱為兩個獨(dú)立樣本t 檢驗(yàn),適用于比較按完全隨機(jī)設(shè)計(jì)得到的兩組數(shù)據(jù),其目的是推斷它們各自所代表的總體均數(shù)是否相等。
例如,為測定功能性子宮出血癥中實(shí)熱組與虛寒組的免疫功能,通過比較其淋巴細(xì)胞轉(zhuǎn)化率(見表1) ,以判斷實(shí)熱組和虛寒組的淋巴細(xì)胞轉(zhuǎn)化率均數(shù)是否存在差異。
為實(shí)熱組與虛寒組的免疫功能淋巴細(xì)胞轉(zhuǎn)化率進(jìn)行兩個獨(dú)立樣本t 檢驗(yàn)的R編程步驟如下:
(1) 正態(tài)性檢驗(yàn)。
先對實(shí)熱組進(jìn)行正態(tài)性檢驗(yàn),代碼如下:
0.69, x0 <.8-) c(0.71, 0.76, 0.66, 0.71, 0.72, 0.69, 0.62, 0.67,
shapiro.test(x)
運(yùn)行上述代碼,結(jié)果如下:W = 0.97123, p- value = 0.902。
然后對虛寒組進(jìn)行正態(tài)性檢驗(yàn),代碼如下:
y<-c(0.62,0.61, 0.62, 0.64, 0.59, 0.68, 0.69)
shapiro.test(y)
運(yùn)行上述代碼,結(jié)果如下:W = 0.91237, p- value = 0.4126。
實(shí)熱組和虛寒組的p 值分別是0.902 和0.4126。兩組p 值均大于0.05,說明兩組數(shù)據(jù)均來自正態(tài)分布的總體。
(2) 方差齊性檢驗(yàn)。
對實(shí)熱組和虛寒組進(jìn)行方差齊性檢驗(yàn),代碼如下:
var.test(x, y)
運(yùn)行上述代碼,結(jié)果如下:p-value = 0.4504,即p值為0.4504,大于0.05,表明實(shí)熱組和虛寒組兩組數(shù)據(jù)的方差差異沒有統(tǒng)計(jì)學(xué)意義,可以認(rèn)為實(shí)熱組和虛寒組的淋巴細(xì)胞轉(zhuǎn)化率總體方差齊。
(3) 兩個獨(dú)立樣本t 檢驗(yàn)。
兩個獨(dú)立樣本t 檢驗(yàn)的代碼如下:
t.test(x, y, var.equal = TRUE)
運(yùn)行上述代碼,結(jié)果如下:p-value = 0.009249,即p 值為0.009249。按照α=0.05的檢驗(yàn)水準(zhǔn),實(shí)熱組和虛寒組兩組數(shù)據(jù)差別具有統(tǒng)計(jì)學(xué)意義,可以認(rèn)為兩組的淋巴細(xì)胞轉(zhuǎn)化率不同,且實(shí)熱組高于虛寒組。
(4) 數(shù)據(jù)可視化。
(4) 數(shù)據(jù)可視化。
對于實(shí)熱組和虛寒組數(shù)據(jù)繪制箱線圖,并顯示顯著性水平,代碼如下:
運(yùn)行上述代碼,結(jié)果如圖1中A圖所示。
3 使用R 語言實(shí)現(xiàn)醫(yī)學(xué)數(shù)據(jù)可視化的一個案例
例如,有一個體檢數(shù)據(jù),包含部門、性別、身高和體重四個字段,可以對數(shù)據(jù)進(jìn)行一些統(tǒng)計(jì)和數(shù)據(jù)可視化。
3.1 對體檢數(shù)據(jù)進(jìn)行統(tǒng)計(jì)
(1) 創(chuàng)建數(shù)據(jù)框。
將這四個字段的數(shù)據(jù)組成一個數(shù)據(jù)框,代碼如下:
(2) 統(tǒng)計(jì)各個部門的人數(shù)。
代碼如下:
stat1 <- table(health2$department)
stat 1
運(yùn)行上述代碼,結(jié)果如下:機(jī)關(guān):30人,教師:50 人,退休:20人。
(3) 統(tǒng)計(jì)各個部門人數(shù)占總?cè)藬?shù)的百分比。
代碼如下:
prop.table(stat1) * 100
運(yùn)行上述代碼,結(jié)果如下:機(jī)關(guān):30%,教師:50%,退休:20%。
(4) 統(tǒng)計(jì)各個部門的男女人數(shù)。
代碼如下:
table(health2$department, health2$sex)
運(yùn)行上述代碼,各個部門的男女人數(shù)結(jié)果如下:機(jī)關(guān)女性:1;機(jī)關(guān)男性:2;教師女性:3;教師男性:2;退休女性:1;退休男性:1。
3.2 體檢數(shù)據(jù)的可視化
可以使用ggplot2包中的ggplot函數(shù)繪制體檢數(shù)據(jù)中身高和體重的散點(diǎn)圖,散點(diǎn)圖可以顯示兩個變量的關(guān)聯(lián)程度。變量之間的相關(guān)關(guān)系是統(tǒng)計(jì)學(xué)中常用的方法。代碼如下:
運(yùn)行上述代碼,結(jié)果分別如圖1中B、C、D、E圖所示。
4 教學(xué)效果
從醫(yī)學(xué)統(tǒng)計(jì)學(xué)中應(yīng)用R語言的教學(xué)經(jīng)驗(yàn)來看,學(xué)生在學(xué)習(xí)過程中表現(xiàn)出一定的規(guī)律性和特點(diǎn)。在學(xué)習(xí)的最初階段,通過案例教學(xué)法可以將抽象的統(tǒng)計(jì)理論具體化,使學(xué)生直觀地了解統(tǒng)計(jì)學(xué)方法在實(shí)際問題中的應(yīng)用,從而激發(fā)學(xué)習(xí)的動力。然而,學(xué)生在剛開始學(xué)習(xí)R語言時,可能會遇到一定的困難。這是因?yàn)镽軟件本身具有一定的學(xué)習(xí)曲線,需要學(xué)生掌握基本的編程概念和統(tǒng)計(jì)分析方法。在這個階段,教師需要提供充分的指導(dǎo)和實(shí)踐機(jī)會,幫助學(xué)生克服入門障礙。隨著學(xué)習(xí)的深入,學(xué)生逐漸掌握了R語言編程和數(shù)據(jù)可視化的基本知識,能夠運(yùn)用所學(xué)的統(tǒng)計(jì)方法分析實(shí)際問題,能力得到顯著提升,能夠獨(dú)立進(jìn)行數(shù)據(jù)分析并理解統(tǒng)計(jì)分析的結(jié)果。通過動手實(shí)踐,學(xué)生不僅學(xué)會使用R軟件,還能更加深入地理解統(tǒng)計(jì)方法背后的原理和邏輯,這種理解更為深刻和持久。
5 在醫(yī)學(xué)統(tǒng)計(jì)學(xué)中引入R 語言教學(xué)的益處
醫(yī)學(xué)統(tǒng)計(jì)學(xué)課程內(nèi)容繁多且理論抽象,直接讓學(xué)生掌握大量公式推導(dǎo)可能難以消化。此外,學(xué)生普遍存在數(shù)理統(tǒng)計(jì)基礎(chǔ)薄弱的問題[3],因此,教學(xué)策略應(yīng)注重實(shí)踐操作和應(yīng)用導(dǎo)向。將R語言作為醫(yī)學(xué)統(tǒng)計(jì)學(xué)的教學(xué)工具引入,是一個符合現(xiàn)代醫(yī)學(xué)數(shù)據(jù)分析需求的重要舉措,具有以下益處:
(1) 實(shí)現(xiàn)數(shù)據(jù)分析工具現(xiàn)代化。隨著醫(yī)學(xué)大數(shù)據(jù)時代的到來,傳統(tǒng)統(tǒng)計(jì)軟件如SPSS、SAS在處理大數(shù)據(jù)集時可能存在效率問題。R語言具有強(qiáng)大的數(shù)據(jù)處理能力和靈活的編程特性,能更好地適應(yīng)現(xiàn)代醫(yī)學(xué)研究的需求。
(2) 強(qiáng)化應(yīng)用性。通過R語言,學(xué)生可以專注于實(shí)際操作和分析醫(yī)學(xué)大數(shù)據(jù),而非深入復(fù)雜的數(shù)學(xué)統(tǒng)計(jì)公式推導(dǎo),這有助于他們更快地理解和掌握關(guān)鍵概念。
(3) 打下數(shù)據(jù)處理堅(jiān)實(shí)基礎(chǔ)。R語言的數(shù)據(jù)結(jié)構(gòu)和數(shù)據(jù)操作是基礎(chǔ),讓學(xué)生通過實(shí)踐操作熟悉數(shù)據(jù)的讀寫和處理,為后續(xù)統(tǒng)計(jì)分析打下堅(jiān)實(shí)基礎(chǔ)。
(4) 促進(jìn)統(tǒng)計(jì)思維的培養(yǎng)。通過R語言編程實(shí)現(xiàn)統(tǒng)計(jì)分析,有助于學(xué)生更深入地理解統(tǒng)計(jì)學(xué)原理和方法。編寫代碼可以使學(xué)生直觀地看到統(tǒng)計(jì)分析的每一步過程,從而加深對統(tǒng)計(jì)概念的理解。
(5) 實(shí)踐統(tǒng)計(jì)方法選擇和編寫程序。通過編寫程序,學(xué)生可以學(xué)習(xí)如何根據(jù)實(shí)際需求選擇和應(yīng)用醫(yī)學(xué)統(tǒng)計(jì)方法,提升問題解決能力。
(6) 增強(qiáng)數(shù)據(jù)可視化能力。R語言提供了豐富的數(shù)據(jù)可視化工具,通過學(xué)習(xí),學(xué)生能夠有效地展示數(shù)據(jù),使他們直觀地理解和解釋統(tǒng)計(jì)結(jié)果,并幫助制作高質(zhì)量的統(tǒng)計(jì)圖表。在醫(yī)學(xué)研究中,清晰、準(zhǔn)確的數(shù)據(jù)展示對于研究結(jié)果的傳達(dá)至關(guān)重要。
(7) 實(shí)踐驅(qū)動學(xué)習(xí)和提高興趣。通過將理論與實(shí)踐相結(jié)合,學(xué)生能夠?qū)⒗碚撝R轉(zhuǎn)化為實(shí)際技能,從而加深對統(tǒng)計(jì)學(xué)的理解。R語言的易用性和交互性有助于激發(fā)學(xué)生的學(xué)習(xí)興趣。
(8) 獲取開源社區(qū)支持。R語言擁有龐大的開源社區(qū),這意味著學(xué)生可以方便地獲取各種學(xué)習(xí)資源、教程和幫助。社區(qū)中不斷更新的包和工具保證了R 語言的持續(xù)發(fā)展和適應(yīng)性。
6 結(jié)束語
綜上所述,將R語言引入醫(yī)學(xué)統(tǒng)計(jì)學(xué)教學(xué),不僅能夠提升學(xué)生的醫(yī)學(xué)大數(shù)據(jù)分析能力,還能培養(yǎng)他們的編程技能、統(tǒng)計(jì)思維和數(shù)據(jù)可視化能力。這有助于他們在解決實(shí)際問題中理解和掌握統(tǒng)計(jì)學(xué),從而彌補(bǔ)基礎(chǔ)理論薄弱問題,對于他們的學(xué)術(shù)研究和職業(yè)發(fā)展都具有重要意義。
【通聯(lián)編輯:唐一東】
基金項(xiàng)目:昆明醫(yī)科大學(xué)2023 年教育教學(xué)研究基金項(xiàng)目(J132101026)