熊飛 曹涌 孫永科
摘要:數(shù)據(jù)科學(xué)導(dǎo)論是數(shù)據(jù)科學(xué)與大數(shù)據(jù)專業(yè)中很重要的導(dǎo)論性課程,課程中涉及了統(tǒng)計(jì)學(xué)、計(jì)算機(jī)、機(jī)器學(xué)習(xí)和深度學(xué)習(xí)的大量前沿內(nèi)容,具有理論復(fù)雜、知識(shí)點(diǎn)繁多的特點(diǎn)。理工科基礎(chǔ)較為薄弱的林業(yè)院校學(xué)生掌握難度較大。本文提出了數(shù)據(jù)分析基礎(chǔ)、機(jī)器學(xué)習(xí)與深度學(xué)習(xí)和數(shù)據(jù)管理與產(chǎn)品開發(fā)的三大模塊構(gòu)成的課程體系以及相應(yīng)的教學(xué)模式,側(cè)重于培養(yǎng)學(xué)生以數(shù)據(jù)為中心的思維模式,形成了符合林業(yè)院校特色的導(dǎo)論課程。
關(guān)鍵詞: 數(shù)據(jù)科學(xué)導(dǎo)論; 課程改革; 導(dǎo)論課程; 林業(yè)院校; 思維模式
中圖分類號(hào):TP391? ? ? ? 文獻(xiàn)標(biāo)識(shí)碼:A
文章編號(hào):1009-3044(2021)15-0147-03
Abstract: Introduction to Data Science is an important introductory course for Data Science and Big Data Technology, which covers a wide range of cutting-edge content in statistics, computers, machine learning, and deep learning. Therefore learning of this course is a challenging work for? students that whitweak foundations in science and engineering in forestry universities. A teaching model focus on cultivating a data-centric mindset is introduced in this paper, which includes three parts: data analysis, Machine learning and deep learning, data management and product development. The redesign of Introduction to Data Science makes it conform to the characteristics of forestry university.
Key words: introduction to data science; course reform; introductory course; forestry universities;
1引言
2015年由國(guó)務(wù)院印發(fā)了《國(guó)務(wù)院關(guān)于印發(fā)促進(jìn)大數(shù)據(jù)發(fā)展行動(dòng)綱要的通知》標(biāo)志著國(guó)家把大數(shù)據(jù)上升到了國(guó)家戰(zhàn)略的層面,隨后在2016年教育部在《教育部高等教育司關(guān)于2016年度普通高等學(xué)校本科專業(yè)設(shè)置工作有關(guān)問題的說明》中增加了數(shù)據(jù)科學(xué)與大數(shù)據(jù)技術(shù)專業(yè)(專業(yè)代碼:08910T)來促進(jìn)數(shù)據(jù)科學(xué)專業(yè)人才的培養(yǎng)。當(dāng)年就有3所高校獲批數(shù)據(jù)科學(xué)與大數(shù)據(jù)技術(shù)專業(yè)。隨后在2017年的第二批次和2018年的第三批次中,又分別有32所和248所高校獲批,到2019年全國(guó)共有479所高校設(shè)立了數(shù)據(jù)科學(xué)與大數(shù)據(jù)技術(shù)專業(yè)[1-2]。
在設(shè)立有數(shù)據(jù)科學(xué)與大數(shù)據(jù)技術(shù)專業(yè)的很多高校中,都設(shè)立了數(shù)據(jù)科學(xué)導(dǎo)論這門課程作為該專業(yè)的導(dǎo)論性課程,例如:中國(guó)人民大學(xué)的數(shù)據(jù)科學(xué)導(dǎo)論和上海健康醫(yī)學(xué)院醫(yī)療器械學(xué)院專業(yè)院校開設(shè)的大數(shù)據(jù)科學(xué)與技術(shù)導(dǎo)論。而該門課程通常開設(shè)在大一下學(xué)期。而《數(shù)據(jù)科學(xué)導(dǎo)論》是該專業(yè)的入門引導(dǎo)性課程,以培養(yǎng)學(xué)生的專業(yè)認(rèn)知為目標(biāo),所以將會(huì)涉及數(shù)據(jù)科學(xué)專業(yè)后續(xù)課程的方方面面。涉及的方面主要包括:數(shù)據(jù)分析基礎(chǔ)、數(shù)據(jù)處理方法和工具、數(shù)據(jù)的獲取與存儲(chǔ)、數(shù)據(jù)挖掘和算法和數(shù)據(jù)可視化等內(nèi)容。這些內(nèi)容涉及的知識(shí)點(diǎn)又包括三個(gè)方面:1)數(shù)學(xué)知識(shí),例如概率論和統(tǒng)計(jì);2)計(jì)算機(jī)知識(shí),例如數(shù)據(jù)庫(kù);3)機(jī)器學(xué)習(xí)與算法:例如分類、回歸、聚類。學(xué)生在這個(gè)時(shí)期,僅僅接觸到高等數(shù)學(xué),計(jì)算機(jī)基礎(chǔ)和程序設(shè)計(jì)等幾門基本的課程。這就造成了學(xué)生大一階段的知識(shí)儲(chǔ)備可能無法理解該門課程所涉及的數(shù)學(xué)、計(jì)算機(jī)和機(jī)器學(xué)習(xí)的知識(shí)點(diǎn)。所以在該階段如何解決學(xué)生知識(shí)儲(chǔ)備與課程內(nèi)容不匹配的矛盾是該門課程建設(shè)的首要任務(wù)。
2國(guó)內(nèi)外研究現(xiàn)狀
2.1 國(guó)外研究現(xiàn)狀
鄭州大學(xué)信息管理學(xué)院的楊瑞仙等人通過網(wǎng)絡(luò)調(diào)研廣泛收集日本10所數(shù)據(jù)科學(xué)核心院校的數(shù)據(jù)科學(xué)專業(yè)的課程建設(shè)情況后,發(fā)現(xiàn)日本這幾所高校將該門導(dǎo)論性課程放在整個(gè)課程體系的通用類模塊中[3]。該模塊主要教授數(shù)據(jù)科學(xué)的基礎(chǔ)理論、思維方式和實(shí)踐練習(xí)。在教學(xué)中,很多學(xué)校又將這部分內(nèi)容拆分為包含統(tǒng)計(jì)分析的數(shù)理模塊和包含機(jī)器學(xué)習(xí)等內(nèi)容的計(jì)算機(jī)模塊。通過詞云等分析,楊瑞仙等人指出開數(shù)據(jù)科學(xué)人才培養(yǎng)中,日本比較重視數(shù)據(jù)分析處理能力的要求和應(yīng)用技術(shù)解決社會(huì)問題能力的培養(yǎng)。
數(shù)據(jù)工程與知識(shí)工程教育部重點(diǎn)實(shí)驗(yàn)室(中國(guó)人民大學(xué))的朝樂門分析比較了哥倫比亞大學(xué)、紐約大學(xué)和哈佛大學(xué)數(shù)據(jù)科學(xué)導(dǎo)論課程的教學(xué)內(nèi)容后,總結(jié)發(fā)現(xiàn)這幾所大學(xué)的課程更加側(cè)重于實(shí)操能力的培養(yǎng),重視數(shù)據(jù)分析與行業(yè)應(yīng)用的結(jié)合[4]。相比于日本10所數(shù)據(jù)科學(xué)核心院校的課程內(nèi)容,這3所大學(xué)的基礎(chǔ)理論部分都差別不大,只是更加側(cè)重于動(dòng)手操作能力的培養(yǎng)。
武漢大學(xué)信息管理學(xué)院的趙蕊菡等人對(duì)國(guó)外主要MOOC平臺(tái)(如Coursera、edX、Udacity等)上數(shù)據(jù)分析類課程進(jìn)行了調(diào)查與分析,將52門課程分成數(shù)據(jù)分析基礎(chǔ)、數(shù)據(jù)分析工具、數(shù)據(jù)分析應(yīng)用和大數(shù)據(jù)分析4個(gè)類別[5]。其中數(shù)據(jù)分析基礎(chǔ)中很多課程的定位類似于數(shù)據(jù)科學(xué)導(dǎo)論這門課程,比如約翰霍普金斯大學(xué)的探索性數(shù)據(jù)分析課程和奧克蘭大學(xué)的理解數(shù)據(jù)課程。但這些課程存在的主要問題是課程內(nèi)容的涉及領(lǐng)域相對(duì)較窄,不足以滿足導(dǎo)論性課程所要求的覆蓋廣度。
2.2 國(guó)內(nèi)研究現(xiàn)狀
在國(guó)內(nèi),探討該課程設(shè)計(jì)的研究還不太多。其中主要有朝樂門在中國(guó)人民大學(xué)開設(shè)的數(shù)據(jù)科學(xué)導(dǎo)論[4]。朝樂門從2015年起就開始從事數(shù)據(jù)科學(xué)的教學(xué)和研究工作,他的課程主要注重于大數(shù)據(jù)時(shí)代新數(shù)據(jù)與老知識(shí)的矛盾,內(nèi)容不僅涉及數(shù)據(jù)科學(xué)的核心理念,還率先將數(shù)據(jù)產(chǎn)品開發(fā)、數(shù)據(jù)化故事等內(nèi)容率先引入該類課程。
在淮南師范學(xué)院又陳磊開設(shè)的數(shù)據(jù)科學(xué)導(dǎo)論課程中,設(shè)計(jì)了七個(gè)模塊,包含了計(jì)算機(jī)數(shù)據(jù)庫(kù)的基礎(chǔ)知識(shí)、統(tǒng)計(jì)基礎(chǔ)與數(shù)學(xué)建模以及數(shù)據(jù)挖掘人工智能。這個(gè)課程注重基本原理算法的介紹,擴(kuò)展學(xué)生的視野[6]。
劉巧紅在上海健康醫(yī)學(xué)院醫(yī)療器械學(xué)院紅探索了該門課程在特色性院校中的實(shí)踐方案。課程建設(shè)中貫穿了大數(shù)據(jù)相關(guān)技術(shù)在解決臨床及健康管理等方面的實(shí)際案例中的應(yīng)用,設(shè)計(jì)了很多具有醫(yī)療健康領(lǐng)域特色的實(shí)踐案例[7]。
3課程建設(shè)目標(biāo)
3.1 數(shù)據(jù)科學(xué)與大數(shù)據(jù)專業(yè)的課程體系
在2010年,DrewConway提出了第一張揭示數(shù)據(jù)科學(xué)的韋恩圖,如圖1所示[8,9]。該圖首次探討了數(shù)據(jù)科學(xué)的學(xué)科定位問題。從圖中可以看出,是數(shù)學(xué)統(tǒng)計(jì)與計(jì)算機(jī)中機(jī)器學(xué)習(xí)的交叉學(xué)科。此外數(shù)據(jù)科學(xué)也不是單純的計(jì)算機(jī)與數(shù)學(xué)的問題,在處理具體問題時(shí)需要該領(lǐng)域的相關(guān)知識(shí)。同時(shí)圖中的黑客精神與技能表示著數(shù)據(jù)科學(xué)研究需要較強(qiáng)的編程能力。
在DrewConway的數(shù)據(jù)科學(xué)維恩圖基礎(chǔ)上,數(shù)據(jù)科學(xué)專業(yè)的知識(shí)體系主要以統(tǒng)計(jì)學(xué)、機(jī)器學(xué)習(xí)和計(jì)算機(jī)相關(guān)知識(shí)為理論基礎(chǔ),主要研究?jī)?nèi)容包括數(shù)據(jù)科學(xué)基礎(chǔ)理論、數(shù)據(jù)加工、數(shù)據(jù)計(jì)算、數(shù)據(jù)管理、數(shù)據(jù)分析和數(shù)據(jù)產(chǎn)品開發(fā)。
3.2 數(shù)據(jù)科學(xué)導(dǎo)論課程的建設(shè)目標(biāo)
根據(jù)數(shù)據(jù)科學(xué)與大數(shù)據(jù)專業(yè)的知識(shí)體系,導(dǎo)論性課程要引導(dǎo)學(xué)生對(duì)本專業(yè)的認(rèn)識(shí)和了解,所以該課程在知識(shí)體系上必須具有一定的廣度。與此同時(shí),課程的廣度就帶來了知識(shí)點(diǎn)較多的問題,很容易讓學(xué)生覺得該專業(yè)較難。所以該課程應(yīng)該注重基礎(chǔ)概念和基本原理的介紹,不宜過多的講解數(shù)學(xué)背景和算法的細(xì)節(jié)。此外在西南林業(yè)大學(xué)的實(shí)際教學(xué)中,貫穿該課程另外一條主線就是要將數(shù)據(jù)分析和大數(shù)據(jù)處理的相關(guān)技術(shù)貫穿在解決林業(yè)研究中的具體應(yīng)用。比如深度學(xué)習(xí)中的識(shí)別技術(shù)在鳥類識(shí)別和木材識(shí)別中的應(yīng)用,傳感器網(wǎng)絡(luò)在森林環(huán)境檢測(cè)中的應(yīng)用。因此在課程中設(shè)計(jì)了數(shù)據(jù)分析基礎(chǔ)、機(jī)器學(xué)習(xí)與深度學(xué)習(xí)和數(shù)據(jù)管理與產(chǎn)品開發(fā)三個(gè)模塊,設(shè)定了三個(gè)教學(xué)目標(biāo),培養(yǎng)學(xué)生不同的三種能力。整個(gè)課程體系如圖2所示。
通過結(jié)合數(shù)據(jù)科學(xué)的相關(guān)知識(shí)和林業(yè)研究中的具體問題,該課程要培養(yǎng)學(xué)生以數(shù)據(jù)為中心的思考能力,同時(shí)引導(dǎo)學(xué)生了解在林業(yè)研究中如何進(jìn)行數(shù)據(jù)的采集、加工、計(jì)算和數(shù)據(jù)管理開發(fā)的整個(gè)過程。
4數(shù)據(jù)科學(xué)導(dǎo)論課程體系的構(gòu)建
4.1 數(shù)據(jù)分析基礎(chǔ)
該課程的數(shù)學(xué)部分主要涉及統(tǒng)計(jì)學(xué)中的相關(guān)知識(shí),而相應(yīng)的數(shù)理統(tǒng)計(jì)與概率論等課程學(xué)生也才剛剛接觸。在這部分的教學(xué)中,學(xué)院以認(rèn)識(shí)數(shù)據(jù)和探索數(shù)據(jù)為出發(fā)點(diǎn)進(jìn)行教學(xué)。首先講解數(shù)據(jù)的屬性和屬性的類別。讓學(xué)生知道數(shù)據(jù)中有的屬性是分類屬性、有的是數(shù)值屬性,它們的處理和統(tǒng)計(jì)方式是不一樣的。
在上一步認(rèn)識(shí)數(shù)據(jù)的基礎(chǔ)上,講解數(shù)據(jù)的探索性分析,從而了解這些數(shù)據(jù)的面貌。這部分內(nèi)容包括數(shù)據(jù)中心趨勢(shì)度量、離散度分析、數(shù)據(jù)分布特征和簡(jiǎn)單數(shù)據(jù)可視化等內(nèi)容。這部分主要涉及會(huì)涉及統(tǒng)計(jì)中的極值、方差、正態(tài)分布等內(nèi)容,所以數(shù)學(xué)相對(duì)較多。為了過多地去講解其中的數(shù)學(xué)原理,學(xué)院引入了折線圖、直方圖和箱線圖等簡(jiǎn)單的數(shù)據(jù)可視化,使學(xué)生能夠更加容易的去理解統(tǒng)計(jì)學(xué)中的相關(guān)理論。
通過對(duì)單維度的數(shù)據(jù)探索性分析后,課程安排了多個(gè)變量的關(guān)聯(lián)性分析。其中內(nèi)容包括:相關(guān)性分析,皮爾森相關(guān)系數(shù)等內(nèi)容。這部分教學(xué)內(nèi)容的加入使得學(xué)生的分析角度不再是單一變量,而是擴(kuò)展到多維度的變量。
以上三部分的教學(xué),使得學(xué)生對(duì)數(shù)據(jù)有了初步的認(rèn)識(shí)后,就可以進(jìn)行偏重實(shí)踐操作的Pandas教學(xué)中。在這部分的教學(xué)中,通過類比Excel的基礎(chǔ)操作,講解如何利用Pandas進(jìn)行數(shù)據(jù)分析和探索。除了實(shí)踐操作的教學(xué),課程中只涉及異常值處理這里理論部分的教學(xué)。
4.2 機(jī)器學(xué)習(xí)與深度學(xué)習(xí)部分
這一部分的教學(xué)是整門課程的教學(xué)難點(diǎn)和重點(diǎn)。難點(diǎn)在于該模塊會(huì)涉及機(jī)器學(xué)習(xí)與深度學(xué)習(xí)中的很多算法,比如線性分類、線性回歸、聚類分析和深度神經(jīng)網(wǎng)絡(luò)等內(nèi)容。這些內(nèi)容需要較好的高等數(shù)學(xué)、概率論和線性代數(shù)的基礎(chǔ)知識(shí)作為支撐。同時(shí)伴隨有大量的數(shù)學(xué)公式和較多的公式推導(dǎo)等內(nèi)容。這對(duì)于大一下學(xué)期的學(xué)生是一個(gè)不小的挑戰(zhàn),也要求老師在教學(xué)中也要避免傳統(tǒng)的以公式理論為出發(fā)的教學(xué)方式。
學(xué)院在該模塊的教學(xué)中,以輕理論、重思想、融合實(shí)踐案例的角度出發(fā),設(shè)計(jì)了實(shí)際問題——算法思想——數(shù)學(xué)原理——實(shí)際案例的四步走的教學(xué)方式。以線性分類為例,首先實(shí)際問題來源于在衛(wèi)星圖像上如何區(qū)分出森林和稻田,其次講述分類問題的基本思想和基礎(chǔ)數(shù)學(xué)原理,最后又回歸到原始問題中,用線性分類解決簡(jiǎn)化后的原始問題。
在整個(gè)教學(xué)中,注重理論與實(shí)踐的緊密結(jié)合,盡量弱化數(shù)學(xué)公式和推導(dǎo)過程,強(qiáng)調(diào)最終的算法效果,讓學(xué)生真實(shí)體會(huì)到最終的效果。
4.3 數(shù)據(jù)管理與產(chǎn)品開發(fā)
在數(shù)據(jù)管理與產(chǎn)品開發(fā)模塊中,主要目的讓學(xué)生了解數(shù)據(jù)采集、存儲(chǔ)、計(jì)算、管理和應(yīng)用等功能。相比于其他兩個(gè)模塊,這部分內(nèi)容偏重計(jì)算機(jī)科學(xué)更多一些。首先就涉及傳感器、物聯(lián)網(wǎng)等數(shù)據(jù)采集。其次數(shù)據(jù)存儲(chǔ)需要數(shù)據(jù)庫(kù)、分布式數(shù)據(jù)庫(kù)的相關(guān)知識(shí)。最后計(jì)算部分會(huì)給學(xué)生普及Hadoop、Hive和Spark的內(nèi)容。
可以說該階段的教學(xué)是“散而廣”:不僅有數(shù)據(jù)庫(kù)的知識(shí)還有物聯(lián)網(wǎng)和Hadoop等計(jì)算平臺(tái)的內(nèi)容。在教學(xué)中,這些內(nèi)容的定位是開闊眼界,作為后續(xù)課程的鋪墊。所以學(xué)院采用專題講座的方式進(jìn)行,以科普的方式完成物聯(lián)網(wǎng)、數(shù)據(jù)庫(kù)和大數(shù)據(jù)計(jì)算平臺(tái)等內(nèi)容講解。
5總結(jié)
數(shù)據(jù)科學(xué)導(dǎo)論是數(shù)據(jù)科學(xué)與大數(shù)據(jù)技術(shù)專業(yè)中重要的先導(dǎo)性課程,需要向?qū)W生描繪出數(shù)據(jù)科學(xué)的整體框架,讓學(xué)生掌握數(shù)據(jù)科學(xué)的基本概念、原理和方法。本文探討了西南林業(yè)大學(xué)在該門課程中教學(xué)模式的改革,提出了數(shù)據(jù)分析基礎(chǔ)、機(jī)器學(xué)習(xí)與深度學(xué)習(xí)和數(shù)據(jù)管理與產(chǎn)品開發(fā)的三大模塊構(gòu)成的課程體系以及相應(yīng)的教學(xué)模式。在新的課程體系中,打破了原來以數(shù)據(jù)獲取、清理、存儲(chǔ)、分析和管理應(yīng)用為主線的教學(xué)方式,從而更加注重培養(yǎng)學(xué)生以數(shù)據(jù)為中心的思維方式。未來將進(jìn)一步從案例、實(shí)踐等多個(gè)方面進(jìn)行改進(jìn),努力形成適合林業(yè)院校的數(shù)據(jù)科學(xué)導(dǎo)論課程。
參考文獻(xiàn):
[1] 周建英,李廣明,王雙成.“數(shù)據(jù)科學(xué)導(dǎo)論”課程教學(xué)探討[J].教育教學(xué)論壇,2020(24):230-231.
[2] 黃達(dá)明,張萍,張莉.數(shù)據(jù)科學(xué)基礎(chǔ)課程體系建設(shè)與研究——以南京大學(xué)為例[J].工業(yè)和信息化教育,2020(1):26-31.
[3] 楊瑞仙,吳東昌.日本數(shù)據(jù)科學(xué)專業(yè)建設(shè)情況調(diào)查研究[J].情報(bào)理論與實(shí)踐,2020,43(8):195-201,166.
[4] 朝樂門.數(shù)據(jù)科學(xué)導(dǎo)論的課程設(shè)計(jì)及教學(xué)改革[J].計(jì)算機(jī)科學(xué),2020,47(7):1-7.
[5] 趙蕊菡,黃如花.國(guó)內(nèi)外數(shù)據(jù)分析類MOOC調(diào)查與分析[J].圖書情報(bào)工作,2016,60(21):52-60.
[6] 陳磊.數(shù)據(jù)科學(xué)導(dǎo)論課程設(shè)置探究[J].淮南師范學(xué)院學(xué)報(bào),2018,20(2):106-108.
[7] 劉巧紅,凌晨,孫麗萍.醫(yī)學(xué)院?!按髷?shù)據(jù)科學(xué)與技術(shù)導(dǎo)論”課程建設(shè)的實(shí)踐[J].中國(guó)醫(yī)學(xué)教育技術(shù),2020,34(5):578-582.
[8] Rachel-Schutt Cathy O'Neil. Doing Data Science: Straight Talk from the Frontline[M]. O'Reilly, 2013.
[9] 朝樂門,邢春曉,張勇.數(shù)據(jù)科學(xué)研究的現(xiàn)狀與趨勢(shì)[J].計(jì)算機(jī)科學(xué),2018,45(1):1-13.
【通聯(lián)編輯:王力】