許嘉 呂品
【摘 要】大數(shù)據(jù)時代的到來催生了對數(shù)據(jù)科學人才的強烈需求。為了盡快培養(yǎng)出合格的數(shù)據(jù)科學人才,國外已有不少名校開設了數(shù)據(jù)科學相關課程或專業(yè),然而,開設這類課程的國內高校數(shù)量還非常少。本文通過調研哈佛大學數(shù)據(jù)科學課程的相關情況,為我國高校盡快建立數(shù)據(jù)科學人才培養(yǎng)體系提供借鑒和參考。
【關鍵詞】數(shù)據(jù)科學 哈佛大學 課程教學
一、 引言
數(shù)據(jù)科學是一門蓬勃發(fā)展的新興學科。它一方面研究數(shù)據(jù)本身,包括數(shù)據(jù)的各種類型、狀態(tài)、屬性、變化形式和變化規(guī)律;另一方面通過數(shù)據(jù)揭示自然界和人類行為的現(xiàn)象與規(guī)律,從而為自然科學和社會科學提供新的研究方法。隨著人類進入大數(shù)據(jù)時代,數(shù)據(jù)科學在各行各業(yè)中發(fā)揮的作用日趨重要,各行業(yè)對數(shù)據(jù)科學人才的需求急劇增長,數(shù)據(jù)科學家迅速成為熱門職業(yè)。然而,由于數(shù)據(jù)科學人才培養(yǎng)的滯后,今后幾年國內外都將面臨巨大的數(shù)據(jù)科學人才缺口。面對這一情況,國外很多著名大學(如哈佛大學、麻省理工學院、哥倫比亞大學、倫敦大學等)都已開設了數(shù)據(jù)科學專業(yè)或課程,開始加強數(shù)據(jù)科學人才的培養(yǎng)。目前,國內設立數(shù)據(jù)科學專業(yè)或課程的高校還非常少,僅有復旦大學、廈門大學等幾所高校在建立實驗室或開設課程方面進行了初步探索。為了填補數(shù)據(jù)科學人才空缺,國內應有更多高校承擔起培養(yǎng)數(shù)據(jù)科學人才的重任。針對國內高校在開設數(shù)據(jù)科學課程時可能面臨的經(jīng)驗不足的問題,筆者對哈佛大學的數(shù)據(jù)科學公開課程進行了調研。通過對哈佛大學數(shù)據(jù)科學課程教學各方面的介紹,希望能夠為我國高校盡快建立數(shù)據(jù)科學人才培養(yǎng)體系提供借鑒和參考。
二、課程基本情況
哈佛大學從2013年開始開設數(shù)據(jù)科學課程,該課程面向有一定編程能力和統(tǒng)計學知識背景的本科生與研究生。課程主講教師有兩位,分別是Rafael Irizarry教授和Verena Kaynig-Fittkau博士。Irizarry教授現(xiàn)為哈佛大學公共衛(wèi)生學院和癌癥研究中心生物統(tǒng)計學教授,主要研究基因組學和計算生物學,尤其是基因組數(shù)據(jù)。Kaynig-Fittkau博士具有計算機科學的背景,現(xiàn)為哈佛大學工程與應用科學學院博士后研究員,主要研究生物醫(yī)學數(shù)據(jù)與圖像處理。他們還邀請了奧地利林茨大學助理教授Marc Streit博士作為客座教授來講授該課程的部分章節(jié),他的主要研究方向為信息可視化、可視化分析和生物數(shù)據(jù)可視化。此外,該課程還配備有一支由25名課程助教組成的教學團隊,主要負責輔導學生完成課程項目。
數(shù)據(jù)科學這門課程的教學內容主要包括進行調查研究的五個關鍵方面:①通過數(shù)據(jù)再加工、抓取、采樣、清洗以獲得信息豐富且容易管理的數(shù)據(jù)集;②通過數(shù)據(jù)存儲和管理以便能夠快速而可靠地訪問數(shù)據(jù),特別是大數(shù)據(jù);③通過探索性數(shù)據(jù)分析獲得對數(shù)據(jù)的假設和直覺信息;④基于諸如回歸、分類、聚類等統(tǒng)計工具進行預測;⑤通過可視化、描述、說明性總結來表達數(shù)據(jù)分析結果。
本課程的教學包括教師授課、課程實驗、課后作業(yè)、課程項目、課外閱讀等組成部分。課程不設期末考試,學生獲得的成績由課后作業(yè)和課程項目的完成情況決定。其中,課后作業(yè)占最終成績的65%,課程項目個人表現(xiàn)占10%,團隊表現(xiàn)占25%。
1.教師授課。頻率是每周兩次,每次課時長約1小時,共計持續(xù)11周,授課內容如表1所示。另外,每周還有一次由助教講授的輔導課程。
表1 哈佛大學數(shù)據(jù)科學課程周表
周次 第1次授課內容 第2次授課內容
1 課程概述 (1)統(tǒng)計學總結和探索性數(shù)據(jù)分析;(2)IPython
2 可視化目標,數(shù)據(jù)類型,統(tǒng)計圖表 (1)視覺屬性,顏色,設計原則;(2)探索數(shù)據(jù)
3 多維數(shù)據(jù)、地圖、文本可視化 (1)大數(shù)據(jù)可視化;
(2)距離、聚類和降維
4 數(shù)據(jù)抓取 統(tǒng)計推斷簡介
5 統(tǒng)計建模、方差和平滑 回歸與預測
6 機器學習簡介 混雜
7 矩陣代數(shù) 貝葉斯統(tǒng)計
8 決策樹,集成學習 集成學習,性能評估
9 支持向量機和核技巧 聚類方法:k-均值,均值漂移
10 MapReduce 圖表可視化與故事講述
11 深度學習 總結和展望
2.課程實驗。作為教師授課的補充,課程實驗通常采用編寫Python程序解決實際問題的方式進行。要求學生努力寫出正確的、高質量的、可讀性好的代碼,同時需要考慮可重用性、錯誤處理等方面的問題,并且寫好相應注釋與文檔。
3.課后作業(yè)。課后作業(yè)被認為是學習數(shù)據(jù)科學技巧和檢測對材料理解程度的機會,也是學生在這門課程中獲得成績的重要來源。教師對學生每次提交作業(yè)的時間設定了嚴格的規(guī)定,同時為了應對事先無法預計的特殊情況,每位學生被允許有兩次推遲一天交作業(yè)的機會,其他晚于截止期提交的作業(yè)都將被拒絕。
4.課程項目。從課程中期開始進行數(shù)據(jù)科學項目,目的是讓學生經(jīng)歷完整的數(shù)據(jù)科學過程,是本課程的重要特色。課程項目以小組的方式完成,每組3至4人,持續(xù)時間大約為1個月。項目中的重要部分是iPython流程書,需要詳細記錄得到結果的每一步,包括如何收集數(shù)據(jù)、嘗試的不同方法、使用的描述統(tǒng)計方法以及從中獲得的結論。學生完成課程項目后,要把涵蓋項目目標、過程、結果的報告以網(wǎng)頁的形式發(fā)布在互聯(lián)網(wǎng)上。每個小組還需要制作一個時長為2分鐘的視頻來講述項目,視頻需要上傳到視頻網(wǎng)站平臺上,如YouTube或Vimeo等。
5.課外閱讀。本課程并沒有指定教材,授課教師推薦了三本書籍作為課外讀物,分別是:《Python for Data Analysis》(注:中譯本《用Python進行數(shù)據(jù)分析》已由機械工業(yè)出版社出版)《Machine Learning for Hackers》(注:中譯本《機器學習:實用案例解析》,已由機械工業(yè)出版社出版)和《Probabilistic Programming and Bayesian Methods for Hackers》。課外閱讀的目的是幫助學生為課堂學習和完成作業(yè)做準備,學生預先熟悉新的術語和定義,以便決定聽課時哪些部分需要更加注意,同時能夠更加全面而系統(tǒng)地構建知識體系。
通過學習這門課程,預期學生能夠獲得的知識和能力包括:能夠使用Python和其他工具抓取、清洗、處理數(shù)據(jù);能夠使用數(shù)據(jù)管理技術在本地或云基礎設施上存儲數(shù)據(jù);能夠使用統(tǒng)計方法和可視化方法快速研究數(shù)據(jù);能夠根據(jù)對數(shù)據(jù)的統(tǒng)計和計算分析進行預測;能夠應用計算機科學中的基本概念(如模塊化、抽象化、封裝化)解決數(shù)據(jù)分析中的問題;能夠使用MapReduce在集群和云基礎設施上實現(xiàn)數(shù)據(jù)密集型計算;能夠使用描述性統(tǒng)計和可視化有效表達數(shù)據(jù)分析結果。
三、帶給我們的啟示
1.廣博是授課內容的突出特點。從課程周表可以看出,該課程的授課內容非常廣博,涉及統(tǒng)計推斷、代數(shù)理論、算法編程、機器學習、人工智能、數(shù)據(jù)可視化等多個學科,在進行數(shù)據(jù)可視化時甚至還涉及一些美學和社會學知識。這說明數(shù)據(jù)科學這門課程并沒有封閉的、完善的知識體系,而是一門綜合性的新興學科。如此廣博的內容無疑對教師自身的能力素質和教學水平提出了更高的要求。開設數(shù)據(jù)科學課程的教師一方面應當努力提高自身知識水平,多閱讀相關各學科領域的經(jīng)典著作和前沿論文,爭取做到融會貫通;另一方面則應該與不同學科背景的教師分工合作,組建跨學科的教學團隊,從而能夠勝任數(shù)據(jù)科學課程的教學任務。
2.實踐是培養(yǎng)能力的最佳途徑。課程項目是該課程教學中的重要組成部分,為了指導學生完成好課程項目,該課程專門配備了一支由25名助教組成的教學團隊,實現(xiàn)了對項目小組“一對一”的指導。由于學生完成課程項目后,要把項目報告和視頻在互聯(lián)網(wǎng)上公開發(fā)布,全世界的人包括授課教師、其他同學甚至學生日后找工作時的用人單位都可以看到該學生在完成課程項目、解決實際問題中掌握的知識和能力。公開項目的完成情況并接受廣泛的監(jiān)督和評判,促使學生必須以更加認真的態(tài)度對待。通過對實際生活中所遇到的數(shù)據(jù)問題進行探索性分析,學生能夠初步切身體會到數(shù)據(jù)科學家的工作內容和思維方法。在這種實踐過程中,學生對知識的理解和掌握程度將大大加深,解決實際問題的能力會得到極大鍛煉。
3.過程是評判成績的重要依據(jù)。該課程并不是通過考試成績評判學生的學習效果,而主要是通過課后作業(yè)和課程項目的完成情況給學生打分。在評判學生的作業(yè)和項目時,與得到的最終結果同樣重要的是如何得到這些結果的過程。由于數(shù)據(jù)科學常常面對的是開放性的問題,這些問題往往沒有唯一的、確定的答案,因此學生的分析過程是其學習效果的最直接體現(xiàn)。對過程進行細致的考核與評判無疑加大了教師的工作量,但此舉有助于教師了解學生對相關知識的掌握程度,及時發(fā)現(xiàn)學生存在的知識漏洞,從而能夠有針對性地進行輔導,這是對學生高度負責的表現(xiàn)。
四、結語
本文通過對哈佛大學數(shù)據(jù)科學課程教學情況進行介紹,希望能為國內高校建立數(shù)據(jù)科學人才培養(yǎng)體系提供參考。當然,國外眾多名校在數(shù)據(jù)科學課程教學方面都有各自的特點和側重點。國內高校應當博采眾長,既要吸取國外名校的先進經(jīng)驗,又要結合我國國情和本校特點,將數(shù)據(jù)科學人才培養(yǎng)體系建設得有特色、有水平。
【參考文獻】
[1]朱揚勇,熊赟.數(shù)據(jù)學[M].上海:復旦大學出版社. 2009.
[2]楊旭,湯海京,丁剛毅.數(shù)據(jù)科學導論[M].北京:北京理工大學出版社. 2014.
[3]中國計算機學會大數(shù)據(jù)專家委員會.中國大數(shù)據(jù)技術與產(chǎn)業(yè)發(fā)展白皮書[M].2013.
[4]廈門大學數(shù)據(jù)科學課程主頁. http://dblab.xmu.edu.cn/post/2984.
[5]哈佛大學數(shù)據(jù)科學課程主頁. http://cs109.github.io/2014.