肖卓宇 宋 藝
(1.中南林業(yè)科技大學涉外學院,湖南長沙410200;2.長沙民政職業(yè)技術學院,湖南長沙410004)
隨著社交網絡的逐漸成熟,移動帶寬迅速提升,云計算、物聯(lián)網、霧計算、邊緣計算、區(qū)塊鏈等的應用更加豐富。更多的傳感設備、移動終端接入到Internet,由此產生的數據及增長將比歷史上的任何時期都要多、都要快。IDC預測到2020年,全球數據量將會達到44ZB,而中國產生的數據量將會達到8ZB,也就是說2年之后中國產生的數據量將會占到全球的五分之一[1]。大數據時代的腳步悄然而至,清華大學計算機系教授武永衛(wèi)去年透露了一組數據:未來幾年,中國需要180萬大數據技術相關人才,但目前只有約30萬人,僅數據分析專業(yè)人才需求就達到幾十萬人以上[2]。MIT等四所著名高校于2000年提出了CDIO(Conceive Design Implement Operate,CDIO)工程教育模式[3-4]。CDIO側重項目實踐,并在我國眾多高校取得了較好的教學效果。
從中南林業(yè)科技大學涉外學院本科專業(yè)布局和科學定位角度看,大數據技術基礎課程將豐富我院IT類相關專業(yè)學生的知識體系,有助于人才培養(yǎng)模式的優(yōu)化,更便于我院教學體系與市場需求的無縫對接。我院屬于中南林業(yè)科技大學的獨立學院,學生理論基礎普遍較弱,故基于CDIO的大數據技術課程項目實踐將有助于我院學生更好地掌握大數據相關知識,也為后續(xù)數據科學與大數據技術專業(yè)的申報奠定基礎,具有積極的意義。
目前我院開設了軟件工程、計算機科學與技術等IT類相關專業(yè),但目前的教學大綱為6年前制訂的版本。中央電視臺于2014年首次播報了兩會大數據與春運大數據的相關新聞,此后,大數據越來越多地出現在公眾的視野,并被國家放到一個戰(zhàn)略的層面進行大力扶持。由于大數據人才極度匱乏,眾多國內外著名高校依托行業(yè)背景進行了數據科學與大數據技術專業(yè)的申報工作。2016年,北京大學、對外經濟貿易大學、中南大學三所高校成為首批申報成功的高校;之后,2017年,中國人民大學、電子科技大學等32所大學成為第二批申報成功的高校;2018年又有包括獨立學院、高職在內的近250所高校申報成功[5]。
本文前期教學改革以計算思維為導向對學院大學生程序設計能力培養(yǎng)進行了研究,學院學生多批次獲得國家二等獎、三等獎及湖南省程序設計大賽一、二等獎,教學改革取得了較好的效果[6]。但是,目前由于科學數據與大數據技術課程師資缺乏,我院目前僅在軟件工程專業(yè)進行基于CDIO的大數據技術課程試點。
基于CDIO的工程實踐教學思想,以軟件工程專業(yè)為試點,從教學方法與課程體系等方面全方位進行教學改革。
由于學院在大數據方向的師資比較缺乏,目前并無直接對口的數據科學與大數據技術專業(yè)教師,故前期學院選拔了中青年優(yōu)秀教師多批次參與了國家教育行政部門、教指委、國家行業(yè)協(xié)會的大數據相關課程的學習培訓工作。此外,由于軟件工程專業(yè)的培養(yǎng)目標、課時等諸多條件的限制,并考慮到獨立學院學生相對較弱的理論基礎,故教學改革不應直接照搬重點高校系統(tǒng)化、專業(yè)化的數據科學與大數據專業(yè)課程體系,而更應立足于實踐,探索符合我院特色的大數據技術課程體系。
圖1 大數據技術課程知識體系
由于目前我院并未開設數據科學與大數據技術專業(yè),考慮到大數據專業(yè)從業(yè)人員的巨大缺口,故當前的教學改革首要目標是在軟件工程專業(yè)培養(yǎng)方案中融入大數據技術相關課程,并以此為契機,為數據科學與大數據技術專業(yè)奠定基礎。
大數據技術課程體系設置方面將部分相對重要及工程實踐性較強的課程進行了精簡。圖1將大數據技術課程知識體系分為大數據基礎、大數據存儲、大數據處理3個部分。大數據基礎部分主要簡介了大數據Volume(大量)?、Variety(多樣)?、Velocity(高速)?、Value(價值)?的 4V特征。此外,還包括大數據在金融、物流、生物醫(yī)學、餐飲等行業(yè)典型應用,以及大數據技術要使用到的主流工具,如 :Hadoop、Spark、HDFS、HIVE、PIG、Mathout、Zookeeper、Flume、Sqoop、Hbase、Kafka等。大數據存儲部分側重介紹HDFS運行機制、Hbase數據模型、原理、運行機制;NoSQL介紹CAP三大基石與鍵值、列族、圖和文檔數據庫的特征與區(qū)別;云數據庫主要介紹云數據庫的優(yōu)缺點及特性。大數據處理部分以Wordcut為例,以案例式教學對Hadoop的MapReduce與HDFS執(zhí)行原理與過程進行介紹,此外,也進一步介紹Spark與Storm的特征。
依據教學改革體系與人才培養(yǎng)方案,大數據相關課程理論與實踐的比率為1:1。教學改革分為3個步驟實施,詳見表1。
表1:基于CDIO的大數據技術實訓任務
大數據基礎階段主要對前置課程Ubuntu Linux中涵蓋的重要命令進行梳理與實訓,此外,還側重關注學生對Hadoop平臺配置流程的掌握情況,涵蓋APT、SSH、java環(huán)境JDK、偽分布式Hadoop模式與基于Dock容器的Hadoop模式等。
大數據存儲階段首先需要了解HDFS操作常用的Shell命令,如:Hadoop fs、Hadoop dfs、HDFS dfs等,之后,通過相關Shell命令實現本地環(huán)境與HDFS之間的上傳、下載、授權、復制、移動等的綜合實例。此外,存儲階段將仔細分析SQL、NOSQL、NEWSQL之前的區(qū)別,并對列族數據庫Hbase、鍵值數據庫Redis、文檔數據庫Mangodb、圖形數據庫Neo4j進行項目實踐;最后,通過基于MaperReduce、HIVE、MYSQL、Sqoop 等工具的綜合實訓實現對數據的分析與傳輸,從而進一步加深學生對大數據存儲過程的理解。
大數據處理階段將在學生熟悉MaperReduce與HDFS原理的基礎上,通過Hadoop處理平臺統(tǒng)計全球溫度項目,該項目屬于Wordcut項目的進階項目,有助于幫助學生從數據采集、數據預處理、分布式計算、數據分析、大數據可視化5個階段全方位參與到基于CDIO的工程項目實踐。此外,該階段也將對Spark處理平臺進行介紹,讓學生掌握 Spark RDD、Spark SQL、Spark Streaming、Spark MLlib庫,并進一步以KNN等數據挖掘技術對某電影網站用戶性別進行預測;最后,基于流計算對淘寶網雙12數據分析與預測,從而讓學生全過程參與和理解批處理計算、實時批處理,交互式處理、流處理的優(yōu)缺點與適合場景,從而讓學生對大數據的認知上升到一個新的高度。
基于CDIO的IT類大數據相關課程體系的教學改革已應用于學院軟件工程專業(yè),從整體反饋情況來看,學生普遍對大數據技術相關課程具有認同感,項目實訓取得了較好的效果,遞進式的工程項目大大激發(fā)了學生團隊的創(chuàng)新實踐能力,部分學生得以進入知名IT企業(yè)實習與工作,后期工作將進一步對課程體系進行改革,并將Storm、Flink計算平臺、以及基于TensorFlow的深度學習引入到工程項目中來。