鄧一星,王 芳,楊榮領(lǐng)
(華南理工大學(xué)廣州學(xué)院 計(jì)算機(jī)工程學(xué)院,廣東 廣州 510800)
隨著我國(guó)信息化發(fā)展水平日益提高,數(shù)據(jù)資源的采集、挖掘和應(yīng)用水平不斷深化。政府部門、互聯(lián)網(wǎng)企業(yè)、大型集團(tuán)企業(yè)積累沉淀了大量的數(shù)據(jù)資源。我國(guó)已成為產(chǎn)生和積累數(shù)據(jù)量最大、數(shù)據(jù)類型最豐富的國(guó)家之一,大數(shù)據(jù)產(chǎn)業(yè)迅速成為了塑造我國(guó)競(jìng)爭(zhēng)力的戰(zhàn)略產(chǎn)業(yè)[1]。2016年,工信部正式發(fā)布了《大數(shù)據(jù)產(chǎn)業(yè)發(fā)展規(guī)劃(2016—2020年)》,提出到2020年,我國(guó)要基本形成技術(shù)先進(jìn)、應(yīng)用繁榮、保障有力的大數(shù)據(jù)產(chǎn)業(yè)體系。大數(shù)據(jù)相關(guān)產(chǎn)品和服務(wù)業(yè)務(wù)收入突破1萬(wàn)億元,年均復(fù)合增長(zhǎng)率保持30%左右,加快建設(shè)數(shù)據(jù)強(qiáng)國(guó),為實(shí)現(xiàn)制造強(qiáng)國(guó)和網(wǎng)絡(luò)強(qiáng)國(guó)提供強(qiáng)大的產(chǎn)業(yè)支撐。隨著大數(shù)據(jù)產(chǎn)業(yè)的爆炸式發(fā)展,對(duì)數(shù)據(jù)處理的專業(yè)技能需求也隨之激增。除此之外,更精細(xì)的分工也產(chǎn)生了對(duì)以統(tǒng)計(jì)分析、數(shù)據(jù)挖掘?yàn)橹饕R(shí)背景的大數(shù)據(jù)分析師,以及以計(jì)算機(jī)技術(shù)為主要知識(shí)背景、面向大數(shù)據(jù)技術(shù)應(yīng)用的大數(shù)據(jù)工程師的需求[2]。
從2017年開(kāi)始,陸續(xù)有高校開(kāi)設(shè)大數(shù)據(jù)技術(shù)的相關(guān)專業(yè),同時(shí),更多的高校也在各自的計(jì)算機(jī)相關(guān)專業(yè)中設(shè)置了大數(shù)據(jù)技術(shù)相關(guān)的方向。對(duì)于應(yīng)用型本科高校而言,總體上還是能明確自己的培養(yǎng)目標(biāo),即以向社會(huì)培養(yǎng)從事大數(shù)據(jù)技術(shù)相關(guān)應(yīng)用的數(shù)據(jù)工程師為主。
大數(shù)據(jù)產(chǎn)業(yè)屬于新興產(chǎn)業(yè),大規(guī)模發(fā)展也就是不到四五年的時(shí)間,從事大數(shù)據(jù)相關(guān)工作的人才學(xué)科背景種類繁多,掌握的技能也是五花八門,很難總結(jié)歸納出究竟哪些才是作為面向應(yīng)用的大數(shù)據(jù)工程師首先需要掌握的知識(shí)。這給高校在設(shè)置大數(shù)據(jù)技術(shù)相關(guān)課程時(shí)帶來(lái)了不小的難題,在實(shí)踐的過(guò)程中,確實(shí)也產(chǎn)生了不少的問(wèn)題。
(1)課程設(shè)置簡(jiǎn)單粗放。新興學(xué)科在課程設(shè)置上,很容易犯課程體系臃腫的毛病。以前些年非常熱門的物聯(lián)網(wǎng)專業(yè)(方向)為例,目前該專業(yè)(方向)在很多應(yīng)用型二本、三本院校卻受到了冷遇。原因在于,作為跨通信、計(jì)算機(jī)、網(wǎng)絡(luò)等技術(shù)的交叉學(xué)科,物聯(lián)網(wǎng)專業(yè)課程體系往往同時(shí)包含了以上幾個(gè)專業(yè)的核心課程(特別是一些理論課程),不開(kāi)設(shè)說(shuō)不過(guò)去,但全開(kāi)起來(lái),本科層次的學(xué)生苦不堪言。學(xué)生進(jìn)入社會(huì)從事具體應(yīng)用的工作,又不需要掌握那么多知識(shí)。大數(shù)據(jù)技術(shù)方向的課程建設(shè),也很容易出現(xiàn)這樣的問(wèn)題,很多高校在計(jì)算機(jī)科學(xué)(軟件工程)專業(yè)上,加入部分?jǐn)?shù)理統(tǒng)計(jì)類的課程,以及分布式集群框架和數(shù)據(jù)挖掘、分析的課程。但實(shí)際上,這樣的課程體系往往缺乏可操作性,也超過(guò)了本科生的承受能力。
(2)實(shí)驗(yàn)教學(xué)難開(kāi)展。大數(shù)據(jù)工程師能力的培養(yǎng)非常強(qiáng)調(diào)對(duì)相關(guān)平臺(tái)、工具的掌握和在平臺(tái)進(jìn)行項(xiàng)目實(shí)操的經(jīng)驗(yàn)??陀^地說(shuō),許多高校的大數(shù)據(jù)實(shí)驗(yàn)課,還停留在開(kāi)設(shè)一些Python的編程實(shí)驗(yàn)和教學(xué)生安裝和配置Hadoop平臺(tái)的階段,很難再深入組織實(shí)驗(yàn)。
(3)學(xué)生課外項(xiàng)目實(shí)踐機(jī)會(huì)少。校內(nèi)的工作室或技術(shù)團(tuán)隊(duì),主要還是以軟件開(kāi)發(fā)類項(xiàng)目為主,學(xué)生在校內(nèi)很難找到一個(gè)完整的大數(shù)據(jù)項(xiàng)目進(jìn)行實(shí)踐,只能靠網(wǎng)上的一些視頻和公開(kāi)數(shù)據(jù)集來(lái)簡(jiǎn)單練習(xí),缺乏結(jié)合企業(yè)實(shí)際業(yè)務(wù)的數(shù)據(jù)處理過(guò)程,能力提高比較慢,在實(shí)習(xí)畢業(yè)的時(shí)候,大多還是走回進(jìn)行普通軟件開(kāi)發(fā)的老路子。
應(yīng)用型本科高校應(yīng)著眼于服務(wù)區(qū)域經(jīng)濟(jì)發(fā)展,培養(yǎng)能在生產(chǎn)第一線從事工程實(shí)施和管理的、能解決企業(yè)實(shí)際問(wèn)題的應(yīng)用型人才。大數(shù)據(jù)工程師的能力培養(yǎng),不能脫離“技術(shù)+業(yè)務(wù)”這條主線,應(yīng)著眼于培養(yǎng)掌握大數(shù)據(jù)應(yīng)用系統(tǒng)設(shè)計(jì)、開(kāi)發(fā)、調(diào)優(yōu)以及運(yùn)營(yíng)維護(hù)的人才。這是一個(gè)系統(tǒng)的工程,需要從課程方案設(shè)計(jì)、實(shí)驗(yàn)(實(shí)踐)教學(xué)組織乃至個(gè)性化學(xué)習(xí)和項(xiàng)目實(shí)踐等方面綜合考慮。
(1)課程體系要精簡(jiǎn),主次分明,有所取舍。不建議過(guò)多開(kāi)設(shè)偏數(shù)學(xué)類的統(tǒng)計(jì)分析課程,開(kāi)設(shè)了的課程內(nèi)容也不易過(guò)深。實(shí)際上,數(shù)據(jù)工程師并不需要在數(shù)學(xué)理論和算法上進(jìn)行非常深入的研究,他們更多是作為一個(gè)算法的使用者,而絕大多數(shù)的數(shù)據(jù)分析算法,都已經(jīng)有了成熟的算法包可供各種開(kāi)發(fā)工具調(diào)用。對(duì)于數(shù)據(jù)工程師來(lái)說(shuō),明白一個(gè)業(yè)務(wù)場(chǎng)景需要用什么算法,比了解算法的內(nèi)涵更為重要,有些算法甚至可以在實(shí)踐中現(xiàn)學(xué)現(xiàn)用。以華南理工大學(xué)廣州學(xué)院軟件工程專業(yè)(以下簡(jiǎn)稱本專業(yè))大數(shù)據(jù)技術(shù)方向?yàn)槔?,在保留原有的高等?shù)學(xué)、線性代數(shù)等課程的基礎(chǔ)之上,再把概率論和數(shù)理統(tǒng)計(jì)分成兩門課程,這相當(dāng)于增加了統(tǒng)計(jì)學(xué)教學(xué)內(nèi)容的學(xué)時(shí);同時(shí)開(kāi)設(shè)一門數(shù)學(xué)模型課程,讓學(xué)生掌握基本的數(shù)學(xué)建模能力。這已可保證學(xué)生具有足夠的數(shù)學(xué)基礎(chǔ)。對(duì)于部分傳統(tǒng)軟件工程和軟件開(kāi)發(fā)類的課程,可以適當(dāng)?shù)靥蕹蜣D(zhuǎn)為選修課程,為后期的大數(shù)據(jù)課程騰出學(xué)分空間,而這部分課程可供學(xué)有余力的學(xué)生選修。
(2)加強(qiáng)學(xué)生對(duì)數(shù)據(jù)的認(rèn)識(shí)。涉及數(shù)據(jù)組織、管理和處理的課程可適當(dāng)強(qiáng)化。除了傳統(tǒng)的數(shù)據(jù)庫(kù)原理課程外,增加數(shù)據(jù)導(dǎo)入與預(yù)處理、數(shù)據(jù)倉(cāng)庫(kù)、數(shù)據(jù)挖掘以及數(shù)據(jù)可視化等課程。
(3)要求學(xué)生掌握在分布式平臺(tái)和并行計(jì)算框架上進(jìn)行基本的數(shù)據(jù)分析的能力。目前本方向這方面的課程主要采用Hadoop生態(tài)圈下的產(chǎn)品和工具來(lái)開(kāi)展教學(xué),開(kāi)設(shè)Hadoop大數(shù)據(jù)技術(shù)和大數(shù)據(jù)分析與內(nèi)存計(jì)算、機(jī)器學(xué)習(xí)3門課程。
(4)保證學(xué)生對(duì)云計(jì)算有足夠的理解和應(yīng)用能力,開(kāi)設(shè)云計(jì)算基礎(chǔ)、架構(gòu)等課程。云計(jì)算與大數(shù)據(jù)的關(guān)系如同手心手背,二者缺一不可。大數(shù)據(jù)需要云計(jì)算的支持才能具有更強(qiáng)的決策力、洞察發(fā)現(xiàn)力和流程優(yōu)化能力,以此來(lái)適應(yīng)海量、高增長(zhǎng)率和多樣化的信息資產(chǎn)。從應(yīng)用的角度看,一方面,隨著企業(yè)不斷把業(yè)務(wù)遷移到云端,數(shù)據(jù)基本上也都存在于云端;另一方面,利用云計(jì)算可以靈活快速地完成分布式計(jì)算框架的構(gòu)建;除此之外,幾乎所有的機(jī)器學(xué)習(xí)算法或深度學(xué)習(xí)的模型,都可以很輕易在云端找到實(shí)現(xiàn)的工具,甚至一些常見(jiàn)的應(yīng)用場(chǎng)景,都可以在云端直接進(jìn)行分析。簡(jiǎn)單地說(shuō),云計(jì)算成就了大數(shù)據(jù),有了云計(jì)算,大數(shù)據(jù)的應(yīng)用才能展開(kāi),技術(shù)門檻才能降低。
完整的大數(shù)據(jù)方向課程體系如圖1所示。
大數(shù)據(jù)實(shí)驗(yàn)教學(xué)目前存在的最大問(wèn)題在于,從基礎(chǔ)的Python編程、Linux操作系統(tǒng),到Hadoop平臺(tái),乃至Spark計(jì)算框架,似乎涉及大數(shù)據(jù)技術(shù)的每門課程都安排了相應(yīng)的實(shí)驗(yàn),但各項(xiàng)實(shí)驗(yàn)之間內(nèi)容沒(méi)能形成呼應(yīng)關(guān)系,不能從整體上培養(yǎng)學(xué)生解決實(shí)際問(wèn)題的能力。本專業(yè)在軟件工程類課程的實(shí)驗(yàn)教學(xué)上,已經(jīng)做了比較好的嘗試。采用打通實(shí)驗(yàn)課教學(xué)內(nèi)容的方式,即從一個(gè)需求開(kāi)始,依次展開(kāi)UML建模、Java EE框架開(kāi)發(fā)、軟件測(cè)試和軟件項(xiàng)目管理等實(shí)驗(yàn)內(nèi)容,取得了比較好的教學(xué)效果。相關(guān)經(jīng)驗(yàn)可以引用到大數(shù)據(jù)實(shí)驗(yàn)教學(xué)中,從一些簡(jiǎn)單、典型的數(shù)據(jù)集開(kāi)始,展開(kāi)數(shù)據(jù)預(yù)處理、大數(shù)據(jù)平臺(tái)搭建、數(shù)據(jù)分析乃至數(shù)據(jù)可視化的實(shí)驗(yàn)。一個(gè)流程下來(lái),學(xué)生對(duì)大數(shù)據(jù)處理的內(nèi)容、步驟就會(huì)有一個(gè)比較完整的認(rèn)識(shí),接下去再設(shè)計(jì)1~2門集中實(shí)踐式的綜合實(shí)驗(yàn)(或課程設(shè)計(jì)),讓學(xué)生獨(dú)立完成一個(gè)大數(shù)據(jù)應(yīng)用項(xiàng)目。
圖1 大數(shù)據(jù)方向課程體系
此外,正如前面所述,云計(jì)算為大數(shù)據(jù)提供了強(qiáng)有力的支撐,云計(jì)算的實(shí)驗(yàn)教學(xué)也不可忽視。很多學(xué)校會(huì)采用類似OpenStack這樣的開(kāi)源云平臺(tái)來(lái)開(kāi)展實(shí)驗(yàn),但這樣做缺點(diǎn)也很明顯。首先加大了實(shí)驗(yàn)教學(xué)的難度,在開(kāi)源平臺(tái)的實(shí)驗(yàn)中,若配置稍微出點(diǎn)問(wèn)題,糾錯(cuò)改正的過(guò)程往往讓教師苦不堪言,這違背了云計(jì)算方便易用的初衷;其次,在實(shí)驗(yàn)室搭建的云平臺(tái),也很難提供足夠強(qiáng)大的計(jì)算能力來(lái)實(shí)現(xiàn)大數(shù)據(jù)實(shí)戰(zhàn)的需求。在大數(shù)據(jù)應(yīng)用領(lǐng)域,企業(yè)更傾向于采用商業(yè)云平臺(tái),按需獲得足夠強(qiáng)大的計(jì)算能力。本專業(yè)在獨(dú)立學(xué)院中率先建立了AWS Academy,與AWS展開(kāi)了實(shí)驗(yàn)課程的合作,由AWS來(lái)協(xié)助設(shè)計(jì)云計(jì)算基礎(chǔ)、架構(gòu)和開(kāi)發(fā)的實(shí)驗(yàn)教學(xué)內(nèi)容,提供真實(shí)的AWS云環(huán)境進(jìn)行實(shí)驗(yàn),并鼓勵(lì)學(xué)生參與到后續(xù)的大數(shù)據(jù)項(xiàng)目中,使用AWS Segmaker等機(jī)器學(xué)習(xí)或深度學(xué)習(xí)工具。
實(shí)踐是檢驗(yàn)真理的唯一標(biāo)準(zhǔn),教學(xué)之外,還應(yīng)為學(xué)生創(chuàng)造更多的課外項(xiàng)目實(shí)踐機(jī)會(huì)。通過(guò)鼓勵(lì)教師參與大數(shù)據(jù)相關(guān)研發(fā)項(xiàng)目并吸收學(xué)生參與具體工作,是一個(gè)不錯(cuò)的手段。為此,華南理工大學(xué)廣州學(xué)院由計(jì)算機(jī)工程學(xué)院和管理學(xué)院共同組建了智能商務(wù)研究所,為珠三角企業(yè)提供大數(shù)據(jù)相關(guān)的技術(shù)服務(wù)。參與研究所項(xiàng)目的老師近10人,并在此基礎(chǔ)上組建了大數(shù)據(jù)學(xué)生團(tuán)隊(duì),每屆學(xué)生總數(shù)為30~40人,學(xué)生中的一部分參與研究所的具體項(xiàng)目研發(fā),一部分在老師指導(dǎo)下進(jìn)行大學(xué)生創(chuàng)新創(chuàng)業(yè)實(shí)驗(yàn)項(xiàng)目,還有一部分通過(guò)參加Kaggle比賽或天池比賽,不斷累積項(xiàng)目經(jīng)驗(yàn)。
方案提出并在華南理工大學(xué)廣州學(xué)院軟件工程專業(yè)實(shí)施以來(lái),取得了比較好的效果。首先改變了學(xué)生扎堆往Web開(kāi)發(fā)方向上擠的局面,學(xué)生的就業(yè)面得到了拓寬,已有相當(dāng)一部分學(xué)生能夠在云計(jì)算、數(shù)據(jù)分析相關(guān)的公司和崗位實(shí)習(xí)或就業(yè),就業(yè)質(zhì)量也得到了顯著提高;其次,學(xué)生有了一定的大數(shù)據(jù)應(yīng)用的知識(shí)基礎(chǔ)后,便可以積極參與大數(shù)據(jù)相關(guān)的應(yīng)用研究工作,近兩年來(lái),計(jì)算機(jī)工程學(xué)院和智能商務(wù)研究所已開(kāi)展“獨(dú)立學(xué)院學(xué)生多維興趣數(shù)據(jù)的挖掘與分析”“AI智能制單”“海關(guān)通關(guān)信息自動(dòng)分類”等6項(xiàng)課題,此外還有國(guó)家級(jí)大創(chuàng)項(xiàng)目1項(xiàng),省級(jí)大創(chuàng)項(xiàng)目1項(xiàng)。
在此方案基礎(chǔ)上,華南理工大學(xué)廣州學(xué)院與教育部學(xué)校規(guī)劃建設(shè)發(fā)展中心以及中科曙光集團(tuán)于2018年7月成功簽約數(shù)據(jù)中國(guó)“百校工程”產(chǎn)教融合創(chuàng)新項(xiàng)目,校企政三方共建大數(shù)據(jù)應(yīng)用創(chuàng)新中心,打造兼具人才培養(yǎng)、科研創(chuàng)新和服務(wù)行業(yè)與地方發(fā)展功能的大數(shù)據(jù)應(yīng)用協(xié)同創(chuàng)新網(wǎng)絡(luò)。
在大數(shù)據(jù)從理論研究轉(zhuǎn)向大規(guī)模應(yīng)用實(shí)踐的今天,各行業(yè)對(duì)大數(shù)據(jù)工程師的需求量激增,如何開(kāi)展大數(shù)據(jù)工程師的培養(yǎng)工作,是擺在應(yīng)用型本科院校面前的一個(gè)現(xiàn)實(shí)問(wèn)題。本文針對(duì)高校中比較常見(jiàn)的在軟件工程專業(yè)下設(shè)置大數(shù)據(jù)方向這種方式,對(duì)其課程設(shè)置、實(shí)驗(yàn)教學(xué)和實(shí)踐環(huán)節(jié)進(jìn)行分析,試圖找出一條有效的大數(shù)據(jù)工程師培養(yǎng)方案,為其他高校提供一些可供參考和借鑒的經(jīng)驗(yàn)。