譚紅葉,李 茹,呂國英
(山西大學 計算機與信息技術學院,山西 太原 030006)
目前,數(shù)據(jù)已成為與自然資源、人力資源一樣重要的戰(zhàn)略資源[1]。要想有效組織、使用并發(fā)現(xiàn)數(shù)據(jù)中隱含的巨大價值,必須擁有數(shù)據(jù)科學與工程專業(yè)人才。但由于國內(nèi)外高校開展數(shù)據(jù)科學與工程人才培養(yǎng)的時間不長,技術市場上掌握大數(shù)據(jù)處理和應用開發(fā)技術的人才十分短缺。因此,高校需要與時俱進,面向新時代新挑戰(zhàn),為國家和社會培養(yǎng)出足夠的優(yōu)秀的數(shù)據(jù)人才。
數(shù)據(jù)科學通常指利用科學的方法、過程和系統(tǒng)從結(jié)構化或非結(jié)構化數(shù)據(jù)中抽象出有效知識并加以應用的學科;數(shù)據(jù)工程是指利用工程的觀點進行數(shù)據(jù)管理和分析以及開展系統(tǒng)的研發(fā)和應用[2]。國際上認可的數(shù)據(jù)科學過程為:首先提出與數(shù)據(jù)相關的問題,即基于數(shù)據(jù)想要預測、估計或發(fā)現(xiàn)什么;然后獲取數(shù)據(jù),即數(shù)據(jù)采集與清洗、存儲與管理;然后分析挖掘數(shù)據(jù),即探究數(shù)據(jù)中是否存在規(guī)律性或反常的東西;最后對數(shù)據(jù)建模,并進行模型驗證,驗證從數(shù)據(jù)中學到的東西是否正確或有意義。這個過程與計算機科學緊密相關,每個環(huán)節(jié)相互作用相互影響,如圖1所示[3]。
隨著數(shù)據(jù)的規(guī)模增大、結(jié)構混亂等復雜因素的出現(xiàn),過去能解、易解的問題變成了不可解或不可表示的問題;數(shù)據(jù)的存儲、軟件系統(tǒng)與計算模型的設計與實現(xiàn)也遇到了各種困難和挑戰(zhàn)。傳統(tǒng)的計算機科學要從關注科學計算、商業(yè)計算轉(zhuǎn)變?yōu)殛P注利用數(shù)據(jù)科學與工程理論與方法進行的大數(shù)據(jù)計算,這就要求高校必須要培養(yǎng)具有數(shù)據(jù)科學與工程相關能力的計算機專業(yè)人才,以契合新時代下國家重大行業(yè)和地方產(chǎn)業(yè)的需求。但傳統(tǒng)的計算機科學專業(yè)人才培養(yǎng)方案缺乏數(shù)據(jù)人才所需具備的數(shù)據(jù)思維與數(shù)據(jù)采集、存儲與管理、分析與挖掘、可視化與應用的覆蓋數(shù)據(jù)科學完整過程的一系列理論知識和實踐能力的培養(yǎng)與訓練。因此,現(xiàn)行的計算機專業(yè)教學體系在完成數(shù)據(jù)科學與工程相關能力的培養(yǎng)上,無論教學內(nèi)容還是教學方式均有待優(yōu)化和改革。
圖1 數(shù)據(jù)科學過程示意圖
構建數(shù)據(jù)科學與工程特色鮮明的計算機科學與技術人才培養(yǎng)方案的改革思路為:圍繞數(shù)據(jù)科學與工程獨特的學科基礎和內(nèi)涵,優(yōu)化計算機科學與技術課程體系;結(jié)合學院高水平學科平臺,系統(tǒng)構建“數(shù)據(jù)科學與工程課程群”;依托協(xié)同創(chuàng)新中心與創(chuàng)新團隊,探索多種人才培養(yǎng)模式。
從思維與意識、知識、能力、技能等方面確定具有優(yōu)良數(shù)據(jù)科學與工程素養(yǎng)的計算機科學與技術人才的培養(yǎng)目標:①思維與意識:培養(yǎng)學生的數(shù)據(jù)思維,樹立學生從抽象的數(shù)據(jù)中提取價值和解釋數(shù)據(jù)的意識。②知識:培養(yǎng)學生掌握能支持在數(shù)據(jù)科學領域與計算機科學領域進行探索創(chuàng)新所需的算法設計與實現(xiàn)、數(shù)據(jù)分析與挖掘等的專業(yè)基礎知識。③能力:培養(yǎng)學生能夠從數(shù)據(jù)工程師的角度分析問題,并具備采用一定策略進行數(shù)據(jù)收集、存儲與管理、分析與挖掘、呈現(xiàn)與應用的能力;具備從程序員的角度分析問題及采用一定策略進行算法設計與實現(xiàn)解決問題的能力,并具有計算機軟硬件系統(tǒng)的全局認識和基本的計算機系統(tǒng)設計能力;具備自我探索學習與凝練問題的能力。④技能:培養(yǎng)學生能熟練使用Java等語言及其開發(fā)環(huán)境實現(xiàn)可以正確運行的程序;較為熟練地掌握和使用通用數(shù)據(jù)科學工具與平臺。
高水平學科平臺不僅是科研創(chuàng)新的引擎,同時也是教學創(chuàng)新的輸出源頭。近年來,山西大學計算機科學與技術學院努力構建了以下學科平臺。
(1)攀升計劃與學位點。山西大學有計算機科學與技術一級學科博士學位點及博士后科研流動站,其計算機學科被評為“山西省高等學校優(yōu)勢學科攀升計劃項目”,而且,該學科還是山西省2012年設立的首批特色重點學科。
(2)重點實驗室。學院擁有“計算智能與中文信息處理實驗室”教育部重點實驗室、“智能信息處理實驗室”山西省重點實驗室、智能信息處理山西省院士工作站。
(3)創(chuàng)新基地。2013年,山西大學計算機學科牽頭的“面向信息化的大數(shù)據(jù)分析與處理協(xié)同創(chuàng)新基地”通過山西省教育廳評審,列入首批培育建設項目;2015年該基地被山西省教育廳評審認定為“大數(shù)據(jù)挖掘與智能技術山西省協(xié)同創(chuàng)新中心”。
(4)實驗平臺。圍繞科學研究與教學的實驗環(huán)境,本學科在教育部重點實驗室、山西省重點實驗室著力建設了兩個大型實驗儀器平臺:①教育部重點實驗室高性能計算平臺,該實驗平臺可提供Windows 2008 HPC(1個管理節(jié)點,25個計算節(jié)點,1個文件服務器,全千兆網(wǎng)絡互聯(lián))、Linux HPC(1個管理結(jié)點,18個計算節(jié)點,1個1T存儲,全千兆網(wǎng)絡互聯(lián))和遠程虛擬計算機(4顆6核CPU/2.0G,256G內(nèi)存)3種系統(tǒng)環(huán)境的計算資源,為用戶提供單機多CPU和多核計算資源服務。②山西省重點實驗室大數(shù)據(jù)管理與計算平臺,該實驗平臺可提供Redhat Linux系統(tǒng)環(huán)境的計算資源(1個管理節(jié)點,43個普通計算節(jié)點(2顆6核CPU/2.1G,48G內(nèi)存),2個大內(nèi)存計算節(jié)點(2顆6核CPU/2.1G,512G內(nèi)存),全千兆網(wǎng)絡互聯(lián)),為用戶提供集群式大數(shù)據(jù)計算服務。
(5)創(chuàng)新團隊。學院建成了山西省教育廳“智能信息處理”科技創(chuàng)新團隊、山西省科技廳“智能信息處理”首批科技創(chuàng)新重點團隊、山西省高等學校“復雜系統(tǒng)”優(yōu)秀創(chuàng)新團隊、山西省“傳染病傳播及防控”科技創(chuàng)新培育團隊4個創(chuàng)新團隊。
學校依托這些學科平臺,主動應對新挑戰(zhàn),以培養(yǎng)數(shù)據(jù)科學與工程特色的計算機科學與技術人才為目標,優(yōu)化傳統(tǒng)的計算機科學與技術專業(yè)課程體系,以特色研究型課程為抓手,系統(tǒng)建設了“數(shù)據(jù)分析與挖掘課程群”,拓展了多種培養(yǎng)模式,把人才培養(yǎng)融入到學科建設、科學研究、協(xié)同創(chuàng)新、社會服務中。
參照文獻[4-7],圍繞數(shù)據(jù)科學過程,基于以下原則對計算機專業(yè)的課程體系進行了優(yōu)化。
原則1:突出數(shù)據(jù)科學基礎理論教學。在加強概率論、數(shù)理統(tǒng)計教學的同時,將數(shù)據(jù)科學導論、機器學習、數(shù)據(jù)挖掘、信息檢索、自然語言處理等課程作為重要的專業(yè)必修課或選修課進行講授。
原則2:裁剪傳統(tǒng)的計算機類課程,強化數(shù)據(jù)科學相關部分。在高級語言程序設計、操作系統(tǒng)、數(shù)字邏輯、計算機組成原理、計算機系統(tǒng)結(jié)構等課程中弱化傳統(tǒng)材料的講授,引入計算機科學在數(shù)據(jù)分析領域的最新應用與進展,如引入數(shù)據(jù)科學領域流行的Python與R語言,引導學生掌握泛型編程語言,彌補教材與時代脫節(jié)的不足。
原則3:強調(diào)覆蓋數(shù)據(jù)科學完整過程。開設數(shù)據(jù)采集技術、多源數(shù)據(jù)融合、大數(shù)據(jù)開源架構與平臺、數(shù)據(jù)可視化等課程,力求覆蓋數(shù)據(jù)采集與處理、存儲與管理、分析與挖掘、呈現(xiàn)與應用等數(shù)據(jù)科學的核心環(huán)節(jié)。
課程體系如圖2所示,主要包括以下幾個論域。
論域1:概率與數(shù)理統(tǒng)計,該論域主要引導學生理解概率與數(shù)理統(tǒng)計的核心概念和理論,掌握處理隨機現(xiàn)象與數(shù)理統(tǒng)計的基本思想和方法,培養(yǎng)學生運用概率與數(shù)理統(tǒng)計方法分析和解決實際問題的能力。
論域2:數(shù)據(jù)準備,該論域主要引導學生理解和掌握如何根據(jù)數(shù)據(jù)分析目標并在保證用戶體驗的情況下對數(shù)據(jù)進行采集與處理、存儲與管理的基本理論與方法。
論域3:計算機基礎與數(shù)據(jù)科學平臺,該論域主要引導學生掌握數(shù)據(jù)分析所需要的算法設計、程序?qū)崿F(xiàn)、數(shù)據(jù)庫等理論和方法,能夠根據(jù)具體應用搭建計算環(huán)境和平臺,并進行有效的算法實現(xiàn)。
論域4:數(shù)據(jù)挖掘與可視化,該論域主要引導學生理解數(shù)據(jù)分析挖掘的基本理論和方法,利用相應算法、模型及工具進行數(shù)據(jù)分析,并可以設計合適的圖表來正確傳達數(shù)據(jù)內(nèi)涵。
論域5:數(shù)據(jù)的行業(yè)應用,該論域主要引導學生結(jié)合特定領域業(yè)務問題和現(xiàn)狀,通過數(shù)據(jù)模型的建立、分析與驗證獲得可行的行業(yè)數(shù)據(jù)解決方案。
上述論域涵蓋了用計算機進行數(shù)據(jù)分析所需的數(shù)學基礎和計算機基礎,分析數(shù)據(jù)需要構建的數(shù)據(jù)科學平臺,獲得滿足數(shù)據(jù)分析目標的數(shù)據(jù)的方法,進行數(shù)據(jù)分析的建模方法,包含場景、關系、交互、模式等方式的解釋數(shù)據(jù)的設計與實現(xiàn),建模進行預測等數(shù)據(jù)科學與工程專業(yè)人員所關注的核心問題。具體教學進一步將人才培養(yǎng)落實到“算法設計與實現(xiàn)能力”與“數(shù)據(jù)分析與挖掘能力”的培養(yǎng)上,因此,學生完成該課程體系的4年學習之后,可以達到具有優(yōu)良數(shù)據(jù)科學與工程素養(yǎng)的計算機科學與技術人才的培養(yǎng)目標。
山西大學借助“計算機科學與技術一級學科博士點”及“計算智能與中文信息處理教育部重點實驗室”,以優(yōu)勢學科和科研創(chuàng)新為特色,為高年級本科生設立數(shù)據(jù)挖掘、機器學習、文本信息處理、人工智能、信息檢索等特色研究型課程。
圖2 數(shù)據(jù)科學與工程特色的計算機科學與技術專業(yè)課程體系示意圖
在這些課程中,教師將最新的科研成果、方法與理念轉(zhuǎn)化為教學內(nèi)容,突出一系列數(shù)據(jù)分析、知識獲取的理論、方法與模型的講授與訓練,以學生為主體,采用靈活的教學方式,使學生通過這些課程的學習提升探索研究的興趣。這些課程都是數(shù)據(jù)科學與工程學科體系中重要的理論基礎課程,是數(shù)據(jù)人才培養(yǎng)的關鍵。學院通過開設這些課程,積累了數(shù)據(jù)科學與方向課程的授課經(jīng)驗,打造了一支高素質(zhì)的智能信息處理教學團隊,為系統(tǒng)實施數(shù)據(jù)科學與工程課程體系奠定了基礎。
1)與國內(nèi)企業(yè)合作,創(chuàng)建校企協(xié)同培養(yǎng)模式。
山西大學依托“大數(shù)據(jù)挖掘與智能技術山西省協(xié)同創(chuàng)新中心”,與山西省多家煤基產(chǎn)業(yè)大型國企和骨干軟件企業(yè)組成核心協(xié)同單位。學校積極構建校企協(xié)同培養(yǎng)新模式,邀請企業(yè)研發(fā)工程師為學生講授相關高級課程,突出行業(yè)背景、問題分析與建模、技術創(chuàng)新等環(huán)節(jié)的教學,將學生所學基礎理論和方法與應用聯(lián)系起來,為學生提供與企業(yè)合作解決技術難題的機會。同時,與合作單位推出企業(yè)實習項目、畢業(yè)設計項目,讓學生嘗試為企業(yè)提供技術支持,提升自己解決行業(yè)問題的能力與未來實際工作的能力。
2)與國際知名學者聯(lián)手,探索國內(nèi)外協(xié)同培養(yǎng)模式。
學校的協(xié)同創(chuàng)新中心還與在數(shù)據(jù)挖掘領域處于國際領先地位的加拿大Regina大學組成核心協(xié)同單位,這為開展國際學術交流與合作提供了渠道。學校探索了暑期學校、暑期課程等協(xié)同培養(yǎng)新模式,邀請國外有影響力的教授(如Regina大學的姚一豫教授每年暑假定期來學校授課、團隊研討、項目咨詢)為學生講授相關高級課程,同時,推出國際交換學習項目,開闊學生的學術視野,培養(yǎng)學生的學術研究與創(chuàng)新意識。
3)結(jié)合科研訓練與學科競賽,深化問題驅(qū)動式培養(yǎng)模式。
除了傳統(tǒng)的專業(yè)課程實驗、綜合課程設計、系統(tǒng)畢業(yè)設計之外,教學團隊還引入大學生創(chuàng)新性實驗、科研訓練項目與學科競賽活動,學生根據(jù)自己的特點與興趣選擇合適的項目。在項目實現(xiàn)過程中,老師重點培養(yǎng)學生發(fā)現(xiàn)問題、解決問題的能力,學生通過與老師定期互動、系統(tǒng)學習相關領域知識、閱讀重要文獻、小組研討等方式,完成問題提出、模型設計、技術實現(xiàn)和論文撰寫等一系列科研工作,得到一整套發(fā)現(xiàn)問題、解決問題的能力訓練和提升,增強實踐動手能力,強化批判性和創(chuàng)造性思維與意識。
在數(shù)據(jù)成為重要戰(zhàn)略資源的年代,專業(yè)的數(shù)據(jù)人才培養(yǎng)具有重大意義。目前提出的具有數(shù)據(jù)科學與工程特色的計算機科學與技術專業(yè)人才培養(yǎng)模式的相應改革還在進行中,取得的效果還需進一步驗證和分析,相信這種思路和方法對其他大學實施數(shù)據(jù)人才培養(yǎng)的改革能夠產(chǎn)生積極影響,同時也能夠為我國高等教育面向大數(shù)據(jù)時代的轉(zhuǎn)向提供新思路。
[1]李國杰. 大數(shù)據(jù)(Big Data)科學問題研究[EB/OL]. (2015-10-03)[2017-08-09]. http://www.360doc.com/content/15/1003/19/275 24068_503084390.shtml.
[2]周傲英, 錢衛(wèi)寧, 王長波. 數(shù)據(jù)科學與工程: 大數(shù)據(jù)時代的新興交叉學科[J]. 大數(shù)據(jù), 2015(2): 90-99.
[3]Venturi D. 如何自學數(shù)據(jù)科學?這21個課程能幫你入門數(shù)據(jù)科學過程[EB/OL]. (2017-01-30)[2017-08-09]. http://www.sohu.com/a/125282481_465975.
[4]陳振沖, 賀田田.數(shù)據(jù)科學人才的需求與培養(yǎng)[J]. 大數(shù)據(jù), 2016(5): 95-106.
[5]徐昊, 秦玥, 黃嵐. 面向通識教育的數(shù)據(jù)科學課程建設[J]. 計算機教育, 2016(8): 158-162.
[6]陸楓. 面向大數(shù)據(jù)時代的計算機系統(tǒng)能力培養(yǎng)改革與實踐[J]. 計算機教育, 2017(3): 33-36.
[7]許嘉, 呂品. 哈佛大學數(shù)據(jù)科學課程教學初探[J]. 教育探索, 2015(15): 109-110.