• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      數(shù)據(jù)科學(xué)的發(fā)展與人才培養(yǎng)研究

      2019-01-19 22:54:07聶淑媛
      統(tǒng)計(jì)與信息論壇 2019年1期
      關(guān)鍵詞:科學(xué)統(tǒng)計(jì)學(xué)課程

      聶淑媛

      (洛陽(yáng)師范學(xué)院 數(shù)學(xué)科學(xué)學(xué)院,河南 洛陽(yáng) 471934)

      2016年2月,教育部批準(zhǔn)北京大學(xué)、對(duì)外經(jīng)濟(jì)貿(mào)易大學(xué)與中南大學(xué)3所高等學(xué)校新增“數(shù)據(jù)科學(xué)與大數(shù)據(jù)技術(shù)”本科專業(yè),時(shí)隔一年,2017年3月,教育部又批準(zhǔn)了中國(guó)人民大學(xué)、復(fù)旦大學(xué)等32所高校增設(shè)該專業(yè)。數(shù)據(jù)科學(xué)的發(fā)展已引起上至國(guó)家教育部、下至社會(huì)大眾的高度關(guān)注,其人才定位和培養(yǎng)模式更是普通高等院校教育教學(xué)改革的關(guān)鍵點(diǎn)之一,本文首先回顧數(shù)據(jù)科學(xué)的誕生歷程,概述國(guó)內(nèi)外對(duì)數(shù)據(jù)科學(xué)人才的需求態(tài)勢(shì)和人才培養(yǎng)現(xiàn)狀,在借鑒已有經(jīng)驗(yàn)的基礎(chǔ)上,進(jìn)一步提出具體的人才培養(yǎng)策略。

      一、數(shù)據(jù)科學(xué)的產(chǎn)生與發(fā)展

      21世紀(jì)的大數(shù)據(jù)熱潮引發(fā)了社會(huì)各界對(duì)數(shù)據(jù)科學(xué)的高度重視,人們普遍認(rèn)為,正是由于紛至沓來(lái)、鋪天蓋地的大數(shù)據(jù),才催生了數(shù)據(jù)科學(xué)的形成和發(fā)展,其實(shí)這完全是一個(gè)認(rèn)知誤區(qū),“數(shù)據(jù)科學(xué)”一詞起源于20世紀(jì)60年代,歷經(jīng)正式誕生、涵義演變、專業(yè)發(fā)展、廣泛應(yīng)用四個(gè)階段,其理論體系和技術(shù)變革是大數(shù)據(jù)分析的基礎(chǔ)。

      (一)數(shù)據(jù)科學(xué)的誕生標(biāo)志——科學(xué)術(shù)語(yǔ)datalogy的出現(xiàn)和國(guó)際組織CODATA的成立

      1966年,丹麥計(jì)算機(jī)科學(xué)家、圖靈獎(jiǎng)獲得者彼得·諾爾(Peter Naur,1928-2016)創(chuàng)造性地提出,用數(shù)據(jù)科學(xué)(datalogy)取代計(jì)算機(jī)科學(xué)(computer science),datalogy意指研究數(shù)據(jù)使用和本質(zhì)的科學(xué);1968年,在國(guó)際信息處理聯(lián)合會(huì)(International Federation for Information Processing,簡(jiǎn)記為IFIP)上,彼得·諾爾做了主題為《數(shù)據(jù)科學(xué):數(shù)據(jù)和數(shù)據(jù)處理的科學(xué)及其在教育中的地位》的大會(huì)報(bào)告,并將該內(nèi)容收錄于會(huì)議論文集,此后,彼得·諾爾在學(xué)術(shù)活動(dòng)和研究文獻(xiàn)中開(kāi)始頻繁使用datalogy一詞。同時(shí),也是在1966年,全球首個(gè)以數(shù)據(jù)為研究對(duì)象的科學(xué)委員會(huì)——國(guó)際科技數(shù)據(jù)委員會(huì)(Committee on Data for Science and Technology,縮寫(xiě)為CODATA)宣告成立[1],作為國(guó)際性跨學(xué)科的數(shù)據(jù)科學(xué)共同體,其主旨是對(duì)全球科技數(shù)據(jù)進(jìn)行評(píng)價(jià)、匯編和傳播,以推動(dòng)數(shù)據(jù)共享、提高數(shù)據(jù)質(zhì)量,從而實(shí)現(xiàn)科學(xué)國(guó)際化。因此,學(xué)術(shù)用語(yǔ)datalogy和數(shù)據(jù)研究機(jī)構(gòu)的同期而至,宣告了數(shù)據(jù)科學(xué)的正式誕生。

      (二)數(shù)據(jù)科學(xué)的涵義演變——data science取代datalogy

      把數(shù)據(jù)科學(xué)和統(tǒng)計(jì)學(xué)密切聯(lián)系在一起的是日本統(tǒng)計(jì)數(shù)學(xué)家林知己夫(Chikio Hayashi,1918—2002),1993年,在第四屆國(guó)際分類學(xué)會(huì)聯(lián)合會(huì)(International Federation of Classification Societies,簡(jiǎn)記為IFCS)的圓桌會(huì)議上,林知己夫首次提出了數(shù)據(jù)科學(xué)—data science的概念。三年后,在日本神戶進(jìn)一步召開(kāi)了以data science為主題的第五屆IFCS大會(huì),這是數(shù)據(jù)科學(xué)第一次正式出現(xiàn)于國(guó)際會(huì)議的題目中,大會(huì)明確了數(shù)據(jù)科學(xué)(data science)的涵義,認(rèn)為數(shù)據(jù)科學(xué)應(yīng)該是統(tǒng)計(jì)學(xué)、數(shù)據(jù)、計(jì)算機(jī)及其相關(guān)方法的綜合交叉,通過(guò)數(shù)據(jù)收集、數(shù)據(jù)存儲(chǔ)、數(shù)據(jù)處理和數(shù)據(jù)應(yīng)用等過(guò)程與環(huán)節(jié),最終達(dá)成利用海量數(shù)據(jù)揭示自然現(xiàn)象和社會(huì)本質(zhì)的終極目標(biāo)。

      專業(yè)術(shù)語(yǔ)data science對(duì)datalogy的取而代之,不僅拓延了數(shù)據(jù)科學(xué)的內(nèi)涵建設(shè),而且引發(fā)了學(xué)界對(duì)數(shù)據(jù)科學(xué)和統(tǒng)計(jì)學(xué)關(guān)系的深入思考,有學(xué)者甚至提出,把統(tǒng)計(jì)學(xué)重新命名為數(shù)據(jù)科學(xué),統(tǒng)計(jì)學(xué)家改稱為數(shù)據(jù)科學(xué)家。直到2001年,美國(guó)計(jì)算機(jī)科學(xué)家、統(tǒng)計(jì)學(xué)家威廉·克利夫蘭(William S.Cleveland,1943- )首次指出,數(shù)據(jù)科學(xué)是一門獨(dú)立的學(xué)科,它與統(tǒng)計(jì)學(xué)深度融合,但又不完全相同,數(shù)據(jù)科學(xué)是統(tǒng)計(jì)學(xué)在多學(xué)科、數(shù)據(jù)模型、教育、工具評(píng)估和理論研究等技術(shù)領(lǐng)域的拓展[2] 8-12。數(shù)據(jù)科學(xué)的概念內(nèi)涵和學(xué)科定位確立之時(shí),恰逢21世紀(jì)初計(jì)算機(jī)的技術(shù)革命和互聯(lián)網(wǎng)的迅猛發(fā)展,數(shù)據(jù)科學(xué)逐步擁有了系統(tǒng)、專業(yè)、豐碩的研究成果。

      (三)數(shù)據(jù)科學(xué)的專業(yè)成長(zhǎng)——Data Science Journal等期刊的創(chuàng)建和系列著作Data Science Series的出版

      2002年,國(guó)際科技數(shù)據(jù)委員會(huì)CODATA 首創(chuàng)了第一本專門研究數(shù)據(jù)科學(xué)的學(xué)術(shù)期刊Data Science Journal,此后,一批關(guān)于數(shù)據(jù)科學(xué)的專業(yè)雜志逐漸涌現(xiàn),2003年,美國(guó)和中國(guó)統(tǒng)計(jì)學(xué)學(xué)者聯(lián)合創(chuàng)辦了期刊Journal of Data Science,并由哥倫比亞大學(xué)出版發(fā)行;2007年,國(guó)際分類學(xué)會(huì)聯(lián)合會(huì)IFCS創(chuàng)設(shè)了雜志Advances in Data Analysis and Classification;2012年和2016年,著名的Springer出版集團(tuán)相繼推出了期刊EPJ Data Science和International Journal of Data Science and Analytics;一些國(guó)際頂級(jí)學(xué)術(shù)期刊,如Nature和Science等,也分別于2008年和2011年開(kāi)設(shè)了大數(shù)據(jù)研究的專版專輯[3]。與此同時(shí),自2001年起,日本共立出版社陸續(xù)出版了一套數(shù)據(jù)科學(xué)專著Data Science Series,研究主題涵蓋了數(shù)據(jù)的素養(yǎng)、采樣和挖掘、模型驗(yàn)證和算法、空間數(shù)據(jù)建模,以及關(guān)于地球環(huán)境、環(huán)境和健康、臨床、運(yùn)動(dòng)、金融等領(lǐng)域的數(shù)據(jù)分析等,研究?jī)?nèi)容連貫、形成了一個(gè)完整的體系。這些主題為數(shù)據(jù)科學(xué)的雜志和著作,研究與任何領(lǐng)域的數(shù)據(jù)相關(guān)的一切問(wèn)題,不管是社會(huì)領(lǐng)域的數(shù)據(jù),還是經(jīng)濟(jì)范疇的指標(biāo)體系,無(wú)論是數(shù)據(jù)的收集和分析,還是創(chuàng)建數(shù)學(xué)模型,都是其研究對(duì)象。它們長(zhǎng)期致力于挖掘統(tǒng)計(jì)方法的應(yīng)用,其先進(jìn)的技術(shù)工具、詳實(shí)的數(shù)據(jù)資料和廣闊的研究范圍,不僅為數(shù)據(jù)科學(xué)的學(xué)科地位奠定了堅(jiān)實(shí)基礎(chǔ),而且引發(fā)了統(tǒng)計(jì)學(xué)、計(jì)算機(jī)科學(xué)等相關(guān)學(xué)科開(kāi)始高度關(guān)注并系統(tǒng)研究數(shù)據(jù)科學(xué)理論,促進(jìn)了科學(xué)研究范式的轉(zhuǎn)變。

      (四)數(shù)據(jù)科學(xué)的廣泛應(yīng)用——第四范式的提出和政府的大數(shù)據(jù)發(fā)展戰(zhàn)略

      2007年,美國(guó)數(shù)據(jù)庫(kù)專家吉姆·格雷(Jim Gray,1944-2007)指出,面對(duì)互聯(lián)網(wǎng)時(shí)代以“太子節(jié)”作量級(jí)的爆發(fā)式增長(zhǎng)數(shù)據(jù),最大的挑戰(zhàn)是科學(xué)研究范式的轉(zhuǎn)變。無(wú)論是傳統(tǒng)的經(jīng)驗(yàn)范式和理論范式,還是近幾十年的計(jì)算范式,都已無(wú)法應(yīng)對(duì)這類密集型數(shù)據(jù)的挖掘和整合。為此,吉姆·格雷提出了eScience是科學(xué)方法的一次革命,即科學(xué)研究的第四范式。目前,第四范式作為“大數(shù)據(jù)范式”被學(xué)界普遍認(rèn)可,逐漸成為分析洪流數(shù)據(jù)、國(guó)際協(xié)作和處理超大計(jì)算資源的一種新范式。

      在科技界、產(chǎn)業(yè)界、學(xué)術(shù)界和政府部門掀起數(shù)據(jù)科學(xué)研究熱潮的另一個(gè)核心因素是政界的行政主導(dǎo)行為,2012年,聯(lián)合國(guó)發(fā)布了《大數(shù)據(jù)促發(fā)展:挑戰(zhàn)與機(jī)遇》政務(wù)白皮書(shū),旨在利用互聯(lián)網(wǎng)數(shù)據(jù)推動(dòng)全球發(fā)展;同年,白宮科技政策辦公室代表美國(guó)政府發(fā)布《大數(shù)據(jù)研究和發(fā)展計(jì)劃》,基于國(guó)家層面設(shè)置“大數(shù)據(jù)高級(jí)指導(dǎo)小組”,以迎接大數(shù)據(jù)技術(shù)革命的挑戰(zhàn)。隨著世界各國(guó)對(duì)數(shù)字化時(shí)代基礎(chǔ)性戰(zhàn)略資源——大數(shù)據(jù)的高度重視,智慧國(guó)家、智慧政府、智慧企業(yè)等建設(shè)行動(dòng)風(fēng)起云涌,2015年,中國(guó)國(guó)務(wù)院發(fā)布了《促進(jìn)大數(shù)據(jù)發(fā)展行動(dòng)綱要》,力圖構(gòu)建國(guó)家政府?dāng)?shù)據(jù)平臺(tái),開(kāi)啟大眾創(chuàng)業(yè)、萬(wàn)眾創(chuàng)新的新格局,同時(shí)特別鼓勵(lì)高等院校、職業(yè)院校和企業(yè)協(xié)同育人,跨校跨界聯(lián)合培養(yǎng)具有統(tǒng)計(jì)分析、計(jì)算機(jī)技術(shù)、經(jīng)濟(jì)管理等多學(xué)科知識(shí)的大數(shù)據(jù)綜合型專業(yè)人才。

      二、數(shù)據(jù)科學(xué)人才的需求態(tài)勢(shì)與培養(yǎng)現(xiàn)狀

      隨著數(shù)據(jù)驅(qū)動(dòng)科學(xué)創(chuàng)新、數(shù)據(jù)驅(qū)動(dòng)有效決策的研究氛圍日趨濃厚,社會(huì)和市場(chǎng)面臨著數(shù)據(jù)科學(xué)人才嚴(yán)重匱乏的態(tài)勢(shì)。早在2011年,世界頂尖管理咨詢公司麥肯錫公司曾調(diào)研預(yù)測(cè):僅僅是美國(guó)本地市場(chǎng),到2018年,深層次數(shù)據(jù)分析的人才缺口是14萬(wàn)~19萬(wàn),而對(duì)于具備數(shù)據(jù)分析能力且能夠高效決策的數(shù)據(jù)分析師,其需求量將超過(guò)150萬(wàn)人,到2020年,該缺口將高達(dá)272萬(wàn);另一著名的跨國(guó)咨詢公司埃森哲公司也曾預(yù)計(jì),對(duì)于扎實(shí)掌握科學(xué)技術(shù)知識(shí)和數(shù)據(jù)分析能力的人才需求,其增長(zhǎng)速度將是其它職業(yè)的五倍左右;2016年7月,中國(guó)人力資源的大數(shù)據(jù)領(lǐng)導(dǎo)者“數(shù)聯(lián)尋英”發(fā)布了國(guó)內(nèi)首份《大數(shù)據(jù)人才報(bào)告》,報(bào)告顯示,全國(guó)大數(shù)據(jù)專業(yè)人才目前只有46萬(wàn),未來(lái)3至5年的大數(shù)據(jù)人才需求量將超過(guò)150萬(wàn)。國(guó)內(nèi)外的人才招聘信息也凸顯了數(shù)據(jù)科學(xué)人才的緊缺狀況,以美國(guó)和國(guó)內(nèi)規(guī)模相對(duì)較大的工業(yè)界在線招聘平臺(tái)Career Builder和拉勾網(wǎng)為例,分別統(tǒng)計(jì)兩平臺(tái)在2017年12月25日這一天投放的招聘材料,關(guān)于數(shù)據(jù)科學(xué)人才的廣告數(shù)量都超過(guò)了1 000條,尤其是美國(guó)的廣告數(shù)更是高達(dá)近2 600條。概覽整個(gè)2017年度的招聘信息,兩地對(duì)于數(shù)據(jù)科學(xué)專業(yè)人才的渴求始終居高不下,其中有幾乎40%的廣告明確指出急需數(shù)據(jù)科學(xué)家和數(shù)據(jù)分析師,招聘領(lǐng)域涉及互聯(lián)網(wǎng)、產(chǎn)業(yè)數(shù)據(jù)、電子商務(wù)、金融和教育等諸多行業(yè)。

      面對(duì)龐大的行業(yè)人才缺口和燃眉的市場(chǎng)需求困境,作為向各產(chǎn)業(yè)培養(yǎng)和輸送創(chuàng)新型人才的主要基地,國(guó)內(nèi)外的各一流大學(xué)早已順勢(shì)而動(dòng),整合優(yōu)勢(shì)學(xué)科資源,開(kāi)啟了數(shù)據(jù)科學(xué)方向的人才培養(yǎng)工作。

      (一)國(guó)外數(shù)據(jù)科學(xué)人才的培養(yǎng)狀況

      國(guó)外高等院校對(duì)數(shù)據(jù)科學(xué)人才的培養(yǎng)可大致分為兩個(gè)層面,第一層面主要是面向本科生或碩士生,率先開(kāi)設(shè)數(shù)據(jù)科學(xué)的相關(guān)課程,其中比較有代表性的著名學(xué)府是哈佛大學(xué)、麻省理工學(xué)院、加州大學(xué)伯克利分校、牛津大學(xué)、哥倫比亞大學(xué)、紐約大學(xué)、華盛頓大學(xué)、斯坦福大學(xué)、佛羅里達(dá)大學(xué)、謝菲爾德大學(xué)、約翰·霍普金斯大學(xué)、倫敦大學(xué)等,開(kāi)課時(shí)間集中于2011年后。由于授課教師自身的學(xué)術(shù)背景和研究方向不同,對(duì)于各學(xué)校所開(kāi)設(shè)的數(shù)據(jù)科學(xué)課程,盡管課程名稱中都包含有關(guān)鍵詞“data science”,核心思想也都是圍繞數(shù)據(jù)科學(xué)技術(shù)展開(kāi),但課程結(jié)構(gòu)和內(nèi)容體系差異顯著[4],有些課程主要講授數(shù)據(jù)科學(xué)的理論基礎(chǔ),如統(tǒng)計(jì)學(xué)、計(jì)算機(jī)系統(tǒng)和機(jī)器學(xué)習(xí)的相關(guān)知識(shí)等,有些課程則旨在詮釋數(shù)據(jù)科學(xué)本身的理念方法和技術(shù)工具,還有一些課程重在強(qiáng)調(diào)數(shù)據(jù)科學(xué)在某個(gè)領(lǐng)域或某些學(xué)科中的實(shí)踐和應(yīng)用。授課方式靈活,可分為在校面授、網(wǎng)絡(luò)授課、面授和網(wǎng)授相結(jié)合三種方式,斯坦福大學(xué)和約翰·霍普金斯大學(xué)還開(kāi)設(shè)了免費(fèi)網(wǎng)絡(luò)課程,學(xué)生通過(guò)網(wǎng)絡(luò)視頻和在線交流進(jìn)行學(xué)習(xí),考核合格即可獲得該校的數(shù)據(jù)科學(xué)課程結(jié)業(yè)證書(shū)。

      隨著數(shù)據(jù)科學(xué)相關(guān)課程的建設(shè),各大學(xué)逐步進(jìn)入到專業(yè)人才培養(yǎng)階段,此乃數(shù)據(jù)科學(xué)人才培養(yǎng)的第二個(gè)層面。由于數(shù)據(jù)科學(xué)跨學(xué)科、多樣化的特點(diǎn)極其鮮明,知識(shí)體系交叉性、綜合性、系統(tǒng)性非常強(qiáng),產(chǎn)學(xué)研結(jié)合度高,需要及時(shí)跟蹤前沿理論,對(duì)學(xué)生的實(shí)戰(zhàn)技能要求特別高,而且整體而言,相關(guān)課程開(kāi)課時(shí)間短、教學(xué)難度系數(shù)大,故絕大多數(shù)高校并未首先在本科教育中設(shè)置獨(dú)立的數(shù)據(jù)科學(xué)學(xué)科,而是選擇在研究方向更精細(xì)化和基礎(chǔ)知識(shí)更扎實(shí)的全日制碩士教育中開(kāi)設(shè)數(shù)據(jù)科學(xué)人才培養(yǎng)計(jì)劃。如美國(guó)的哥倫比亞大學(xué)分別于2011年、2013年陸續(xù)開(kāi)設(shè)了Introduction to Data Science、Applied Data Science課程,開(kāi)展了數(shù)據(jù)科學(xué)專業(yè)成就認(rèn)證的培訓(xùn)項(xiàng)目,在課程和項(xiàng)目驅(qū)動(dòng)下,2014年起設(shè)立數(shù)據(jù)科學(xué)專業(yè)碩士學(xué)位培養(yǎng)計(jì)劃,并于2015年進(jìn)一步設(shè)立了博士學(xué)位培養(yǎng)計(jì)劃,是國(guó)外較早的數(shù)據(jù)科學(xué)博士學(xué)位授予點(diǎn)。類似的還有加州大學(xué)伯克利分校、紐約大學(xué)、南加州大學(xué),以及英國(guó)的鄧迪大學(xué),也陸續(xù)在2012年和2013年較早地成功設(shè)立了數(shù)據(jù)科學(xué)碩士學(xué)位培養(yǎng)計(jì)劃。

      陳振沖和賀田田對(duì)QS排名前50的大學(xué)進(jìn)行了深入調(diào)研[5],結(jié)果表明,在2015-2016年度,有17所學(xué)校設(shè)有數(shù)據(jù)科學(xué)專業(yè)全日制碩士培養(yǎng)計(jì)劃,其中美國(guó)占了10所,分別是哈佛大學(xué)、斯坦福大學(xué)、芝加哥大學(xué)、約翰霍普金斯大學(xué)、康奈爾大學(xué)、哥倫比亞大學(xué)、加州大學(xué)伯克利分校、密歇根大學(xué)、美國(guó)西北大學(xué)和加州大學(xué)圣地亞哥分校。英國(guó)有6所,分別是倫敦大學(xué)學(xué)院、愛(ài)丁堡大學(xué)、曼徹斯特大學(xué)、布里斯托大學(xué)、華威大學(xué)、倫敦帝國(guó)學(xué)院,新加坡的唯一一所是新加坡國(guó)立大學(xué)。上述學(xué)校的分布態(tài)勢(shì)不僅凸顯了美國(guó)較強(qiáng)的高等教育實(shí)力,而且顯著表明了其對(duì)數(shù)據(jù)科學(xué)人才的重視程度。除此之外,美國(guó)的弗吉尼亞大學(xué)、普渡大學(xué)、圣徒彼得大學(xué)、紐約市立大學(xué)專業(yè)進(jìn)修學(xué)院和艾姆赫斯特學(xué)院,蘇格蘭的赫瑞瓦特大學(xué)、新西蘭的奧克蘭大學(xué)等高校目前也開(kāi)設(shè)了數(shù)據(jù)科學(xué)的碩士培養(yǎng)。

      (二)國(guó)內(nèi)數(shù)據(jù)科學(xué)人才的培養(yǎng)狀況

      國(guó)內(nèi)最早的數(shù)據(jù)科學(xué)人才培養(yǎng)始于2008年,是香港中文大學(xué)設(shè)立的數(shù)據(jù)科學(xué)商業(yè)統(tǒng)計(jì)碩士學(xué)位。2010年后,各類大數(shù)據(jù)研究院(所)相繼成立,并開(kāi)始招收數(shù)據(jù)科學(xué)的碩士和博士研究生,比較有代表性的是,2010年,北京大學(xué)成立了北京大學(xué)統(tǒng)計(jì)科學(xué)中心;2012年,華東師范大學(xué)成立了云計(jì)算與大數(shù)據(jù)研究中心,并于2013年成立了數(shù)據(jù)科學(xué)與工程研究院;復(fù)旦大學(xué)和北京航空航天大學(xué)自2013年起在研究生層面開(kāi)設(shè)《數(shù)據(jù)科學(xué)》等課程,并逐步實(shí)施數(shù)據(jù)科學(xué)專業(yè)碩士學(xué)位培養(yǎng),其中復(fù)旦大學(xué)2010年開(kāi)始招收博士研究生,2015年籌建了大數(shù)據(jù)科學(xué)與技術(shù)學(xué)院,同時(shí)招收本科的第二專業(yè)學(xué)位;2014年,清華大學(xué)接連成立了數(shù)據(jù)科學(xué)研究院和清華大學(xué)統(tǒng)計(jì)學(xué)研究中心,同年開(kāi)始招收數(shù)據(jù)科學(xué)碩士研究生,并推出跨學(xué)科大數(shù)據(jù)碩士項(xiàng)目;2014年,中國(guó)科學(xué)院大學(xué)聯(lián)合IBM等開(kāi)設(shè)了大數(shù)據(jù)研究生班;2015年,中國(guó)人民大學(xué)成立了統(tǒng)計(jì)與大數(shù)據(jù)研究院,中山大學(xué)成立了數(shù)據(jù)科學(xué)與計(jì)算機(jī)學(xué)院,這一階段對(duì)數(shù)據(jù)科學(xué)的積極探索為全面建設(shè)其本科專業(yè)鋪墊了堅(jiān)實(shí)的基礎(chǔ)。截止2017年9月,國(guó)內(nèi)共有35所高校開(kāi)設(shè)了數(shù)據(jù)科學(xué)與大數(shù)據(jù)技術(shù)本科專業(yè),開(kāi)始系統(tǒng)培養(yǎng)大數(shù)據(jù)專業(yè)人才。

      陳振沖和賀田田與朝樂(lè)門等實(shí)證分析了國(guó)內(nèi)外不同大學(xué)數(shù)據(jù)科學(xué)課程的建設(shè)現(xiàn)狀、設(shè)置特點(diǎn)和目的要求[5-6];賀文武和劉國(guó)買對(duì)北京大學(xué)、中南大學(xué)、福建工程學(xué)院的數(shù)據(jù)科學(xué)本科人才培養(yǎng)方案進(jìn)行了對(duì)比研究[7],本文不再具體剖析各學(xué)校的人才培養(yǎng)方案,概述而言,國(guó)內(nèi)外各大學(xué)關(guān)于數(shù)據(jù)科學(xué)專業(yè)的課程設(shè)置,大致上都可分成統(tǒng)計(jì)學(xué)和數(shù)學(xué)基礎(chǔ)、計(jì)算機(jī)基礎(chǔ)、數(shù)據(jù)科學(xué)與大數(shù)據(jù)技術(shù)、實(shí)踐實(shí)訓(xùn)四大模塊,前三個(gè)模塊又各自具體包括3~5門核心課程,比如,統(tǒng)計(jì)學(xué)模塊主要開(kāi)設(shè)概率論和隨機(jī)過(guò)程、統(tǒng)計(jì)學(xué)基礎(chǔ)和統(tǒng)計(jì)推理、統(tǒng)計(jì)學(xué)方法(多元統(tǒng)計(jì)、回歸分析、時(shí)間序列分析、非參數(shù)分析等各類方法的綜合);計(jì)算機(jī)基礎(chǔ)主要包括計(jì)算機(jī)系統(tǒng)理論、程序設(shè)計(jì)、數(shù)據(jù)結(jié)構(gòu)與算法設(shè)計(jì)、數(shù)據(jù)庫(kù)管理等;大數(shù)據(jù)技術(shù)模塊主要開(kāi)設(shè)數(shù)據(jù)科學(xué)導(dǎo)論、數(shù)據(jù)科學(xué)方法(如機(jī)器學(xué)習(xí)、數(shù)據(jù)挖掘、數(shù)據(jù)智能等)、大數(shù)據(jù)平臺(tái)與計(jì)算(如數(shù)據(jù)分析、高性能計(jì)算、大數(shù)據(jù)、云計(jì)算)等;實(shí)踐實(shí)訓(xùn)模塊主要根據(jù)各學(xué)校的實(shí)際情況,選擇合適的應(yīng)用案例和實(shí)踐平臺(tái),引導(dǎo)學(xué)生參與大數(shù)據(jù)領(lǐng)域的實(shí)訓(xùn)項(xiàng)目。

      需要說(shuō)明的是,國(guó)內(nèi)外各學(xué)校開(kāi)設(shè)數(shù)據(jù)科學(xué)專業(yè)的院系互不相同,有些由計(jì)算機(jī)學(xué)院或工程學(xué)院開(kāi)設(shè),有些則由統(tǒng)計(jì)學(xué)院或數(shù)據(jù)科學(xué)研究所開(kāi)設(shè),有些由商學(xué)院或管理學(xué)院發(fā)起,也有一些是由運(yùn)籌學(xué)或社會(huì)學(xué)類院系開(kāi)設(shè),故其培養(yǎng)計(jì)劃的名稱和偏重方向不盡相同。比如,設(shè)在計(jì)算機(jī)、統(tǒng)計(jì)學(xué)和數(shù)據(jù)科學(xué)院系的人才培養(yǎng),比較側(cè)重于對(duì)所有領(lǐng)域不同類型數(shù)據(jù)的挖掘和處理,商學(xué)院、管理學(xué)院的人才培養(yǎng),則加強(qiáng)了企業(yè)管理、金融管理等方面的知識(shí),更傾向于分析金融和商業(yè)等特定數(shù)據(jù),注重研究數(shù)據(jù)科學(xué)理論在金融和商業(yè)領(lǐng)域的應(yīng)用價(jià)值[8]??傮w來(lái)看,以理學(xué)為背景的學(xué)校,理論特征相對(duì)濃厚,其數(shù)學(xué)、統(tǒng)計(jì)學(xué)和數(shù)據(jù)分析的基礎(chǔ)知識(shí)更扎實(shí),理學(xué)特色突出;而以工科為主的院校,更傾向于強(qiáng)調(diào)以原有優(yōu)勢(shì)工科專業(yè)為實(shí)踐基地的大數(shù)據(jù)技術(shù)開(kāi)發(fā)及其應(yīng)用,數(shù)據(jù)科學(xué)自身的理論和技術(shù)發(fā)展是其主導(dǎo)方向。

      概言之,作為一門新興學(xué)科和專業(yè),數(shù)據(jù)科學(xué)的人才培養(yǎng)受到國(guó)內(nèi)外各大學(xué)的高度重視,其培養(yǎng)目標(biāo)已然明確——重視學(xué)生掌握數(shù)據(jù)挖掘的原理和方法,開(kāi)發(fā)其數(shù)據(jù)存儲(chǔ)、處理的技術(shù)和能力,但對(duì)其人才培養(yǎng)模式和培養(yǎng)策略的研究還比較薄弱,需要深入思索和探究。

      三、數(shù)據(jù)科學(xué)的人才培養(yǎng)策略

      (一)厘清概念認(rèn)知,明確人才知識(shí)結(jié)構(gòu)

      近年來(lái),關(guān)于數(shù)據(jù)科學(xué)的研究機(jī)構(gòu)和學(xué)位培養(yǎng)單位發(fā)展迅速,但對(duì)其概念的認(rèn)知尚未完全統(tǒng)一,有學(xué)者基于問(wèn)題驅(qū)動(dòng)、創(chuàng)新驅(qū)動(dòng)層面界定數(shù)據(jù)科學(xué)的應(yīng)用性,認(rèn)為數(shù)據(jù)科學(xué)是結(jié)合應(yīng)用數(shù)學(xué)、模式識(shí)別、機(jī)器學(xué)習(xí)、統(tǒng)計(jì)、數(shù)據(jù)可視化、高性能計(jì)算等諸多理論與技術(shù),是利用數(shù)據(jù)學(xué)習(xí)知識(shí)的學(xué)科,其最終目標(biāo)是提煉有價(jià)值的數(shù)據(jù)產(chǎn)品;有學(xué)者立足于科學(xué)理論基礎(chǔ)、計(jì)算機(jī)技術(shù)和實(shí)踐應(yīng)用三個(gè)維度重點(diǎn)剖析數(shù)據(jù)科學(xué)的統(tǒng)計(jì)學(xué)本質(zhì)和特征[9];也有學(xué)者指出,數(shù)據(jù)科學(xué)是指綜合運(yùn)用統(tǒng)計(jì)學(xué)、計(jì)算機(jī)科學(xué)和人工智能理論,探討從數(shù)據(jù)到有用信息、從信息到專業(yè)知識(shí)、從知識(shí)到有效決策完整轉(zhuǎn)換過(guò)程中的科學(xué)技術(shù)問(wèn)題。雖然關(guān)于數(shù)據(jù)科學(xué)的定義略有偏差,但都特別強(qiáng)調(diào)了數(shù)據(jù)科學(xué)是一門交叉學(xué)科,毋庸置疑,學(xué)界已普遍認(rèn)可數(shù)據(jù)科學(xué)的多學(xué)科交叉融合特征[10]。主要問(wèn)題是各學(xué)科的疊加方式和側(cè)重程度目前并未得到細(xì)致劃分,換言之,數(shù)據(jù)科學(xué)與統(tǒng)計(jì)學(xué)、數(shù)據(jù)科學(xué)與計(jì)算機(jī)科學(xué)等專業(yè)的深層關(guān)系尚不清晰,數(shù)據(jù)科學(xué)的學(xué)科體系有待于確立,亦需要進(jìn)一步明確數(shù)據(jù)科學(xué)專業(yè)人才應(yīng)具備的知識(shí)結(jié)構(gòu)框架,以確保人才培養(yǎng)的實(shí)效性。

      同時(shí),縱向?qū)Ρ葦?shù)據(jù)科學(xué)的本科和碩士培養(yǎng)計(jì)劃,除了在碩士培養(yǎng)計(jì)劃中增設(shè)了前沿理論講座、學(xué)術(shù)論文寫(xiě)作等課程,碩士和本科培養(yǎng)的知識(shí)模塊和結(jié)構(gòu)體系則較為相似。究其原因,數(shù)據(jù)科學(xué)是一門新興學(xué)科和專業(yè),目前還少有本科畢業(yè)生,更缺少本碩連貫化的人才培養(yǎng),故本科和碩士人才知識(shí)結(jié)構(gòu)的銜接點(diǎn)、區(qū)分度、關(guān)聯(lián)性等都需要在實(shí)踐中提煉總結(jié)。

      (二)梳理主干教材,構(gòu)建課程群

      教材是課程建設(shè)的實(shí)物支撐體,完善教材體系是構(gòu)建課程群的首要前提。國(guó)外關(guān)于數(shù)據(jù)科學(xué)的著作相對(duì)豐富,大致可歸納為四類:第一類旨在全面介紹數(shù)據(jù)科學(xué)的理論基礎(chǔ)和技術(shù)方法,如哥倫比亞大學(xué)、華盛頓大學(xué)和謝菲爾德大學(xué)分別出版了名稱相同的Introduction to Data Science一書(shū),哈佛大學(xué)、約翰·霍普金斯大學(xué)、倫敦大學(xué)和法國(guó)圣艾蒂安大學(xué)也相繼出版了名稱相同的教材Data Science,紐約大學(xué)的Intro to Data Science,麻省理工學(xué)院的Introduction to Computational Thinking and Data Science、哈佛大學(xué)的A Practical Approach to Data Science、麻省理工學(xué)院的Introduction to Computational Thinking and Data Science、牛津大學(xué)的Fundamentals of Data Science、加州大學(xué)伯克利分校的Foundations of Data Science、華盛頓大學(xué)的Methods for Data Analysis、Deriving Knowledge from Data at Scale等,都屬于這個(gè)體系的經(jīng)典之作。第二類重點(diǎn)講授數(shù)據(jù)科學(xué)使用的計(jì)算機(jī)語(yǔ)言以及數(shù)據(jù)可視化的相關(guān)理論,如Practical Data Science with R、Mastering Python for Data Science、Machine Learning for Data Science、Building Machine Learning Systems with Python、The Visual Display of Quantitative Information、Visualize This:The Flowing Data Guide to Design,Visualization,and Statistics等。第三類側(cè)重于數(shù)據(jù)科學(xué)技術(shù)的實(shí)踐應(yīng)用,如Data Science for Business、Data Science:Large-scale Advanced Data Analysis、Doing Data Science:Straight Talk from the Frontline、Process Mining:The Practice of Data Science、Data Science Capstone等。第四類則聚焦于專門為數(shù)據(jù)科學(xué)服務(wù)的統(tǒng)計(jì)理論,如Statistics and Bayesian Data Analysis、Statistical Inference for Data Science、Think Stats等。

      國(guó)內(nèi)較早的數(shù)據(jù)科學(xué)教材主要有中國(guó)人民大學(xué)朝樂(lè)門博士的《數(shù)據(jù)科學(xué)》、北京理工大學(xué)楊旭博士的《數(shù)據(jù)科學(xué)導(dǎo)論》,這兩年陸續(xù)出版了《數(shù)據(jù)科學(xué)導(dǎo)引》、《數(shù)據(jù)科學(xué)家養(yǎng)成手冊(cè)》、《大數(shù)據(jù)離線分析》、《中國(guó)大數(shù)據(jù)應(yīng)用發(fā)展報(bào)告》、《數(shù)據(jù)科學(xué)中的R語(yǔ)言》、《Python與機(jī)器學(xué)習(xí)實(shí)戰(zhàn)》、《Python大戰(zhàn)機(jī)器學(xué)習(xí)》、《Python數(shù)據(jù)科學(xué)實(shí)踐指南》等數(shù)據(jù)科學(xué)專著,也有學(xué)者翻譯了一批國(guó)外的相關(guān)著作,涉獵面廣、內(nèi)容詳實(shí)。

      面對(duì)國(guó)內(nèi)外已出版的上述優(yōu)秀著作,現(xiàn)行的首要任務(wù)是每個(gè)學(xué)校根據(jù)自身的實(shí)際需求,通過(guò)選取或編譯等方式,組建一批針對(duì)性、系統(tǒng)性、實(shí)踐性強(qiáng)的主干課程教材,打造數(shù)據(jù)科學(xué)專業(yè)的課程群。隨著課程、專業(yè)的建設(shè)與完善,逐步在技術(shù)實(shí)現(xiàn)、工具應(yīng)用等方面體現(xiàn)校本特色,編寫(xiě)相應(yīng)的學(xué)習(xí)指導(dǎo)書(shū)和上機(jī)指導(dǎo)書(shū),旨在分解教材難點(diǎn)、解答課后練習(xí)、解析技術(shù)細(xì)節(jié)、清晰實(shí)踐過(guò)程[11],以降低理論知識(shí)和綜合項(xiàng)目的學(xué)習(xí)難度,提升課堂效率和學(xué)生的實(shí)踐能力。

      (三)靈活授課,強(qiáng)化校企協(xié)同育人

      中國(guó)數(shù)據(jù)科學(xué)人才培養(yǎng)的主戰(zhàn)場(chǎng)當(dāng)前仍是課堂教學(xué),資源相對(duì)短缺,形式較為單一。在慕課和網(wǎng)絡(luò)資源極其豐富的大數(shù)據(jù)時(shí)代,各高校應(yīng)充分利用現(xiàn)代信息手段和網(wǎng)絡(luò)技術(shù),開(kāi)展線上和網(wǎng)絡(luò)課程教學(xué)[12],引導(dǎo)學(xué)生分享全球著名學(xué)府提供的慕課資源,如約翰·霍普金斯大學(xué)的Data Science和Executive Data Science,華盛頓大學(xué)的Data Science at Scale,埃因霍芬理工大學(xué)的Process Mining:The Practice of Data Science,以及清華大學(xué)的大數(shù)據(jù)科學(xué)與應(yīng)用系列講座等,鼓勵(lì)學(xué)生通過(guò)考核獲取課程證書(shū),高校給予相應(yīng)的學(xué)分,以提高學(xué)生的學(xué)習(xí)積極性和主動(dòng)性。

      同時(shí),強(qiáng)化高校、政府和企業(yè)三位一體的人才培養(yǎng)模式,高校具有研究大數(shù)據(jù)理論和技術(shù)的優(yōu)勢(shì),卻無(wú)法掌握數(shù)據(jù)科學(xué)的研究主體——大數(shù)據(jù),高校只有把政府和企業(yè)作為實(shí)踐基地,才能真正調(diào)用大數(shù)據(jù)實(shí)際案例,切實(shí)培養(yǎng)能夠熟練掌握大數(shù)據(jù)分析工具和技能的數(shù)據(jù)科學(xué)家和數(shù)據(jù)分析家。而且,高校、政府和企業(yè)的協(xié)同育人,有助于及時(shí)發(fā)現(xiàn)社會(huì)真正需求的人才類型,并適時(shí)地調(diào)整人才培養(yǎng)目標(biāo),如設(shè)置數(shù)據(jù)科學(xué)的科研型人才和實(shí)用型人才等,前者不僅要經(jīng)過(guò)數(shù)據(jù)科學(xué)學(xué)位培養(yǎng)的專業(yè)理論訓(xùn)練,更要注重提升其創(chuàng)新能力和研究能力;后者則重在提高其對(duì)專業(yè)領(lǐng)域知識(shí)的掌握,提升其數(shù)據(jù)分析能力。

      (四)積極開(kāi)發(fā)軟硬件,以實(shí)踐實(shí)訓(xùn)驅(qū)動(dòng)創(chuàng)新發(fā)展

      數(shù)據(jù)科學(xué)的實(shí)戰(zhàn)特征極其鮮明,為實(shí)現(xiàn)其技術(shù)化的呈現(xiàn)方式,各院校應(yīng)積極開(kāi)發(fā)硬件和軟件的平臺(tái)建設(shè)。當(dāng)前使用較為廣泛的是R語(yǔ)言和Python語(yǔ)言,這兩類語(yǔ)言能整合C語(yǔ)言、C++、Java等,編程簡(jiǎn)單、容易被初學(xué)者接受,可直接以單機(jī)作為實(shí)驗(yàn)環(huán)境,也可以構(gòu)建集群實(shí)驗(yàn)平臺(tái),通過(guò)接口鏈接各類數(shù)據(jù)庫(kù),實(shí)行跨平臺(tái)兼容操作,其論著和研究成果豐富、理論體系成熟。

      Hadoop也是數(shù)據(jù)科學(xué)的一個(gè)主要開(kāi)源工具,可以很好地解決大數(shù)據(jù)的存儲(chǔ)和分析兩大問(wèn)題,其研發(fā)力度還有待于進(jìn)一步挖掘。高等院??陕?lián)合知名企業(yè)共同搭建面向大數(shù)據(jù)的實(shí)踐平臺(tái),如當(dāng)前的頂尖大數(shù)據(jù)分析教學(xué)平臺(tái)TipDM-H8,不僅能整合云存儲(chǔ)、服務(wù)器和廣闊的網(wǎng)絡(luò)資源,還能通過(guò)虛擬化搭建私有云平臺(tái),學(xué)生可基于Hadoop實(shí)戰(zhàn)項(xiàng)目,通過(guò)動(dòng)手操作和實(shí)訓(xùn),盡快掌握使用平臺(tái)開(kāi)發(fā)Hadoop程序的技術(shù)細(xì)節(jié),并高效完成大數(shù)據(jù)的挖掘、存儲(chǔ)、清洗和分析。

      四、結(jié)語(yǔ)

      在大數(shù)據(jù)井噴狀呈現(xiàn)于經(jīng)濟(jì)社會(huì)的實(shí)際背景下,數(shù)據(jù)科學(xué)時(shí)代業(yè)已來(lái)臨,但數(shù)據(jù)科學(xué)的內(nèi)涵、方法論與發(fā)展規(guī)律、課程設(shè)置與優(yōu)化、人才培養(yǎng)模式及教育教學(xué)改革、專業(yè)建設(shè)和完善、學(xué)科體系構(gòu)建等諸多問(wèn)題尚處于討論和發(fā)展階段,尤其是數(shù)據(jù)科學(xué)與統(tǒng)計(jì)學(xué)、信息與計(jì)算科學(xué)專業(yè)的聯(lián)系和區(qū)別,都是值得關(guān)注和思考的問(wèn)題。這不僅關(guān)系到數(shù)據(jù)科學(xué)自身的持續(xù)性發(fā)展,更涉及到數(shù)據(jù)科學(xué)時(shí)代統(tǒng)計(jì)學(xué)等傳統(tǒng)專業(yè)的發(fā)展方向。

      猜你喜歡
      科學(xué)統(tǒng)計(jì)學(xué)課程
      關(guān)于投稿的統(tǒng)計(jì)學(xué)要求
      統(tǒng)計(jì)學(xué)符號(hào)使用的說(shuō)明
      統(tǒng)計(jì)學(xué)符號(hào)使用的說(shuō)明
      數(shù)字圖像處理課程混合式教學(xué)改革與探索
      本刊對(duì)來(lái)稿中統(tǒng)計(jì)學(xué)處理的有關(guān)要求
      軟件設(shè)計(jì)與開(kāi)發(fā)實(shí)踐課程探索與實(shí)踐
      為什么要學(xué)習(xí)HAA課程?
      科學(xué)大爆炸
      科學(xué)
      科學(xué)拔牙
      奉贤区| 宁化县| 汾阳市| 民勤县| 南陵县| 隆子县| 定兴县| 英山县| 罗江县| 依安县| 二连浩特市| 泾阳县| 白城市| 曲水县| 疏附县| 沙田区| 阳谷县| 靖西县| 牙克石市| 双牌县| 大理市| 鄯善县| 禄丰县| 繁峙县| 靖西县| 句容市| 大兴区| 洪洞县| 聊城市| 沁阳市| 大埔县| 新巴尔虎右旗| 弥勒县| 营山县| 新源县| 织金县| 桂阳县| 赣榆县| 图片| 龙胜| 承德市|