向沖
摘 要 “大數(shù)據(jù)”洶涌來襲,在商業(yè)、經(jīng)濟、科研、衛(wèi)生及政府等領域中,決策基于大數(shù)據(jù)分析而作出,對大數(shù)據(jù)人才的需求與日俱增。筆者從國內(nèi)外“大數(shù)據(jù)”研究現(xiàn)狀出發(fā),就“大數(shù)據(jù)”人才需求進行分析,從“大數(shù)據(jù)”人才培養(yǎng)目標、職業(yè)崗位能力、教學內(nèi)容、課程體系結構、教學模式和方法等方面進行論述,提出了高職“大數(shù)據(jù)”人才應如何培養(yǎng)。
關鍵詞 大數(shù)據(jù) 數(shù)據(jù)分析 數(shù)據(jù)挖掘 人才培養(yǎng)
中圖分類號:G712 文獻標識碼:A
1什么是“大數(shù)據(jù)”
大數(shù)據(jù)(Big Data)是指“無法用現(xiàn)有的軟件工具提取、存儲、搜索、共享、分析和處理的海量的、復雜的數(shù)據(jù)集合?!睒I(yè)界通常用四個V(即Volume、Variety、Value、Velocity)來概括大數(shù)據(jù)的特征。
第一,數(shù)據(jù)體量巨大(Volume)。到目前為止,人類生產(chǎn)的所有印刷材料的數(shù)據(jù)量是200PB(1PB=1000TB),而歷史上全人類說過的所有的話的數(shù)據(jù)量大約是5EB(1EB=1000PB)。當前,典型個人計算機硬盤的容量為TB量級,而一些大企業(yè)的數(shù)據(jù)量已經(jīng)接近EB量級。
第二,數(shù)據(jù)類型繁多(Variety)。這種類型的多樣性也讓數(shù)據(jù)被分為結構化數(shù)據(jù)和非結構化數(shù)據(jù)。相對于以往便于存儲的以文本為主的結構化數(shù)據(jù),非結構化數(shù)據(jù)越來越多,包括網(wǎng)絡日志、音頻、視頻、圖片、地理位置信息等等多類型的數(shù)據(jù),這就對數(shù)據(jù)的處理能力提出了更高的要求。
第三,價值密度低(Value)。價值密度的高低與數(shù)據(jù)總量的大小成反比。以視頻為例,一部一小時的視頻,在連續(xù)不間斷監(jiān)控過程中,可能有用的數(shù)據(jù)僅僅只有一兩秒。如何通過強大的機器算法更迅速地完成數(shù)據(jù)的價值“提純”是目前大數(shù)據(jù)洶涌背景下亟待解決的難題。
第四,處理速度快(Velocity)。這是大數(shù)據(jù)區(qū)分于傳統(tǒng)數(shù)據(jù)挖掘最顯著的特征。根據(jù)IDC的“數(shù)字宇宙”的報告,預計到2020年全球數(shù)據(jù)使用量將會達到35.2ZB。在如此海量的數(shù)據(jù)面前,處理數(shù)據(jù)的效率就是企業(yè)的生命。
2國內(nèi)外“大數(shù)據(jù)”研究現(xiàn)狀
雖然大數(shù)據(jù)的概念沒有一個統(tǒng)一的定論,但這對于大數(shù)據(jù)的研究而言并不是最重要的,如何使用大數(shù)據(jù)才是關鍵。研究大數(shù)據(jù)其實也就是為了更好地應用大數(shù)據(jù),所以國內(nèi)外對大數(shù)據(jù)的研究與應用都相當重視。事實上,大數(shù)據(jù)的研究與應用已經(jīng)在互聯(lián)網(wǎng)、商業(yè)智能、咨詢與服務以及醫(yī)療服務、零售業(yè)、金融業(yè)、通信等行業(yè)顯現(xiàn),并產(chǎn)生了巨大的社會價值和產(chǎn)業(yè)空間。
2.1國外“大數(shù)據(jù)”研究狀況
國外的大數(shù)據(jù)研究工作主要集中在如何進行大數(shù)據(jù)存儲、處理、分析以及管理的技術及軟件應用上。在學術界,《Nature》早在2008年就推出了“big data”專刊,從互聯(lián)網(wǎng)技術、超級計算、生物醫(yī)學等方面來專門探討對大數(shù)據(jù)的研究。2012年 3月,美國公布了旨在提高和改進人們從海量信息數(shù)據(jù)中獲取信息能力的“大數(shù)據(jù)研發(fā)計劃”。2012年4月歐洲信息學與數(shù)學研究協(xié)會會刊《ERCIM News》出版??癰ig data”,討論了大數(shù)據(jù)時代的數(shù)據(jù)管理、數(shù)據(jù)密集型研究的創(chuàng)新技術等問題。在具體的實際應用方面,大數(shù)據(jù)也顯現(xiàn)出了它的價值所在。谷歌公司通過對人們在網(wǎng)上檢索的詞條與疾病中心的數(shù)據(jù)進行分析處理,有效及時地判斷出了流感的傳播來源,為公共衛(wèi)生機構提供了有價值的信息,這是來自2009 年《Science》雜志上發(fā)表的一篇論文。喬布斯通過大數(shù)據(jù)輔助癌癥治療,丹麥癌癥協(xié)會通過大數(shù)據(jù)研究手機是否致癌等。
2.2國內(nèi)“大數(shù)據(jù)”研究狀況
與國外相比,國內(nèi)大數(shù)據(jù)的研究和應用還處在起步階段。2012年5月,香山科學會議組織了以“大數(shù)據(jù)科學與工程”——“一門新興的交叉學科”為主題的會議,深入討論了大數(shù)據(jù)的理論與工程數(shù)據(jù)研究、應用方向,指出目前最重視的都是大數(shù)據(jù)分析算法和大數(shù)據(jù)系統(tǒng)效率,通過研究大數(shù)據(jù)的關系網(wǎng)絡整體而全面地研究大數(shù)據(jù)。同年6月,中國計算機學會青年計算機科技論壇( CCF YOCSFF) 舉辦了“大數(shù)據(jù)時代,智謀未來”的學術報告會,就大數(shù)據(jù)時代的數(shù)據(jù)挖掘、體系架構理論、大數(shù)據(jù)安全、大數(shù)據(jù)平臺開發(fā)與大數(shù)據(jù)現(xiàn)實案例進行了全面的討論。隨著大數(shù)據(jù)時代的到來,商務管理、大城市亟待解決的交通問題進行相關的研究和實驗,在營銷策略的制定、智能化的交通管理方面都得益于大數(shù)據(jù)的分析。
如果在國內(nèi)能夠搭建一個大數(shù)據(jù)共享平臺,經(jīng)過預處理,抽取和集成的數(shù)據(jù)可通過相關的平臺交換和共享,讓大數(shù)據(jù)處理更便捷、更快速、更貼近用戶、更容易去實現(xiàn)或者去操作,那么也就實現(xiàn)了數(shù)據(jù)的流通,數(shù)據(jù)才會更加有生命力,使用價值也會增值。對大數(shù)據(jù)的處理和應用,其核心還是需要從業(yè)務層面進行科學規(guī)劃。
3高職院校應如何培養(yǎng)“大數(shù)據(jù)”專業(yè)人才
大數(shù)據(jù)時代,企業(yè)、組織需要大量既精通業(yè)務又能進行大數(shù)據(jù)分析的人才,美國目前面臨14萬至19萬分析和管理人才,以及 150萬具備理解和基于大數(shù)據(jù)研究做出決策的經(jīng)理和分析師人才的缺口,我國目前IT人員本身配備不足的現(xiàn)狀與大數(shù)據(jù)需要IT人員增加的矛盾更加突出,大數(shù)據(jù)對我國人才的培養(yǎng)模式以及現(xiàn)有人才的儲備提出了嚴峻的挑戰(zhàn)。
目前,國內(nèi)很多高校都開設了計算機專業(yè),培養(yǎng)了大量的計算機專業(yè)人才。然而,大數(shù)據(jù)時代帶給計算機行業(yè)很多機遇,也給計算機專業(yè)人才的培養(yǎng)帶來巨大的挑戰(zhàn)。如果高校不能及時地調(diào)整計算機專業(yè)人才的培養(yǎng)方案,那么培養(yǎng)出的專業(yè)人才將無法適應企業(yè)和日新月異的大數(shù)據(jù)產(chǎn)業(yè)的需求。因此,大數(shù)據(jù)時代背景下,培養(yǎng)切合產(chǎn)業(yè)實踐需要的專業(yè)人才和擅長大數(shù)據(jù)的收集、存儲、表示、管理與分析的專業(yè)人才迫在眉睫。所以計算機專業(yè)教育不管是課程體系還是實踐教育都需要刻不容緩地探索創(chuàng)新模式。
3.1培養(yǎng)目標
培養(yǎng)市場急需的大數(shù)據(jù)分析、數(shù)據(jù)挖掘、數(shù)據(jù)倉庫管理等能力的實用型人才。具備數(shù)據(jù)管理、數(shù)據(jù)分析、數(shù)據(jù)挖掘等專業(yè)實踐能力,適應現(xiàn)代社會大數(shù)據(jù)應用發(fā)展所需要的高素應用型專門人才。
3.2職業(yè)崗位能力
(1)主要就業(yè)崗位:大數(shù)據(jù)工程師、大數(shù)據(jù)分析工程師、軟件工程師(大數(shù)據(jù)方向)
(2)崗位核心能力:熟悉數(shù)據(jù)采集、統(tǒng)計分析、數(shù)據(jù)倉庫、數(shù)據(jù)挖掘、數(shù)據(jù)可視化、推薦系統(tǒng)等相關領域知識與算法;熟悉大數(shù)據(jù)分析的相關技術思路,熟悉Hadoop平臺,對MapReduce編程模式了解,能編寫分布式并行計算程序;熟悉NoSQL非結構化和非關系型數(shù)據(jù)庫;熟練運用以下一種或幾種計算機語言:Java,C/C++,Scala等;熟悉Sql語言,熟悉多種數(shù)據(jù)庫(Oracle、Sqlserver、DB2、Mysql等),至少精通一種。
3.3教學內(nèi)容
教學內(nèi)容主要通過表1的內(nèi)容體現(xiàn):
3.4課程體系結構
課程體系主要通過以下三個模塊進行構建:
(1)通識課程:培養(yǎng)職業(yè)素養(yǎng)和基本技能。
主要包括:入學教育與軍事理論、計算機基礎、大學英語、應用文寫作、大學生心里健康教育、就業(yè)指導與規(guī)劃等。
(2)專業(yè)課程:培養(yǎng)專業(yè)知識、專業(yè)技能和實踐能力。
主要包括:C語言編程、數(shù)據(jù)結構、Java語言編程、SQLServer數(shù)據(jù)庫、Oracle數(shù)據(jù)庫、云計算、Nosql、Hadoop、數(shù)據(jù)挖掘、Spss數(shù)據(jù)統(tǒng)計分析、計算網(wǎng)絡安全、課程實訓、綜合實訓等;
(3)拓展課程:拓展能力和興趣愛好。
主要包括:專業(yè)素質(zhì)拓展、人文素質(zhì)拓展、創(chuàng)業(yè)素質(zhì)拓展等系列課程。
3.5教學模式和方法
采用企業(yè)真實案例教學,通過項目中的模塊貫穿知識點,以“項目”為載體組織教學內(nèi)容。在教學上淡化理論教學與實踐教學的界限,“教、學、做”相結合,努力做到互相滲透、融為一體,使學生在“做”中“學”,教師在“做”中“教”。
4總結
“大數(shù)據(jù)”的真實價值就像漂浮在海洋中的冰山,絕大部分都隱藏在表面之下。而發(fā)掘數(shù)據(jù)價值、征服數(shù)據(jù)海洋的“動力”就是云計算?;ヂ?lián)網(wǎng)時代,尤其是社交網(wǎng)絡、電子商務與移動通信把人類社會帶入了一個以“PB”(1024TB)為單位的結構與非結構數(shù)據(jù)信息的新時代。在云計算出現(xiàn)之前,傳統(tǒng)的計算機是無法處理如此量大、并且不規(guī)則的“非結構數(shù)據(jù)”的。以云計算為基礎的信息存儲、分享和挖掘手段,可以便宜、有效地將這些大量、高速、多變化的終端數(shù)據(jù)存儲下來,并隨時進行分析與計算。大數(shù)據(jù)與云計算是一個問題的兩面:一個是問題,一個是解決問題的方法。通過云計算對大數(shù)據(jù)進行分析、預測,會使得決策更為精準,釋放出更多數(shù)據(jù)的隱藏價值。綜上,在“大數(shù)據(jù)”人才培養(yǎng)方面,筆者提出了自己的一些觀點和看法,寄希望更多的人士對高職“大數(shù)據(jù)”人才培養(yǎng)做出更深入和細致的研究,為中國夢的實現(xiàn),“中國制造”到“優(yōu)質(zhì)制造”的升級做出更多貢獻。
基金項目:湖北省教育科學“十二五”規(guī)劃2014年度課題項目(項目編號:2014B538)、校級重點科研課題項目(項目編號:2014A004)。
參考文獻
[1] 王元卓.網(wǎng)絡大數(shù)據(jù):現(xiàn)狀與展望[J].計算機學報,2013(6).
[2] 嚴霄鳳.大數(shù)據(jù)研究[J].計算機技術與發(fā)展,2013(4).
[3] 李雯雯.大數(shù)據(jù)時代計算機專業(yè)教育的探索[J].現(xiàn)代計算機,2014(04).
[4] 張影.將大數(shù)據(jù)提升為國家戰(zhàn)略[J].中國經(jīng)濟報告,2014(1).