王子甲
摘 要:隨著信息技術(shù)等數(shù)據(jù)采集方法的進(jìn)步,海量數(shù)據(jù)逐漸成為各個(gè)行業(yè)的重要資源,被廣泛用于工業(yè)生產(chǎn)和科學(xué)研究。對于大學(xué)工科專業(yè),無論是培養(yǎng)科研后備力量,還是為工業(yè)界輸送技術(shù)人才,都應(yīng)該拓展大數(shù)據(jù)相關(guān)理論方法的教學(xué)。該文在論述大數(shù)據(jù)分析方法背景的基礎(chǔ)上,論證了大數(shù)據(jù)教學(xué)的必要性,分析了大數(shù)據(jù)教學(xué)的特點(diǎn),提出了數(shù)理統(tǒng)計(jì)相關(guān)基礎(chǔ)課程由各自學(xué)院結(jié)合該專業(yè)單獨(dú)開設(shè),增加面向大數(shù)據(jù)編程教學(xué)的比重等建議。
關(guān)鍵詞:大數(shù)據(jù) 教學(xué) 工科專業(yè) 數(shù)據(jù)挖掘
中圖分類號(hào):G64 文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):1674-098X(2016)02(a)-0120-04
Abstract:With the advancement of data collection technologies,big data becomes a significant resource in various fields of engineering.It is generally applied both in industrial world and scientific research.To engineering majors,teaching of big data theory and technology should be emphasized either for educating future research staffs or for providing technicians for industry. In this paper,the necessities and key points of teaching big data skill in colleges were discussed after the introduction of the background of big data.It is suggested that mathematic skill of big data should be taught in combination with the corresponding major,and programming skill related to big data should be emphasized.
Key word:Big data;Teaching;Engineering majors;Data mining
信息技術(shù)的快速發(fā)展為數(shù)據(jù)采集提供了越來越多的方法和手段。隨著大量實(shí)時(shí)數(shù)據(jù)的連續(xù)積累,傳統(tǒng)的數(shù)據(jù)存儲(chǔ)和挖掘方法逐漸不能適應(yīng)現(xiàn)實(shí)需求,大數(shù)據(jù)的概念隨之被提出來。大數(shù)據(jù)一般指在因數(shù)據(jù)量巨而無法在可容忍的時(shí)間內(nèi)用傳統(tǒng)的軟件工具采集、清洗、管理和處理的數(shù)據(jù)集[1]。具體來講,大數(shù)據(jù)的大,首先,體現(xiàn)在容量上,大數(shù)據(jù)不是樣本,而是事件發(fā)生時(shí)積累的全部數(shù)據(jù)。其次,體現(xiàn)在速度上,大數(shù)據(jù)一般都意味著實(shí)施連續(xù)的數(shù)據(jù)采集。最后,大數(shù)據(jù)體現(xiàn)在多樣性上,包括文本,圖像,視頻聲音等多種類型。
大量連續(xù)的數(shù)據(jù)集,為更全面深入地認(rèn)識(shí)各種問題提供了豐富的素材,也對原有的數(shù)據(jù)處理和挖掘方法提出了挑戰(zhàn)。大數(shù)據(jù)的機(jī)遇和挑戰(zhàn)在互聯(lián)網(wǎng)等相關(guān)領(lǐng)域表現(xiàn)的最為突出,尤其是新興的移動(dòng)互聯(lián)網(wǎng)領(lǐng)域。無論是網(wǎng)絡(luò)訪問數(shù)據(jù),還是諸如基于移動(dòng)互聯(lián)網(wǎng)的叫車、導(dǎo)航和餐飲服務(wù),其本身就是大數(shù)據(jù)來源,為企業(yè)和研究人員研究消費(fèi)者行為提供了重要資料。在非信息技術(shù)領(lǐng)域,比如公共交通行業(yè),大數(shù)據(jù)也逐漸成為政府決策和交通模型研究的重要資源。典型的如北京地鐵交通智能卡數(shù)據(jù),日刷卡量達(dá)600萬人,長年的數(shù)據(jù)積累可以被用來研究交通行為、交通政策乃至城市結(jié)構(gòu)的演變。因此,目前在就業(yè)市場上基于大數(shù)據(jù)的分析技能受到越來越多的用人單位的重視,相關(guān)科研機(jī)構(gòu)也越來越需要具備大數(shù)據(jù)相關(guān)分析方法或編程技能的本科生或研究生。
然而目前的課程大綱中,對于大數(shù)據(jù)相關(guān)的理論與方法并沒有給予應(yīng)有的重視。筆者調(diào)研了海淀區(qū)大部分高校,就本科教學(xué)而言,有關(guān)數(shù)據(jù)統(tǒng)計(jì)分析與挖掘的教學(xué),主要放在大學(xué)三年級的數(shù)據(jù)基礎(chǔ)模塊,代表性課程為概率論,開課教師多為理學(xué)院老師,帶有通識(shí)性教育的特點(diǎn)。就研究生階段而言,大數(shù)據(jù)分析所涉及的基礎(chǔ)理論主要通過數(shù)理統(tǒng)計(jì)和數(shù)值分析相關(guān)課程來講授。這些教學(xué)模塊并沒有對大數(shù)據(jù)及其相關(guān)的理論分析與應(yīng)用技術(shù)做充分的強(qiáng)調(diào)。對此,該文在分析大數(shù)據(jù)教學(xué)必要性的基礎(chǔ)上,提出大數(shù)據(jù)教學(xué)的要點(diǎn),為工科專業(yè)培養(yǎng)具備大數(shù)據(jù)思維和技術(shù)處理能力的人才提供參考。
1 工科專業(yè)大數(shù)據(jù)教學(xué)的必要性
隨著信息技術(shù)在各個(gè)行業(yè)的應(yīng)用,海量數(shù)據(jù)逐漸被采集和積累,面向大數(shù)據(jù)的統(tǒng)計(jì)分析技能需求越來越大。以培養(yǎng)人才為主要目標(biāo)的高校需要跟上產(chǎn)業(yè)的發(fā)展,因而有必要結(jié)合各個(gè)專業(yè)的實(shí)際需求開設(shè)大數(shù)據(jù)相關(guān)課程。
1.1 大數(shù)據(jù)已經(jīng)成為各個(gè)行業(yè)的重要資源
隨著信息化、自動(dòng)化程度的提高,各個(gè)行業(yè)都開始積累大量連續(xù)且多種形式的數(shù)據(jù)。數(shù)據(jù)的量級是前所未有的。以交通行業(yè)為例,傳統(tǒng)的數(shù)據(jù)采集方法往往采用抽樣調(diào)查的方法,利用問卷獲取居民的出行信息。不僅成本較高,獲取的數(shù)據(jù)量也有限,準(zhǔn)確性難以保證。隨著信息技術(shù)的進(jìn)步,尤其是GPS導(dǎo)航的普及,以及公共交通系統(tǒng)自動(dòng)售檢票設(shè)備的應(yīng)用,為交通行業(yè)提供了大量實(shí)時(shí)連續(xù)的數(shù)據(jù)。再加上監(jiān)控系統(tǒng)、圖像識(shí)別等設(shè)備與技術(shù)的應(yīng)用,可以說目前交通行業(yè)已進(jìn)入大數(shù)據(jù)時(shí)代。以北京為例,目前公共交通領(lǐng)域都采用自動(dòng)售檢票系統(tǒng),日地鐵刷卡量達(dá)600萬人,路面公交刷卡量達(dá)1 000萬人。公交系統(tǒng)內(nèi)部監(jiān)控視頻系統(tǒng)每日產(chǎn)生萬T視頻數(shù)據(jù)。同時(shí)路面交通6.7萬輛出租車GPS數(shù)據(jù),以及地圖搜索引擎積累的導(dǎo)航數(shù)據(jù),共同構(gòu)成了北京城市交通的大數(shù)據(jù)。
這些數(shù)據(jù)占用了大量的存儲(chǔ)空間,也為我們?nèi)娴胤治鰡栴}提供了寶貴的資源。怎么從如此大規(guī)模的數(shù)據(jù)中挖掘有用信息,引起了行業(yè)人員越來越大的重視。這點(diǎn)從谷歌大數(shù)據(jù)搜索趨勢可以看出。如圖1所示,從2011年開始,大數(shù)據(jù)搜索量開始飛速增長。這說明大數(shù)據(jù)已經(jīng)成為信息化社會(huì)數(shù)據(jù)統(tǒng)計(jì)和數(shù)據(jù)挖掘的新形式。作為培養(yǎng)創(chuàng)新型人才的基地,高校在這種社會(huì)潮流中不能落后。這點(diǎn)不僅要體現(xiàn)在科研上,更要體現(xiàn)在教學(xué)上。因此,開設(shè)大數(shù)據(jù)教學(xué)是大勢所趨。
1.2 企業(yè)需要具備大數(shù)據(jù)處理能力的技術(shù)人才
企業(yè)是大數(shù)據(jù)的擁有者。海量的數(shù)據(jù)為各類企業(yè)監(jiān)測設(shè)備運(yùn)行狀態(tài)、識(shí)別目標(biāo)客戶、提升效率和增加利潤提供了潛在途徑[2]。多項(xiàng)研究表明,深入挖掘企業(yè)積累的大數(shù)據(jù),可以優(yōu)化企業(yè)的倉儲(chǔ)、供應(yīng)鏈管理等環(huán)節(jié),降低成本,提高效益,提升顧客的滿意程度[3]。
一旦大數(shù)據(jù)帶來的實(shí)際效益為企業(yè)所充分認(rèn)識(shí),以追求利益最大化為存在目的的企業(yè)就會(huì)成為大數(shù)據(jù)挖掘的第一推動(dòng)力。隨著近幾年大數(shù)據(jù)技術(shù)在經(jīng)濟(jì)效益轉(zhuǎn)化上取得的成果越來越大,更多的企業(yè)開始著手挖掘大數(shù)據(jù),尤其一些互聯(lián)網(wǎng)巨頭,都紛紛成立了大數(shù)據(jù)實(shí)驗(yàn)室。隨著企業(yè)大數(shù)據(jù)相關(guān)業(yè)務(wù)的拓展,其對大數(shù)據(jù)方面的人才需求就越來越大。根據(jù)華盛頓郵報(bào)[4],McKinsey環(huán)球研究所估計(jì)截止2018年僅美國經(jīng)濟(jì)和商業(yè)領(lǐng)域的大數(shù)據(jù)高級分析人才的市場需求就達(dá)4.4~4.9萬,其他大數(shù)據(jù)分析人才需求量達(dá)400萬。
如此大規(guī)模的市場需求,如果高校不能及時(shí)調(diào)整培養(yǎng)方案,增加大數(shù)據(jù)相關(guān)的教學(xué)模塊,就不能滿足社會(huì)對這方面人才的需求。所以,從人才市場需求的角度,國內(nèi)大學(xué)有必要盡快開展大數(shù)據(jù)教學(xué)。
1.3 科學(xué)研究需要大數(shù)據(jù)人才
大數(shù)據(jù)挖掘在各個(gè)領(lǐng)域的需求,最終會(huì)反饋到科研領(lǐng)域。這點(diǎn)從近十年SCI論文檢索數(shù)據(jù)庫Web of Science收錄的大數(shù)據(jù)主題相關(guān)論文數(shù)量可以看出來。筆者檢索了近些年SCI數(shù)據(jù)庫大數(shù)據(jù)主題相關(guān)論文的年收錄量,如圖2所示,以大數(shù)據(jù)為主題的論文在2006年的年收入量是1 000篇左右,而到2014年,年收入量已突破4 500篇。SCI論文數(shù)據(jù)庫代表著高水平的科研成果。以大數(shù)據(jù)為主題的高水平科研成果從2011年開始飛速增長,這點(diǎn)與圖1谷歌搜索服務(wù)提供的大數(shù)據(jù)相關(guān)熱度基本一致。說明全社會(huì)對大數(shù)據(jù)的關(guān)注,很快反應(yīng)到了科學(xué)研究領(lǐng)域。
與科研領(lǐng)域大數(shù)據(jù)相關(guān)研究需求與研究成果快速增加的情形相悖的是,國內(nèi)高校在本科和研究生培養(yǎng)過程中對大數(shù)據(jù)挖掘理論與方法的教學(xué)沒有給予足夠重視,缺乏相關(guān)的教學(xué)模塊。以交通運(yùn)輸專業(yè)為例,新入學(xué)的碩士生或博士生,在大數(shù)據(jù)處理方面既缺乏課程培訓(xùn),也缺乏研究經(jīng)驗(yàn),需要團(tuán)隊(duì)從零開始傳授交通大數(shù)據(jù)挖掘相關(guān)方法。這種現(xiàn)象在多個(gè)專業(yè)都是普遍存在的。因此,從培養(yǎng)科研后備人才的角度,高校有必要開設(shè)大數(shù)據(jù)相關(guān)課程。
2 大數(shù)據(jù)教學(xué)的要點(diǎn)
充分認(rèn)識(shí)了大數(shù)據(jù)教學(xué)在工程專業(yè)人才配上上的必要性,下一步就是如何開展好大數(shù)據(jù)教學(xué),使學(xué)生通過大數(shù)據(jù)課程的學(xué)習(xí),掌握大數(shù)據(jù)挖掘相關(guān)的理論與方法,滿足就業(yè)市場與繼續(xù)深造的需求。對此作者走訪旁聽了部分英國大學(xué)大數(shù)據(jù)相關(guān)的課程,也調(diào)研了國內(nèi)部分高校開展的數(shù)據(jù)挖掘方面的課程,總結(jié)了大數(shù)據(jù)教學(xué)的兩個(gè)要點(diǎn),以期為大數(shù)據(jù)教學(xué)的推進(jìn)提供參考。
2.1 數(shù)學(xué)基礎(chǔ)課與專業(yè)案例相結(jié)合
大數(shù)據(jù)處理對機(jī)器學(xué)習(xí)相關(guān)的數(shù)學(xué)方法,特別是統(tǒng)計(jì)分析理論要求較高。目前大多數(shù)高校都在本科及研究生培養(yǎng)的過程中開設(shè)了概率論及數(shù)理統(tǒng)計(jì)相關(guān)課程,然而這些課程一般由理學(xué)院數(shù)學(xué)系的相關(guān)老師講授,具有工科專業(yè)通識(shí)教育的特點(diǎn)。這會(huì)造成一些突出問題。最主要的是這種模式會(huì)弱化案例教學(xué)的作用,過于強(qiáng)調(diào)理論,而理論的應(yīng)用,尤其是理論在各自專業(yè)上的應(yīng)用,不能被很好地強(qiáng)調(diào)。即使包含了案例教學(xué),但是案例往往是抽象的,或者與各個(gè)工科專業(yè)沒有關(guān)聯(lián),學(xué)生不能意識(shí)到教授的理論知識(shí)能否能在本專業(yè)應(yīng)用,應(yīng)用在什么地方,以及如何應(yīng)用。這會(huì)從根本上影響學(xué)生的學(xué)習(xí)興趣,進(jìn)而影響到學(xué)習(xí)效果。
因此,有必要借鑒國外先進(jìn)的教學(xué)理念,在大數(shù)據(jù)理論教學(xué)中采用本專業(yè)老師教授大數(shù)據(jù)挖掘以及機(jī)器學(xué)習(xí)相關(guān)理論。筆者在英國University College London交通中心旁聽了數(shù)據(jù)采集與分析相關(guān)的研究生課程,發(fā)現(xiàn)該課程即由交通中心的老教授主講。其授課內(nèi)容與國內(nèi)研究生數(shù)學(xué)基礎(chǔ)課的數(shù)理統(tǒng)計(jì)類似,不過適度弱化了理論部分,增加了大量的交通工程數(shù)據(jù)分析案例。從學(xué)生的課程參與情況,以及參與科研項(xiàng)目過程中對相關(guān)理論的應(yīng)用效果來看,這種教學(xué)模式不僅能讓學(xué)生意識(shí)到理論方法在本專業(yè)的價(jià)值,還能讓學(xué)生快速掌握應(yīng)用的方法。甚至部分教授采用半節(jié)課理論講解,另外半節(jié)課邀請企業(yè)或政府部門相關(guān)從業(yè)者針對所講理論在實(shí)際中的應(yīng)用進(jìn)行演講。這些教學(xué)模式都值得在大數(shù)據(jù)教學(xué)中加以借鑒。
2.2 著重編程能力的培養(yǎng)
大數(shù)據(jù)對自主編程能力的要求很高。這主要由兩方面決定。其一是數(shù)據(jù)的預(yù)處理,由于大數(shù)據(jù)一般涉及繁蕪叢雜的原始數(shù)據(jù)。這些數(shù)據(jù)存儲(chǔ)格式,字段意義,數(shù)據(jù)類型種類較多,使用現(xiàn)成的統(tǒng)計(jì)軟件已不能滿足原始數(shù)據(jù)預(yù)處理要求,而手工處理也不現(xiàn)實(shí),因此一般需要自主編程,針對數(shù)據(jù)的具體問題設(shè)計(jì)對應(yīng)的預(yù)處理算法。比如公共汽車網(wǎng)絡(luò)一般包含很多線路和車站,線路和車站的名稱、編碼也存在不盡統(tǒng)一之處。體現(xiàn)在公共汽車刷卡大數(shù)據(jù)上就是字段編碼存在混亂,與GIS數(shù)據(jù)上車站的地理位置不能一一對應(yīng)。對于這種情況,要可視化公交車網(wǎng)絡(luò)客流,必須對刷卡數(shù)據(jù)預(yù)處理。如北京龐大的公交網(wǎng)絡(luò),手工處理不現(xiàn)實(shí),這就需要研究人員自主開發(fā)對應(yīng)模塊完成該工作。其二,海量數(shù)據(jù)對計(jì)算復(fù)雜度提出了新的要求。很多情況下不是傳統(tǒng)算法不可行的問題,而是不能在適合的時(shí)間內(nèi)處理完大規(guī)模數(shù)據(jù)的問題。以地鐵網(wǎng)絡(luò)客流實(shí)時(shí)顯示系統(tǒng)為例,如果路徑選擇算法不能在較短的時(shí)間內(nèi)給出結(jié)果,從實(shí)時(shí)的角度就其結(jié)果就沒有意義。大數(shù)據(jù)處理需要復(fù)雜度更低的可行算法,甚至在有些情況下需要設(shè)計(jì)并行算法,使用多個(gè)計(jì)算設(shè)備同時(shí)計(jì)算[5]。
所以,培養(yǎng)具備大數(shù)據(jù)思維和能力的人才,必須強(qiáng)調(diào)編程能力的培養(yǎng)。把編程相關(guān)課程作為大數(shù)據(jù)培養(yǎng)模塊的基礎(chǔ)課程,并體現(xiàn)大數(shù)據(jù)編程的特色。英國紐卡斯?fàn)柎髮W(xué)的Big Data Analytics模塊就是由計(jì)算機(jī)相關(guān)專業(yè)的老師開設(shè)。課程大綱中強(qiáng)調(diào)編程能力和算法設(shè)計(jì),并專門教授了并行計(jì)算相關(guān)內(nèi)容。
3 結(jié)語
隨著數(shù)據(jù)采集和存儲(chǔ)技術(shù)的進(jìn)步,大數(shù)據(jù)逐漸成為各個(gè)行業(yè)尤其是工程相關(guān)專業(yè)的熱點(diǎn)。在這種形勢下,本文研究了工科專業(yè)大數(shù)據(jù)教學(xué)的問題。首先分析了大數(shù)據(jù)在實(shí)踐和科研領(lǐng)域的發(fā)展現(xiàn)狀和未來趨勢,認(rèn)為無論是生產(chǎn)企業(yè),還是科研相關(guān)單位,對大數(shù)據(jù)人才的需求都是迫切和巨大的。因而,從滿足未來人才市場需求的角度,大數(shù)據(jù)教學(xué)的問題必須引起國內(nèi)高校的重視。工科相關(guān)專業(yè)有必要增設(shè)大數(shù)據(jù)培養(yǎng)模塊。基于必要性,總結(jié)國內(nèi)外目前在數(shù)據(jù)處理方面的教學(xué)經(jīng)驗(yàn)和問題,提出了開展大數(shù)據(jù)教學(xué)的要點(diǎn)。其一,大數(shù)據(jù)理論教學(xué)必須與本工科專業(yè)相結(jié)合,側(cè)重案例的相關(guān)性。其二,自主編程能力是大數(shù)據(jù)能力的重要體現(xiàn),因而必須予以重視。目前大數(shù)據(jù)教學(xué)在國內(nèi)還處于起步階段,需要各個(gè)專業(yè)的同仁結(jié)合本專業(yè)的特點(diǎn)展開積極的探索,構(gòu)建合適的大數(shù)據(jù)培養(yǎng)模塊,成為本科及研究生培養(yǎng)課程體系的重要一環(huán)。
參考文獻(xiàn)
[1] Snijders,C.,Matzat,U.;Reips,U.-D.“Big Data”:Big gaps of knowledge in the field of Internet[J].International Journal of Internet Science,2012(7):1-5.
[2] Stefanovic,Nenad.Collaborative Predictive Business Intelligence Model for Spare Parts Inventory Replenishment[J].Computer science and information systems,2015,12(3):911-930.
[3] Hahn,G.J.;Packowski,J.A perspective on applications of in-memory analytics in supply chain management[J].Decision support systems, 2015(76):45-52.
[4] Steven Overly.As demand for big data analysts grows,schools rush to graduate students with necessary skills[N].Washington Post,2013-09-15.
[5] Bussaban K.,Waraporn P.Preparing Undergraduate Students Majoring in Computer Science and Mathematics with Data Science: Perspectives and Awareness in the Age of Big Data[J].Procedia-Social and Behavioral Sciences,2015,197(25):1443-1446.