陳燕 黃敏 王聰
摘要:文章理順了大數(shù)據(jù)與商務智能、數(shù)據(jù)挖掘等相關課程的關系。根據(jù)多年來主持國家、省部級大數(shù)據(jù)相關項目和教學經驗,就大數(shù)據(jù)課程內容體系構建、如何講授大數(shù)據(jù)課程及大數(shù)據(jù)實驗和應用體系設立等提出大數(shù)據(jù)課程內容體系創(chuàng)新模式。
關鍵詞:高校;大數(shù)據(jù);課程體系
中圖分類號:G642.41 文獻標志碼:A 文章編號:1674-9324(2019)36-0179-03
一、引言
大數(shù)據(jù)時代,人們越來越依賴互聯(lián)網,各類活動產生海量數(shù)據(jù)。這些數(shù)據(jù)在不同領域帶來不同的管理與決策分析模式。專家們認為:大數(shù)據(jù)已經作為人類歷史上最重要的一次信息革命。經過十多年的發(fā)展,國內外各行各業(yè)都在運用大數(shù)據(jù)存儲、分析與處理方法,對這些數(shù)據(jù)進行深度挖掘和分析,創(chuàng)造了更高的經濟效益。通過近年的電子商務營銷情況,我們可以看到網絡大數(shù)據(jù)產生的效果和重要意義。例如,2017天貓“雙十一”啟動僅過28秒,成交額便超過10億元人民幣;同城物流行業(yè)應用中,貨拉拉的貨主端App和司機端App的MAU(月活躍用戶數(shù))分別為250萬和57萬,高居行業(yè)首位;滴滴擁有超過4.5億用戶,目前在中國400多個城市開展服務,每天的訂單量高達2500萬,相當于全球其他市場(包括美國)的總和,所有移動出行市場總量的2倍,每天要處理數(shù)據(jù)4500TB,相當于450多萬部藍光電影??偠灾?,我們每時每刻都在產生海量數(shù)據(jù),如何處理和分析這些數(shù)據(jù),已經成為業(yè)界專家研究的熱點問題。
大數(shù)據(jù)的到來,不僅需要科學工作者和專家了解大數(shù)據(jù)的概念、知識以及如何處理和分析大數(shù)據(jù),還要及時培養(yǎng)大數(shù)據(jù)專業(yè)技術人才。因此,國外多數(shù)高校針對大數(shù)據(jù)開設大數(shù)據(jù)課程并立項開展應用研究。據(jù)500強公司統(tǒng)計表明:85%的公司都籌劃推出大數(shù)據(jù)項目,如麻省理工學院、哈佛大學、伯克利、印第安納州立大學等率先開設大數(shù)據(jù)課程。國內多數(shù)高校陸續(xù)在研究生和本科高年級開設了大數(shù)據(jù)課程,到2017年底,已有283所高校獲得大數(shù)據(jù)專業(yè)設置的認可。對高校新開設的專業(yè)基礎課程的師資來講,急需解決的關鍵問題是:(1)如何理順大數(shù)據(jù)與商務智能、數(shù)據(jù)挖掘及相關課程的關系;(2)如何講授大數(shù)據(jù)課程;(3)大數(shù)據(jù)課程包括哪些內容;(4)大數(shù)據(jù)的教材體系、實驗體系包括哪些內容等。根據(jù)我們多年來主持國家、省部級數(shù)據(jù)處理與決策相關項目的應用研究,以及近年來開設的大數(shù)據(jù)相關課程,本文探討的大數(shù)據(jù)課程內容體系的教與學方法意義重大。
二、大數(shù)據(jù)專業(yè)課程內容體系創(chuàng)新模式
依據(jù)多年的教學經驗和教學方法,將大數(shù)據(jù)專業(yè)課程內容體系的創(chuàng)新模式分如下五個主要部分:(1)大數(shù)據(jù)課程授課的前驅與后繼課程;(2)大數(shù)據(jù)課程內容體系;(3)大數(shù)據(jù)課程的實驗體系;(4)大數(shù)據(jù)的應用工具;(5)大數(shù)據(jù)課程的模型系統(tǒng)。
(一)大數(shù)據(jù)課程授課的前驅與后繼課程
通過大數(shù)據(jù)課程授課的前驅與后繼課程,得知大數(shù)據(jù)課程的開設條件,主要分為大數(shù)據(jù)的前驅課程、大數(shù)據(jù)課程和大數(shù)據(jù)的后繼課程。
(二)大數(shù)據(jù)課程內容體系分類
大數(shù)據(jù)課程內容體系劃分如下五類,主要包括:大數(shù)據(jù)課程理論體系、大數(shù)據(jù)課程內容體系、大數(shù)據(jù)課程實驗體系、大數(shù)據(jù)的應用工具與大數(shù)據(jù)課程的模型系統(tǒng)。
1.大數(shù)據(jù)課程理論體系:包括前驅課程理論體系和后繼課程理論體系,如圖1所示。
2.大數(shù)據(jù)課程內容體系(如圖2)。
3.大數(shù)據(jù)課程實驗體系(如圖3)。
4.大數(shù)據(jù)的應用工具(如圖4)。
5.大數(shù)據(jù)課程的模型系統(tǒng)。將大數(shù)據(jù)課程的模型系統(tǒng)分為兩部分:第一部分是大數(shù)據(jù)的基礎模型;第二部分是大數(shù)據(jù)的經典模型。
(1)大數(shù)據(jù)的基礎模型包括預測模型系統(tǒng)、優(yōu)化模型、決策模型。
預測模型分為定量預測模型與定性預測模型,常用的定量預測模型如圖5所示,定性預測模型如圖6所示。
常用的優(yōu)化模型有:單目標優(yōu)化模型、雙目標優(yōu)化模型、多目標優(yōu)化模型、兩階段優(yōu)化模型、分層多目標優(yōu)化模型、魯棒優(yōu)化模型、多目標模糊優(yōu)化模型、動態(tài)決策優(yōu)化模型、廣義粒子群優(yōu)化模型、時間特征優(yōu)化模型、組合優(yōu)化模型、多產品多階段庫存優(yōu)化模型、魯棒優(yōu)化模型、基于影子價格應用的優(yōu)化模型、投入產出優(yōu)化模型等。
決策模型包括:基于最大(最小)后悔值的魯棒決策模型、基于組合優(yōu)化的決策模型、多階段群體決策模型、基于滿意度最大的多準則群決策模型、模糊決策模型、基于AHP的優(yōu)化決策模型基于屬性約簡的決策模型、基于貝葉斯的風向決策模型。
(2)大數(shù)據(jù)的經典模型。并行計算模型:分布式并行計算模型、分層并行計算模型、多Agent的并行計算模型、異構并行計算模型、面向對象的并行計算模型、基于網格的并行計算模型、基于分區(qū)計算的丙型計算模型、混合并行計算模型、并行排序計算模型。
文本挖掘模型:LDA主題模型、文本相似度判定算法、聚類分析模型、lD3決策樹模型、基于概率統(tǒng)計的BAYES分類模型、Markov~型、文本模糊聚類、文本K-means聚類、基于Hadoop環(huán)境下的關聯(lián)分析、基于粗糙集的不確定信息挖掘模型、基于時間序列的文本挖掘模型、SOM神經網絡聚類、PCA主成分分析模型、網頁排序模型、MMR等模型。
圖像與視頻分析模型:小波變換模型、基于小波變換的圖像壓縮、基于多目標優(yōu)化的圖像處理模型、基于QSCAR集群的并行圖像處理模型、KMP模式串匹配算法模型、模式識別學習一人工神經網絡一BP算法、基于卷積神經網絡的匹配代價算法、基于卷積神經網絡的匹配代價算法、Hebb學習規(guī)則與線性聯(lián)想器、模式識別學習——遺傳算法、馬爾科夫隨機模型、基于Hadoop的圖像研所欲處理模型、
圖數(shù)據(jù)庫及關聯(lián)分析。常見的主流圖數(shù)據(jù)庫有:NeO4J、ArangoDB、OrientDB、InfiniteGraph、具備高性能及優(yōu)秀可擴展性的DEX圖形類數(shù)據(jù)庫、“網頁圖形數(shù)據(jù)庫”InfoGrid、老牌圖形類數(shù)據(jù)庫AllegroGraph等。關聯(lián)分析模型有:Apriori算法即快速發(fā)現(xiàn)知識的算法模型、基于Hadoop環(huán)境下的Fp-free關聯(lián)分析模型、基于灰色系統(tǒng)理論的關聯(lián)度分析模型、典型關聯(lián)分析(Canonical Correlation Analysis,簡稱CCA)作為最常用的挖掘數(shù)據(jù)關聯(lián)關系的算法模型。
上述模型根據(jù)大數(shù)據(jù)相關研究領域與內容,確定所選用的模型。
三、講授大數(shù)據(jù)課程方法的探討
(一)注重大數(shù)據(jù)前驅課程具備的知識點
分清學習大數(shù)據(jù)課程之前具備哪些知識點,如大數(shù)據(jù)前驅課程知識是否滿足該課程的開設要求?有的學生計算機專業(yè)基礎較好,但數(shù)學建模較差;有的學生恰好是與前面相反的狀態(tài);還有的學生沒有學好數(shù)據(jù)結構、數(shù)據(jù)庫原理、高級語言程序設計等重要的計算機專業(yè)基礎課程,可能會直接影響大數(shù)據(jù)課程的理解能力;還有的學生高等數(shù)學、計算方法等前驅課程學習不好,再加上選修課程面窄,也會影響大數(shù)據(jù)課程學習效果。因此,根據(jù)多年教學經驗,提出學習大數(shù)據(jù)課程前必須具備的前驅課程主要知識才能學好這門課程。
(二)注重大數(shù)據(jù)知識圖譜的講授方法
由于大數(shù)據(jù)的應用是跨系統(tǒng)、跨平臺、跨領域的,所以講授本課程時,必須運用面向某全局領域的案例來講授,按照某領域的知識圖譜展開研究,以便將大數(shù)據(jù)的關系、實體、關聯(lián)知識點描述出來,讓學生通過大數(shù)據(jù)這門課,掌握大數(shù)據(jù)的知識圖譜及相關知識點。
(三)注重大數(shù)據(jù)課程理論與實踐相結合的教與學的方法
根據(jù)學生學習大數(shù)據(jù)之前所具備的知識點,在講授本課程過程中,要注重運用理論與實踐相結合的教學模式。例如,講授實現(xiàn)某并行運算如基于Hadoop環(huán)境并行計算的關聯(lián)規(guī)則算法時,運用逐步求精法來講授,具體如下:(1)先介紹關聯(lián)規(guī)則算法理論;再運用一個應用例子即大型數(shù)據(jù)庫例子,按照計算方法,分別求出項集的候選項、強項集、支持度和可信度與規(guī)則;(2)介紹基于并行環(huán)境(Hadoop環(huán)境)的關聯(lián)規(guī)則算法,即FP-TREE算法的實現(xiàn),經過幾輪講課,將一個復雜的例子,運用通俗易懂的方法講授,以便收到更好的講授效果。
(四)注重大數(shù)據(jù)架構建立和案例的教與學方法
大數(shù)據(jù)課程建立在數(shù)據(jù)庫、數(shù)據(jù)倉庫與數(shù)據(jù)挖掘的基礎上,要想在大數(shù)據(jù)環(huán)境下講授大數(shù)據(jù)的采集、綜合管理與分析,必須在了解和掌握數(shù)據(jù)庫與數(shù)據(jù)倉庫搭建架構的基礎上,才能理解和掌握大數(shù)據(jù)架構的搭建。
四、結語
近年來,隨著學術界和實業(yè)界對大數(shù)據(jù)研究與應用的關注,很多高校設置大數(shù)據(jù)相關課程。本文通過總結近幾年筆者在大數(shù)據(jù)研究和相關課程中的講授經驗,提出大數(shù)據(jù)專業(yè)課程創(chuàng)新模式。該模式總結了大數(shù)據(jù)課程授課的前驅與后繼課程、大數(shù)據(jù)課程內容體系、大數(shù)據(jù)課程實驗體系、大數(shù)據(jù)的應用工具及大數(shù)據(jù)課程的模型系統(tǒng)。針對該創(chuàng)新模式,也探討了大數(shù)據(jù)課程的講授方法。該模式對高校大數(shù)據(jù)課程設置和相關教學工作提供一定的參考,也為師生學習大數(shù)據(jù)課程提供理論參考。