朱衛(wèi)平 陳佳玲
摘 要:文章介紹在“商務(wù)智能與數(shù)據(jù)挖掘”課程教學內(nèi)容中如何反映大數(shù)據(jù)時代的基本特征,在教學過程中如何引導學生對具有大數(shù)據(jù)特征的課程項目進行實踐并開發(fā)相應智能教學工具,同時還討論如何將數(shù)據(jù)挖掘與數(shù)據(jù)庫和法律課程在大數(shù)據(jù)背景下進行聯(lián)動教學。
關(guān)鍵詞:大數(shù)據(jù);數(shù)據(jù)挖掘;商務(wù)智能;智能科學;課程改革
0 引 言
隨著近年來信息系統(tǒng)互聯(lián)和接入技術(shù)的廣泛發(fā)展,工作和生活中的許多數(shù)據(jù)被匯聚起來,使得我們進入大數(shù)據(jù)處理的時代。然而,數(shù)據(jù)如果只是“大”并沒有太大意義,關(guān)鍵是如何最佳地挖掘高價值的數(shù)據(jù)和使用這些數(shù)據(jù),使這些數(shù)據(jù)成為“智能數(shù)據(jù)”。在未來,智能數(shù)據(jù)可以告訴我們一個系統(tǒng)正在發(fā)生什么、為什么會發(fā)生、接下來會發(fā)生什么,以及我們應該如何應對[1]。智能數(shù)據(jù)將很大程度改變企業(yè)的商業(yè)模式和人們的生活方式。
由于巨大的社會需求和國家的政策宣傳,對大數(shù)據(jù)處理相關(guān)的學習已經(jīng)成為高等院校計算機類學習的一種新時尚。筆者所在院系,只要與大數(shù)據(jù)相關(guān)的畢業(yè)設(shè)計選題都有眾多學生報名,競爭激烈,只要與大數(shù)據(jù)相關(guān)的課程學生都非常感興趣。興趣驅(qū)使對于教師的教學有很大的幫助,但也給教師在新形勢下的課程提出更多的挑戰(zhàn)。
數(shù)據(jù)挖掘是指從海量數(shù)據(jù)中自動識別具有某種特殊聯(lián)系信息的過程,它包含數(shù)據(jù)收集、數(shù)據(jù)創(chuàng)建、數(shù)據(jù)管理、數(shù)據(jù)分析、產(chǎn)生價值信息等多個方面[2]。商務(wù)智能是指利用包括數(shù)據(jù)挖掘在內(nèi)的信息技術(shù)對商務(wù)過程和決策進行優(yōu)化而實現(xiàn)商業(yè)價值的一種技術(shù)?!吧虅?wù)智能與數(shù)據(jù)挖掘”課程就是講授數(shù)據(jù)挖掘的基本理論和方法,并將其運用到商務(wù)智能方面的一門課程。隨著當今信息量不斷增長和商務(wù)智能需求的不斷提高,該課程所涉及的內(nèi)容已經(jīng)成為當前信息技術(shù)領(lǐng)域研究和應用的熱點。在新形勢下,該課程具有以下幾個特點:①新穎性。隨著大數(shù)據(jù)浪潮的到來,商務(wù)智能和數(shù)據(jù)挖掘技術(shù)受到研究領(lǐng)域和工業(yè)領(lǐng)域的空前重視,許多研究課題不斷涌現(xiàn),并且其關(guān)注熱度還在提高。②復雜性。數(shù)據(jù)挖掘的任務(wù)包括分類規(guī)則挖掘、聚類規(guī)則挖掘、關(guān)聯(lián)規(guī)則挖掘、時序規(guī)則挖掘、特征規(guī)則挖掘等多個內(nèi)容。每項內(nèi)容都有專門的挖掘技術(shù)和眾多的算法。在教學上必須對內(nèi)容有所選擇和側(cè)重,保證適度的廣度和深度。③交叉性。與多個學科與廣泛的技術(shù)交叉,包括數(shù)據(jù)庫技術(shù)、機器學習、統(tǒng)計分析、模式識別、信息檢索、智能計算以及法律、經(jīng)濟等[3]。該課程的講授需要和各個學科進行配合,統(tǒng)籌發(fā)展。
1 教學內(nèi)容的變化
“商務(wù)智能與數(shù)據(jù)挖掘”課程教學內(nèi)容應該反映大數(shù)據(jù)時代的基本特征,尤其應該在數(shù)據(jù)體量和數(shù)據(jù)多樣性上與大數(shù)據(jù)處理緊密關(guān)聯(lián),同時可以采用目前流行的大數(shù)據(jù)典型應用作為課程例子講授相關(guān)內(nèi)容,方便在之后的大數(shù)據(jù)處理上進行擴展。
首先,在教學內(nèi)容中應該體現(xiàn)數(shù)據(jù)體量的大小。在傳統(tǒng)的數(shù)據(jù)挖掘課程中,對數(shù)據(jù)的處理并沒有強調(diào)數(shù)據(jù)量的大小,更沒有考慮到當今數(shù)據(jù)量極大膨脹和快速增長的情況,而且例子和習題的數(shù)據(jù)量也是小規(guī)模的,這與當前的大數(shù)據(jù)處理要求不符,因此有必要將數(shù)據(jù)挖掘的處理目標進行擴展。 教師可以使用典型應用來強調(diào)數(shù)據(jù)挖掘在大數(shù)據(jù)時代下新的處理目標,如討論搜索引擎(谷歌、百度等的設(shè)計)和谷歌的流感趨勢分析(Flu Trends),搜索引擎需要對大規(guī)模的數(shù)據(jù)進行爬取、關(guān)聯(lián)、聚類、分類、存儲等各種操作,并在數(shù)據(jù)的體量和運算速度上有較高的需求;谷歌的流感趨勢分析則創(chuàng)新性的將人們在互聯(lián)網(wǎng)上的操作與現(xiàn)實生活聯(lián)系在一起,這兩個例子涵蓋了數(shù)據(jù)挖掘的主要方面,且內(nèi)容新穎,易于激起學生的興趣。
其次,在教學內(nèi)容中應該體現(xiàn)數(shù)據(jù)多樣性對處理復雜度的影響。在對“數(shù)據(jù)認識”這一內(nèi)容的教學中,可以擴展到大數(shù)據(jù)處理需要的各種數(shù)據(jù)類型。只有對數(shù)據(jù)有基本的認識和分類,才能更好地挖掘數(shù)據(jù)。傳統(tǒng)的數(shù)據(jù)挖掘課程對數(shù)據(jù)類型進行逐類分析,包括標稱屬性、二元屬性、序數(shù)屬性、數(shù)值屬性等。這些都與大數(shù)據(jù)處理中數(shù)據(jù)類型的多樣性相關(guān),在講授該部分內(nèi)容時候應該予以強調(diào),同時還應該將大數(shù)據(jù)處理中的重要概率如結(jié)構(gòu)化數(shù)據(jù)與非結(jié)構(gòu)化數(shù)據(jù)、靜態(tài)數(shù)據(jù)與流式數(shù)據(jù)的概念對學生進行講解,為他們以后的數(shù)據(jù)處理打下基礎(chǔ)。
最后,在教學過程中的案例應該挑選具有大數(shù)據(jù)處理特征的典型應用。理論知識的教學只能算是教學的一部分內(nèi)容,要想讓這些理論知識變得生動有趣,需要在整個教學過程中適當加入一些結(jié)合大數(shù)據(jù)時代熱點、有意思的實戰(zhàn)案例。在實踐中可以采用學生在日常生活中遇到的一些項目作為案例,如電子商務(wù)網(wǎng)站的物品排列與推薦、支付寶信用分計算、ofo小黃車的位置計算等。
2 教學方法的變化
在教學過程中,教師應該引導學生對具有大數(shù)據(jù)特征的課程項目進行實踐,提高其對現(xiàn)實中各種限制條件的理解和處理能力,同時應該制作具有大數(shù)據(jù)特征的教學工具,讓大數(shù)據(jù)技術(shù)為本課程的教學服務(wù)。
2.1 指引學生使用課程知識進行科學研究
數(shù)據(jù)挖掘是一門實踐性很強的課程,想要學生有效地運行課堂中學習到的各種知識,最好的方式就是讓學生親手去實現(xiàn)各種算法和系統(tǒng)。在新的時代下,可以引導學生對精選的具有大數(shù)據(jù)特征的項目進行實踐。
對于項目的選擇應該符合兩點:一是盡可能多地使用課程教學內(nèi)容。在課程中,關(guān)聯(lián)規(guī)則、分類、聚類和離群點分析是教學的重點,應該盡量包含進去,促進學生理解;二是具有大數(shù)據(jù)時代特征的最新應用。在實踐中,筆者選取“大規(guī)模群組消費識別與行為預測”項目,該項目通過用戶手機和環(huán)境傳感器數(shù)據(jù)來識別商場中存在的消費群組并進行消費推薦。在獲取大量的用戶行為數(shù)據(jù)后,使用聚類算法將具有各種相似性的人員識別為群組。在進行聚類算法之前,可能需要將原始的傳感器數(shù)據(jù)首先識別為動作數(shù)據(jù)如跑步、行走、握手、擁抱等,這需要使用到分類算法。在消費群組識別出來之后,可以基于歷史數(shù)據(jù)進行關(guān)聯(lián)分析,將與當前軌跡和動作最匹配的未來軌跡和動作預測出來。在所有的這些過程之中,可以使用離群點分析去除不相干的數(shù)據(jù)。endprint
在進行項目研究的過程中,應該讓學生學習大規(guī)模數(shù)據(jù)下各種算法的限制和進行優(yōu)化的必要性。當前的計算機類學生,普遍存在重編程而輕算法的現(xiàn)象,一方面是編程能力的培養(yǎng)容易進行且立竿見影,而算法的設(shè)計卻需要較深的理論基礎(chǔ)從而較難提高;另一方面也是學生未能感受到進行算法設(shè)計的必要性。因此,教師在引導學生進行項目研究的過程中,應該引導學生提高大數(shù)據(jù)處理算法的設(shè)計能力,如FP-growth算法在教材所給定的數(shù)據(jù)集上可以很快執(zhí)行完成,而在大規(guī)模數(shù)據(jù)集合上可能相當長的時間內(nèi)無法獲得結(jié)果。類似這樣的實踐性問題不宜由教師細致解答,而應由學生自行討論和解決。教師可以在旁觀察討論過程,鼓勵學生進行各種嘗試和探索,既培養(yǎng)學生解決實際問題的能力,又培養(yǎng)學生嚴謹?shù)难芯烤瘛?/p>
2.2 基于大數(shù)據(jù)的教學工具開發(fā)和運用
在鼓勵學生理論結(jié)合實踐的同時,教師也應該在教學工具的開發(fā)和運用中體現(xiàn)大數(shù)據(jù)時代的優(yōu)勢和特色,一方面使得學生感覺到大數(shù)據(jù)就在身邊,數(shù)據(jù)挖掘算法觸手可及,另一方面可以利用大數(shù)據(jù)的特點有效輔助教學,更好地開拓學生視野,培訓其獨立的學習思維能力。課程網(wǎng)站和課程微信號就是兩個這樣的教學工具。
1)支持大數(shù)據(jù)智能獲取的課程網(wǎng)站。
課程網(wǎng)站應該在數(shù)據(jù)資源的獲取上體現(xiàn)大數(shù)據(jù)時代的特征。在傳統(tǒng)的課程網(wǎng)站中,所有的內(nèi)容都是網(wǎng)站管理人員如教師手動進行更新,這就導致網(wǎng)絡(luò)上存在大量重復建設(shè)的網(wǎng)站,但很少有網(wǎng)站能實時反映最新的知識點和教學資源??梢允褂镁W(wǎng)絡(luò)爬蟲技術(shù)對網(wǎng)絡(luò)上的相關(guān)內(nèi)容如分類算法、聚類算法、關(guān)聯(lián)規(guī)則等進行定時爬取,并展示相應的鏈接。這幫助學生在學習課堂內(nèi)容之后,可以很方便地進行擴展學習,做到課上課下相結(jié)合。爬取的內(nèi)容可以包括使用搜索引擎查找相關(guān)網(wǎng)頁,如各大慕課和學習網(wǎng)站的視頻資料以及相關(guān)專業(yè)領(lǐng)軍研究團隊的主頁。
2)智能聊天微信公眾號。
微信是目前學生廣泛使用的工具。如果能開發(fā)微信公眾號作為教學助手將可以有效地促進學生學習。微信公眾號不應只是課程網(wǎng)站的簡單復制,而應該體現(xiàn)其主動性和智能性,與課程網(wǎng)站錯位發(fā)展。課程網(wǎng)站的特點是支持文件類型多,功能可以任意復雜;而微信公眾號則勝在日常使用。微信公眾號除了基本內(nèi)容展示外,應該著重通知推送提醒和智能聊天。當教師發(fā)布通知時,如作業(yè)提醒、調(diào)換課、考試等,微信公眾號向?qū)W生的微信進行推送,使學生可以實時接收到信息,同時微信公眾號還提供智能聊天功能。使用聊天機器人設(shè)計在很大程度上可以吸引學生使用該教學工具,并促進學生利用碎片化的時間,隨時隨地方便快捷地進行在線學習。在線學習最主要的特點就是學習具有自主性,學生可以對學習和休閑做出合理安排,從而調(diào)動學生自主學習的意識,做到學習和休閑兩不誤[4]。教師也可以通過參與討論和觀察微信公眾號的后臺數(shù)據(jù)掌握學生的學習情況,并根據(jù)不同學生的情況進行針對性指導,從而達成一個教學上的良性循環(huán)和教學閉環(huán)。
對于該學習助手的開發(fā),同樣體現(xiàn)了大數(shù)據(jù)下的數(shù)據(jù)挖掘特征。智能聊天系統(tǒng)的搭建最重要的是構(gòu)建知識庫,知識庫其中的很大一部分是通過文本挖掘的方式構(gòu)建的。如何收集數(shù)據(jù)、如何進行文本分析和聚類、如何進行存儲,對這些問題的解決可以鍛煉學生的動手實踐能力。
3 相關(guān)課程聯(lián)動教學
數(shù)據(jù)挖掘是一門交叉性強的學科,其理論體系涉及數(shù)據(jù)庫技術(shù)、機器學習、統(tǒng)計分析、模式識別、信息檢索、智能計算以及法律、經(jīng)濟等多個學科內(nèi)容。各類課程之間不僅有前置后置關(guān)系,也有相互影響的關(guān)系。在進行這些課程教授時,需要在整體上對各課程內(nèi)容和教學目標有良好設(shè)計,促進各學科的聯(lián)動性教學。
3.1 與數(shù)據(jù)庫課程的聯(lián)動教學
1)重復教學內(nèi)容的簡化。
數(shù)據(jù)庫和數(shù)據(jù)挖掘作為計算機類專業(yè)與數(shù)據(jù)相關(guān)的重要課程,在計算機知識體系中有著重要地位,并且相互關(guān)聯(lián),因此背景知識可以統(tǒng)一進行講授,這樣更有利于學生學習該學科的完整結(jié)構(gòu)。另外,隨著時代的不斷發(fā)展,數(shù)據(jù)庫技術(shù)也在適應著時代的腳步,對于學生數(shù)據(jù)庫學習的要求也隨著增加,需要學生掌握一些數(shù)據(jù)庫高級內(nèi)容,如NoSQL、 OLAP、大數(shù)據(jù)管理等。由于這些內(nèi)容與數(shù)據(jù)挖掘內(nèi)容有交叉,同時其適用性和需求性來源于數(shù)據(jù)挖掘和大數(shù)據(jù)處理,建議在數(shù)據(jù)庫課程教學中將此類內(nèi)容去除,把更多的精力放在核心知識上面,同時將這些內(nèi)容合并到數(shù)據(jù)挖掘課程中講授。
2)與數(shù)據(jù)挖掘課程的銜接。
加強數(shù)據(jù)庫課程和數(shù)據(jù)挖掘課程之間的相互銜接。數(shù)據(jù)挖掘的實體是數(shù)據(jù),可以從數(shù)據(jù)屬性、數(shù)據(jù)之間的關(guān)系、數(shù)據(jù)存儲一致性等幾個方面剖析數(shù)據(jù)。在此基礎(chǔ)上,可以指導學生構(gòu)建出適合數(shù)據(jù)挖掘的數(shù)據(jù)源。數(shù)據(jù)源是數(shù)據(jù)挖掘的前提,其體量大小和存取性能會直接影響到后面“挖掘”出知識的正確性和準確性。其次,教師可以在數(shù)據(jù)庫課程中加強對數(shù)據(jù)結(jié)果進行分析的能力。數(shù)據(jù)挖掘的結(jié)果最終存儲回數(shù)據(jù)庫,如何對獲得的結(jié)果進行觀察和分析將是數(shù)據(jù)挖掘的基本技能。具體而言,可以要求學生對數(shù)據(jù)基本統(tǒng)計方法、數(shù)據(jù)可視化技術(shù)、數(shù)據(jù)結(jié)果分析工具進行學習;如果學有余力,還可以對一些高階工具如SAS、SPSS、Matlab、WEKA等進行學習。
3.2 與法律課程的聯(lián)動教學
大數(shù)據(jù)給人們觀察世界帶來了全新的視角,同時這種新技術(shù)的到來也對人們的生活和法律產(chǎn)生重大的影響[5]。2015年,世界經(jīng)濟論壇發(fā)布的《全球風險報告》指出,隨著越來越多的實物連接到互聯(lián)網(wǎng)上以及日益敏感的個人信息(包括健康和財務(wù))被企業(yè)存儲到云端設(shè)備中,導致在影響力和發(fā)生概率兩方面超出平均水平的風險[6]。而個人隱私和數(shù)據(jù)信息的所有權(quán)也成為廣泛關(guān)注的問題。
對大數(shù)據(jù)時代下數(shù)據(jù)挖掘的學生而言,一方面對技術(shù)的探索永無止境,但另一方面對于使用該技術(shù)所造成的后果和法律風險卻知之甚少。在數(shù)據(jù)挖掘的課堂中,在教授相關(guān)前沿知識的同時,有必要對學生進行相關(guān)的法律普及,使得在今后的工作中明白何者能為何者不能為,規(guī)避法律風險,使得相關(guān)技術(shù)工作符合社會利益。同時,也應該注意到,由于新技術(shù)出現(xiàn)過快,很多內(nèi)容對現(xiàn)行法律制度也造成了相當?shù)挠绊?,很多?nèi)容具有相當?shù)臓幾h性。應該組織相關(guān)的講座,對現(xiàn)有的已出臺的相關(guān)法律法規(guī),如《中華人民共和國網(wǎng)絡(luò)安全法》,《電信和互聯(lián)網(wǎng)用戶個人信息保護規(guī)定》等進行解讀,同時針對教師普遍關(guān)心的問題如“人肉搜索”、數(shù)據(jù)爬蟲等進行討論。在這些過程中,教師可以進行三個層次的探討:一是法律明令可為和不可為的內(nèi)容;二是具有法律爭議的相關(guān)技術(shù)應用的社會考慮和相關(guān)風險;三是是否可以利用更先進的技術(shù)解決這些問題,如“匿名化”技術(shù)、分布式記賬技術(shù)、事后追責技術(shù)等。
4 結(jié) 語
“商務(wù)智能與數(shù)據(jù)挖掘”是針對高年級本科生或研究生開設(shè)的計算機類重要課程,該課程在大數(shù)據(jù)時代下體現(xiàn)了新的特征。筆者介紹講授該課程時在教學內(nèi)容和教學方式方面的改變,并且和其他相關(guān)學科的聯(lián)動教學,發(fā)現(xiàn)使用大數(shù)據(jù)理論對傳統(tǒng)教學內(nèi)容進行改變可以提高學生的學習興趣,而和學生一起開發(fā)基于大數(shù)據(jù)智能獲取的課程網(wǎng)站和具有智能聊天功能的微信公眾號則提升了學生的動手實踐能力。教師可以看到,雖然數(shù)據(jù)挖掘逐漸成為了各高校的熱門課程,但在教學上仍然有很大的改進空間,教師需要不斷提高自身知識水平,創(chuàng)新教學思維和教學方式,使學生能夠熟練掌握理論知識并將其應用于實踐,為社會創(chuàng)造更多的高質(zhì)量人才。
參考文獻:
[1] 鈦媒體. 從“大數(shù)據(jù)”到“智能數(shù)據(jù)”[EB/OL].(2014-10-26)[2017-04-03]. http://www.tmtpost.com/162182.html.
[2] 馬守東, 龔永峰. 關(guān)于數(shù)據(jù)挖掘課程教學探索[J]. 電腦編程技巧與維護, 2013(24): 136-137.
[3] 詹少強. 大數(shù)據(jù)背景下的數(shù)據(jù)挖掘課程教學新探[J]. 長春教育學院學報. 2014, 30(22): 81-82.
[4] 何肖瀟. “學習助手”公眾平臺[J]. 教育界, 2015(27): 192.
[5] 李海英. 大數(shù)據(jù)的法律挑戰(zhàn)和建議[J]. 大數(shù)據(jù), 2016, 2(2): 100-107.
(編輯:史志偉)endprint