何鋒 劉祖根 余建坤 余益民
摘? 要:隨著大數(shù)據(jù)進(jìn)入人們生活的方方面面,數(shù)據(jù)挖掘技術(shù)越來越凸顯出其的重要性。但由于該課程涉及到的知識點(diǎn)多,教學(xué)要點(diǎn)分散,老師講解時(shí)若采用的數(shù)據(jù)集舉例過多,會(huì)使學(xué)生陷入無頭緒之中。為了解決這一問題,該文以購物籃數(shù)據(jù)集為例,使用兩種軟件工具,對數(shù)據(jù)挖掘技術(shù)課程中的關(guān)聯(lián)、聚類、分類、異常點(diǎn)和復(fù)雜網(wǎng)絡(luò)分析進(jìn)行貫穿式教學(xué)設(shè)計(jì),以便于學(xué)生能更好地通過一個(gè)數(shù)據(jù)集來掌握數(shù)據(jù)挖掘技術(shù),從而獲得相應(yīng)的大數(shù)據(jù)分析能力。
關(guān)鍵詞:購物籃數(shù)據(jù)集? 數(shù)據(jù)挖掘技術(shù)? “貫穿式”案例教學(xué)設(shè)計(jì)
中圖分類號:G64? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? 文獻(xiàn)標(biāo)識碼:A? ? ? ? ? ? ? ? ? ? ? ? ? ?文章編號:1672-3791(2019)04(a)-0169-04
大數(shù)據(jù)分析是指對規(guī)模巨大的數(shù)據(jù)進(jìn)行分析。大數(shù)據(jù)可以概括為5個(gè)V,即:數(shù)據(jù)量大(Volume)、速度快(Velocity)、類型多(Variety)、價(jià)值(Value)、真實(shí)性(Veracity)。隨著大數(shù)據(jù)時(shí)代的來臨,大數(shù)據(jù)分析也應(yīng)運(yùn)而生。大數(shù)據(jù)分析與數(shù)據(jù)挖掘的關(guān)系可用如表1所示來進(jìn)行比較。
由表1的概念范疇可知,數(shù)據(jù)挖掘已經(jīng)包括了目前最為流行的大數(shù)據(jù)概念,因此,在教學(xué)過程中,鼓勵(lì)學(xué)生學(xué)好數(shù)據(jù)挖掘的相關(guān)知識和技能,是迎接大數(shù)據(jù)時(shí)代的最佳途徑。
但由于數(shù)據(jù)挖掘課程涉及到的知識點(diǎn)多,教學(xué)要點(diǎn)分散,老師講解時(shí)若采用的數(shù)據(jù)集舉例過多,會(huì)使學(xué)生陷入無頭緒之中。為了解決這一問題,該文采用“貫穿式”案例教學(xué)法進(jìn)行設(shè)計(jì)。
“貫穿式”案例教學(xué)法是指在數(shù)據(jù)挖掘教學(xué)的過程中,教師以某一具有代表性的數(shù)據(jù)集為例,將該數(shù)據(jù)集的講解和處理貫穿整個(gè)教學(xué)過程。采用這樣的教學(xué)方法可避免過去對每個(gè)章節(jié)各自使用不同的數(shù)據(jù)集,從而導(dǎo)致使知識與概念間的不銜接、學(xué)生所學(xué)知識不系統(tǒng)的弊端。通過一個(gè)數(shù)據(jù)集貫穿整個(gè)課程教學(xué),不僅可以把《數(shù)據(jù)挖掘技術(shù)》課程的知識點(diǎn)系統(tǒng)化,有利于學(xué)生對知識體系有著深刻的認(rèn)知,而且能夠培養(yǎng)學(xué)生正確、全面地認(rèn)識大數(shù)據(jù)分析與挖掘過程,為其將來解決現(xiàn)實(shí)中的實(shí)際問題打下堅(jiān)實(shí)的基礎(chǔ)。
該文以IBM SPSS Modeler 18.0自帶的購物籃數(shù)據(jù)集BASKETSln為例,使用IBM SPSS Modeler 18.0和R-3.3.1等軟件工具,對數(shù)據(jù)挖掘技術(shù)課程中的關(guān)聯(lián)、聚類、分類、異常點(diǎn)和復(fù)雜網(wǎng)絡(luò)分析進(jìn)行教學(xué)設(shè)計(jì),以便于學(xué)生能更好地通過一個(gè)數(shù)據(jù)集來掌握數(shù)據(jù)挖掘技術(shù),從而獲得相應(yīng)的大數(shù)據(jù)分析能力。
1? 關(guān)聯(lián)分析的教學(xué)設(shè)計(jì)
在現(xiàn)實(shí)生活中,人們涉及到較多的社會(huì)活動(dòng)之一就是購物,因此使用購物籃數(shù)據(jù)集BASKETSln進(jìn)行分析,能讓學(xué)生很快地結(jié)合現(xiàn)實(shí)生活,從而結(jié)合實(shí)際展開進(jìn)一步地學(xué)習(xí)。
購物籃數(shù)據(jù)集BASKETSln有1000個(gè)客戶,18種屬性(其中包含11種商品),這里面隱含著重要且十分有價(jià)值的信息,通過對這些信息的研究與分析,可以教會(huì)學(xué)生從中獲得有關(guān)消費(fèi)者的一些資料,如他們的購買行為、購買習(xí)慣、產(chǎn)品偏好、品牌忠誠度等,這有利于學(xué)生學(xué)習(xí)興趣的培養(yǎng)。
關(guān)聯(lián)規(guī)則是一種無向的數(shù)據(jù)挖掘方法,它從大量的數(shù)據(jù)項(xiàng)中尋找有意義的關(guān)聯(lián)關(guān)系。在零售業(yè)中,關(guān)聯(lián)規(guī)則可以發(fā)現(xiàn)顧客的偏好,從而找到有較大可能連帶銷售的商品。因此,在教學(xué)設(shè)計(jì)上,可以采用Modeler中的Apriori節(jié)點(diǎn)進(jìn)行分析,則可挖掘出如表2所示的一些有趣的模式來。
表2中分別顯示了購買啤酒(beer)和罐裝蔬菜(cannedveg)的客戶購買冷凍食品(frozenmeal)的傾向性很大;購買啤酒(beer)和冷凍食品(frozenmeal)的客戶購買罐裝蔬菜(cannedveg)的傾向性很大;購買啤酒(beer)和罐裝蔬菜(cannedveg)的客戶購買冷凍食品(frozenmeal)的傾向性很大。如果引導(dǎo)學(xué)生在學(xué)習(xí)過程中適當(dāng)調(diào)整最低條件支持度和最小規(guī)則置信度,則可以看到更多有趣的規(guī)則,這樣就很好地調(diào)動(dòng)了學(xué)生的學(xué)習(xí)積極性。
1.1 聚類分析的教學(xué)設(shè)計(jì)
為了形象地表達(dá)商品的購買力,便于教學(xué)任務(wù)的開展,可以用Web節(jié)點(diǎn)把11種商品的銷售情況形象地描繪出來,如圖1所示。
從圖1中我們可以看到,有3組商品組合所屬的客戶群特別明顯,它們分別是:購買魚(fish)和水果蔬菜(fruitveg)組合的客戶群;購買葡萄酒(wine)和糖果(confectionery)的客戶群;購買啤酒(beer)、冷凍食品(frozenmeal)和罐裝蔬菜(cannedveg)的客戶群,這就形成了明顯的3個(gè)聚類群體,而聚類群體的形成,是符合現(xiàn)實(shí)生活中的“物以類聚,人以群分”這一思想的。
1.2 分類分析的教學(xué)設(shè)計(jì)
有了聚類,自然而然就會(huì)產(chǎn)生分類,因此整個(gè)教學(xué)設(shè)計(jì)也就自然會(huì)過渡到“分類”這一部分知識點(diǎn)了。這時(shí),就可以順理成章地引導(dǎo)學(xué)生去分析產(chǎn)生以上3個(gè)聚類的客戶群體到底有些什么樣的特征了。采用Modeler中的C5.0節(jié)點(diǎn)進(jìn)行分析,則可產(chǎn)生如圖2所示的結(jié)果。
從規(guī)則1中我們可以歸納出這個(gè)客戶群的一些大概特征,那就是這個(gè)組群中的客戶基本都是男性,并且他們的收入都低于16900。整個(gè)建模過程如圖3所示。
1.3 異常點(diǎn)分析的教學(xué)設(shè)計(jì)
我們都知道,不是所有的樣本都會(huì)歸屬于聚類和分類之中,現(xiàn)實(shí)中的數(shù)據(jù)總會(huì)有或多或少的個(gè)體遠(yuǎn)離群體的。為了形象地描繪這些異常點(diǎn),從這里開始,使用R語言進(jìn)行教學(xué)設(shè)計(jì),繪制出顧客與商品的2-模網(wǎng)網(wǎng)絡(luò),如圖4所示。
從圖4中,可以發(fā)現(xiàn)有60個(gè)孤立節(jié)點(diǎn),這說明有60個(gè)客戶沒有發(fā)生交易,真正發(fā)生交易的就只有940個(gè)客戶。因此,我們的分析應(yīng)該圍繞著這940個(gè)客戶進(jìn)行。
1.4 復(fù)雜網(wǎng)絡(luò)分析的教學(xué)設(shè)計(jì)
廣義上講,任何事物都處在一個(gè)有形或無形的網(wǎng)絡(luò)當(dāng)中,與網(wǎng)絡(luò)中的其他事物形成一種相互依存或競爭的關(guān)系。因此,基于網(wǎng)絡(luò)拓樸結(jié)構(gòu)去研究數(shù)據(jù)之間的相互關(guān)系是當(dāng)前大數(shù)據(jù)分析與數(shù)據(jù)挖掘的熱門話題,故在教學(xué)目標(biāo)中,引導(dǎo)學(xué)生思考數(shù)據(jù)網(wǎng)絡(luò)構(gòu)成是揭示事物相關(guān)性的另一個(gè)獨(dú)特視角。
使用R語言,引導(dǎo)學(xué)生對購物籃數(shù)據(jù)集中產(chǎn)生真正交易的940個(gè)客戶進(jìn)行網(wǎng)絡(luò)基本分析,從而得出如表3所示的結(jié)論。
2? 結(jié)語
對《數(shù)據(jù)挖掘技術(shù)》課程進(jìn)行“貫穿式”案例教學(xué)設(shè)計(jì),用一個(gè)恰當(dāng)?shù)臄?shù)據(jù)集把多個(gè)章節(jié)中的知識點(diǎn)有機(jī)地貫穿在一起,將所講授的內(nèi)容逐步延伸,這有利于學(xué)生對大數(shù)據(jù)分析與知識挖掘的整個(gè)體系有一個(gè)完整、深刻的認(rèn)知。這便于學(xué)生在實(shí)踐中運(yùn)用知識后,能夠很好地掌握數(shù)據(jù)挖掘中的基本知識點(diǎn)、基本原理及方法等知識理論。而Modeler和R兩種軟件工具的交替使用,有助于學(xué)生學(xué)會(huì)在對同一數(shù)據(jù)集進(jìn)行分析時(shí),能夠明白不同軟件工具在不同階段的問題處理上的優(yōu)勢和不足,進(jìn)行實(shí)現(xiàn)大數(shù)據(jù)分析過程中的優(yōu)勢互補(bǔ),從而加深學(xué)生對知識體系的認(rèn)知與領(lǐng)悟。
參考文獻(xiàn)
[1] (美)Jiawei Han,Micheling Kamber,Jian Pei,著.數(shù)據(jù)挖掘概念與技術(shù)[M].3版.范明,孟小峰,譯.北京:機(jī)械工業(yè)出版社,2012.
[2] 薛薇.R語言數(shù)據(jù)挖掘方法及應(yīng)用[M].北京:電子工業(yè)出版社,2016.
[3] 施和平,俞晨霞.“貫穿式”案例教學(xué)法與“探究式”教學(xué)法在《管理學(xué)》課程教學(xué)中的運(yùn)用[J].景德鎮(zhèn)學(xué)院學(xué)報(bào),2016(2):82-85.
[4] 葉品菊.案例貫穿式教學(xué)法在VB程序設(shè)計(jì)教學(xué)中的應(yīng)用[J].安徽電子信息職業(yè)技術(shù)學(xué)院學(xué)報(bào),2007,6(5):53-54.
[5] 黃芳.貫穿式案例教學(xué)在市場調(diào)查課程中的應(yīng)用[J].科教導(dǎo)刊,2017(1X):76-78.
[6] 鐘兵.機(jī)械制造“貫穿式案例”教學(xué)模式實(shí)踐研究[J].當(dāng)代教育理論與實(shí)踐,2012,4(6):90-91.
①基金項(xiàng)目:云南財(cái)經(jīng)大學(xué)校級重點(diǎn)課程建設(shè)項(xiàng)目“數(shù)據(jù)挖掘技術(shù)課程”(項(xiàng)目編號:41611217232)。
作者簡介:何鋒(1973—),男,白族,云南昆明人,碩士,講師,研究方向:數(shù)據(jù)挖掘算法分析。
劉祖根(1970—),男,漢族,湖北武漢人,博士,副教授,研究方向:復(fù)雜網(wǎng)絡(luò)。
余建坤(1963—),男,漢族,云南昆明人,碩士,教授,研究方向:大數(shù)據(jù)分析。
余益民(1969—),男,漢族,云南昆明人,博士,副教授, 研究方向:東南亞網(wǎng)絡(luò)。