周長敏,佘佐明,楊光臨
(凱里學(xué)院,貴州凱里 556011)
為積極響應(yīng)國家的大數(shù)據(jù)戰(zhàn)略,國內(nèi)眾多高校開設(shè)了大數(shù)據(jù)相關(guān)專業(yè).截止到2021 年2 月,我國開設(shè)大數(shù)據(jù)相關(guān)本科專業(yè)的院校已達(dá)730所.凱里學(xué)院屬于地方院校,學(xué)校的人才培養(yǎng)目標(biāo)是為民族地區(qū)經(jīng)濟(jì)社會發(fā)展培養(yǎng)具有創(chuàng)新精神和實踐能力的應(yīng)用型人才,根據(jù)學(xué)校的培養(yǎng)目標(biāo)確立數(shù)據(jù)科學(xué)與大數(shù)據(jù)技術(shù)專業(yè)的人才培養(yǎng)目標(biāo)是培養(yǎng)具有創(chuàng)新實踐能力和大數(shù)據(jù)處理、分析能力的應(yīng)用型人才.2018年凱里學(xué)院獲批開設(shè)數(shù)據(jù)科學(xué)與大數(shù)據(jù)技術(shù)專業(yè),數(shù)據(jù)挖掘技術(shù)作為數(shù)據(jù)科學(xué)與大數(shù)據(jù)技術(shù)專業(yè)的主干課程,是培養(yǎng)學(xué)生數(shù)據(jù)處理與數(shù)據(jù)分析能力、創(chuàng)新實踐能力的重要課程之一.數(shù)據(jù)挖掘技術(shù)課程的內(nèi)容涉及線性代數(shù)、微積分、概率統(tǒng)計、數(shù)據(jù)庫、數(shù)據(jù)結(jié)構(gòu)等數(shù)學(xué)、統(tǒng)計學(xué)、計算機(jī)科學(xué)的知識,是一門難度系數(shù)較高的綜合性課程.地方應(yīng)用型本科院校的學(xué)生普遍存在數(shù)學(xué)基礎(chǔ)知識薄弱的問題,在數(shù)據(jù)挖掘課程教學(xué)過程中如果把重點放在大量的算法理論和公式推導(dǎo)上,學(xué)生會感到課程內(nèi)容晦澀難懂,容易產(chǎn)生畏難情緒,從而失去學(xué)習(xí)興趣.應(yīng)用型本科院校學(xué)生對實驗課的興趣遠(yuǎn)遠(yuǎn)大于理論課,因為實驗成果能夠讓學(xué)生獲得成就感,因此探索如何以實驗教學(xué)帶動理論教學(xué),對于激發(fā)學(xué)生學(xué)習(xí)興趣和提高數(shù)據(jù)挖掘課程教學(xué)效果是非常有必要的.
在數(shù)據(jù)挖掘課程的教學(xué)研究方面,李艷玲[1]對數(shù)據(jù)挖掘?qū)嵺`課程的教學(xué)模式進(jìn)行了研究,提出了注重前導(dǎo)課、理論課和實踐課銜接的教學(xué)方法.劉波[2]等人在數(shù)據(jù)挖掘?qū)嵺`課程的教學(xué)中采用了小組協(xié)作學(xué)習(xí)和項目式學(xué)習(xí)的教學(xué)模式.劉夢娟等[3]對數(shù)據(jù)挖掘課程的挑戰(zhàn)性綜合實驗的設(shè)計進(jìn)行的研究.以上的研究取得了較好的教學(xué)效果,值得借鑒,但對于地方應(yīng)用型本科院校來說,仍然需要結(jié)合學(xué)校培養(yǎng)目標(biāo)探索適合學(xué)生實際情況的數(shù)據(jù)挖掘教學(xué)方法.
筆者結(jié)合凱里學(xué)院數(shù)據(jù)挖掘技術(shù)課程的教學(xué)實踐,提出“問題引導(dǎo)+案例分析”的理論實驗貫穿式教學(xué)方法,以實驗教學(xué)促進(jìn)算法理論的學(xué)習(xí),以提升學(xué)生的學(xué)習(xí)興趣和教學(xué)質(zhì)量.
凱里學(xué)院的數(shù)據(jù)挖掘技術(shù)課程在第6 學(xué)期開設(shè),主要的先導(dǎo)課程有高等數(shù)學(xué)、線性代數(shù)、數(shù)據(jù)結(jié)構(gòu)、數(shù)據(jù)庫原理及應(yīng)用、概率論與數(shù)理統(tǒng)計和Python 程序設(shè)計,課程總學(xué)時為64 學(xué)時,其中理論課32學(xué)時,實驗課32學(xué)時,實驗學(xué)時較充足.
在課程教學(xué)過程中,為激發(fā)學(xué)生的學(xué)習(xí)興趣,使用具體案例將理論課與實驗課貫穿起來.理論教學(xué)完成提出問題、引入案例、分析算法原理的任務(wù),實驗教學(xué)完成解決問題、知識應(yīng)用的任務(wù).部分典型知識模塊的教學(xué)內(nèi)容設(shè)計如表1所示.
表1 數(shù)據(jù)挖掘技術(shù)教學(xué)內(nèi)容設(shè)計
教學(xué)過程包括課前、課中、課后三個主要環(huán)節(jié).課前任務(wù)主要是根據(jù)老師推送到雨課堂的學(xué)習(xí)資料和練習(xí)進(jìn)行課前預(yù)習(xí);理論課堂任務(wù)是通過案例分析學(xué)習(xí)挖掘算法知識,實驗課堂任務(wù)是根據(jù)理論課學(xué)習(xí)的建模思路編寫解決案例問題的程序并調(diào)試生成分析結(jié)果;課后利用實驗課堂中實現(xiàn)的方法對新數(shù)據(jù)集進(jìn)行分析和挖掘.下面以樸素貝葉斯分類為例,介紹具體的課堂教學(xué)過程.
1.2.1 設(shè)問題情境,引入案例
現(xiàn)有4000 條財經(jīng)、體育、娛樂、健康4 個類別的新聞文本數(shù)據(jù)集,要求建立一個分類模型,使用文本數(shù)據(jù)集訓(xùn)練分類模型,讓模型判斷“中國女排11 連勝衛(wèi)冕世界杯”屬于哪一類新聞,請問這個任務(wù)使用上節(jié)課學(xué)習(xí)的決策樹模型能解決嗎?讓學(xué)生思考并回答.這個問題的設(shè)計既能夠引導(dǎo)學(xué)生回顧決策樹的知識,又能引導(dǎo)學(xué)生思考,起到承上啟下和激發(fā)興趣的作用.
1.2.2 給出解決問題的思路,講解樸素貝葉斯分類算法
提示解題思路為通過計算“中國女排11 連勝衛(wèi)冕世界杯”中的關(guān)鍵詞在哪一類文本中出現(xiàn)的概率最大來判斷該新聞的類別.引出貝葉斯分類的思想:對于給出的待分類項,求解在此項出現(xiàn)的條件(特征)下各個類別出現(xiàn)的概率,哪個類別概率值最大,就認(rèn)為此待分類項屬于哪個類別.讓學(xué)生根據(jù)課前預(yù)習(xí)的例題資料,回顧貝葉斯定理,引出完整的樸素貝葉斯分類的概念.通過判斷蘋果類別的實例介紹樸素貝葉斯分類算法的步驟.這個環(huán)節(jié)的目標(biāo)是讓學(xué)生能夠盡快理解算法的原理,因此選取較簡單實例能夠讓學(xué)生不必糾結(jié)于復(fù)雜的計算.
1.2.3 案例分析,應(yīng)用樸素貝葉斯分類算法解決文本分類問題
引導(dǎo)學(xué)生思考以下問題:文本屬于半結(jié)構(gòu)化數(shù)據(jù),如何量化成適用于計算機(jī)分析的數(shù)據(jù)呢?文本分類中關(guān)鍵的步驟是將文檔表示為量化模型,引出文檔的TF-IDF量化模型的概念.結(jié)合新聞分類的案例,介紹文檔TF-IDF 矩陣生成原理.將文檔的TF-IDF 矩陣作為數(shù)據(jù)集,使用樸素貝葉斯分類算法模型判斷“中國女排11 連勝衛(wèi)冕世界杯”的類別.案例分析結(jié)束后,趁學(xué)生興趣濃厚時進(jìn)一步介紹案例模型的編程實現(xiàn)方法并布置實驗任務(wù).使用文本分類作為案例是因為樸素貝葉斯分類算法最典型的應(yīng)用是文本分類,這樣設(shè)計的目的是讓學(xué)生在以后的知識應(yīng)用過程中能夠根據(jù)數(shù)據(jù)集的特點確定最佳的挖掘方法.該案例的重點是介紹樸素貝葉斯分類算法如何實現(xiàn)文本分類,為了不喧賓奪主,在課前給學(xué)生分享TF-IDF 模型基礎(chǔ)知識的視頻資料,課堂上再結(jié)合實例講解,使得知識點能夠較快被學(xué)生接受而不會占用太多課堂時間.
1.2.4 實驗上機(jī),編程實現(xiàn)分類模型
學(xué)生根據(jù)教師提前下發(fā)的實驗參考資料學(xué)習(xí)TF-IDF矩陣、貝葉斯分類器的調(diào)用方法,編寫程序生成文本分類模型實現(xiàn)對“中國女排11連勝衛(wèi)冕世界杯”的所屬新聞類別的判斷.分類模型保存到硬盤,加載模型即可實現(xiàn)對任意輸入的新聞進(jìn)行分類,準(zhǔn)確率可達(dá)到95%以上.通過實驗,學(xué)生一步一步地解決案例中涉及的問題,最后得到分析結(jié)果并且能夠應(yīng)用模型對輸入的新聞進(jìn)行分類.通過實驗課將復(fù)雜的理論變成可運行的模型,學(xué)生在這個過程中獲得成就感,能夠極大的激發(fā)學(xué)生的學(xué)習(xí)興趣和主動性.在興趣和成就感的驅(qū)動下,學(xué)生能夠通過自己查閱資料、主動尋求教師幫助等方式去對算法理論進(jìn)行更深入的學(xué)習(xí)和研究,形成良性循環(huán),提高了理論課堂教學(xué)的效果.
數(shù)據(jù)挖掘技術(shù)實驗編程使用Python 語言,程序編寫與運行環(huán)境使用Jupyter Notebook.選擇Jupyter Notebook 作為實驗環(huán)境是因為其具有以下優(yōu)勢:第一,持實時代碼,程序代碼與運行結(jié)果一起顯示,方便學(xué)生觀察和理解程序,算法講解和代碼演示可以同時進(jìn)行也便于教師開展實驗指導(dǎo),做到理論教學(xué)和實踐教學(xué)相融合.第二,可直接安裝第三方庫,支持目前主流的科學(xué)計算、數(shù)據(jù)分析、數(shù)據(jù)處理、機(jī)器學(xué)習(xí)、數(shù)據(jù)可視化開發(fā)包.第三,程序代碼和運行結(jié)果可生成HTML、PDF等格式文檔,方便分享和提交實驗資料.第四,支持交互式可視化展示,生成可縮放的地圖和可旋轉(zhuǎn)的三維圖形,提供豐富課堂展示效果.第五,支持分布式運行,可以加載遠(yuǎn)程資源和本地資源同時進(jìn)行代碼運行和展示[4],解決了實驗教學(xué)中運行環(huán)境配置不可移植的問題,節(jié)約了課堂教學(xué)時間.
為更合理地對學(xué)生的學(xué)習(xí)情況進(jìn)行評價,數(shù)據(jù)挖掘技術(shù)課程加大了對學(xué)生學(xué)習(xí)過程的考核.課程的總評成績由過程性考核成績(占20%)、實驗考核成績(占20%)、期末考核成績(占60%)三個部分組成.過程性考核的主要內(nèi)容包括理論課堂表現(xiàn)(占5%)、平時作業(yè)(占10%)、階段性測試(5%).實驗考核包括實驗課堂表現(xiàn)(占10%)和綜合實驗作業(yè)(占10%).實驗課堂表現(xiàn)成績根據(jù)學(xué)生的實驗完成情況進(jìn)行當(dāng)堂評定,學(xué)生在Jupyter Notebook環(huán)境下完成實驗后,教師在課堂上對學(xué)生實驗情況進(jìn)行檢查驗收后給出成績.綜合實驗作業(yè)要求學(xué)生使用所學(xué)習(xí)的數(shù)據(jù)挖掘知識對給定的數(shù)據(jù)集進(jìn)行分析與挖掘,并撰寫數(shù)據(jù)分析報告.為激發(fā)學(xué)生的興趣,綜合實驗作業(yè)中使用的數(shù)據(jù)集都來源于學(xué)生的生活實際,包括脫敏后的本校學(xué)生的心理測評數(shù)據(jù)、體測數(shù)據(jù)、圖書借閱數(shù)據(jù)等.通過綜合實驗作業(yè)讓學(xué)生在體會學(xué)以致用的同時也能夠培養(yǎng)學(xué)生解決復(fù)雜實際問題的能力.
“問題引導(dǎo)+案例分析”的理論實驗貫穿式教學(xué)方法在數(shù)據(jù)科學(xué)與大數(shù)據(jù)技術(shù)專業(yè)的數(shù)據(jù)挖掘技術(shù)課程中進(jìn)行了一輪教學(xué)實踐,取得了較好的教學(xué)效果.通過問卷調(diào)查顯示,學(xué)生對此教學(xué)方法的滿意度達(dá)到92.9%,認(rèn)為此方法提升了他們的自主學(xué)習(xí)能力和知識應(yīng)用能力.學(xué)生應(yīng)用數(shù)據(jù)挖掘知識對本校學(xué)生的心理測評數(shù)據(jù)、就業(yè)數(shù)據(jù)進(jìn)行挖掘和分析,申報創(chuàng)新創(chuàng)業(yè)項目獲得2項立項,在“泰迪杯”“未來云杯”等數(shù)據(jù)分析比賽中獲得多個獎項.
以上的教學(xué)方法雖然取得了較好的教學(xué)效果,但在教學(xué)過程仍存在一些問題,部分學(xué)生由于Python 語言的基礎(chǔ)較差,不能按時完成實驗任務(wù),導(dǎo)致學(xué)習(xí)進(jìn)度跟不上而產(chǎn)生學(xué)習(xí)倦怠的情況.在今后的教學(xué)中,將繼續(xù)探索和改進(jìn)教學(xué)方法,根據(jù)學(xué)生的基礎(chǔ)為學(xué)生提供個性化的教學(xué)資源,采取多樣化的督促和激勵方法,激發(fā)學(xué)生的學(xué)習(xí)積極性,使不同基礎(chǔ)的學(xué)生都能夠主動學(xué)習(xí).
針對地方應(yīng)用型本科院校學(xué)生在數(shù)據(jù)挖掘課程學(xué)習(xí)中出現(xiàn)畏難情緒、學(xué)習(xí)主動性不夠的情況,提出“問題引導(dǎo)+案例分析”的理論實驗貫穿式教學(xué)方法,圍繞案例開展理論教學(xué)與實驗教學(xué),讓學(xué)生通過解決問題獲得成就感和學(xué)習(xí)內(nèi)驅(qū)力,從而主動對算法理論進(jìn)行更深入的學(xué)習(xí)和研究.實踐證明以上方法能夠激發(fā)學(xué)生的積極性和主動性,取得了較好的教學(xué)效果.在課程教學(xué)實施的過程中也暴露出了一些問題,還需要在今后的教學(xué)過程中繼續(xù)探索和改進(jìn).