高波
[摘 要] 在信息技術的推動下,許多高校都在建設網絡教學平臺,中國大學MOOC等網站也有很多課程的教學視頻。運用網絡資源對“數據挖掘”課程進行了探索,根據“數據挖掘”課程的特點,合理分配理論教學和實驗教學的學時;在理論教學時,討論網絡資源如何影響備課和授課,并且以人工神經網絡模型為例,介紹怎樣在課堂教學中應用網絡資源;從軟件環(huán)境、實驗數據、模型代碼等方面,討論實踐教學利用網絡資源的方法;根據教學評價結果,改進混合式教學的組織方法,提升“數據挖掘”課程的教學效果。
[關鍵詞] 數據挖掘;理論教學;實踐教學;網絡資源
[基金項目] 2022年度北京市教委社科項目“金融風險的多源數據的分析和預測方法研究”(SM202210009002);2020年度北京市教委市屬高?;究蒲袠I(yè)務費“協(xié)同感知智能挖掘與統(tǒng)計分析技術”(110052971921/007);2018年度北方工業(yè)大學教育教學改革和課程建設研究項目“統(tǒng)計學專業(yè)‘數據挖掘技術’課程建設研究”(NCUT2018JGM47)
[作者簡介] 高 波(1984—),男,山東聊城人,博士,北方工業(yè)大學理學院統(tǒng)計系講師,主要從事數據分析與風險管理研究。
[中圖分類號] G642.0 [文獻標識碼] A [文章編號] 1674-9324(2022)04-0131-04 [收稿日期] 2021-06-15
引言
在信息時代,經濟或科研活動產生了大量的數據,例如,網絡購物已經走進千家萬戶,食品、衣物、書籍和電器等都可以在網站或者App購買。大型電子商務公司正在運用用戶的瀏覽或交易記錄,刻畫他們的特征,推薦消費者可能感興趣的商品,并評價生產者的信用情況,決定是否向他們發(fā)放小額貸款。這些工作需要大量掌握數據挖掘技術的人才,因此很多院校的統(tǒng)計學專業(yè)紛紛開設“數據挖掘”課程。
在信息技術的推動下,在線教育迅速興起。它突破了傳統(tǒng)教學時間、空間等限制,通過互聯(lián)網將教師講課的視頻、音頻等傳遞給學生。很多高校和科技公司合作,建設中國大學MOOC和學堂在線等平臺,推出許多名師主講的課程教學視頻,其中,近千門課程被認定為國家精品課程。在新冠疫情期間,這些視頻為保障學生的學習活動發(fā)揮了重要作用,同時,高校教師還紛紛采用直播教學方式,建立師生有效互動的教學環(huán)境。企業(yè)微信、騰訊會議和阿里釘釘等很多軟件能夠支持直播教學。以企業(yè)微信為例,直播授課的主界面是教師正在講解的PPT,兩個小窗口分別顯示教師的授課環(huán)境和聽講的學生名單,教師可以借助數位板設備和希沃白板軟件,板書教學方案和關鍵知識點等。
在線下教學中,如何利用線上教學資源,成為很多學者關心的話題。孫瑞娜提出以課堂為主、線上為輔開展“數據挖掘”教學,增加實驗課學時和過程考核比例[1];柯佳和陳瀟君在線下教學中采用分組討論或分組實驗的方式,在線上平臺發(fā)布教學資料、匯總學生作業(yè)等[2];郗朋等人提出課前網絡學習、課堂教學和課后拓展提升的混合式教學模式[3],并將傳統(tǒng)課堂+信息技術升級為智慧課堂;卞金金和徐福蔭設計智慧課堂的學習模式,指出教師和學生在課前、課中和課后的工作要點,并且以小學英語的一節(jié)閱讀課為例,闡述智慧課堂的教學過程[4];毛群英從教學目標、教學過程和教學評價三方面設計智慧課堂的教學模式[5]。綜上所述,雖然部分學者提出了利用線上資源的教學模式,但是尚未深入研究慕課、B站等網絡教學視頻的作用。
一、“數據挖掘”課程的教學方案
我校統(tǒng)計學專業(yè)是北京市一流專業(yè),其主要特色方向是商業(yè)調查與數據挖掘。圍繞這兩個方向,統(tǒng)計學專業(yè)開設了“市場調查方法”“數據挖掘”“抽樣技術”“R程序語言”等課程。其中,“數據挖掘”課程設置在第6學期,面向大三學生。在這個階段,學生已經掌握回歸分析、因子分析等統(tǒng)計模型和Python、R等計算機語言的基本知識。
以數據挖掘為主題的書籍和網絡資源較為豐富。在講解模型原理時,涉及的書籍包括Tan等著的《數據挖掘導論》、Han等著的《數據挖掘概念與技術》和Wu等著的《數據挖掘十大算法》等;線上視頻資源包括學堂在線網站上清華大學袁博主講的《數據挖掘:理論與算法》、B網站上斯坦福大學Leskovec等主講的《數據挖掘》等。在講解算法編程時,涉及的書籍包括張良均等著的《R語言與數據挖掘》和《Python與數掘挖掘》等,線上資源包括B站上某些科技公司制作的講解怎樣利用R或者Python語言編寫數據挖掘代碼的視頻等。
在教學實踐中,本課程在參考這些資料的基礎上,根據學生的需求,不但在理論上系統(tǒng)講解多個數據挖掘模型,而且安排上機實驗,講解其R或者Python代碼。在理論教學部分,要求學生掌握模型的原理、步驟和算例等;在實踐教學部分,要求他們熟悉程序的界面和代碼的結構等。學好理論能夠加深對實驗結果的理性認識,做好實驗則能夠增加對理論的感性體驗,因此,二者能夠相互促進,共同提升課程的教學效果。相較于實踐教學,在理論教學中學生需要更多的思考時間,因此,本課程按照2∶1的比例分配48個課時,理論教學共32個課時,實驗教學共16個課時。
在理論教學部分,本課程主要講解分類、聚類、推薦和關聯(lián)等四種數據挖掘模型。在分類模型部分,本課程依次講解分類預測框架、決策樹模型、最近鄰模型、貝葉斯模型、人工神經網絡模型、支持向量機模型,以及隨機森林、Adaboost等集成分類模型。這些模型難度較大,通常安排2個課時講解1個模型,有些模型如人工神經網絡模型甚至需要4個課時。在聚類模型部分,本課程依次講解K均值聚類、凝聚層次聚類、DBSCAN模型、EM算法等。這些模型難度較小,通常安排1個課時講解1個模型。在推薦模型部分,本課程主要講解PageRank算法等。在關聯(lián)模型部分,本課程主要講解Apriori算法等。
在實踐教學部分,本課程要求學生掌握數據挖掘模型常用的模塊或者函數,熟悉模型的代碼結構,能夠解決調試代碼時遇到的問題。學生在接觸“數據挖掘”課程前,普遍接觸過R和Python;因此,本課程在實現(xiàn)數據挖掘模型時,選擇R和Rstudio等R系列軟件,或Anaconda和Pycharm等Python系列軟件。在教學過程中,本課程基本上每個課時練習1個模型。部分代碼較長的模型,如人工神經網絡模型等,本課程將用2個課時帶領學生開展數據實驗。
在教學活動中,本課程充分利用網絡資源,在理論教學時,教學設計、課前課后和課堂教學等環(huán)節(jié)都會使用網絡資源;在實驗教學時,軟件環(huán)境、實驗數據和模型代碼等方面也會運用網絡資源。本課程還會根據教學評價結果調整混合式教學方法等,后文將詳細討論這些內容。
另外,本課程還注重銜接學科競賽和碩士教育等。大三學生普遍參加全國大學生市場調查與分析大賽、全國大學生統(tǒng)計建模大賽等賽事。本課程講述的模型能完善學生的知識體系,例如分類模型的因變量為二元變量或離散變量,回歸模型的因變量是連續(xù)變量,二者互為補充,能夠豐富學生的方法庫,幫助他們解決難度較大的競賽問題。此外,本課程有助于提升大三學生的專業(yè)技術能力,幫助學生本科畢業(yè)后繼續(xù)攻讀碩士學位。
二、理論教學與網絡資源
在設計教學活動時,應當從網絡資源中汲取營養(yǎng)。數據挖掘的經典書籍較多,即使選擇其中一本作為教材,在講解某個模型時,也可以借鑒其他圖書或者知乎、CSDN等網站介紹的方法。在備課時,應該根據教材編寫PPT,挖掘教學的重點和難點等。有些主講教師在網絡上分享了他們制作的PPT,其他教師就能以這些資源為素材設計自己的教學活動;一些網絡視頻完整地記錄了某些教師的教學過程,其他教師在備課時,就能借鑒他們講解知識點的教學方法、教學進度和教學案例等。
網絡資源在課堂教學前后都發(fā)揮著重要作用。我校開發(fā)的多模式教學平臺能夠發(fā)布課件資料、課程作業(yè)、學習討論等。課前,學生可以預習即將講授的課件,觀看教師推薦的網絡視頻;課后,學生運用學到的知識解答習題,遇到不會的題目可以通過微信聯(lián)系教師,得到及時的指導。但是,學生課下學習的積極性總不如課上,課前預習的學生大約只是選修學生的一半左右。有些學生沒有選修這門課程,卻需要應用數據挖掘模型撰寫畢業(yè)論文或者完成“大創(chuàng)項目”和“實培項目”,在這種情況下就只能完全依賴網絡視頻自學相關內容。
當代課堂教學需要運用網絡資源。學生期望在課堂上學會主要的知識點,同時教師也在精心準備課堂教學的重點內容和講解方法等,因此,課堂教學一直是教學活動的核心陣地和關鍵環(huán)節(jié)。傳統(tǒng)教學強調教師獨立、清楚地講述知識點的能力,當代教學則提出了一些更高的要求:一是落實立德樹人根本任務,守好一段渠、種好責任田,挖掘課程中的思想政治元素;二是組織PPT、網頁、視頻等各種素材,清晰地描述數據挖掘模型的工作原理;三是設計教學案例和課堂測驗等,引導學生積極投入課堂學習,在思考、探索、練習中掌握數據挖掘模型的建模方法等。
以人工神經網絡模型的課堂教學為例,本課程選取海康威視公司作為思想政治案例。??低暪驹洬@得ImageNet大規(guī)模視覺識別競賽冠軍,卻被美國商務部列入實體清單,供應鏈安全受到嚴重威脅。視覺識別經常采用卷積神經網絡模型,而它的基礎是人工神經網絡模型。借此案例激勵學生好好學習,勇于創(chuàng)新,將來突破美國對我國的科技封鎖。在講解模型的原理時,本課程從最簡單的感知器模型開始,說明激活函數的作用和參數的學習方法等;然后介紹含有一個隱藏層的神經網絡模型,說明怎樣確定輸入層、隱藏層和輸出層的節(jié)點數目等;最后結合李宏毅的機器學習網絡教學視頻,說明在多層全連接神經網絡里,怎樣運用后向傳播算法求解模型的參數等。為了讓學生掌握這個模型,本課程設置一系列問題,讓學生運用前向傳播算法計算各個節(jié)點的輸出結果等。
三、實驗教學與網絡資源
實驗教學需要學生熟悉計算機的硬件性能、配置軟件環(huán)境、實驗數據庫和編寫模型的代碼等。這些都與網絡資源存在千絲萬縷的聯(lián)系。
軟件環(huán)境與網絡資源。本課程選擇開源軟件R和Python實現(xiàn)數據挖掘模型。R軟件的安裝程序來自https://www.r-project.org/。在調試數據挖掘模型的代碼時,可以運用命令install.packages從網絡上下載和安裝需要的包。編輯Python程序時,經常采用Anaconda或Pycharm軟件,這兩款軟件都能夠從網絡上找到安裝程序。Anaconda的Spyder環(huán)境模仿Matlab的界面;Jupyter Notebook環(huán)境在瀏覽器界面編輯,每次只運行一個cell里的程序。它們都預裝了numpy、pandas和sklearn等數據挖掘模型的常用包。
實驗數據與網絡資源。本課程的實驗數據主要來自三個方面:第一,R或者Python程序自帶的數據庫,例如鳶尾花數據、乳腺癌數據等;第二,政府、公司和大學維護的數據庫,例如統(tǒng)計局的經濟數據、亞馬遜公司的公開數據集和加州大學歐文分校的機器學習數據庫等;第三,一些科技公司舉辦的數據挖掘競賽,例如阿里云平臺、百度飛槳AIStudio和華為云平臺的競賽數據集等。
模型代碼與網絡資源。本課程主要講解比較經典的數據挖掘模型。前文提到的《R語言與數據挖掘》和《Python與數據挖掘》等經典書籍提供這些模型的R或Python程序代碼。在百度網站搜索也能找到一些模型的R或者Python程序代碼。因為解決問題的思路不同,所以這些代碼的寫法存在較大差異,但是它們的結構是類似的。例如R代碼通常包括三步:一是導入數據;二是導入包,運用函數完成數據挖掘任務;三是輸出模型的結果。Python代碼則將導入包或函數放在第一步,然后才導入數據,運用函數或者編寫代碼完成數據挖掘任務,最后輸出模型的結果。
教學經驗。采用網絡資源提供的數據和代碼后,實驗教學的重點是數據挖掘模型的函數名稱。有些函數名稱較短,學生很容易掌握,例如決策樹模型的R程序函數tree,支持向量機模型的Python程序函數svm。有些函數名稱較長,需要學生結合英文含義記憶,例如凝聚層次聚類模型的Python函數Agglomerative-Clustering。
實驗教學的難點是怎樣導入數據和安裝需要的包。代碼案例的數據位置一般不同于學生存放的位置,這就需要他們能夠運用命令讀入存放在Excel等的數據,例如R程序命令read.csv和Python程序命令pandas.read_excel等。安裝包時,運用R命令install.packages或者Python命令pip install等。學生會遇到下載包時由于時間較長而自動終止,安裝包時由于和硬件沖突而無法進行等問題。為了解決這些問題,本課程提前在學校的多模式教學平臺上傳比較大的包,并且鼓勵學生攜帶個人電腦,教給他們從電腦安裝包的方法。
四、教學評價
教學評價的對象是教師的教學過程和學生的學習效果。評價前者時,不但會邀請專家進課堂點評教學活動,而且會調查學生對教師的教學組織能力評價等;評價后者時,既包括教師發(fā)起的課堂測驗、課后作業(yè)和期末考試等量化評價,也包括學生在學習時的感性體驗和能力提升等。
本課程重視過程評價,將平時成績比例上調至50%,并且經常運用網絡技術搜集評價結果。要求學生平時按時上課聽講,完成較多的學習任務,例如每次實驗課都要提交一份實驗報告,說明數據挖掘模型的代碼調試過程和結果。教師會設計一些小測驗,以選擇題的形式發(fā)布在問卷星上。學生投票后,軟件能夠做些簡單的統(tǒng)計分析,幫助教師了解學生對知識的掌握程度。教師還可以在多模式教學平臺發(fā)布一些作業(yè),學生完成后在平臺提交。
本課程在教學時注重傾聽學生的自我評價。學生在理論課中熟悉了經典的數據挖掘模型,逐漸掌握了它們的原理,并且能夠做些簡單的運算;在實驗課中看到了模型的效果,即使程序報錯,學生也能夠冷靜地分析錯誤的源頭,并通過向教師請教或者上網搜索,找到問題的解決方案。這種方式會極大地增強學生的自信心,讓他們收獲巨大的成就感,同時也讓冰冷的模型在他們心中變得鮮活起來。
參考文獻
[1]孫瑞娜.基于網絡教學平臺的“混合式”教學模式研究——以數據挖掘課程為例[J].教育現(xiàn)代化,2020,7(6):71-73.
[2]柯佳,陳瀟君.基于信息管理與信息系統(tǒng)的“數據挖掘技術”課程混合式教學模式研究[J].江蘇科技信息,2021,38(8):72-75.
[3]郗朋,孫春峰,王家盛,等.基于在線課程開展工程制圖及CAD課程的混合式教學[J].大學教學,2021(3):84-87.
[4]卞金金,徐福蔭.基于智慧課堂的學習模式設計與效果研究[J].中國電化教育,2016(2):64-68.
[5]毛群英.智慧課堂教學模式設計研究[J].教學與管理,2021(3):96-99.
The Teaching Exploration of Using Network Resources in Data Mining Course
GAO Bo
(College of Science, North China University of Technology, Beijing 100144, China)
Abstract: Driven by information technology, many colleges and universities are building online teaching platforms, and there are also teaching videos of many courses on websites such as Chinese University MOOC. This paper explores the course of Data Mining by using network resources, and reasonably allocates the class hours of theoretical teaching and experimental teaching according to the characteristics of this course. In theoretical teaching, this paper discusses how network resources affect lesson preparation and teaching, and introduces how to apply network resources in classroom teaching by taking artificial neural network model as an example. In addition, this paper discusses the methods of using network resources in practical teaching from the aspects of software environment, experimental data and model code. According to the teaching evaluation results, we may improve the organization method of mixed teaching and improve the teaching effect of Data Mining.
Key words: Data Mining; theory teaching; experiment teaching; network resource
1441501186221