魏燚偉
(中國(guó)石油大學(xué)(北京)克拉瑪依校區(qū),新疆 克拉瑪依 834000)
在大數(shù)據(jù)時(shí)代的背景下,數(shù)據(jù)挖掘技術(shù)引起了信息產(chǎn)業(yè)界的極大關(guān)注,其主要原因是存在大量可廣泛使用的數(shù)據(jù),并且迫切需要從這些數(shù)據(jù)中獲取有用的信息和知識(shí)。為了使高校畢業(yè)生能夠滿足信息產(chǎn)業(yè)界的需要,數(shù)據(jù)挖掘課程已逐漸成為計(jì)算機(jī)專業(yè)培養(yǎng)方案中的專業(yè)選修課之一。數(shù)據(jù)挖掘作為一門兼具理論性和實(shí)踐性的課程,對(duì)于提高計(jì)算機(jī)專業(yè)學(xué)生編程實(shí)踐能力和理論創(chuàng)新能力都能起到積極作用。同時(shí),如何在授課過(guò)程中充分的考慮理論與實(shí)踐的結(jié)合是數(shù)據(jù)挖掘課程的難點(diǎn)問題,也是目前課程授課面臨的關(guān)鍵和核心問題。
數(shù)據(jù)挖掘課程的核心教學(xué)理念是使學(xué)生能夠掌握數(shù)據(jù)挖掘的基本概念和經(jīng)典算法。在學(xué)習(xí)本課程后,學(xué)生能依據(jù)具體算法實(shí)現(xiàn)簡(jiǎn)單的數(shù)據(jù)挖掘?qū)嵗幊獭D壳?,課程的教學(xué)模式主要以線下授課為基礎(chǔ),同時(shí)結(jié)合學(xué)生自主練習(xí),但這種授課模式在理論教學(xué)和實(shí)踐教學(xué)上均存在著不足之處。
數(shù)據(jù)挖掘涉及多方面的基礎(chǔ)理論學(xué)科和應(yīng)用性強(qiáng)的技術(shù)領(lǐng)域,其核心算法包括神經(jīng)網(wǎng)絡(luò)法、決策樹法、遺傳算法、粗糙集法、模糊集法、關(guān)聯(lián)規(guī)則法等。而數(shù)據(jù)挖掘課程作為計(jì)算機(jī)專業(yè)的一門專業(yè)選修課,能夠分配給任課教師的學(xué)時(shí)量只能滿足基本教學(xué)要求。課時(shí)量的不充足會(huì)導(dǎo)致兩個(gè)問題:(1)授課內(nèi)容無(wú)法完全覆蓋數(shù)據(jù)挖掘核心算法(2)算法的授課深度無(wú)法滿足信息產(chǎn)業(yè)界的需要。
目前課程的授課模式往往使用大量的學(xué)時(shí)去講授數(shù)據(jù)挖掘的基礎(chǔ)算法,實(shí)踐教學(xué)方面主要是使學(xué)生通過(guò)上機(jī)完成某一算法的編程實(shí)驗(yàn)。這一教學(xué)模式側(cè)重于以理論教學(xué)為主,實(shí)踐教學(xué)主要依賴于學(xué)生自身的學(xué)習(xí)能力和編程能力[1]。而對(duì)于不同學(xué)習(xí)能力和編程能力的人而言,簡(jiǎn)單地上機(jī)實(shí)驗(yàn)往往很難達(dá)到理想的效果,使得學(xué)生在利用數(shù)據(jù)挖掘算法解決實(shí)際問題時(shí)捉襟見肘,這也與產(chǎn)業(yè)界的需要背道而馳。
數(shù)據(jù)挖掘的線下教學(xué)都是按照固定的流程進(jìn)行授課[2],首先講解算法的思路,然后利用編程語(yǔ)言實(shí)現(xiàn)具體算法。而這樣的教學(xué)過(guò)程過(guò)于僵化,單一的算法分析和實(shí)踐無(wú)法使學(xué)生充分理解算法的核心思路。通過(guò)多種算法的對(duì)比來(lái)進(jìn)行授課才能幫助學(xué)生理解數(shù)據(jù)挖掘算法的精髓。例如,對(duì)于數(shù)據(jù)挖掘中的經(jīng)典糖尿病數(shù)據(jù)集,我們不僅可以利用概率模型進(jìn)行疾病分析,同時(shí)還可以利用非概率模型進(jìn)行分析,這樣就可以形成對(duì)概率模型和非概率模型的比較。受到課時(shí)量和教學(xué)大綱的限制,線下教學(xué)很難實(shí)現(xiàn)這樣的對(duì)比授課過(guò)程。
針對(duì)上述線下教學(xué)模式在數(shù)據(jù)挖掘課程開展過(guò)程中出現(xiàn)的問題,嘗試線上教學(xué)與線下課堂教學(xué)相結(jié)合的混合教學(xué)模式。傳統(tǒng)的線上線下混合教學(xué)模式只是將部分線下課程搬移到線上進(jìn)行授課,而沒有對(duì)線上授課內(nèi)容和線下授課內(nèi)容進(jìn)行區(qū)分[3]。這種模式對(duì)于理實(shí)結(jié)合較弱的課程能夠取的良好的效果。但是,數(shù)據(jù)挖掘課程是一門理論性和實(shí)踐性都很強(qiáng)的課程,簡(jiǎn)單的將部分授課內(nèi)容搬移到線上,無(wú)法從根本上解決數(shù)據(jù)挖掘課程所面臨的的問題。分析線上和線下授課的特點(diǎn)可以發(fā)現(xiàn),線下授課的特點(diǎn)在于學(xué)生能夠及時(shí)的和老師進(jìn)行互動(dòng)[4],而線上授課的特點(diǎn)是內(nèi)容的可回溯性強(qiáng)。針對(duì)兩者不同的特點(diǎn),可以分別結(jié)合不同的授課內(nèi)容進(jìn)行授課。例如,對(duì)于互動(dòng)性強(qiáng)的線下授課可以只講授課程的理論內(nèi)容,而對(duì)于可回溯性強(qiáng)的線上授課可以只講授課程的實(shí)踐內(nèi)容。采用這種“線上+線下”和“理論+實(shí)踐”的二維混合式教學(xué)方法能夠?qū)?shù)據(jù)挖掘課程教學(xué)起到積極的作用。
計(jì)算機(jī)專業(yè)數(shù)據(jù)挖掘課程在線下教學(xué)模式中,為”每周兩次線下教學(xué),共八周三十二學(xué)時(shí)”。其中包括以教師講授為主的“理論講解”,以及以學(xué)生實(shí)踐練習(xí)為主的“上機(jī)實(shí)踐”。而三十二學(xué)時(shí)的授課時(shí)間很難同時(shí)兼顧理論和實(shí)踐的學(xué)習(xí)。因此,理論式線下教學(xué)方法的核心思想是在三十二學(xué)時(shí)的線下授課過(guò)程中只講授課程的理論內(nèi)容,教師只需要考慮如何高效的完成理論教學(xué)。針對(duì)數(shù)據(jù)挖掘課程教學(xué)中理論創(chuàng)新意識(shí)缺乏的問題,理論式線下教學(xué)過(guò)程中可以嘗試通過(guò)以下三個(gè)方面進(jìn)行改善。
區(qū)分課程算法種類, 數(shù)據(jù)挖掘算法的本質(zhì)內(nèi)容都是基于數(shù)學(xué)原理展開的,其中可能會(huì)用到高等數(shù)學(xué),線性代數(shù)以及概率論等。因此,如何使學(xué)生能夠理解算法中隱藏的數(shù)學(xué)原理是至關(guān)重要的。教師可以人為的將數(shù)據(jù)挖掘算法歸納為不同的種類進(jìn)行授課。例如,數(shù)據(jù)挖掘核心算法可以分為概率模型和非概率模型[5],教師可以首先完成所有基于概率模型的算法授課,然后再完成基于非概率模型的算法授課,最后再對(duì)概率模型和非概率模型做一個(gè)整體的比較。這樣可以幫助學(xué)生深入的理解數(shù)據(jù)挖掘算法中對(duì)應(yīng)的數(shù)學(xué)原理,同時(shí)也能夠培養(yǎng)學(xué)生的理論創(chuàng)新能力。
區(qū)分教學(xué)內(nèi)容難易度,將數(shù)據(jù)挖掘中的算法劃分成基礎(chǔ)算法和進(jìn)階算法。根據(jù)教學(xué)班學(xué)生的整體情況,選擇合適算法進(jìn)行授課。同時(shí),授課過(guò)程中的核心思路還是以講解基礎(chǔ)算法的原理為主,并有意識(shí)的讓學(xué)生接觸一些更加前沿的進(jìn)階算法。例如,教師首先要講解一些簡(jiǎn)單的分類算法,包括但不限于K近鄰算法、決策樹算法、樸素貝葉斯算法和SVM算法等。在學(xué)生能夠掌握這些基礎(chǔ)算法后,可以再給學(xué)生延伸一些進(jìn)階算法,包括EM算法、隱馬爾科夫模型和條件隨機(jī)場(chǎng)等。
建立科教統(tǒng)一的教學(xué)方式,目前,KDD、ACM等信息科學(xué)領(lǐng)域的頂尖國(guó)際會(huì)議都將數(shù)據(jù)挖掘作為重要的內(nèi)容展開研討。由此可見,數(shù)據(jù)挖掘課程是一個(gè)需要培養(yǎng)學(xué)生理論創(chuàng)新能力的課程。為了培養(yǎng)學(xué)生的創(chuàng)新能力,教師不能只單單的講解數(shù)據(jù)挖掘的基礎(chǔ)算法,而是需要引導(dǎo)學(xué)生從思路上對(duì)基礎(chǔ)算法進(jìn)行拓展。例如,對(duì)于無(wú)監(jiān)督學(xué)習(xí)中的聚類算法,教師可以在平時(shí)作業(yè)中讓學(xué)生思考如何實(shí)現(xiàn)小樣本集的聚類過(guò)程。同時(shí),教師還可以引導(dǎo)學(xué)生進(jìn)行數(shù)據(jù)挖掘的文獻(xiàn)調(diào)研,讓每個(gè)學(xué)生選擇自己感興趣的方向撰寫調(diào)研報(bào)告,這樣也可以培養(yǎng)學(xué)生的科研興趣,并為以后的科研工作打下基礎(chǔ)。
實(shí)踐式線上教學(xué)方法的核心思想是將所有的編程實(shí)驗(yàn)課均放到線上進(jìn)行授課,教師將錄制好的實(shí)驗(yàn)案例發(fā)布到在線課堂上,學(xué)生通過(guò)在線課堂進(jìn)行學(xué)習(xí)并提交實(shí)踐作業(yè)。這種授課模式主要包含以下幾個(gè)優(yōu)點(diǎn):
所有錄制的實(shí)驗(yàn)案例均存儲(chǔ)在在線課堂,學(xué)生可以通過(guò)注冊(cè)賬號(hào)并加入教師開設(shè)的課堂隨時(shí)瀏覽自己想要實(shí)現(xiàn)的案例,這樣能大大的降低學(xué)生在復(fù)現(xiàn)案例過(guò)程中出現(xiàn)問題而無(wú)法解決的情況。
學(xué)生可以通過(guò)瀏覽不同案例的視頻對(duì)不同的算法進(jìn)行橫向比較,從而更加深入的理解算法的原理,而這在線下課堂是無(wú)法實(shí)現(xiàn)的。
學(xué)習(xí)和實(shí)踐能力強(qiáng)的學(xué)生可以把自己實(shí)現(xiàn)案例的方法和視頻中教師實(shí)現(xiàn)的方法進(jìn)行比較分析,并在線下跟教師進(jìn)行討論。這樣既能提高學(xué)生學(xué)習(xí)知識(shí)的興趣,又能培養(yǎng)學(xué)生潛在的科學(xué)素養(yǎng)。
除了以上的優(yōu)點(diǎn)之外,實(shí)踐式線上教學(xué)還需要解決以下幾個(gè)問題。
在任何計(jì)算機(jī)專業(yè)的課程教學(xué)中,案例的作用都尤為重要,數(shù)據(jù)挖掘課程更是如此。因此,如何能夠收集充足且準(zhǔn)確的案例供學(xué)生在線學(xué)習(xí)是實(shí)踐式線上教學(xué)必須要考慮的問題。從目前的教學(xué)經(jīng)驗(yàn)來(lái)看,教師很難對(duì)所有數(shù)據(jù)挖掘核心算法進(jìn)行新案例的收集。因此,教師在案例編寫過(guò)程中需要參考經(jīng)典的數(shù)據(jù)挖掘?qū)嵺`案例。目前,國(guó)內(nèi)外已經(jīng)存在很多經(jīng)典數(shù)據(jù)挖掘案例參考書,教師可以根據(jù)所帶班級(jí)學(xué)生情況自主選擇適合的書籍進(jìn)行案例編寫。除了參考經(jīng)典案例之外,教師還需要根據(jù)當(dāng)前社會(huì)熱點(diǎn)問題進(jìn)行新案例的編寫。例如,教師可以針對(duì)新冠疫情進(jìn)行數(shù)據(jù)收集,并將收集到的數(shù)據(jù)和某個(gè)數(shù)據(jù)挖掘算法進(jìn)行結(jié)合來(lái)制作相應(yīng)的案例。通過(guò)融入新的案例,能夠幫助學(xué)生了解目前數(shù)據(jù)分析的發(fā)展趨勢(shì),同時(shí)也可以提高學(xué)生的學(xué)習(xí)興趣。
教師在錄制案例的過(guò)程中,無(wú)法及時(shí)獲取學(xué)生的反饋,因此,如何保證錄制案例的有效性是一個(gè)必須考慮的問題。對(duì)于錄制內(nèi)容方面,教師可以在錄制前先自行擬定好錄制手稿,并進(jìn)行多次校對(duì),以保證錄制案例的準(zhǔn)確。同時(shí),教師還可以將錄制好的案例分別讓不同層次的學(xué)生進(jìn)行觀看,獲得學(xué)生們的意見反饋,并針對(duì)意見進(jìn)行視頻內(nèi)容的調(diào)整以保證錄制的案例能滿足絕大多數(shù)學(xué)生的需求。對(duì)于錄制效果方面,教師可以借鑒MOOC網(wǎng)在線教學(xué)視頻的錄制方式以及錄制手法,通過(guò)學(xué)習(xí)MOOC視頻并結(jié)合自身的錄制條件來(lái)調(diào)整案例的錄制過(guò)程。
針對(duì)每個(gè)在線案例,學(xué)生都需要復(fù)現(xiàn)案例流程,并提交源代碼作為日常作業(yè)的一部分。但這也面臨一個(gè)問題,部分學(xué)生直接摘抄在線案例中教師實(shí)現(xiàn)的案例代碼而沒有經(jīng)過(guò)自己的思考。為了保證多數(shù)學(xué)生都經(jīng)過(guò)獨(dú)立思考完成案例復(fù)現(xiàn),規(guī)定學(xué)生在復(fù)現(xiàn)案例過(guò)程中必須對(duì)算法核心代碼加入自己理解的注釋。同時(shí),任課教師需在線下隨機(jī)抽取學(xué)生對(duì)自己復(fù)現(xiàn)的案例進(jìn)行口頭解釋。
本課程采用“平時(shí)案例作業(yè)+期末報(bào)告”的評(píng)價(jià)體系,平時(shí)案例作業(yè)和期末報(bào)告評(píng)價(jià)并重,按照各50%的占比得出總評(píng)分。這里要著重說(shuō)明,數(shù)據(jù)挖掘課程的期末考核沒有采用傳統(tǒng)的閉卷考核方式,主要考慮到閉卷考核無(wú)法突出數(shù)據(jù)挖掘課程中實(shí)踐的重要性,最終很可能會(huì)出現(xiàn)學(xué)生為了應(yīng)付考試而盲目背概念的情況。同時(shí),為了保證學(xué)生理解和掌握算法的理論知識(shí),期末報(bào)告中會(huì)讓學(xué)生首先分析題目中所用算法的核心原理,然后再完成案例的代碼編寫,最后還要求學(xué)生寫出題目中算法可能的改進(jìn)思路。例如,期末報(bào)告題目為“基于支持向量機(jī)的乳腺癌疾病分類”,學(xué)生首先要用自己的理解去描述支持向量機(jī)的原理,包括線性支持向量機(jī)、非線性支持向量機(jī)和核函數(shù)等,然后學(xué)生需要根據(jù)乳腺癌數(shù)據(jù)集完成案例的代碼編寫,在這個(gè)過(guò)程中學(xué)生還需完成核函數(shù)的選擇以及測(cè)試結(jié)果的驗(yàn)證分析等,最后學(xué)生還需要通過(guò)對(duì)支持向量機(jī)的理解回答支持向量機(jī)在樣本種類數(shù)量存在較大偏差時(shí)應(yīng)如何改進(jìn)算法。通過(guò)這種“梳理算法+完成案例+總結(jié)改進(jìn)”的報(bào)告考核方式驗(yàn)證學(xué)生的應(yīng)用實(shí)踐能力和理論創(chuàng)新能力在本輪的二維混合式教學(xué)過(guò)程中是否得到提升。
目前,數(shù)據(jù)挖掘技術(shù)已經(jīng)在社會(huì)經(jīng)濟(jì)文化發(fā)展中起到了非常重要的作用。隨著大數(shù)據(jù)技術(shù)的不斷迭代更新,數(shù)據(jù)的體量以及數(shù)據(jù)的形式都在產(chǎn)生日新月異的變化。因此,數(shù)據(jù)挖掘技術(shù)也會(huì)隨著大數(shù)據(jù)技術(shù)的更迭而不斷的更新,社會(huì)各領(lǐng)域的大量應(yīng)用使得對(duì)數(shù)據(jù)挖掘這門課程的實(shí)踐應(yīng)用能力要求越來(lái)越高,同時(shí)需要學(xué)生具有良好的理論創(chuàng)新能力,而傳統(tǒng)的線下教學(xué)模式普遍存在重理論輕實(shí)踐的問題?;诖?,我們提出了“線上+線下”和“理論+實(shí)踐”的二維混合式教學(xué)設(shè)計(jì)方案,并將其應(yīng)用到實(shí)際課程的教學(xué)當(dāng)中。該教學(xué)方案以線下理論式教學(xué)為基礎(chǔ),結(jié)合線上實(shí)踐式教學(xué)為補(bǔ)充,從而達(dá)到在培養(yǎng)學(xué)生工程實(shí)踐能力的同時(shí),提高其思維創(chuàng)新能力。