楊書新 王振東 蔡虔 薛正發(fā) 夏小云
摘?要:針對如何將科研能力培養(yǎng)融入“機(jī)器學(xué)習(xí)”課程教學(xué)的問題,提出從教學(xué)內(nèi)容、教學(xué)方法、過程考核等三方面進(jìn)行改革。基于模型目標(biāo)函數(shù)優(yōu)化、模型適用場景分析兩條主線,給出了教學(xué)內(nèi)容改革的具體方法。以學(xué)術(shù)論文寫作思路為引導(dǎo),給出了創(chuàng)新教學(xué)方法和考核的具體思路。改革有利于促進(jìn)學(xué)生掌握科學(xué)研究的思維方法,提升學(xué)生的知識應(yīng)用能力。
關(guān)鍵詞:科研能力;機(jī)器學(xué)習(xí);教學(xué)改革
人工智能學(xué)科自1956年確立以來,機(jī)器學(xué)習(xí)在人工智能發(fā)展的第三時期“學(xué)習(xí)期”得到了重大發(fā)展[1]。機(jī)器學(xué)習(xí)主要是研究如何利用數(shù)據(jù)進(jìn)行智能學(xué)習(xí)算法,是人工智能的核心,很多高校計算機(jī)學(xué)科點(diǎn)的人才培養(yǎng)課程體系都開設(shè)了“機(jī)器學(xué)習(xí)”課程。由于該門課程涉及的學(xué)科知識廣、理論性強(qiáng)、應(yīng)用性強(qiáng)的特點(diǎn),對教學(xué)提出了較大的挑戰(zhàn)。
在學(xué)生的培養(yǎng)過程中,基于工作室模式的實(shí)踐平臺是培養(yǎng)學(xué)生創(chuàng)新能力的有效途徑[2]。除此之外,課程教學(xué)是培養(yǎng)科研能力的一條重要途徑[3]。在課程教學(xué)中,教師應(yīng)注重引導(dǎo)學(xué)生發(fā)現(xiàn)、分析和解決問題[45]。因此,研究“機(jī)器學(xué)習(xí)”課程教學(xué)如何在學(xué)時不變的前提下提升學(xué)生的科研能力是值得探索的一個問題。
一、教學(xué)現(xiàn)狀
在實(shí)際教學(xué)過程中,“機(jī)器學(xué)習(xí)”課程教學(xué)存在以下問題。
(一)理論和實(shí)踐分離
現(xiàn)有的《機(jī)器學(xué)習(xí)》書籍主要分為兩種類型,一種是主要講一些理論,進(jìn)一步細(xì)分為概念和分類模型的理論推導(dǎo)兩個子類,另一種是基于某種編程語言的分類模型代碼實(shí)現(xiàn)。授課教師在教學(xué)過程中只強(qiáng)調(diào)理論或?qū)嵺`。如果單純地講理論,學(xué)生面臨的是數(shù)學(xué)公式和推導(dǎo),學(xué)生感覺到學(xué)習(xí)困難,且實(shí)際問題解決能力得不到鍛煉。如果簡單地講實(shí)現(xiàn)代碼,學(xué)習(xí)深度不夠,知其然不知其所以然,讓學(xué)生感覺就是機(jī)器學(xué)習(xí)就是調(diào)參,兩者都會讓學(xué)生感到枯燥,學(xué)習(xí)的積極性不高。
(二)教學(xué)方法傳統(tǒng)
教學(xué)上缺乏師生互動,以教師“講”為主,主要羅列書中的知識點(diǎn)[6]。研究生都有自己的研究方向,“以教師為中心”的教學(xué)方式使得學(xué)生查閱資料的主動性不足,對機(jī)器學(xué)習(xí)技術(shù)在自己方向的應(yīng)用情況及技術(shù)前沿不了解。
(三)實(shí)踐內(nèi)容不夠深入
常見的機(jī)器學(xué)習(xí)方法的實(shí)現(xiàn)代碼比較成熟,基于java、python、matlab等語言的實(shí)現(xiàn)代碼都有開源的,甚至有把方法實(shí)現(xiàn)代碼封裝成工具包的機(jī)器學(xué)習(xí)庫,如Scikitlearn[7]、Torch[8]、TensorFlow[9],這給實(shí)踐入門提供了快速方便之道,但實(shí)驗(yàn)的設(shè)計多局限于書本的內(nèi)容,實(shí)驗(yàn)工作主要是驗(yàn)證和簡單的參數(shù)調(diào)整,對應(yīng)用的適用性和優(yōu)化分析不夠深入,如稀疏大數(shù)據(jù)和邊界數(shù)據(jù)的適用性、優(yōu)化參數(shù)和數(shù)據(jù)特征的關(guān)聯(lián)。
二、以科研能力培養(yǎng)為導(dǎo)向的改革
對于學(xué)生來說,研究方法、邏輯思維能力、書面寫作能力、創(chuàng)新思維都是科研能力的重要內(nèi)容[1011]。對于課程來說,這些能力的培養(yǎng)與教學(xué)方法、教學(xué)內(nèi)容、過程考核息息相關(guān)。因此,本文的教學(xué)改革思路是從創(chuàng)新教學(xué)方法、優(yōu)化教學(xué)內(nèi)容、加強(qiáng)過程化考核三方面探索,激發(fā)同學(xué)們的學(xué)習(xí)興趣,培養(yǎng)學(xué)生的知識應(yīng)用能力和創(chuàng)新意識。
(一)優(yōu)化教學(xué)內(nèi)容:重視基礎(chǔ),突出實(shí)踐
機(jī)器學(xué)習(xí)算法的學(xué)習(xí)過程分為數(shù)據(jù)收集和預(yù)處理、選擇合適的分類模型并進(jìn)行訓(xùn)練、測試算法的有效性三步。在數(shù)據(jù)收集和預(yù)處理層面,雖然傳統(tǒng)的機(jī)器學(xué)習(xí)書籍和課程都有對數(shù)據(jù)預(yù)處理相關(guān)內(nèi)容的介紹,但在實(shí)際的教學(xué)過程中,為了方便模型的構(gòu)建和預(yù)測,示例代碼往往使用的是已經(jīng)預(yù)處理好的數(shù)據(jù)集,如sklearn庫中用于做回歸預(yù)測的波士頓房價預(yù)測數(shù)據(jù)集(boston),用于做分類預(yù)測的鳶尾花數(shù)據(jù)集(iris)等。這些數(shù)據(jù)集大多數(shù)沒有空值,特征與標(biāo)簽存在一定的相關(guān)性,因此在機(jī)器學(xué)習(xí)算法訓(xùn)練和預(yù)測時,能取得較高的精度。然而在實(shí)際的應(yīng)用場景下,數(shù)據(jù)往往是殘缺不全的,傳統(tǒng)的機(jī)器學(xué)習(xí)教學(xué)方法忽視了這一點(diǎn)。例如,醫(yī)院收集患者的隨訪信息時,患者可能會由于隱私等原因拒絕提供自身疾病的相關(guān)信息,從而造成數(shù)據(jù)的缺失。針對此類缺失數(shù)據(jù),具體的數(shù)據(jù)預(yù)處理方法有缺失值處理、離群值處理、標(biāo)準(zhǔn)化、離散化和特征編碼等。數(shù)據(jù)預(yù)處理是機(jī)器學(xué)習(xí)過程中很重要的一部分,模型預(yù)測精度的高低與數(shù)據(jù)的預(yù)處理的算法和方式有著很大的關(guān)聯(lián)。因此在機(jī)器學(xué)習(xí)的實(shí)戰(zhàn)課程中,需要設(shè)計一定數(shù)量的不完整數(shù)據(jù)來引導(dǎo)學(xué)生使用預(yù)處理算法對數(shù)據(jù)進(jìn)行處理,優(yōu)化模型的輸入。在分類模型層面,具體的分類模型有K近鄰、決策樹、支持向量機(jī)等,可歸為有監(jiān)督學(xué)習(xí)和無監(jiān)督學(xué)習(xí)兩大類[12]。其中線性回歸以最小化樣本預(yù)測值和實(shí)際值的均方誤差累積值為目標(biāo)函數(shù),基于偏導(dǎo)值為0的規(guī)則求解最優(yōu)參數(shù),對數(shù)概率回歸以對率回歸模型最大化為目標(biāo)函數(shù),根據(jù)梯度下降法或牛頓迭代法求最優(yōu)解。決策樹以信息增益或基尼指數(shù)等為目標(biāo)函數(shù),循環(huán)計算確定最優(yōu)分類屬性。類似于線性回歸目標(biāo)函數(shù),神經(jīng)網(wǎng)絡(luò)以最小化均方誤差為最小函數(shù),基于梯度下降法迭代尋找最優(yōu)參數(shù)。支持向量機(jī)以最大化異類支持向量到超平面的距離為目標(biāo)函數(shù),并受預(yù)測值和實(shí)際值相乘大于等于1的約束,采用拉格朗日乘子法求優(yōu),這些模型的共同點(diǎn)都是設(shè)計目標(biāo)函數(shù),然后求解。對于有約束的目標(biāo)函數(shù)最優(yōu)求解,運(yùn)用拉格朗日乘子法求解,對于無約束的目標(biāo)函數(shù)最優(yōu)求解,運(yùn)用梯度下降法、牛頓迭代法等方法。機(jī)器學(xué)習(xí)的算法涉及統(tǒng)計學(xué)、矩陣運(yùn)算、微積分、求導(dǎo)、程序設(shè)計等多學(xué)科知識,需要學(xué)生具有良好的數(shù)學(xué)基礎(chǔ)和編程能力。
綜合多本參考書,對教學(xué)內(nèi)容進(jìn)一步梳理,兼顧理論和實(shí)踐。在理論方面,精簡矩陣運(yùn)算、拉格朗日乘子法、梯度下降法等優(yōu)化方法的推理,對于KNN、決策樹、支持向量機(jī)等方法的講解,在介紹矩陣求導(dǎo)的基礎(chǔ)上,以目標(biāo)函數(shù)及優(yōu)化的設(shè)計、缺點(diǎn)和改進(jìn)為主線講解,培養(yǎng)學(xué)生的問題建模和分析能力,進(jìn)一步培養(yǎng)創(chuàng)新意識。在實(shí)踐方面,充分利用Scikitlearn機(jī)器學(xué)習(xí)庫、百度PaddlePaddle深度學(xué)習(xí)平臺等,設(shè)計基于百度Paddlepaddle、Scikitlearn等技術(shù)或基于預(yù)測思想實(shí)現(xiàn)代碼的實(shí)驗(yàn),以論文實(shí)驗(yàn)的思考方式要求學(xué)生寫調(diào)試分析報告,從數(shù)據(jù)不平衡、邊界數(shù)據(jù)、數(shù)據(jù)稀疏性、預(yù)測模型等角度去分析,提高學(xué)生的機(jī)器學(xué)習(xí)知識應(yīng)用能力和優(yōu)化分析能力。整體思路如圖1所示。為引導(dǎo)學(xué)生較快獲得成就感,課程教學(xué)改革的另一個關(guān)鍵點(diǎn)是實(shí)驗(yàn)的設(shè)計,包括應(yīng)用場景、開源機(jī)器學(xué)習(xí)庫的選擇以及基于學(xué)習(xí)算法原理的代碼實(shí)現(xiàn)。
(二)創(chuàng)新教學(xué)方法
教學(xué)方法以學(xué)術(shù)論文寫作思路引導(dǎo)為主。首先,采用問題驅(qū)動式的方式講解,講授預(yù)測模型以動機(jī)、研究方法、實(shí)驗(yàn)效果(特點(diǎn)分析)的論文模式講解,指出方法提出的背景和適用范圍,引導(dǎo)學(xué)生思考,培養(yǎng)創(chuàng)新研究思維和邏輯思維。圖2為支持向量機(jī)(Support?Vector?Machine,SVM)的教學(xué)方法策略示例。針對支持向量機(jī),首先介紹支持向量機(jī)模型的提出背景,引出目標(biāo)函數(shù),繼而講解其求解方法,給出偽代碼并分析。在理解支持向量機(jī)基本原理的基礎(chǔ)上,圍繞是否線性可分的應(yīng)用場景、約束不滿足該如何處理、松弛約束函數(shù)等問題,拋出動機(jī),繼而講解線性核、多項(xiàng)式核、高斯核等概念和相應(yīng)的問題解決方法。講解的邏輯主線是目標(biāo)函數(shù)和求解,創(chuàng)新主線是問題動機(jī)、如何解決。其次,鼓勵學(xué)生結(jié)合自己研究方向收集資料,跟蹤國內(nèi)外研究進(jìn)展,拓寬視野,在潛移默化中掌握基于學(xué)科前沿文獻(xiàn)閱讀的科學(xué)研究方法。在課堂運(yùn)用“問題式教學(xué)”“合作學(xué)習(xí)教學(xué)”等教學(xué)方法,以報告和討論的形式活躍課堂氣氛,增加不同研究方向?qū)W生之間和師生之間的交流,培養(yǎng)學(xué)生學(xué)術(shù)探討氛圍,增加學(xué)生的成就獲得感。最后,在教學(xué)過程中加入計算機(jī)科學(xué)家的勵志故事以及計算機(jī)科學(xué)前沿案例,從而激發(fā)學(xué)生學(xué)習(xí)的興趣和學(xué)習(xí)的積極性,在實(shí)踐中不斷創(chuàng)新。此外,進(jìn)一步融入課程思政內(nèi)容,實(shí)現(xiàn)專業(yè)知識點(diǎn)與德育教育的同頻共振,激發(fā)學(xué)生愛國熱情,形成課程思政合力教學(xué)效應(yīng)[13]。
(三)加強(qiáng)過程化考核
將考核融入教學(xué)過程,在平時的討論課中引入激勵機(jī)制,鼓勵學(xué)生獨(dú)立查閱和整理資料并分析,克服學(xué)生的惰性,讓更多的學(xué)生參與討論。最后的課程成績評定包括期末的閉卷成績(60%)、課堂大討論表現(xiàn)(20%)、實(shí)驗(yàn)分析(20%)等多個教學(xué)環(huán)節(jié)。
三、應(yīng)用情況
“實(shí)踐是檢驗(yàn)真理的唯一標(biāo)準(zhǔn)”,機(jī)器學(xué)習(xí)算法在金融、醫(yī)療、氣象等領(lǐng)域有著廣泛的應(yīng)用場景,具有很強(qiáng)的實(shí)踐意義。為了使學(xué)生更好地進(jìn)行實(shí)驗(yàn),課程以Python作為主要編程語言,設(shè)置了“SVM算法實(shí)現(xiàn)手寫數(shù)字識別”“隨機(jī)森林在基金風(fēng)險評級中的應(yīng)用”和“基因表達(dá)數(shù)據(jù)中的主成分分析”共3個實(shí)際應(yīng)用案例。這3個教學(xué)案例分別對應(yīng)于課本中支持向量機(jī)、集成學(xué)習(xí)和降維與度量學(xué)習(xí)3個重要教學(xué)章節(jié),其中包含了兩個有監(jiān)督學(xué)習(xí)算法和一個無監(jiān)督學(xué)習(xí)算法的應(yīng)用。在3個實(shí)際應(yīng)用案例之前還設(shè)置了一個前置小課程,主要使學(xué)生學(xué)會對不同類型的數(shù)據(jù)進(jìn)行預(yù)處理,以及實(shí)驗(yàn)環(huán)境的搭建,這樣為后續(xù)課程進(jìn)行了鋪墊,節(jié)約了時間。
正式案例課程包含兩個課時,每個案例結(jié)尾有與之相對應(yīng)的編程大作業(yè),要求學(xué)生能根據(jù)案例的分析和應(yīng)用過程,在新的實(shí)驗(yàn)數(shù)據(jù)上演示結(jié)果。同時,在實(shí)際教學(xué)過程中,還會對案例涉及的內(nèi)容進(jìn)行引申。例如,在隨機(jī)森林算法的應(yīng)用中,課程使用隨機(jī)森林的平均不純度的改變量來衡量金融數(shù)據(jù)特征的重要性,幫助學(xué)生理解機(jī)器學(xué)習(xí)實(shí)踐過程中不同應(yīng)用場景下特征的取舍,在涉及最佳建模參數(shù)選擇時,還會穿插一個決策樹的小應(yīng)用來對隨機(jī)森林算法進(jìn)行補(bǔ)充,很好地緩解了學(xué)生的理解難度,同時加深了學(xué)生對機(jī)器學(xué)習(xí)算法的理解。
目前課程的教學(xué)改革已實(shí)施兩年。通過調(diào)查,學(xué)生普遍反映對機(jī)器學(xué)習(xí)的原理有了更加全面和深刻的認(rèn)識,問題分析和解決能力得到提升,對于今后的研究有較大的幫助。
結(jié)語
機(jī)器學(xué)習(xí)是計算機(jī)應(yīng)用技術(shù)相關(guān)專業(yè)研究生的一門重要基礎(chǔ)課程。針對如何將科研能力培養(yǎng)融入課程教學(xué)中,本文結(jié)合工作實(shí)踐從教學(xué)內(nèi)容、實(shí)踐、過程考核等方面總結(jié)出若干建議,有助于機(jī)器學(xué)習(xí)知識的深入理解,促進(jìn)學(xué)生的創(chuàng)新研究思維和邏輯思維的進(jìn)一步提升,為后續(xù)自主開展研究工作和論文撰寫奠定良好基礎(chǔ)。
參考文獻(xiàn):
[1]周志華.機(jī)器學(xué)習(xí):發(fā)展與未來[J].中國計算機(jī)學(xué)會通訊,2017,13(1):4451.
[2]楊書新,王吉源,謝麗芳.地方高校二級學(xué)院創(chuàng)新創(chuàng)業(yè)教育實(shí)踐平臺的構(gòu)建與實(shí)踐——以江西理工大學(xué)為例[J].江西理工大學(xué)學(xué)報,2018,39(4):8488.
[3]姚利民,王燕妮.課程教學(xué)培養(yǎng)研究生科研能力之對策[J].黑龍江高教研究,2006,9:8991.
[4]章曉莉.基于科研能力培養(yǎng)的研究生課程教學(xué)改革的思考[J].教育探索,2010,7:3638.
[5]閆麗萍,陳倩,楊陽,等.面向科研能力培養(yǎng)的研究生理論課程教學(xué)改革[J].教育教學(xué)論壇,2020,29:146147.
[6]胡春龍,吳陳,左欣,等.研究生“機(jī)器學(xué)習(xí)”課程教學(xué)改革研究[J].教育教學(xué)論壇,2019,10:99100.
[7]黃永昌.scikitlearn機(jī)器學(xué)習(xí)常用算法原理及編程實(shí)戰(zhàn)[M].北京:機(jī)械工業(yè)出版社,2018.
[8]孫琳,蔣陽波,汪建成,等.PyTorch機(jī)器學(xué)習(xí)——從入門到實(shí)戰(zhàn)[M].北京:機(jī)械工業(yè)出版社,2018.
[9][美]尼山特·舒克拉,等.TensorFlow機(jī)器學(xué)習(xí)[M].北京:機(jī)械工業(yè)出版社,2020.
[10]孫偉剛,覃森.從導(dǎo)師視角來談研究生科研能力的培養(yǎng)[J].課程教育研究,2017,23:1718.
[11]曾冬梅,潘炳如.研究生協(xié)同培養(yǎng)對科研能力的影響[J].中國高校科技,2019,3:4548.
[12]應(yīng)行仁.什么是機(jī)器學(xué)習(xí)[J].中國計算機(jī)學(xué)會通訊,2017,13(4):4245.
[13]夏小云,李紹燕,朱蓉,等.新工科背景下計算機(jī)類課程思政教學(xué)研究與實(shí)踐[J].計算機(jī)教育,2020,8:7578.
課題項(xiàng)目:江西省學(xué)位與研究生教育教學(xué)改革研究項(xiàng)目JXYJG2019141;江西省高等學(xué)校教學(xué)改革研究課題(重點(diǎn))JXJG1978;浙江省普通本科高?!笆奈濉苯虒W(xué)改革項(xiàng)目(項(xiàng)目編號:jg20220434)
作者簡介:楊書新(1978—?),男,漢族,江西九江人,博士,副教授,研究方向:信息擴(kuò)散,文本分析;王振東(1982—?),男,漢族,湖北恩施人,博士,副教授,研究方向:無線傳感網(wǎng)覆蓋優(yōu)化、網(wǎng)絡(luò)入侵檢測;蔡虔(1980—?),男,漢族,江西贛州人,碩士,副教授,研究方向:人工智能與教育;薛正發(fā)(1996—?),男,漢族,江西贛州人,碩士研究生,研究方向:腫瘤信息學(xué);夏小云(1982—?),男,漢族,江西南昌人,博士,副教授,研究方向:群智能優(yōu)化。