康怡琳,汪 紅,田莎莎,任 愷
(中南民族大學 計算機科學學院,湖北 武漢 430074)
機器學習是一門多領域交叉學科,涉及理論基礎,包括高等數學、線性代數、概率論與統(tǒng)計學、數據庫、最優(yōu)化理論、復雜度理論等多門學科,它是人工智能的重要技術基礎,也是智能科學的核心。目前人工智能的4次浪潮都與機器學習的方法有關。因此,“機器學習”課程是人工智能專業(yè)和智能科學與技術專業(yè)學生必修的一門基礎課[1]。
民族院校在教育領域有著獨特的地位和特點,如何在民族院校中進行機器學習課程的教學與實踐改革,培養(yǎng)新時代人工智能人才具有重要的現(xiàn)實意義[2-4]。
傳統(tǒng)“機器學習”課程局限在介紹機器學習的主要經典算法原理與機制。由于其中大部分方法是基于復雜的數學模型,使學生望而生畏,反而對該門課程產生消極情緒。此外,傳統(tǒng)機器學習課程采用教師講授、學生聽課的方式進行。學生被動接受知識,很難對這門課程產生興趣和熱情。在新工科背景與教育部產學研項目的支持下,歷經八年的教學實踐,筆者摸索出一套課程的教學與實踐改革經驗。以社會需求與企業(yè)需求為導向,以交叉融合、共享、創(chuàng)新為主要途徑來培養(yǎng)多元化、創(chuàng)新型人工智能人才。
“機器學習”課程作為人工智能專業(yè)、智能科學與技術專業(yè)的核心基礎課程,一般安排在第三、四學期開課。在課程的安排上,既要涵蓋Python的基礎知識,也需要機器學習的幾大模型:回歸、分類、聚類、推薦、神經網絡等[5]。以典型案例為鋪墊,提高學生學習興趣;采用啟發(fā)式教學,提高學生思維能力,發(fā)揮主觀能動性;將所學知識運用于當前階段的熱點或前沿問題上進行實踐。下面將詳細介紹課程模塊。
要求學生在課前安裝好Anaconda軟件,課堂邊講解理論知識邊實際操作。安裝和配置Jupyter Notebook,演示如何創(chuàng)建新的Notebook和Markdown單元格;介紹Python語言的特點,以及其在數據處理和分析領域的重要性;講解Python語言的基本語法、數據結構和編程方法;講解Pandas庫的特點和使用場景,以及如何用Pandas進行數據處理和分析;講解Numpy庫的特點和使用場景,以及如何用Numpy進行數組操作和數學計算,演示如何加載、處理和分析數據。
1.教學目的:引導學生理解回歸問題的本質,即通過輸入特征預測連續(xù)目標值。
2.教學過程:以房價預測為切入點,首先讓學生理解問題本質,從而介紹線性回歸的基本概念,包括回歸方程和線性模型。講解如何擬合線性回歸模型。其次解釋過擬合和欠擬合的概念,以及它們的影響,演示如何使用訓練集和測試集來評估模型性能,并討論如何選擇合適的模型復雜度。再次介紹梯度下降算法的基本思想和數學原理,演示如何使用梯度下降來優(yōu)化線性回歸模型的參數。最后討論損失函數的概念,如均方誤差損失函數,講解如何計算和解釋RMSE作為性能指標。
3.課堂編程實踐:提供編程實踐練習,讓學生在房價預測的問題中實現(xiàn)線性回歸模型和梯度下降優(yōu)化。學生使用實際數據集來進行模型訓練和評估,解決一個真實世界的回歸問題,并帶領學生分析案例中的數據、模型和結果。
1.教學目的:使學生能夠理解分類問題的本質,區(qū)分分類和回歸任務的不同之處,并掌握幾種常見的分類模型;學習如何使用似然函數和代價函數來訓練邏輯回歸模型,并了解決策邊界、訓練分類器和評估指標的重要性;能夠解釋什么是一個好的準確率,并了解學習曲線和模型偏差的概念。
2.教學過程:引入情感分析問題,解釋為什么情感分析可以視為分類問題,例如將情感分為正面和負面;闡述分類和回歸的差別,以圖示和示例來加深學生對這兩個任務的理解;介紹簡單閾值分類器,討論其原理和局限性,并在實際數據集上進行演示;深入研究邏輯回歸模型,解釋似然函數和代價函數的概念,以及如何使用梯度下降來訓練模型;講解決策邊界的概念,如何在圖上可視化不同分類模型的決策邊界;指導學生通過訓練數據來擬合分類器,討論模型參數的優(yōu)化和調整;引入評估指標,包括準確率、錯誤率、混淆矩陣,并圖示如何計算這些指標;通過實際案例和示例,說明什么是一個好的準確率,并強調準確率不是唯一的評估標準;最后探討學習曲線和模型偏差的概念,以幫助學生理解模型的偏差與數據集大小之間的權衡。
3.課堂編程實踐:在電影影評的問題中實現(xiàn)從文本中推測情感傾向。學生使用豆瓣影評數據集來進行模型訓練和評估。解決一個真實世界的分類問題,并帶領學生分析案例中的數據、模型和結果。
1.教學目的:理解聚類分析的概念和應用領域,掌握文檔檢索中的詞袋模型和TF-IDF模型,理解文檔相似度的計算方法,學習K近鄰算法和K均值算法的原理及應用,能夠確定K均值算法中的k值,理解聚類與分類的區(qū)別和聯(lián)系。
2.教學過程:引入聚類:介紹聚類的概念和應用領域,如文本聚類、圖像聚類等;介紹文檔檢索與特征提取:解釋文檔檢索的概念,引入詞袋模型和TF-IDF模型,講解如何使用詞袋模型和TFIDF模型將文本轉換為向量表示。講解余弦相似度和歐氏距離等文檔相似度的計算方法;介紹K近鄰算法的原理,討論如何根據文檔相似度進行近鄰選擇。演示K 近鄰算法的應用;詳細講解K均值算法的原理和步驟。討論如何確定K均值算法中的k值,引入常見的方法,如肘部法則??偨Y聚類與分類的區(qū)別:對比聚類與分類的異同,強調聚類是一種無監(jiān)督學習方法,而分類是有監(jiān)督學習方法。
3.課堂編程實踐:提供名人的文本數據集,包含多個名人的介紹文本。演示如何使用詞袋模型和TF-IDF模型將文本數據轉換為特征向量;讓學生編寫代碼來計算不同名人之間的文檔相似度;使用K近鄰和K均值算法進行聚類,并討論聚類結果的合理性。通過這種實踐,學生能夠將所學的聚類概念和算法應用于實際文本數據,加深對聚類分析的理解和應用能力。
1.教學目的:理解推薦系統(tǒng)的基本概念和應用領域,理解推薦系統(tǒng)的利弊。掌握不同類型的推薦算法,熟悉推薦系統(tǒng)評估指標,如精準率、召回率和AUC。能夠運用所學知識實現(xiàn)一個簡單的歌曲推薦系統(tǒng)。
2.教學過程:引入推薦系統(tǒng)的概念和應用,介紹《互聯(lián)網信息服務算法推薦管理規(guī)定》,引出推薦系統(tǒng)的優(yōu)勢和局限性,特別關注信息繭房的問題以及解決方法。介紹基于流行度的推薦系統(tǒng)和基于分類的推薦系統(tǒng)的原理及應用場景。深入探討共生矩陣、協(xié)同過濾和矩陣分解等關鍵概念。解釋精準率、召回率和AUC等推薦系統(tǒng)評估指標的意義及計算方法。分組討論推薦系統(tǒng)的倫理和隱私問題,提出解決方案和建議。分析不同類型的推薦系統(tǒng)在不同場景下的適用性,并討論案例。討論推薦系統(tǒng)在電商、社交媒體等領域的實際應用和成功案例。
3.課堂編程實踐:帶領學生使用Python和相關機器學習庫來實現(xiàn)一個歌曲推薦系統(tǒng),使用流行度和協(xié)同過濾方法來為用戶生成個性化的歌曲推薦。需要考慮數據預處理、模型訓練、評估指標等方面的工作。在實踐過程中,學生將學會如何使用推薦算法,以及如何評估推薦系統(tǒng)的性能。
1.教學目的:理解深度學習的基本概念和背景,包括神經網絡的發(fā)展歷史;掌握神經元的工作原理和基本數學概念。通過神經網絡實現(xiàn)手寫數字的識別的案例,理解神經網絡的工作原理;熟悉ImageNet數據集和深度卷積神經網絡在圖像分類任務中的應用;分析深度學習的優(yōu)缺點,包括模型復雜性和數據需求;掌握遷移學習的基本原理和應用場景。
2.教學過程:簡要介紹深度學習的背景和歷史;解釋神經元的基本原理,包括激活函數和數學表達;講解邏輯運算中的AND、OR和異或問題,演示如何使用神經網絡解決這些問題;引入MNIST數據集,教授如何使用深度學習模型實現(xiàn)手寫數字識別。探討圖像檢索和人臉識別的基本概念和方法;講解ImageNet數據集和卷積神經網絡的基本原理;討論深度學習的優(yōu)點和缺點,包括模型復雜性、數據需求和泛化能力等方面;引入遷移學習的概念,講解遷移學習的原理和實際應用場景。
3.課堂編程實踐:講解如何使用深度學習框架構建一個手寫數字識別的深度學習模型。使用MNIST數據集進行模型訓練和性能評估,調整模型的架構和超參數,以優(yōu)化性能。
學生分組交流討論機器學習領域的最新進展,如自然語言處理(NLP)的最新進展:該組學生可以選擇一個NLP領域的最新研究論文,探討其中的方法和技術,并分享其在文本生成、情感分析等任務中的應用。
機器學習課程設計順應創(chuàng)新型國家發(fā)展需要,在經典機器學習項目的基礎上,以先進的智能平臺為載體,以智能車、機械臂、機器狗、機器人應用為導向,圍繞其運動以及聽、說、看、思開展課程相應的活動,以促進學生知識、能力、素質協(xié)調發(fā)展為目標,將機器學習相關理論和技術綜合應用于分析和解決機器人復雜工程問題,全面提升學生在科學研究、技術創(chuàng)新、項目開發(fā)、組織管理、團隊協(xié)作等方面的綜合素質。以下列舉一個課題范例:智能四足機器人智能報警電話識別。
智能四足機器人(機器狗)是國際上處于領先水平的一種全地形移動機器人形態(tài)。機器狗作為仿生移動機器人,可適應絕大多數地形環(huán)境,部署成本低廉,可在各種行業(yè),多場景覆蓋巡檢。請模擬機器狗在安防巡檢場景下穿過復雜地形,識別報警電話標志并語言播放報警。
請通過網絡和機器狗的視覺傳感器收集報警電話標志的訓練集。
1.模型設計和訓練。對收集的圖像進行預處理,需要在數據集上盡可能地進行數據增強,將擴充的數據集用于訓練模型:設計一種神經網絡結構,完成報警標志的識別。針對識別結果進行分析,并輸出每個模型的混淆矩陣、精度、準確率和召回率,對模型進行參數調整和優(yōu)化。
2.機器狗識別和播報。標志擺放在距離機器狗前端至少1米處,機器狗視覺相機必須在6秒內正確識別標志并對識別的標志進行語音播報。
在本課程學習的基礎上,學生以賽促學,在機器人國際及國家級賽事、泰迪杯、ASC超算大賽中取得了多項國家級和省級獎項。鼓勵學生將學習成果轉化成科研成果,多名本科生參與科研工作,發(fā)表多篇論文。同時,在教師的帶領下,學生積極服務學校與社會,前往新疆和廣西開展“科普邊疆行”,向當地機關及教育機構科普機器學習相關知識;利用課程知識,承擔了學校的機器人導覽任務和博物館機器人講解員Nao的開發(fā)工作;舉辦湖北省科技活動周科普開放活動,還走進多所小學給小學生進行科普講解,相關工作曾多次被官媒報道。