聚焦“抽象”和“建?！钡母咧腥斯ぶ悄芙逃龑嵺`
——以“監(jiān)督學(xué)習(xí)中的預(yù)測和分類”教學(xué)為例

2022-09-26 02:31:20陳智敏黃細光宋新波廣東省中山市中山紀(jì)念中學(xué)

中國信息技術(shù)教育 2022年18期

陳智敏黃細光宋新波廣東省中山市中山紀(jì)念中學(xué)

人工智能教育實踐已成為我國推動人工智能發(fā)展的重要戰(zhàn)略之一，探索中小學(xué)人工智能教育相關(guān)內(nèi)容與策略對其未來發(fā)展具有一定的指導(dǎo)性作用。人工智能教育不等同于程序設(shè)計教育，也不僅僅是學(xué)習(xí)如何調(diào)用庫函數(shù)并調(diào)整參數(shù)實現(xiàn)想法，清華大學(xué)從2021年開始發(fā)起人工智能大中銜接課程培訓(xùn)，以期幫助中學(xué)生系統(tǒng)了解人工智能前沿發(fā)展方向并學(xué)習(xí)相關(guān)的核心知識、原理，掌握人工智能的基本概念、思想方法和重要算法等，并從科學(xué)的視角觀察和理解前沿科研成果，熟悉典型的人工智能系統(tǒng)，了解有關(guān)機器學(xué)習(xí)與人工神經(jīng)網(wǎng)絡(luò)的基本原理，初步具備用經(jīng)典人工智能方法解決一些簡單實際問題的能力，涉及的主要內(nèi)容包括監(jiān)督學(xué)習(xí)、非監(jiān)督學(xué)習(xí)、深度學(xué)習(xí)以及強化學(xué)習(xí)等。

中學(xué)不僅是大學(xué)的生源基地，更是大學(xué)教育的前端基地，能否把中學(xué)和大學(xué)的人工智能教育有效貫通、相互銜接，將最終影響人工智能教育領(lǐng)域綜合改革的深入開展和國家重大戰(zhàn)略發(fā)展。銜接貫通大學(xué)中學(xué)人工智能拔尖創(chuàng)新人才培養(yǎng)的高中人工智能課程側(cè)重于理解前沿發(fā)展方向中的核心原理，并具體表現(xiàn)為計算思維中的問題“抽象”與“建?！薄！俺橄蟆迸c“建?！睂τ谥悄軙r代的學(xué)生而言是非常重要的思維，其中“抽象”是指通過對復(fù)雜的現(xiàn)實問題進行有針對性的分析挖掘，發(fā)現(xiàn)關(guān)鍵、本質(zhì)的特征要素，并符號化、數(shù)字化為計算機可以處理的特征，從而將復(fù)雜問題簡化為數(shù)學(xué)問題；“建?！眲t是根據(jù)抽象出的問題中特征要素之間的關(guān)系，采用適合的方式進一步表達為數(shù)量關(guān)系和空間關(guān)系以建立機器模型。然而，目前高中人工智能教育重技能輕思維，真正深入探討核心原理的還比較少，因而難以體現(xiàn)出人工智能教育的基本思想，學(xué)生也很難領(lǐng)悟到關(guān)鍵知識和其中的技術(shù)原理。因此，如何在教學(xué)實施過程中聚焦培養(yǎng)學(xué)生的“抽象”和“建模”思維，最終培養(yǎng)和發(fā)展學(xué)生的計算思維并完成對相關(guān)人工智能應(yīng)用的核心原理的理解，非常值得探究。

● 監(jiān)督學(xué)習(xí)中的預(yù)測和分類

監(jiān)督學(xué)習(xí)是通過讓機器學(xué)習(xí)帶有標(biāo)簽的訓(xùn)練數(shù)據(jù)，進而通過特定的算法令其學(xué)習(xí)和挖掘數(shù)據(jù)所包含的特征或者關(guān)系等，總結(jié)規(guī)律，進而訓(xùn)練出相應(yīng)的機器模型并使該模型可以實現(xiàn)具體的預(yù)測和分類功能等。需要注意的是，在利用監(jiān)督學(xué)習(xí)訓(xùn)練機器模型進行相關(guān)事件預(yù)測時，如果預(yù)測的變量是連續(xù)的，如想要預(yù)測一下明天的氣溫是多少攝氏度，攝氏度的取值在數(shù)軸上是“連續(xù)不間斷”分布的，這個過程稱為“預(yù)測”；而如果預(yù)測的變量是離散的，如想要預(yù)測一下是晴天或者陰天還是下雨，取值只有有限種可能，這個過程稱為“分類”。監(jiān)督學(xué)習(xí)的實現(xiàn)正體現(xiàn)了問題抽象、問題建模、設(shè)計算法、描述算法等過程，其中“抽象”與“建?！笔顷P(guān)鍵，對問題的解決至關(guān)重要，引導(dǎo)學(xué)生嘗試抽象特征，簡化問題并構(gòu)建模型，有助于深入認識和理解監(jiān)督學(xué)習(xí)的核心原理，因此，“抽象”與“建模”也可以視為銜接貫通大學(xué)中學(xué)人工智能拔尖創(chuàng)新人才培養(yǎng)的高中人工智能課程中培養(yǎng)計算思維的關(guān)鍵。

● 監(jiān)督學(xué)習(xí)實現(xiàn)預(yù)測中的“抽象”與“建?！?/h2>

1.在問題分析中開展“抽象”

以《監(jiān)督學(xué)習(xí)中的線性回歸預(yù)測》一課為例，可用精確的數(shù)學(xué)表達式來表示的關(guān)系稱為函數(shù)關(guān)系，即當(dāng)變量x的取值確定后，有唯一確定的y值與之相對應(yīng)，如正方形的面積和邊長的關(guān)系；而如果兩個變量之間存在著非常密切的關(guān)系但又達不到函數(shù)關(guān)系，如通過散點圖可以發(fā)現(xiàn)，頁數(shù)多的圖書往往價格高，頁數(shù)少的圖書往往價格低，但頁數(shù)又不是決定價格的唯一因素，因為圖書是否彩色印刷以及暢銷程度等因素都會影響到價格，這種關(guān)系則稱為相關(guān)關(guān)系。

學(xué)生結(jié)合數(shù)學(xué)知識與生活經(jīng)驗，探討如何根據(jù)圖書頁數(shù)預(yù)測價格，包括可以將點連成線進而去模擬它們之間的關(guān)系。當(dāng)然，在這個過程中學(xué)生也會發(fā)現(xiàn)，如果刻意去逼近，雖然數(shù)據(jù)都出現(xiàn)在線上，一定程度上也體現(xiàn)出了關(guān)系，但需要去求解一個分段函數(shù)，過于復(fù)雜也因此很難具有實際預(yù)測功能；大部分學(xué)生也會通過觀察發(fā)現(xiàn)點大致都落在一條從左下角到右上角的直線附近，隨著書頁數(shù)的增加，相應(yīng)的價格也呈現(xiàn)出增加的趨勢，因此這兩個量之間是存在一種線性相關(guān)關(guān)系的，所以問題便抽象為了找到一條能夠很好地解釋數(shù)據(jù)的線，使得這條直線與樣本數(shù)據(jù)距離都能夠盡量接近。

2.在“抽象”基礎(chǔ)上實現(xiàn)“建模”

在抽象的基礎(chǔ)上，引導(dǎo)學(xué)生分析總結(jié)出如果能夠求出這條直線的方程，就可以比較清楚地了解圖書價格與頁數(shù)之間的關(guān)系，也因而可以根據(jù)頁數(shù)進行價格預(yù)測，但這種相關(guān)關(guān)系不能簡單地通過解方程組得出，學(xué)生結(jié)合經(jīng)驗意識到可以用一個線性函數(shù)f（x）=a*x+b[x稱為自變量，f（x）稱為因變量，a稱為斜率參數(shù)，b稱為截距參數(shù)]去模擬這種線性關(guān)系并借助一定的算法計算參數(shù)a和b，當(dāng)然參數(shù)取值的不同也決定了預(yù)測的效果好壞，如果每個圖書價格的預(yù)測值f（x）和圖書價格y的真實值越接近，預(yù)測效果則越好。所以，學(xué)生會結(jié)合數(shù)學(xué)基礎(chǔ)提出用n個數(shù)據(jù)的偏差之和來刻畫模型預(yù)測效果的好壞，總的偏差越小，模型的預(yù)測效果越好，由于每一條數(shù)據(jù)的偏差可正可負，為避免相互抵消，可以取每一條數(shù)據(jù)偏差的平方并求和來表示總的偏差Q（如下圖），其中x表示圖書的頁數(shù)，y表示真實價格。

回歸分析方法常用來研究相關(guān)變量之間的關(guān)系，如何選擇a和b的取值使得總的偏差越小，即函數(shù)Q的值最小，其中Q被稱為損失函數(shù)或者誤差函數(shù)，這種將樣本數(shù)據(jù)真實值到預(yù)測值偏差的平方和作為損失函數(shù)的方法叫最小二乘法。進而采用研究學(xué)習(xí)時間與考試成績之間的關(guān)系是否存在相關(guān)性，并通過學(xué)習(xí)時間預(yù)測考試成績的例子幫助學(xué)生了解機器是如何借助最小二乘法，通過對相關(guān)數(shù)據(jù)的計算得到斜率以及截距從而完成建模，最終得到學(xué)習(xí)時間與考試成績的回歸模型，在得到機器模型后，再輸入學(xué)習(xí)時間，就可以預(yù)測出相應(yīng)的考試成績。

● 監(jiān)督學(xué)習(xí)實現(xiàn)分類中的“抽象”與“建?！?/h2>

1.在問題分析中開展“抽象”

以《監(jiān)督學(xué)習(xí)中的感知器分類》一課為例，學(xué)生通過前面的學(xué)習(xí)也已經(jīng)知道機器要完成分類任務(wù)也需要先基于已有的帶標(biāo)簽數(shù)據(jù)進行學(xué)習(xí)，而這些數(shù)據(jù)本身是具有自己的特征和屬性的，機器會使用相應(yīng)的算法提取相應(yīng)的特征并總結(jié)規(guī)律進行分類?？山柚⒗驛I訓(xùn)練平臺以及“Machine Learning for Kids”等平臺，幫助學(xué)生通過體驗，進一步總結(jié)梳理出監(jiān)督學(xué)習(xí)中分類的過程，并發(fā)現(xiàn)有效的特征設(shè)計很大程度上決定了機器分類結(jié)果的好壞。

關(guān)于提取特征要素，學(xué)生通過觀察發(fā)現(xiàn)所有的訓(xùn)練數(shù)據(jù)中貓基本上都是小鼻子和尖耳朵，而所有的狗幾乎都是大鼻子和圓耳朵的，因此訓(xùn)練集的圖片中可以提取以下兩個特征——鼻子的大小和耳朵的形狀，引導(dǎo)學(xué)生思考如果每一幅圖片都用兩個數(shù)字來表示當(dāng)前選擇的特征——一個數(shù)字表示相對的鼻子大小，另外一個數(shù)字表示耳朵圓尖的程度，這樣一張圖片也就是一組數(shù)據(jù)便抽象成了一個特征向量，把特征向量表示為直角坐標(biāo)系中的一個點，稱為特征點，所有這些特征點則構(gòu)成了一個特征空間，訓(xùn)練集中的圖片也就都可以在這一個二維的特征空間中表示出來了，其中“鼻子大小”特征和“耳朵形狀”特征分別由水平坐標(biāo)和垂直坐標(biāo)表示。這時，學(xué)生發(fā)現(xiàn)所有的表示貓的特征點和所有表示狗的特征點都聚集成一堆并且區(qū)分開來了，如果用直線作為分界線，那么這個問題就抽象為一個簡單的幾何問題：坐標(biāo)平面中有兩類點，畫一條直線將這兩類點分開，即讓計算機在精心設(shè)計的特征空間中找到能夠區(qū)分貓和狗的一個線性模型。

2.在“抽象”基礎(chǔ)上實現(xiàn)“建?！?/h3>
線性模型包含斜率和截距兩個參數(shù)，這意味著與之前學(xué)習(xí)線性回歸一樣需要根據(jù)訓(xùn)練數(shù)據(jù)的特征為這些參數(shù)找到合適的值。而完成分類任務(wù)的模型可以稱為分類器，即當(dāng)機器看到貓或者狗的照片時，首先會提取圖片指定的特征并將這些特征輸入到已經(jīng)訓(xùn)練好的分類器中，分類器能夠根據(jù)這些特征做出預(yù)測并最終輸出是貓還是狗，所以分類器也可以理解為由特征向量到預(yù)測類別的一個函數(shù)。這里需要尋找一個線性分類器對貓狗進行分類，線性分類器f（x）可以由學(xué)生概括表示出來：f（x，x）=ax+ax+b，其中x、x分別表示鼻子的相對大小數(shù)據(jù)和耳朵的圓尖程度數(shù)據(jù)，f（x，x）稱為因變量，a、a為斜率參數(shù)，b為截距參數(shù)。建模的目的就是找到合適的參數(shù)a、a、b，使得對應(yīng)的分類器能夠區(qū)分貓和狗。后續(xù)提到的感知器是一種訓(xùn)練線性分類器的算法，它是利用被誤分類的訓(xùn)練數(shù)據(jù)調(diào)整現(xiàn)有的分類器的參數(shù)，使得調(diào)整后的分類器判斷得更加準(zhǔn)確。

● 結(jié)語

聚焦“抽象”和“建?！钡母咧腥斯ぶ悄芙逃龑嵺`有助于在問題解決中滲透計算思維等核心素養(yǎng)，在簡單的預(yù)測和分類的基礎(chǔ)上，還可以設(shè)計后續(xù)的教學(xué)內(nèi)容進一步引導(dǎo)學(xué)生針對問題開展抽象和建模。例如，在利用非監(jiān)督學(xué)習(xí)的K均值聚類算法將景點劃分到景區(qū)的教學(xué)中，引導(dǎo)學(xué)生嘗試選取一些代表性的特征將景點抽象為平面坐標(biāo)體系中的特征點從而形成特征空間，并將特征點之間的相似程度抽象為曼哈頓距離的大小，進而采用K均值聚類算法建立聚類模型解決問題；在深度學(xué)習(xí)教學(xué)中引導(dǎo)學(xué)生觀察和分析計算機是如何將大腦的神經(jīng)元的集合體抽象為數(shù)學(xué)模型并具體解析隱含層是如何采用卷積運算一步步抽象圖片的特征，進而理解卷積神經(jīng)網(wǎng)絡(luò)的工作原理等。

當(dāng)然，思維能力的培養(yǎng)并不是一蹴而就的，它需要一個循序漸進的過程，特別是人工智能前沿方向核心原理的分析與探究對于學(xué)生來說是較難的環(huán)節(jié)，需要大量的數(shù)學(xué)知識作為基礎(chǔ)，包括微積分、線性代數(shù)、概率統(tǒng)計等，這對一些數(shù)學(xué)基礎(chǔ)較弱的學(xué)生來說更是難上加難。因此，需要細化探究任務(wù)，將探究活動拆分為不同層次的小問題，幫助學(xué)生深入了解機器學(xué)習(xí)的過程，最終掌握算法和原理，并嘗試引導(dǎo)其思考哪些因素會對結(jié)果的準(zhǔn)確率造成影響，激發(fā)進一步探究學(xué)習(xí)的欲望并嘗試提出優(yōu)化模型的策略，即培養(yǎng)學(xué)生的創(chuàng)新能力。例如，在《監(jiān)督學(xué)習(xí)中的感知器分類》一課中，雖然剛開始鼻子大小和耳朵形狀的組合確實能區(qū)分出貓和狗，但是由于訓(xùn)練集太小且不夠多樣化，我們發(fā)現(xiàn)基于訓(xùn)練集選擇出來的特征并不能完全有效，因此學(xué)生會通過討論總結(jié)出：

①可以收集更多的數(shù)據(jù)組成一個龐大且多樣的訓(xùn)練集，但是不要去刻意迎合數(shù)據(jù)、記憶數(shù)據(jù)從而導(dǎo)致模型無法概括趨勢；

②設(shè)計更具有辨識性的特征（如臉型的凹凸、尾巴的形狀等）來進一步幫助區(qū)分貓和狗，但是不要過度將模型復(fù)雜化，在一定程度上要簡化參數(shù)；

③用設(shè)計的特征訓(xùn)練新的模型并用同樣的方式來測試，看它與原來的模型相比是否有所改進。

值得一提的是，聚焦“抽象”和“建?！钡母咧腥斯ぶ悄芙逃龑嵺`在一定程度上還能夠反作用于數(shù)學(xué)關(guān)鍵能力的培養(yǎng)，因此也讓信息技術(shù)與數(shù)學(xué)進行了更為緊密的融合，讓學(xué)生對知識也能夠有更多角度的理解，在一定程度上貫通大學(xué)與中學(xué)人工智能教育，推進拔尖創(chuàng)新人才培養(yǎng)的持續(xù)、健康發(fā)展。

聚焦“抽象”和“建?！钡母咧腥斯ぶ悄芙逃龑嵺`——以“監(jiān)督學(xué)習(xí)中的預(yù)測和分類”教學(xué)為例

● 監(jiān)督學(xué)習(xí)中的預(yù)測和分類

● 監(jiān)督學(xué)習(xí)實現(xiàn)預(yù)測中的“抽象”與“建?！?/h2>

1.在問題分析中開展“抽象”

2.在“抽象”基礎(chǔ)上實現(xiàn)“建模”

● 監(jiān)督學(xué)習(xí)實現(xiàn)分類中的“抽象”與“建?！?/h2>

1.在問題分析中開展“抽象”

● 結(jié)語

聚焦“抽象”和“建?！钡母咧腥斯ぶ悄芙逃龑嵺`
——以“監(jiān)督學(xué)習(xí)中的預(yù)測和分類”教學(xué)為例

● 監(jiān)督學(xué)習(xí)實現(xiàn)預(yù)測中的“抽象”與“建?！?/h2>

● 監(jiān)督學(xué)習(xí)實現(xiàn)分類中的“抽象”與“建?！?/h2>