摘要:從隨機(jī)變量的觀點(diǎn)看,線性回歸方程的推導(dǎo)實(shí)際上是根據(jù)兩個(gè)隨機(jī)變量的兩組對(duì)應(yīng)數(shù)據(jù)建立數(shù)學(xué)模型,估計(jì)它們的相關(guān)關(guān)系。這就和根據(jù)一個(gè)隨機(jī)變量的一組數(shù)據(jù)建立模型,估計(jì)它的大小一樣,都是用實(shí)際的頻率估計(jì)理論的概率這樣的概率與統(tǒng)計(jì)“一體兩面”思想的體現(xiàn)。由此,可以推動(dòng)概率與統(tǒng)計(jì)思想的教學(xué),并打通有關(guān)知識(shí)的內(nèi)在聯(lián)系。相應(yīng)的教學(xué)啟示有:區(qū)分不同情境下的數(shù)學(xué)建模;樹立由問題選擇方法的意識(shí);強(qiáng)調(diào)技術(shù)進(jìn)步的重要性。
關(guān)鍵詞:高中數(shù)學(xué);隨機(jī)變量;線性回歸模型;統(tǒng)計(jì)建模;概率與統(tǒng)計(jì)
本文系教育部人文社會(huì)科學(xué)研究2022年度規(guī)劃基金課題“‘雙減’政策落地的教師教學(xué)知識(shí)研究”(編號(hào):22YJA88068)的階段性研究成果。
隨著大數(shù)據(jù)時(shí)代的來臨,統(tǒng)計(jì)的作用愈發(fā)明顯。順應(yīng)這種時(shí)代潮流,在高中數(shù)學(xué)課程中增加概率與統(tǒng)計(jì)主題的內(nèi)容是恰當(dāng)?shù)?。特別是統(tǒng)計(jì)內(nèi)容,不應(yīng)被當(dāng)作一種應(yīng)試的知識(shí)來學(xué)習(xí),而應(yīng)被當(dāng)作一種認(rèn)識(shí)世界的方法來學(xué)習(xí)。按照這種觀點(diǎn)來認(rèn)識(shí)高中數(shù)學(xué)教材中的線性回歸模型(方程)內(nèi)容,其處理方式,或者說其中應(yīng)該滲透的一些思想觀念,是可以進(jìn)一步考慮的。
各版高中數(shù)學(xué)教材在推導(dǎo)線性回歸方程(確定其中的參數(shù))時(shí),主要從統(tǒng)計(jì)數(shù)據(jù)出發(fā),采用高斯、勒讓德等數(shù)學(xué)家提出的最小二乘法。最小二乘法在解構(gòu)模型時(shí),主要從誤差最小的角度考慮,這符合中學(xué)生的認(rèn)識(shí)水平和經(jīng)驗(yàn)。但是,這種處理方法沒有滲透隨機(jī)變量的思想,可能導(dǎo)致學(xué)生學(xué)習(xí)了線性回歸方程后,仍然不知道如何用概率與統(tǒng)計(jì)的觀點(diǎn)看待復(fù)雜的社會(huì)、經(jīng)濟(jì)問題中的隨機(jī)現(xiàn)象。
從隨機(jī)變量的觀點(diǎn)看,線性回歸方程的推導(dǎo)實(shí)際上是根據(jù)兩個(gè)隨機(jī)變量的兩組對(duì)應(yīng)數(shù)據(jù)建立數(shù)學(xué)模型,估計(jì)它們的相關(guān)關(guān)系。這就和根據(jù)一個(gè)隨機(jī)變量的一組數(shù)據(jù)建立模型,估計(jì)它的大小一樣,都是用實(shí)際的頻率估計(jì)理論的概率這樣的概率與統(tǒng)計(jì)“一體兩面”思想[1]的體現(xiàn),都有著最大可能性的意義[2]。
下面,用隨機(jī)變量的觀點(diǎn)重新認(rèn)識(shí)與線性回歸模型有關(guān)的統(tǒng)計(jì)建模,以推動(dòng)概率與統(tǒng)計(jì)思想的教學(xué),并打通知識(shí)的內(nèi)在聯(lián)系。
一、 從隨機(jī)變量的觀點(diǎn)看單一數(shù)據(jù)的模型
科學(xué)研究始于測(cè)量,測(cè)量不可避免地存在誤差,誤差從根本上說是由隨機(jī)性導(dǎo)致的,因?yàn)槭澜缡请S機(jī)的[3]。于是,人們通常會(huì)通過多次測(cè)量,得到被測(cè)物體被測(cè)屬性的一組數(shù)據(jù),然后取其平均值,當(dāng)作真實(shí)值(理論值)。為什么會(huì)建立平均值這個(gè)模型來估計(jì)?
如果把不準(zhǔn)確的、帶有隨機(jī)誤差的一組測(cè)量數(shù)據(jù)[設(shè)為xi(i=1,2,…,n)]看作被測(cè)物體被測(cè)屬性這個(gè)隨機(jī)變量(記為X)的多個(gè)取值,人們往往期望從中選取一個(gè)代表。這個(gè)代表要具有誤差最小的特點(diǎn)。于是,考慮總的測(cè)量誤差,它既可以表示為S=∑ni=1(X-xi)2(偏差平方和),也可以表示為S=∑ni=1|X-xi|(偏差絕對(duì)值和)。因?yàn)榻^對(duì)值不太好處理,所以選擇平方和的形式。由柯西不等式不難推得:當(dāng)X=1n∑ni=1xi時(shí),S=∑ni=1(X-xi)2取最小值。同時(shí),如果有兩組測(cè)量數(shù)據(jù),要判斷哪一組數(shù)據(jù)更合理,則顯然應(yīng)該在兩個(gè)總測(cè)量誤差的基礎(chǔ)上消除數(shù)據(jù)個(gè)數(shù)的影響。順著這個(gè)思路,樣本的平均值x和隨機(jī)變量的期望E(X)自然被引入,樣本方差的定義s2=1n∑ni=1(xi-x)2和隨機(jī)變量方差的定義D(X)=E[X-E(X)]2的合理性也自然得到了解釋。同時(shí),這里不難推出:s2=1n∑ni=1x2i-x2,D(X)=E(X2)-E2(X)。
總之,在隨機(jī)變量的觀點(diǎn)下,平均值(期望)是一組測(cè)量數(shù)據(jù)的最佳代表,方差則是衡量一組測(cè)量數(shù)據(jù)好壞的標(biāo)準(zhǔn)。而由單個(gè)隨機(jī)變量(單一數(shù)據(jù))經(jīng)概率(統(tǒng)計(jì))思想建立的期望(平均值)與方差模型,則是建立兩個(gè)隨機(jī)變量(成對(duì)數(shù)據(jù))之間關(guān)系的模型的基礎(chǔ)。
二、 從隨機(jī)變量的觀點(diǎn)看成對(duì)數(shù)據(jù)的模型
(一) 判斷兩個(gè)隨機(jī)變量是否相關(guān)
事物之間存在著普遍的聯(lián)系??茖W(xué)研究不只關(guān)心單個(gè)變量,更關(guān)心多個(gè)變量之間的關(guān)系。兩個(gè)變量相關(guān)主要表現(xiàn)為一個(gè)變量變化,另一個(gè)變量也隨之變化。如果變化趨勢(shì)一致,即同增或同減,則兩個(gè)變量正相關(guān);如果變化趨勢(shì)相反,即一個(gè)增另一個(gè)減,則兩個(gè)變量負(fù)相關(guān)。隨機(jī)變量的理論值是其期望,隨機(jī)變量的變化可以看成圍繞期望產(chǎn)生的波動(dòng)——從統(tǒng)計(jì)的角度看,就是實(shí)際值對(duì)理論值的誤差。因此,判斷兩個(gè)隨機(jī)變量是否相關(guān),需要綜合考慮兩個(gè)隨機(jī)變量圍繞各自期望產(chǎn)生的波動(dòng)(誤差)。
回頭來看教材給出的決定系數(shù)R2,代入b∧的估計(jì)公式,可以發(fā)現(xiàn)它就是相關(guān)系數(shù)的平方r2。從理論的角度看,即R2=r2=b2D(X)D(Y)。也就是說,決定系數(shù)(相關(guān)系數(shù)的平方)是(確定性視角下)因變量變化與自變量變化的比的平方(反映的是平方意義下的變化率)和(隨機(jī)性視角下)自變量方差與因變量方差的比(反映的也是平方意義下的變化率)的積。
由此,可以認(rèn)識(shí)到R2(r2)表示自(原因、解釋)變量對(duì)因(結(jié)果、預(yù)計(jì))變量變化的貢獻(xiàn)率。比如,R2(r2)=0.64,表示因變量的變化(偏差)有64%是由自變量的變化(偏差)引起的。顯然,R2(r2)越接近1,越能說明自變量變化是引起因變量變化的重要原因。對(duì)此,反過來思考,更容易明白:如果無(wú)論自變量如何變化,因變量都“巋然不動(dòng)”,那么,這兩種因素之間就不存在相關(guān)(因果)關(guān)系了。
三、 教學(xué)啟示
“線性回歸模型”這種說法強(qiáng)調(diào)的是“模型”,而不是“方程”(“函數(shù)”),也就強(qiáng)調(diào)了數(shù)學(xué)建模,即具體的實(shí)踐研究,而不是抽象的理論研究。從數(shù)學(xué)建模的角度看,通過對(duì)“線性回歸模型”有關(guān)內(nèi)容的分析、挖掘、串聯(lián),可以獲得以下幾點(diǎn)教學(xué)啟示。
(一) 區(qū)分不同情境下的數(shù)學(xué)建模
數(shù)學(xué)建模是高中數(shù)學(xué)六大核心素養(yǎng)之一,搭建了數(shù)學(xué)與外部世界的橋梁,是數(shù)學(xué)語(yǔ)言作用的體現(xiàn)。數(shù)學(xué)建模還是一個(gè)對(duì)數(shù)學(xué)模型賦予意義的過程,各種變量、參數(shù)都有實(shí)際意義。這完全不同于純粹的數(shù)學(xué)研究,也是數(shù)學(xué)建模難以開展的原因之一。在教學(xué)中,應(yīng)區(qū)分不同情境下的數(shù)學(xué)建模。傳統(tǒng)意義下的數(shù)學(xué)建模更多地指建立確定性的數(shù)學(xué)模型,比如利用方程、函數(shù)等從實(shí)際情境中發(fā)現(xiàn)問題、提出問題、分析問題、建立模型,最終解決問題。這種方法在物理等學(xué)科中有成功的應(yīng)用。與傳統(tǒng)意義下的數(shù)學(xué)建模不同,統(tǒng)計(jì)視角下的數(shù)學(xué)建模(統(tǒng)計(jì)建模)更多的是從問題、數(shù)據(jù)出發(fā),建立的是非確定性的數(shù)學(xué)模型。因此,統(tǒng)計(jì)建模常常被稱為數(shù)據(jù)分析。傳統(tǒng)意義下的數(shù)學(xué)建模強(qiáng)調(diào)先有研究設(shè)計(jì),再通過數(shù)據(jù)驗(yàn)證研究設(shè)計(jì)的合理性;而統(tǒng)計(jì)建模更強(qiáng)調(diào)數(shù)據(jù)驅(qū)動(dòng)的分析,即先有數(shù)據(jù),再有模型,而不是相反。比如,確定線性回歸模型時(shí),先通過畫散點(diǎn)圖,看到點(diǎn)大致分布在一條直線附近,才提出用直線來擬合,而不先提出一個(gè)線性回歸模型,讓所有的點(diǎn)都適應(yīng)這個(gè)模型。
(二) 樹立由問題選擇方法的意識(shí)
數(shù)據(jù)分析的基礎(chǔ)是數(shù)據(jù),所以,需要深刻把握數(shù)據(jù)的特點(diǎn),根據(jù)問題、數(shù)據(jù)選擇模型。比如,回歸分析處理的是定距變量之間的回歸關(guān)系,獨(dú)立性檢驗(yàn)處理的是分類變量之間是否相關(guān)。這樣,就可以讓學(xué)生看到是問題、數(shù)據(jù)的類型決定模型的選取,因而,把問題中涉及的概念轉(zhuǎn)化為操作性變量(視作隨機(jī)變量),再針對(duì)變量收集數(shù)據(jù)、整理數(shù)據(jù)、分析數(shù)據(jù)特點(diǎn)、建立數(shù)學(xué)模型,這種程序非常重要。而要獲得好的數(shù)據(jù),就要把研究問題細(xì)化為研究?jī)?nèi)容,針對(duì)研究對(duì)象進(jìn)行精巧的設(shè)計(jì),特別是,處理有關(guān)心理、教育、管理等人文社科領(lǐng)域的問題時(shí),首先要把復(fù)雜的概念轉(zhuǎn)換成可測(cè)量的變量,獲得沒有污染的數(shù)據(jù)(視為隨機(jī)變量的取值),才能進(jìn)行數(shù)據(jù)分析。按照這樣的要求,高中數(shù)學(xué)教學(xué)中常見的統(tǒng)計(jì)案例其實(shí)離真實(shí)的基于數(shù)據(jù)而展開的研究工作還有相當(dāng)?shù)木嚯x,離“適應(yīng)數(shù)字化學(xué)習(xí)的需要,增強(qiáng)基于數(shù)據(jù)表達(dá)現(xiàn)實(shí)問題的意識(shí),形成通過數(shù)據(jù)認(rèn)識(shí)事物的思維品質(zhì);積累依托數(shù)據(jù)探索事物本質(zhì)、關(guān)聯(lián)和規(guī)律的活動(dòng)經(jīng)驗(yàn)”[6]的要求也有相當(dāng)?shù)木嚯x。因此,強(qiáng)調(diào)“問題驅(qū)動(dòng)—數(shù)據(jù)收集—方法選擇”具有重要意義。
(三) 強(qiáng)調(diào)技術(shù)進(jìn)步的重要性
“數(shù)據(jù)分析是研究隨機(jī)現(xiàn)象的重要數(shù)學(xué)技術(shù),是大數(shù)據(jù)時(shí)代數(shù)學(xué)應(yīng)用的主要方法,也是‘互聯(lián)網(wǎng)+’相關(guān)領(lǐng)域的主要數(shù)學(xué)方法,數(shù)據(jù)分析已經(jīng)深入到科學(xué)、技術(shù)、工程和現(xiàn)代社會(huì)生活的各個(gè)方面?!保?]計(jì)算機(jī)技術(shù)的發(fā)展大大改變了統(tǒng)計(jì)學(xué)的面貌,統(tǒng)計(jì)學(xué)在機(jī)器學(xué)習(xí)、人工智能等方面得到了廣泛的應(yīng)用。教授中小學(xué)生算法、編程、計(jì)算思維和軟件操作是整個(gè)基礎(chǔ)教育課程應(yīng)通盤考慮的事情。
總之,把基礎(chǔ)教育做好,支持學(xué)生的長(zhǎng)遠(yuǎn)發(fā)展,并不是一句空話,關(guān)鍵在于深入挖掘具體知識(shí)背后的“本質(zhì)”、蘊(yùn)含的“思想”等,并且通過這些具有一致性的大概念充分串聯(lián)有關(guān)的知識(shí),形成良好的結(jié)構(gòu),以真正實(shí)現(xiàn)育人價(jià)值,提升遷移能力。
參考文獻(xiàn):
[1][2][3] 張勁松.認(rèn)識(shí)隨機(jī),把握生活——《醉漢的腳步》閱讀感悟與教學(xué)啟示[J].教育研究與評(píng)論,2022(8):115,116,110.
[4] 徐章韜.從比例系數(shù)到相似比、三角函數(shù)——教育數(shù)學(xué)研究之八[J].教育研究與評(píng)論(中學(xué)教育教學(xué)),2019(3):59.
[5] 鄭毓信.數(shù)學(xué)教育及教育數(shù)學(xué)的幾點(diǎn)散思——“數(shù)學(xué)教育雜談”之七[J].教育研究與評(píng)論,2022(9):23.
[6][7] 中華人民共和國(guó)教育部.普通高中數(shù)學(xué)課程標(biāo)準(zhǔn)(2017年版2020年修訂)[S].北京:人民教育出版社,2020:7,7.