秦鈺娟
摘要:本文從實際情況出發(fā),利用葡萄牙米尼奧大學(xué)收集到的學(xué)生基本情況以及相關(guān)成績,探究影響成績的因素。首先建立模型選取會對結(jié)果有顯著影響的變量,然后對這些變量進(jìn)行描述性分析。最后預(yù)測結(jié)果并評估所建模型好壞。
關(guān)鍵詞:學(xué)生成績;模型;預(yù)測
中圖分類號:G635.5 ? ? ?文獻(xiàn)標(biāo)識碼:A 文章編號:1003-2177(2019)06-0097-03
1 研究目的及背景介紹
1.1 研究目的
通過對葡萄牙兩所學(xué)校的學(xué)生數(shù)學(xué)成績分析,了解可能影響學(xué)生成績的因素并建立模型,試圖為預(yù)測其他具有相似背景學(xué)生的成績提供依據(jù)。
1.2 背景介紹
隨著社會競爭增大,對學(xué)生來說成績愈發(fā)重要,有大量的文章研究過影響學(xué)生成績的因素,主觀幸福感對學(xué)生數(shù)學(xué)成績有積極的影響作用[1],性格特征對學(xué)生不同學(xué)科有不同影響[2],除了這些主觀心理因素,生源省份,任課教師,所在學(xué)院等客觀因素對學(xué)生成績也有影響[3]。本文探討的指標(biāo)更客觀也更容易推廣。
本論文使用的數(shù)據(jù)是由葡萄牙米尼奧大學(xué)的Paulo Cortez 和Alice Silva收集的。表格包含395名葡萄牙中學(xué)生的數(shù)學(xué)成績以及可能影響學(xué)生成績的30個指標(biāo)。
2 數(shù)據(jù)介紹
該數(shù)據(jù)利用學(xué)校報告和問卷調(diào)查收集了兩所葡萄牙中學(xué)學(xué)生各方面信息,變量都被整理成為有兩個或五個分類的的數(shù)字,如表1。
3 模型分析
該文采用方差分析模型。為簡明闡述模型,假設(shè)自變量有母親教育程度,學(xué)校,更高的教育,戀愛與否。其相應(yīng)的數(shù)學(xué)模型為:
其中母親教育水平的5個程度依次為0,1,2,3,4,以教育水平為4為基準(zhǔn)。其他變量以此類推。
方差分析模型的整體顯著性,統(tǒng)計學(xué)上用以下的方法檢驗該假設(shè)??紤]兩個不同的模型:
模型A:G3=母親教育程度+學(xué)校+更高的教育+戀愛與否+隨機(jī)擾動
模型B:G3=學(xué)校+更高的教育+戀愛與否+隨機(jī)擾動
這兩個模型所產(chǎn)生的殘差平方和分別記為和 ,構(gòu)造如下F-統(tǒng)計量:
在原假設(shè)成立的條件下,該F統(tǒng)計量服從一個自由度為(df,n-p-1)的F分布。若拒絕原假設(shè),則母親教育程度這個因素是重要的。類似可檢驗其他因素的顯著性。
隨機(jī)選取數(shù)據(jù)的80%建立學(xué)生第三學(xué)年數(shù)學(xué)成績G3關(guān)于各個因素的回歸模型。方差分析結(jié)果表明學(xué)校,性別等一些因素不顯著(假設(shè)5%的顯著水平),將其剔除后再做方差回歸分析結(jié)果如表2。
模型的F檢驗拒絕原假設(shè),說明建立的模型是顯著的;調(diào)整判決系數(shù)為0.15,因為所有的變量中能直接影響G3的很少,但這同時也是我們能將這個模型應(yīng)用到每個學(xué)生的原因,如果有可以很直接影響G3的變量,可能模型的判決系數(shù)會很高,可這同時也影響了模型的推廣。
4 對模型中顯著因素分析
接下來我們形依次分析各個通過模型檢驗的變量對G3的影響。
家庭地址在城市和鄉(xiāng)村的學(xué)生分別有307人和88人,城市學(xué)生成績明顯高于農(nóng)村。
母親教育程度為0的學(xué)生成績反而要好,這是因為該分類下學(xué)生只有3人,樣本數(shù)量太少不具代表性。隨著母親教育程度的提高,學(xué)生的成績有些許上升的趨勢。
每周學(xué)習(xí)時間小于2小時和2-5小時的學(xué)生分別有105人和198人,占總?cè)藬?shù)的78%。隨著學(xué)習(xí)時間的增加,學(xué)生成績有上升的幅度。
學(xué)生掛科數(shù)目為0,1,2,3的人數(shù)分別為312,50,17和16。隨著掛科次數(shù)的增加,學(xué)生成績明顯呈下降趨勢。
學(xué)生戀愛和未戀愛分別有132人和263人。沒有處于戀愛關(guān)系的人成績要好一點。
隨著學(xué)生外出時間由非常少到非常多,學(xué)生成績有先上升后下降的趨勢。
學(xué)生年齡從15到22歲人數(shù)依次為82,104,98,82,24,3,1,1。排除樣本量小的分類,在前四個年齡中學(xué)生成績隨年齡增加稍有下滑。
5 預(yù)測評估
選取剩下20%數(shù)據(jù)應(yīng)用到模型中并采用相對預(yù)測誤差預(yù)測和檢驗?zāi)P?。?/p>
但是學(xué)生成績預(yù)測出來有可能為0,因此在分母上加上0.1。用R求得該相對誤差大約為33%。
6 結(jié)論及相關(guān)建議
由我們建立的統(tǒng)計模型可以得出以下結(jié)論:在控制其他因素不變時,可以得到如下結(jié)論:
(1)年齡的增加會帶來數(shù)學(xué)成績的增加,平均年齡增加一歲,數(shù)學(xué)成績增加0.04分;
(2)位于城市的學(xué)生的數(shù)學(xué)成績比農(nóng)村的平均高出0.77分;
(3)隨著母親教育程度的增加,學(xué)生的數(shù)學(xué)成績呈上升趨勢。這與家庭環(huán)境影響學(xué)生學(xué)習(xí)成績調(diào)查研究結(jié)論一致,母親受教育程度是家庭環(huán)境的一部分[4] ;
(4)學(xué)生成績隨著學(xué)習(xí)時間的增加而增加;
(5)隨著掛科次數(shù)的增多,學(xué)生成績呈下降趨勢;
(6)不談戀愛的學(xué)生比談戀愛的平均成績高出 1.3分;
(7)適度的外出可以增加學(xué)生的成績。
7 總結(jié)討論
這篇文章探究了學(xué)生的數(shù)學(xué)成績同學(xué)生自身的一些指標(biāo)的關(guān)系。模型的判決系數(shù)為15%,相對預(yù)測誤差為0.33。雖然模型的判決系數(shù)并非十分理想,但是鑒于實際情況如:樣本量的大小、某些重要的決定性變量未收集等條件等的限制,依舊選擇接受該結(jié)果。在未來后續(xù)的研究中可以從如下方面進(jìn)行改進(jìn):第一,收集一些直接決定學(xué)生成績的因素如:學(xué)生的智商水平,學(xué)生自身對課程的喜愛程度等。第二,增大樣本量收集更多的學(xué)生成績樣本。
參考文獻(xiàn)
[1] 姚一玲.學(xué)生主觀幸福感及其對學(xué)生數(shù)學(xué)成績的影響[D].上海:華東師范大學(xué),2016:1-180.
[2] 尹慧.影響蒙古族初中學(xué)生學(xué)業(yè)成績的性格特征研究[D].內(nèi)蒙古:內(nèi)蒙古師范大學(xué),2003:1-42.
[3] 王俊紅.影響在校學(xué)生成績的因素分析[D].天津:天津工業(yè)大學(xué),2006:1-30.
[4] 吳曉穎.家庭環(huán)境影響學(xué)生創(chuàng)造力和學(xué)習(xí)成績的調(diào)查研究[D].河北:河北師范大學(xué),2005:1-40.