• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      學(xué)生成績(jī)預(yù)測(cè)模型的對(duì)比分析

      2020-03-30 03:19:04王欣欣湯軍
      電腦知識(shí)與技術(shù) 2020年1期

      王欣欣 湯軍

      摘要:目的:旨在對(duì)比學(xué)生成績(jī)預(yù)測(cè)模型。方法:共獲取605條數(shù)據(jù),共32個(gè)解釋變量,通過特征選擇剩余23個(gè)自變量,建立訓(xùn)練集和測(cè)試集,以G3為目標(biāo)變量,分別構(gòu)建SVM模型、神經(jīng)網(wǎng)絡(luò)模型和逐步回歸模型,比較這三個(gè)模型的預(yù)測(cè)結(jié)果。結(jié)果:采用逐步回歸模型預(yù)測(cè)學(xué)生成績(jī)?cè)谧钚≌`差、最大誤差、平均誤差、平均絕對(duì)誤差和標(biāo)準(zhǔn)差方面均低于神經(jīng)網(wǎng)絡(luò)模型和SVM模型,在預(yù)測(cè)值和實(shí)際值的線性相關(guān)系數(shù)方面均高于神經(jīng)網(wǎng)絡(luò)模型和SVM模型。結(jié)論:在預(yù)測(cè)學(xué)生成績(jī)上,逐步回歸模型優(yōu)于神經(jīng)網(wǎng)絡(luò)模型和SVM模型。

      關(guān)鍵詞:學(xué)生成績(jī)預(yù)測(cè)模型;神經(jīng)網(wǎng)絡(luò)模型;逐步回歸模型;SVM模型;線性相關(guān)系數(shù)

      中圖分類號(hào):TP181 文獻(xiàn)標(biāo)識(shí)碼:A

      文章編號(hào):1009-3044(2020)01-0199-04

      1概述

      教育興則國(guó)家興,教育強(qiáng)則國(guó)家強(qiáng)。如何實(shí)現(xiàn)從我國(guó)是人口大國(guó)的現(xiàn)狀走向人口強(qiáng)國(guó)的轉(zhuǎn)變,實(shí)現(xiàn)中華民族偉大復(fù)興,教育有著不可忽視的地位和作用。近年來,隨著時(shí)代的進(jìn)步和國(guó)家的發(fā)展,教育方式也在不斷變化。現(xiàn)如今,通過對(duì)影響學(xué)生成績(jī)各種因素的分析,實(shí)現(xiàn)對(duì)學(xué)生成績(jī)的預(yù)測(cè),從而有針對(duì)性的提高學(xué)生學(xué)習(xí)成績(jī)是我國(guó)教育的主要目標(biāo)之一。

      本文通過獲取有關(guān)學(xué)生葡萄牙語成績(jī)和與成績(jī)相關(guān)的各方面數(shù)據(jù),運(yùn)用SPSS Statistics 20.0和SPSS Modeler 18.0軟件,分別采用神經(jīng)網(wǎng)絡(luò)模型、SVM模型、逐步回歸模型構(gòu)建數(shù)據(jù)挖掘模型進(jìn)行分析對(duì)比,構(gòu)建合適的預(yù)測(cè)模型。通過對(duì)獲取數(shù)據(jù)的分析,實(shí)現(xiàn)了對(duì)學(xué)生成績(jī)預(yù)測(cè)的模型構(gòu)建,對(duì)現(xiàn)代教育的發(fā)展起到了一定的積極作用。

      2數(shù)據(jù)準(zhǔn)備與模型假設(shè)

      2.1數(shù)據(jù)準(zhǔn)備

      本文所使用的兩個(gè)數(shù)據(jù)集是來自葡萄牙Minho大學(xué)的Pau-loCortez通過對(duì)Gabriel Pereira中學(xué)和Mousinho da Silveira中學(xué)的學(xué)生發(fā)放問卷調(diào)查來收集關(guān)于學(xué)生葡萄牙語成績(jī)數(shù)據(jù),現(xiàn)數(shù)據(jù)公布于kaggle網(wǎng)站(https://www.kaggle.com/uciml/student-alco-hd-consumptionl。數(shù)據(jù)中包含schod、sex、Medu、Fedu、Mjob、Fjob等與學(xué)生葡萄牙語期末成績(jī)相關(guān)的32個(gè)影響因素,數(shù)據(jù)集中包含649個(gè)樣本數(shù)據(jù)。

      2.2模型假設(shè)

      通常,在建立模型前,需要先對(duì)模型提出假設(shè):

      (1)假設(shè)學(xué)生的學(xué)習(xí)水平可以在一定程度上可以通過歷史學(xué)習(xí)水平來反映,通過學(xué)生的以往成績(jī)可以一定程度的預(yù)測(cè)未來成績(jī)。

      (2)假設(shè)影響學(xué)生成績(jī)的各個(gè)因素都是穩(wěn)定的,不會(huì)因?yàn)橥话l(fā)情況使學(xué)生成績(jī)大起大落。

      3數(shù)據(jù)預(yù)處理

      3.1數(shù)據(jù)描述

      原始數(shù)據(jù)中共包含33個(gè)變量,其中G3為目標(biāo)變量,其余32個(gè)變量為解釋變量,得到的模型寬度如表1所示。

      3.2變量賦值

      由表1可以看出,與目標(biāo)變量G3相關(guān)的32個(gè)預(yù)測(cè)變量中,有些變量類型是字符串類型,比如school、Mjob、fjob、Pstatus等變量。所以需要對(duì)這些變量進(jìn)行類型轉(zhuǎn)換和賦值。本文運(yùn)用SPSS Statistics 20.0軟件對(duì)字符串類型變量進(jìn)行變量轉(zhuǎn)換和賦值,具體賦值結(jié)果如表2所示。

      3.3無用特征剔除

      由表1可知,本文中的輸入變量共32個(gè),但并不是每個(gè)變量都對(duì)預(yù)測(cè)目標(biāo)變量G3有用,例如age變量系數(shù)低于閾值、paid單個(gè)類別過大,所以需要將這些變量進(jìn)行剔除。本文運(yùn)用SPSS Modeler 18.0軟件,采用“特征選擇”節(jié)點(diǎn)中的Pearson相關(guān)系數(shù)為判定準(zhǔn)則,剔除輸入變量相對(duì)于目標(biāo)變量的重要性小于0.95的特征。經(jīng)過特征選擇后,由原始數(shù)據(jù)的32個(gè)輸入變量剩余23個(gè)。最終的特征選擇結(jié)果如表3所示。

      4模型比較

      本文對(duì)數(shù)據(jù)進(jìn)行預(yù)處理之后,采用SPSS Modeler 18.0進(jìn)行建模,將數(shù)據(jù)按70:30的比例分為訓(xùn)練集和測(cè)試集,先分別將神經(jīng)網(wǎng)絡(luò)模型、SVM模型、逐步回歸模型在訓(xùn)練集上進(jìn)行建模,再將建立好的模型在測(cè)試集上進(jìn)行測(cè)試,最后對(duì)比測(cè)試結(jié)果。

      4.1神經(jīng)網(wǎng)絡(luò)模型的構(gòu)建

      4.1.1神經(jīng)網(wǎng)絡(luò)

      神經(jīng)網(wǎng)絡(luò)是通過對(duì)人腦神經(jīng)系統(tǒng)的一系列思考活動(dòng)過程的模擬,建立一種能接收、處理和判斷信息的類似于人腦結(jié)構(gòu)和功能的系統(tǒng),表現(xiàn)為通過各處理單元的相互連接而組成類似于人腦結(jié)構(gòu)的一種網(wǎng)狀結(jié)構(gòu)系統(tǒng),以此來達(dá)到處理相關(guān)非線性問題和邏輯操作的目的。圖1為一個(gè)簡(jiǎn)單的三層神經(jīng)網(wǎng)絡(luò),它包括輸入層、隱藏層和輸出層,各個(gè)層之間的連線代表權(quán)重。其中,輸入層的節(jié)點(diǎn)對(duì)應(yīng)的是待輸入的預(yù)測(cè)神經(jīng)元;輸出層的節(jié)點(diǎn)對(duì)應(yīng)的是目標(biāo)神經(jīng)元,目標(biāo)神經(jīng)元的個(gè)數(shù)可多可少,但是至少為1個(gè);隱含層處于輸入層和輸出層的中間位置,隱含層的層數(shù)和節(jié)點(diǎn)數(shù)決定了神經(jīng)網(wǎng)絡(luò)的復(fù)雜程度。

      4.1.2神經(jīng)網(wǎng)絡(luò)模型結(jié)果分析

      從神經(jīng)網(wǎng)絡(luò)模型的具體預(yù)測(cè)結(jié)果的相關(guān)指標(biāo)表4來分析,最小誤差為-11.452,最大誤差為6.004,平均誤差為-0.163,平均絕對(duì)誤差為1.77,標(biāo)準(zhǔn)差為2.589,預(yù)測(cè)值和實(shí)際值的線性相關(guān)系數(shù)為0.637,為中度相關(guān),預(yù)測(cè)效果不好。

      4.2 SVM模型的構(gòu)建

      4.2.1 SVM

      SVM(Support Vector Machinel支持向量機(jī),是一種二分類模型,目的是求解一個(gè)超平面,根據(jù)間隔最大化的原則對(duì)樣本數(shù)據(jù)進(jìn)行分割,最終轉(zhuǎn)化為解決一個(gè)凸二次規(guī)劃問題。

      如圖2所示,在低緯度(左邊)上,正負(fù)類樣本只能靠一個(gè)非線性平面(橢圓)來區(qū)分,但是映射到高緯度(右邊)上,可以找到這樣一個(gè)分離超平面,從而對(duì)樣本數(shù)據(jù)進(jìn)行分割。

      4.2.2 SVM模型結(jié)果分析

      從SVM模型的具體預(yù)測(cè)結(jié)果的相關(guān)指標(biāo)表5來分析,最小誤差為-11.151,最大誤差為5.457,平均誤差為-0.183,平均絕對(duì)誤差為1.458,標(biāo)準(zhǔn)差為2.322,預(yù)測(cè)值和實(shí)際值的線性相關(guān)系數(shù)為0.745,為中度相關(guān),預(yù)測(cè)效果普通。

      對(duì)比神經(jīng)網(wǎng)絡(luò)模型的預(yù)測(cè)指標(biāo),在最小誤差、最大誤差、平均絕對(duì)誤差、標(biāo)準(zhǔn)差方面,SVM模型均低于神經(jīng)網(wǎng)絡(luò)模型,只在平均誤差方面略高于神經(jīng)網(wǎng)絡(luò)模型;神經(jīng)網(wǎng)絡(luò)模型的線性相關(guān)系數(shù)為0.637,擬合效果不好,而SVM模型的線性相關(guān)系數(shù)為0.745,擬合效果普通。綜上所述,SVM模型略優(yōu)于神經(jīng)網(wǎng)絡(luò)模型。

      4.3逐步回歸模型的構(gòu)建

      4.3.1逐步回歸

      逐步回歸用于多重共線性的檢驗(yàn),建立最優(yōu)或合適的模型,是多元線性回歸分析中的一種方法,數(shù)學(xué)模型是:

      Y=βO+β1*X1+β2*X2+…+βn*Xn

      其基本思想是,對(duì)每個(gè)逐步引入的新變量進(jìn)行F檢驗(yàn),并對(duì)已經(jīng)引入的自變量進(jìn)行t檢驗(yàn),當(dāng)原來引入的自變量由于新的自變量的引入變得不再顯著時(shí),則將新引入的解釋變量進(jìn)行刪除舊?;静襟E是:先將每個(gè)自變量逐個(gè)與因變量進(jìn)行一元線性回歸分析,對(duì)自變量根據(jù)對(duì)因變量的影響程度進(jìn)行排序,然后按照影響程度從大到小的順序依次引入自變量,每引入一個(gè)新的自變量就要對(duì)自變量和回歸方程進(jìn)行檢驗(yàn),若顯著則引入,不顯著則剔除,直到無新的自變量可以引入。

      4.3.2逐步回歸模型結(jié)果分析

      運(yùn)用SPSS Modeler 18.0軟件對(duì)數(shù)據(jù)構(gòu)建逐步回歸模型,得到的統(tǒng)計(jì)結(jié)果如表6所示。由表6可知,在逐步回歸過程中,除G1、G2、failures、studytime、reason這些變量外,其余變量存在多重共線性,不滿足進(jìn)入逐步回歸的條件而被剔除。且模型的R2判定系數(shù)為0.859,說明在因變量的變異中,有85.9%可由自變量來解釋,模型預(yù)測(cè)效果比較好。根據(jù)t檢驗(yàn)的顯著性和F檢驗(yàn)的顯著性可知,G1、G2、failures、studytime、reason對(duì)目標(biāo)變量G3有著顯著影響??傻玫骄€性回歸方程為:

      Y=0.120*G1+0.911*G2-0.263*failures+0.147*studytime-0.097*reason

      根據(jù)逐步回歸方程對(duì)目標(biāo)變量G3進(jìn)行預(yù)測(cè),得到逐步回歸的具體預(yù)測(cè)指標(biāo)如表7所示。從逐步回歸的具體預(yù)測(cè)結(jié)果的相關(guān)指標(biāo)表7來分析,最小誤差為-9.247,最大誤差為2.576,平均誤差為-0.08,平均絕對(duì)誤差為0.861,標(biāo)準(zhǔn)差為1.375,預(yù)測(cè)值和實(shí)際值的線性相關(guān)系數(shù)為0.913,為高度相關(guān),預(yù)測(cè)效果非常好。

      4.4模型比較

      本文運(yùn)用神經(jīng)網(wǎng)絡(luò)、SVM、逐步回歸模型分別對(duì)學(xué)生葡萄牙語成績(jī)G3進(jìn)行預(yù)測(cè),分別得到三個(gè)預(yù)測(cè)結(jié)果指標(biāo),具體結(jié)果比較如表8所示。

      由表7可知,從最小誤差、最大誤差、平均誤差、平均絕對(duì)誤差、標(biāo)準(zhǔn)差這五個(gè)指標(biāo)來看,逐步回歸模型均低于神經(jīng)網(wǎng)絡(luò)模型和SVM模型;從實(shí)際值與預(yù)測(cè)值的線性相關(guān)系數(shù)這一指標(biāo)來看,逐步回歸模型達(dá)到了0.913,均高于神經(jīng)網(wǎng)絡(luò)模型和SVM模型。綜上所述,在預(yù)測(cè)學(xué)生成績(jī)方面,逐步回歸模型均優(yōu)于神經(jīng)網(wǎng)絡(luò)模型和SVM模型。

      5結(jié)論

      本文在獲得學(xué)生成績(jī)相關(guān)數(shù)據(jù)后,先通過運(yùn)用SPSS Statis-tics 20.0對(duì)數(shù)據(jù)進(jìn)行預(yù)處理,再運(yùn)用SPSS Modeler 18.0對(duì)指標(biāo)進(jìn)行特征選擇,使得剩余變量對(duì)目標(biāo)變量更具有預(yù)測(cè)性。分別運(yùn)用神經(jīng)網(wǎng)絡(luò)模型、SVM模型、逐步回歸模型建立學(xué)生成績(jī)預(yù)測(cè)模型,通過對(duì)三種模型預(yù)測(cè)結(jié)果的對(duì)比分析,得出逐步回歸模型比神經(jīng)網(wǎng)絡(luò)模型和SVM模型更適合學(xué)生成績(jī)預(yù)測(cè)的結(jié)論。因此,本文的研究在現(xiàn)實(shí)生活中具有一定的應(yīng)用價(jià)值。

      白朗县| 福州市| 清镇市| 调兵山市| 绍兴市| 延津县| 远安县| 石屏县| 西宁市| 阳原县| 宁德市| 青岛市| 益阳市| 天峨县| 大英县| 哈巴河县| 铜陵市| 金湖县| 许昌市| 安福县| 静安区| 穆棱市| 广宗县| 乌苏市| 敦化市| 友谊县| 革吉县| 海南省| 青河县| 通州区| 乃东县| 嵩明县| 上犹县| 广河县| 永胜县| 乳山市| 壶关县| 城口县| 陵川县| 青田县| 天柱县|