• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      大學(xué)初期學(xué)業(yè)表現(xiàn)與學(xué)生傾向性指標(biāo)的相關(guān)性研究
      ——基于機(jī)器學(xué)習(xí)的預(yù)測(cè)及可解釋性分析

      2023-12-30 08:44:10梅盛旺趙慧芳萬洪芳侯英杰
      關(guān)鍵詞:學(xué)業(yè)特征指標(biāo)

      梅盛旺,趙慧芳,萬洪芳,侯英杰

      (1.江西農(nóng)業(yè)大學(xué)南昌商學(xué)院 招生就業(yè)處,江西 九江 332020;2.江西農(nóng)業(yè)大學(xué) 教務(wù)處,江西 南昌 330045)

      一、引言

      學(xué)生學(xué)業(yè)表現(xiàn)不僅影響著學(xué)生未來的職業(yè)發(fā)展[1](P350-366),而且也是評(píng)價(jià)教育質(zhì)量和教師教學(xué)能力的重要指標(biāo)[2](P5-8)。學(xué)者們通過問卷調(diào)查法、觀察法、實(shí)驗(yàn)法等方法,對(duì)大學(xué)生學(xué)業(yè)表現(xiàn)影響因素進(jìn)行了深入研究[3](P1460-1479)。通常將學(xué)業(yè)表現(xiàn)的影響因素分為兩類指標(biāo)[4](P5-15,44,79):一是傾向性指標(biāo)(靜態(tài)指標(biāo)),即學(xué)生進(jìn)入學(xué)習(xí)環(huán)境時(shí)自身已經(jīng)帶有的一些屬性,如學(xué)生的個(gè)人特性[5](P1-16)、家庭背景[6](P189-214);二是行為表現(xiàn)指標(biāo)(動(dòng)態(tài)指標(biāo)),即學(xué)生在學(xué)習(xí)過程中體現(xiàn)的動(dòng)態(tài)指標(biāo),如學(xué)校因素[7](P1-8)、社會(huì)性活動(dòng)或聯(lián)系[8](P2117-2127)。在學(xué)習(xí)初期,傾向性指標(biāo)對(duì)學(xué)業(yè)表現(xiàn)的預(yù)測(cè)能力往往要強(qiáng)于行為表現(xiàn)指標(biāo)[9](P65-86)。

      從已有的研究來看,影響學(xué)生學(xué)業(yè)表現(xiàn)的因素錯(cuò)綜復(fù)雜,并且很難從單一的因素明確預(yù)測(cè)學(xué)生的學(xué)業(yè)表現(xiàn)。長期以來,教育學(xué)的研究大多基于小數(shù)據(jù),以傳統(tǒng)統(tǒng)計(jì)法為主,研究模式相對(duì)單一。絕大部分學(xué)業(yè)表現(xiàn)的相關(guān)研究數(shù)據(jù)是通過問卷調(diào)查和自我報(bào)告獲取,樣本數(shù)據(jù)量相對(duì)有限,并且傳統(tǒng)的統(tǒng)計(jì)分析方法在揭示變量之間復(fù)雜關(guān)系的能力方面受到限制。當(dāng)前隨著機(jī)器學(xué)習(xí)方法在各領(lǐng)域廣泛應(yīng)用,在社會(huì)科學(xué)研究領(lǐng)域也受到廣大學(xué)者的關(guān)注和應(yīng)用[10](P1-8)。算法時(shí)代的到來,改變了教育學(xué)研究的范式,從以往的“設(shè)計(jì)式研究”轉(zhuǎn)變成“全量式研究”。在評(píng)估影響學(xué)生學(xué)業(yè)表現(xiàn)因素方面,機(jī)器學(xué)習(xí)的優(yōu)勢(shì)明顯,其更擅長處理大數(shù)據(jù)并提取傳統(tǒng)方法可能遺漏的隱藏的內(nèi)在聯(lián)系,有利于重塑教育定量研究的取向和功能期望,助推教育定量研究乃至整個(gè)教育研究的范式實(shí)現(xiàn)突破[11](P35-44)。最近,支持向量機(jī)(SVM)、隨機(jī)森林、深度神經(jīng)網(wǎng)絡(luò)(DNN)、XGBoost等監(jiān)督機(jī)器學(xué)習(xí)方法已經(jīng)開始解決教育學(xué)研究領(lǐng)域的分類和預(yù)測(cè)問題[12](P881-889),如大學(xué)生行為規(guī)律性等行為模式對(duì)學(xué)習(xí)成績(jī)的影響[7](P1-8)、學(xué)生自殺率因素的預(yù)測(cè)模型建立[10](P1-8)等。

      雖然機(jī)器學(xué)習(xí)模型在分析結(jié)果上表現(xiàn)很優(yōu)異,但它的黑箱算法和模型內(nèi)部運(yùn)行機(jī)制(特別是深度模型、集成樹模型等復(fù)雜模型)很難理解。而可解釋的機(jī)器學(xué)習(xí)使機(jī)器學(xué)習(xí)系統(tǒng)的行為和預(yù)測(cè)更易理解。SHAP(Shapley Additive exPlanations)使用來自博弈論及其相關(guān)擴(kuò)展的經(jīng)典 Shapley value將最佳信用分配與局部解釋聯(lián)系起來,是一種基于游戲理論上最優(yōu)的 Shapley value來解釋個(gè)體預(yù)測(cè)的方法[13](P4768-4777)。

      不同的家庭背景[14](P129-148)、個(gè)人特征[5](P1-16)、大學(xué)入學(xué)標(biāo)準(zhǔn)考試成績(jī)[15](P74-80)、對(duì)教育的期望或?qū)I(yè)滿意度[16](P70-76)以及目標(biāo)期望[17](P1-15) [18] (P121-160)對(duì)學(xué)生的學(xué)業(yè)表現(xiàn)都有著重要影響。而這些信息屬于傾向性指標(biāo),并且能夠從學(xué)生入學(xué)信息中提取出來,因此,本研究以學(xué)生傾向性指標(biāo)信息為基礎(chǔ),利用機(jī)器學(xué)習(xí)算法(隨機(jī)森林、XGBoost、樸素貝葉斯、邏輯回歸)識(shí)別影響學(xué)生大學(xué)初期(大學(xué)一年級(jí))學(xué)習(xí)成績(jī)的重要因素,并建立模型來反映這些因素對(duì)不同學(xué)業(yè)表現(xiàn)學(xué)生的影響程度(如圖1所示),以便于學(xué)校和教師能夠提前關(guān)注學(xué)業(yè)成績(jī)存在風(fēng)險(xiǎn)的學(xué)生。同時(shí),基于SHAP方法分析模型的可解釋性,以確保結(jié)果易于理解并在實(shí)踐中應(yīng)用。

      圖1 研究流程

      二、 數(shù)據(jù)和方法

      (一) 數(shù)據(jù)收集

      研究數(shù)據(jù)為江西省一所地方院校2020年和2021年入學(xué)的共計(jì)4 273名學(xué)生的信息和數(shù)據(jù),其中,2020年入學(xué)學(xué)生1 934名,2021年入學(xué)學(xué)生2 339名。依據(jù)學(xué)者們的相關(guān)研究和典型應(yīng)用,選取關(guān)鍵傾向性指標(biāo)(見表1),包括高考錄取投檔信息、在校表現(xiàn)、個(gè)人信息、家庭背景、錄取期望、目標(biāo)期望等。其中,特征變量說明見表2。所使用的學(xué)生數(shù)據(jù)均匿名,不涉及個(gè)人隱私。

      表1 關(guān)鍵傾向性指標(biāo)

      1.個(gè)人信息、家庭背景信息及學(xué)生高考錄取投檔信息

      一是個(gè)人信息,從該校招生錄取系統(tǒng)中獲取,包括性別、政治面貌、民族、地區(qū)、年齡等信息。二是家庭背景信息,通過問卷調(diào)查方式獲取,包括獨(dú)生子女、父母最高學(xué)歷、家庭收入情況等信息。三是高考錄取投檔信息,包括投檔分?jǐn)?shù)、語文成績(jī)、數(shù)學(xué)成績(jī)、外語成績(jī)、考生類別、錄取志愿、考試科類、招生省份、錄取院系、外語語種、考試類別、批次、科類、特長、獲獎(jiǎng)情況等信息。其中,高考成績(jī)變量由于不同省份高考本科分?jǐn)?shù)線不同,為公平地衡量學(xué)生高考成績(jī),本研究中采取分控比形式,即考生投檔分?jǐn)?shù)與生源省份當(dāng)年本科省控線的比作為該生生源質(zhì)量的賦分,以及語文、數(shù)學(xué)、外語成績(jī);考生類別,包括農(nóng)村應(yīng)屆、農(nóng)村往屆、城市應(yīng)屆、城市往屆4個(gè)類別;錄取志愿,即學(xué)生被錄取的專業(yè)是其報(bào)考專業(yè)志愿順序數(shù)。

      2.錄取期望和目標(biāo)期望信息

      數(shù)據(jù)由對(duì)學(xué)生的問卷調(diào)查方式獲取,本文使用錄取到本專業(yè)意愿、錄取到本學(xué)校意愿、對(duì)專業(yè)的滿意度、對(duì)學(xué)校的滿意度、畢業(yè)去向的初步想法等字段,并對(duì)這些字段進(jìn)行特征化處理。

      3.在校表現(xiàn)信息

      包括大學(xué)一年級(jí)的GPA、參加比賽獎(jiǎng)勵(lì)分、操行表現(xiàn)分等。GPA越高,說明該學(xué)生在大學(xué)初期學(xué)業(yè)表現(xiàn)越好。參加比賽獎(jiǎng)勵(lì)分按照學(xué)校學(xué)生守則中的規(guī)定進(jìn)行賦分,根據(jù)比賽級(jí)別和獲獎(jiǎng)等級(jí)情況進(jìn)行累加賦分,代表學(xué)生的在?;顒?dòng)表現(xiàn)情況,分?jǐn)?shù)越高說明學(xué)生在學(xué)?;顒?dòng)中表現(xiàn)越優(yōu)秀;操行表現(xiàn)分是指在校操行表現(xiàn)、參加課外活動(dòng)情況所得的分?jǐn)?shù),分?jǐn)?shù)越高說明學(xué)生操行表現(xiàn)越好。

      (二)方法

      1.模型訓(xùn)練

      利用機(jī)器學(xué)習(xí)算法對(duì)大學(xué)生學(xué)業(yè)表現(xiàn)進(jìn)行分類預(yù)測(cè)。GPA數(shù)據(jù)作為分類標(biāo)簽,并做以下規(guī)定:分為3.0以下(低GPA 組)、3.0~3.5(中GPA 組)以及3.5以上(高GPA 組)三組,其中3.0以下為學(xué)業(yè)表現(xiàn)一般,3.0~3.5為學(xué)業(yè)表現(xiàn)良好,3.5以上為學(xué)業(yè)表現(xiàn)優(yōu)秀。學(xué)生的GPA分布情況如圖2所示,將近55%的學(xué)生屬于學(xué)業(yè)表現(xiàn)一般,將近40%的學(xué)生屬于學(xué)業(yè)表現(xiàn)良好,而將近5%的學(xué)生屬于學(xué)業(yè)表現(xiàn)優(yōu)秀。由于高GPA組的樣本偏少,采取重復(fù)增加高GPA組數(shù)據(jù)至20%的方式,便于訓(xùn)練模型。

      圖2 GPA頻率分布圖

      采用隨機(jī)森林、XGBoost、樸素貝葉斯、邏輯回歸等四類機(jī)器學(xué)習(xí)的算法,利用網(wǎng)格搜索驗(yàn)證法優(yōu)化以上模型的參數(shù)配置。其中,利用機(jī)器學(xué)習(xí)工具Scikit-Learn隨機(jī)分隔數(shù)據(jù),將數(shù)據(jù)的80%作為訓(xùn)練集,20%作為測(cè)試集,分別對(duì)機(jī)器學(xué)習(xí)模型進(jìn)行訓(xùn)練和驗(yàn)證評(píng)價(jià)。對(duì)缺失字段的數(shù)據(jù)樣本進(jìn)行刪除。

      分類模型在測(cè)試集上的性能用準(zhǔn)確度、精確度、混淆矩陣、召回率、F1分?jǐn)?shù)、Jaccard分?jǐn)?shù)和海明損失等評(píng)價(jià)指標(biāo)來衡量。

      2.可解釋SHAP模塊

      使用SHAP度量數(shù)據(jù)特征重要性并進(jìn)行解釋。①基于合作博弈中SHAP理論的歸因分析方法, 計(jì)算機(jī)器學(xué)習(xí)模型中各因素的重要性估計(jì)值貢獻(xiàn)g(x′)用式(1)表示,其中,x′為M個(gè)特征的簡(jiǎn)化輸入,φ0為平均貢獻(xiàn)值,φj為貢獻(xiàn)特征j的Shapley值。當(dāng)φ0為模型輸出期望E(f(x))時(shí),SHAP輸出值與模型的真實(shí)輸出值相接近[19](3386-3404)。

      f(x)(i.e.φ0)=E(f(x))。

      (1)

      (三) 特征工程處理

      1.獨(dú)熱編碼

      對(duì)于分類特征變量,特征值不連續(xù),呈現(xiàn)出離散、無序狀態(tài),采取獨(dú)熱編碼(One-Hot Encoding)進(jìn)行處理。獨(dú)熱編碼是將離散變量的特征取值擴(kuò)展到歐式空間,將分類數(shù)據(jù)進(jìn)行二進(jìn)制化向量表示。本研究中對(duì)招生省份、錄取院系、外語語種、性別、民族、考試類別代碼、批次代碼、科類代碼、政治面貌、地區(qū)、特長代碼、高中獲獎(jiǎng)代碼等12個(gè)分類變量進(jìn)行獨(dú)熱編碼,共獲得2 421個(gè)特征。

      2.Lasso特征選擇

      Lasso是一種采用L1正則化的線性回歸算法[20](P273-282),利用絕對(duì)系數(shù)函數(shù)作為懲罰函數(shù),通過加入L1正則懲罰項(xiàng)來縮減變量的系數(shù)至0,從而達(dá)到特征選擇的目的[21](P1-49)。通過Lasso變量選擇,最終確定130個(gè)特征作為機(jī)器學(xué)習(xí)的變量。

      三、結(jié)果分析與討論

      (一)部分特征工程描述

      1.高考成績(jī)

      高考總成績(jī)與GPA呈現(xiàn)兩段式變化,第一段是分控比值≤1.04時(shí),隨著分控比值升高,GPA值呈上升趨勢(shì);第二段是分控比值>1.04時(shí),隨著分控比值升高,GPA值整體有下降趨勢(shì)。分控比值主要是集中于1.03~1.05,而分控比值≤1.04的學(xué)生占比較大,為67.2%。

      以5分為區(qū)間取得的語文、數(shù)學(xué)和外語成績(jī)相應(yīng)的GPA平均值(如圖3所示),高考分控比(圖3(a))、高考語文成績(jī)(圖3(b))、高考數(shù)學(xué)成績(jī)(圖3(c))和高考外語成績(jī)(圖3(d))與GPA的分布情況。高考語文(R2=0.22,Pearson=0.47)、數(shù)學(xué)(R2=0.57,Pearson=0.76)和外語(R2=0.63,Pearson=0.83)成績(jī)擬合的曲線斜率為正值,對(duì)GPA表現(xiàn)都呈現(xiàn)出正向影響,其中外語成績(jī)的影響最為明顯,曲線斜率最大,擬合程度最好。

      圖3 高考成績(jī)與GPA關(guān)系圖

      2.考生類別

      將考生類別分為城鎮(zhèn)應(yīng)屆、農(nóng)村應(yīng)屆、城鎮(zhèn)往屆和農(nóng)村往屆4類,進(jìn)一步分析4類學(xué)生的GPA分布情況。如圖4所示,由農(nóng)村應(yīng)屆—城鎮(zhèn)應(yīng)屆—農(nóng)村往屆—城鎮(zhèn)往屆的GPA平均值和中值呈現(xiàn)出輕微依次遞減的趨勢(shì),表明城鄉(xiāng)應(yīng)、往屆類別與學(xué)業(yè)表現(xiàn)存在一定的聯(lián)系。這與其他學(xué)者的研究結(jié)果一致,即城鎮(zhèn)和農(nóng)村學(xué)生的學(xué)業(yè)表現(xiàn)是存在差異的[22](P353-372)。

      圖4 不同考生類別的GPA箱型圖

      3.在校表現(xiàn)

      獎(jiǎng)勵(lì)分?jǐn)?shù)與GPA關(guān)系如圖5、圖6所示。操行獎(jiǎng)勵(lì)分?jǐn)?shù)、比賽獎(jiǎng)勵(lì)分?jǐn)?shù)與GPA呈線性關(guān)系。如熱力圖所示,操行獎(jiǎng)勵(lì)分<5分的學(xué)生密度較大,比賽獎(jiǎng)勵(lì)分<20分的學(xué)生密度較大。其中,比賽獎(jiǎng)勵(lì)分和GPA呈強(qiáng)烈的正相關(guān)性(R2=0.92),而操行獎(jiǎng)勵(lì)分和GPA的相關(guān)性相對(duì)較小(R2=0.59),說明學(xué)生在校的表現(xiàn)與學(xué)業(yè)表現(xiàn)是存在關(guān)系的。

      4.目標(biāo)期望

      學(xué)生畢業(yè)的初步目標(biāo)包括自主創(chuàng)業(yè)、目前還沒想法或暫不考慮就業(yè)、自由職業(yè)、直接就業(yè)、參軍入伍和繼續(xù)升學(xué)等6個(gè)目標(biāo)。據(jù)表3和圖7顯示,畢業(yè)去向目標(biāo)與學(xué)生的學(xué)業(yè)表現(xiàn)存在一定的聯(lián)系,其中想繼續(xù)升學(xué)的學(xué)生的學(xué)業(yè)表現(xiàn)最優(yōu),明顯要優(yōu)于其他目標(biāo)意愿的學(xué)生,而自主創(chuàng)業(yè)意愿的學(xué)生學(xué)業(yè)表現(xiàn)最差。

      圖5 操行獎(jiǎng)勵(lì)分與GPA熱力圖

      圖6 比賽獎(jiǎng)勵(lì)分與GPA熱力圖

      表3 畢業(yè)目標(biāo)期望分布情況

      圖7 畢業(yè)目標(biāo)期望頻率分布關(guān)系

      (二)分類模型比較:模型效果的分析與比較

      模型的測(cè)試集結(jié)果評(píng)價(jià)指標(biāo)如表4、圖8所示。模型評(píng)價(jià)的參數(shù)包括準(zhǔn)確度、精度、召回率、F1分?jǐn)?shù)、Jaccard score和Hamming loss。表4和圖8是這四類機(jī)器學(xué)習(xí)模型的評(píng)價(jià)指標(biāo)具體值,顯然隨機(jī)森林分類模型的各項(xiàng)評(píng)價(jià)指標(biāo)相對(duì)最好,XGBoost、邏輯回歸和樸素貝葉斯模型評(píng)價(jià)指標(biāo)則相當(dāng),模型表現(xiàn)次于隨機(jī)森林。隨機(jī)森林的F1分?jǐn)?shù)和Jaccard分?jǐn)?shù)最高,Hamming loss最低,對(duì)本研究的分類預(yù)測(cè)和特征抽取具有重要意義。

      表4 模型評(píng)價(jià)指標(biāo)

      圖8 模型評(píng)價(jià)指標(biāo)柱狀圖

      隨機(jī)森林、XGBoost、樸素貝葉斯和邏輯回歸4種算法模型的測(cè)試集混淆矩陣結(jié)果顯示(如圖9所示),高GPA組和低GPA組分類模型的預(yù)測(cè)效果相比中GPA組要更好,對(duì)三類學(xué)業(yè)表現(xiàn)組的分類效果排序:隨機(jī)森林>XGBoost>樸素貝葉斯>邏輯回歸。因此,隨機(jī)森林算法模型對(duì)這三類學(xué)業(yè)表現(xiàn)組分類效果最佳。

      (三) 模型結(jié)果解釋:基于SHAP可解釋性方法的學(xué)業(yè)表現(xiàn)重要特征因素評(píng)估

      基于上述模型比較,選擇最優(yōu)模型,根據(jù)SHAP算法解釋隨機(jī)森林的重要特征,進(jìn)一步討論影響學(xué)業(yè)表現(xiàn)的因素,SHAP值越高的變量對(duì)模型的貢獻(xiàn)越大。SHAP算法是一種方便的基于樹的模型工具,可用于估計(jì)每個(gè)分類特征的相對(duì)重要性,即一個(gè)特征的SHAP值表示它通過減少損失來影響模型預(yù)測(cè)的程度[23](P1-22)。使用隨機(jī)森林模型實(shí)現(xiàn)Tree Explainer來計(jì)算每個(gè)特性的SHAP值。在多類問題的特征重要性堆疊條形圖(如圖10所示)中,特征是根據(jù)其降序的平均SHAP值或重要性排序的。由圖10可知,學(xué)生在?;顒?dòng)的表現(xiàn)情況以及高考數(shù)學(xué)成績(jī)、外語成績(jī)等入學(xué)成績(jī)對(duì)學(xué)生大學(xué)初期學(xué)業(yè)表現(xiàn)的影響較為明顯,錄取的專業(yè)和系別以及學(xué)生對(duì)本專業(yè)的滿意度也存在影響,性別、民族、生源省份、考生類別等學(xué)生個(gè)人信息對(duì)學(xué)生學(xué)業(yè)表現(xiàn)的預(yù)測(cè)結(jié)果有較為明顯的影響。

      圖9 模型混淆矩陣圖

      圖10 特征絕對(duì)值排序圖

      使用SHAP算法計(jì)算測(cè)試集每一個(gè)樣品對(duì)輸出結(jié)果的影響,用以評(píng)估各特征對(duì)模型的貢獻(xiàn)。SHAP概要圖(如圖11所示)中一個(gè)點(diǎn)代表一個(gè)特征,正SHAP值代表該特征對(duì)模型的影響是正向的,而負(fù)SHAP值代表該特征對(duì)模型的影響是負(fù)向的,其中藍(lán)色表示該特征的貢獻(xiàn)是負(fù)數(shù),紅色則表示該特征的貢獻(xiàn)是正數(shù)。SHAP值依賴圖(如圖12所示)用以說明特征變量對(duì)模型預(yù)測(cè)結(jié)果的邊際效應(yīng),能夠反映出預(yù)測(cè)結(jié)果與特征之間呈現(xiàn)出的相關(guān)關(guān)系。

      圖11 高、中、低GPA組樣本SHAP值分布圖

      1.高GPA組

      在隨機(jī)森林分類算法預(yù)測(cè)模型中,高考外語和數(shù)學(xué)成績(jī)的紅色數(shù)據(jù)點(diǎn)主要位于坐標(biāo)軸右側(cè),其SHAP值為正值時(shí)對(duì)模型的正向影響明顯。依賴圖12(a)—12(f)中顯示出與SHAP值正相關(guān)的特點(diǎn),高考外語和數(shù)學(xué)成績(jī)能夠正向影響學(xué)生的學(xué)業(yè)表現(xiàn),這與其他學(xué)者的研究結(jié)論一致[15](P74-80)。同時(shí),選擇專業(yè)的意愿和對(duì)未來畢業(yè)后的期望對(duì)學(xué)生的學(xué)業(yè)成績(jī)具有正向影響(如圖11(a)所示)。換而言之,在高GPA組中,學(xué)生對(duì)專業(yè)選擇和未來規(guī)劃有明確想法,其學(xué)業(yè)表現(xiàn)也相對(duì)更出色。此外,從圖12(j)可以明顯看出,考生類別與SHAP值呈負(fù)相關(guān)關(guān)系,表明在學(xué)業(yè)表現(xiàn)優(yōu)秀的學(xué)生中,應(yīng)屆生的表現(xiàn)要好于往屆生,農(nóng)村學(xué)生要好于城市學(xué)生。比賽獎(jiǎng)勵(lì)分對(duì)模型具有重要影響。圖12(c)中,比賽獎(jiǎng)勵(lì)分特征紅色數(shù)據(jù)點(diǎn)主要位于坐標(biāo)軸右側(cè),其SHAP值為正值時(shí)對(duì)模型的正向影響明顯,圖12(f)中也顯示出比賽獎(jiǎng)勵(lì)分與SHAP值呈現(xiàn)正相關(guān)關(guān)系,這說明學(xué)生的比賽獎(jiǎng)勵(lì)分越高,其學(xué)業(yè)表現(xiàn)越好。操行表現(xiàn)分呈現(xiàn)出與比賽獎(jiǎng)勵(lì)分相同的特點(diǎn),說明高GPA組學(xué)生參加比賽表現(xiàn)和在校操行表現(xiàn)越好對(duì)學(xué)業(yè)表現(xiàn)越有積極作用。

      圖12 變量與SHAP值依賴圖

      2.中GPA組

      與高GPA組的影響特征相似,比賽獎(jiǎng)勵(lì)分、高考數(shù)學(xué)成績(jī)特征對(duì)中GPA組模型的影響較大,而操行獎(jiǎng)勵(lì)分對(duì)模型的正向影響程度要低于比賽獎(jiǎng)勵(lì)分,但考生類別對(duì)中GPA組的學(xué)生影響不明顯(如圖11b所示)。

      3.低GPA組

      高考外語成績(jī)、數(shù)學(xué)成績(jī)、比賽獎(jiǎng)勵(lì)分和操行表現(xiàn)分對(duì)低GPA組呈負(fù)向影響。如圖11(c)所示,高考外語成績(jī)、數(shù)學(xué)成績(jī)、比賽獎(jiǎng)勵(lì)分和操行表現(xiàn)分特征紅色數(shù)據(jù)點(diǎn)主要位于坐標(biāo)軸左側(cè);而特征藍(lán)色數(shù)據(jù)點(diǎn)主要位于坐標(biāo)軸右側(cè),說明特征值較小時(shí),其SHAP值為正值,表明學(xué)生的高考外語成績(jī)、數(shù)學(xué)成績(jī)以及比賽獎(jiǎng)勵(lì)分?jǐn)?shù)越低,其GPA值也可能表現(xiàn)出上升的趨勢(shì)(圖12(c)和圖12(d))。依賴圖(圖12(i)-(j))中也顯示出比賽獎(jiǎng)勵(lì)分與SHAP值呈現(xiàn)負(fù)相關(guān)關(guān)系,這意味著低GPA組學(xué)生的比賽獎(jiǎng)勵(lì)分?jǐn)?shù)越高,其學(xué)業(yè)表現(xiàn)反而不好。錄取專業(yè)的意愿、對(duì)未來畢業(yè)后的想法呈現(xiàn)出與比賽獎(jiǎng)勵(lì)分相似的特點(diǎn),即藍(lán)色數(shù)據(jù)點(diǎn)位于坐標(biāo)軸右側(cè),紅色點(diǎn)位于坐標(biāo)軸左側(cè)(如圖11(c)所示)。實(shí)際上,低GPA組的學(xué)生往往目標(biāo)不明確或者渴望自主創(chuàng)業(yè),這一類學(xué)生學(xué)業(yè)上表現(xiàn)較為一般。圖12(l)中,考生類別與SHAP值呈正相關(guān)關(guān)系,說明學(xué)業(yè)表現(xiàn)一般的學(xué)生組中,往屆考生對(duì)模型的影響要大于應(yīng)屆考生。

      四、結(jié)論與建議

      (一)結(jié)論與研究局限

      1.結(jié)論

      本文利用機(jī)器學(xué)習(xí)模型對(duì)大學(xué)生初期學(xué)業(yè)表現(xiàn)的傾向性影響因素進(jìn)行了探討,基于SHAP方法解釋了模型特征的貢獻(xiàn)程度。通過上述的分析發(fā)現(xiàn),影響大學(xué)生初期學(xué)業(yè)表現(xiàn)的傾向性指標(biāo)特征是復(fù)雜的,不能單獨(dú)用某個(gè)因素解釋??傮w而言,歸結(jié)為以下四個(gè)方面。

      第一,特征SHAP值反映了個(gè)體屬性,如性別、民族、年齡、家庭結(jié)構(gòu)等學(xué)生個(gè)人信息,對(duì)學(xué)生大學(xué)初期的學(xué)業(yè)表現(xiàn)有明顯影響。以性別特征為例,學(xué)業(yè)表現(xiàn)呈現(xiàn)出性別差異,女生在大學(xué)初期學(xué)業(yè)表現(xiàn)要好于男生,這與梁耀明等[24](P55-59)的研究結(jié)論一致。男女生的生理和心理成長具有一定的規(guī)律性,他們?cè)谥橇撃?、自覺意識(shí)覺醒過程方面存在差異,男生往往具備“后發(fā)優(yōu)勢(shì)”。而家庭背景因素,如城鎮(zhèn)/農(nóng)村生源性質(zhì)(考生類別)、是否獨(dú)生子女、父母學(xué)歷以及家庭經(jīng)濟(jì)狀況與學(xué)生學(xué)業(yè)表現(xiàn)情況也存在著一定關(guān)系。

      第二,對(duì)于不同學(xué)業(yè)層次的學(xué)生,影響他們學(xué)業(yè)表現(xiàn)的因素是有區(qū)別的??傮w上看,高考數(shù)學(xué)成績(jī)、外語成績(jī)、比賽獎(jiǎng)勵(lì)分、操行表現(xiàn)分的影響較大。高考成績(jī)是初始知識(shí)技能指標(biāo),對(duì)之后的學(xué)習(xí)具有一定的延續(xù)影響。而學(xué)生的校園行為模式,如參加活動(dòng)或比賽的積極性、在活動(dòng)或比賽中的表現(xiàn)與學(xué)業(yè)表現(xiàn)是存在相關(guān)性的。但是這種相關(guān)性并不是簡(jiǎn)單的線性關(guān)系,在不同學(xué)業(yè)層次的學(xué)生中,學(xué)生的校園行為模式的影響是存在差異的。

      第三,學(xué)生的個(gè)人期望對(duì)大學(xué)生初期學(xué)業(yè)表現(xiàn)影響相對(duì)突出。一方面,錄取專業(yè)和系別是否符合學(xué)生的入學(xué)期望影響著大學(xué)初期學(xué)生的學(xué)業(yè)表現(xiàn),通常錄取專業(yè)符合學(xué)生期望,則正向促進(jìn)學(xué)業(yè)成就;另一方面,具有明確畢業(yè)目標(biāo)期望的學(xué)生學(xué)業(yè)表現(xiàn)往往較好,學(xué)生通過追求學(xué)習(xí)目標(biāo),持續(xù)獲得驅(qū)動(dòng)學(xué)業(yè)成就的動(dòng)力,對(duì)學(xué)業(yè)表現(xiàn)有正向影響。

      第四,相較于高、中、低GPA組的學(xué)生存在更大的學(xué)習(xí)困難風(fēng)險(xiǎn),其影響特征具有一定的可識(shí)別性。低GPA組學(xué)生的高考數(shù)學(xué)、外語分?jǐn)?shù)以及在?;顒?dòng)表現(xiàn)相對(duì)較差,并且城鎮(zhèn)學(xué)生比農(nóng)村學(xué)生具有更大的學(xué)業(yè)風(fēng)險(xiǎn),部分學(xué)生目標(biāo)定位不明晰、自我認(rèn)知不足。

      此外,雖然高考總分?jǐn)?shù)比值對(duì)模型結(jié)果有一定程度的影響,但由于該學(xué)院的高考錄取分?jǐn)?shù)相對(duì)集中,學(xué)生間高考總分的分差小,呈現(xiàn)扁平化特點(diǎn),因此在本模型中高考總分對(duì)預(yù)測(cè)結(jié)果的貢獻(xiàn)程度有限。而對(duì)專業(yè)和學(xué)校的錄取意愿、對(duì)未來畢業(yè)后的想法、考生類別等因素對(duì)模型的影響則相對(duì)明顯。

      2.研究的局限性

      本研究的局限性主要有兩點(diǎn):第一,本研究?jī)H是觀察了一所地方院校的學(xué)生,數(shù)據(jù)涵蓋面不夠廣,不能夠很好地建立系統(tǒng)的、具有很強(qiáng)代表性的模型。第二,本研究所采用的數(shù)據(jù)變量存在一定局限性,當(dāng)前中國不同層次高校的生源結(jié)構(gòu)已經(jīng)呈現(xiàn)較為明顯的差異分化特點(diǎn)。本文的研究對(duì)象是地方院校的學(xué)生,實(shí)際上地方院校的生源結(jié)構(gòu)已經(jīng)固化,如家庭背景因素,在這所院校中父輩的教育程度90%為高中及以下學(xué)歷,機(jī)器學(xué)習(xí)模型難以訓(xùn)練并評(píng)估父輩教育程度對(duì)學(xué)業(yè)表現(xiàn)分類的重要性。

      (二)建議

      1.構(gòu)建學(xué)業(yè)預(yù)警機(jī)制,引入有效預(yù)測(cè)指標(biāo)

      學(xué)業(yè)預(yù)警機(jī)制對(duì)降低學(xué)生學(xué)業(yè)風(fēng)險(xiǎn)有重要作用。干預(yù)措施不能僅限于事后,應(yīng)提前關(guān)注和介入,篩查出潛在的“學(xué)困”學(xué)生。傾向性指標(biāo),如性別、年齡、民族、家庭背景、高中學(xué)業(yè)成績(jī)等對(duì)學(xué)生的初期學(xué)業(yè)表現(xiàn)有較為顯著影響。此外,學(xué)生的行為表現(xiàn)、生活和學(xué)習(xí)的規(guī)律性、自律程度、日常出勤率等數(shù)據(jù)指標(biāo)都能預(yù)測(cè)出學(xué)生的學(xué)業(yè)表現(xiàn)。對(duì)于剛步入大學(xué)的一年級(jí)新生,以學(xué)生的高考成績(jī)作為一項(xiàng)觀測(cè)指標(biāo),可對(duì)新生的專業(yè)興趣和未來目標(biāo)等進(jìn)行調(diào)研。通過綜合預(yù)警指標(biāo),建立學(xué)生學(xué)業(yè)預(yù)警機(jī)制,及時(shí)干預(yù)學(xué)業(yè)表現(xiàn)相對(duì)較弱的學(xué)生。

      2.建立學(xué)業(yè)幫扶模式,提前關(guān)注學(xué)業(yè)預(yù)警學(xué)生

      對(duì)學(xué)業(yè)表現(xiàn)可能存在危機(jī)的學(xué)生重點(diǎn)進(jìn)行引導(dǎo),建立學(xué)業(yè)幫扶模式。以專業(yè)課老師和輔導(dǎo)員為主體,激發(fā)學(xué)生的學(xué)習(xí)動(dòng)力,幫助剖析造成學(xué)生學(xué)業(yè)困難的原因,遏制學(xué)生學(xué)業(yè)繼續(xù)惡化的情況[25](P43-50)。一方面,積極的求職或求學(xué)目標(biāo)對(duì)學(xué)業(yè)有著正向的影響,因此可以通過引導(dǎo)學(xué)生樹立積極的價(jià)值觀、學(xué)業(yè)觀和就業(yè)觀,正向促進(jìn)學(xué)生學(xué)業(yè)進(jìn)步。另一方面,學(xué)生對(duì)專業(yè)的滿意度和興趣度也是影響學(xué)業(yè)成績(jī)的一個(gè)重要因素,缺乏專業(yè)興趣的學(xué)生往往很難取得良好的學(xué)業(yè)成績(jī)。創(chuàng)新專業(yè)課程教學(xué)方法,改革傳統(tǒng)課程模式,培養(yǎng)學(xué)生學(xué)習(xí)興趣,將案例分析、小組討論、游戲活動(dòng)等方式引入課堂。改革和創(chuàng)新教學(xué)方式方法,增強(qiáng)學(xué)生對(duì)專業(yè)學(xué)習(xí)的興趣,幫助學(xué)生提升自我效能感,改善預(yù)警學(xué)生的“學(xué)困”程度。

      3.加強(qiáng)學(xué)生心理引導(dǎo),融通“校師家”育人

      在學(xué)業(yè)表現(xiàn)變化過程中存在邊緣化軌跡:心理變化—結(jié)構(gòu)邊緣—心理邊緣[26](P112-119),一旦不良學(xué)業(yè)表現(xiàn)結(jié)果形成,學(xué)生的消極應(yīng)對(duì)行為將使學(xué)業(yè)成績(jī)陷入惡性循環(huán)。從學(xué)校角度,應(yīng)建立學(xué)業(yè)預(yù)警機(jī)制,設(shè)置學(xué)生心理疏導(dǎo)中心、學(xué)業(yè)幫扶工作室;從教師角度,應(yīng)提前介入學(xué)業(yè)預(yù)警學(xué)生的學(xué)習(xí)生活,著重關(guān)注學(xué)業(yè)表現(xiàn)存在困難的學(xué)生,傾聽學(xué)生的聲音,從心理上正向引導(dǎo);從家長角度,應(yīng)主動(dòng)與學(xué)校溝通,適當(dāng)參與并引導(dǎo)子女的學(xué)習(xí)方式、幫助他們建立積極的學(xué)業(yè)觀。學(xué)校、教師、家長三方共同育人,協(xié)同促進(jìn)學(xué)生學(xué)業(yè)進(jìn)步,改善“學(xué)困”學(xué)生的不良狀況。

      注 釋:

      ①本文使用的機(jī)器學(xué)習(xí)模型訓(xùn)練過程和SHAP方法都是利用Python語言編寫。

      猜你喜歡
      學(xué)業(yè)特征指標(biāo)
      艱苦的學(xué)業(yè)
      音樂提升學(xué)生學(xué)業(yè)表現(xiàn)
      樹起學(xué)業(yè)擔(dān)當(dāng)之心
      如何表達(dá)“特征”
      不忠誠的四個(gè)特征
      最新引用指標(biāo)
      莫讓指標(biāo)改變初衷
      商周刊(2018年26期)2018-12-29 12:56:00
      抓住特征巧觀察
      Double圖的Kirchhoff指標(biāo)
      35
      即墨市| 河东区| 丰原市| 龙泉市| 繁昌县| 黄梅县| 象州县| 噶尔县| 巴林左旗| 黑河市| 辽宁省| 汉寿县| 普安县| 胶州市| 屯门区| 保定市| 那坡县| 龙井市| 南川市| 灌云县| 扎囊县| 高邑县| 甘肃省| 灵丘县| 九江市| 瑞丽市| 通渭县| 邯郸县| 东阳市| 电白县| 三穗县| 莱州市| 兰州市| 广州市| 丹凤县| 潮州市| 临安市| 拉萨市| 杭州市| 安岳县| 腾冲县|