• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      大數(shù)據(jù)時代高校精準資助路徑探索

      2021-08-17 13:54景璐璐陳天宇顧煒江潘卿
      軟件 2021年3期

      景璐璐 陳天宇 顧煒江 潘卿

      摘 要:大數(shù)據(jù)時代,教育數(shù)據(jù)治理面臨更為復雜的困境,精準資助是國家教育扶貧的核心任務(wù)之一,鑒于目前高校難以有效進行貧困生精準識別,文章提出一種基于大數(shù)據(jù)技術(shù)的高校精準資助模型。通過梳理學生在校的全量數(shù)據(jù),設(shè)計提取學生基本信息、消費數(shù)據(jù)等共計23類數(shù)據(jù)對學生的經(jīng)濟情況進行建模評估,通過數(shù)據(jù)采集、數(shù)據(jù)處理、數(shù)據(jù)集中展現(xiàn),精準識別貧困生與非貧困生。該模型優(yōu)化引用機器學習算法對模型進行訓練,結(jié)合學工大數(shù)據(jù)對結(jié)果進行評價,能及時發(fā)現(xiàn)“隱性貧困”,得到一個有效的貧困生識別方法。

      關(guān)鍵詞:教育數(shù)據(jù)治理;精準資助模型;機器學習算法

      中圖分類號:G717 文獻標識碼:A DOI:10.3969/j.issn.1003-6970.2021.03.025

      本文著錄格式:景璐璐,陳天宇,顧煒江,等.大數(shù)據(jù)時代高校精準資助路徑探索[J].軟件,2021,42(03):090-093

      Exploration of Precise Subsidy Paths for Colleges and Universities in the Era of Big Data

      JING Lulu1, CHEN Tianyu2, GU Weijiang1, PAN Qing1

      (1.Office of Cyberspace Affairs, Nanjing Forestry University, Nanjing? Jiangsu? ?210037;

      2.China Mobile (Suzhou) Software Technology Co., Ltd., Suzhou? Jiangsu? 215000)

      【Abstract】:In the era of big data, education data governance is faced with more complex difficulties, and precise subsidy is the core task of education poverty alleviation. In view of the difficulty of accurate identification of poor students in colleges and universities, this paper proposes a precise subsidy model of colleges and universities based on big data technology. By combing the total data of students in school, we design and extract a total of 23 types of data, such as students' basic information and consumption data, to model and evaluate the economic situation of students, and accurately identify poor students and non-poor students through data collection, data processing and data centralized display. The model uses machine learning algorithm to train the model optimally, and evaluates the results with the big data of Nanjing Forestry University. It can find out the "hidden poverty" in time and get an effective method to identify the poor students.

      【Key words】:education data governance;precision funding model;machine learning algorithm

      隨著高等教育規(guī)模迅速擴大,高校大學生數(shù)量逐年攀高,相應(yīng)貧困生人數(shù)也呈現(xiàn)了逐年上升態(tài)勢。《2019年中國學生資助發(fā)展報告》[1]顯示,政府、高校及社會共資助全國普通高校貧困生人數(shù)達4817.59萬人次,資助金額1316.89億元,比上年增加166.59億元,增幅達14.48%。貧困學生的增多大大增加了貧困生資助部門的工作難度和工作量。貧困生認定是一個相當復雜的過程,必須要綜合考慮各方面因素,目前貧困生的認定方法大多是定性的,要做到公平公正必需要對貧困生認定做定量的解釋,建立精準資助機制[2]。精準資助是國家教育扶貧的核心任務(wù)之一,只有抓好學生精準資助,才能推動教育精準扶貧[3]。

      1大數(shù)據(jù)精準資助技術(shù)和實踐基礎(chǔ)

      實現(xiàn)基于大數(shù)據(jù)技術(shù)的精準資助,一方面需要在大數(shù)據(jù)技術(shù)的支撐下,通過學生的消費行為數(shù)據(jù),動態(tài)掌握學生的整體情況;另一方面需要在精準資助理念的支撐下,不斷優(yōu)化資助形式、方法與策略。

      1.1 大數(shù)據(jù)技術(shù)

      精準資助的大數(shù)據(jù)技術(shù)的主要包括以下內(nèi)容:(1)學生消費行為數(shù)據(jù)采集。在校園各類生活過程中產(chǎn)生的數(shù)據(jù),比如食宿打卡、超市消費等,利用各類信息系統(tǒng)記錄行為發(fā)生的時間、行為的類型及相應(yīng)的環(huán)境信息,實時、動態(tài)的對學生整體消費數(shù)據(jù)進行跟蹤、記錄、集成、規(guī)約,為數(shù)據(jù)挖掘和分析做好準備工作。(2)消費數(shù)據(jù)分析。利用數(shù)據(jù)收集、數(shù)據(jù)挖掘、數(shù)據(jù)分析、數(shù)據(jù)可視化等手段,對每個學生的消費過程和結(jié)果進行分析,對貧困數(shù)據(jù)初步掌握,可以進一步分析學生的消費傾向和習慣,實現(xiàn)個性化資助。(3)個性化資助。教育部在2017年發(fā)布了《關(guān)于進一步加強和規(guī)范高校家庭經(jīng)濟困難學生認定工作的通知》,通知指出要精準分配資金名額,明確重點受助學生,其中就包括采用“隱形資助”的個性化資助方式,避免大張旗鼓地把困難學生與非困難學生割裂區(qū)分開,這就要求基于消費的過程和結(jié)果,建立更加人性化的精準資助模型[4]。

      1.2 精準資助現(xiàn)狀與實踐

      傳統(tǒng)模式下,貧困生認定主要根據(jù)學生的家庭基本信息、家庭人均收入、家庭成員是否患有重大疾病等影響家庭經(jīng)濟情況的幾項指標對所有申請貧困資助的學生進行量化評估,按照評估結(jié)果及學生日常消費水平進行排序,簡單概要的劃分學生的經(jīng)濟困難程度。從流程上看,貧困生認定過程涉及諸多主觀因數(shù),學生日常消費水平?jīng)]有數(shù)據(jù)支撐,導致認定結(jié)果準確性較低,無法得到師生的認可。貧困生在申請資助時,首先要提交資助申請,還要開具各類材料證明,不僅流程繁瑣,效率低下,還可能產(chǎn)生數(shù)據(jù)造假。

      隨著大數(shù)據(jù)技術(shù)在教育領(lǐng)域的應(yīng)用廣泛應(yīng)用,在高等教育管理和教學各方面發(fā)揮了重要的作用,高校學生資助工作也試圖充分利用校園大數(shù)據(jù),在原有工作模式基礎(chǔ)上探索新的發(fā)展方向,力爭實現(xiàn)學生資助工作的科學化、精準化、智能化,提升工作效率和質(zhì)量。文獻[5]通過學生多樣化數(shù)據(jù)從方方面面記錄學生的家庭及個人情況,利用用戶畫像技術(shù)精準識別貧困生,做到個性化資助[4]。文獻[6]通過設(shè)定不同的貧困等級,運用大數(shù)據(jù)相關(guān)技術(shù)判斷學生是否是貧困生,在Hadoop平臺上運用GBDT算法將學生在學校所產(chǎn)生的行為數(shù)據(jù)進行處理,分析屬于哪一級貧困生,將學生進行分級資助并對貧困生進行精準識別[5]。歐陽鐵磊[7]以學生在校一卡通數(shù)據(jù)為基礎(chǔ),進行數(shù)據(jù)挖掘研究,為貧困生資助工作中提供了一些參考信息。張璽[8]等人利用大數(shù)據(jù)優(yōu)化貧困生認定系統(tǒng),采用支持向量機(Support Vector Machine,SVM)算法對學生校園一卡通的消費數(shù)據(jù)進行分析,將學生按照貧困與非貧困進行分類。柴政等[9]借助于深度神經(jīng)網(wǎng)絡(luò)DNN,把原有的數(shù)據(jù)集分成兩類,分別進行訓練和驗證,用訓練后的模型來預(yù)測學生的貧困等級。從以上研究來看,使用精準資助算法模型比傳統(tǒng)貧困生識別效率和精確度都有一定提高。

      2大數(shù)據(jù)精準資助方法和框架

      目前,利用大數(shù)據(jù)技術(shù)識別貧困生可以最大限度地實現(xiàn)資助公平,最大限度地實現(xiàn)國家資助資金精準發(fā)放。通過數(shù)據(jù)采集,分析學生日常的消費情況,再輔助以嚴謹?shù)脑u判標準,例如以學生每月在食堂用餐60次以上、每天就餐低于平均值10塊錢等篩選標準,大概勾畫出學生們的經(jīng)濟情況及困難程度。這與傳統(tǒng)的提交材料證明等方式相比,具有高針對性和高精準度,徹底打破了傳統(tǒng)資助資源“按比例”“一刀切”的分配模式?;诖?,本研究提出一種基于大數(shù)據(jù)的貧困生多級認定方法,流程如圖1所示。

      (1)數(shù)據(jù)采集—采集學生的校園消費行為信息:采集學生的校園行為信息,包括學生的消費信息、基本信息及恩格爾系數(shù)、屬地GDP等。(2)數(shù)據(jù)清洗—構(gòu)建學生信息庫:對學生的校園消費行為信息進行清洗和關(guān)聯(lián)處理。(3)數(shù)據(jù)建?!獜膶W生信息庫中提取目標行為信息,并根據(jù)目標行為信息計算行為評價指標,根據(jù)行為評價指標構(gòu)建初始消費分析模型。根據(jù)消費分析模型及待認定行為信息,進一步構(gòu)建貧困生多級認定模型。

      以我校資助工作為例,基于學工大數(shù)據(jù)的精準資助方法核心在于學生消費數(shù)據(jù)分析模型的構(gòu)建。學生一卡通數(shù)據(jù)支出狀況能夠在一定程度上反映出學生的貧困程度,困難家庭的學生通常具有消費地點穩(wěn)定、消費結(jié)構(gòu)簡單、消費連續(xù)性強等特點。對學工、教務(wù)和一卡通系統(tǒng)等線上和線下的數(shù)據(jù)進行全方位采集,采集到的原始數(shù)據(jù)無法直接對其進行特征分析和建模,需要對原始數(shù)據(jù)進行預(yù)處理、消除錯誤、缺失、冗余等無效數(shù)據(jù),提高數(shù)據(jù)價值。經(jīng)過預(yù)處理后的數(shù)據(jù)相對比較完整,且結(jié)構(gòu)統(tǒng)一,對這部分數(shù)據(jù)進行整合分析,提取學生消費行為特征,結(jié)合學生家庭信息、建檔立卡信息、貸款信息等構(gòu)建學生消費行為與家庭經(jīng)濟情況的關(guān)系。通過機器學習算法對數(shù)據(jù)進行聚類分析,將學生的消費水平劃分等級,根據(jù)等級層次為每位學生添加合理的貧困標簽。在此基礎(chǔ)上,通過數(shù)據(jù)可視化技術(shù),直觀的對學生消費數(shù)據(jù)分析結(jié)果進行展示,幫助學校全面掌握貧困生數(shù)據(jù)庫。

      3 基于大數(shù)據(jù)的精準資助方法實踐認證

      基于大數(shù)據(jù)技術(shù)的貧困生多級認定模型,包括4個模塊:采集模塊、信息庫構(gòu)建模塊、初始消費分析模型構(gòu)建模塊、貧困生多級認定模型構(gòu)建模塊。模型采用基于邏輯判斷的自步集成學習模型,集成學習不是一個單獨的機器學習算法,而是通過構(gòu)建并結(jié)合多個機器學習器的方式來完成學習任務(wù),采用多種機器學習算法,為精準資助提供決策支持。該模型功能點包括三部分:(1)精準識別貧困生,即符合貧困生統(tǒng)計特征且接受資助的學生;(2)發(fā)現(xiàn)需要關(guān)懷的學生,即符合貧困生統(tǒng)計特征但又未接受資助的學生;(3)發(fā)現(xiàn)異常貧困生,即接受資助,但行為特征與貧困生有明顯差異的學生。

      模型的算法流程如圖2所示。

      3.1校園大數(shù)據(jù)的采集和處理

      數(shù)據(jù)來源于我校2019-2020年貧困生認定數(shù)據(jù),通過學生基本信息、消費數(shù)據(jù)等對學生的經(jīng)濟情況進行評估,從而識別貧困生與非貧困生。貧困生識別涉及23個字段,以學生學號作為標識字段,假設(shè)家庭困難學生在成長時養(yǎng)成相對穩(wěn)定的消費習慣,在消費指標中發(fā)現(xiàn)特征并形成分類器,并進行對一般性學生的經(jīng)濟困難水平進行評估。評估時,考慮不同人群的消費結(jié)構(gòu),以性別,民族,戶口類別,省份等作為基本指標以消費流水為基礎(chǔ)的消費相關(guān)數(shù)據(jù)為消費指標。隨后,根據(jù)一般學生的消費水平參數(shù)以及關(guān)懷學生的消費水平,評估資助金額。23個字段如表1所示。

      數(shù)據(jù)清洗時,由于本次分析選用消費數(shù)據(jù),基于嚴格的消費數(shù)據(jù)流水進行整合,部分消費數(shù)據(jù)為空,均可理解為沒有發(fā)現(xiàn)相關(guān)消費記錄,所以針對缺失值的處理,統(tǒng)一用0代替。針對消費異常值,即部分學生有較為特殊的消費特點,部分維度分布下出現(xiàn)極端情況,在一些模型(尤其基于距離的模型)有較為嚴重的影響,故需要發(fā)現(xiàn)并規(guī)約,異常值發(fā)現(xiàn)算法基于中位數(shù),采用MAD 算法計算各項指標(連續(xù)型指標的正常范圍,并對超范圍的數(shù)據(jù)統(tǒng)一轉(zhuǎn)換為極值),MAD(中位數(shù)絕對偏差)是一個健壯的統(tǒng)計量,是單變量數(shù)據(jù)集中樣本差異性的穩(wěn)健度量,對于數(shù)據(jù)集中異常值的處理比標準差更具有彈性,可以大大減少異常值對于整個數(shù)據(jù)集的影響。 以下為各類數(shù)據(jù)的 MAD 范圍,如圖3所示。

      數(shù)據(jù)清洗后的訓練數(shù)據(jù)整理主要解決目標數(shù)據(jù)不平衡問題,類不平衡(Class-imbalance)是指在訓練分類器時所使用數(shù)據(jù)集的類別分布不均。例如一個二分類問題,1000個訓練樣本,比較理想的情況是正類、負類兩種樣本的數(shù)量相差不多(本文正、負類樣本特指貧困生和非貧困生)。如果正類樣本有999個、負類樣本僅有1個,就意味著存在類不平衡。從訓練模型的角度來說,如果某類的樣本數(shù)量很少,那么這個類別所提供的“信息”就太少。常見的方法,通過過采樣,欠采樣等方式,從樣本抽取中消除不平衡性。精準資助多級認定方法采用SMOTE進行過采樣。SMOTE算法的基本思想是對少數(shù)類樣本進行分析并根據(jù)少數(shù)類樣本人工合成新樣本添加到數(shù)據(jù)集中。

      3.2 精準資助貧困生認定方法

      精準資助貧困生認定算法采用隨機森林進行分類模型訓練:隨機森林顧名思義,使用隨機的方式建立一個森林,森林由多個決策樹組成,隨機森林的每一棵決策樹之間不相關(guān)。形成森林之后,每輸入一個新的樣本,就由森林中的每一棵決策樹分別進行投票似判斷,觀察這個樣本應(yīng)該屬于哪一類,哪一類被選擇最多,就可預(yù)測該樣本為被選擇最多的類。隨機森林屬于集成學習,把分類樹組合成隨機森林,即在變量和數(shù)據(jù)的使用上進行隨機化,生成很多分類樹,并匯總分類樹的結(jié)果。本模型構(gòu)建1000個決策樹組成森林,并對未知數(shù)據(jù)進行投票。混淆矩陣也稱為誤差矩陣,是精度評價的一種標準格式。

      精確率(Precision)為TP/(TP+FP);模型判斷出的所有正例(TP+FP)中,其中真正例(TP)占的比例。正例即正類樣本,負例即負類樣本,下同。

      準確率(Accuracy)為(TP+TN)/(TP+TN+FN+FP);模型判斷正確的數(shù)據(jù)占總數(shù)據(jù)的比例。

      召回率(Recall)為TP/(TP+FN);模型正確判斷出的正例(TP)占數(shù)據(jù)集中所有正例的比例。

      其中,TP:真正例,F(xiàn)P:假正例,F(xiàn)N:假負例,TN:真負例(文中,正例指貧困生,負例指非貧困生)。

      F1值是精確率和召回率的調(diào)和均值,F(xiàn)1=2PR/(P+R),是精確率和召回率的綜合評價指標。P:Precision;R:Recall。

      應(yīng)用于測試數(shù)據(jù)集,結(jié)果如下表2。

      如表2所示,多次測試后,模型準確率為0.8,還可以進一步提高模型的準確率。通過特征選取,逐步獲取各個變量的重要性,并規(guī)約變量,提高模型效率。經(jīng)過測試后,變量重要性排序:戶口類別最為重要,而性別最不重要,后續(xù)把性別變量去掉,再觀察準確率。

      根據(jù)模型,確定學生的貧困度,根據(jù)一般學生的消費水平參數(shù)以及關(guān)懷學生的消費水平,評估資助金額。貧困度,以投票樹為指標,例如在本研究中,1000棵決策樹,有500棵認為是貧困,則學生A貧困度為50%。另外,根據(jù)一般學生的消費水平以及被關(guān)懷學生的消費水平,評估資助金額。例如學校非貧困生月均消費金額假設(shè)為300元,某學生月均消費金額250元,如已經(jīng)接受補助,且補助金額不足300的,則增加補助金額到300元。

      4 結(jié)語

      大數(shù)據(jù)驅(qū)動的精準資助模型是指以大數(shù)據(jù)技術(shù)為手段,在精準分析學生在校消費現(xiàn)狀的基礎(chǔ)上,對資助模型進行精準設(shè)計、對貧困生進行精準定位、對資助形式進行精準定制、對資助模型精準評價進而做出精準決策,使精準資助過程和結(jié)果可量化、可優(yōu)化。同時,利用大數(shù)據(jù)對學生進行“隱形資助”,不僅可以解決一些貧困學生生活上的壓力,又可以維護他們的尊嚴。這與高校中傳統(tǒng)的資助方式相比,最大的特點就是利用現(xiàn)有的大數(shù)據(jù)技術(shù)進行分析,在資助公平和學生尊嚴之間找到了平衡,既充滿人性,又精準高效,讓學生們更有尊嚴且更公平地享受國家的這份關(guān)懷。

      參考文獻

      [1] 全國學生資助管理中心.2019年中國學生資助發(fā)展報告[N].人民日報,2020-05-21(006).

      [2] Wei Huang,F(xiàn)an Li,Xiaowei Liao,et al.More Money,Better performancy?The effects of student loans and need-based grants in China's higher education[J].China Economic Review,2017,9(5):208-227.

      [3] 徐新洲.林業(yè)高校精準扶貧“三全”模式研究:以南京林業(yè)大學為例[J].中國高??萍?,2020(12):18-21.

      [4] 黃立,戴航.基于大數(shù)據(jù)的高職院校貧困生精準資助[J].教育與職業(yè),2019(15):53-60.

      [5] 李成飛.大數(shù)據(jù)背景下高校貧困生資助工作精準化研究[D].南京:南京郵電大學,2017.

      [6] 楊勝志.基于大數(shù)據(jù)的大學生精準資助貧困等級研究[D].長春:東北師范大學,2018.

      [7] 歐陽鐵磊,葉玲肖.基于大數(shù)據(jù)分析的高校貧困生精準資助策略研究[J].計算機應(yīng)用與軟件,2020,37(8):45-47+129.

      [8] 張璽,咼森林,孫宗良.基于校園一卡通消費數(shù)據(jù)對高校貧困生分類的應(yīng)用研究[J].數(shù)字技術(shù)與應(yīng)用,2016(8):100.

      [9] 柴政,屈莉莉,彭貴賓.高校貧困生精準資助的神經(jīng)網(wǎng)絡(luò)模型[J].數(shù)學的實踐與認識,2018,48(16):85-91.

      土默特左旗| 佛坪县| 印江| 佛冈县| 夏津县| 梁河县| 南安市| 东台市| 南华县| 登封市| 印江| 苏尼特右旗| 汾阳市| 阜阳市| 阿拉善左旗| 东至县| 新安县| 东莞市| 岚皋县| 越西县| 囊谦县| 墨脱县| 松原市| 肇东市| 稷山县| 仪征市| 白山市| 平远县| 高青县| 富源县| 遵义县| 习水县| 黑龙江省| 哈巴河县| 巍山| 东明县| 墨玉县| 潢川县| 南安市| 乌拉特中旗| 玉溪市|