劉科生, 倪義坤
(1. 北京航空航天大學 經(jīng)濟管理學院,北京 100083;2. 北京航空航天大學 學生工作部學生大數(shù)據(jù)中心,北京 100083)
當前,中國高等教育正處于內(nèi)涵發(fā)展、質(zhì)量提升、改革攻堅的關鍵時期和全面提高人才培養(yǎng)能力、建設高等教育強國的關鍵階段。為了全面提高人才培養(yǎng)能力,加快形成高水平人才培養(yǎng)體系,培養(yǎng)德、智、體、美、勞全面發(fā)展的社會主義建設者和接班人,圍繞教育現(xiàn)代化目標和當代大學生特點,需要大力推動互聯(lián)網(wǎng)、大數(shù)據(jù)、人工智能、虛擬現(xiàn)實等現(xiàn)代技術(shù)在教學和管理中的應用,以現(xiàn)代信息技術(shù)推動高等教育質(zhì)量提升的“變軌超車”[1]。高校學生工作數(shù)據(jù)屬于教育數(shù)據(jù)范疇,是高校開展思想道德教育、文化知識教育、社會實踐教育的網(wǎng)絡化、數(shù)字化和高校人才培養(yǎng)科學化、精準化的基礎性資源。運用數(shù)據(jù)挖掘等技術(shù)對高校學生工作數(shù)據(jù)進行分析研究,可為學校科學決策提供參考、為學生全面發(fā)展提供指導,是思想政治工作傳統(tǒng)優(yōu)勢同信息技術(shù)高度融合、現(xiàn)代信息技術(shù)與教育教學深度融合的重要舉措,對推動形成“互聯(lián)網(wǎng)+高等教育”的新形態(tài)具有重要的理論價值和實踐意義。
文章通過系統(tǒng)總結(jié)高校學生工作數(shù)據(jù)挖掘的內(nèi)涵與方法,分析國內(nèi)外研究現(xiàn)狀和實踐進展及該領域當前存在的問題,提出中國高校學生工作數(shù)據(jù)挖掘的原則和框架。
高校學生工作數(shù)據(jù)挖掘,就是從大學生在校期間,在校園內(nèi)大量的、各方面的、多種類型的數(shù)據(jù)中,揭示出學校和學生本人未發(fā)現(xiàn)的但具有理論和實踐價值的隱含信息的過程。這些數(shù)據(jù)原則上由學校的相關部門進行采集,統(tǒng)一存儲在學校的中心數(shù)據(jù)庫。圍繞學生工作研究和實踐中的具體問題,在數(shù)據(jù)預處理后進行數(shù)據(jù)挖掘分析,對研究結(jié)果進行展現(xiàn)和解釋。
1.分類
分類(Classification)是通過分析訓練數(shù)據(jù)集中的數(shù)據(jù),鎖定被分類對象包含于哪一個事先定義好的目標類。分類的目標是通過分類算法進行循環(huán)迭代式的訓練,得出一個合理的分類模型,新的未知類別的數(shù)據(jù)使用該模型便可以得出具體屬于哪一類別。因此,分類算法不但可以用于對數(shù)據(jù)的分類,還可以用于預測。例如,高校學生基于某方面的行為數(shù)據(jù)可以分為多種類型,應用分類算法可以對某學生屬于其中哪種類型進行歸類或預測。分類算法種類繁多,主要有樸素貝葉斯、決策樹、回歸分析、支持向量機等。其中,決策樹作為數(shù)據(jù)挖掘中分類算法的一個分支,起源于概念學習系統(tǒng)(CLS),它致力于從一組無序的、無規(guī)則的實例中推導出以樹形結(jié)構(gòu)表示的分類規(guī)則,常用的方法有ID3、C4.5、CART等。
2.聚類
聚類分析(Cluster Analysis)僅依據(jù)在數(shù)據(jù)里查找到的描寫樣本和對應的關系信息,把數(shù)據(jù)樣本進行分類。在機器學習中,聚類也稱無監(jiān)督學習。聚類算法是對樣本數(shù)據(jù)本身進行分類,而不是以樣本數(shù)據(jù)為基礎去分類新數(shù)據(jù)。聚類的類別劃分標準是數(shù)據(jù)間的相似程度,選擇的算法不同,劃分的度量也不同,最終聚類的結(jié)果也會不同。但聚類的最終目標是要保證同類別的樣本具有較高的相似度,不同類別的樣本具有較低的相似度。例如,綜合高校學生幾個方面的行為數(shù)據(jù),運用聚類算法可以將高校學生劃分為多個群體,進而分析每個群體屬于何種類型。K-means 聚類算法、層次聚類算法、SOM 聚類算法、FCM 聚類算法是較為常用的四種算法。
3.關聯(lián)分析
關聯(lián)分析(Association Analysis)是在龐大的數(shù)據(jù)中找到事物與事物之間的相關性聯(lián)系,并用一定的規(guī)則表現(xiàn)出來。它的目標是挖掘出潛藏在數(shù)據(jù)之間的互相關系,為分類設計、交叉推薦和用戶行為習慣分析等許多決策過程提供幫助。例如,通過關聯(lián)規(guī)則可以挖掘出高校學生在校的各方面行為與學習成績數(shù)據(jù)之間的關系,從而引導學生通過調(diào)整某些行為以促進其學習成績的提高,也可以尋找出高校學生登陸校園網(wǎng)瀏覽網(wǎng)頁的內(nèi)容特點,從而提升學生上網(wǎng)時對其進行內(nèi)容推薦的轉(zhuǎn)化率。常見的關聯(lián)規(guī)則算法有Apriori算法、FP-growth算法、抽樣算法等。
4.異常檢測
對于小學階段的學生來說,兒童哲學繪本可以給他們帶來啟迪,學生也喜愛繪本。因此,教師也要重視起學生繪本的閱讀,將繪本作為學生課外閱讀的最主要內(nèi)容,激發(fā)學生對于課外閱讀的興趣,使學生積極主動地進行閱讀,養(yǎng)成良好的閱讀習慣,從而促進學生核心素養(yǎng)的發(fā)展。
異常檢測(Anomaly Detection)一般是用來找尋某一特性明顯且與其他數(shù)據(jù)存在差異的觀測值。這樣的觀測值稱為異常點(Anomaly)或離群點(Outlier)。異常檢測算法是用于清除噪聲數(shù)據(jù),避免錯誤的將正常的對象標記成離群點。但在高校學生工作數(shù)據(jù)挖掘的實踐應用中,要合理區(qū)分數(shù)據(jù)異常和人群異常。異常點的檢測,一方面有助于高校發(fā)現(xiàn)行為異常的學生,及時進行干預;另一方面也有助于高校更加精準地了解學生特點,有效開展教育。常見的異常檢測算法有并行異常檢測算法(MR-DLOF),基于統(tǒng)計、基于密度的異常檢測算法以及面向高維數(shù)據(jù)的異常檢測算法等[3]。
隨著數(shù)據(jù)挖掘算法的發(fā)展,許多經(jīng)典的數(shù)據(jù)算法工具包應運而生,各大數(shù)據(jù)庫公司都把數(shù)據(jù)挖掘模塊應用到自己的產(chǎn)品中去?;谶@些經(jīng)典算法和常用工具,很多為高校學生工作提供智慧解決方案的公司都在陸續(xù)推出專門針對高校學生工作特點的優(yōu)化算法,以期更好地解決高校學生工作場景下的實際問題。
常見的工具包括SQL Server Analysis Services、SPSS Clementine、WEKA(Waikato Environment for Knowledge Analysis)。SQL Server Analysis Services由Microsoft 公司研發(fā),包含多個算法,可以使用許多行業(yè)統(tǒng)一的數(shù)據(jù)挖掘算法來設計、創(chuàng)立和可視化數(shù)據(jù)挖掘模型,而且用戶也可以創(chuàng)建自己的數(shù)據(jù)挖掘算法。SPSS Clementine由著名的 SPSS 公司提供,是一款統(tǒng)計型的數(shù)據(jù)挖掘軟件,擁有很多面向?qū)ο蟮目晒U展模塊接口。WEKA由新西蘭的懷卡托大學(University of Waikato)研發(fā),是一款基于Java的數(shù)據(jù)挖掘軟件,不僅集成了許多可以完成數(shù)據(jù)挖掘任務的主要算法,而且還給用戶提供了可二次開發(fā)的接口并且可以讓挖掘的結(jié)果以可視化的方式展現(xiàn)。
隨著教育信息化的發(fā)展,教育數(shù)據(jù)類別和數(shù)據(jù)規(guī)模正以爆炸的速度增長,如何從海量的數(shù)據(jù)中挖掘出對學習者有用的信息,幫助學習者提高學習效率,促使教育數(shù)據(jù)挖掘研究成為熱點。國際教育數(shù)據(jù)挖掘委員會將教育數(shù)據(jù)挖掘(Educational Data Mining, EDM)定義為使用與時俱進的方法來分析、探索來源于教育過程特定類型數(shù)據(jù)集的一門新興學科,其目的是更好地理解、認識學生以及學生在學習過程中產(chǎn)生的數(shù)據(jù)集[4]。總體而言,教育數(shù)據(jù)挖掘?qū)儆诳鐚W科領域的研究,研究過程中往往將機器學習、統(tǒng)計學、數(shù)據(jù)挖掘方法、心理學以及推薦系統(tǒng)的方法和技術(shù)應用于不同的教育數(shù)據(jù)集,以解決教育領域的某些問題,如圖2所示。
高校學生工作數(shù)據(jù)挖掘,既具有教育數(shù)據(jù)挖掘在方法和技術(shù)方面的共性特征,又因其與不同國家的高等教育發(fā)展密切相關而在分析和應用方面具有不同的階段特征和社會特征。中國的高校是中國特色社會主義高校,堅持把立德樹人作為中心環(huán)節(jié),把思想政治工作貫穿教育教學全過程[5]。中國高校學生工作數(shù)據(jù)挖掘的研究和實踐方向一定是與中國高等教育的發(fā)展同向同行。所以,在方法和技術(shù)方面,國內(nèi)外的研究和實踐均會致力于豐富數(shù)據(jù)、優(yōu)化算法;在分析和應用方面,國外主要針對大學生的在線學習行為等數(shù)據(jù),聚焦了解學習特點、優(yōu)化學習行為,而國內(nèi)會基于大學生在校各方面的數(shù)據(jù),致力于全面掌握學生的特點,進一步探求學生的思想狀況和成長規(guī)律,從而更有針對性、更有效地開展精準思政。
從2005年起,美國人工智能協(xié)會(AAAI)、智能導師系統(tǒng)(ITS)等國際會議多次開展了以“教育數(shù)據(jù)挖掘”為主題的研討會。2008年,來自美國、德國、加拿大、澳大利亞、荷蘭等國的研究人員成立了國際教育數(shù)據(jù)挖掘工作組,并在加拿大召開了第一屆教育數(shù)據(jù)挖掘國際學術(shù)會議。2012年美國教育部教育技術(shù)辦公室發(fā)布了一份《通過教育數(shù)據(jù)挖掘和學習分析促進教與學》的研究報告,對美國國內(nèi)教育數(shù)據(jù)挖掘和學習分析的研究及應用情況進行了總結(jié),并提出了進一步發(fā)展的意見建議。2013年2月,《2013NMC 地平線報告》中有預見性地指出“大數(shù)據(jù)和學習分析技術(shù)”將在未來2~3年成為主流技術(shù)。
研究方面,隨著哈佛大學、斯坦福大學、耶魯大學等世界一流高校相繼啟動教育數(shù)據(jù)挖掘相關研究計劃,國外學者圍繞高校學生的學習動機、風格、態(tài)度和在線學習行為等主題開展了豐富的研究,構(gòu)成了國外高校學生工作數(shù)據(jù)挖掘研究的主要內(nèi)容。例如,使用聚類分析算法對Web服務器日志數(shù)據(jù)進行了研究,分析了學生的在線學習行為,并對利用聚類分析作為教育數(shù)據(jù)挖掘技術(shù)的優(yōu)勢和局限性進行探討;使用Apriori關聯(lián)規(guī)則算法和K-means聚類分析算法對學生的學術(shù)成果數(shù)據(jù)進行了研究,分析考試成績、考勤、實踐環(huán)節(jié)等因素對學術(shù)成果的影響;使用K-means聚類分析算法分析了學生登錄或退出、座位選擇等4 096條記錄的電子日志,研究教室或?qū)嶒炇噎h(huán)境中學生的座位選擇及其對評估的影響;使用K-means、Farthest First、EM聚類算法以及統(tǒng)計t檢驗等方法,分析研究了在線學習系統(tǒng)中學生的學習檔案;使用人工神經(jīng)網(wǎng)絡(ANN)、基于K-means聚類的最遠優(yōu)先方法和決策樹作為分類方法,評估本科生的學業(yè)成績[6-10]。
實踐方面,國外很多高校已經(jīng)廣泛將數(shù)據(jù)挖掘技術(shù)應用于招生錄取、專業(yè)匹配、就業(yè)指導等方面。例如,美國普渡大學將基于教育數(shù)據(jù)挖掘的在線學習預警研究成功應用于實踐,建設了課程警示系統(tǒng)平臺,及時給學生發(fā)送鼓勵或警告;喬治亞州立大學基于現(xiàn)在的學生已經(jīng)修過的課程的成績,以及以前學生的課程成績等,分析預測學生最有可能取得成功的主修專業(yè)[11]。
2014年,電子科技大學率先成立了教育大數(shù)據(jù)研究所,就數(shù)據(jù)一體化平臺、學生畫像系統(tǒng)等開展多項研究。2015年,中國統(tǒng)計信息服務中心和曲阜師范大學共同成立了中國教育大數(shù)據(jù)研究院,聯(lián)合十余所高校和教育研究機構(gòu)發(fā)起了“中國教育大數(shù)據(jù)發(fā)展促進計劃”,提出了推動中國教育大數(shù)據(jù)發(fā)展的路線圖。2017年1月,國務院印發(fā)《國家教育事業(yè)發(fā)展“十三五”規(guī)劃》,明確提出“加快教育大數(shù)據(jù)建設與開放共享”與“推動各級教育行政部門和學校開展深度數(shù)據(jù)挖掘和分析”以及“鼓勵學校利用大數(shù)據(jù)技術(shù)開展對教育教學活動和學生行為數(shù)據(jù)的收集、分析和反饋”。2017年3月,華中師范大學獲批成立教育大數(shù)據(jù)應用技術(shù)國家工程實驗室,成為中國首個面向教育行業(yè)、專門從事教育大數(shù)據(jù)研究和應用創(chuàng)新的國家工程實驗室。2017年10月,北京航空航天大學成立學生大數(shù)據(jù)中心,聚焦思想政治教育領域前沿問題研究,致力于準確把握學生思想、行為和心理,為學生自我認知提供參考、為學??茖W決策提供支撐。2017年11月,南昌大學教育大數(shù)據(jù)研究中心成立,計劃在教育信息化、輿情追蹤、學業(yè)診斷及評價改革、學科教學質(zhì)量監(jiān)控、學生綜合素質(zhì)評價、跨學科人才培養(yǎng)等方面開展具體工作。
隨著國家對大數(shù)據(jù)戰(zhàn)略重視程度的提升,針對教育領域中的各類問題,中國學者陸續(xù)應用數(shù)據(jù)挖掘技術(shù)開始了多方面的研究。例如,使用關聯(lián)規(guī)則和聚類分析算法對學生網(wǎng)絡學習行為數(shù)據(jù)進行了研究,提出網(wǎng)絡學習過程監(jiān)管的教育數(shù)據(jù)挖掘模型;使用K-means聚類分析算法對學生上網(wǎng)行為與英語四級通過率之間的關系進行了研究,發(fā)現(xiàn)學生英語四級通過率與上網(wǎng)行為中的下載流量、在線時長、使用費用等有明顯關聯(lián);使用主成分法分析了學生在校上網(wǎng)行為與學習成績之間的相關性,研究了大學生校園網(wǎng)絡行為特征與規(guī)律;使用J48決策樹算法對不同風格網(wǎng)絡學習者的網(wǎng)絡學習行為特征進行了研究,構(gòu)建了學習風格模型[12-15]。
目前,中國高校學生工作中應用數(shù)據(jù)挖掘技術(shù)主要集中在畫像分析、隱性資助、學業(yè)預警等方面。例如,電子科技大學通過分析學生食堂吃飯、宿舍洗澡、教學樓打水和進出圖書館的行為數(shù)據(jù),探求學生校園生活的規(guī)律性,預測學業(yè)表現(xiàn)、識別孤獨人群;北京航空航天大學每年繪制本科畢業(yè)生畫像,刻畫學生四年在校行為的特點和規(guī)律;西安交通大學采集分析教學過程相關的各類數(shù)據(jù),優(yōu)化教與學;中國科學技術(shù)大學通過挖掘一卡通消費數(shù)據(jù),識別經(jīng)濟困難學生,結(jié)合線下學生表現(xiàn)進行綜合研判后,直接發(fā)放經(jīng)濟補助。
綜上可知,當前中國高校學生工作數(shù)據(jù)挖掘主要存在以下三個方面的突出問題:
一是數(shù)據(jù)量、數(shù)據(jù)質(zhì)量無法滿足理論研究和實踐應用的需要。一方面,體現(xiàn)在已有各類業(yè)務系統(tǒng)的數(shù)據(jù)集成和聯(lián)動不足,并且各系統(tǒng)在設計之初缺乏學校頂層的統(tǒng)籌設計,導致現(xiàn)有可供數(shù)據(jù)挖掘的學生在校期間相關信息數(shù)量標準不一、質(zhì)量低;另一方面,為了更加科學全面地掌握學生狀態(tài)、把握學生特點,需要采集學生更多方面的大量數(shù)據(jù)信息,但現(xiàn)有的軟硬件條件尚無法滿足。這就決定了基于現(xiàn)有數(shù)據(jù)進行挖掘分析的學生工作應用的科學性和可信度相對有限。
二是缺少理論和實踐緊密結(jié)合、高水平、專業(yè)化的人才隊伍。目前開展學生工作數(shù)據(jù)挖掘研究的主力仍是具有各種專業(yè)背景的輔導員隊伍,數(shù)據(jù)挖掘相關學科的專業(yè)基礎薄弱、技術(shù)能力有限,且以定性分析居多、定量研究相對較少,定量研究中又以基于主觀調(diào)查的數(shù)據(jù)居多、基于客觀行為的數(shù)據(jù)較少。中國高校從事數(shù)據(jù)挖掘研究的學者聚焦在學生工作領域的相對較少,能夠通過優(yōu)化算法有效解決學生工作中各類問題的就更顯不足。
三是“精準思政”尚有若干理論和實踐的重點難點問題亟待破題。精準思政要求高校,一方面對學校人才培養(yǎng)的模式、體系和學生成長成才的規(guī)律、特點有著科學的把握;另一方面對學生的思想心理、行為狀態(tài)、關系網(wǎng)絡等有著準確的感知。學生工作數(shù)據(jù)挖掘的理論和實踐結(jié)合性極強,但目前僅僅停留在學生部分行為和狀態(tài)的相關分析和預測上,能夠上升到思想認知層面,有效指導“精準思政”實踐的標志性成果還非常少。
高校學生工作數(shù)據(jù)挖掘的理論研究和實踐應用聯(lián)系緊密、相互促進。圍繞學生工作數(shù)據(jù)的倫理安全、學生思想心理的認知模式、學生綜合畫像的科學維度和學生行為分析的模型算法四大方向,通過全面系統(tǒng)地收集學生工作數(shù)據(jù),科學地進行預處理、挖掘分析和展示應用,集成于一個能夠全面感知學生綜合狀態(tài)、及時管控學生預警情況、有效指導學生全面發(fā)展的智能平臺。
為此,中國高校學生工作數(shù)據(jù)挖掘必須遵循以下三個原則:一是必須高度重視智慧校園建設質(zhì)量,數(shù)據(jù)量要盡可能大、數(shù)據(jù)質(zhì)量要盡可能高;二是必須深刻把握精準思政領域問題,數(shù)據(jù)挖掘的結(jié)果要么能夠在理論層面深化認識、要么能夠在實踐層面解決痛點;三是必須持續(xù)優(yōu)化數(shù)據(jù)挖掘模型算法,模型的針對性要更強、算法的精準度要更高,具體框架如圖3所示。
高校學生工作數(shù)據(jù)挖掘的前提是要有數(shù)據(jù)標準和數(shù)據(jù)字典,既要足夠豐富,能夠構(gòu)成完整的學生工作數(shù)據(jù)體系,又要與學校中心數(shù)據(jù)庫的標準和字典銜接一致,以進行數(shù)據(jù)交換。
根據(jù)學生全大學周期的行為和狀態(tài),高校學生工作數(shù)據(jù)主要可以分為基本信息、經(jīng)濟類、學業(yè)類、成長類、生活類等五類,包括的主要內(nèi)容和相應的校內(nèi)來源如表1所示。
表1 中國高校學生工作數(shù)據(jù)類別及內(nèi)容
學生的思想和心理通過行為呈現(xiàn)于現(xiàn)實世界中,以數(shù)據(jù)的形式存儲于信息系統(tǒng)中。學生工作數(shù)據(jù)挖掘就是要通過基于學生行為的逆運算,達到認知和影響學生思想和心理的目的。基于服務高等教育人才培養(yǎng)的目標導向和聚焦“精準思政”突出痛點的問題導向,中國高校學生工作數(shù)據(jù)挖掘應具備理論模型為
Y=f(X1,X2,…,Xn)
(1)
(2)
式中:Y為所研究對象的具體問題,如學生的身心狀況、學生的學業(yè)水平等;X1,X2,…,Xn為與問題Y相關的若干因素,如課程成績、競賽成績、實踐情況等與學生的學業(yè)水平有關的因素;f為問題Y與若干因素之間關系的模型算法,如某類學生的畫像特征統(tǒng)計、學生某方面行為與學業(yè)水平的關系規(guī)律等;a1,a2,…,am為與因素X1相關的數(shù)據(jù)內(nèi)容字段,如數(shù)學課學分、數(shù)學課成績、物理課學分、物理課成績等與課程成績有關的數(shù)據(jù)字段;b1,b2,…,bm為與因素X2相關的數(shù)據(jù)內(nèi)容字段,如競賽內(nèi)容、競賽時間、競賽結(jié)果、個人參賽還是團隊參賽等與競賽成績有關的數(shù)據(jù)字段;A,B,…為因素X與若干數(shù)據(jù)內(nèi)容字段之間的邏輯關系,如求和、加權(quán)平均等。
最后,值得注意的是,學生工作數(shù)據(jù)挖掘勢必將為高校人才培養(yǎng)和大學生思想政治教育提供重要的支撐和參考,但替代不了思想政治工作在面對面交流、共同開展校園活動等傳統(tǒng)方式上的重要作用。所以,要辯證看待、合理使用學生工作數(shù)據(jù)挖掘的結(jié)果,讓數(shù)據(jù)挖掘成為學生工作的高效“催化劑”、新型“助燃劑”。