連家劍 廣西大學(xué)計算機與電子信息學(xué)院/桂林理工大學(xué) 南寧分校
隨著大數(shù)據(jù)、物聯(lián)網(wǎng)、移動互聯(lián)網(wǎng)等新型信息技術(shù)的廣泛應(yīng)用,高校信息化已經(jīng)從“數(shù)字化”走到了“智慧化”。其中,大數(shù)據(jù)作為智慧校園建設(shè)的關(guān)鍵支撐技術(shù),對智慧校園建設(shè)具有無可替代的作用。通過大數(shù)據(jù)綜合分析,掌握校園里師生的行為規(guī)律和學(xué)校的整體運行水平,對學(xué)校整體教學(xué)科研形勢和發(fā)展態(tài)勢整體研判、動態(tài)監(jiān)測,從被動應(yīng)對到主動服務(wù)轉(zhuǎn)型,實現(xiàn)源頭發(fā)現(xiàn)、智慧服務(wù)。
大數(shù)據(jù)、云計算、物聯(lián)網(wǎng)等技術(shù)近年來給教育行業(yè)帶來了巨大的沖擊。許多高校均開始利用校園大數(shù)據(jù)開發(fā)了諸多面向管理和師生服務(wù)的應(yīng)用,依賴數(shù)據(jù)挖掘方法支持教育領(lǐng)域的校園管理與決策以及對學(xué)生行為規(guī)律的分析。國外的多家在線教育機構(gòu),如edx、Coursera、Udacity 等,針對在線教育過程中很多學(xué)生高發(fā)的輟學(xué)情況,應(yīng)用數(shù)據(jù)挖掘方法對學(xué)生在線學(xué)習(xí)數(shù)據(jù)進行深層次挖掘分析,發(fā)現(xiàn)引發(fā)學(xué)生輟學(xué)的內(nèi)在原因,并基于挖掘結(jié)果制定督促和引導(dǎo)策略,從而大大改善了在線教育的輟學(xué)問題。智能教學(xué)系統(tǒng)ITS(Intellectual Tutoring System)則基于學(xué)生與系統(tǒng)中的交互日志數(shù)據(jù)進行數(shù)據(jù)挖掘,獲取學(xué)生學(xué)習(xí)行為特征,建立個性化知識庫,分析學(xué)生知識掌握情況,自適應(yīng)地幫助學(xué)生建立培養(yǎng)知識體系。
在國內(nèi),隨著國家高度重視教育信息化的建設(shè),各大高校開始重視數(shù)據(jù)深度分析和應(yīng)用工作。比如華東師范大學(xué)利用預(yù)警系統(tǒng)跟蹤學(xué)生的餐飲消費數(shù)據(jù),跟蹤分析學(xué)生是否有經(jīng)濟困難,是否需要幫助。北京郵電大學(xué)高校學(xué)生行為分析系統(tǒng)完成了校園異構(gòu)數(shù)據(jù)的分布式存儲和處理,實現(xiàn)了校園數(shù)據(jù)的深入挖掘和分析。中國科學(xué)技術(shù)大學(xué)利用學(xué)生在可控社交網(wǎng)絡(luò)實驗室上的行為數(shù)據(jù)以及學(xué)生在校的行為數(shù)據(jù)(微博、郵箱、刷卡信息、借閱信息)進行分析挖掘,以學(xué)生“體檢報告”的形式對行為進行總結(jié),并在預(yù)警食堂突發(fā)事件和學(xué)生非正常離校方面取得了很大的進展。
用戶畫像是指抽象的標(biāo)簽化用戶模型。這個模型是依據(jù)對用戶基本信息、社會信息、偏好信息與行為信息概括而來的。在形成用戶畫像過程中,最核心的步驟是為用戶貼上合適的“標(biāo)簽”。這些給畫像貼上的標(biāo)簽是分析所采集到的用戶數(shù)據(jù)產(chǎn)生的,并且可以對這些數(shù)據(jù)信息進行高度的概括。
用戶畫像所涉及的數(shù)據(jù)挖掘算法主要包括分類算法、聚類算法、關(guān)聯(lián)算法等,同時還引入概率統(tǒng)計、機器學(xué)習(xí)、人工智能等相關(guān)學(xué)科的技術(shù),使其更具綜合性和交叉性。傳統(tǒng)的數(shù)據(jù)挖掘算法在商業(yè)領(lǐng)域和科研領(lǐng)域都得到廣泛應(yīng)用,但在處理大規(guī)模數(shù)據(jù)方面,傳統(tǒng)算法不能在可接受的時間內(nèi)獲取較好的結(jié)果,甚至因儲存空間限制,挖掘算法無法正常運行。鑒于傳統(tǒng)數(shù)據(jù)挖掘算法擴展性、伸縮性和資源利用不足的缺陷,越來越多的學(xué)者開始研究并行化的數(shù)據(jù)挖掘算法。司雅楠等研究高校大數(shù)據(jù)分析挖掘系統(tǒng)的設(shè)計框架,并提出基于Map Reduce的Apriori最小支持度閾值算法應(yīng)用于學(xué)生成績的關(guān)聯(lián)分析;梁柱等通過分析高校校園大數(shù)據(jù)的特點,對傳統(tǒng)的K-means聚類算法進行改進并在Spark平臺上進行并行化,應(yīng)用于學(xué)生行為聚類,研究并開發(fā)基于Spark平臺的學(xué)生行為分析與預(yù)測系統(tǒng)。
從目前高校存在的學(xué)生畫像系統(tǒng)可以看出,現(xiàn)存的學(xué)生畫像系統(tǒng)分析的維度都比較少,分析的數(shù)據(jù)源廣度也不夠。同時,對高校學(xué)生產(chǎn)生的多維度的數(shù)據(jù)缺乏協(xié)同性,沒有將學(xué)生的其他維度信息(基本信息、貧困程度、失聯(lián)預(yù)警等)綜合起來構(gòu)建用戶畫像。此外,傳統(tǒng)的數(shù)據(jù)挖掘算法無法滿足這些結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)的處理要求,傳統(tǒng)數(shù)據(jù)挖掘技術(shù)面臨巨大的挑戰(zhàn),這也導(dǎo)致高校的大數(shù)據(jù)并沒有充分被利用,校園大數(shù)據(jù)有待新的數(shù)據(jù)處理工具進行深層次的挖掘。
3.1 系統(tǒng)架構(gòu)
本文研究構(gòu)建一個基于高校大數(shù)據(jù)的學(xué)生畫像系統(tǒng),采用主流的Hadoop大數(shù)據(jù)框架,對數(shù)字化校園環(huán)境產(chǎn)生的大規(guī)模學(xué)生行為數(shù)據(jù)進行采集、加工和分析,對異構(gòu)數(shù)據(jù)進行分布式存儲和處理,通過數(shù)據(jù)挖掘與機器學(xué)習(xí)等技術(shù),構(gòu)建“學(xué)生畫像”標(biāo)簽庫,實現(xiàn)學(xué)生行為數(shù)據(jù)的智能分析與動態(tài)預(yù)測機制。本文的高校學(xué)生畫像系統(tǒng)的總體架構(gòu)由四個層級組成,分別為異構(gòu)數(shù)據(jù)源層、數(shù)據(jù)存儲層、數(shù)據(jù)分析與處理層以及應(yīng)用服務(wù)層,如圖1所示。
圖1 基于高校大數(shù)據(jù)的學(xué)生畫像系統(tǒng)框架
主要內(nèi)容如下:
(1)整合高?;A(chǔ)數(shù)據(jù)資源,實現(xiàn)數(shù)據(jù)的共享和轉(zhuǎn)化。目前高校積累了豐富的學(xué)生行為數(shù)據(jù),包括消費數(shù)據(jù)、成績、教務(wù)考勤、圖書、網(wǎng)絡(luò)日志等多種數(shù)據(jù)。將學(xué)校各應(yīng)用系統(tǒng)的數(shù)據(jù)進行集成和整合,使來源各異、種類不一的各類數(shù)據(jù)可以相互使用,打破系統(tǒng)間的信息孤島,實現(xiàn)數(shù)據(jù)的共享和應(yīng)用。
(2)構(gòu)建基于高校數(shù)據(jù)的“學(xué)生畫像”研究指標(biāo)。學(xué)生畫像工作的核心是給學(xué)生“打標(biāo)簽”,通過分析數(shù)據(jù)可用性以及評價學(xué)生在校行為的指標(biāo),構(gòu)建學(xué)生“畫像”標(biāo)簽庫,確定構(gòu)建的畫像的維度。
(3)研究基于Hadoop技術(shù)的數(shù)據(jù)存儲架構(gòu)。用于存儲高校學(xué)生行為結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù),對接校內(nèi)各應(yīng)用系統(tǒng),為業(yè)務(wù)應(yīng)用程序提供數(shù)據(jù)服務(wù)接口。
(4)研究基于Spark架構(gòu)的大數(shù)據(jù)分析挖掘技術(shù)。針對學(xué)生畫像、預(yù)警問題,基于Spark大數(shù)據(jù)分析平臺對數(shù)據(jù)采集與存儲層提供的多種數(shù)據(jù),采用數(shù)據(jù)挖掘、機器學(xué)習(xí)等相關(guān)技術(shù),對數(shù)據(jù)之間的關(guān)聯(lián)關(guān)系、潛在價值等進行挖掘,提供分布式計算服務(wù)。
(5)研究Web框架與前端可視化模塊。開發(fā)學(xué)生畫像數(shù)據(jù)展示系統(tǒng),采用豐富的可視化技術(shù),直觀呈現(xiàn)大數(shù)據(jù)分析效果,為學(xué)生、學(xué)院及管理部門提供學(xué)生消費、學(xué)習(xí)等多方位的行為分析與預(yù)測功能。
3.2 解決的關(guān)鍵問題
(1)異構(gòu)數(shù)據(jù)源的數(shù)據(jù)采集
高校學(xué)生行為分析數(shù)據(jù)包括結(jié)構(gòu)化和非結(jié)構(gòu)化的數(shù)據(jù),將現(xiàn)有分布的、異構(gòu)的高校信息系統(tǒng)中的數(shù)據(jù)進行抓取、采集、清洗,最后加載到數(shù)據(jù)倉庫或數(shù)據(jù)集市中,為數(shù)據(jù)挖掘與分析提供基礎(chǔ)。
(2)異構(gòu)數(shù)據(jù)的存儲
存儲高校學(xué)生行為數(shù)據(jù)中的結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù),對于非結(jié)構(gòu)化數(shù)據(jù),重點研究基于HDFS的文件存儲方法;對于結(jié)構(gòu)化數(shù)據(jù),重點研究基于HBase的分布式存儲。
(3)學(xué)生畫像所涉及大數(shù)據(jù)分析與挖掘技術(shù)
通過研究基于MapReduce或Spark計算框架的數(shù)據(jù)挖掘與分析技術(shù),以統(tǒng)計分析、聚類、預(yù)測等數(shù)據(jù)挖掘方法為基礎(chǔ),進行算法選型與應(yīng)用實驗,對海量行為數(shù)據(jù)進行分析和挖掘。
本文的研究可以為大多數(shù)高等院校提供一種相對可行的學(xué)生畫像系統(tǒng)構(gòu)建方案。項目依托典型的Hadoop架構(gòu)、數(shù)據(jù)挖掘與機器學(xué)習(xí)算法等技術(shù),最大化的挖掘智慧校園數(shù)據(jù)背后的價值。該平臺建成后能夠充分利用各部門的業(yè)務(wù)數(shù)據(jù),有效的展現(xiàn)業(yè)務(wù)數(shù)據(jù)的數(shù)據(jù)價值,為提升學(xué)生的日常行為分析、管理及發(fā)展指導(dǎo)建議提供可靠的依據(jù)。本課題構(gòu)建的高校學(xué)生畫像系統(tǒng)是具有開拓性的實踐探索,在高校中具有廣闊的應(yīng)用前景。