茆靈鋮 謝桂芳 邵周偉 時海茹 蔣秀蓮
摘? 要:當前,信息化正面臨著一個全新的階段,即以數據的深度挖掘和整合應用為核心的智慧化階段,智慧校園已成為時下高校信息化建設的重要內容。分析高校信息化建設現(xiàn)狀和Hadoop、Spark等大數據技術框架,并重點從數據存儲層、核心業(yè)務層和信息展示層對智慧校園學生綜合測評系統(tǒng)進行分析與設計,為大數據技術與智慧校園的深度融合提供方案。
關鍵詞:智慧校園;數據挖掘;Hadoop和Spark
中圖分類號:TP274? ? ?文獻標識碼:A
Abstract: At present, informatization is entering a new stage, that is, the intelligent stage with data deep mining and integrated application as the core. Smart campus has become an important part of university information construction. This paper analyzes the current situation of university informatization construction and big data technology framework such as Hadoop and Spark, analyzes and designs the student comprehensive evaluation system of smart campus from data storage layer, core business layer and information display layer, so as to provide a scheme for the deep integration of big data technology and smart campus.
Keywords: smart campus; data mining; Hadoop and Spark
1? ?引言(Introduction)
“智慧校園”源于IBM公司在2008年提出的“智慧”地球理念,其核心是感知、聯(lián)通、智能。它是數字校園發(fā)展的高端形態(tài),以物聯(lián)網為基礎,通過寬帶移動、云計算、大數據等技術整合數字校園階段規(guī)模巨大的多源異構數據[1],以綜合信息服務平臺為載體,提供校園學習、工作、生活一體化的智能環(huán)境[2]。目前,各高校大都具有完備的信息系統(tǒng)和大量的學生個人數據,然而在信息化水平和應用上仍處于數字校園的階段,沒有充分探測全校師生認知行為和校園環(huán)境動態(tài)變化的信息支撐平臺。
數據挖掘技術在企業(yè)運營中得到廣泛應用,但高校數據挖掘意識不強。隨著智慧校園的推進,研究者逐漸重視對有關學生教育大數據的分析與挖掘,因此針對學生信息測評方面的研究不是很多,且高校學生系統(tǒng)大都由不同部門運營和維護,學生測評方式單一,缺少統(tǒng)一支持海量數據處理的平臺支撐智慧校園的建設。因此利用大數據技術建立分析挖掘學生信息的數據處理與應用平臺,具有重要實際意義。
2? 基于大數據技術的學生綜合測評系統(tǒng)架構(Architecture of student comprehensive evaluation system based on big data technology)
大數據技術是指用一系列工具來對大量的結構化、半結構化和非結構化數據進行采集、存儲,從而得到分析和預測結果的技術[3]。大數據萌芽于20世紀90年代,這一時期數據挖掘理論與數據庫技術逐步成熟。21世紀以來,隨著Web2.0應用迅猛發(fā)展,非結構化數據大量產生,大數據技術快速突破,形成了并行計算和分布式系統(tǒng)兩大核心技術,Hadoop和Spark分布式計算框架也應運而生。
(1)Hadoop分布式計算框架
Hadoop由Java開發(fā),是目前大數據技術的主流軟件架構,具有良好的容錯性和穩(wěn)定性,以及強大的IDE支持。Hadoop生態(tài)圈以HDFS和MapReduce為核心,HDFS是分布式文件處理系統(tǒng),它將大型文件拆分處理成多個小型文件單位,便于底層龐大數據的存儲,而分布式并行編程模型MapReduce可對這些文件中的數據集進行并行運算。同時Hadoop生態(tài)圈還有Flume、Hive、HBase、Zookeeper、Sqoop、Mahout、Ambari、Pig等功能組件。
(2)Spark分布式計算框架
Spark由基于靜態(tài)編譯的Scala語言開發(fā)[4],速度快,在執(zhí)行過程中注重函數本身而非數據和狀態(tài)的處理,并將計算數據、中間結果都存儲于內存中,大大減少了I/O開銷,更適合數據挖掘中的運算。而Hadoop的MapReduce計算模型表達能力有限,磁盤I/O開銷大,延遲高,難以勝任實時快速的計算需求,故可將Spark作為一種計算框架通過JVM取代MapReduce融入Hadoop生態(tài)圈中。并且Spark具有良好的API,能夠給開發(fā)人員帶來良好的用戶體驗。
(3)大數據技術與智慧校園的深度融合
通過Hadoop和Spark這兩個大數據框架對高校信息化應用水平進行改善,即以Hadoop的分布式文件系統(tǒng)HDFS為主,存儲數字校園階段各管理信息系統(tǒng)的數據,再以Spark的計算處理功能為主,實現(xiàn)這些數據的深度挖掘。進而通過智能分析,為用戶提供智能預測、預警并輔助決策,推動大數據技術與智慧校園的深度融合。同時結合數字校園階段學生系統(tǒng)的建設特點,可構建一個基于大數據技術的高校智慧校園學生綜合測評系統(tǒng)。
(4)學生綜合測評系統(tǒng)總體架構
高校智慧校園學生管理系統(tǒng)遵循高內聚低耦合的設計原則,采用流行的Hadoop和Spark開源軟件構建平臺[5],使系統(tǒng)可便利地實現(xiàn)平滑升級,并保證系統(tǒng)風格統(tǒng)一、美觀、易于用戶操作。在充分共享信息資源的同時對各種訪問權限進行嚴格限制,保持高可靠性和高安全性[6]。測評系統(tǒng)分為三層,如圖1所示。
圖1中,數據存儲層是系統(tǒng)的最底層,為上層提供數據源,如存儲學生的學業(yè)成績、消費、一卡通等校園大數據。核心業(yè)務層處于系統(tǒng)中間層,進行數據的整合和運用數據挖掘模型分析數據信息。信息展示層位于系統(tǒng)最上層,作為用戶與系統(tǒng)之間的交互界面。
3? ?數據存儲層(Data storage layer)
由于高校的學生信息數據大都存儲在不同的管理信息系統(tǒng)中,故構建高校智慧校園學生綜合測評系統(tǒng)的首要任務是對這些數據進行整合,其處理流程如圖2所示。圖2中,ETL是指將數據從源端處經過抽取、轉換、加載至目的端處的過程;Sqoop是可實現(xiàn)Hadoop系統(tǒng)與關系數據庫進行數據遷移的專門工具;HBase是具有高性能、高可靠性、可伸縮、實時讀寫等特點的列式數據庫,一般采用HDFS作為其底層數據存儲;Hive是基于Hadoop的數據倉庫工具,可對Hadoop文件中的數據集進行數據整理、特殊查詢和分析存儲。數據存儲層先通過ETL數據預處理工具[7],將分布在各部門管理信息系統(tǒng)中的學生數據抽取到臨時中間層,然后進行清洗、轉換、集成、裝載,最后結合Sqoop工具,將處理后的數據導入到基于Hadoop系統(tǒng)的中心數據庫中,從而利用Hadoop中的HDFS分布式文件系統(tǒng)將學生日積月累產生的大量數據存儲到數據倉庫中。
4? ?核心業(yè)務層(Core business layer)
在Hadoop和Spark的基礎上,系統(tǒng)在本層可通過FP-Growth算法、真實熵、K均值聚類、回歸分析等數據挖掘模型,對學生的個人信息、學業(yè)成績、學業(yè)狀態(tài)、一卡通消費、進出圖書館次數等數據進行分析,從而得到學生的測評結果[8]。
通過增加最小模式長度來優(yōu)化FP-growth算法[9],可生成描述能力更好的頻繁模式,學校食堂和超市可以根據這些模式來調整菜品供應以及超市商品的擺放,同時還可調整物品的供應量。K-means聚類收斂速度快、易于理解,以學生消費的次數、金額和用途等數據進行聚類[10],可對學生的消費水平進行分類?;貧w模型能夠對圖書館、食堂的人員流動進行預測,相關管理人員可據此合理安排工作人員值班。真實熵用于解決人類移動行為的可預測性問題[11],借助學生在校園各個地方的出入、消費數據可以了解學生的性格特征。將學生的日常行為數據和學業(yè)成績作為訓練集,可得到分類規(guī)則[12],預估學生考試不及格、學業(yè)障礙等的可能性,提前預警,督促其完成學習任務。
校方通過特定的算法,以數據挖掘結果為依據和支撐,可以制定更合理的教學管理政策,如根據學生消費水平確定貧困生補助資格、等級,根據學業(yè)成績和行為特征進行個性化教育、制定更加人性化的獎學金政策等。
5? ?信息展示層(Information display layer)
信息展示層是平臺與用戶交互的可視化窗口,本系統(tǒng)在核心業(yè)務層的基礎上,對數據挖掘得到的有價值的信息進行整合并分模塊展示,將其分為學生基本信息統(tǒng)計、學業(yè)分析、消費分析和綜合分析等四個模塊,主要功能如表1所示。本系統(tǒng)將采用數據挖掘算法從校園大數據中得到的有價值的信息以可視化、模塊化的方式呈現(xiàn)給用戶,旨在方便快捷地為用戶提供學情分析、消費分析、綜合對比等服務[13]。
(1)基本信息統(tǒng)計模塊
本模塊整合學生的性別、民族、地區(qū)、家庭收入等基本的個人信息,由數據倉庫提供的類似于關系數據庫SQL語言的Hive QL即可對學生的個人信息進行特征分析,通過餅圖、柱狀圖等在網頁進行可視化展示。在本模塊中,每個用戶都可以查看全校學生整體統(tǒng)計分布情況,并且校園管理者用戶在自己的權限范圍內可以查看每個學生的詳細情況,而每個學生用戶僅能夠查看自己的詳細信息。
(2)學生學業(yè)分析模塊
本模塊整合學生的學業(yè)成績、進出圖書館次數、借閱記錄和獎懲情況等信息,經核心業(yè)務層處理得到學生學業(yè)的統(tǒng)計數據,如學生的學業(yè)情況、學習狀態(tài)、獎懲分布、閱讀偏好等。在本模塊中,每個用戶都可以查看學生總體的學業(yè)分布情況,并且學生用戶可以查看自己的學業(yè)數據和學習記錄,教師用戶可以查看自己所教授班級學生的學業(yè)數據和學習記錄。同時系統(tǒng)管理員可以根據閱讀偏好來提醒圖書館管理者優(yōu)化圖書館購書類別,根據學業(yè)情況對學生進行掛科預警等。
(3)學生消費分析模塊
本模塊整合學生的一卡通消費數據、食堂及商店消費數據等信息,經核心業(yè)務層處理得到學生的消費統(tǒng)計數據,如學生的平均消費情況、飲食偏好、消費結構等。在本模塊中,學生用戶可以查看學生總體的消費分布情況和自己的消費數據。同時系統(tǒng)管理員用戶可以根據學生消費的偏好和頻繁模式來提醒食堂和商店管理人員優(yōu)化商品的供應,根據學生消費情況衡量學生家庭條件,為學校精準關愛貧困生提供數據支撐。
(4)學生綜合分析模塊
本模塊是信息展示層的核心模塊,基于前三個模塊的分析數據,由系統(tǒng)管理員自定義設置,在核心業(yè)務層中進行更深層次的處理,可以得到不同指標的統(tǒng)計數據。如根據學生的消費數據加權得到經濟富裕指數,根據學生的學業(yè)數據得到成就性指數,根據學生行為數據結合真實熵算法得到嚴謹性指數等[14]。在本模塊中,每個用戶都可以查看學生總體的指標分布情況,并且學生用戶可以查看自己的詳細分析情況。管理員用戶可以根據這些指標數據結合相關規(guī)定進行獎學金評比、貧困生補助、教學區(qū)開放時間等活動。
6? ?結論(Conclusion)
通過對大數據技術和高校教育教學工作深度融合的研究,在數字校園的基礎上,引入大數據計算框架Hadoop和Spark以及經典的數據挖掘模型,構建以大數據、物聯(lián)網、云計算等技術為核心的學生綜合測評系統(tǒng),對學生的基本信息、學業(yè)信息、消費信息、綜合信息進行分析挖掘,從而為高校進行精準的教育教學管理提供科學合理的有效支撐。
參考文獻(References)
[1] Fang Dong,Xiaolin Guo,Pengcheng Zhou,et al.Task-Aware Flow Scheduling with Heterogeneous Utility Characteristics for Data Center Networks[J].Tsinghua Science and Technology,2019,24(04):400-411.
[2] Tongya ZHENG,Gang CHEN,Xinyu WANG,et al.Real-time intelligent big data processing:technology,platform,and applications[J].Science China(Information Sciences),2019,62(08):102-113.
[3] Hira Zahid,Tariq Mahmood,Ahsan Morshed,et al.Big Data Analytics in Telecommunications:Literature Review and Architecture Recommendations[J].IEEE/CAA Journal of Automatica Sinica,2020,7(01):18-38.
[4] Xiaoming Ye,Xingshu Chen,Dunhu Liu,et al.Efficient Feature Extraction Using Apache Spark for Network Behavior Anomaly Detection[J].Tsinghua Science and Technology,2018,23(05):561-573.
[5] 范振東,陳暉,王海濤,等.基于大數據的智慧校園學生綜合測評系統(tǒng)[J].電信快報,2018(11):25-27;32.
[6] 常鏡洳.基于大數據的智能工廠數據平臺架構設計與研究[J].軟件工程,2019,22((12)):34-36.
[7] 王繼鵬,金云智,李偉.勘探開發(fā)數據整合之ETL系統(tǒng)的研究與實現(xiàn)[J].中國礦業(yè),2019,28(S2):191-194;199.
[8] 段玉婷.基于校園卡的學生消費信息數據挖掘與應用研究[D].西南科技大學,2018.
[9] 黃婕.基于Spark平臺的FP-Growth算法優(yōu)化與實現(xiàn)[J].湖南工業(yè)大學學報,2020,34(01):77-84.
[10] 許家鈺.基于k-means算法的WiFi用戶行為分析系統(tǒng)設計與實現(xiàn)[D].北京:北京郵電大學,2019.
[11] 吳一帆.eduExplorer:基于校園行為數據的可視分析系統(tǒng)[D].成都:電子科技大學,2018.
[12] 周慶,王衛(wèi)芳,葛亮,等.基于一卡通數據與課程分類的學生成績預測[J].電腦知識與技術,2018,14(24):236-239.
[13] 申華.基于大數據的高校學生綜合測評系統(tǒng)設計與實現(xiàn)[D].北京:北京工業(yè)大學,2017.
[14] 李蒙.基于校園大數據的學生行為挖掘方法應用研究[D].西安:西安電子科技大學,2019.