何曉聰
摘要:運用大數(shù)據(jù)思維和技術(shù)對研究生培養(yǎng)過程質(zhì)量進行監(jiān)測預(yù)警,是建設(shè)研究生質(zhì)量內(nèi)部保障體系的有效手段。本文通過關(guān)聯(lián)規(guī)則挖掘,揭示了研究生入學(xué)成績與課業(yè)表現(xiàn)、前置學(xué)歷畢業(yè)院校、圖書借閱情況與學(xué)位論文成績之間的關(guān)系,證明了通過分析研究生培養(yǎng)過程中產(chǎn)生的各種數(shù)據(jù),可以為我們勾勒出研究生個體在學(xué)期間已有的學(xué)習(xí)軌跡,并預(yù)測其接下來的學(xué)業(yè)表現(xiàn)。
關(guān)鍵詞:大數(shù)據(jù);研究生培養(yǎng);質(zhì)量監(jiān)測;質(zhì)量預(yù)警
中圖分類號:G643 文獻標志碼:A 文章編號:1674-9324(2018)37-0064-02
一、大數(shù)據(jù)及其相關(guān)技術(shù)
(一)大數(shù)據(jù)的內(nèi)涵
Viktor Mayer-Schoenberge在《大數(shù)據(jù)時代》一書中指出:大數(shù)據(jù)不是隨機樣本,而是全體數(shù)據(jù),即樣本等于總體。但是,如果簡單地把大數(shù)據(jù)理解為數(shù)量巨大,就容易陷入“只見樹木,不見森林”的膚淺中去。因為大數(shù)據(jù)既包括了結(jié)構(gòu)化的、可以存儲在關(guān)系型數(shù)據(jù)庫中的數(shù)據(jù),更包括了半結(jié)構(gòu)化甚至非結(jié)構(gòu)化的數(shù)據(jù)。更主要的是,大數(shù)據(jù)給我們帶來的是思維方式的革命,也就是在模糊、不確定性中聚焦數(shù)據(jù)之間的關(guān)聯(lián),通過數(shù)據(jù)揭示原先可能并沒有被認識的關(guān)系,而非驗證假設(shè)?!皵?shù)據(jù)驅(qū)動”在這一分析過程中,大數(shù)據(jù)的價值被充分地發(fā)掘,從而引導(dǎo)決策行為從傳統(tǒng)的“業(yè)務(wù)驅(qū)動”向“數(shù)據(jù)驅(qū)動”轉(zhuǎn)變。因此,可以毫不夸張地說,大數(shù)據(jù)引發(fā)了核心競爭力關(guān)鍵因素的變革。
(二)大數(shù)據(jù)的技術(shù)
1.數(shù)據(jù)采集與預(yù)處理。數(shù)據(jù)采集是開展大數(shù)據(jù)應(yīng)用的第一步。大數(shù)據(jù)的“大”,往往意味著全面、整體,也代表著數(shù)據(jù)來源結(jié)構(gòu)和模式的多樣性。文本、音頻、圖片、超鏈接等,都可以成為數(shù)據(jù)源。對于如此大量的異構(gòu)數(shù)據(jù),必須通過一定的方式進行集成處理或整合處理,通過整理、清洗、轉(zhuǎn)換后,映射到一個新的數(shù)據(jù)集中去,為后續(xù)存儲和分析處理提供統(tǒng)一的數(shù)據(jù)視圖。
2.數(shù)據(jù)存儲與管理。傳統(tǒng)的管理信息系統(tǒng)產(chǎn)生的是結(jié)構(gòu)化的數(shù)據(jù),關(guān)系型數(shù)據(jù)庫通過行列二維的表格可以存儲結(jié)構(gòu)化數(shù)據(jù)。但是對于大數(shù)據(jù)而言,半結(jié)構(gòu)化數(shù)據(jù)甚至非結(jié)構(gòu)化數(shù)據(jù)占比大幅度上升,要對這些數(shù)據(jù)進行內(nèi)容檢索、對比、挖掘,是關(guān)系型數(shù)據(jù)庫無法實現(xiàn)的。目前采用的是MPP并行數(shù)據(jù)庫集群與Hadoop集群混合的方式來實現(xiàn)巨量數(shù)據(jù)的存儲和管理,這些數(shù)據(jù)往往達到PB、EB量級。其中,MPP提供強大的SQL和OLTP服務(wù),Hadoop則支持對半結(jié)構(gòu)化或非結(jié)構(gòu)數(shù)據(jù)進行內(nèi)容檢索和深度挖掘。
3.數(shù)據(jù)挖掘與可視化。根據(jù)數(shù)據(jù)倉庫中的數(shù)據(jù)信息,選擇合適的分析工具,應(yīng)用統(tǒng)計方法、事例推理、決策樹、規(guī)則推理、模糊集,甚至神經(jīng)網(wǎng)絡(luò)、遺傳算法的方法處理信息,得出有用的分析信息。這也就意味著,在數(shù)據(jù)挖掘的初始階段,目標并不需要非常清晰,而是要依靠挖掘算法來找出隱藏在大量數(shù)據(jù)中的規(guī)則、模式、規(guī)律等??梢暬褪前研畔⒂成錇榭梢妶D形的過程,它為人類與計算機這兩個信息處理系統(tǒng)之間提供了一個接口??梢暬瘜?shù)據(jù)分析至關(guān)重要,它可以揭示出數(shù)據(jù)內(nèi)在錯綜復(fù)雜的關(guān)系,在這一點上可視化的優(yōu)勢是其他方法無可比擬?,F(xiàn)在的數(shù)據(jù)可視化技術(shù)的主要攻堅對象是如何在不貶抑數(shù)據(jù)價值的同時將數(shù)據(jù)從“數(shù)字、文字”轉(zhuǎn)換為簡潔的圖表,進而方便數(shù)據(jù)挖掘和數(shù)據(jù)展示。未來的可視化效果,將繼續(xù)在可視化效果上進行深度發(fā)展,大數(shù)據(jù)分析工具也將在數(shù)據(jù)可視化技術(shù)的推動下攀升到一個新的高度
二、基于數(shù)據(jù)挖掘的研究生培養(yǎng)過程質(zhì)量監(jiān)測預(yù)警
1.關(guān)聯(lián)規(guī)則挖掘與算法。關(guān)聯(lián)規(guī)則挖掘是從事務(wù)集合中挖掘出這樣的關(guān)聯(lián)規(guī)則,它的支持度和置信度大于最低閾值,這個閾值是由用戶指定的。關(guān)聯(lián)規(guī)則挖掘可以大致分為兩步:(1)從事務(wù)集合中找出頻繁項目集;(2)從頻繁項目集合中生成滿足最低置信度的關(guān)聯(lián)規(guī)則。最出名的關(guān)聯(lián)規(guī)則挖掘算法是Apriori算法,它主要利用了向下封閉屬性,如果一個項集是頻繁項目集,那么它的非空子集必定是頻繁項目集。它先生成1-頻繁項目集,再利用1-頻繁項目集生成2-頻繁項目集……然后根據(jù)2-頻繁項目集生成3-頻繁項目集……依次類推,直至生成所有的頻繁項目集,然后從頻繁項目集中找出符合條件的關(guān)聯(lián)規(guī)則。
2.數(shù)據(jù)挖掘軟件。WEKA的全名是Waikato Environment for Knowledge Analysis,同時WEKA也是新西蘭的一種鳥名,其主要開發(fā)者來自新西蘭。WEKA作為一個公開的數(shù)據(jù)挖掘工作平臺,集合了大量能承擔數(shù)據(jù)挖掘任務(wù)的機器學(xué)習(xí)算法,包括對數(shù)據(jù)進行預(yù)處理、分類、回歸、聚類、關(guān)聯(lián)規(guī)則以及在新的交互式界面上的可視化。如果想自己實現(xiàn)數(shù)據(jù)挖掘算法的話,可以參考WEKA的接口文檔,在WEKA中集成自己的算法甚至借鑒它的方法自己實現(xiàn)可視化工具并不是件很困難的事情。
3.實證分析。(1)數(shù)據(jù)采集。本文以某財經(jīng)類高校的經(jīng)濟類專業(yè)研究生為研究對象,采集了2013—2015級研究生的入學(xué)信息、必修課期末考試成績、圖書借閱記錄、學(xué)位論文盲審成績等數(shù)據(jù)。其中,入學(xué)信息包括學(xué)生的前置學(xué)歷畢業(yè)院校、本科所學(xué)專業(yè)、專業(yè)課初試成績,圖書借閱記錄根據(jù)中圖分類號分別統(tǒng)計學(xué)生借閱的各學(xué)科圖書數(shù)量,必修課包括中級宏微觀經(jīng)濟學(xué)、計量經(jīng)濟學(xué)等學(xué)位課程。(2)數(shù)據(jù)預(yù)處理。由于基于Apriori算法的關(guān)聯(lián)規(guī)則挖掘以識別離散數(shù)據(jù)為主,因此要在進行挖掘之前先對原始數(shù)據(jù)進行離散化處理??紤]到在教務(wù)管理中通常將成績分為優(yōu)、良、中、差四個等級,因此,我們先對成績進行排序,然后將分數(shù)排名在前25%的定義為“優(yōu)”、排名在25%—50%的定義為“良”、排名在50%—75%的定義為“中”、排名在后25%的定義為“差”。對于學(xué)生的前置學(xué)歷畢業(yè)院校也需要進行離散化處理,我們將“985”、“211”院校統(tǒng)稱為“重點院?!?,將獨立學(xué)院或?qū)?圃盒=y(tǒng)稱為“一般院?!?,將其余的公辦本科院校統(tǒng)稱為“省市屬院?!薄D書借閱記錄的數(shù)據(jù)根據(jù)借閱圖書所屬學(xué)科數(shù)量多寡分為“以本學(xué)科為主”或“以跨學(xué)科為主”,從未借閱過圖書的標記為“零”。(3)數(shù)據(jù)挖掘結(jié)果分析。數(shù)據(jù)挖掘是依據(jù)算法計算得出的,必須結(jié)合實際通過人工分析才能得到真正有意義的關(guān)聯(lián)規(guī)則,并用于指導(dǎo)我們的實際工作。經(jīng)過將離散化的數(shù)據(jù)輸入WEKA分析軟件,設(shè)置好相應(yīng)的支持度和置信度,得出以下關(guān)聯(lián)規(guī)則。規(guī)則1:專業(yè)課1初試成績=差→計量經(jīng)濟學(xué)=差。專業(yè)課1根據(jù)研究生報考專業(yè)不同有所區(qū)別,經(jīng)濟管理類的考生專業(yè)課1均為數(shù)學(xué)。由此可見,沒有良好的數(shù)學(xué)基礎(chǔ),學(xué)習(xí)計量經(jīng)濟學(xué)這門經(jīng)濟學(xué)的學(xué)位課程還是比較吃力的。因此,對于初試數(shù)學(xué)成績不理想的學(xué)生,我們要在計量經(jīng)濟學(xué)的教學(xué)過程中給予重點關(guān)注;規(guī)則2:前置學(xué)歷畢業(yè)院校=重點院?!鷮W(xué)位論文成績=良。這一規(guī)則體現(xiàn)了生源質(zhì)量的重要性。來自“985”、“211”院校的學(xué)生,相對來說在學(xué)習(xí)習(xí)慣、知識掌握、文字表達等方面具有一定的優(yōu)勢,因而所撰寫的學(xué)位論文質(zhì)量能夠有所保證;規(guī)則3:借閱圖書=以跨學(xué)科為主→學(xué)位論文成績=良。研究發(fā)現(xiàn),廣泛涉獵不同學(xué)科的書籍有助于研究生的論文撰寫,這也解釋了跨學(xué)科、多學(xué)科共同培養(yǎng)的必要性。通過不同學(xué)科知識間的融會貫通,有利于激發(fā)學(xué)生的創(chuàng)新思維。
三、下一步研究展望
從現(xiàn)有的實踐看,異構(gòu)數(shù)據(jù)源的采集和存儲將是下一步的研究重點和難點。上面提到的成績、借閱記錄等信息,只是研究生培養(yǎng)過程所產(chǎn)生的數(shù)據(jù)集合的一小部分,只是露出水面的冰山一角。對于研究生管理部門來說,還有大量異構(gòu)數(shù)據(jù)面臨采集難、存儲難的問題。例如,研究生的社交網(wǎng)絡(luò)數(shù)據(jù),如微信好友、QQ好友,由于涉及個人隱私,難以被管理部門收集利用分析。實際上,社交網(wǎng)絡(luò)數(shù)據(jù)對于分析掌握研究生的思想動態(tài)是十分寶貴的第一手資料,例如同一宿舍的研究生之間將對方從好友名單中刪除,這說明兩人的關(guān)系趨于緊張,研究生輔導(dǎo)員如果第一時間掌握了這個情況,就可以及時介入進行調(diào)解,避免矛盾升級造成更嚴重的問題。在大數(shù)據(jù)技術(shù)日新月異的今天,利用大數(shù)據(jù)思維和相關(guān)技術(shù),整合研究生培養(yǎng)過程中產(chǎn)生的各種數(shù)據(jù),可以在個體層面為我們勾勒出研究生在學(xué)期間已有的學(xué)習(xí)軌跡,并預(yù)測其接下來的學(xué)業(yè)表現(xiàn)。這就可以為精準制定符合研究生個人特點的培養(yǎng)方案,實現(xiàn)教學(xué)資源的有效推送奠定基礎(chǔ)。
參考文獻:
[1]簡析大數(shù)據(jù)及其在教育領(lǐng)域的應(yīng)用.http://fanwen.chazid 2016/10/30.
[2]耿學(xué)華,傅德勝.可視化數(shù)據(jù)挖掘技術(shù)研究.計算機應(yīng)用與軟件,2006,(2).
[3]WEKA操作入門.http://wenku.baidu.c,2017/01/04.
[4]李紅林.基于Apriori算法的高校教學(xué)評價數(shù)據(jù)挖掘.中國科技信息,2010,11(21).