文/張瑾 張?jiān)鲂?周玨
美國(guó)高校的信息化建設(shè)進(jìn)度總體上比我們快十年,我們現(xiàn)在遇到的問(wèn)題,他們十幾年前已面對(duì)過(guò)。因此,了解美國(guó)高校如何利用數(shù)據(jù)為學(xué)校的管理決策服務(wù),可以給我們帶來(lái)一些重要啟示。
高校的數(shù)據(jù)建設(shè)可以分為數(shù)據(jù)采集建設(shè)和數(shù)據(jù)應(yīng)用建設(shè)。數(shù)據(jù)采集建設(shè)期間,各種業(yè)務(wù)系統(tǒng)分頭建設(shè)上線,逐步積累大量業(yè)務(wù)數(shù)據(jù)。如何應(yīng)用這些業(yè)務(wù)數(shù)據(jù)就是數(shù)據(jù)應(yīng)用建設(shè)。本文介紹了美國(guó)高校的數(shù)據(jù)應(yīng)用建設(shè)情況,即在建設(shè)數(shù)據(jù)倉(cāng)庫(kù)的基礎(chǔ)上進(jìn)行數(shù)據(jù)挖掘,以期對(duì)正處于由數(shù)據(jù)采集建設(shè)向數(shù)據(jù)應(yīng)用建設(shè)過(guò)渡的我國(guó)大多數(shù)高校有所啟示。
在過(guò)去十幾年里,國(guó)內(nèi)幾乎所有的高校都不同程度地開(kāi)展各種業(yè)務(wù)系統(tǒng)的建設(shè)。這些業(yè)務(wù)系統(tǒng)涵蓋學(xué)生、教學(xué)、科研、財(cái)務(wù)、人事等各項(xiàng)管理。各種業(yè)務(wù)系統(tǒng)的不斷上線,提高了管理的效率和質(zhì)量,提升了學(xué)校為師生服務(wù)的意識(shí),使學(xué)校各項(xiàng)制度的執(zhí)行更加到位,并且積累了大量的業(yè)務(wù)數(shù)據(jù)。目前,多數(shù)高校業(yè)務(wù)系統(tǒng)大規(guī)模建設(shè)的階段已進(jìn)入尾聲,面對(duì)海量數(shù)據(jù),很多高校開(kāi)始思考這樣一個(gè)問(wèn)題:這些數(shù)據(jù)應(yīng)該如何被利用,使其成為學(xué)校決策的強(qiáng)有力支持。
美國(guó)高校的信息化建設(shè)進(jìn)度總體上比我們快十年,我們現(xiàn)在遇到的問(wèn)題,他們十幾年前已碰到過(guò)。因此,了解美國(guó)高校如何利用數(shù)據(jù)為學(xué)校的管理決策服務(wù),可以給我們帶來(lái)一些重要啟示。
美國(guó)高校的數(shù)據(jù)應(yīng)用建設(shè)是建立在數(shù)據(jù)倉(cāng)庫(kù)基礎(chǔ)上的數(shù)據(jù)挖掘。其實(shí),就數(shù)據(jù)倉(cāng)庫(kù)和數(shù)據(jù)挖掘這兩個(gè)概念本身而言,并沒(méi)有必然的聯(lián)系。數(shù)據(jù)挖掘不一定要建立在數(shù)據(jù)倉(cāng)庫(kù)的基礎(chǔ)上,任何數(shù)據(jù)都可以進(jìn)行挖掘。當(dāng)然,越準(zhǔn)確、越全面的數(shù)據(jù)對(duì)數(shù)據(jù)挖掘而言更有價(jià)值。因此,美國(guó)高校普遍認(rèn)為,數(shù)據(jù)倉(cāng)庫(kù)建設(shè)是進(jìn)行數(shù)據(jù)挖掘的基礎(chǔ),數(shù)據(jù)挖掘是對(duì)數(shù)據(jù)倉(cāng)庫(kù)的一種高級(jí)應(yīng)用。美國(guó)高校數(shù)據(jù)應(yīng)用建設(shè)的一般模式如圖所示。
美國(guó)高校的數(shù)據(jù)倉(cāng)庫(kù)建設(shè)是在完成各個(gè)業(yè)務(wù)系統(tǒng)建設(shè)后進(jìn)行的。擁有了各種業(yè)務(wù)系統(tǒng)后,很多美國(guó)高校發(fā)現(xiàn)他們依然無(wú)法便捷地獲得各種數(shù)據(jù)報(bào)表。當(dāng)需要獲得報(bào)表時(shí),發(fā)現(xiàn)各個(gè)業(yè)務(wù)系統(tǒng)沒(méi)有提供靈活、強(qiáng)大的報(bào)表工具,因此,用戶必須自己去做報(bào)表。自己制作,費(fèi)時(shí)費(fèi)力是肯定的,而且一個(gè)報(bào)表制作完成后,下一次需要使用該報(bào)表,還要重復(fù)制作。更關(guān)鍵的問(wèn)題是,用戶自己制作報(bào)表,需要用戶有查詢數(shù)據(jù)庫(kù)的能力。例如,理解數(shù)據(jù)庫(kù)結(jié)構(gòu),懂得SQL語(yǔ)法,正確執(zhí)行查詢條件。這些都對(duì)用戶的信息素養(yǎng)提出很高的要求,從而限制了各種業(yè)務(wù)系統(tǒng)報(bào)表在學(xué)校中的獲得和使用。由于報(bào)表的獲得比較困難,并且準(zhǔn)確性、權(quán)威性也存在質(zhì)疑,因此,學(xué)校無(wú)法使用報(bào)表去做分析和決策。
為了解決數(shù)據(jù)報(bào)表獲取上的問(wèn)題,構(gòu)建以數(shù)據(jù)事實(shí)為依據(jù)的學(xué)校決策氛圍,很多美國(guó)高校開(kāi)始意識(shí)到要建立校級(jí)數(shù)據(jù)倉(cāng)庫(kù)。
早在2002年,根據(jù)Robert Kvavik博士對(duì)全美500所高校的調(diào)研結(jié)果顯示,39%的高校已經(jīng)或者正在建設(shè)數(shù)據(jù)倉(cāng)庫(kù),37%的高校計(jì)劃在接下來(lái)的3年里建設(shè)數(shù)據(jù)倉(cāng)庫(kù),并且,其中的1/3將會(huì)在2003年開(kāi)始數(shù)據(jù)倉(cāng)庫(kù)的建設(shè)。目前,美國(guó)有一百多所大學(xué)擁有自己的數(shù)據(jù)倉(cāng)庫(kù),并對(duì)外提供數(shù)據(jù)服務(wù)。高等教育數(shù)據(jù)倉(cāng)庫(kù)網(wǎng)站(Data Warehousing in Higher Education,http://dheise.andrews.edu/dw/DWData.htm)列出了最新的擁有數(shù)據(jù)倉(cāng)庫(kù)的美國(guó)大學(xué)名單及數(shù)據(jù)倉(cāng)庫(kù)的訪問(wèn)地址。
建設(shè)數(shù)據(jù)倉(cāng)庫(kù)給學(xué)校的工作帶來(lái)的好處包括:不同來(lái)源的數(shù)據(jù)在數(shù)據(jù)倉(cāng)庫(kù)中被抽取轉(zhuǎn)換成同一格式的元數(shù)據(jù)進(jìn)行存貯,用戶能夠快速、便捷地獲取所需要的數(shù)據(jù)報(bào)表,節(jié)省了編輯、組織數(shù)據(jù)報(bào)告所花費(fèi)的時(shí)間和精力。
數(shù)據(jù)倉(cāng)庫(kù)的建設(shè)對(duì)學(xué)校的理念、工作方式產(chǎn)生深刻影響。在數(shù)據(jù)世界里打破現(xiàn)實(shí)世界中各個(gè)院系、部門的物理屏障,使建立學(xué)校共享的數(shù)據(jù)資源成為一種共識(shí),使基于數(shù)據(jù)事實(shí)的決策方式深入人心。
圖 美國(guó)高校數(shù)據(jù)應(yīng)用建設(shè)的一般模式
所謂數(shù)據(jù)挖掘就是從數(shù)據(jù)中發(fā)現(xiàn)某些規(guī)律,以分析預(yù)測(cè)出所分析對(duì)象的趨勢(shì),從而做出相應(yīng)的決策。例如,某個(gè)在網(wǎng)上開(kāi)店的企業(yè)根據(jù)客戶填寫的資料,近期的購(gòu)物傾向,可以分析出客戶的喜好,并推薦相應(yīng)的商品給客戶。
數(shù)據(jù)挖掘可以運(yùn)用于學(xué)校管理的方方面面?;趯?shí)際需求的、靈活而有創(chuàng)意的數(shù)據(jù)挖掘,為學(xué)校的各個(gè)方面的工作提供有價(jià)值的參考。
美國(guó)高校的很多數(shù)據(jù)挖掘工作是借助一些數(shù)據(jù)分析工具完成的。這些工具有自行開(kāi)發(fā)的,也有商業(yè)工具。以下介紹幾個(gè)美國(guó)高校對(duì)學(xué)生在校期間的學(xué)習(xí)方面的數(shù)據(jù)進(jìn)行分析挖掘的案例。
普渡大學(xué)(Purdue University )
有些學(xué)生缺課多,課后也很少參與交流和提問(wèn),這些學(xué)生很有可能不能順利完成學(xué)業(yè)。如果通過(guò)數(shù)據(jù)分析發(fā)現(xiàn)有這種傾向的學(xué)生,并讓學(xué)術(shù)顧問(wèn)對(duì)其進(jìn)行早期干預(yù),部分學(xué)生能夠避免最終不能完成學(xué)業(yè)的結(jié)果。
普渡大學(xué)認(rèn)為決定學(xué)生是否能完成學(xué)業(yè)的數(shù)據(jù)有兩類:
1. 學(xué)生的學(xué)術(shù)能力方面的數(shù)據(jù)(例如考試的成績(jī))。
2. 學(xué)生自身努力情況的數(shù)據(jù)(例如登錄課程管理系統(tǒng)的情況)。
具體而言是以下六種數(shù)據(jù):ACT或SAT成績(jī)、GPA、課程管理系統(tǒng)使用情況數(shù)據(jù)、課程管理系統(tǒng)分析數(shù)據(jù)、課程管理系統(tǒng)作業(yè)完成情況數(shù)據(jù)、課程管理系統(tǒng)課程的日程數(shù)據(jù)。普渡大學(xué)建立了專門針對(duì)新生的數(shù)據(jù)分析模型和針對(duì)所有學(xué)生的數(shù)據(jù)分析模型。以上六種數(shù)據(jù)在兩個(gè)模型中分別所占的權(quán)重不同。
中佛羅里達(dá)大學(xué)(University of Central Florida)
美國(guó)高校普遍通過(guò)部署學(xué)習(xí)管理系統(tǒng)來(lái)為學(xué)生營(yíng)造傳統(tǒng)課堂之外的自主學(xué)習(xí)環(huán)境。美國(guó)大多數(shù)高校使用的是Blackboard商業(yè)軟件,也有部分高校嘗試開(kāi)源軟件。學(xué)習(xí)管理系統(tǒng)的部署豐富了高校的教學(xué)模式。
目前,主要存在3種教學(xué)模式:
1. 面對(duì)面教學(xué)模式:即傳統(tǒng)的以教師為中心的教學(xué)模式;
2.混合式教學(xué)模式:即面對(duì)面教學(xué)模式與在線教學(xué)模式相結(jié)合的教學(xué)模式。在這種教學(xué)模式中,學(xué)習(xí)管理系統(tǒng)被看作是面對(duì)面教學(xué)模式的補(bǔ)充。在課堂教學(xué)之外,學(xué)生可以從教學(xué)管理系統(tǒng)中獲得相關(guān)的、更加豐富的教學(xué)資源,自主進(jìn)行拓展學(xué)習(xí),并和其他師生在線討論。
3.完全的在線教學(xué)模式:即一門課程完全由學(xué)生通過(guò)教學(xué)平臺(tái)自主學(xué)習(xí),沒(méi)有面對(duì)面教學(xué)的環(huán)節(jié)。
以上三種教學(xué)模式,哪種更優(yōu)一直是一個(gè)有爭(zhēng)議的話題。中佛羅里達(dá)大學(xué)對(duì)以上三種教學(xué)模式的教學(xué)效果進(jìn)行分析,為未來(lái)學(xué)校的課程設(shè)置提供參考。
首先,分析是分專業(yè)進(jìn)行的,因?yàn)椴煌膶I(yè)特點(diǎn)和課程要求,對(duì)最佳教學(xué)模式的選擇不同。
其次,分析中使用到的數(shù)據(jù)有教學(xué)模式(Modality)、課程等級(jí)(Course Level)、班級(jí)規(guī)模(Class Size)、學(xué)生性別(Gender)、學(xué)生的種族(Ethnicity)、學(xué)生年齡(Age)、SAT成績(jī)、所屬學(xué)院(College)、高中的GPA和累計(jì)GPA。
最后,分析的目標(biāo)是:在某個(gè)專業(yè)中,根據(jù)以往的關(guān)于這三種教學(xué)模式中的“成績(jī)優(yōu)秀(Satisfaction)”、“順利通過(guò)(Success)”、“中途放棄(Withdrawal)”和“未通過(guò)課程(No-Success)”的比例的數(shù)據(jù),預(yù)測(cè)未來(lái)各種教學(xué)模式下的“成績(jī)優(yōu)秀”、“順利通過(guò)”、“中途放棄”和“未通過(guò)課程”的比例。
通過(guò)對(duì)現(xiàn)有數(shù)據(jù)的分析,預(yù)測(cè)出未來(lái)三種教學(xué)模式在某個(gè)專業(yè)中的教學(xué)效果前景,為該專業(yè)的課程設(shè)計(jì)提供參考。
奧斯丁皮耶州立大學(xué)(Austin Peay State University)
在美國(guó),學(xué)生進(jìn)入高校后,在專業(yè)范圍內(nèi),學(xué)生的學(xué)習(xí)自主性大大增加,甚至有很多學(xué)校在學(xué)生進(jìn)校的時(shí)候并不定專業(yè),只是分文理科,學(xué)生可以有很多選擇。整個(gè)大學(xué)期間,在學(xué)術(shù)顧問(wèn)的指導(dǎo)下,學(xué)生需要自行選擇每個(gè)學(xué)期合適的課程,安排學(xué)習(xí)計(jì)劃,最終達(dá)到某專業(yè)的畢業(yè)要求。
在面臨眾多課程選擇的時(shí)候,學(xué)生常常感到迷茫:哪種選擇是最適合自己完成高等教育所有課程的最佳安排,課程的先后次序該怎樣安排最合理。學(xué)校的課程介紹往往過(guò)于簡(jiǎn)單,不會(huì)針對(duì)具體的學(xué)生進(jìn)行個(gè)性化介紹。學(xué)術(shù)顧問(wèn)雖然對(duì)本專業(yè)的課程比較了解,但是學(xué)生在讀期間會(huì)涉及選讀很多本專業(yè)以外的課程,對(duì)于這些課程,學(xué)術(shù)顧問(wèn)無(wú)法為學(xué)生提供有效的幫助。
因此,奧斯丁皮耶州立大學(xué)開(kāi)發(fā)使用了一個(gè)課程指南系統(tǒng)(course-recommendation system),叫做學(xué)位指南針(Degree Compass),幫助學(xué)生制定最適合自己的學(xué)習(xí)計(jì)劃。
該學(xué)位指南針系統(tǒng)的分析原理如下:
1. 數(shù)據(jù)依據(jù)
(1)過(guò)去學(xué)生學(xué)習(xí)情況的數(shù)據(jù)。
(2)某位需要給予幫助的學(xué)生的基本數(shù)據(jù)。
2. 數(shù)據(jù)匹配
根據(jù)需要為幫助的學(xué)生提供基本數(shù)據(jù),從以往學(xué)生的案例庫(kù)中找到最匹配的數(shù)據(jù)。例如,與該學(xué)生具有相似專業(yè)背景、學(xué)術(shù)能力的學(xué)生的課程計(jì)劃記錄,從而提供建議性課程計(jì)劃,供該學(xué)生參考。
當(dāng)然,數(shù)據(jù)挖掘不僅僅局限于對(duì)學(xué)習(xí)的分析方面,在整個(gè)高校的各種管理工作環(huán)節(jié)中,數(shù)據(jù)挖掘點(diǎn)無(wú)處不在。例如美國(guó)高校都是自主招生的。每年的招生工作一般是由潛在的學(xué)生自行通過(guò)電話、郵件獲取招生簡(jiǎn)章,了解學(xué)校的情況和自己想要申請(qǐng)的專業(yè)后,自行在線申請(qǐng)的。美國(guó)很多高校每年要接收成千上萬(wàn)份申請(qǐng)。為了盡快鎖定最可能被錄取的潛在學(xué)生,節(jié)省整個(gè)招生工作的成本,貝勒大學(xué)(Baylor University)使用一個(gè)招生預(yù)測(cè)模型,根據(jù)學(xué)校所掌握的申請(qǐng)人的情況,分析預(yù)測(cè)出最可能的潛在學(xué)生的名單,將招生工作的重點(diǎn)放在這些學(xué)生上。
總之,美國(guó)高校的很多數(shù)據(jù)挖掘點(diǎn)是出于實(shí)際需求。實(shí)際需求與創(chuàng)新思路的結(jié)合,就是好的數(shù)據(jù)挖掘點(diǎn)。
有些學(xué)生缺課多,課后也很少參與交流和提問(wèn),這些學(xué)生很有可能不能順利完成學(xué)業(yè)。如果通過(guò)數(shù)據(jù)分析發(fā)現(xiàn)有這種傾向的學(xué)生,并讓學(xué)術(shù)顧問(wèn)對(duì)其進(jìn)行早期干預(yù),部分學(xué)生能夠避免最終不能完成學(xué)業(yè)的結(jié)果。
近十年間,我國(guó)高校通過(guò)建設(shè)和上線各種業(yè)務(wù)系統(tǒng),優(yōu)化了管理工作的流程,規(guī)范了管理制度,并且提高了工作效率,方便了師生。伴隨著各種業(yè)務(wù)系統(tǒng)的使用,各種業(yè)務(wù)數(shù)據(jù),包括中間數(shù)據(jù)被大量積累下來(lái)。我國(guó)很多高校精心保存這些數(shù)據(jù),但只是讓這些數(shù)據(jù)逐年積累在存貯中,而沒(méi)有有效使用它們?,F(xiàn)在是我們開(kāi)始考慮如何使用這些數(shù)據(jù),進(jìn)行數(shù)據(jù)應(yīng)用建設(shè)的時(shí)候了。
數(shù)據(jù)應(yīng)用建設(shè)的最終目標(biāo)是讓數(shù)據(jù)分析的結(jié)果成為學(xué)校決策的主要依據(jù),即讓事實(shí)說(shuō)話。
大多數(shù)美國(guó)高校的數(shù)據(jù)應(yīng)用建設(shè)分兩個(gè)階段進(jìn)行:
1. 數(shù)據(jù)倉(cāng)庫(kù):對(duì)各種業(yè)務(wù)數(shù)據(jù)分類整合,使用戶方便獲取各種業(yè)務(wù)數(shù)據(jù)報(bào)表。
2. 數(shù)據(jù)挖掘:開(kāi)發(fā)使用各種數(shù)據(jù)分析工具,對(duì)數(shù)據(jù)倉(cāng)庫(kù)中獲取的業(yè)務(wù)數(shù)據(jù)進(jìn)行分析,發(fā)現(xiàn)規(guī)律,預(yù)測(cè)未來(lái)。
通過(guò)以上兩個(gè)階段的建設(shè),可搭建一個(gè)靈活的集成、挖掘和分析數(shù)據(jù)的技術(shù)平臺(tái)。很顯然,實(shí)現(xiàn)數(shù)據(jù)應(yīng)用的目標(biāo)不能僅僅依靠技術(shù)建設(shè),更重要的是學(xué)校管理層具備以數(shù)據(jù)為依據(jù)的管理決策理念,并致力于在學(xué)校里推行這種理念,使之形成風(fēng)氣。同時(shí),盡管一個(gè)好的數(shù)據(jù)應(yīng)用平臺(tái)使管理人員不需要去直接接觸數(shù)據(jù)庫(kù)查詢語(yǔ)法,但是學(xué)校行政部門的管理人員還是需要具備能夠輕松使用各種數(shù)據(jù)進(jìn)行分析的素養(yǎng)。