劉杰
摘要:隨著高校的信息化建設(shè)水平的不斷提供,需要對(duì)學(xué)校的信息資源進(jìn)行有效整合和深度應(yīng)用。文章對(duì)高校智慧數(shù)據(jù)體系的規(guī)劃、設(shè)計(jì)和建設(shè)進(jìn)行了初步研究和探討,界定了智慧數(shù)據(jù)體系規(guī)劃的內(nèi)容,明確了研究方法。通過對(duì)高校各業(yè)務(wù)系統(tǒng)的分析,規(guī)劃了高校信息資源體系架構(gòu),設(shè)計(jì)了數(shù)據(jù)管理和分析應(yīng)用的技術(shù)平臺(tái),用于指導(dǎo)高?;诖髷?shù)據(jù)技術(shù)的智慧數(shù)據(jù)體系平臺(tái)構(gòu)建。
關(guān)鍵詞:數(shù)據(jù)體系;數(shù)據(jù)倉(cāng)庫;大數(shù)據(jù);數(shù)據(jù)管理
中圖分類號(hào):TP311 文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):1009-3044(2015)19-0003-02
隨著高校信息化建設(shè)的逐步深入,各高校在建設(shè)過程中產(chǎn)生了大量的信息,如學(xué)生的學(xué)籍信息、選課信息、消費(fèi)信息等;教師的教學(xué)信息、科研信息等;還包含涉及人、財(cái)、物等相關(guān)的校情信息。不少高校已建立了數(shù)據(jù)中心積累了大量的結(jié)構(gòu)化數(shù)據(jù),解決了“數(shù)據(jù)孤島”問題。數(shù)據(jù)中心里面的數(shù)據(jù)除了能提供簡(jiǎn)單查詢和統(tǒng)計(jì)功能外,許多看似沒有關(guān)聯(lián)的數(shù)據(jù)之間常常暗含聯(lián)系,蘊(yùn)藏更多的信息和知識(shí),這就需要運(yùn)用專業(yè)的工具和方法進(jìn)行分析。因此,在當(dāng)今智慧校園的大背景下,同時(shí)基于大數(shù)據(jù)、云計(jì)算等新技術(shù)快速發(fā)展和應(yīng)用,各高校也需根據(jù)學(xué)校自身發(fā)展的需要,制定統(tǒng)一的數(shù)據(jù)標(biāo)準(zhǔn)體系,對(duì)學(xué)校的數(shù)據(jù)模型進(jìn)行統(tǒng)一設(shè)計(jì),這是推進(jìn)學(xué)校數(shù)據(jù)中心建設(shè)的依據(jù),在此基礎(chǔ)上再進(jìn)行數(shù)據(jù)采集、分析和挖掘,并最終展示出來,形成一套完整的智慧數(shù)據(jù)體系系統(tǒng)。智能數(shù)據(jù)體系是智能校園的一部分,它不但是簡(jiǎn)單地從數(shù)據(jù)到信息,從信息到知識(shí),從知識(shí)到智能這么理性,更重要的是從價(jià)值發(fā)現(xiàn)新價(jià)值。因此,智慧數(shù)據(jù)體系也將成為一座橋梁連接虛擬世界和現(xiàn)實(shí)世界。
1研究?jī)?nèi)容
高校數(shù)據(jù)中心的智慧數(shù)據(jù)體系的研究包括四個(gè)部分組成:1)總體規(guī)劃??傮w規(guī)劃是對(duì)全校業(yè)務(wù)系統(tǒng)和數(shù)據(jù)進(jìn)行梳理,形成學(xué)校信息化建設(shè)的頂層設(shè)計(jì)。2)數(shù)據(jù)采集。數(shù)據(jù)采集是通過制定策略,獲取學(xué)校各部門業(yè)務(wù)系統(tǒng)中產(chǎn)生的數(shù)據(jù),并對(duì)其進(jìn)行清洗和存儲(chǔ)。3)數(shù)據(jù)分析。數(shù)據(jù)分析是運(yùn)用專業(yè)工具對(duì)采集的數(shù)據(jù)進(jìn)行專項(xiàng)的分析、提取和挖掘。4)信息服務(wù)。信息服務(wù)是指根據(jù)校園網(wǎng)各類用戶的需求,通過門戶或其他客戶端將數(shù)據(jù)分析的結(jié)果傳遞給用戶進(jìn)行使用。
2總體規(guī)劃
信息資源體系的總體架構(gòu)規(guī)劃采用SOA架構(gòu)進(jìn)行規(guī)劃,主要包括三層:網(wǎng)絡(luò)基礎(chǔ)設(shè)施層、數(shù)據(jù)平臺(tái)層、服務(wù)展現(xiàn)層。見圖1。
信息資源體系架構(gòu)設(shè)計(jì)是高校智慧數(shù)據(jù)體系規(guī)劃的基礎(chǔ),是對(duì)高校數(shù)據(jù)中心信息資源體系總體架構(gòu)和智慧數(shù)據(jù)體系技術(shù)架構(gòu)的梳理和規(guī)劃。信息資源體系架構(gòu)的設(shè)計(jì)過程就是從業(yè)務(wù)系統(tǒng)中抽象出數(shù)據(jù)體系的過程,按照學(xué)校信息化規(guī)劃中對(duì)數(shù)據(jù)集成及數(shù)據(jù)倉(cāng)庫的建設(shè)要求,以及學(xué)校各部門對(duì)信息化的需求,分析各部門業(yè)務(wù)體系、數(shù)據(jù)管理和應(yīng)用現(xiàn)狀,設(shè)計(jì)基于全校的數(shù)據(jù)體系,是智慧數(shù)據(jù)體系的基礎(chǔ)。
以上圖為例,采用面向?qū)ο蟮姆椒?,從業(yè)務(wù)和信息的視角,對(duì)學(xué)校各部門使用的業(yè)務(wù)系統(tǒng)的相關(guān)組成對(duì)象和業(yè)務(wù)過程進(jìn)行抽取和分類,形成教學(xué)、人財(cái)物和科研、學(xué)生、公共服務(wù)四類信息的聚合體,描述各對(duì)象之間的業(yè)務(wù)關(guān)系,形成學(xué)校頂層業(yè)務(wù)視圖,為學(xué)校信息化建設(shè)、數(shù)據(jù)的管理和綜合應(yīng)用建立了頂層框架。
通過對(duì)學(xué)校各部門使用的應(yīng)用系統(tǒng)的分析,首先對(duì)學(xué)校各業(yè)務(wù)系統(tǒng)中產(chǎn)生和存儲(chǔ)的信息進(jìn)行梳理,對(duì)業(yè)務(wù)數(shù)據(jù)進(jìn)行分類、體系化,建立了學(xué)校信息資源體系架構(gòu),在信息資源體系框架下,根據(jù)各類業(yè)務(wù)系統(tǒng)中數(shù)據(jù)之間的關(guān)聯(lián)關(guān)系,進(jìn)行學(xué)校數(shù)據(jù)模型的設(shè)計(jì);其次根據(jù)學(xué)校各部門數(shù)據(jù)應(yīng)用需求和數(shù)據(jù)技術(shù)分類,規(guī)劃基于全校統(tǒng)一的數(shù)據(jù)體系框架,對(duì)數(shù)據(jù)的獲取、存儲(chǔ)、應(yīng)用、管理需求進(jìn)行分析,研究智慧數(shù)據(jù)體系建設(shè)中使用的關(guān)鍵技術(shù),設(shè)計(jì)各類技術(shù)架構(gòu),指導(dǎo)數(shù)據(jù)中心的建設(shè)。
3數(shù)據(jù)采集
教學(xué)和科研是高校的兩大重要工作,因此,教學(xué)信息和科研信息是高校的兩大核心功能的重要數(shù)據(jù),要提高學(xué)校的教學(xué)水平和科研能力,需要有效的從各業(yè)務(wù)系統(tǒng)中取得相關(guān)數(shù)據(jù)。高校的智慧數(shù)據(jù)體系架構(gòu)必須以學(xué)校現(xiàn)有的業(yè)務(wù)系統(tǒng)為基礎(chǔ),能夠應(yīng)對(duì)未來信息化的發(fā)展以及各業(yè)務(wù)系統(tǒng)產(chǎn)生的數(shù)據(jù)管理需求,因此,業(yè)務(wù)系統(tǒng)中各階段產(chǎn)生的數(shù)據(jù)都是非常有意義的,對(duì)其進(jìn)行采集,并按生命周期進(jìn)行管理,既保證了數(shù)據(jù)的完整性又能提高學(xué)校數(shù)據(jù)的質(zhì)量。高校的智慧數(shù)據(jù)體系架構(gòu)的數(shù)據(jù)采集包括數(shù)據(jù)的產(chǎn)生、交換、存儲(chǔ)、管理等內(nèi)容。
3.1數(shù)據(jù)的獲取
在學(xué)校信息化發(fā)展過程中,大部分高校已經(jīng)基本建立了各類信息系統(tǒng)等,積累了大量的結(jié)構(gòu)化數(shù)據(jù),同時(shí)還有許多包括XML等半結(jié)構(gòu)化數(shù)據(jù),以及多種形式存在的非結(jié)構(gòu)化數(shù)據(jù)。數(shù)據(jù)的獲取通過使用ETL工具對(duì)多種來源的數(shù)據(jù)進(jìn)行抽取,轉(zhuǎn)換和加載,并通過企業(yè)服務(wù)總線(Enterprise Service Bus,ESB)以及文件傳輸技術(shù),實(shí)現(xiàn)學(xué)校各部門業(yè)務(wù)系統(tǒng)之間數(shù)據(jù)的關(guān)聯(lián)和聚合,并采用統(tǒng)一的數(shù)據(jù)結(jié)構(gòu)進(jìn)行數(shù)據(jù)的存儲(chǔ)。高校只有將各個(gè)業(yè)務(wù)充分整合,數(shù)據(jù)有效的獲取,以提高數(shù)據(jù)的質(zhì)量,才能將信息化對(duì)學(xué)校發(fā)展的推動(dòng)作用發(fā)揮出來。根據(jù)數(shù)據(jù)類型和來源的不同,需要制定不同的數(shù)據(jù)抽取策略如抽取方式、抽取時(shí)間、抽取周期等,既要滿足數(shù)據(jù)分析的需要,又不能影響業(yè)務(wù)系統(tǒng)的性能。
3.2數(shù)據(jù)的存儲(chǔ)
學(xué)校近年來建設(shè)了各類業(yè)務(wù)系統(tǒng),產(chǎn)生大量的數(shù)據(jù),為保證不同系統(tǒng)之間的數(shù)據(jù)合理存儲(chǔ)和高效利用,避免共享時(shí)出現(xiàn)數(shù)據(jù)不一致的問題,需要合理規(guī)劃學(xué)校的數(shù)據(jù)存儲(chǔ),建立統(tǒng)一的數(shù)據(jù)存儲(chǔ)標(biāo)準(zhǔn)。數(shù)據(jù)存儲(chǔ)架構(gòu)設(shè)計(jì)就是將清洗后的數(shù)據(jù)按計(jì)劃增量的方式導(dǎo)人到數(shù)據(jù)倉(cāng)庫中,用于解決學(xué)校數(shù)據(jù)的存儲(chǔ)和管理難題。目前,在高效中各部門產(chǎn)生的業(yè)務(wù)數(shù)據(jù)分布總體成星型分布,因此數(shù)據(jù)存儲(chǔ)架構(gòu)采用數(shù)據(jù)集中存儲(chǔ)和數(shù)據(jù)分布存儲(chǔ)相結(jié)合的模式。學(xué)校數(shù)據(jù)中心存放的是各部門需要共享的交換數(shù)據(jù)、記錄生命周期的數(shù)據(jù)、歷史數(shù)據(jù),以及用于決策分析的數(shù)據(jù)。其他數(shù)據(jù)仍存放于原來的各業(yè)務(wù)系統(tǒng)的數(shù)據(jù)庫中,用以支持各業(yè)務(wù)系統(tǒng)的正常運(yùn)行。另外,在數(shù)據(jù)存儲(chǔ)的時(shí)候還要考慮對(duì)非結(jié)構(gòu)化數(shù)據(jù)按照統(tǒng)一的標(biāo)準(zhǔn)進(jìn)行有序、高效的存儲(chǔ),以方便下一步數(shù)據(jù)的分析。
3.3數(shù)據(jù)的管理
學(xué)校數(shù)據(jù)中心的數(shù)據(jù)積累是個(gè)漫長(zhǎng)的過程,數(shù)據(jù)從產(chǎn)生、交換、存儲(chǔ)到應(yīng)用有完整的生命周期。在數(shù)據(jù)產(chǎn)生和積累過程中,要有效管理才能確保數(shù)據(jù)質(zhì)量,使學(xué)校數(shù)據(jù)具有更高的價(jià)值。數(shù)據(jù)管理的目的就是去尋找優(yōu)化手段,建立有效的數(shù)據(jù)生命周期管理,有效的控制數(shù)據(jù)資源,重視歷史數(shù)據(jù)積累,提升數(shù)據(jù)資源的利用率。高校數(shù)據(jù)管理架構(gòu)應(yīng)以數(shù)據(jù)為中心,以需求主導(dǎo)服務(wù)方向,建立并實(shí)施數(shù)據(jù)管理標(biāo)準(zhǔn)規(guī)范(包括編碼標(biāo)準(zhǔn)化、數(shù)據(jù)標(biāo)準(zhǔn)化和維護(hù)數(shù)據(jù)標(biāo)準(zhǔn)化三方面),完善數(shù)據(jù)最優(yōu)化。
4數(shù)據(jù)分析
數(shù)據(jù)采集完成后的數(shù)據(jù)將作為數(shù)據(jù)分析的原始數(shù)據(jù)。數(shù)據(jù)分析是智慧數(shù)據(jù)體系中數(shù)據(jù)處理流程的重中之重,它將在這個(gè)環(huán)節(jié)體現(xiàn)數(shù)據(jù)價(jià)值之所在。數(shù)據(jù)分析技術(shù)可以從采集的大量的實(shí)際應(yīng)用數(shù)據(jù)中找到真正有價(jià)值的信息和知識(shí),為教師提供學(xué)生學(xué)習(xí)和教學(xué)相關(guān)的信息以提高教學(xué)質(zhì)量,為科研者提供,為高校管理者提供更科學(xué)的統(tǒng)計(jì)分析作為決策基礎(chǔ),從而有效的提高學(xué)校的教學(xué)質(zhì)量、科研水平等,這對(duì)于學(xué)校的發(fā)展非常重要。在宏觀上,高校可以在學(xué)科規(guī)劃、合理設(shè)置課程、院系辦學(xué)評(píng)估、智慧化校園網(wǎng)絡(luò)建設(shè)等方面借助大數(shù)據(jù)分析技術(shù),挖掘數(shù)據(jù)中潛在的價(jià)值。也可以從一些特定的數(shù)據(jù)中分析挖掘某一方面信息,比如:上網(wǎng)行為分析、學(xué)生心理健康、就業(yè)情況分析、學(xué)習(xí)者特征挖掘。
5信息服務(wù)
信息服務(wù)是根據(jù)不同校園網(wǎng)用戶的需求,為用戶提供公共信息服務(wù)、專業(yè)信息服務(wù)、信息處理服務(wù)、決策信息服務(wù)等。由于信息服務(wù)面向最終用戶,因此它也是智慧數(shù)據(jù)體系的“窗口”。系統(tǒng)存儲(chǔ)的大量數(shù)據(jù)通過對(duì)數(shù)據(jù)分析體系有效、清晰、靈活地呈現(xiàn)給用戶,滿足不同決策層級(jí)用戶的決策需求。在高校,數(shù)據(jù)挖掘可用于學(xué)校教學(xué)、科研、管理等業(yè)務(wù)層面進(jìn)行宏觀的挖掘和預(yù)測(cè),還能用于評(píng)估和判斷在微觀方面的服務(wù)需求,為學(xué)校更早的發(fā)現(xiàn)問題。比如學(xué)習(xí)行為分析、干預(yù)師生行為、對(duì)上網(wǎng)行為分析進(jìn)行心理干預(yù)等。
6總結(jié)
當(dāng)今,云計(jì)算及大數(shù)據(jù)技術(shù)快速發(fā)展,我們可以利用此類技術(shù)及時(shí)方便的獲取需要的數(shù)據(jù),但隨著數(shù)據(jù)的大量累積,要將海量的數(shù)據(jù)轉(zhuǎn)換成有用的信息或知識(shí),變得越來越難,必需運(yùn)用許多專業(yè)工具進(jìn)行挖掘和分析,發(fā)現(xiàn)數(shù)據(jù)之間暗含的信息。因此,在高校中建立基于全校范圍的智慧數(shù)據(jù)體系迫在眉睫,只有通過統(tǒng)一的規(guī)劃,自動(dòng)的獲取和存儲(chǔ)存儲(chǔ),有目的的分析與挖掘,給校園網(wǎng)各類用戶提供各種統(tǒng)計(jì)、分析和決策信息。因此,建立智慧數(shù)據(jù)體系是高校建設(shè)與發(fā)展的必由之路,也是智慧校園建設(shè)的一部分。本文從智慧數(shù)據(jù)體系架構(gòu)設(shè)計(jì)方面對(duì)高校當(dāng)前和未來信息資源應(yīng)用和管理的內(nèi)容和技術(shù)架構(gòu)進(jìn)行了初步的探討,希望能對(duì)高校信息化建設(shè),以及數(shù)據(jù)的應(yīng)用和管理起到參考作用。