李川
【摘要】 在屬于高等教育場所的大學(xué)之中,學(xué)生成績不僅僅是一個單一的評定標(biāo)準(zhǔn),更需要反映出學(xué)生在接受教育過程中所出現(xiàn)的某方面的問題。并且大學(xué)學(xué)生的數(shù)量眾多,在每次的期末考試中成績數(shù)據(jù)的量十分巨大,如果沒有一個細致完善的數(shù)據(jù)系統(tǒng)作為支撐的話,學(xué)生的成績就會變得十分混亂,嚴(yán)重影響到了學(xué)校的教學(xué)秩序。在本文中,我們將詳細研究分析數(shù)據(jù)倉庫和數(shù)據(jù)挖掘這兩種技術(shù)在學(xué)生成績分析過程當(dāng)中的應(yīng)用,從多角度全方位的分析這兩種技術(shù)給學(xué)生成績分析帶來的便利。
【關(guān)鍵詞】 學(xué)生 成績分析 數(shù)據(jù)倉庫 數(shù)據(jù)挖掘 應(yīng)用
引言:在現(xiàn)階段,隨著高校的數(shù)字化的校園建設(shè)進程加快,學(xué)校內(nèi)部的數(shù)字化管理系統(tǒng)也在發(fā)展中日益完善。但是,這些數(shù)據(jù)在一些高校中往往只是以簡單的計算機內(nèi)部存儲的形式進行存儲,這些存儲的數(shù)據(jù)往往只能向師生提供簡單的查詢服務(wù),并不能對數(shù)據(jù)進行系統(tǒng)化分門別類的查詢和深入化的分析。而通過數(shù)據(jù)倉庫和數(shù)據(jù)挖掘技術(shù)的應(yīng)用,能夠有效的解決大量數(shù)據(jù)存儲混亂,不能對學(xué)校的教學(xué)工作提出系統(tǒng)化的管理協(xié)助等問題。通過對這兩種技術(shù)的合理應(yīng)用,能夠使數(shù)據(jù)合理的存儲和應(yīng)用,并能夠全面提升高校的教育管理水平,為其提供實質(zhì)化的幫助。
一、數(shù)據(jù)倉庫在學(xué)生成績分析中的應(yīng)用概述
1.1數(shù)據(jù)倉庫的概述
數(shù)據(jù)倉庫是一種系統(tǒng)化、集成化、自動化的,并且能夠隨著時間的變化自動進行更新的面向主題的一種集合式的數(shù)據(jù)群。它可以用于各種經(jīng)營管理的場合和機構(gòu),能夠?qū)?jīng)營管理的組織提出數(shù)據(jù)上的決策幫助,在經(jīng)營管理組織的決策階段,數(shù)據(jù)倉庫能夠起到很重要的參考作用。在高校學(xué)生成績分析的過程中,數(shù)據(jù)倉庫的合理應(yīng)用也能夠具有很大的價值。在目前的高校管理信息系統(tǒng)當(dāng)中,很大一部分?jǐn)?shù)據(jù)將會作為數(shù)據(jù)倉庫建設(shè)的重要參考被納入數(shù)據(jù)倉庫之中?,F(xiàn)階段在高校內(nèi)部數(shù)據(jù)管理中,多是以各種方面的數(shù)據(jù)庫獨立存在的方式來進行綜合的數(shù)據(jù)管理,例如學(xué)生成績查詢系統(tǒng)、教務(wù)處管理系統(tǒng)、學(xué)工處管理系統(tǒng)等。這些獨立的數(shù)據(jù)庫管理系統(tǒng)往往無法相互關(guān)聯(lián)或關(guān)聯(lián)的程度較小,并且這些數(shù)據(jù)管理系統(tǒng)內(nèi)部都包含著大量的數(shù)據(jù)信息,無法通過完全廢棄舊的數(shù)據(jù)管理系統(tǒng)的方式進行資源重組[1],同時由于學(xué)校各部門的職責(zé)也都不盡相同,因此各部門的數(shù)據(jù)管理系統(tǒng)的開發(fā)單也不是統(tǒng)一的,這就給數(shù)據(jù)的綜合性管理增加了許多的難度。因此高校的管理系統(tǒng)必須構(gòu)建數(shù)據(jù)倉庫,提高對各類型數(shù)據(jù)的全面統(tǒng)一管理的能力,通過數(shù)據(jù)倉庫,能夠使管理系統(tǒng)中的數(shù)據(jù)相互關(guān)聯(lián)起來,保證了數(shù)據(jù)的整體性和相關(guān)性,為高校在教學(xué)和管理活動中的決策提供重要的參考。
1.2數(shù)據(jù)倉庫要滿足學(xué)生成績分析系統(tǒng)的需求
高校在數(shù)據(jù)倉庫建立之前,還需要做一步重要的前期準(zhǔn)備工作,就是對學(xué)生成績分析系統(tǒng)的基本需求要有一個明確的了解。一般來說,學(xué)生成績分析系統(tǒng)所要做到的基本工作就是對學(xué)生成績的特點進行系統(tǒng)的分析,確定學(xué)生成績分析系統(tǒng)能夠根據(jù)學(xué)生的特點進行系統(tǒng)化的管理分析。同時還要做到工作的細化,通過建立數(shù)據(jù)倉庫可以對學(xué)生所在班級的教務(wù)管理工作進行優(yōu)化,對院系的教務(wù)管理工作進行優(yōu)化,還需要根據(jù)學(xué)生成績分析系統(tǒng)的數(shù)據(jù)[2],對學(xué)校整體的教學(xué)計劃進行調(diào)整,針對于整個學(xué)校的教學(xué)管理做一個系統(tǒng)的優(yōu)化。這就需要數(shù)據(jù)倉庫的開發(fā)人員要充分了解學(xué)生成績分析系統(tǒng)的需求,明確通過針對性的設(shè)計能夠使整個系統(tǒng)實現(xiàn)哪些功能,并且要了解其中的數(shù)據(jù)能夠做出什么樣的預(yù)測,經(jīng)過對學(xué)生成績分析系統(tǒng)的充分了解之后,才能根據(jù)需求進行針對性的設(shè)計,將數(shù)據(jù)倉庫的優(yōu)勢完全發(fā)揮出來。例如,在數(shù)據(jù)倉庫的需求了解中,應(yīng)該了解到數(shù)據(jù)倉庫的建立需要滿足所有學(xué)生的成績分析需求,并且在整體上要對班級、院系乃至于全校的某門共同課程進行系統(tǒng)化的分析,或是需要對不同的授課教師所教的某一門課程進行分析和對比,這些精細化的數(shù)據(jù)分析要求,對學(xué)生成績分析系統(tǒng)中信息的粒度要求十分高,在數(shù)據(jù)的粒度上需要達到最精細化的程度。數(shù)據(jù)倉庫的職責(zé),不僅僅是對學(xué)生的成績進行一個收集,需要的是通過數(shù)據(jù)倉庫的利用對學(xué)生的成績進行系統(tǒng)化的分析,同時還需要從課程、授課教師、學(xué)生本身等各方面各角度進行分析,對整個成績的細節(jié)概況要有全面而充分的了解。
1.3數(shù)據(jù)倉庫的具體設(shè)計方案
數(shù)據(jù)倉庫的設(shè)計大體上可分為兩種基本方法,一種為“自頂向下”的方法,另一種為“自底向上”的方法[3]。這兩種基本方法各有著優(yōu)缺點,在單獨使用的情況下效果不佳。而通過將兩種基本方法結(jié)合使用的情況下,可以收到很好的效果。在設(shè)計的過程中,可以適當(dāng)?shù)亟梃b企業(yè)級別的數(shù)據(jù)倉庫進行設(shè)計,要對總體的設(shè)計框架有一個明確的構(gòu)思。在這里,我們則需要引進一下數(shù)據(jù)集市的概念,數(shù)據(jù)集市是在數(shù)據(jù)倉庫系統(tǒng)當(dāng)中重要的一部分,可以看做是數(shù)據(jù)倉庫的邏輯子集,而數(shù)據(jù)倉庫則是這些邏輯子集的集合,并且將這些邏輯子集系統(tǒng)化,一致化。我們在數(shù)據(jù)集市的設(shè)計中,也要以整體的設(shè)計理念作為指導(dǎo),通過系統(tǒng)化的設(shè)計指導(dǎo)方向來進行設(shè)計。學(xué)生成績分析系統(tǒng)內(nèi)部所包含的數(shù)據(jù)量是十分巨大的,這也是由于系統(tǒng)的職責(zé)和任務(wù)就是對教務(wù)工作的管理工作提供決策支持的特性所造成的。在學(xué)生成績分析系統(tǒng)當(dāng)中里面的數(shù)據(jù)呈現(xiàn)多維化、多樣化、精細化、更新速度快的特點,因此數(shù)據(jù)倉庫的設(shè)計必須要謹(jǐn)慎有加,這樣才能夠保證在這種大量的數(shù)據(jù)中能夠做出準(zhǔn)確的系統(tǒng)化的分析和判斷。數(shù)據(jù)倉庫的另一個設(shè)計重點則是對數(shù)據(jù)模式的設(shè)計,數(shù)據(jù)模式是數(shù)據(jù)倉庫中最為重要的部分,也是整個數(shù)據(jù)倉庫的核心部位。我們也可以將數(shù)據(jù)倉庫的建立模型看做一個具有單一化層面相互關(guān)聯(lián)的數(shù)據(jù)模型向多元化的多維數(shù)據(jù)模型的轉(zhuǎn)變。我們在數(shù)據(jù)倉庫的整體設(shè)計中可以將整體的設(shè)計理念分為三個層次,使用三層數(shù)據(jù)建模的方式來完成數(shù)據(jù)倉庫的整體設(shè)計過程。這三個層次分別為概念模型設(shè)計、邏輯模型設(shè)計和物理模型設(shè)計[4]。這三個層面的設(shè)計構(gòu)成了整個數(shù)據(jù)倉庫的設(shè)計方向和設(shè)計理念。下面將對這三個層次的設(shè)計做詳細的闡述。
1.3.1概念模型的設(shè)計概述
概念模型是對整個數(shù)據(jù)倉庫進行一個整體而全面的分析和概括,是一個大綱性質(zhì)的模型設(shè)計。在整個概念模型的設(shè)計中,主要涉及的大方向有兩個,第一個方向就是確定整個系統(tǒng)的主題域,這是在概念模型的設(shè)計當(dāng)中首先要去做的一步,也是重要性極高的一步。第二個方向則是要確定邊界,這個邊界具體是指數(shù)據(jù)倉庫中的內(nèi)容和界定系統(tǒng)的邊界。通過界定邊界的設(shè)計,可以使數(shù)據(jù)倉庫中的數(shù)據(jù)含量更加的精確,從而達到整個數(shù)據(jù)倉庫在設(shè)計初期的優(yōu)化。endprint
在學(xué)生成績分析數(shù)據(jù)倉庫中,所包含的主題主要有學(xué)生成績主題、教師授課情況主題、課程信息主題等各種方面。在學(xué)生成績的主題方面,主要包含了學(xué)生的基本信息、成績登記信息、課程信息以及授課教師情況等;教師授課主題主要包括了教師的基本信息、課程進度、授課課時等基本情況;在課程信息主題中,主要包括了課程類型、課程規(guī)定課時、選修課程和必修課程分類以及課程安排明細等方面。這些主題所涉及的各個方面都是整個學(xué)生成績分析數(shù)據(jù)倉庫的主要依據(jù)。在這些詳細的主題域和主題邊界被確定之后,便可以對所要研究的主題進行詳細分析,概念模型的設(shè)計是整個學(xué)生成績分析數(shù)據(jù)倉庫的重要基礎(chǔ),也是整個數(shù)據(jù)倉庫中必須要去做好的先決條件。
1.3.2邏輯模型的設(shè)計概述
在進入了邏輯模型設(shè)計的階段,主要的任務(wù)則是對在概念模型設(shè)計中建立的主題域進行系統(tǒng)詳細的分析。在這個系統(tǒng)設(shè)計階段,對所選取的主題要注重按照粒度層次進行系統(tǒng)化的劃分,在邏輯模型構(gòu)建的方法中,我們可以使用星式模型進行構(gòu)造。通過實踐表明,星式模型是實現(xiàn)邏輯模型構(gòu)造的基本方法。在通過星式模型完成設(shè)計的過程中,我們還需要注意一下幾個方面的問題。1、粒度選擇的問題。在粒度的設(shè)計方面,高校學(xué)生成績分析數(shù)據(jù)倉庫內(nèi)部所含的數(shù)據(jù)每年的總行數(shù)大概在10000行左右,因此我們可以采取單一的粒度設(shè)計模式進行粒度設(shè)計,使其充分?jǐn)?shù)據(jù)倉庫的工作機理。2、對于數(shù)據(jù)表的合理規(guī)劃。在高校學(xué)生成績分析的數(shù)據(jù)倉庫中,在每個主題中所含的數(shù)據(jù)表內(nèi)的數(shù)據(jù)含量并不是十分大,我們就不用通過數(shù)據(jù)分割處理的方式進行處理。在每個表中,所使用的信息相對來說都比較固定,因此我們可以根據(jù)這些變動不大固有的信息進行對數(shù)據(jù)表的規(guī)劃。
1.3.3物理模型的設(shè)計概述
在物理模型的設(shè)計中,所用的轉(zhuǎn)換方式是可以按照傳統(tǒng)的數(shù)據(jù)庫模式進行設(shè)計的,在物理模型的設(shè)計中,我們需注意的是數(shù)據(jù)標(biāo)準(zhǔn)的定義方式和數(shù)據(jù)倉庫中的維度信息。在物理模型的設(shè)計中,主要的設(shè)計方向應(yīng)該是學(xué)生成績數(shù)據(jù)的存儲方式,對于表中數(shù)據(jù)含量特別大的部分,我們在物理模型的設(shè)計中可以采用分區(qū)存放的方式來進行。對于一些數(shù)據(jù)含量較小的維表來說,我們就可以把這些維表集中存放于某個數(shù)據(jù)表的空間之中,在物理模型的設(shè)計之中,也要充分考慮到數(shù)據(jù)的讀取速度,要在成本允許的情況下盡可能的利用高速的存儲設(shè)備進行數(shù)據(jù)的讀取。同時建立索引的方法也能夠在很大程度上提高數(shù)據(jù)的讀取速度,但索引會在數(shù)據(jù)的更新方面造成一些困擾,有可能導(dǎo)致數(shù)據(jù)的更新速度表面,出現(xiàn)系統(tǒng)數(shù)據(jù)延遲的狀況,影響數(shù)據(jù)的協(xié)助決策功能的發(fā)揮。因此,對于數(shù)據(jù)量不是非常巨大的情況下,盡量不要使用索引。
二、數(shù)據(jù)挖掘技術(shù)在學(xué)生成績分析系統(tǒng)中的應(yīng)用概述
2.1數(shù)據(jù)挖掘技術(shù)的概述
數(shù)據(jù)挖掘技術(shù)就是從大量的數(shù)據(jù)之中自動發(fā)現(xiàn)并提取人們感興趣的信息,以幫助人們進行協(xié)助決策的目的。數(shù)據(jù)挖掘技術(shù)對于大量的數(shù)據(jù)篩選工作有著重要的幫助,能夠使人們在大量的、不規(guī)則的、不完整的數(shù)據(jù)中盡快的尋找到自己所需要的數(shù)據(jù),極大的提高了工作效率[5],避免了時間的浪費。而數(shù)據(jù)挖掘技術(shù)在學(xué)生成績分析中也會有很大的幫助,通過數(shù)據(jù)挖掘,能夠使教務(wù)處的相關(guān)工作人員準(zhǔn)確的找出學(xué)生成績間的內(nèi)在聯(lián)系和反映出的狀況,避免了在龐大的數(shù)據(jù)群中花費大量時間去篩選,使得教學(xué)工作能夠更加科學(xué)有效的進行開展。
2.2數(shù)據(jù)標(biāo)準(zhǔn)化處理的概述
在各科成績之間 ,分?jǐn)?shù)段的分布是有著明顯的差異的。例如在一些政治類的必修課中,如馬克思主義基本原理概論、毛澤東思想和中國特色社會主義理論體系概論等課程中,學(xué)生的分?jǐn)?shù)波動幅度整體來說不大,而在一些數(shù)學(xué)類的課程中,學(xué)生之間的分?jǐn)?shù)差距就會相對較大。因此,對于學(xué)生的成績數(shù)據(jù)做作線性的標(biāo)準(zhǔn)化處理就顯得十分必要,我們可以在0到1的集合范圍內(nèi)對學(xué)生的成績進行統(tǒng)一的轉(zhuǎn)化,將學(xué)生的成績轉(zhuǎn)化為0到1之間的實數(shù),最高分為1,最低分為0,然后其他分?jǐn)?shù)按照線性規(guī)律轉(zhuǎn)化為不同的實數(shù)[6],這種標(biāo)準(zhǔn)化值的線性排列的方法可以使數(shù)據(jù)的查找更為精確,使得教務(wù)工作人員在進行數(shù)據(jù)分析時能夠準(zhǔn)確的找出具有代表性的樣本數(shù)據(jù),使數(shù)據(jù)在協(xié)助決策的過程中發(fā)揮更大的作用。
2.3數(shù)據(jù)的聚類分析
聚類分析也是數(shù)據(jù)挖掘技術(shù)當(dāng)中非常重要的分析方法,是數(shù)據(jù)挖掘技術(shù)實施過程中必不可少的重要分析方法。聚類分析主要有兩種分析方法,一種是基于K一Means算法的聚類分析,另一種是基于Huffman樹的K一Means聚類分析[7],這兩種聚類分析方法是目前最為常用的兩種分析方法,下面將對這兩種聚類分析方法進行詳細的說明。
2.3.1基于K一Means算法的聚類分析
這種聚類分析的方法在應(yīng)用范圍上來說較為廣泛,在使用中首先要選定聚類的類別數(shù),把它記為K,然后采用迭代更新的聚類方法進行分析,最終得到K個聚類中心所表達的聚類結(jié)果,在每一次迭代的變化過程當(dāng)中,數(shù)據(jù)都在向著目標(biāo)的函數(shù)值進行靠近,如果在聚類結(jié)果中目標(biāo)的函數(shù)取得了極小值,且聚類效果較好的話,那么便達成了終止條件。K一Means算法的基本工作機理是在算法以內(nèi),平方誤差和函數(shù)作為目標(biāo)函數(shù),在事先指定的K個劃分當(dāng)中通過迭代優(yōu)化的方式使得目標(biāo)的函數(shù)值最小。這種算法在聚類分析中是一種重要的算法,并且十分簡單高效,能夠做到對數(shù)據(jù)進行迅速反映,得出的結(jié)果也相對較為準(zhǔn)確。但是這種算法隨著數(shù)據(jù)的量和分類的不斷增多,這種算法的劣勢也逐漸的顯露出來,其中包括K值的估計不夠準(zhǔn)確,初選的始聚類中心的問題等一系列問題,針對于這些問題的情況,基于Huffman樹的K一Means聚類算法也隨之產(chǎn)生,對聚類算法進行了進一步的優(yōu)化。
2.3.2基于Huffman樹的K一Means聚類算法
這種算法相對于原先的K類均值算法來說做到了進一步的優(yōu)化,首先這種算法利用了Huffman樹的理念,對初始中心點的選取做了進一步的優(yōu)化,其次改進了K類均值聚類算法在全局方面計算相對失準(zhǔn)的情況,一定程度上解決了這種均值算法的片面性的問題。下面將介紹關(guān)于基于Huffman樹的K一Means聚類算法的基本步驟。endprint
1、計算數(shù)據(jù)相異度的矩陣建立。我們要利用數(shù)據(jù)樣本,根據(jù)算法原理將數(shù)據(jù)樣本構(gòu)成Huffman樹,并且根據(jù)所構(gòu)造的樹進行全面的算法分析。在樹的構(gòu)造過程中,我們要選取歐式距離中最小的兩個數(shù)據(jù)點進行新樹的子樹構(gòu)造,并且需要根據(jù)這兩點的算術(shù)平均值來作為新樹當(dāng)中節(jié)點的值進行計算,并且要對樹根節(jié)點的相異度矩陣進行重新計算。
2、確定節(jié)點。根據(jù)圖表所得的理論分析,通過樹的構(gòu)造過程逆序找到K-1個節(jié)點[8],同時將節(jié)點去掉的話會得到 K個子樹,在子樹的根節(jié)點就是K個初始聚類中心點。
2.4聚類分析技術(shù)在學(xué)生成績分析中的具體應(yīng)用
通過聚類分析技術(shù),能夠?qū)W(xué)生成績的影響因素進行具體細致的分析,并找出學(xué)生某學(xué)科成績所展現(xiàn)的整體特點,對決策的協(xié)助有著很大的幫助。聚類分析可以將學(xué)生的成績與各種因素相互關(guān)聯(lián),并且在分析中尋找出對成績影響較大的因素進行具體分析,從而全面提高高校的教學(xué)質(zhì)量。在聚類分析技術(shù)之中可以將學(xué)生的眾多成績進行歸類,通過歸類成為的簇的大小、形態(tài)和聚類中心值的情況,準(zhǔn)確的將影響學(xué)生成績的潛在因素挖掘出來,并且根據(jù)這些分析對教學(xué)管理做出針對性的調(diào)整,從而提高高校的整體教學(xué)水平,充分發(fā)揮了學(xué)生成績分析系統(tǒng)數(shù)據(jù)挖掘技術(shù)的作用。
三、總結(jié)
數(shù)據(jù)倉庫和數(shù)據(jù)挖掘針對于大量的數(shù)據(jù)管理有著重要的作用,能夠充分發(fā)揮數(shù)據(jù)的協(xié)助決策的作用,為單位決策管理部門提供了重要的決策參考。數(shù)據(jù)倉庫和數(shù)據(jù)挖掘技術(shù)在學(xué)生成績分析系統(tǒng)中的作用也是十分顯著的。通過數(shù)據(jù)倉庫的建立和數(shù)據(jù)挖掘中聚類分析技術(shù)的應(yīng)用,全面提高了學(xué)生成績分析系統(tǒng)的作用,對教學(xué)水平的提升和管理決策的實時調(diào)整有著顯著的效果。
參 考 文 獻
[1] 黃宇達,向前.學(xué)生成績分析OLAP數(shù)據(jù)倉庫的設(shè)計與實現(xiàn)[J].電腦知識與技術(shù) , 2012 , 08 (13) :2944-2948
[2] 王婷婷,燕基于學(xué)生成績分析數(shù)據(jù)倉庫的設(shè)計[J].中國電子商務(wù), 2013 (11) :159-159
[3]李嵐.基于數(shù)據(jù)倉庫的學(xué)生成績分析與研究[D].北京交通大學(xué) , 2014
[4] 陳偉蓮.基于數(shù)據(jù)挖掘技術(shù)的某學(xué)院成績分析應(yīng)用[J].華南理工大學(xué) , 2012
[5] 王峰.基于數(shù)據(jù)倉庫的大學(xué)生成績分析與應(yīng)用[J].計算機光盤軟件與應(yīng)用, 2013 (5) :207-208
[6]劉春輝, 李芳. 數(shù)據(jù)挖掘技術(shù)在學(xué)生成績分析中的應(yīng)用[J]. 黑龍江科技信息, 2012(18):219-220.
[7]劉斌, 陳依潼. 數(shù)據(jù)挖掘技術(shù)在學(xué)生成績分析中的應(yīng)用[J]. 電腦編程技巧與維護, 2014(16):45-46.
[8] 賈延斌, 楊光. 數(shù)據(jù)倉庫在學(xué)生成績分析中的應(yīng)用研究[J]. 陜西青年職業(yè)學(xué)院學(xué)報, 2017(1).endprint