黃春華
摘 要: 為了從歷年積累下來的大量招生數(shù)據(jù)中獲得有價值的信息,根據(jù)相關(guān)數(shù)據(jù)挖掘的理論知識,在目前現(xiàn)有的通用數(shù)據(jù)挖掘過程模型的基礎(chǔ)上,結(jié)合高職院校招生工作及其數(shù)據(jù)的特點,給出一個高職招生數(shù)據(jù)挖掘過程模型的構(gòu)建思路。該數(shù)據(jù)挖掘的過程模型可以為接下來的高職招生數(shù)據(jù)挖掘工作提供宏觀上的指導(dǎo)和工程化的方法。
關(guān)鍵詞: 數(shù)據(jù)挖掘; 過程模型; 招生數(shù)據(jù); 高職院校
中圖分類號:TP311.13 文獻(xiàn)標(biāo)志碼:A 文章編號:1006-8228(2015)08-78-03
Construct of higher vocational enrollment data mining process model
Huang Chunhua
(Talent International College, Qinzhou, Guangxi 535000, China)
Abstract: In order to obtain the valuable information from the massive enrollment data accumulated over the years, according to the related theory of data mining, on the basis of the currently universal data mining process model and combined with the characteristic of higher vocational enrollment work and related data, a construction idea of higher vocational enrollment data mining process model is proposed, which could provide the macro guidance and the processing method for the next higher vocational enrollment mining data work.
Key words: data mining; process model; enrollment data; higher vocational college
0 引言
招生工作一直是高職院校最重要的工作,因為生源是其生存之本。如何有針對性地開展招生工作,既能提高新生報到率,又能節(jié)省招生成本,一直是高職院校非常關(guān)心的問題之一。通過對學(xué)校歷年保存下來的招生數(shù)據(jù)進(jìn)行挖掘與分析,從中找到有價值的信息,以此來指導(dǎo)學(xué)校的招生工作,讓學(xué)校將有限的人力物力用在能“產(chǎn)出”大量生源的地區(qū),達(dá)到招生效益最大化。
數(shù)據(jù)挖掘(Data Mining)又稱為數(shù)據(jù)庫中知識發(fā)現(xiàn)(Knowledge Discovery from Database,簡稱KDD),它是一個從大量數(shù)據(jù)中抽取挖掘出未知的、有價值的模式或規(guī)律等知識的復(fù)雜過程,簡單地講就是從大量數(shù)據(jù)中抽取或挖掘出知識[1]。為了確保數(shù)據(jù)挖掘工作能有條不紊地實施并取得成功,必須先明確挖掘過程將采取什么樣的步驟、每一步需要做什么、達(dá)到什么樣的目標(biāo)等,即在實施數(shù)據(jù)挖掘工作之前必須先構(gòu)建好數(shù)據(jù)挖掘的過程模型。本文根據(jù)相關(guān)數(shù)據(jù)挖掘的理論知識,在現(xiàn)有的通用數(shù)據(jù)挖掘的過程模型基礎(chǔ)上,結(jié)合高職招生工作及其數(shù)據(jù)的特點,給出一個高職招生數(shù)據(jù)挖掘過程模型的構(gòu)建思路。
1 數(shù)據(jù)挖掘的過程模型
構(gòu)建數(shù)據(jù)挖掘的過程模型旨在為接下來的數(shù)據(jù)挖掘工作提供宏觀上的指導(dǎo)和工程化的方法,以使人們能更好地研究、開發(fā)和使用數(shù)據(jù)挖掘技術(shù)。目前現(xiàn)有的數(shù)據(jù)挖掘系統(tǒng)大致分為兩種通用的過程模型,一種是1996年由Fayyad等人提出的Fayyad過程模型,另一種是1999年由歐盟機構(gòu)聯(lián)合起草的CRISP-DM過程模型。
1.1 Fayyad過程模型
圖1 Fayyad數(shù)據(jù)挖掘的過程模型
Fayyad過程模型將數(shù)據(jù)庫中的知識發(fā)現(xiàn)看作是一個多階段的處理過程,它從數(shù)據(jù)集中識別出以模式的形式來表示的知識,在整個知識發(fā)現(xiàn)的過程中包含很多個處理步驟,各個步驟之間相互影響并反復(fù)調(diào)整,從而形成一個螺旋式的上升過程[1],如圖1所示。由圖1可知,F(xiàn)ayyad過程模型分為數(shù)據(jù)準(zhǔn)備、數(shù)據(jù)挖掘以及結(jié)果表達(dá)和解釋三個階段。
Fayyad過程模型是一個從數(shù)據(jù)入手以知識結(jié)束的偏技術(shù)模型,在實際應(yīng)用中該模型存在著兩個問題[1]。①該模型是從數(shù)據(jù)入手的,而忽略了具體業(yè)務(wù)問題的確定,即沒有明確對挖掘業(yè)務(wù)的認(rèn)識和對數(shù)據(jù)的理解,而這是決定過程模型質(zhì)量非常重要的一步。②該模型是結(jié)束于知識的,但對于知識應(yīng)當(dāng)怎么使用,如何支持決策等問題卻沒有得到反映。只有當(dāng)挖掘出來的模型得到了一定的應(yīng)用,才能更好地體現(xiàn)出數(shù)據(jù)挖掘的價值。
1.2 CRISP-DM過程模型
CRISP-DM(Cross-Industry Standard Process for Data Mining,跨行業(yè)數(shù)據(jù)挖掘標(biāo)準(zhǔn)流程)過程模型是由歐洲幾家有著豐富的數(shù)據(jù)挖掘應(yīng)用經(jīng)驗的公司共同籌劃和組織的一個特別興趣小組所提出的。該模型從商業(yè)的角度給出了對數(shù)據(jù)挖掘方法的理解,強調(diào)了完整的數(shù)據(jù)挖掘過程,不能僅針對數(shù)據(jù)整理、數(shù)據(jù)顯示、數(shù)據(jù)分析和構(gòu)建模型,后期對模型的評價與模型的延伸應(yīng)用都被納入到數(shù)據(jù)挖掘的構(gòu)成中,從方法學(xué)的角度強調(diào)了數(shù)據(jù)挖掘項目的方法和步驟,同時獨立于每種具有數(shù)據(jù)挖掘算法和數(shù)據(jù)挖掘系統(tǒng)[2]。因為該模型注重數(shù)據(jù)挖掘技術(shù)的應(yīng)用,所以能更好地解決Fayyad過程模型存在的兩個問題。目前數(shù)據(jù)挖掘系統(tǒng)的研制和開發(fā)大都遵循CRISP-DM標(biāo)準(zhǔn),將典型的挖掘和模型的部署緊密結(jié)合。CRISP-DM過程模型的基本步驟包括業(yè)務(wù)理解、數(shù)據(jù)理解、數(shù)據(jù)準(zhǔn)備、建立模型、模型評價和模型實施,如圖2所示。
Fayyad過程模型和CRISP-DM過程模型都是數(shù)據(jù)挖掘步驟的具體表現(xiàn)。其中Fayyad過程模型從數(shù)據(jù)入手以知識結(jié)束,結(jié)構(gòu)清晰,便于技術(shù)實現(xiàn),但沒有明確選擇數(shù)據(jù)的原因以及利用挖掘知識的方法;而CRISP-DM過程模型從面向商業(yè)應(yīng)用的角度給出了數(shù)據(jù)挖掘過程的理解,將數(shù)據(jù)挖掘和商業(yè)應(yīng)用緊密結(jié)合,但該模型僅適用于商業(yè)環(huán)境下的應(yīng)用,在其他領(lǐng)域環(huán)境下存在著一定的應(yīng)用局限性,且實施起來較為繁瑣[2]。
圖2 CRISP-DM數(shù)據(jù)挖掘的過程模型
2 高職招生數(shù)據(jù)挖掘的過程模型構(gòu)建
由以上分析可知,F(xiàn)ayyad過程模型的邏輯結(jié)構(gòu)清晰簡單,CRISP-DM過程模型注重數(shù)據(jù)挖掘與實際應(yīng)用緊密結(jié)合,高職招生數(shù)據(jù)挖掘的過程模型就是在汲取了這兩個過程模型各自所具有的特點的基礎(chǔ)上建立的。構(gòu)建的基本思路是針對Fayyad過程模型對數(shù)據(jù)挖掘知識應(yīng)用上的不足,注重將得到的挖掘結(jié)果應(yīng)用于高職招生數(shù)據(jù)的決策支持,并將CRISP-DM過程模型的應(yīng)用范圍擴(kuò)展到教育領(lǐng)域中招生數(shù)據(jù)的挖掘工作。
根據(jù)高職招生工作及數(shù)據(jù)的特點,將高職招生數(shù)據(jù)挖掘的過程模型分為招生業(yè)務(wù)理解、招生數(shù)據(jù)理解、招生數(shù)據(jù)準(zhǔn)備、挖掘模型建立、挖掘結(jié)果分析和高職招生決策制定這六個階段。如圖3所示。
2.1 招生業(yè)務(wù)理解
高職招生數(shù)據(jù)挖掘過程就是從業(yè)務(wù)的角度去理解挖掘的目標(biāo)與要求,并將這些理解知識轉(zhuǎn)化為數(shù)據(jù)挖掘問題的定義[3]而開始的,這是進(jìn)行高職招生數(shù)據(jù)挖掘工作必須把握好的開始階段。根據(jù)高職招生的業(yè)務(wù)特點可以將招生業(yè)務(wù)理解分為招生業(yè)務(wù)背景理解、招生資源評價和挖掘目標(biāo)確定三個部分。
招生業(yè)務(wù)背景理解是指去獲悉高職院校招生的相關(guān)基本情況,包括招生計劃人數(shù)、招生學(xué)科與專業(yè)、招生錄取成績以及歷年來這些信息的變化情況等。同時還需明確目前招生工作面臨的具體問題,比如生源不足、生源質(zhì)量不高、新生報到率不高等。
招生資源評價一般從人員、數(shù)據(jù)和軟硬件這三方面進(jìn)行評價。人員方面主要包括兩類人員,一類是指可以提供進(jìn)行數(shù)據(jù)挖掘所需相關(guān)基礎(chǔ)數(shù)據(jù)的人員,比如學(xué)院招生辦的工作人員或老師;另一類是指提出挖掘目標(biāo)、需要挖掘結(jié)果并得到?jīng)Q策支持信息的人員,比如學(xué)院分管招生工作的領(lǐng)導(dǎo)、各個院系的主任等。數(shù)據(jù)方面主要是指如何獲取挖掘所需的數(shù)據(jù)源,比如招生工作管理系統(tǒng)的數(shù)據(jù)庫。軟硬件方面主要是指進(jìn)行數(shù)據(jù)挖掘工作所需的挖掘工具或其他相關(guān)軟件以及所應(yīng)具備的硬件條件等。
挖掘目標(biāo)確定主要是指將目前高職招生工作所面臨的具體問題轉(zhuǎn)化為數(shù)據(jù)挖掘問題的定義過程。例如,高職招生工作面臨的一個具體問題是“新生報到率不高”,那么可以將數(shù)據(jù)挖掘目標(biāo)確定為“給定學(xué)院過去五年的招生數(shù)據(jù),挖掘生源結(jié)構(gòu)與新生報到率的關(guān)系”。
2.2 招生數(shù)據(jù)理解
招生數(shù)據(jù)理解是對高職招生數(shù)據(jù)挖掘所需數(shù)據(jù)的全面調(diào)查。從原始數(shù)據(jù)收集開始,到數(shù)據(jù)描述,最后對數(shù)據(jù)質(zhì)量進(jìn)行檢驗,目的是熟悉數(shù)據(jù),鑒別數(shù)據(jù)質(zhì)量問題并發(fā)現(xiàn)數(shù)據(jù)中的“灼見真知”。在原始數(shù)據(jù)收集階段,主要是思考所需數(shù)據(jù)可以從何處獲取以及獲取的方法,遇到問題以及解決問題的方法等。在數(shù)據(jù)描述階段,主要是對獲取到的數(shù)據(jù)細(xì)化到每一個數(shù)據(jù)源、數(shù)據(jù)表、字段等描述。而在最后的數(shù)據(jù)質(zhì)量檢驗階段,主要是對數(shù)據(jù)是否正確、是否完整、是否有缺失值等方面進(jìn)行檢驗,并對發(fā)現(xiàn)的數(shù)據(jù)質(zhì)量問題找到可能解決的辦法。
2.3 招生數(shù)據(jù)準(zhǔn)備
招生數(shù)據(jù)準(zhǔn)備包括招生數(shù)據(jù)選擇和招生數(shù)據(jù)預(yù)處理兩個步驟。對招生數(shù)據(jù)進(jìn)行選擇即是對數(shù)據(jù)挖掘所需的原始數(shù)據(jù)進(jìn)行初步地約簡,一般而言原始數(shù)據(jù)的數(shù)據(jù)量是比較大的,涵蓋的范圍也比較廣,其中某些數(shù)據(jù)可能不僅與挖掘無任何關(guān)系,而且會給挖掘帶來不利影響,所以有必要把這些無用的數(shù)據(jù)先篩選掉,以避免造成挖掘資源的浪費及產(chǎn)生不良的挖掘效果。數(shù)據(jù)預(yù)處理是數(shù)據(jù)挖掘過程中一個重要的步驟,在此是指對經(jīng)過初步篩選后的招生數(shù)據(jù)進(jìn)行清理、集成、轉(zhuǎn)換、離散和規(guī)約等一系列的處理工作[4]。經(jīng)過預(yù)處理后的數(shù)據(jù)才是真正的挖掘?qū)ο?,此時數(shù)據(jù)的質(zhì)量將會直接影響到數(shù)據(jù)挖掘的效果。
2.4 挖掘模型建立
挖掘模型建立實際上就是數(shù)據(jù)挖掘建模,是指為了解決實際問題而采用數(shù)據(jù)挖掘技術(shù)和工具進(jìn)行數(shù)據(jù)挖掘模型建立的活動過程[5]。在高職招生數(shù)據(jù)挖掘模型建立過程中,首先根據(jù)要解決的實際招生問題及一定的數(shù)據(jù)挖掘目標(biāo),運用合適的數(shù)據(jù)挖掘技術(shù)和工具建立挖掘模型,并利用該挖掘模型提供優(yōu)化招生決策的過程。挖掘模型的建立一般分為挖掘任務(wù)明確、挖掘技術(shù)選擇、挖掘工具選擇、模型建立和模型評估五個步驟。
2.5 挖掘結(jié)果分析與高職招生決策制定
根據(jù)當(dāng)初定義的高職招生業(yè)務(wù)問題,對所獲得的挖掘結(jié)果做進(jìn)一步的分析,將有用的模式或有用的數(shù)據(jù)描述以可視化技術(shù)和知識表示技術(shù)展示出來,并對挖掘結(jié)果進(jìn)行解釋。最后利用數(shù)據(jù)挖掘得出的結(jié)論,為高職招生策略的制定提供參考,進(jìn)而為高職院校招生工作提供有力的決策支持。
3 總結(jié)
如何有效地對歷年招生數(shù)據(jù)進(jìn)行挖掘,從中獲得有價值的信息,為高職院校招生工作提供有力的決策支持,從而達(dá)到既能提高新生報到率又能節(jié)省招生成本的目地。本文針對此問題,根據(jù)相關(guān)數(shù)據(jù)挖掘的理論知識,在目前現(xiàn)有的通用數(shù)據(jù)挖掘的過程模型基礎(chǔ)上,結(jié)合高職招生工作及其數(shù)據(jù)的特點,給出了一個高職招生數(shù)據(jù)挖掘過程模型的構(gòu)建思路。該數(shù)據(jù)挖掘的過程模型可以為接下來的高職招生數(shù)據(jù)挖掘工作提供宏觀上的指導(dǎo)和工程化的方法。在高職招生數(shù)據(jù)和信息分析領(lǐng)域,數(shù)據(jù)挖掘技術(shù)還存在著許多有待進(jìn)一步完善和發(fā)展的地方,比如構(gòu)建一個招生數(shù)據(jù)倉庫,將歷年招生數(shù)據(jù)按年份分類存儲在其中,從而便于數(shù)據(jù)挖掘工作的開展,使招生數(shù)據(jù)挖掘更加高效和便捷;而在數(shù)據(jù)挖掘的方法和技術(shù)上,可以從不同角度或?qū)哟瓮诰蛘猩畔?,嘗試更多不同的挖掘算法,以獲得更加全面而有力的招生決策支持。
參考文獻(xiàn):
[1] 元昌安.數(shù)據(jù)挖掘原理與SPSS Clementine應(yīng)用寶典[M].電子工業(yè)出
版社,2009.
[2] 郭鑫.基于CRISP-DM的流程可視化數(shù)據(jù)挖掘工具的研究與實現(xiàn)[D].
東華大學(xué),2009.
[3] 于立紅,方志廣.數(shù)據(jù)挖掘過程常見模型剖析[J].太原城市職業(yè)技術(shù)
學(xué)院學(xué)報,2008.5:159-160
[4] 方洪鷹.數(shù)據(jù)挖掘中數(shù)據(jù)預(yù)處理的方法研究[D].西南大學(xué),2009.
[5] 惠卉.數(shù)據(jù)挖掘在研究生招生信息分析中的研究與應(yīng)用[D].首都經(jīng)濟(jì)
貿(mào)易大學(xué),2012.