李慶梅
摘要:該文的主要工作是針對(duì)我校目前各部門(mén)、各院系學(xué)生信息沒(méi)有被有效的集成、不能被很好的共享這一現(xiàn)狀,開(kāi)發(fā)一個(gè)適應(yīng)我校新形勢(shì)下的學(xué)生管理信息系統(tǒng)。該系統(tǒng)是一個(gè)面向用戶、面向網(wǎng)絡(luò)數(shù)據(jù)管理的信息數(shù)據(jù)管理系統(tǒng),利用數(shù)據(jù)庫(kù)管理設(shè)計(jì)軟件實(shí)現(xiàn)學(xué)生的信息管理,使對(duì)學(xué)生信息的管理更加容易、提高工作效率、降低管理成本。利用數(shù)據(jù)挖掘技術(shù)提高學(xué)院學(xué)生信息管理系統(tǒng)的智能決策功能,對(duì)學(xué)生畢業(yè)就業(yè)指導(dǎo)工作給以幫助和支持,取得了明顯的效果。
關(guān)鍵詞:數(shù)據(jù)挖掘技術(shù);學(xué)生信息管理;決策樹(shù);C4.5
中圖分類(lèi)號(hào):TP311 文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):1009-3044(2014)02-0241-03
新疆高職院校的辦學(xué)層次較多,有成人專(zhuān)科、本科、普通專(zhuān)科、本科,脫產(chǎn)1—2年的教師進(jìn)修培訓(xùn)等,學(xué)生的年歷、民族、學(xué)歷等成分復(fù)雜。學(xué)院從2009年建立了教務(wù)管理對(duì)學(xué)生學(xué)籍、成績(jī)等基本信息進(jìn)行了收集整理和統(tǒng)計(jì),使教學(xué)管理不再是冗雜的數(shù)據(jù),而是按照系統(tǒng)進(jìn)行性操作得到的一條條記錄,使復(fù)雜管理程序簡(jiǎn)單化、信息化,提高了教學(xué)管理的效率和工作質(zhì)量。但在學(xué)生管理方面,學(xué)院采取班級(jí)月考核制和操行分學(xué)生綜合評(píng)價(jià)制度,大多通過(guò)手工計(jì)分、評(píng)分,學(xué)生信息數(shù)據(jù)沒(méi)有得到有效充分的利用,在數(shù)據(jù)管理應(yīng)用到學(xué)生日常管理、在校表現(xiàn)評(píng)價(jià)方面還是個(gè)空白。為了做好學(xué)生管理工作,有效的利用現(xiàn)有資源,是學(xué)生管理工作科學(xué)化、規(guī)范化、程序化,促進(jìn)提高信息處理的速度、正確性。在現(xiàn)有的教務(wù)系統(tǒng)上,整理學(xué)生信息,理清日常學(xué)生管理工作流程流向,使其清晰化、合理化,較早的時(shí)間發(fā)現(xiàn)學(xué)生管理存在的問(wèn)題,解決問(wèn)題,提高學(xué)生管理工作水平,增強(qiáng)對(duì)學(xué)生管理工作的預(yù)見(jiàn)性,依據(jù)數(shù)據(jù)分析,提高了管理效率。
1 數(shù)據(jù)挖掘
1.1決策樹(shù)算法
決策樹(shù)算法是數(shù)據(jù)挖掘中較常用的一種預(yù)測(cè)模型的算法,它對(duì)數(shù)據(jù)自動(dòng)分類(lèi)從而構(gòu)造樹(shù)形結(jié)構(gòu)模型,對(duì)決策樹(shù)進(jìn)行分類(lèi)。它采用信息增益的概念,以確定信息的理論為前提,在最大的信息量的數(shù)據(jù)庫(kù)中的字段決定樹(shù)中的一個(gè)節(jié)點(diǎn)創(chuàng)建,開(kāi)始節(jié)點(diǎn)是一個(gè)結(jié)構(gòu)的根節(jié)點(diǎn),根據(jù)字段的不同的值進(jìn)行樹(shù)枝的分支。在樹(shù)分支的過(guò)程中,每個(gè)分支中的子集交界處重復(fù)構(gòu)建下一層分支。決策樹(shù)已成為常用的分類(lèi)工具之一,它是將一個(gè)訓(xùn)練文件分成一組通用規(guī)則的技術(shù),因?yàn)樗窃趫D模型樹(shù)結(jié)構(gòu)的基礎(chǔ)上構(gòu)建,因此,更容易讓人理解。實(shí)例實(shí)例的集合可以分支成兩個(gè)或兩個(gè)以上的子集,子集數(shù)的底線是根據(jù)測(cè)試結(jié)果來(lái)確定,可構(gòu)建所有可能分支的子集。決策樹(shù)分類(lèi)的數(shù)據(jù)可以在兩個(gè)階段,構(gòu)建樹(shù)和修剪樹(shù)。首先,訓(xùn)練數(shù)據(jù)來(lái)測(cè)試函數(shù)生成不同的值進(jìn)行比較分析,選擇的一個(gè)分支,每個(gè)分支繼續(xù)構(gòu)建下一層的節(jié)點(diǎn)和分支,最終創(chuàng)建一個(gè)決策樹(shù),然后進(jìn)行修剪樹(shù)枝的過(guò)程,把決定樹(shù)轉(zhuǎn)換為分類(lèi)規(guī)則。決策樹(shù)算法中最基本的算法是ID3算法,隨后又在ID3的基礎(chǔ)上進(jìn)行改進(jìn),開(kāi)發(fā)了C4.5,C5.0,SLIQ,SPRINT等算法。決策樹(shù)算法的優(yōu)點(diǎn)有容易學(xué)習(xí),便于使用,分類(lèi)速度較快,精度較高,適用于大規(guī)模的數(shù)據(jù)處理和知識(shí)發(fā)現(xiàn)系統(tǒng)中。
1.2 數(shù)據(jù)挖掘的步驟
數(shù)據(jù)挖掘是復(fù)雜的多個(gè)步驟相互連接多階段進(jìn)行數(shù)據(jù)傳輸?shù)倪^(guò)程。這些工作包括以下四個(gè)階段。首先是對(duì)挖掘?qū)ο筮x擇,其次對(duì)數(shù)據(jù)進(jìn)行預(yù)處理,再次進(jìn)行數(shù)據(jù)挖掘,最后對(duì)數(shù)據(jù)挖掘出的規(guī)則進(jìn)行分析和取舍。下面對(duì)數(shù)據(jù)挖掘過(guò)程進(jìn)行具體說(shuō)明:
1.2.1選擇挖掘?qū)ο?/p>
這個(gè)階段的主要目標(biāo)是以確定它是否符合數(shù)據(jù)挖掘的需要,達(dá)到解決客戶提出的問(wèn)題的要求,理清哪些數(shù)據(jù)需要來(lái)自客戶,盡可能多渠道的獲取支持?jǐn)?shù)據(jù)挖掘的數(shù)據(jù)源,最后,確定挖掘?qū)ο?,預(yù)測(cè)評(píng)估數(shù)據(jù)挖掘的結(jié)果。
1.2.2 數(shù)據(jù)預(yù)處理
這一階段主要是合理的構(gòu)建數(shù)據(jù)庫(kù)的結(jié)構(gòu)、內(nèi)容等,為數(shù)據(jù)挖掘提供高質(zhì)量的數(shù)據(jù)輸入。它包括數(shù)據(jù)選擇、數(shù)據(jù)預(yù)處理和數(shù)據(jù)轉(zhuǎn)換階段。數(shù)據(jù)選擇階段主要工作室將多個(gè)文件或多個(gè)數(shù)據(jù)庫(kù)中的原始數(shù)據(jù)進(jìn)行合并和處理,設(shè)計(jì)者理解、獲取數(shù)據(jù)信息的相關(guān)知識(shí),搜集和選取數(shù)據(jù)挖掘的目標(biāo)數(shù)據(jù),建立數(shù)據(jù)倉(cāng)庫(kù)。數(shù)據(jù)預(yù)處理階段是要整合與查核數(shù)據(jù),其主要任務(wù)是對(duì)數(shù)據(jù)進(jìn)行清洗充實(shí)等,清理錯(cuò)誤、去除噪聲和與挖掘目標(biāo)無(wú)關(guān)的數(shù)據(jù),清除空白數(shù)據(jù)域和重復(fù)記錄,使數(shù)據(jù)符合挖掘的要求,為下一步分析做準(zhǔn)備。數(shù)據(jù)轉(zhuǎn)換階段的主要任務(wù)是對(duì)數(shù)據(jù)不同格式數(shù)據(jù)轉(zhuǎn)換和各種數(shù)據(jù)的統(tǒng)一匯總,將數(shù)據(jù)進(jìn)行編碼,從數(shù)據(jù)庫(kù)中不同的字段屬性轉(zhuǎn)換成編碼形式,方便搜索。
1.2.3實(shí)際數(shù)據(jù)挖掘工作
這一階段是數(shù)據(jù)挖掘過(guò)程的重要階段,它主要任務(wù)是開(kāi)發(fā)模型與假設(shè),采用各種挖掘方法和挖掘模式對(duì)數(shù)據(jù)進(jìn)行處理,發(fā)現(xiàn)潛在的、有用的規(guī)則等。它包括如何產(chǎn)生假設(shè),選擇合適的方法,挖掘知識(shí)的操作以及驗(yàn)證發(fā)現(xiàn)的知識(shí)。
1.2.4結(jié)果分析與表示
這一階段屬于總結(jié)收尾階段,主要工作就讓客戶從數(shù)據(jù)挖掘提取出知識(shí)進(jìn)行評(píng)價(jià)分析,把最需要的、最有價(jià)值的信息總結(jié)歸納,測(cè)試模型并檢測(cè)數(shù)據(jù)挖掘結(jié)果,利用數(shù)據(jù)挖掘獲得的知識(shí)來(lái)解決最初客戶所提出的問(wèn)題。最后,解釋與使用數(shù)據(jù)模型,利用各種可視化技術(shù)再現(xiàn)結(jié)構(gòu)使之更容易方便客戶使用。
2 C4.5算法
C4.5算法采用了信息增益率作為對(duì)選擇分支屬性,當(dāng)計(jì)算出每個(gè)屬性增益率后,進(jìn)行比較,選擇最大的屬性作為分支決策屬性,通過(guò)每一個(gè)取值建立節(jié)點(diǎn)。信息增益率表示了有分支產(chǎn)生的有用的信息的比率,因此這個(gè)值越大,分支包含的有用信息越多。事實(shí)說(shuō)明,采用信息增益率比采用信息增益更好,它有效的解決了ID3算法選擇取值多的屬性作為測(cè)試屬性的問(wèn)題。
C4.5算法的整個(gè)過(guò)程是遞歸過(guò)程,停止于沒(méi)有新的節(jié)點(diǎn)出現(xiàn)為止。C4.5算法不僅可以處理連續(xù)數(shù)值的屬性,而且可以對(duì)定性屬性實(shí)現(xiàn)一次分裂,對(duì)定量屬性進(jìn)行多次分裂,當(dāng)數(shù)據(jù)缺失時(shí),用表示缺失值。當(dāng)進(jìn)行測(cè)試節(jié)點(diǎn)時(shí),可以刪除節(jié)點(diǎn)的多余參數(shù)。據(jù)于以上功能,C4.5算法具有簡(jiǎn)單、高效,結(jié)果可靠等優(yōu)點(diǎn)。
3 依據(jù)C4.5算法構(gòu)造學(xué)生就業(yè)信息分析模型
3.1分析目的
本課題收集了2008級(jí)維、漢、哈三種語(yǔ)系的畢業(yè)生數(shù)據(jù),提取畢業(yè)生數(shù)據(jù)庫(kù),因此分院的畢業(yè)生去向在南北疆及烏魯木齊本地,比較具有代表性。以此數(shù)據(jù)作為訓(xùn)練實(shí)例數(shù)據(jù)集,具有普遍的意義。旨在構(gòu)建一個(gè)學(xué)生就業(yè)信息數(shù)據(jù)分析模型,找出影響學(xué)生就業(yè)去向的關(guān)鍵因素,并用于預(yù)測(cè)。
3.2數(shù)據(jù)處理
本課題抽取2008級(jí)畢業(yè)生的人文科學(xué)分院語(yǔ)文教育專(zhuān)業(yè)的學(xué)生成績(jī)信息,畢業(yè)信息和學(xué)籍信息。針對(duì)這些信息進(jìn)行了數(shù)據(jù)清理、數(shù)據(jù)轉(zhuǎn)換、數(shù)據(jù)加載的功能編程設(shè)計(jì)。從畢業(yè)生數(shù)據(jù)庫(kù)中提取的基本信息表中,有少數(shù)學(xué)生已經(jīng)退學(xué)或轉(zhuǎn)專(zhuān)業(yè)以及中途參軍入伍的學(xué)生信息將從列表中去除。使用SQL server2008的Analysis Services服務(wù)器建立多維數(shù)據(jù)表。七個(gè)維度分別是外漢語(yǔ)成績(jī)、專(zhuān)業(yè)課成績(jī)、實(shí)踐能力、是否學(xué)生干部、單位性質(zhì)。外漢語(yǔ)成績(jī)大于等于85為優(yōu)秀,介于60至85之間為合格,小于60為不合格。專(zhuān)業(yè)課成績(jī)大于85為優(yōu)秀,小于85為一般,教師口語(yǔ)、計(jì)算機(jī)基礎(chǔ)、見(jiàn)習(xí)等列為實(shí)踐能力成績(jī),大于85為優(yōu)秀,小于85為一般。
將工作單位單位性質(zhì)分為五類(lèi):教育機(jī)構(gòu)包括中小學(xué)、幼兒園和培訓(xùn)中心的就業(yè)的學(xué)生,單位性質(zhì)編碼39;企業(yè)公司包括自主創(chuàng)業(yè)擇業(yè)的學(xué)生,單位性質(zhì)編碼70;暫緩就業(yè)包括專(zhuān)升本或者成人本科的學(xué)生,單位性質(zhì)編碼為71;特崗教師包括考取地州縣教師崗位的學(xué)生,單位性質(zhì)編碼為50;公職人員包括考取公務(wù)員的學(xué)生,單位性質(zhì)編碼為51。
3.3數(shù)據(jù)分類(lèi)
根據(jù)決策樹(shù)算法的信息增益理論,設(shè)計(jì)數(shù)據(jù)挖掘分析器,分析計(jì)算得出就業(yè)實(shí)例集增益值得柱形圖。此頁(yè)面可以對(duì)決策樹(shù)的算法進(jìn)行選擇,并且對(duì)提取的就業(yè)實(shí)例集的數(shù)據(jù)根據(jù)信息增益率的計(jì)算公式進(jìn)行分析計(jì)算,在分析圖表中顯示民族、性別、外漢語(yǔ)水平、專(zhuān)業(yè)成績(jī)、實(shí)踐能力各個(gè)屬性的增益率,并用柱形圖進(jìn)行表示。選出最大屬性的增益率后,復(fù)位后,重新計(jì)算下一個(gè)節(jié)點(diǎn)屬性增益率的計(jì)算,只到遇到所有屬性的增益率全部計(jì)算完畢停止計(jì)算。
由于屬性“專(zhuān)業(yè)水平”具有最大信息增值率值,故而選擇該屬性作為決策樹(shù)的根節(jié)點(diǎn)。對(duì)于每一個(gè)分枝,重復(fù)上述步驟。
3.4生成分類(lèi)規(guī)則
數(shù)據(jù)挖掘分析器得出分類(lèi)規(guī)則:
1) IF專(zhuān)業(yè)成績(jī)=優(yōu)秀+外漢語(yǔ)成績(jī)=優(yōu)秀+實(shí)踐能力=優(yōu)秀+民族=民THEN就業(yè)單位=50
2)IF專(zhuān)業(yè)成績(jī)=優(yōu)秀+外漢語(yǔ)成績(jī)=優(yōu)秀+實(shí)踐能力=一般THEN就業(yè)單位=71
3) IF專(zhuān)業(yè)成績(jī)=優(yōu)秀+外漢語(yǔ)成績(jī)=合格+實(shí)踐能力=優(yōu)秀+民族=漢 THEN就業(yè)單位=39
4) IF專(zhuān)業(yè)成績(jī)=一般+外漢語(yǔ)成績(jī)=合格+實(shí)踐能力=一般 THEN就業(yè)單位=70
5) IF專(zhuān)業(yè)成績(jī)=優(yōu)秀+外漢語(yǔ)成績(jī)=優(yōu)秀+實(shí)踐能力=一般+民族=漢THEN就業(yè)單位=51
6) IF專(zhuān)業(yè)成績(jī)=優(yōu)秀+外漢語(yǔ)成績(jī)=優(yōu)秀+實(shí)踐能力=優(yōu)秀+民族=漢THEN就業(yè)單位=71
3.5情況分析及建議
有(1)說(shuō)明專(zhuān)業(yè)素質(zhì)好,外漢語(yǔ)水平高,實(shí)踐能力強(qiáng)的少數(shù)民族考取特崗的教師的可能性大。由(2)可知我校畢業(yè)學(xué)生學(xué)歷為專(zhuān)科層次,在校期間專(zhuān)業(yè)成績(jī)和外漢語(yǔ)成績(jī)較好的學(xué)生都會(huì)通過(guò)復(fù)習(xí)通過(guò)專(zhuān)升本或成人高考提高學(xué)歷。由(3)可知實(shí)踐能力強(qiáng)的學(xué)生適合教育機(jī)構(gòu)的需要,符合我校面向小學(xué)、學(xué)前教育培養(yǎng)教師的目標(biāo)。另外,漢語(yǔ)水平相對(duì)較好的少數(shù)民族畢業(yè)生就業(yè)機(jī)會(huì)較大。在校期間少數(shù)民族學(xué)生如果擔(dān)任學(xué)生干部,漢語(yǔ)水平相對(duì)較高。
由就業(yè)決策樹(shù)圖可知:專(zhuān)業(yè)成績(jī)、外漢語(yǔ)成績(jī)和實(shí)踐能力是大學(xué)生提高就業(yè)率的重要因素,每一類(lèi)就業(yè)單位都需要實(shí)踐能力強(qiáng)的畢業(yè)生。
綜上所述,提出兩點(diǎn)建議:
1) 加強(qiáng)實(shí)踐教學(xué)技能課程的設(shè)置。
2) 重視外漢語(yǔ)的教學(xué),提高教學(xué)質(zhì)量。
4 結(jié)論
本系統(tǒng)使用dephi2000和SQL server 2008開(kāi)發(fā),SQL server在開(kāi)發(fā)數(shù)據(jù)庫(kù)方面具有強(qiáng)大的功能,dephi能方便快捷的進(jìn)行B/S模式下學(xué)生信息管理系統(tǒng)的界面和功能開(kāi)發(fā),用它實(shí)現(xiàn)數(shù)據(jù)庫(kù)離散化,C4.5算法生成決策樹(shù)以及分類(lèi)規(guī)則,提供學(xué)生就業(yè)指導(dǎo)決策服務(wù)。
參考文獻(xiàn):
[1] 劉幸東.高校學(xué)生就業(yè)信息的決策支持系統(tǒng)的應(yīng)用研究[D].廣州:中山大學(xué),2006.
[2] 李海瓊.數(shù)據(jù)挖掘技術(shù)在遼寧大學(xué)就業(yè)輔助決策分析系統(tǒng)中的研究與應(yīng)用[D].沈陽(yáng):沈陽(yáng)工業(yè)大學(xué),2009.
[3] 劉鵬,姚正,尹俊杰.一種有效的C4.5改進(jìn)模型[J].清華大學(xué)學(xué)報(bào),2006(46):996-997.
[4] 劉佳,王新偉.一種改進(jìn)的C4.5算法及實(shí)驗(yàn)分析[J].計(jì)算機(jī)應(yīng)用與軟件,2008(12):260-262.
3 依據(jù)C4.5算法構(gòu)造學(xué)生就業(yè)信息分析模型
3.1分析目的
本課題收集了2008級(jí)維、漢、哈三種語(yǔ)系的畢業(yè)生數(shù)據(jù),提取畢業(yè)生數(shù)據(jù)庫(kù),因此分院的畢業(yè)生去向在南北疆及烏魯木齊本地,比較具有代表性。以此數(shù)據(jù)作為訓(xùn)練實(shí)例數(shù)據(jù)集,具有普遍的意義。旨在構(gòu)建一個(gè)學(xué)生就業(yè)信息數(shù)據(jù)分析模型,找出影響學(xué)生就業(yè)去向的關(guān)鍵因素,并用于預(yù)測(cè)。
3.2數(shù)據(jù)處理
本課題抽取2008級(jí)畢業(yè)生的人文科學(xué)分院語(yǔ)文教育專(zhuān)業(yè)的學(xué)生成績(jī)信息,畢業(yè)信息和學(xué)籍信息。針對(duì)這些信息進(jìn)行了數(shù)據(jù)清理、數(shù)據(jù)轉(zhuǎn)換、數(shù)據(jù)加載的功能編程設(shè)計(jì)。從畢業(yè)生數(shù)據(jù)庫(kù)中提取的基本信息表中,有少數(shù)學(xué)生已經(jīng)退學(xué)或轉(zhuǎn)專(zhuān)業(yè)以及中途參軍入伍的學(xué)生信息將從列表中去除。使用SQL server2008的Analysis Services服務(wù)器建立多維數(shù)據(jù)表。七個(gè)維度分別是外漢語(yǔ)成績(jī)、專(zhuān)業(yè)課成績(jī)、實(shí)踐能力、是否學(xué)生干部、單位性質(zhì)。外漢語(yǔ)成績(jī)大于等于85為優(yōu)秀,介于60至85之間為合格,小于60為不合格。專(zhuān)業(yè)課成績(jī)大于85為優(yōu)秀,小于85為一般,教師口語(yǔ)、計(jì)算機(jī)基礎(chǔ)、見(jiàn)習(xí)等列為實(shí)踐能力成績(jī),大于85為優(yōu)秀,小于85為一般。
將工作單位單位性質(zhì)分為五類(lèi):教育機(jī)構(gòu)包括中小學(xué)、幼兒園和培訓(xùn)中心的就業(yè)的學(xué)生,單位性質(zhì)編碼39;企業(yè)公司包括自主創(chuàng)業(yè)擇業(yè)的學(xué)生,單位性質(zhì)編碼70;暫緩就業(yè)包括專(zhuān)升本或者成人本科的學(xué)生,單位性質(zhì)編碼為71;特崗教師包括考取地州縣教師崗位的學(xué)生,單位性質(zhì)編碼為50;公職人員包括考取公務(wù)員的學(xué)生,單位性質(zhì)編碼為51。
3.3數(shù)據(jù)分類(lèi)
根據(jù)決策樹(shù)算法的信息增益理論,設(shè)計(jì)數(shù)據(jù)挖掘分析器,分析計(jì)算得出就業(yè)實(shí)例集增益值得柱形圖。此頁(yè)面可以對(duì)決策樹(shù)的算法進(jìn)行選擇,并且對(duì)提取的就業(yè)實(shí)例集的數(shù)據(jù)根據(jù)信息增益率的計(jì)算公式進(jìn)行分析計(jì)算,在分析圖表中顯示民族、性別、外漢語(yǔ)水平、專(zhuān)業(yè)成績(jī)、實(shí)踐能力各個(gè)屬性的增益率,并用柱形圖進(jìn)行表示。選出最大屬性的增益率后,復(fù)位后,重新計(jì)算下一個(gè)節(jié)點(diǎn)屬性增益率的計(jì)算,只到遇到所有屬性的增益率全部計(jì)算完畢停止計(jì)算。
由于屬性“專(zhuān)業(yè)水平”具有最大信息增值率值,故而選擇該屬性作為決策樹(shù)的根節(jié)點(diǎn)。對(duì)于每一個(gè)分枝,重復(fù)上述步驟。
3.4生成分類(lèi)規(guī)則
數(shù)據(jù)挖掘分析器得出分類(lèi)規(guī)則:
1) IF專(zhuān)業(yè)成績(jī)=優(yōu)秀+外漢語(yǔ)成績(jī)=優(yōu)秀+實(shí)踐能力=優(yōu)秀+民族=民THEN就業(yè)單位=50
2)IF專(zhuān)業(yè)成績(jī)=優(yōu)秀+外漢語(yǔ)成績(jī)=優(yōu)秀+實(shí)踐能力=一般THEN就業(yè)單位=71
3) IF專(zhuān)業(yè)成績(jī)=優(yōu)秀+外漢語(yǔ)成績(jī)=合格+實(shí)踐能力=優(yōu)秀+民族=漢 THEN就業(yè)單位=39
4) IF專(zhuān)業(yè)成績(jī)=一般+外漢語(yǔ)成績(jī)=合格+實(shí)踐能力=一般 THEN就業(yè)單位=70
5) IF專(zhuān)業(yè)成績(jī)=優(yōu)秀+外漢語(yǔ)成績(jī)=優(yōu)秀+實(shí)踐能力=一般+民族=漢THEN就業(yè)單位=51
6) IF專(zhuān)業(yè)成績(jī)=優(yōu)秀+外漢語(yǔ)成績(jī)=優(yōu)秀+實(shí)踐能力=優(yōu)秀+民族=漢THEN就業(yè)單位=71
3.5情況分析及建議
有(1)說(shuō)明專(zhuān)業(yè)素質(zhì)好,外漢語(yǔ)水平高,實(shí)踐能力強(qiáng)的少數(shù)民族考取特崗的教師的可能性大。由(2)可知我校畢業(yè)學(xué)生學(xué)歷為專(zhuān)科層次,在校期間專(zhuān)業(yè)成績(jī)和外漢語(yǔ)成績(jī)較好的學(xué)生都會(huì)通過(guò)復(fù)習(xí)通過(guò)專(zhuān)升本或成人高考提高學(xué)歷。由(3)可知實(shí)踐能力強(qiáng)的學(xué)生適合教育機(jī)構(gòu)的需要,符合我校面向小學(xué)、學(xué)前教育培養(yǎng)教師的目標(biāo)。另外,漢語(yǔ)水平相對(duì)較好的少數(shù)民族畢業(yè)生就業(yè)機(jī)會(huì)較大。在校期間少數(shù)民族學(xué)生如果擔(dān)任學(xué)生干部,漢語(yǔ)水平相對(duì)較高。
由就業(yè)決策樹(shù)圖可知:專(zhuān)業(yè)成績(jī)、外漢語(yǔ)成績(jī)和實(shí)踐能力是大學(xué)生提高就業(yè)率的重要因素,每一類(lèi)就業(yè)單位都需要實(shí)踐能力強(qiáng)的畢業(yè)生。
綜上所述,提出兩點(diǎn)建議:
1) 加強(qiáng)實(shí)踐教學(xué)技能課程的設(shè)置。
2) 重視外漢語(yǔ)的教學(xué),提高教學(xué)質(zhì)量。
4 結(jié)論
本系統(tǒng)使用dephi2000和SQL server 2008開(kāi)發(fā),SQL server在開(kāi)發(fā)數(shù)據(jù)庫(kù)方面具有強(qiáng)大的功能,dephi能方便快捷的進(jìn)行B/S模式下學(xué)生信息管理系統(tǒng)的界面和功能開(kāi)發(fā),用它實(shí)現(xiàn)數(shù)據(jù)庫(kù)離散化,C4.5算法生成決策樹(shù)以及分類(lèi)規(guī)則,提供學(xué)生就業(yè)指導(dǎo)決策服務(wù)。
參考文獻(xiàn):
[1] 劉幸東.高校學(xué)生就業(yè)信息的決策支持系統(tǒng)的應(yīng)用研究[D].廣州:中山大學(xué),2006.
[2] 李海瓊.數(shù)據(jù)挖掘技術(shù)在遼寧大學(xué)就業(yè)輔助決策分析系統(tǒng)中的研究與應(yīng)用[D].沈陽(yáng):沈陽(yáng)工業(yè)大學(xué),2009.
[3] 劉鵬,姚正,尹俊杰.一種有效的C4.5改進(jìn)模型[J].清華大學(xué)學(xué)報(bào),2006(46):996-997.
[4] 劉佳,王新偉.一種改進(jìn)的C4.5算法及實(shí)驗(yàn)分析[J].計(jì)算機(jī)應(yīng)用與軟件,2008(12):260-262.
3 依據(jù)C4.5算法構(gòu)造學(xué)生就業(yè)信息分析模型
3.1分析目的
本課題收集了2008級(jí)維、漢、哈三種語(yǔ)系的畢業(yè)生數(shù)據(jù),提取畢業(yè)生數(shù)據(jù)庫(kù),因此分院的畢業(yè)生去向在南北疆及烏魯木齊本地,比較具有代表性。以此數(shù)據(jù)作為訓(xùn)練實(shí)例數(shù)據(jù)集,具有普遍的意義。旨在構(gòu)建一個(gè)學(xué)生就業(yè)信息數(shù)據(jù)分析模型,找出影響學(xué)生就業(yè)去向的關(guān)鍵因素,并用于預(yù)測(cè)。
3.2數(shù)據(jù)處理
本課題抽取2008級(jí)畢業(yè)生的人文科學(xué)分院語(yǔ)文教育專(zhuān)業(yè)的學(xué)生成績(jī)信息,畢業(yè)信息和學(xué)籍信息。針對(duì)這些信息進(jìn)行了數(shù)據(jù)清理、數(shù)據(jù)轉(zhuǎn)換、數(shù)據(jù)加載的功能編程設(shè)計(jì)。從畢業(yè)生數(shù)據(jù)庫(kù)中提取的基本信息表中,有少數(shù)學(xué)生已經(jīng)退學(xué)或轉(zhuǎn)專(zhuān)業(yè)以及中途參軍入伍的學(xué)生信息將從列表中去除。使用SQL server2008的Analysis Services服務(wù)器建立多維數(shù)據(jù)表。七個(gè)維度分別是外漢語(yǔ)成績(jī)、專(zhuān)業(yè)課成績(jī)、實(shí)踐能力、是否學(xué)生干部、單位性質(zhì)。外漢語(yǔ)成績(jī)大于等于85為優(yōu)秀,介于60至85之間為合格,小于60為不合格。專(zhuān)業(yè)課成績(jī)大于85為優(yōu)秀,小于85為一般,教師口語(yǔ)、計(jì)算機(jī)基礎(chǔ)、見(jiàn)習(xí)等列為實(shí)踐能力成績(jī),大于85為優(yōu)秀,小于85為一般。
將工作單位單位性質(zhì)分為五類(lèi):教育機(jī)構(gòu)包括中小學(xué)、幼兒園和培訓(xùn)中心的就業(yè)的學(xué)生,單位性質(zhì)編碼39;企業(yè)公司包括自主創(chuàng)業(yè)擇業(yè)的學(xué)生,單位性質(zhì)編碼70;暫緩就業(yè)包括專(zhuān)升本或者成人本科的學(xué)生,單位性質(zhì)編碼為71;特崗教師包括考取地州縣教師崗位的學(xué)生,單位性質(zhì)編碼為50;公職人員包括考取公務(wù)員的學(xué)生,單位性質(zhì)編碼為51。
3.3數(shù)據(jù)分類(lèi)
根據(jù)決策樹(shù)算法的信息增益理論,設(shè)計(jì)數(shù)據(jù)挖掘分析器,分析計(jì)算得出就業(yè)實(shí)例集增益值得柱形圖。此頁(yè)面可以對(duì)決策樹(shù)的算法進(jìn)行選擇,并且對(duì)提取的就業(yè)實(shí)例集的數(shù)據(jù)根據(jù)信息增益率的計(jì)算公式進(jìn)行分析計(jì)算,在分析圖表中顯示民族、性別、外漢語(yǔ)水平、專(zhuān)業(yè)成績(jī)、實(shí)踐能力各個(gè)屬性的增益率,并用柱形圖進(jìn)行表示。選出最大屬性的增益率后,復(fù)位后,重新計(jì)算下一個(gè)節(jié)點(diǎn)屬性增益率的計(jì)算,只到遇到所有屬性的增益率全部計(jì)算完畢停止計(jì)算。
由于屬性“專(zhuān)業(yè)水平”具有最大信息增值率值,故而選擇該屬性作為決策樹(shù)的根節(jié)點(diǎn)。對(duì)于每一個(gè)分枝,重復(fù)上述步驟。
3.4生成分類(lèi)規(guī)則
數(shù)據(jù)挖掘分析器得出分類(lèi)規(guī)則:
1) IF專(zhuān)業(yè)成績(jī)=優(yōu)秀+外漢語(yǔ)成績(jī)=優(yōu)秀+實(shí)踐能力=優(yōu)秀+民族=民THEN就業(yè)單位=50
2)IF專(zhuān)業(yè)成績(jī)=優(yōu)秀+外漢語(yǔ)成績(jī)=優(yōu)秀+實(shí)踐能力=一般THEN就業(yè)單位=71
3) IF專(zhuān)業(yè)成績(jī)=優(yōu)秀+外漢語(yǔ)成績(jī)=合格+實(shí)踐能力=優(yōu)秀+民族=漢 THEN就業(yè)單位=39
4) IF專(zhuān)業(yè)成績(jī)=一般+外漢語(yǔ)成績(jī)=合格+實(shí)踐能力=一般 THEN就業(yè)單位=70
5) IF專(zhuān)業(yè)成績(jī)=優(yōu)秀+外漢語(yǔ)成績(jī)=優(yōu)秀+實(shí)踐能力=一般+民族=漢THEN就業(yè)單位=51
6) IF專(zhuān)業(yè)成績(jī)=優(yōu)秀+外漢語(yǔ)成績(jī)=優(yōu)秀+實(shí)踐能力=優(yōu)秀+民族=漢THEN就業(yè)單位=71
3.5情況分析及建議
有(1)說(shuō)明專(zhuān)業(yè)素質(zhì)好,外漢語(yǔ)水平高,實(shí)踐能力強(qiáng)的少數(shù)民族考取特崗的教師的可能性大。由(2)可知我校畢業(yè)學(xué)生學(xué)歷為專(zhuān)科層次,在校期間專(zhuān)業(yè)成績(jī)和外漢語(yǔ)成績(jī)較好的學(xué)生都會(huì)通過(guò)復(fù)習(xí)通過(guò)專(zhuān)升本或成人高考提高學(xué)歷。由(3)可知實(shí)踐能力強(qiáng)的學(xué)生適合教育機(jī)構(gòu)的需要,符合我校面向小學(xué)、學(xué)前教育培養(yǎng)教師的目標(biāo)。另外,漢語(yǔ)水平相對(duì)較好的少數(shù)民族畢業(yè)生就業(yè)機(jī)會(huì)較大。在校期間少數(shù)民族學(xué)生如果擔(dān)任學(xué)生干部,漢語(yǔ)水平相對(duì)較高。
由就業(yè)決策樹(shù)圖可知:專(zhuān)業(yè)成績(jī)、外漢語(yǔ)成績(jī)和實(shí)踐能力是大學(xué)生提高就業(yè)率的重要因素,每一類(lèi)就業(yè)單位都需要實(shí)踐能力強(qiáng)的畢業(yè)生。
綜上所述,提出兩點(diǎn)建議:
1) 加強(qiáng)實(shí)踐教學(xué)技能課程的設(shè)置。
2) 重視外漢語(yǔ)的教學(xué),提高教學(xué)質(zhì)量。
4 結(jié)論
本系統(tǒng)使用dephi2000和SQL server 2008開(kāi)發(fā),SQL server在開(kāi)發(fā)數(shù)據(jù)庫(kù)方面具有強(qiáng)大的功能,dephi能方便快捷的進(jìn)行B/S模式下學(xué)生信息管理系統(tǒng)的界面和功能開(kāi)發(fā),用它實(shí)現(xiàn)數(shù)據(jù)庫(kù)離散化,C4.5算法生成決策樹(shù)以及分類(lèi)規(guī)則,提供學(xué)生就業(yè)指導(dǎo)決策服務(wù)。
參考文獻(xiàn):
[1] 劉幸東.高校學(xué)生就業(yè)信息的決策支持系統(tǒng)的應(yīng)用研究[D].廣州:中山大學(xué),2006.
[2] 李海瓊.數(shù)據(jù)挖掘技術(shù)在遼寧大學(xué)就業(yè)輔助決策分析系統(tǒng)中的研究與應(yīng)用[D].沈陽(yáng):沈陽(yáng)工業(yè)大學(xué),2009.
[3] 劉鵬,姚正,尹俊杰.一種有效的C4.5改進(jìn)模型[J].清華大學(xué)學(xué)報(bào),2006(46):996-997.
[4] 劉佳,王新偉.一種改進(jìn)的C4.5算法及實(shí)驗(yàn)分析[J].計(jì)算機(jī)應(yīng)用與軟件,2008(12):260-262.