• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      關聯(lián)規(guī)則在學生助學系統(tǒng)中的應用研究

      2012-04-29 08:48:09周麗娜李劍
      考試周刊 2012年62期
      關鍵詞:項集置信度助學

      周麗娜 李劍

      摘要: 高等教育體制改革的不斷深入和發(fā)展促進了我國高等教育規(guī)模不斷擴大,高校學生人數(shù)逐年增加,由此積累的大量助學信息亟須分析整合。關聯(lián)規(guī)則是數(shù)據挖掘的一個重要分支,主要側重于確定數(shù)據庫中不同領域間的聯(lián)系,找出滿足給定支持度和置信度的多個域之間的依賴關系,能為幫困助學數(shù)據分析提供很好的技術支持。本文就是通過對數(shù)據挖掘和關聯(lián)規(guī)則的研究,對家庭經濟困難學生在校期間的綜合表現(xiàn)與就業(yè)去向進行關聯(lián),從中得到輔助學校學工部門有針對性地開展幫困助學工作的建議。

      關鍵詞: 數(shù)據挖掘關聯(lián)規(guī)則學生助學系統(tǒng)

      1.引言

      隨著我國高等教育體制改革的不斷深入和發(fā)展,全國高等教育在學總人數(shù)已逾千萬,這標志著我國高等教育進入了國際公認的大眾化發(fā)展階段。在招生規(guī)模不斷擴大的同時,家庭經濟困難學生的問題日益突出。經濟有困難的學生能否順利入學并完成學業(yè),已成為社會普遍關心的問題。

      為解決家庭經濟困難學生的學習問題,政府和高校經過多年的努力,建立起一套以國家助學貸款為主體的高校貧困學生資助政策體系。國家從2000年開始推行國家助學貸款制度,經過這些年的工作,各高校學生工作部門都積累了大量與貸款學生有關的原始數(shù)據,包括學生的基本信息、在校期間的文化課成績信息、獲獎助學金信息、參加學校的勤工助學的工作情況信息及就業(yè)去向信息等,而且這些數(shù)據會隨著學校招生規(guī)模的不斷擴大、辦學時間的增長而繼續(xù)增加。

      2.關聯(lián)規(guī)則

      2.1數(shù)據挖掘與關聯(lián)規(guī)則。

      數(shù)據挖掘技術是人們長期對數(shù)據庫技術進行研究和開發(fā)的結果。數(shù)據挖掘最早出現(xiàn)在第11屆國際聯(lián)合人工智能學術會議上,它又被稱為數(shù)據庫中的知識發(fā)現(xiàn),就是從大量數(shù)據中獲取有效的、新穎的、潛在有用的、最終可理解的模式的非平凡過程,簡單地說,數(shù)據挖掘就是從大量數(shù)據中提取或“挖掘”知識。

      數(shù)據挖掘功能用于指定數(shù)據挖掘任務中要找的模式類型。一般地,數(shù)據挖掘任務可以分兩類:描述和預測。描述性挖掘任務刻畫數(shù)據庫中數(shù)據的一般特性;預測性挖掘任務在當前數(shù)據上進行推斷,以進行預測。

      數(shù)據挖掘在學生的招生與就業(yè)工作中發(fā)揮著作用。有學者通過對歷年的招生信息的分析研究,提出了修改招生計劃的指導意見,變被動招生為主動招生。在就業(yè)工作方面,也有人通過對歷年學生的在校表現(xiàn)和就業(yè)情況進行綜合分析,提出有相應的分類指導意見。

      關聯(lián)規(guī)則是數(shù)據挖掘的一個重要分支,最初其研究對象為交易數(shù)據庫,主要目的就是發(fā)現(xiàn)交易數(shù)據庫中交易項目之間是否存在某種關系,后來又推廣到關系型數(shù)據庫,主要目的是從數(shù)據庫中挖掘出項集之間的關聯(lián)規(guī)則。規(guī)則的支持度和置信度是規(guī)則興趣度的兩種度量。

      關聯(lián)規(guī)則的挖掘主要包括以下兩個主要過程:首先是找出所有頻繁項集,這些項集出現(xiàn)的頻率至少和預定義的最小支持計數(shù)一樣。其次是由頻繁項集產生強關聯(lián)規(guī)則:找出的關聯(lián)規(guī)則必須滿足最小支持度和最小置信度。

      2.2關聯(lián)規(guī)則分類。

      根據分類的標準不同,關聯(lián)規(guī)則可以有以下幾種分類方式:基于規(guī)則中處理的變量類別分類、基于規(guī)則中數(shù)據的抽象層次分類和基于規(guī)則中涉及的數(shù)據維數(shù)分類。

      根據規(guī)則中處理的變量的值,可以將規(guī)則分為布爾關聯(lián)規(guī)則和量化關聯(lián)規(guī)則。布爾型關聯(lián)規(guī)則顯示了這些變量之間的關系,而量化關聯(lián)規(guī)則通常是在處理數(shù)值型數(shù)據時對數(shù)值進行分段量化得來的。根據規(guī)則中數(shù)據的抽象層次,可以分為單層關聯(lián)規(guī)則和多層關聯(lián)規(guī)則,兩者的區(qū)別在于是否涉及不同層次的數(shù)據項。如果不涉及不同層次的數(shù)據項,得到的是單層關聯(lián)規(guī)則。在不同抽象層次中挖掘出的關聯(lián)規(guī)則稱為多層關聯(lián)規(guī)則。根據關聯(lián)規(guī)則所涉及的數(shù)據維數(shù)不同,可以分為單維關聯(lián)規(guī)則和多維關聯(lián)規(guī)則。如果關聯(lián)規(guī)則各項僅涉及一個維度,則稱之為單維關聯(lián)規(guī)則。如果關聯(lián)規(guī)則涉及兩個或兩個以上維度,則稱之為多維關聯(lián)規(guī)則。

      3.助學系統(tǒng)關聯(lián)規(guī)則挖掘

      通過開展助學工作,學校已基本形成了助學貸款、獎學金、困難補助、勤工助學和社會助學等五大幫困助學措施,同時也積累了相當多的與助學有關的信息。通過初步分析,可能影響學生就業(yè)的諸方面因素有:學生的獎學金獲得情況、貸款額度、勤工助學表現(xiàn)、學歷、專業(yè),等等。助學系統(tǒng)關聯(lián)規(guī)則挖掘就是希望對以上因素進行分析,找到一些有實際指導意義的規(guī)則。整個助學系統(tǒng)數(shù)據挖掘大體上分成數(shù)據的搜集、清理、集成、變換等預處理工作和關聯(lián)規(guī)則挖掘工作。

      3.1助學系統(tǒng)數(shù)據預處理。

      3.1.1數(shù)據采集

      助學系統(tǒng)涉及學校的多個部門,如學生處負責管理獎學金評定等;招生與就業(yè)指導辦公室負責管理學生的生源信息和就業(yè)信息;財務處負責管理學生的助學貸款信息等;教務處負責管理學生的學籍信息和成績信息等。勤工助學因為涉及多個部門,由設置勤工助學崗位的部門或學院負責對學生的日??己耍瑓R總工作則由學生處負責完成。

      3.1.2數(shù)據清理

      收集到的學校學生信息有其自身的特點:數(shù)據比較完整、數(shù)據值的可信度比較高,但是由于有些原始數(shù)據是由人工處理完成的,空值的出現(xiàn)不可避免。比如就業(yè)信息表中,就有部分記錄信息不完整。通常正常畢業(yè)的學生采集的數(shù)據基本上比較完整,而對于休學、延學、參軍、結業(yè)等不能按時完成學業(yè)的學生來說,就業(yè)系統(tǒng)中只會保存他們的一些最基本信息。對于這些空值可以考慮將這些信息從就業(yè)信息表中移除出去或用約定方法進行數(shù)據填充。

      同時由于各部門處理數(shù)據的側重點、操作人員的處理習慣等各有不同,造成即使是相同的信息也會出現(xiàn)不同表示。例如同樣是表示專業(yè)名稱信息,有些部門使用專業(yè)名稱全稱,而有些則使用簡稱。對于這樣的情況,可以通過給出標準數(shù)據,將其他數(shù)據統(tǒng)一改寫成標準數(shù)據形式。

      3.1.3數(shù)據集成

      數(shù)據集成則是將多個數(shù)據源中的數(shù)據結合、存放在一個一致的數(shù)據存儲中。將多個數(shù)據源中的數(shù)據集成起來,能夠減少或避免結果數(shù)據集中數(shù)據的冗余和不一致性。由于歷史和技術普及等多方面的原因,造成數(shù)據存儲有多種形式。比如就業(yè)信息多以DBF文件格式存儲,而在學校內部,辦公處理軟件的使用率比較高,多數(shù)老師習慣于將數(shù)據以Excel電子表格或Word文檔形式進行保存。助學系統(tǒng)數(shù)據挖掘所處理的數(shù)據也是以上述幾種格式為主。在進行數(shù)據挖掘前需要對這些以不同形式存儲的數(shù)據進行處理,轉換成單一形式。

      3.1.4數(shù)據轉換

      數(shù)據轉換就是將數(shù)據轉換或歸并已構成一個適合數(shù)據挖掘的描述形式,用更抽象、更高層次的概念來取代低層次或數(shù)據層的數(shù)據對象,將有關屬性數(shù)據按比例投影到特定小范圍之中。助學系統(tǒng)的各數(shù)據表的屬性通常有大量的不同的屬性值,這時就應當進行進一步概化。

      如學生貸款信息中“貸款金額”,該屬性就存在大量不同的值,貸款金額在很大程度上反映了學生的家庭經濟狀況。為了使該信息適用于數(shù)據挖掘,就需要對年均貸款額進行概化。在助學系統(tǒng)數(shù)據挖掘中,要找出學生在校表現(xiàn)與就業(yè)信息的關聯(lián),就離不開就業(yè)單位信息。但是學生的就業(yè)單位重復率低,存在大量不同的就業(yè)單位信息。在挖掘中就不能直接使用就業(yè)單位信息,將就業(yè)單位按性質進行分類后該數(shù)據就比較適合進行數(shù)據挖掘了。除了上面提到的一些需要概化處理的信息外,還有勤工助學考核信息、專業(yè)信息、生源地、就業(yè)地、成績、性別和本??祁悇e等也需要加以處理。

      3.2生成關聯(lián)規(guī)則。

      對數(shù)據進行清理和轉換后,再通過“學號”匹配可以將助學系統(tǒng)的各數(shù)據表連接成信息總表,這時的數(shù)據可以更為有效地進行關聯(lián)規(guī)則數(shù)據挖掘。

      關聯(lián)規(guī)則的生成是整個系統(tǒng)的核心工作。應用數(shù)據挖掘技術對收集的助學系統(tǒng)數(shù)據進行挖掘分析,可以發(fā)現(xiàn)隱藏在數(shù)據中的有用的知識,并將其提取出來供學校和相關教師參考。經典Apriori算法的基本思想將關聯(lián)規(guī)則的生成大體上劃分成了兩步:產生頻繁集和生成強關聯(lián)規(guī)則。

      在搜索頻繁k項集時,首先要找出頻繁1項集。在完成對數(shù)據的預處理后,求取頻繁1項集只需簡單地掃描信息總表,對每個項的出現(xiàn)次數(shù)計數(shù),生成候選1項集。再通過設置最小支持度計數(shù),篩選生成頻繁1項集。找到頻繁1項集后,通過將頻繁1項集與自己進行連接生成候選2項集。再對得到的候選2項集的出現(xiàn)進行計次,滿足最小支持度計數(shù)的予以保留,生成頻繁2項集。依此類推生成頻繁k項集。當頻繁k項集生成以后,對于任意一個頻繁k項集,找出其中所有可能的真子集,作為關聯(lián)規(guī)則的前件,計算相應規(guī)則的置信度。當某一規(guī)則的置信度大于給定的最小置信度時,輸出該規(guī)則。

      3.3規(guī)則分析。

      通過挖掘系統(tǒng)生成的規(guī)則,首先需進行符號轉換,將之前預處理時編碼化的數(shù)據還原成原始信息。得到轉換后的規(guī)則應該進行理解和分析。通過初步分析,挖掘出的規(guī)則大致可以分成符合預先設想的和之前未被發(fā)現(xiàn)的兩類。

      例如曾獲得過獎學金并且貸款額度中等的學生比未獲獎學金且貸款額度中的支持度小,說明前者的人數(shù)較后者少;同時前者的置信度高說明獲得獎學金的同學有更多的就業(yè)機會。這些都符合先驗知識。而有些規(guī)則無法用先驗知識解釋,比如同樣是參加勤工助學活動,在寧波女生就業(yè)比例比男生高。這從一個側面說明女生同男生相比,更傾向于在自己熟悉的環(huán)境中就業(yè)。

      4.結語

      本文以寧波工程學院助學系統(tǒng)為依托,深入開展了關聯(lián)規(guī)則數(shù)據挖掘工作。首先,完成了助學系統(tǒng)的數(shù)據預處理。通過對原始數(shù)據的清理、集成和轉換,將這些數(shù)據初步加工成適用于關聯(lián)規(guī)則挖掘的數(shù)據。其次,完成關聯(lián)規(guī)則挖掘算法的實現(xiàn),建立針對以上預處理數(shù)據的關聯(lián)規(guī)則挖掘系統(tǒng),在引入挖掘原始數(shù)據后進行數(shù)據挖掘。最后,利用挖掘系統(tǒng)對收集的數(shù)據進行關聯(lián)分析,生成關聯(lián)規(guī)則。學生通過對關聯(lián)規(guī)則的理解和分析,產生對貧困生就業(yè)有指導性價值的意見。

      參考文獻:

      [1]R.Agrawal,R.Srikant.Fast Algorithms for Mining Association Rules[C].In:Proceedings of the 20th International Conference on Very Large Databases.Santiago,Chile,1994:487-499.

      [2]Jiawei Han,Micheline Kamber.范明,孟小峰.數(shù)據挖掘概念與技術[M].北京:機械工業(yè)出版社,2001.

      [3]王登.數(shù)據挖掘技術及其在高校素質教育應用中的探討[J].現(xiàn)在電子技術,2007,4:95-97.

      [4]劉鵬,孫莉,趙潔,等.數(shù)據挖掘技術在高校人力資源管理中的應用研究[J].計算機工程與應用,2008,44(10):201-233.

      [5]康振華,趙燕麗,周金剛.數(shù)據挖掘在高校就業(yè)工作中的應用研究[J].中國科教創(chuàng)新導刊,2007,474:86-87.

      基金項目:寧波市教育科學規(guī)劃課題2009-46。

      猜你喜歡
      項集置信度助學
      硼鋁復合材料硼含量置信度臨界安全分析研究
      正負關聯(lián)規(guī)則兩級置信度閾值設置方法
      計算機應用(2018年5期)2018-07-25 07:41:26
      關愛·幫扶·助學
      中國火炬(2015年10期)2015-07-25 09:51:18
      置信度條件下軸承壽命的可靠度分析
      軸承(2015年2期)2015-07-25 03:51:04
      為助學一諾千金
      中國火炬(2014年7期)2014-07-24 14:21:14
      郭萬里“三幫”助學子
      中國火炬(2014年2期)2014-07-24 14:17:00
      關聯(lián)規(guī)則中經典的Apriori算法研究
      卷宗(2014年5期)2014-07-15 07:47:08
      一種頻繁核心項集的快速挖掘算法
      計算機工程(2014年6期)2014-02-28 01:26:12
      扎實幫困助學造福貧困少年
      中國火炬(2012年3期)2012-07-25 10:34:01
      多假設用于同一結論時綜合置信度計算的新方法?
      電訊技術(2011年11期)2011-04-02 14:00:37
      泰宁县| 叙永县| 拜城县| 长宁区| 金沙县| 剑河县| 阿尔山市| 都昌县| 泾川县| 扎赉特旗| 井陉县| 南郑县| 英德市| 金门县| 潼南县| 济南市| 江北区| 临海市| 汕头市| 汤原县| 文登市| 交口县| 崇信县| 图木舒克市| 滕州市| 新泰市| 荃湾区| 玉门市| 永修县| 西乌珠穆沁旗| 息烽县| 呼伦贝尔市| 鄂托克前旗| 大新县| 简阳市| 大埔区| 乡宁县| 临潭县| 永平县| 渭源县| 舟山市|