• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      數(shù)據(jù)挖掘在校園一卡通數(shù)據(jù)的應(yīng)用與研究

      2012-04-29 00:44:03徐劍陳勁舟
      電腦知識與技術(shù) 2012年33期
      關(guān)鍵詞:數(shù)據(jù)預(yù)處理means算法

      徐劍 陳勁舟

      摘要:校園卡中存儲了大量的數(shù)據(jù),近幾年來,這些數(shù)據(jù)越來越受到大家的關(guān)注,該文將對存儲在校園卡中學(xué)生使用熱水的數(shù)據(jù)進(jìn)行研究,通過K-means算法進(jìn)行嘗試分析學(xué)生對熱水使用情況,了解學(xué)生對熱水的需求量,從而可以提供給學(xué)校后勤部門一些參考意見,有助于學(xué)校的建設(shè)和管理,更有助于滿足學(xué)生的需要。

      關(guān)鍵詞:K-means算法;熱水需求;數(shù)據(jù)預(yù)處理

      中圖分類號:TP311 文獻(xiàn)標(biāo)識碼:A 文章編號:1009-3044(2012)33-7885-03

      校園卡在高校已經(jīng)使用多年,經(jīng)過近些年的使用,在校園卡中心已經(jīng)存儲了海量的數(shù)據(jù),這些數(shù)據(jù)包括就餐數(shù)據(jù)、上機(jī)數(shù)據(jù)、借書數(shù)據(jù)、用水?dāng)?shù)據(jù)等多種數(shù)據(jù)。這些數(shù)據(jù)已經(jīng)越來越被學(xué)校重視,因為這些數(shù)據(jù)是學(xué)生本人使用產(chǎn)生的,對這些海量的數(shù)據(jù)進(jìn)行研究分析,可以了解學(xué)生的一些內(nèi)在信息。因此該文將對學(xué)生的用水?dāng)?shù)據(jù)進(jìn)行研究與探索,了解學(xué)生使用熱水的一些情況,有助于學(xué)校了解學(xué)生的更多情況,也有助于學(xué)校的建設(shè)。

      1對學(xué)生用水?dāng)?shù)據(jù)的預(yù)處理

      該文研究的用水?dāng)?shù)據(jù)是學(xué)生使用熱水產(chǎn)生的數(shù)據(jù),反映了學(xué)生每天熱水的使用情況,這部分?jǐn)?shù)據(jù)的來源是學(xué)生每天使用校園卡消費熱水的數(shù)據(jù),學(xué)生每次用校園卡刷卡使用熱水就會在數(shù)據(jù)庫中產(chǎn)生一條數(shù)據(jù),該文以高校1萬個學(xué)生為例子,使用熱水的數(shù)據(jù)量每天達(dá)到上萬條記錄,這樣一個月就達(dá)到幾十萬條的數(shù)據(jù)記錄,面對如此多的數(shù)據(jù)量,為了提高數(shù)據(jù)挖掘效率與數(shù)據(jù)挖掘的準(zhǔn)確率,該文在進(jìn)行數(shù)據(jù)挖掘前,將對該部分?jǐn)?shù)據(jù)將進(jìn)行預(yù)處理過程,數(shù)據(jù)預(yù)處理過程分為:對數(shù)據(jù)進(jìn)行清理、集成、變換、規(guī)約四個部分,經(jīng)過數(shù)據(jù)預(yù)處理后的數(shù)據(jù)能夠方便于后續(xù)的研究。

      1.1數(shù)據(jù)清理

      數(shù)據(jù)清理過程就是處理數(shù)據(jù)中的噪聲和數(shù)據(jù)的缺失等部分或者是降噪的一個過程。學(xué)校一卡通系統(tǒng)中存儲了學(xué)生、教職工、以及臨時職工等的大量數(shù)據(jù),為了保證研究數(shù)據(jù)的可靠性和穩(wěn)定性,我們將一些會影響數(shù)據(jù)真實性的離群數(shù)據(jù)剔除,如在校園卡中的數(shù)據(jù)還包括研究生、教職工等的數(shù)據(jù),他們使用校園卡的頻率不高,這樣的對數(shù)據(jù)分析會產(chǎn)生影響,因此該文選擇在校的本科生的數(shù)據(jù)為樣本進(jìn)行研究,這樣的數(shù)據(jù)更為準(zhǔn)確,因此通過這部分?jǐn)?shù)據(jù)的分析,可以相對準(zhǔn)確的描述學(xué)生使用熱水的一些情況。

      1.2數(shù)據(jù)集成

      由于該文研究中用到的數(shù)據(jù)來源于不同的兩類數(shù)據(jù)(開水的使用和洗澡時熱水的使用)。由于數(shù)據(jù)來源不同,所以必須進(jìn)行數(shù)據(jù)基集成,將不同的數(shù)據(jù)的數(shù)據(jù)整合到一起,方便研究。

      1.3數(shù)據(jù)變換

      數(shù)據(jù)變換是對數(shù)據(jù)的格式和結(jié)構(gòu)進(jìn)行一定的轉(zhuǎn)化,使我們在研究過程中能夠?qū)崿F(xiàn)數(shù)據(jù)一致性,讓該部分?jǐn)?shù)據(jù)更容易實現(xiàn)分析的過程。該文在數(shù)據(jù)變換處理過程中的方法如下:對數(shù)據(jù)的泛化,它是一種常見的方法,即對數(shù)據(jù)處理時用更高層的概念來表達(dá)原來的數(shù)據(jù),使其數(shù)據(jù)能夠達(dá)到一定程度的壓縮。該文在對熱水使用數(shù)據(jù)的處理方式是把每個學(xué)生的每天熱水使用量進(jìn)行數(shù)據(jù)匯總,即實現(xiàn)每個用戶每天一條使用熱水的數(shù)據(jù)。這有利于我們對學(xué)生熱水使用情況的研究做進(jìn)一步簡化處理。

      1.4數(shù)據(jù)歸約

      數(shù)據(jù)規(guī)約是數(shù)據(jù)預(yù)處理過程中非常重要的一步,數(shù)據(jù)規(guī)約的根本目的在于實現(xiàn)數(shù)據(jù)壓縮的一個過程,但它的前提是必須保持?jǐn)?shù)據(jù)的完整性,并且不改變原有數(shù)據(jù)的真實內(nèi)涵。

      數(shù)據(jù)規(guī)約一般方法:

      1)數(shù)據(jù)屬性的選擇:數(shù)據(jù)庫建表時很多字段屬性是為了方便管理與操作,當(dāng)我們獲得的數(shù)據(jù)中,很多屬性在我們的挖掘研究時可能沒有太多的價值,更可能沒有相關(guān)性,因此在進(jìn)行數(shù)據(jù)處理時,可以考慮將挖掘過程中無關(guān)或者是弱關(guān)聯(lián)的屬性刪除或放棄。

      2)數(shù)值規(guī)約:實現(xiàn)某些數(shù)據(jù)可以通過其他的方式來代替的一個過程,如常見的有通過聚類等方式來實現(xiàn)。

      在針對大量數(shù)據(jù)的挖掘時,數(shù)據(jù)規(guī)約是必不可少的,它能實現(xiàn)數(shù)據(jù)量進(jìn)一步縮小,并且可以提高數(shù)據(jù)的效率。該文在數(shù)據(jù)預(yù)處理時也對熱水使用的數(shù)據(jù)情況進(jìn)行了數(shù)據(jù)規(guī)約。該文的數(shù)據(jù)來源于校園卡中心的數(shù)據(jù),該部分?jǐn)?shù)據(jù)是存儲在ORACLE中,數(shù)據(jù)有多張表格,數(shù)據(jù)表中存儲了大量的數(shù)據(jù),該文列出來某張數(shù)據(jù)表的一些屬性,這些屬性對該文的研究有些是非常重要的,有些則存在不必要性:

      2K-means算法

      K-means算法是聚類算法中的一種,同時也是經(jīng)典的算法之一,它可以很好實現(xiàn)聚類思想,實現(xiàn)劃分方法,算法優(yōu)點在于可伸縮和高效率。因此K-means的聚類方法容易實現(xiàn)球狀的數(shù)據(jù)分類。

      2.1k-means算法的思想

      K均值算法的根本思想在于實現(xiàn)把n個數(shù)據(jù)對象劃分成k個不同簇,且各個簇內(nèi)容的數(shù)據(jù)點到簇中心的平方和為最小。k的值為要求劃分簇的個數(shù),并且k個簇的數(shù)據(jù)中心要先隨機(jī)選擇。因此,k具有隨機(jī)性,這也是該算法的不足之處。選好劃分簇的個數(shù)k,并且選好k個簇的數(shù)據(jù)中心后,我們對n個數(shù)據(jù)(除初始的k個數(shù)據(jù)中心)進(jìn)行計算,更新簇內(nèi)的數(shù)據(jù)對象,以及計算簇的新均值(更新的過程是將每個數(shù)據(jù)點與聚類中心計算平方和,與誰計算值最小,則被分派到相應(yīng)簇內(nèi),將所有數(shù)據(jù)分派完后,重新計算簇中心,如此重復(fù)分派,重復(fù)更新簇的過程),直到所有的簇中心、數(shù)據(jù)分派不再變化,則算法結(jié)束。該算法采用的聚類準(zhǔn)則函數(shù)是:E=[i-1Kp∈ci||P-Mi||2]。其中,Mi是各個簇的均值,P就是數(shù)據(jù)對象中的各個點,E是所有數(shù)據(jù)對象的平方誤差和。在本算法中,算法結(jié)束或者函數(shù)收斂是在E值不再變小的情況下。

      3學(xué)生熱水使用數(shù)據(jù)的聚類分析

      該文對熱水使用情況的分析目的在于了解學(xué)生不同季節(jié)對熱水的需求量,通過分析后可以給學(xué)校后勤部門在提供熱水量時做一些參考依據(jù),從而可以避免熱水供應(yīng)過多或者熱水供應(yīng)不足的現(xiàn)象。該文通過對熱水使用量的聚類分析,來了解學(xué)生對熱水的需求量。

      經(jīng)過前期的數(shù)據(jù)預(yù)處理過程,我們的研究數(shù)據(jù)已經(jīng)相當(dāng)具有代表性了,該文對數(shù)據(jù)進(jìn)行聚類時,根據(jù)上面內(nèi)容的敘述,該文可以選用K均值的聚類算法進(jìn)行聚類分析,并將其劃分為四類。該文的數(shù)據(jù)樣本,是2010年9月到2010年12月間學(xué)生的熱水使用數(shù)據(jù),如圖1所示。

      從圖中我們可以將聚類結(jié)果分為四類,在區(qū)域A類內(nèi)的時間為9月15日至9月30日,區(qū)域B類內(nèi)的時間為10月20日至11月3日,區(qū)域C內(nèi)的時間為11月24日至12月8日,區(qū)域D內(nèi)的時間為12月22日至12月29日,其他時間也存在一些離群點,表明其他時間也存在使用熱水現(xiàn)象,只是人數(shù)相對不多,是正常的現(xiàn)象。

      通過對上圖的分析,我們不難看出學(xué)生在這一學(xué)期使用熱水的情況,九月份相對于十月份、十一月份、十二月份的使用量明顯要小,九月份天氣熱,同學(xué)們熱水使用量少,但每天都在使用,情況可能是同學(xué)們每天都會洗澡,相對熱水供應(yīng)要多些。隨著天氣慢慢降溫,洗澡用水相對變少,因此用水量也就變少;十月份天氣開始變冷,一次性使用熱水量更大,從B、C、D區(qū)域我們不難看出,由于天氣變冷,同學(xué)們洗澡次數(shù)相對減少。因此十二月份用水明顯比十一月份用水量少。聚類的結(jié)果可以看出與我們現(xiàn)實是相符的,因此對這部分?jǐn)?shù)據(jù)的研究是有一定價值的,這部分的研究有助于學(xué)校后勤部門供水,也有助于學(xué)生用水。

      4結(jié)束語

      該文對學(xué)生的熱水使用數(shù)據(jù)進(jìn)行了聚類分析,了解到學(xué)生對熱水使用的一些情況,而這只是分析的初探。學(xué)生使用的校園卡內(nèi)部包含了很多有用的信息,這些信息值得我們?nèi)ド钊肓私?,有待我們繼續(xù)努力。

      參考文獻(xiàn):

      [1]HanJiawei,KamberM.數(shù)據(jù)挖掘概念與技術(shù)[M].范明,譯.北京:機(jī)械工業(yè)出版社,2008:3-5.

      [2]吳紹函,余昭平.數(shù)據(jù)挖掘中關(guān)聯(lián)規(guī)則的研究[J].微計算機(jī)信息,2008:1-3,185-186.

      [3]嚴(yán)蔚敏,吳偉民.數(shù)據(jù)結(jié)構(gòu):C語言版[M].北京:清華大學(xué)出版社,2003:96-99.

      猜你喜歡
      數(shù)據(jù)預(yù)處理means算法
      基于小轎車車門拉手的逆向建模設(shè)計
      科技視界(2016年27期)2017-03-14 22:45:40
      自動氣象站數(shù)據(jù)預(yù)處理方法
      芻議電力系統(tǒng)規(guī)劃設(shè)計在電力工程設(shè)計中的應(yīng)用
      中國市場(2016年41期)2016-11-28 05:30:48
      SIFT算法在木材紋理分類上的應(yīng)用
      基于K—Means聚類算法入侵檢測系統(tǒng)研究
      慢性乙肝癥狀與生物信息相關(guān)性的數(shù)據(jù)挖掘研究
      基于Weka的Apriori算法在原油產(chǎn)量預(yù)測中的應(yīng)用
      基于HSI顏色空間的小麥粉精度自動識別研究
      基于聚類的Web日志挖掘
      中醫(yī)方劑數(shù)據(jù)庫文本挖掘數(shù)據(jù)預(yù)處理的嘗試
      广汉市| 东丽区| 台山市| 东台市| 仪征市| 中江县| 荔波县| 开原市| 阳信县| 萨嘎县| 昌图县| 同江市| 郯城县| 广元市| 青铜峡市| 延津县| 屯昌县| 陇南市| 新闻| 昌黎县| 安国市| 沧州市| 玉溪市| 台江县| 日喀则市| 淳化县| 盐城市| 恭城| 卢龙县| 德江县| 含山县| 左云县| 九龙坡区| 平阴县| 如东县| 孟州市| 穆棱市| 前郭尔| 乡城县| 遂昌县| 曲麻莱县|