• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      基于聚類和決策樹算法的成績影響因素分析

      2013-10-24 07:32:40
      關(guān)鍵詞:決策樹數(shù)據(jù)挖掘聚類

      張 莉

      (中國石油大學(xué)勝利學(xué)院 信息與計算科學(xué)系,山東 東營257000)

      學(xué)生在校成績是學(xué)校教學(xué)質(zhì)量和學(xué)生掌握知識程度的直觀體現(xiàn)。隨著社會的發(fā)展,外界因素對在校生成績在廣度和深度上影響越來越大。對影響因素分析,使用數(shù)據(jù)挖掘技術(shù)挖掘出影響成績的關(guān)鍵因素,將結(jié)果反饋到教學(xué)中,通過改善教學(xué)方法等手段提高教學(xué)質(zhì)量。

      1 數(shù)據(jù)挖掘

      數(shù)據(jù)挖掘(data mining)是從大量的、不完全的、有噪聲的、模糊的、隨機的數(shù)據(jù)中提取隱含在其中的、人們事先不知道的、但又是潛在有用的信息和知識的過程[1]。

      數(shù)據(jù)挖掘方法是由人工智能、機器學(xué)習(xí)的方法發(fā)展而來,結(jié)合傳統(tǒng)的統(tǒng)計分析方法、模糊數(shù)學(xué)方法以及科學(xué)計算可視化技術(shù)等,以數(shù)據(jù)庫為研究對象,形成了數(shù)據(jù)挖掘的方法和技術(shù)。數(shù)據(jù)挖掘的方法和技術(shù)主要包括:統(tǒng)計分析方法、關(guān)聯(lián)規(guī)則方法、決策樹方法、神經(jīng)網(wǎng)絡(luò)法、粗糙集理論方法、遺傳算法、可視化技術(shù)等[2]。

      2 K-means算法的成績定性評價

      聚類分析是數(shù)據(jù)挖掘中的一種分析方法,根據(jù)樣本對象關(guān)聯(lián)的標(biāo)準(zhǔn)相似性自動分為多類,同一類中的樣本對象有較高的相似度,類間的樣本對象相異。聚類的方法主要有:以劃分為基礎(chǔ)的K-means聚類算法,以層次為基礎(chǔ)的聚類算法,以密度為基礎(chǔ)的方法等[3],筆者將采用K-means聚類算法進行成績定性評價。

      2.1 K-means算法評價函數(shù)的優(yōu)化

      K-means算法即已知數(shù)據(jù)庫包含n個數(shù)據(jù)樣本,給定聚類個數(shù)k,對每個數(shù)據(jù)樣本計算其應(yīng)該屬于的類,得到滿足方差最小標(biāo)準(zhǔn)的k個聚類。

      K-means算法是無監(jiān)督算法,一般使用性能評價函數(shù)對數(shù)據(jù)樣本的聚類結(jié)果進行有效性評價。若采用的評價函數(shù)不能準(zhǔn)確反映聚類質(zhì)量,則會在很大程度上影響算法的有效性和準(zhǔn)確性。針對樣本數(shù)據(jù)結(jié)構(gòu)特點,重新定義一種新的評價性能函數(shù)應(yīng)用到K-means算法中,對參數(shù)k進行優(yōu)化。

      2.1.1 確定初始聚類中心

      對K-means算法中的最初分類個數(shù)k設(shè)定為2,從樣本對象集合中抽取k個樣本點,計算出樣本數(shù)據(jù)的原始分類點。對樣本中心進行再計算直到樣本中心不再變化,然后對聚類結(jié)果進行評價計算。若計算結(jié)果增加則說明得到了更優(yōu)的聚類結(jié)果,讓k自增執(zhí)行循環(huán),直到二者成反比,即隨著k的增加得到負增加的計算結(jié)果,結(jié)束所有運算??梢酝ㄟ^計算數(shù)據(jù)分布相異值,防止類中出現(xiàn)樣本過多或過少的不平衡現(xiàn)象。數(shù)據(jù)分布相異值的計算公式為

      式中,Ni、Nj為第i與第j類中含樣本數(shù)據(jù)的個數(shù);參數(shù)q為類的數(shù)量。

      2.1.2 計算不同類間差異值

      聚類的結(jié)果就是對數(shù)據(jù)集合進行劃分,劃分后保證不同類間的數(shù)據(jù)差異度高,而同一類中的數(shù)據(jù)相異度低,即具有較高的相象度??赏ㄟ^類間差異度和類內(nèi)差異度的計算對分類結(jié)果進行評價:

      式中,xij為屬于j類的樣本點xi;ci和cj為類的中心值。

      2.1.3 確定評定函數(shù)

      通過計算評定值

      可讓聚類的結(jié)果值達到最優(yōu),評定值與結(jié)果成反比,評定值越小聚類結(jié)果值越優(yōu)。

      2.2 聚類結(jié)果

      本文中隨機選取了某學(xué)校某教學(xué)班100名同學(xué)的相關(guān)學(xué)籍信息及某學(xué)期各門課的平均成績作為研究數(shù)據(jù)庫,對學(xué)生信息成績表的屬性字段“性別”、“上課出勤次數(shù)”、“四六級通過”、“生源地”進行無量綱化處理,優(yōu)化得到指標(biāo)值μi:

      式中,νmax和νmin為特征值μi的最大值和最小值;指標(biāo)值μi位于0和1之間。

      處理得到的學(xué)生信息成績表如表1所示,屬性間具有橫向可比性。對表中數(shù)據(jù)應(yīng)用聚類算法聚類后得到優(yōu)、良、中、差四種聚類結(jié)果,如圖1所示。

      表1 學(xué)生信息成績表

      圖1 聚類結(jié)果示意圖

      3 ID3算法的屬性影響分析

      3.1 屬性選擇度量

      ID3算法是決策樹算法中最常使用的一種,用信息增益作為屬性選擇度量。計算所有屬性的信息增益值,選擇值最高的屬性作為樹的節(jié)點進行分裂。

      設(shè)有一數(shù)據(jù)集合,集合中有S個數(shù)據(jù)對象,將它們劃分成C個類,每一個類Ci中有Si個數(shù)據(jù)對象,每一類中樣本數(shù)據(jù)的期望信息值為

      式中,參數(shù)Pi為任意樣本屬于類Ci的概率。

      設(shè)屬性U具有m個不同值。根據(jù)不同的屬性值Ui將數(shù)據(jù)集合S劃分成m個數(shù)據(jù)子集。假定某一屬性Ui為一分裂屬性,數(shù)據(jù)子集{S1,S2,…,Sm}就是從某一屬性根節(jié)點生成的新葉節(jié)點。根據(jù)屬性U劃分得到的某一數(shù)據(jù)子集的熵或期望信息值:

      數(shù)據(jù)集合S通過屬性U劃分后由下式計算信息增益值:

      3.2 計算結(jié)果分析

      由ID3算法進行相關(guān)運算,得到不同屬性的信息增益值:

      Gain(上課出勤次數(shù))=I(S1,S2,S3,S4)-E(上課出勤次數(shù))=1·972048-1·479893=0·492155

      Gain(四六級通過情況)=I(S1,S2,S3,S4)-E(四六級通過情況)=1·972048-1·836696=0·315352

      Gain(生源地)=I(S1,S2,S3,S4)-E(生源地)=1·972048-1·85877=0·113278

      Gain(性別)=I(S1,S2,S3,S4)-E(性別)=1·972048-1·921978=0·05007

      根據(jù)計算結(jié)果,選擇信息增益值最大的屬性“上課出勤次數(shù)”作為決策樹的根節(jié)點,其余屬性根據(jù)其相應(yīng)的增益值依此遞增最終形成一棵完整決策樹(圖2)。

      圖2 決策樹分析模型

      根據(jù)此決策樹進行分析,可見學(xué)生成績跟上課出勤情況關(guān)系最大,四六級通過情況、性別、生源地等雖然也會對成績有影響,但影響不大。針對決策樹的結(jié)果可以對屬性進行處理,去除對成績影響非常小或根本無關(guān)的屬性,挑選關(guān)聯(lián)大的屬性繼續(xù)分析,并可根據(jù)各屬性對成績的影響力進行排序,得到有價值的信息應(yīng)用于教學(xué)。

      4 結(jié)束語

      應(yīng)用數(shù)據(jù)挖掘技術(shù)對學(xué)生成績進行分析,首先通過聚類算法對學(xué)生成績數(shù)據(jù)進行分類,并對分類后的結(jié)果使用ID3算法建立決策樹深入分析,得到影響成績的關(guān)鍵因素是上課出勤,其他因素雖然對成績有影響,但影響得很小。通過聚類和決策樹算法對影響學(xué)生成績的因素進行分析,可將藏匿于海量數(shù)據(jù)中的有用信息挖掘出來,促進學(xué)校教學(xué)工作的進一步提升。

      [1]范明,孟小峰.數(shù)據(jù)挖掘概念與技術(shù)[M].北京:機械工業(yè)出版社,2007:26.

      [2]陳文偉.數(shù)據(jù)挖掘技術(shù)[M].北京:北京工業(yè)大學(xué)出版社,2003:32.

      [3]袁方,周志勇,宋鑫.初始聚類中心優(yōu)化的K-means算法[J].計算機工程,2007,33(3):65-66.

      猜你喜歡
      決策樹數(shù)據(jù)挖掘聚類
      探討人工智能與數(shù)據(jù)挖掘發(fā)展趨勢
      一種針對不均衡數(shù)據(jù)集的SVM決策樹算法
      決策樹和隨機森林方法在管理決策中的應(yīng)用
      電子制作(2018年16期)2018-09-26 03:27:06
      基于DBSACN聚類算法的XML文檔聚類
      電子測試(2017年15期)2017-12-18 07:19:27
      基于并行計算的大數(shù)據(jù)挖掘在電網(wǎng)中的應(yīng)用
      電力與能源(2017年6期)2017-05-14 06:19:37
      基于決策樹的出租車乘客出行目的識別
      基于改進的遺傳算法的模糊聚類算法
      一種基于Hadoop的大數(shù)據(jù)挖掘云服務(wù)及應(yīng)用
      基于肺癌CT的決策樹模型在肺癌診斷中的應(yīng)用
      一種層次初始的聚類個數(shù)自適應(yīng)的聚類方法研究
      和田市| 洛扎县| 满城县| 海城市| 隆昌县| 贡觉县| 鄢陵县| 正镶白旗| 长岭县| 鄂伦春自治旗| 金川县| 万源市| 凤城市| 独山县| 黄梅县| 岳阳县| 桓台县| 芜湖县| 吉木萨尔县| 神木县| 霍邱县| 山东| 津市市| 峨边| 通辽市| 海南省| 徐水县| 汾阳市| 醴陵市| 仁怀市| 黑山县| 温宿县| 张家川| 东港市| 布尔津县| 肇源县| 凭祥市| 盐边县| 拉萨市| 易门县| 东兰县|