基于聚類和決策樹算法的成績影響因素分析

2013-10-24 07:32:40張莉

中國石油大學(xué)勝利學(xué)院學(xué)報 2013年2期

張莉

（中國石油大學(xué)勝利學(xué)院信息與計算科學(xué)系，山東東營257000）

學(xué)生在校成績是學(xué)校教學(xué)質(zhì)量和學(xué)生掌握知識程度的直觀體現(xiàn)。隨著社會的發(fā)展，外界因素對在校生成績在廣度和深度上影響越來越大。對影響因素分析，使用數(shù)據(jù)挖掘技術(shù)挖掘出影響成績的關(guān)鍵因素，將結(jié)果反饋到教學(xué)中，通過改善教學(xué)方法等手段提高教學(xué)質(zhì)量。

1 數(shù)據(jù)挖掘

數(shù)據(jù)挖掘（data mining）是從大量的、不完全的、有噪聲的、模糊的、隨機的數(shù)據(jù)中提取隱含在其中的、人們事先不知道的、但又是潛在有用的信息和知識的過程［1］。

數(shù)據(jù)挖掘方法是由人工智能、機器學(xué)習(xí)的方法發(fā)展而來，結(jié)合傳統(tǒng)的統(tǒng)計分析方法、模糊數(shù)學(xué)方法以及科學(xué)計算可視化技術(shù)等，以數(shù)據(jù)庫為研究對象，形成了數(shù)據(jù)挖掘的方法和技術(shù)。數(shù)據(jù)挖掘的方法和技術(shù)主要包括：統(tǒng)計分析方法、關(guān)聯(lián)規(guī)則方法、決策樹方法、神經(jīng)網(wǎng)絡(luò)法、粗糙集理論方法、遺傳算法、可視化技術(shù)等［2］。

2 K-means算法的成績定性評價

聚類分析是數(shù)據(jù)挖掘中的一種分析方法，根據(jù)樣本對象關(guān)聯(lián)的標(biāo)準(zhǔn)相似性自動分為多類，同一類中的樣本對象有較高的相似度，類間的樣本對象相異。聚類的方法主要有：以劃分為基礎(chǔ)的K-means聚類算法，以層次為基礎(chǔ)的聚類算法，以密度為基礎(chǔ)的方法等［3］，筆者將采用K-means聚類算法進行成績定性評價。

2.1 K-means算法評價函數(shù)的優(yōu)化

K-means算法即已知數(shù)據(jù)庫包含n個數(shù)據(jù)樣本，給定聚類個數(shù)k，對每個數(shù)據(jù)樣本計算其應(yīng)該屬于的類，得到滿足方差最小標(biāo)準(zhǔn)的k個聚類。

K-means算法是無監(jiān)督算法，一般使用性能評價函數(shù)對數(shù)據(jù)樣本的聚類結(jié)果進行有效性評價。若采用的評價函數(shù)不能準(zhǔn)確反映聚類質(zhì)量，則會在很大程度上影響算法的有效性和準(zhǔn)確性。針對樣本數(shù)據(jù)結(jié)構(gòu)特點，重新定義一種新的評價性能函數(shù)應(yīng)用到K-means算法中，對參數(shù)k進行優(yōu)化。

2.1.1 確定初始聚類中心

對K-means算法中的最初分類個數(shù)k設(shè)定為2，從樣本對象集合中抽取k個樣本點，計算出樣本數(shù)據(jù)的原始分類點。對樣本中心進行再計算直到樣本中心不再變化，然后對聚類結(jié)果進行評價計算。若計算結(jié)果增加則說明得到了更優(yōu)的聚類結(jié)果，讓k自增執(zhí)行循環(huán)，直到二者成反比，即隨著k的增加得到負增加的計算結(jié)果，結(jié)束所有運算?？梢酝ㄟ^計算數(shù)據(jù)分布相異值，防止類中出現(xiàn)樣本過多或過少的不平衡現(xiàn)象。數(shù)據(jù)分布相異值的計算公式為

式中，Ni、Nj為第i與第j類中含樣本數(shù)據(jù)的個數(shù)；參數(shù)q為類的數(shù)量。

2.1.2 計算不同類間差異值

聚類的結(jié)果就是對數(shù)據(jù)集合進行劃分，劃分后保證不同類間的數(shù)據(jù)差異度高，而同一類中的數(shù)據(jù)相異度低，即具有較高的相象度?？赏ㄟ^類間差異度和類內(nèi)差異度的計算對分類結(jié)果進行評價：

式中，xij為屬于j類的樣本點xi；ci和cj為類的中心值。

2.1.3 確定評定函數(shù)

通過計算評定值

可讓聚類的結(jié)果值達到最優(yōu)，評定值與結(jié)果成反比，評定值越小聚類結(jié)果值越優(yōu)。

2.2 聚類結(jié)果

本文中隨機選取了某學(xué)校某教學(xué)班100名同學(xué)的相關(guān)學(xué)籍信息及某學(xué)期各門課的平均成績作為研究數(shù)據(jù)庫，對學(xué)生信息成績表的屬性字段“性別”、“上課出勤次數(shù)”、“四六級通過”、“生源地”進行無量綱化處理，優(yōu)化得到指標(biāo)值μi：

式中，νmax和νmin為特征值μi的最大值和最小值；指標(biāo)值μi位于0和1之間。

處理得到的學(xué)生信息成績表如表1所示，屬性間具有橫向可比性。對表中數(shù)據(jù)應(yīng)用聚類算法聚類后得到優(yōu)、良、中、差四種聚類結(jié)果，如圖1所示。

表1 學(xué)生信息成績表

圖1 聚類結(jié)果示意圖

3 ID3算法的屬性影響分析

3.1 屬性選擇度量

ID3算法是決策樹算法中最常使用的一種，用信息增益作為屬性選擇度量。計算所有屬性的信息增益值，選擇值最高的屬性作為樹的節(jié)點進行分裂。

設(shè)有一數(shù)據(jù)集合，集合中有S個數(shù)據(jù)對象，將它們劃分成C個類，每一個類Ci中有Si個數(shù)據(jù)對象，每一類中樣本數(shù)據(jù)的期望信息值為

式中，參數(shù)Pi為任意樣本屬于類Ci的概率。

設(shè)屬性U具有m個不同值。根據(jù)不同的屬性值Ui將數(shù)據(jù)集合S劃分成m個數(shù)據(jù)子集。假定某一屬性Ui為一分裂屬性，數(shù)據(jù)子集｛S1，S2，…，Sm｝就是從某一屬性根節(jié)點生成的新葉節(jié)點。根據(jù)屬性U劃分得到的某一數(shù)據(jù)子集的熵或期望信息值：

數(shù)據(jù)集合S通過屬性U劃分后由下式計算信息增益值：

3.2 計算結(jié)果分析

由ID3算法進行相關(guān)運算，得到不同屬性的信息增益值：

Gain（上課出勤次數(shù)）＝I（S1，S2，S3，S4）-E（上課出勤次數(shù)）＝1·972048-1·479893＝0·492155

Gain（四六級通過情況）＝I（S1，S2，S3，S4）-E（四六級通過情況）＝1·972048-1·836696＝0·315352

Gain（生源地）＝I（S1，S2，S3，S4）-E（生源地）＝1·972048-1·85877＝0·113278

Gain（性別）＝I（S1，S2，S3，S4）-E（性別）＝1·972048-1·921978＝0·05007

根據(jù)計算結(jié)果，選擇信息增益值最大的屬性“上課出勤次數(shù)”作為決策樹的根節(jié)點，其余屬性根據(jù)其相應(yīng)的增益值依此遞增最終形成一棵完整決策樹（圖2）。

圖2 決策樹分析模型

根據(jù)此決策樹進行分析，可見學(xué)生成績跟上課出勤情況關(guān)系最大，四六級通過情況、性別、生源地等雖然也會對成績有影響，但影響不大。針對決策樹的結(jié)果可以對屬性進行處理，去除對成績影響非常小或根本無關(guān)的屬性，挑選關(guān)聯(lián)大的屬性繼續(xù)分析，并可根據(jù)各屬性對成績的影響力進行排序，得到有價值的信息應(yīng)用于教學(xué)。

4 結(jié)束語

應(yīng)用數(shù)據(jù)挖掘技術(shù)對學(xué)生成績進行分析，首先通過聚類算法對學(xué)生成績數(shù)據(jù)進行分類，并對分類后的結(jié)果使用ID3算法建立決策樹深入分析，得到影響成績的關(guān)鍵因素是上課出勤，其他因素雖然對成績有影響，但影響得很小。通過聚類和決策樹算法對影響學(xué)生成績的因素進行分析，可將藏匿于海量數(shù)據(jù)中的有用信息挖掘出來，促進學(xué)校教學(xué)工作的進一步提升。

［1］范明，孟小峰.數(shù)據(jù)挖掘概念與技術(shù)［M］.北京：機械工業(yè)出版社，2007：26.

［2］陳文偉.數(shù)據(jù)挖掘技術(shù)［M］.北京：北京工業(yè)大學(xué)出版社，2003：32.

［3］袁方，周志勇，宋鑫.初始聚類中心優(yōu)化的K-means算法［J］.計算機工程，2007，33（3）：65-66.